Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

ANÁLISE EXPLORATÓRIA DE DADOS 
 
1.0 Conceitos 
 
A estatística descritiva tem o objetivo de organizar, resumir e apresentar de forma adequada 
os dados, para que estes se tornem informativos. 
A análise exploratória de dados descreve os dados e busca conhecer algumas características 
do processo, com base nos dados. Com o uso adequado de tabelas, gráficos e medidas, 
podemos descobrir certas estruturas que não eram evidentes nos dados brutos. 
Mineração de dados (data mining) significa a busca por relacionamentos não triviais, que 
podem estar escondidos em grandes massas de dados, utilizando-se de técnicas estatísticas e 
computacionais. 
 
2.0 Dados e variáveis 
 
Depois de realizado um levantamento de dados, eles são colocados em arquivos, sob a forma 
de matrizes. As linhas dessas matrizes correspondem ao que se observou em cada elemento 
pesquisado, enquanto as colunas correspondem às características (variáveis) levantadas. 
Os dados podem ser observações de variáveis qualitativas ou de variáveis quantitativas, e as 
técnicas de análise são diferentes para cada caso. Quando os possíveis resultados de uma 
variável são números de certa escala, dizemos que essa variável é quantitativa, e quando são 
atributos ou qualidade, a variável é dita qualitativa. 
Distribuição de frequências consiste na organização dos dados de acordo com as ocorrências 
dos diferentes resultados observados. A contagem de quantos elementos existem em cada 
categoria forma uma distribuição de frequência dos dados dessa variável, que pode ser 
apresentada em uma tabela ou um gráfico. Elas podem ser apresentadas de forma absoluta ou 
de forma relativa. Frequência absoluta é preferida quando o número de observações é 
pequeno. Por outro lado, utiliza-se frequência relativa quando deseja-se fazer comparações. 
 
 
 
 
 
3.0 Análise de variáveis qualitativas 
 
Variáveis qualitativas são aquelas cujos possíveis resultados são observados na forma de 
categoria. 
Para construir uma distribuição de frequências com os dados de uma variável qualitativa, basta 
contar a quantidade de resultados observados em cada categoria. 
Numa tabela de frequência, a primeira coluna mostra todas as categorias previamente 
estabelecidas de uma variável. A segunda coluna resulta da contagem de quantas observações 
se identificam com cada categoria (frequências absolutas). A terceira coluna apresenta uma 
medida relativa da frequência de cada categoria, definida por: 
 
 
 
 
As frequências relativas são particularmente importantes para comparar distribuições de 
frequências. 
Categorias Frequência Frequência relativa (%) 
A x 100*x/t 
B y 100*y/t 
... ... ... 
N z 100*z/t 
Total t (x+y+...+z) 100% 
 
As representações gráficas fornecem, em geral, visualização mais sugestiva do que as tabelas. 
São formas alternativas de apresentar uma distribuição de frequências. Da mesma forma que 
tabelas, os gráficos devem conter um título, contendo as informações pertinentes. Eles 
costumam ser referenciados num texto como figuras. A posição do título de uma figura deve 
ser embaixo dela. 
No gráfico de colunas as categorias são representadas por uma coluna e a frequência 
(absoluta ou relativa) é colocada o eixo vertical. Alternativamente, o eixo horizontal poderia 
representar a escala das frequências e o eixo vertical, as categorias. Estaríamos construindo o 
gráfico de barras. 
 
O gráfico de setores é construído através de uma relação linear (regra de 3) entre as 
frequências e comprimentos (em graus) de setores de um círculo. É particularmente útil 
quando o número de categorias não é grande e não obedecem a alguma ordem específica. 
 
Diagrama de Pareto corresponde ao gráfico de colunas ou de barras, mas as categorias são 
ordenadas decrescentemente pelas frequências observadas. É usado nos processos 
produtivos, em postos de avaliação da qualidade, colocando hierarquicamente os problemas 
encontrados pela falta de qualidade. É mais comum priorizar os problemas da qualidade em 
termos financeiros. 
 
4.0 Análise de variáveis quantitativas 
 
Uma variável é dita quantitativa quando os possíveis resultados são números em certa escala. 
As observações dessas variáveis são dados quantitativos. 
A distribuição de frequências de variáveis discretas pode ser feita de forma análoga à 
distribuição de frequências de variáveis qualitativas, mas como os valores da variável formam 
uma escala numérica, temos, graficamente, um par de eixos cartesianos. Por convenção o eixo 
horizontal representa a variável e o eixo vertical, as frequências. 
Normalmente 3 informações principais são procuradas quando estamos explorando uma 
variável quantitativa: 
 Faixa em que os valores ocorrem com maior frequência (faixa de valores típicos). 
 Valores discrepantes, que podem ter sido originados de erros de mensuração ou 
digitação, mas também podem corresponder a elementos que apresentam 
comportamento muito diferente dos demais. 
 Forma da distribuição, a fim de compará-la com modelos probabilísticos, o que nos 
permite usar técnicas mais avançadas de análise. 
A distribuição de frequências de variáveis contínuas é feita dividindo a amplitude total dos 
dados (diferença entre o maior e o menor valor) em vários intervalos, denominados classes. 
Esses intervalos devem ser mutuamente exclusivos, exaustivos e de preferência ter o mesmo 
tamanho. 
O número de classes a ser usado na tabela de frequências é uma escolha arbitrária. Quanto 
maior o conjunto de dados, mais classes podem ser usadas. Em geral, são empregadas de 5 a 
20 classes, dependendo da quantidade de dados e dos objetivos. Dentro dessa faixa, é 
sugestão usar aproximadamente 
 
Onde n representa a quantidade de valores observados. O passo seguinte é contar quantos 
valores encontram-se em cada classe previamente estabelecida. Como os dados são 
arredondados para um número finito de decimais, podem ocorrer valores exatamente no 
limite entre duas classes. Por convenção considera-se sempre o intervalo fechado no limite 
inferior e aberto no limite superior. 
O ponto médio das classes é a média dos limites de cada classe; ele representa o valor típico 
da classe. 
A frequência relativa acumulada é obtida por: 
 
 
 
 
 
Histograma é a forma mais usual de apresentação de distribuições de frequências de variáveis 
contínuas. São retângulos justapostos, feitos sobre as classes de variável em estudo. A área 
dos retângulos é igual ou proporcional à frequência observada da correspondente classe. O 
histograma pode ser feito usando percentagens no eixo vertical, mas sua forma não mudaria. 
 
Diagrama de pontos é uma forma simples de observar poucas observações se distribuem, 
onde representa-se cada valor como um ponto na reta de números reais. Essa estratégia 
torna-se inadequada quando o número de observações é grande. 
 
4.1 Características de uma distribuição 
 
Ao confrontarmos a distribuição observada com vários modelos teóricos existentes, temos 
uma idéia de qual modelo seria o mais adequado para explicar o comportamento da variável 
estudada. Na investigação sobre a forma da distribuição, várias características devem ser 
observadas. As principais são: 
 Posição central: informa onde se localiza o centro da distribuição. 
 Dispersão: se refere à variabilidade dos dados. 
 Assimetria: representa a concentração dos valores em um dos extremos da 
distribuição. 
 Curtose: grau de achatamento da distribuição. 
 
5.0 Medidas descritivas 
 
Média aritmética: resume os dados de forma a torná-los mais informativos. Indica o centro de 
um conjunto de valores, considerando o conceito físicode centro de gravidade. Ela resume o 
conjunto de dados, em termos de posição central, ou de valor típico, mas não fornece 
qualquer informação sobre outros aspectos da distribuição. Além disso, ela perde sua função 
quando existem valores discrepantes. 
 
 
 
 
 
5.1 Medidas de dispersão 
 
Amplitude: diferença entre o maior e menor valor: 
 
Como ela é calculado usando apenas 2 valores mais extremos, ela pode levar a conclusões 
errôneas quando existirem valores discrepantes. Medidas mais adequadas são a variância 
e o desvio padrão. 
A variância e o desvio padrão são medidas que fornecem informações complementares à 
informação contida na média aritmética. Essas medidas avaliam a dispersão do conjunto de 
valores em análise. O desvio padrão será sempre não negativo e será tão maior quanto mais 
dispersos forem os valores observados. Para evitar erros de arredondamento, podemos usar a 
seguinte fórmula alternativa para o cálculo do desvio padrão, que é matematicamente 
equivalente à: 
 
 
 
 
 
 
 
 
 Prova: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5.2 Medidas baseadas na ordenação dos dados 
 
Mediana: avalia o centro de um conjunto de valores, sob o critério de ser o valor que divide a 
distribuição ao meio, deixando os 50% menores valores de um lado e os 50% maiores valores 
do outro lado. É o valor que ocupa a posição (n+1)/2, considerando os dados ordenados. Se o 
valor dessa expressão for fracionário, a mediana é definida como a média dos 2 valores de 
posições mais próximas a (n+1)/2. 
Entre a média e a mediana, para variáveis com distribuições razoavelmente simétricas, a 
média é a medida de posição central mais adequada, porque usa o máximo da informação 
contida nos dados, ela sua propriamente a magnitude dos valores, enquanto a mediana utiliza 
somente a ordenação dos valores. 
 
 
5.3 Quartis e extremos 
 
Extremo inferior: menor valor do conjunto de valores, o . 
Extremo superior: maior valor do conjunto de valores, o . 
Primeiro quartil ou quartil inferior (qi): valor que delimita os 25% menores valores. 
 
 
 
 
Terceiro quartil ou quartil superior (qs): valor que delimita os 25% maiores valores. 
 
 
 
 
Segundo quartil ou quartil do meio é a própria mediana, que separa os 50% menores e 
maiores valores. 
 
 
 
 
Quando os resultados das operações acima são fracionários, fazemos uma interpolação linear 
com os valores de posições vizinhas ao resultado da fração. 
 
5.4 Diagrama em caixas 
 
Desvio interquartílico é dado por: 
 
O diagrama de caixas é um retângulo que representa o desvio interquartílico. Este retângulo 
representa a faixa dos 50% dos valores mais típicos de distribuição. O retângulo é dividido no 
valor correspondente a mediana, assim ele indica o quartil inferior, a mediana e o quartil 
superior. Entre os quartis e os extremos são traçadas linhas e, caso existam valores 
discrepantes (além de 1,5dq), a linha é traçada até o último valor não discrepante, e os valores 
discrepantes são indicados por pontos. Eventuais pontos muito distantes (além de 3dq) são 
normalmente representados por símbolos diferentes para serem bem destacados.

Mais conteúdos dessa disciplina