Prévia do material em texto
ANÁLISE EXPLORATÓRIA DE DADOS 1.0 Conceitos A estatística descritiva tem o objetivo de organizar, resumir e apresentar de forma adequada os dados, para que estes se tornem informativos. A análise exploratória de dados descreve os dados e busca conhecer algumas características do processo, com base nos dados. Com o uso adequado de tabelas, gráficos e medidas, podemos descobrir certas estruturas que não eram evidentes nos dados brutos. Mineração de dados (data mining) significa a busca por relacionamentos não triviais, que podem estar escondidos em grandes massas de dados, utilizando-se de técnicas estatísticas e computacionais. 2.0 Dados e variáveis Depois de realizado um levantamento de dados, eles são colocados em arquivos, sob a forma de matrizes. As linhas dessas matrizes correspondem ao que se observou em cada elemento pesquisado, enquanto as colunas correspondem às características (variáveis) levantadas. Os dados podem ser observações de variáveis qualitativas ou de variáveis quantitativas, e as técnicas de análise são diferentes para cada caso. Quando os possíveis resultados de uma variável são números de certa escala, dizemos que essa variável é quantitativa, e quando são atributos ou qualidade, a variável é dita qualitativa. Distribuição de frequências consiste na organização dos dados de acordo com as ocorrências dos diferentes resultados observados. A contagem de quantos elementos existem em cada categoria forma uma distribuição de frequência dos dados dessa variável, que pode ser apresentada em uma tabela ou um gráfico. Elas podem ser apresentadas de forma absoluta ou de forma relativa. Frequência absoluta é preferida quando o número de observações é pequeno. Por outro lado, utiliza-se frequência relativa quando deseja-se fazer comparações. 3.0 Análise de variáveis qualitativas Variáveis qualitativas são aquelas cujos possíveis resultados são observados na forma de categoria. Para construir uma distribuição de frequências com os dados de uma variável qualitativa, basta contar a quantidade de resultados observados em cada categoria. Numa tabela de frequência, a primeira coluna mostra todas as categorias previamente estabelecidas de uma variável. A segunda coluna resulta da contagem de quantas observações se identificam com cada categoria (frequências absolutas). A terceira coluna apresenta uma medida relativa da frequência de cada categoria, definida por: As frequências relativas são particularmente importantes para comparar distribuições de frequências. Categorias Frequência Frequência relativa (%) A x 100*x/t B y 100*y/t ... ... ... N z 100*z/t Total t (x+y+...+z) 100% As representações gráficas fornecem, em geral, visualização mais sugestiva do que as tabelas. São formas alternativas de apresentar uma distribuição de frequências. Da mesma forma que tabelas, os gráficos devem conter um título, contendo as informações pertinentes. Eles costumam ser referenciados num texto como figuras. A posição do título de uma figura deve ser embaixo dela. No gráfico de colunas as categorias são representadas por uma coluna e a frequência (absoluta ou relativa) é colocada o eixo vertical. Alternativamente, o eixo horizontal poderia representar a escala das frequências e o eixo vertical, as categorias. Estaríamos construindo o gráfico de barras. O gráfico de setores é construído através de uma relação linear (regra de 3) entre as frequências e comprimentos (em graus) de setores de um círculo. É particularmente útil quando o número de categorias não é grande e não obedecem a alguma ordem específica. Diagrama de Pareto corresponde ao gráfico de colunas ou de barras, mas as categorias são ordenadas decrescentemente pelas frequências observadas. É usado nos processos produtivos, em postos de avaliação da qualidade, colocando hierarquicamente os problemas encontrados pela falta de qualidade. É mais comum priorizar os problemas da qualidade em termos financeiros. 4.0 Análise de variáveis quantitativas Uma variável é dita quantitativa quando os possíveis resultados são números em certa escala. As observações dessas variáveis são dados quantitativos. A distribuição de frequências de variáveis discretas pode ser feita de forma análoga à distribuição de frequências de variáveis qualitativas, mas como os valores da variável formam uma escala numérica, temos, graficamente, um par de eixos cartesianos. Por convenção o eixo horizontal representa a variável e o eixo vertical, as frequências. Normalmente 3 informações principais são procuradas quando estamos explorando uma variável quantitativa: Faixa em que os valores ocorrem com maior frequência (faixa de valores típicos). Valores discrepantes, que podem ter sido originados de erros de mensuração ou digitação, mas também podem corresponder a elementos que apresentam comportamento muito diferente dos demais. Forma da distribuição, a fim de compará-la com modelos probabilísticos, o que nos permite usar técnicas mais avançadas de análise. A distribuição de frequências de variáveis contínuas é feita dividindo a amplitude total dos dados (diferença entre o maior e o menor valor) em vários intervalos, denominados classes. Esses intervalos devem ser mutuamente exclusivos, exaustivos e de preferência ter o mesmo tamanho. O número de classes a ser usado na tabela de frequências é uma escolha arbitrária. Quanto maior o conjunto de dados, mais classes podem ser usadas. Em geral, são empregadas de 5 a 20 classes, dependendo da quantidade de dados e dos objetivos. Dentro dessa faixa, é sugestão usar aproximadamente Onde n representa a quantidade de valores observados. O passo seguinte é contar quantos valores encontram-se em cada classe previamente estabelecida. Como os dados são arredondados para um número finito de decimais, podem ocorrer valores exatamente no limite entre duas classes. Por convenção considera-se sempre o intervalo fechado no limite inferior e aberto no limite superior. O ponto médio das classes é a média dos limites de cada classe; ele representa o valor típico da classe. A frequência relativa acumulada é obtida por: Histograma é a forma mais usual de apresentação de distribuições de frequências de variáveis contínuas. São retângulos justapostos, feitos sobre as classes de variável em estudo. A área dos retângulos é igual ou proporcional à frequência observada da correspondente classe. O histograma pode ser feito usando percentagens no eixo vertical, mas sua forma não mudaria. Diagrama de pontos é uma forma simples de observar poucas observações se distribuem, onde representa-se cada valor como um ponto na reta de números reais. Essa estratégia torna-se inadequada quando o número de observações é grande. 4.1 Características de uma distribuição Ao confrontarmos a distribuição observada com vários modelos teóricos existentes, temos uma idéia de qual modelo seria o mais adequado para explicar o comportamento da variável estudada. Na investigação sobre a forma da distribuição, várias características devem ser observadas. As principais são: Posição central: informa onde se localiza o centro da distribuição. Dispersão: se refere à variabilidade dos dados. Assimetria: representa a concentração dos valores em um dos extremos da distribuição. Curtose: grau de achatamento da distribuição. 5.0 Medidas descritivas Média aritmética: resume os dados de forma a torná-los mais informativos. Indica o centro de um conjunto de valores, considerando o conceito físicode centro de gravidade. Ela resume o conjunto de dados, em termos de posição central, ou de valor típico, mas não fornece qualquer informação sobre outros aspectos da distribuição. Além disso, ela perde sua função quando existem valores discrepantes. 5.1 Medidas de dispersão Amplitude: diferença entre o maior e menor valor: Como ela é calculado usando apenas 2 valores mais extremos, ela pode levar a conclusões errôneas quando existirem valores discrepantes. Medidas mais adequadas são a variância e o desvio padrão. A variância e o desvio padrão são medidas que fornecem informações complementares à informação contida na média aritmética. Essas medidas avaliam a dispersão do conjunto de valores em análise. O desvio padrão será sempre não negativo e será tão maior quanto mais dispersos forem os valores observados. Para evitar erros de arredondamento, podemos usar a seguinte fórmula alternativa para o cálculo do desvio padrão, que é matematicamente equivalente à: Prova: 5.2 Medidas baseadas na ordenação dos dados Mediana: avalia o centro de um conjunto de valores, sob o critério de ser o valor que divide a distribuição ao meio, deixando os 50% menores valores de um lado e os 50% maiores valores do outro lado. É o valor que ocupa a posição (n+1)/2, considerando os dados ordenados. Se o valor dessa expressão for fracionário, a mediana é definida como a média dos 2 valores de posições mais próximas a (n+1)/2. Entre a média e a mediana, para variáveis com distribuições razoavelmente simétricas, a média é a medida de posição central mais adequada, porque usa o máximo da informação contida nos dados, ela sua propriamente a magnitude dos valores, enquanto a mediana utiliza somente a ordenação dos valores. 5.3 Quartis e extremos Extremo inferior: menor valor do conjunto de valores, o . Extremo superior: maior valor do conjunto de valores, o . Primeiro quartil ou quartil inferior (qi): valor que delimita os 25% menores valores. Terceiro quartil ou quartil superior (qs): valor que delimita os 25% maiores valores. Segundo quartil ou quartil do meio é a própria mediana, que separa os 50% menores e maiores valores. Quando os resultados das operações acima são fracionários, fazemos uma interpolação linear com os valores de posições vizinhas ao resultado da fração. 5.4 Diagrama em caixas Desvio interquartílico é dado por: O diagrama de caixas é um retângulo que representa o desvio interquartílico. Este retângulo representa a faixa dos 50% dos valores mais típicos de distribuição. O retângulo é dividido no valor correspondente a mediana, assim ele indica o quartil inferior, a mediana e o quartil superior. Entre os quartis e os extremos são traçadas linhas e, caso existam valores discrepantes (além de 1,5dq), a linha é traçada até o último valor não discrepante, e os valores discrepantes são indicados por pontos. Eventuais pontos muito distantes (além de 3dq) são normalmente representados por símbolos diferentes para serem bem destacados.