Prévia do material em texto
PROVA DE MÉTODOS ESTATÍSTICOS RESUMO DO CONTEÚDO AULA 01 O QUE É? A estatística envolve técnicas para coletar, organizar, descrever, analisar e interpretar dados, ou provenientes de experimentos, ou vindos de estudos observacionais (Barbetta, 2019). PARA QUE SERVE? A estatística permite o entendimento da situação através da análise de dados levando a tomada de decisão. COMO É DIVIDIDA? Estatística descritiva, probabilidade e estatística inferencial. AULA 02 TIPOS DE VARIÁVEIS As variáveis são as características que podem ser observadas (ou medidas) em cada elemento da população, sob as mesmas condições. TIPOS DE QUESTÕES – ESCALAS QUALITATIVAS ESCALAS QUANTITATIVAS Escala intervalar: as categorias sucessivas representam níveis iguais da característica que está sendo mensurada e cujos valores de referência são arbitrários. Exemplo: temperaturas em graus Celsius e Fahrenheit. Escala de razão: possui todas as propriedades da escala intervalar, porém apresenta como origem o zero absoluto, cuja existência confere a característica de permitir ao pesquisador saber, por exemplo, se um número é o dobro ou o triplo do outro. Exemplos: Altura, peso, salários. AULA 03 POPULAÇÃO E AMOSTRA População: Conjunto dos elementos que se deseja abranger no estudo considerado. Exemplo: eleitores brasileiros. Amostra: Subconjunto dos elementos da população. Exemplo: uma parte dos eleitores brasileiros. Censo: Estudo através do exame de todos os elementos da população. Parâmetro - característica relacionada à população. • Média • Proporção • Desvio Padrão Estatística - característica relacionada à amostra. • Média x̅ • Proporção p̅ • Desvio Padrão s TÉCNICAS DE AMOSTRAGEM Amostragem probabilística (aleatória) - a probabilidade de um elemento da população ser escolhido é conhecida. Amostragem aleatória simples: cada elemento da população tem uma probabilidade conhecida e igual de ser selecionado. Tamanho de uma amostra: Amostragem sistemática: a amostra é escolhida selecionando-se um ponto de partida aleatório e tomando-se cada i-ésimo elemento sucessivamente. Amostragem estratificada divide a população em subpopulações ou estratos homogêneos e escolhem-se os elementos de cada estrato por um processo aleatório. A amostragem estratificada pode ser proporcional ou uniforme. Amostragem de conglomerados: a população pode ser dividida em subpopulações (conglomerados) heterogêneos representativos da população global. Amostragem não probabilística (não aleatória) - Não se conhece a probabilidade de um elemento da população ser escolhido para participar da amostra. Amostragem por conveniência: elementos selecionados por serem imediatamente disponíveis. Exemplo: Uma repórter entrevistando pessoas na rua. Amostragem por julgamento: uma pessoa experiente no assunto escolhe intencionalmente os elementos a serem amostrados. Exemplo: Novo produto “testado” entre funcionários. Amostragem Intencional: Selecionar um subgrupo da população, que com base nas informações disponíveis, possa ser considerado representativo de toda a população. Requer conhecimento da população e do subgrupo selecionado. Exemplo: entrevista com os representantes de turma do curso de Adm. Empr., aplicação de questionários com os líderes de turma. Amostragem por cotas: apresenta maior rigor dentre as amostragens não- probabilísticas; Etapas: classificar a população, determinar a proporção da população para cada classe, fixar cotas em observância à proporção das classes consideradas; é utilizada quando não existe um cadastro da população que possibilite a realização do sorteio necessário a amostragem aleatória, mas, ao mesmo tempo, existe informação suficiente sobre o perfil populacional. Ex.: Em geral é utilizada em pesquisa de mercado. OBS! Na amostragem não probabilística, os elementos da população não têm a mesma probabilidade de serem selecionados, portanto não há garantias da representatividade da população! E com isso não é possível calcular erro amostral e nível de confiança. AULA 04 ANÁLISE EXPLORATÓRIA – VARIÁVEIS QUALITATIVAS A estatística descritiva (análise exploratória de dados), tem como objetivo básico sintetizar uma série de valores de mesma natureza, permitindo dessa forma que se tenha uma visão global da variação desses valores, organiza e descreve os dados de três maneiras: por meio de tabelas, de gráficos e de medidas descritivas. ELEMENTOS ESSENCIAIS DE UMA TABELA: Título, cabeçalho, corpo e coluna indicadora. ELEMENTOS COMPLEMENTARES DE UMA TABELA: Fonte e notas. TABELAS DE FREQUÊNCIAS Fi = quantidade de variáveis que existem em cada linha. Fi% = quantidade em porcentagem que representa em relação ao todo. Diagrama de Pareto é uma forma de descrição gráfica em que procura-se identificar quais itens são responsáveis pela maior parcela dos problema. O diagrama de Pareto torna visivelmente clara a relação ação/benefício, ou seja, prioriza a ação que trará o melhor resultado. Ele consiste num gráfico de barras que ordena as frequências das ocorrências da maior para a menor e permite a localização de problemas vitais e a eliminação de perdas. AULA 05 ANÁLISE EXPLORATÓRIA – VARIÁEIS QUANTITATIVAS Ordenação mais básica ROL: é o arranjo dos dados brutos em ordem crescente DIAGRAMA DE RAMO E FOLHA: é um dispositivo semi-gráfico que estabelece uma forma de organização e apresentação de dados. O nome ramo e folhas deriva da forma como os valores são apresentados. Um ou mais dos dígitos mais significativos são escolhidos para compor os ramos e um ou mais dos dígitos menos significativos correspondentes aos mesmos ramos são denominadas folhas. AGRUPAMENTO DE CLASSES: No entanto nem sempre o número de classes é pequeno. Nos casos mais gerais, existem 3 etapas necessárias para definir as classes de uma distribuição de frequência com dados quantitativos: 1. Determinar o número de classes não sobrepostas. (k) a) Se n ≤ 25: devem ser criadas cinco classes de frequência; b) Se n > 25: o número de classes de frequência pode ser obtido mediante dois procedimentos distintos: k = √n ou k= 1 + 3,32.log(n). Esta última formula é apresentada como fórmula de Sturges. 2. Determinar a amplitude de cada classe. (h) Os intervalos das classes (h) são consequências diretas da amplitude total dos dados. h = (Maior – Menor)/k 3. Determinar os limites da classe. Os limites de classe devem ser escolhidos de modo que cada uma das observações pertença a uma e somente uma classe. Tipos de notações: 15 -| 21 apenas o 21 está incluído na classe. 15 |-| 21 o 15 e o 21 estão incluídos na classe. [12; 16[ o limite “[12” está incluído na classe já o limite “16[“ não está incluído. HISTOGRAMA: É um dos mais simples e úteis gráficos empregados na estatística. Representa as frequências simples ou relativas dos elementos tabulados ou agrupados em classes. POLÍGONO DE FREQUÊNCIAS GRÁFICO DE OGIVA: Apresenta uma distribuição de frequências acumuladas, utiliza uma poligonal ascendente utilizando os pontos extremos. Este gráfico é útil para verificar quantos elementos da amostra estão abaixo de uma determinada medida. TABULAÇÕES CRUZADAS E DIAGRAMAS DE DISPERSÃO: As tabulações cruzadas e os diagramas de dispersão são usados para sintetizar dados de maneira que revele a relação entre duas variáveis. DIAGRAMA DE DISPERSÃO E LINHA DE TENDÊNCIA: Um diagrama de dispersão é uma apresentação gráfica da relação existente entre duas variáveis, e uma linha de tendência é uma linha que fornece uma aproximação da relação. AULA 06 MEDIDAS ESTATÍSTICAS 1 – Medidas de Tendência Central Média aritmética: média comum de um conjunto numérico;Média ponderada: quando os dados tem “pesos”; Média geométrica: usada para achar taxas médias de variação, de crescimento, ou razões média. 2 – Medidas de Tendência não Central Apenas com as medidas de tendência central não é possível que o pesquisador tenha uma ideia clara de como a dispersão e a simetria dos dados se comportam. Então pode-se fazer uso das medidas não centrais chamadas de Quartis, Decis e Percentis. Quartis: são medidas de posição que dividem um conjunto de dados, dispostos em ordem crescente, em quatro partes com dimensões iguais. Decis: Os decis são medidas de posição que dividem um conjunto de dados, dispostos em ordem crescente, em dez partes iguais. Percentis: são medidas de posição que dividem um conjunto de dados, dispostos em ordem crescente, em cem partes iguais. Gráfico de caixa ou Box-Plot: 1) Calcular o quartil inferior (Qi), a mediana (Md) e o quartil superior (Qs). 2) Calcular a amplitude interquartílica (ou distância interquartílica) dq = Qs - Qi. 3) Verificar se há observações discrepantes. Especificamente, consideraremos os dados que sejam menores do que Qi -1,5. dq ou maiores que Qs +1,5. dq como sendo discrepantes do restante dos dados. São representados individualmente no gráfico de caixa por. 4) Calcular o limite inferior e superior dos dados sem considerar os valores discrepantes. 3 – Medidas de Dispersão Amplitude: representa a diferença entre o maior e o menor valor do conjunto de observações. A = máx - min Variância: é uma medida de dispersão dos dados em torno da média, ou seja, quanto maior seu valor, mais afastados os dados encontram-se da média da variável. Desvio Padrão: é a variabilidade média dos dados em relação à média. Que matematicamente é a raiz quadrada da variância. Coeficiente de Variação: é uma forma de se medir a variabilidade de uma variável de modo independente da unidade de medida utilizada ou da ordem de grandeza dos dados. 4 – Medidas de Forma Medidas de Posição: A primeira propriedade de uma variável em que normalmente estamos interessados refere-se a “posições” específicas na distribuição desta variável. Distribuições diferentes quanto a assimetria: x̅ = Mo = Md : distribuição simétrica x̅ > Md > Mo : assimetria positiva (assimétrica à direita) x̅ < Md < Mo : assimetria negativa (assimétrica à esquerda) AULA 07 MEDIDAS DE ASSOCIAÇÃO Variáveis qualitativas: a verificação de associação de variáveis qualitativas possui algumas peculiaridades e é diferenciada entre variáveis qualitativas nominais e qualitativas ordinais. Tabela de contingência = valores OBSERVADOS Cálculo dos valores ESPERADOS = total da linha i * total da coluna j / total geral Cálculo do X² para verificar se os valores observados estão próximos dos valores esperados = soma (observados – esperados)²/esperados fazer isso para cada item da tabela depois somar tudo = X² Coeficiente de contingência modificado: O coeficiente de contingência modificado varia de 0 (independente) até 1 (associação perfeita). Usualmente C* acima de 0,5 indicaria uma associação moderada para forte, o que bastaria para considerar que existe associação estatística entre variáveis. O valor-p é definido como a probabilidade de se observar um valor da estatística de teste maior ou igual ao encontrado. AULA 08 CORRELAÇÃO A correlação é usada para observar a relação que existe entre duas variáveis quantitativas (por exemplo: altura e peso). Como medir a correlação entre duas variáveis? Covariância (ver se elas variam conjuntamente) e Coeficiente de correlação Uma covariância positiva indica que quando uma variável se desvia da média, a outra variável se desvia na mesma direção. Por outro lado, uma covariância negativa indica que enquanto uma variável se desvia da média, a outra se desvia da média na direção oposta. Coeficiente de correlação ou Coeficiente de Pearson (r) r=Cov(x,y)/sx*sy Covariância/desvio padrão de x * desvio padrão de y Os valores do coeficiente variam de -1 a 1 Se os valores quanto mais perto dos extremos, mais forte; quanto mais perto de 0, significam ausência de relação.