Prévia do material em texto
ANÁLISE DE DADOS
W
B
A
04
69
_v
1.
0
2
Amanda Souza da Silva
Londrina
Editora e Distribuidora Educacional S.A.
2020
ANÁLISE DE DADOS
1ª edição
3
2020
Editora e Distribuidora Educacional S.A.
Avenida Paris, 675 – Parque Residencial João Piza
CEP: 86041-100 — Londrina — PR
e-mail: editora.educacional@kroton.com.br
Homepage: http://www.kroton.com.br/
Presidente
Rodrigo Galindo
Vice-Presidente de Pós-Graduação e Educação Continuada
Paulo de Tarso Pires de Moraes
Conselho Acadêmico
Carlos Roberto Pagani Junior
Camila Braga de Oliveira Higa
Carolina Yaly
Giani Vendramel de Oliveira
Henrique Salustiano Silva
Juliana Caramigo Gennarini
Mariana Gerardi Mello
Nirse Ruscheinsky Breternitz
Priscila Pereira Silva
Tayra Carolina Nascimento Aleixo
Coordenador
Henrique Salustiano Silva
Revisor
Ítalo Colins Alves
Editorial
Alessandra Cristina Fahl
Beatriz Meloni Montefusco
Gilvânia Honório dos Santos
Mariana de Campos Barroso
Paola Andressa Machado Leal
Dados Internacionais de Catalogação na Publicação (CIP)
_________________________________________________________________________________________
Silva, Amanda Souza da
S586a Análise de dados/ Amanda Souza da Silva, – Londrina:
Editora e Distribuidora Educacional S.A., 2020.
44 p.
ISBN 978-65-5903-062-0
1. Análise. 2. Dados. 3. Estatística. I. Título.
CDD 001.422 ____________________________________________________________________________________________
Raquel Torres – CRB 6/2786
© 2020 por Editora e Distribuidora Educacional S.A.
Todos os direitos reservados. Nenhuma parte desta publicação poderá ser
reproduzida ou transmitida de qualquer modo ou por qualquer outro meio,
eletrônico ou mecânico, incluindo fotocópia, gravação ou qualquer outro tipo de
sistema de armazenamento e transmissão de informação, sem prévia autorização,
por escrito, da Editora e Distribuidora Educacional S.A.
4
SUMÁRIO
Introdução à análise de dados ______________________________________ 05
Estatística descritiva e inferencial dos dados ________________________ 19
Testes de hipótese bivariados _______________________________________ 35
Estatística descritiva e inferencial no Python ________________________ 50
ANÁLISE DE DADOS
5
Introdução à análise de dados
Autoria: Amanda Souza da Silva
Leitura crítica: Ítalo Colins Alves
Objetivos
• Entender a importância e as características da
análise de dados.
• Saber a diferença entre as variáveis.
• Aprender sobre as principais distribuições
estatísticas.
• Aprender sobre algumas estruturas dos dados.
• Compreender sobre os conceitos de validade e
confiabilidade.
6
1. Introdução à análise de dados
Com o aumento do volume de informações capturadas por mídias
digitais, por coleta de dados ou por informações disponíveis dentro
das organizações, torna-se necessário a compreensão e entendimento
das metodologias da análise de dados, pois são utilizados com grande
frequência no momento de fazer inferências sobre os dados e gerar
feedback que auxiliam na tomada de decisão.
1.1 Desenho de pesquisa: o que é um desenho de
pesquisa?
Pode-se definir o desenho de pesquisa como a metodologia utilizada por
pesquisadores com o propósito da problemática ser tratada de modo
eficaz, gerando resultados conclusivos. Mas, qual a importância de usar
o desenho de pesquisa?
Essa metodologia explica todo o funcionamento de um projeto de
pesquisa como os tipos qualitativa ou quantitativa. Por exemplo,
elementos, potenciais problemas durante a investigação e objetivos do
desenho, assim como suas características de confiabilidade, neutralidade
dentre outras. Dentro de um desenho, existem três fases: a pesquisa
inicia com a coleta dos dados, depois a etapa da medição e, por fim, a
análise de dados.
1.2 Noções de análise de dados
A análise de dados contém conceitos básicos importantes que
devemos compreender, pois são utilizados com grande frequência no
momento de fazer inferências sobre os dados, como de população e
amostra. Quando iniciamos o processo da pesquisa, é essencial definir
qual a população de interesse, isto é, quais as características de um
determinado grupo gostaríamos de extrair.
7
Após definir o grupo de interesse (público-alvo), é preciso pensarmos
em quantas pessoas/elementos queremos analisar da nossa população,
ou seja, precisamos definir o tamanho da amostra. Conforme Webster
(2006), segue a definição mais detalhada de população e amostra.
• População: na estatística, define-se população como o conjunto
total de observações que podem ser feitas. Em outras palavras,
grupo de todos os indivíduos que contém, no mínimo, um atributo
em comum. Por exemplo:
• Doentes com câncer de esôfago.
• Todos os clientes de uma multinacional que vende produto de
tecnologia.
• Total de novos compradores que podem ser alcançados com o
lançamento de um carro novo.
• Todas as pessoas dos Estados de São Paulo e Rio de Janeiro.
• Todos os frequentadores de um grande shopping.
Agora, vamos analisar os exemplos acima e verificar como seria difícil e
custoso coletar informações de todos os elementos dessas populações,
devido ao tamanho delas. Frequentemente, não conseguimos avaliar
todos os elementos de uma população, então, o ideal é extrair uma
amostra e, assim, realizar as devidas análises e inferências.
• Amostra: conjunto de elementos extraídos da população
de análise. A amostra é importante, pois quase sempre não
conseguimos analisar toda uma população, então, retirar um
subconjunto de elementos da população é essencial para uma
pesquisa. Podemos usar a amostra nos seguintes exemplos.
• Vamos supor que você precise avaliar toda a população brasileira
para descobrir o salário médio de cada pessoa. Neste momento,
8
vamos avaliar o problema: Você teria tempo e dinheiro para
pesquisar todos os trabalhadores brasileiros? Provavelmente não!
Portanto, o ideal é retirar uma amostra da população brasileira
que trabalha e fazer as inferências com base nessa amostra.
• Outro exemplo é o fato de você ter que avaliar todos os
consumidores que costumam a comprar na Black Friday. Neste
caso, temos um grande volume de clientes, claro? Logo, o ideal
é extrair uma amostra desses clientes e elaborar as análises nos
dados.
2. Tipos de variáveis
Vamos iniciar o estudo com o seguinte questionamento: O que são
variáveis?
Em um experimento, pode-se definir uma variável como uma
característica, aspecto ou condição que possa existir em quantidades, ou
tipos diferentes em um ou mais elementos. Assim, dentro de um estudo,
pode conter dois tipos de variáveis: independente e dependente.
2.1 Variável independente
A variável independente, pode ser modificada pelo pesquisador, isto é,
são variáveis que se deseja avaliar o comportamento. Elas descrevem os
objetivos do estudo, ou seja, alguma previsão/avaliação como resultado
a partir da sua alteração. Uma mudança na variável independente,
causa, diretamente, uma mudança na variável dependente, no qual é
medida e registrada. Assim:
• Um pesquisador está avaliando o efeito da luz e da escuridão
no comportamento das mariposas, ligando e desligando a luz.
9
A variável independente é a quantidade de luz, e a reação da
mariposa é a variável dependente.
• Em um estudo para determinar o efeito da temperatura na
pigmentação da planta, a variável independente (causa) é a
temperatura, enquanto a quantidade de pigmento ou cor é a
variável dependente (o efeito).
2.2 Variável dependente
As variáveis dependentes são o foco das observações de um estudo.
No momento que o pesquisador modifica a variável independente,
a alteração na variável dependente é observada e registrada. Em um
experimento, a variável dependente é a que está sendo medida. Assim:
• Um pesquisador está avaliando os tipos de frango que produzemos maiores ovos. O tamanho dos ovos depende da raça do frango,
portanto, a raça é a variável independente e o tamanho do ovo é a
variável dependente.
• Você quer saber se o estresse afeta ou não a frequência cardíaca.
Sua variável independente é o estresse, enquanto a variável
dependente seria a frequência cardíaca.
2.3 A mensuração de variáveis
Os dados coletados podem ser classificados conforme a sua
mensuração: nominal, ordinal, intervalar e razão.
Nominal: dados que identificam nomes, rótulos ou categorias, no qual
não podem ser ordenados, por exemplo, cor dos olhos e gravidez.
Ordinal: os dados podem ser ordenados por uma classificação, por
exemplo: dia, idade e escolaridade.
10
Intervalar: existe um intervalo entre os valores, por exemplo, a
quantidade de sapatos produzidos dentro de uma indústria de calçados
está no intervalo de [1.500 a 2.000] por mês.
Razão: quando o zero absoluto faz sentido, isto é, quando a razão
entre duas variáveis é igual independentemente da unidade utilizada.
Exemplo: medidas de comprimento e peso.
3. Distribuições comuns
Inicialmente, precisamos compreender o conceito de variável discreta e
contínua. Assim:
• Variável discreta: valores de contagem, por exemplo, quantidade
de pessoas que compraram um carro novo.
• Variável contínua: valores mensuráveis em uma escala, por
exemplo, peso (kg).
Com base nesse conceito, podemos definir como distribuições de uma
variável a quantidade de vezes que cada resultado possível pode ocorrer
dentre várias tentativas. Dentro desse contexto, conforme Meyer
(1965), existem a função de densidade de probabilidade e a função de
distribuição.
• Função de densidade de probabilidade: descreve a
probabilidade de ocorrência de um determinado valor.
• Função de distribuição: descreve a probabilidade cumulativa
de que um determinado valor ou qualquer valor menor que ele
ocorra.
11
Para os cientistas de dados, o conceito de distribuição é importante, pois
fornece a base para análises e estatísticas inferenciais. Conforme Meyer
(1965), neste capítulo vamos estudar as seguintes distribuições:
• Distribuições discretas: distribuição Bernoulli; distribuição
binomial; distribuição Poisson.
• Distribuições contínuas: distribuição uniforme; distribuição
exponencial; distribuição normal.
3.1 Distribuição Bernoulli
A distribuição discreta de Bernoulli possui somente dois resultados
possíveis: 1 (sucesso) ou 0 (falha), para um único evento. A variável
aleatória X possui uma distribuição de Bernoulli que pode assumir
o valor 1 com a probabilidade de sucesso (p), e o valor 0 com a
probabilidade de fracasso (q) ou 1-p. A probabilidade de sucesso
ou fracasso é de 0.5 para os dois eventos. A função densidade de
probabilidade da Bernoulli é dada por:
Podemos aplicar a Bernoulli nos seguintes problemas: chover/não
chover; ganhar um jogo/perder o jogo.
3.2 Distribuição uniforme
Na distribuição contínua uniforme, todos os (n) números de resultados
possíveis dentro de um evento são igualmente prováveis, no intervalo de
valores de [a,b], onde a = menor valor, e b= maior valor. A função
densidade de probabilidade da distribuição uniforme é dada por:
𝑝𝑝𝑥𝑥 (1 − 𝑝𝑝)1−𝑥𝑥 , 𝑥𝑥 ∈ (0,1)
𝑓𝑓(𝑥𝑥) = 1(𝑏𝑏 − 𝑎𝑎) , −∞ < 𝑎𝑎 ≤ 𝑥𝑥 ≤ 𝑏𝑏 < ∞
12
Média: E(X) =
Variância: V(X) =
Podemos usar a distribuição uniforme no exemplo:
• Calcular a probabilidade de que as vendas diárias aumentem entre
10 e 20.
3.3 Distribuição binomial
A distribuição discreta binomial é conhecida como n tentativas de
Bernoulli, isto é, em seus eventos são possíveis apenas dois resultados:
sucesso ou fracasso. Vale salientar que a probabilidade de sucesso
e fracasso deve ser igual para todas as tentativas. Cada tentativa é
independente da outra, uma vez que o resultado de um evento anterior
não interfere no resultado do próximo. Um determinado experimento,
como diz Meyer (1965), com apenas dois possíveis resultados repetidos
(n) vezes é denominado de binomial.
Os parâmetros de uma distribuição binomial são chamados de n e
p, no qual n é o número total de tentativas e p é a probabilidade de
sucesso em cada tentativa, e (1-p) o fracasso. A função densidade de
probabilidade da distribuição binomial é dada por:
Média: = n * p.
Variância: V(X) =n * p * (1 -p).
Podemos usar a distribuição uniforme nos exemplos:
• Vamos supor que você trabalha com a produção de lâmpadas,
onde a chance de uma lâmpada ser defeituosa (sucesso) é p =
(a + b)
2
(𝑏𝑏 − 𝑎𝑎)²
12
𝑝𝑝(𝑥𝑥) = 𝑛𝑛!(𝑛𝑛 − 𝑥𝑥)! 𝑥𝑥! 𝑝𝑝
𝑥𝑥 (1 − 𝑝𝑝)1−𝑥𝑥 x ≥ 0
13
0,4. Foi retirado a amostra de cinco peças e você precisa testar se
existe alguma defeituosa.
3.4 Distribuição Poisson
A distribuição discreta Poisson é aplicável em situações em que os
eventos ocorrem em pontos aleatórios de tempo, no qual temos
interesse apenas no número de ocorrências do evento. Uma distribuição
é chamada distribuição de Poisson quando as seguintes suposições são
válidas:
• Qualquer evento com sucesso, não deve influenciar o resultado de
outro evento com sucesso.
• A probabilidade de sucesso em um intervalo de tempo menor,
deve ser igual à probabilidade de sucesso em um intervalo maior.
• A probabilidade de sucesso em um intervalo, se aproxima de zero
quando o intervalo de tempo se torna menor.
A função densidade de probabilidade da distribuição Poisson é dada por:
λ é a taxa na qual um evento ocorre, x é a duração de um intervalo de
tempo.
Média = Variância = λ.
A seguir, observe alguns exemplos do uso da distribuição:
• O número de chamadas de emergência gravadas em um hospital
em um dia.
• O número de erros de impressão em cada página do livro.
𝑝𝑝(𝑋𝑋 = 𝑥𝑥) = 𝑒𝑒−λ λ
𝑥𝑥
𝑥𝑥! , 𝑥𝑥 ≥ 0
14
3.5 Distribuição exponencial
A distribuição contínua exponencial é utilizada para análise de
sobrevivência, por exemplo, o tempo de funcionamento esperado de
uma máquina de lavar. A distribuição exponencial fornece o sucesso
como resultado, onde é a taxa de falha. A função densidade de
probabilidade da distribuição exponencial é dada por:
Média:
Variância:
3.6 Distribuição normal
De acordo com Bittencourt e Viali (2006), a distribuição contínua
normal ou gaussiana, representa o comportamento dos fenômenos
aleatoriamente, por exemplo, alturas, pressão arterial e erro de
medição, em que a função de probabilidade descreve como os valores
de uma variável são distribuídos. Ela possui distribuição simétrica,
no qual a maioria das observações se agrupa ao redor da média,
e as probabilidades de valores mais distantes da média diminuem
igualmente nas duas direções.
Características da distribuição:
• A média, mediana e moda da distribuição são iguais.
• A curva da distribuição é em forma de sino e simétrica em torno da
linha x = μ.
• A área total sob a curva é 1.
f(x)= λ𝑒𝑒−𝜆𝜆𝜆𝜆, 𝑥𝑥 ≥ 0
1
λ
(1λ)²
15
• Exatamente a metade dos valores estão à esquerda do centro e a
outra metade à direita.
Figura 1 – Gráfico da distribuição normal
Fonte: PeterHermesFurian/iStock.com.
A função densidade de probabilidade da distribuição normal é dada por:
Onde σ é o desvio padrão e µ é a média.
Média: E(X) = µ
Variância: V(X)= σ²
4. Validade e confiabilidade
Dentro das pesquisas, os termos confiabilidade e validade podem
ser usados de maneira complementar. Em pesquisas e testes, os
𝑓𝑓(𝑥𝑥) = 1
√2𝜋𝜋𝜋𝜋
𝑒𝑒{−
1
2 (
𝑥𝑥−𝑢𝑢
𝜎𝜎 )²}𝑥𝑥 ≥ 0
16
experimentos podem conter pequenas diferenças em seus resultados.
Em resumo, a confiabilidade comprova a consistência: um teste repetido
dez vezes, deve obter aproximadamente os mesmos resultados em
todos os experimentos. O teste é válido ao medir o que deveria.
4.1 Confiabilidade
Confiabilidade é uma medida que avalia a estabilidade dos testes após
vários experimentos. Por exemplo, um termômetro médico é uma
ferramenta confiável que mede a temperatura correta cada vez que é
usado.
Para medir a confiabilidade dostestes, podemos usar os seguintes
testes:
• Correlação: entre duas variáveis para o mesmo elemento; é
uma forma simples de estimar um coeficiente de confiabilidade.
Inicialmente, podemos extrair as medições em momentos
diferentes, e avaliado os resultados.
• Correlação de Pearson: usada para estimar o coeficiente teórico
de confiabilidade entre testes paralelos.
4.2 Validade
Pode-se definir a validade como a precisão do instrumento de avaliação.
Existem vários tipos de estudos de validação, de acordo com Queiroga
(2009). Neste material, vamos citar a validade preditiva do teste,
que informa o grau de assertividade em um teste, ao predizer um
determinado resultado.
O coeficiente de correlação Pearson é frequentemente usado para medir
o grau da validade de um teste, ou seja, quanto mais próximo de 1, mais
preciso é o poder preditivo do teste.
17
5. Erros de mensuração
5.1 Erros aleatórios
Erros aleatórios são causados por alterações desconhecidas e
imprevisíveis no experimento, podendo ter valores positivos ou
negativos, com probabilidade (“distribuição gaussiana”) igual. Os erros
podem ocorrer devidos aos instrumentos de medição ou condições
ambientais.
Exemplos de causas de erros aleatórios são:
• Ruído eletrônico no circuito de um instrumento elétrico.
5.2 Erros sistemáticos
O erro sistemático é o tipo mais frequente, em geral, decorrente
de problemas persistentes e mais fáceis de serem descobertos e
solucionados. Os erros sistemáticos geralmente ocorrem devido a um
problema que persiste durante todo o experimento. Por exemplo, a
balança eletrônica para pesar materiais de pesquisa está 0,05 g mais alta
para todas as suas medições de massa.
6. Estrutura dos dados
Após coletar os dados de uma pesquisa, os próximos passos consistem
em resumir, organizar e interpretar os dados. Abaixo, segue as
estruturas:
18
• Resumir e organizar: podemos resumir os dados coletados a partir
de medidas estatísticas, gráficos e tabelas. Com base nos dados
resumidos conseguimos fazer inferências sobre as observações.
• Interpretar: com base na interpretação dos dados é possível
identificar a distribuição dos dados e coletar informações sobre o
fenômeno em análise.
Referências Bibliográficas
BITTENCOURT, Hélio R.; VIALI, Lori. Contribuições para o ensino da distribuição
normal ou curva de Gauss em cursos de graduação. SIPEM (Seminário
Internacional de Pesquisa em Educação Matemática), 2006.
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 9. ed. São Paulo: Saraiva, 2017.
MEYER, Paul L. Probabilidade: aplicações à estatística. 2. ed. [s.l.]: Livros Técnicos,
1965.
QUEIROGA, Fabiana. Seleção de pessoas e desempenho no trabalho: um
estudo sobre a validade preditiva dos testes de conhecimentos. 2009. 223 f.
Tese (Doutorado em Psicologia Social, do Trabalho e das Organizações) – Instituto
de Psicologia, Universidade de Brasília, Brasília, 2009. Disponível em: https://
repositorio.unb.br/bitstream/10482/8437/1/2009_FabianaQueiroga.pdf. Acesso em:
27 out. 2020.
SILVA, Glauco Peres da. Desenho de pesquisa. Brasília: Enap, 2018. Disponível
em: https://repositorio.enap.gov.br/bitstream/1/3330/1/Livro_Desenho%20de%20
pesquisa.pdf. Acesso em:
WEBSTER, A. L. Estatística aplicada à Administração e Economia. São Paulo:
McGraw-Hill, 2006.
https://repositorio.unb.br/bitstream/10482/8437/1/2009_FabianaQueiroga.pdf
https://repositorio.unb.br/bitstream/10482/8437/1/2009_FabianaQueiroga.pdf
https://repositorio.enap.gov.br/bitstream/1/3330/1/Livro_Desenho%20de%20pesquisa.pdf
https://repositorio.enap.gov.br/bitstream/1/3330/1/Livro_Desenho%20de%20pesquisa.pdf
19
Estatística descritiva
e inferencial dos dados
Autoria: Amanda Souza da Silva
Leitura crítica: Ítalo Colins Alves
Objetivos
• Compreender as técnicas de estatística descritiva.
• Entender sobre o conceito de estatística inferencial.
• Entender e diferenciar os tipos de hipóteses.
• Conhecer os casos de uso dos testes de hipóteses.
20
1. Estatística descritiva
Estatísticas são informações numéricas que podem estar relacionadas
com fenômenos estudados, no qual os dados não têm limites quanto
à sua referência, cobertura e escopo. As empresas – não importa
o tamanho – produzem dados e estatísticas sobre suas operações.
Dentre as formas de avaliar esses dados, a estatística descritiva permite
apresentar os dados de uma maneira mais significativa, o que permite
uma interpretação mais simples dos dados, com base em coleta, resumo
e simplificação dos dados, de acordo com Bussab e Morettin (2017).
A maneira de descrever os dados por meio de estatísticas e gráficos é
importante para uma análise. Normalmente, existem dois tipos gerais de
estatística que são usados para descrever dados: medidas de tendência
central e medidas de dispersão.
1.1 Medidas de tendência central
Medidas de tendência central são formas de descrever o valor central
de uma distribuição de dados. As técnicas estatísticas que determinam
a posição que um elemento tem dentro do conjunto de dados, ou
seja, medidas que fornecem uma ideia do todo do conjunto de dados,
podendo ser conhecidas como medidas de localização. As principais
medidas de tendência central são: média, mediana e moda.
Estatísticas descritivas podem ser aplicadas conforme a necessidade do
problema, por exemplo:
• Medir a renda dos habitantes de uma cidade (média).
• O produto que teve a maior quantidade de vendas (moda).
• Identificar o grau da variabilidade dos dados em relação ao
número de vendas (desvio padrão).
21
• Saber a mediana das notas dos alunos.
1.1.1 Média
A média (x) de um conjunto de dados é encontrada por meio da soma de
todos os números no conjunto de dados e depois dividindo pelo número
de valores no conjunto. Ela fornece ao negócio a situação que está em
relação ao mercado. Por exemplo:
• Número médio de vendas.
• Número médio de gastos com despesas de manutenção.
• Média de clientes novos entre outras aplicabilidades.
De acordo com Bussab e Morettin (2017), a média é dada pela soma
das observações, dividida pelo número delas. Por exemplo, a média
aritmética desse conjunto de dados 2, 5, 8, 9 e 10 é:
Média aritmética ponderada: calculada multiplicando cada valor do
conjunto de dados pelo seu respectivo peso; em seguida, a soma desses
valores será dividida pela soma dos pesos. É usada quando os dados
estiverem agrupados, isto é, na forma de distribuição de frequências. A
seguir, temos a fórmula:
1.1.2 Mediana
A mediana é um valor numérico que divide a metade superior da
metade inferior de um conjunto de dados, amostra, população ou
�̅�𝑥 =(2+5+8+9+10) 5 = 6,8
𝑥𝑥𝑝𝑝̅̅ ̅ =
𝑃𝑃1(𝑋𝑋1) + ⋯+ 𝑃𝑃2(𝑋𝑋2)
𝑃𝑃1 + ⋯+ 𝑃𝑃𝑛𝑛
22
distribuição de probabilidade. Para isso, precisamos organizar as
observações do menor para o maior valor.
A mediana (Md) de um conjunto de dados, descrita por Bussab e
Morettin (2017), divide um conjunto de dados (ordenados) em dois
subconjuntos de mesmo número de elementos.
Caso a quantidade de dados for ímpar, a mediana é o valor do meio,
porém, se o número for par de observações, a mediana é a média dos
dois valores médios.
Para os casos do n for par:
Nesse caso, precisamos ordenar os valores e somar e dividir os valores
centrais:
Para os casos do n ímpar:
Nesse caso, essa fórmula vai fornecer a posição do elemento da
amostra.
Por exemplo, para o número de observações ímpar:
{12,10,18,21,3}
Inicialmente, precisamos ordenar os valores: 3, 10, 12, 18, 21.
Qual a posição 3 no conjunto?
Logo, 12 é a nossa mediana.
𝑚𝑚𝑚𝑚 =
𝑋𝑋𝑝𝑝 + 𝑋𝑋𝑝𝑝+1
2
𝑚𝑚𝑚𝑚 = 𝑛𝑛 + 12
𝑚𝑚𝑚𝑚 = (5 + 1)2 = 3
23
Para os casos pares a mediana será exatamente a média “dos dois
valores do meio”.
Para a sequência:
{2, 4, 6, 8}
Qual seria o valor mediano? 5.
1.1.3 Moda
Podemos definir como o(s) valor(es) que ocorre(m) com maior
frequência dentro do conjunto de dados. A moda pode ser definida em
unimodal, bimodal, amodal e multimodal.
• Unimodal:conjunto de dados com somente uma moda.
Exemplo: a distribuição das notas de uma turma foi: 5,4; 7,8; 9,5;
9; 4,3; 5,1; 2,6; 8,5; 9; 9. Podemos observar que apenas a nota 9
é repetida, ou seja, o conjunto contém apenas uma única moda.
Logo, o conjunto é unimodal.
• Bimodal: valor se repete duas vezes na mesma quantidade.
Exemplo: em uma distribuição de peso de 15 pessoas: 63; 67; 70;
69; 81; 57; 63; 73; 68; 63; 71; 71; 71 e 83, possui duas modas (63 kg
e 71 kg), isto é, ela é bimodal.
• Amodal: no conjunto não existem valores repetidos.
O peso (em kg) correspondente a oito pessoas: 56; 78; 59; 74; 81;
82; 91 e 70 – este conjunto de valores não possui uma moda, então
podemos chamar de amodal.
𝑚𝑚𝑚𝑚 = 4 + 62 = 5
24
• Multimodal: no conjunto, ocorre que vários valores se repetiram.
Exemplo: na distribuição de peso temos o conjunto de dados: 63;
67; 51; 70; 69; 81; 57; 63; 73; 68; 51; 63; 71; 71; 71; 83; 64; 64. Nesta
situação, temos vários valores que se repetem: 51, 63, 64 e 71.
Então, neste caso temos a distribuição multimodal.
1.1.4 Valores máximo e mínimo
São determinados como os valores menores e os maiores da série de
dados.
• Exemplo: 4, 5, 7, 1, 9, 8.
• Ordenado: 1, 4, 5, 7, 8, 9.
Mínimo: 1.
Máximo: 9.
1.2 Medidas de dispersão
A medida de dispersão, apresenta as dispersões dos dados como
também a homogeneidade ou heterogeneidade da distribuição das
observações.
Por exemplo, as notas médias de 10 alunos em um teste aplicado varia
de 5 até 10, com média de 6,5. No entanto, nem todos os alunos tiveram
notas 6,5. Em vez disso, suas notas serão distribuídas, algumas mais
baixas e outras mais altas que 6,5.
As medidas de dispersão nos ajudam a resumir como os dados são
distribuídos. Para descrever as medidas de dispersão, podemos usar:
25
• Variância.
• Desvio padrão.
A dispersão ajuda a entender a distribuição dos dados, no qual ela
apresenta a variação em torno da média. As medidas de dispersão
ajudam a interpretar a variabilidade dos dados, isto é, saber o quanto os
dados são homogêneos ou heterogêneos. Em termos simples, mostra
como a variável é compactada ou dispersa.
1.2.1 Alcance
Calcula o range do conjunto de dados, a partir da subtração entre o
maior e o menor valor, por exemplo:
{2,2,2,5,6,7,9,9,9,10}
Maior–menor = 10-2= 8.
Para Fonseca e Martins (1996), a amplitude total é muito limitante,
visto que depende apenas dos valores extremos, e não é afetada pela
dispersão dos valores internos.
1.2.2 Variância
Medida da dispersão que mede a variabilidade dentre o conjunto de
dados, isto é, a distância entre cada valor do conjunto e a média, por
exemplo, depois de uma prova em que um professor quer verificar a
variabilidade das notas em torno da média.
26
Uma grande variação, indica que os números no conjunto estão longe da
média e um do outro, enquanto uma pequena variação indica o oposto.
A fórmula é dada por:
Em uma amostra de retrovisores de carro vendidos em uma loja durante
uma semana, teve a distribuição: 10, 14, 13, 15, 16, 18 e 12 retrovisores;
teríamos a variância igual a 7.
Como podemos usar a variância para otimizar a produção de uma
empresa?
Em uma linha de produção de cabos de ferro, pode ocorrer uma pane
na máquina que molda o tamanho ou espessura dos cabos. Então, vai
haver uma variação do formato dos cabos, que modificará o resultado
esperado.
1.2.3 Desvio padrão
Medida que fornece o grau de dispersão de um conjunto de dados,
indicando o nível de uniformidade que possui esse conjunto. Desvio
padrão com o valor alto, significa que os dados estão distantes da média,
com valor baixo sinaliza que os valores se alinham com a média.
Sua fórmula é expressa pela raiz quadrada da média aritmética dos
quadrados dos desvios, isto é:
Quando o desvio for igual ou próximo de 0, significa que os dados são
homogêneos.
Em uma amostra de retrovisores de carro vendidos em uma loja durante
uma semana, teve a distribuição: 10, 14, 13, 15, 16, 18 e 12 retrovisores.
s² = ∑(𝑥𝑥𝑖𝑖− �̅�𝑥)𝑛𝑛−1
s= √𝑠𝑠²
27
Com média de 14 retrovisores e desvio padrão de 2,65 retrovisores, ou
seja, a loja pode ter vendido 2,65 retrovisores a mais ou a menos do
valor da média.
2. Análise inferencial dos dados
A análise inferencial envolve os métodos para gerar inferências
sobre dados, conforme Bussab e Morettin (2017). O conjunto total de
elementos em que podemos fazer inferências, denomina-se universo, e
os dados que são extraídos são chamamos de amostra.
A inferência estatística consiste no uso de métodos estatísticos para
gerar conclusões sobre algum aspecto desconhecido de uma população,
com base em uma amostra dessa população. Para Bussab e Morettin
(2017), algumas conclusões preliminares podem ser obtidas a partir da
estatística descritiva, porém a inferência estatística baseia-se em cálculos
da teoria da probabilidade para substanciar essas conclusões.
Dentro da inferência, podemos citar os testes de hipóteses. O objetivo
desse teste é decidir qual das duas afirmações complementares sobre
uma população é verdadeira. Duas dessas declarações complementares
podem ser:
• (1) Os estudantes do Estado de São Paulo obtêm uma média mais
alta de redação em relação aos estudantes do Rio de Janeiro.
• (2) Os estudantes de São Paulo obtêm uma média mais baixa na
redação do que os estudantes do Rio de Janeiro.
28
2.1 Introdução aos testes de hipótese
Bussab e Morettin (2017) afirmam que testes de hipóteses são métodos
estatísticos em que um pesquisador testa uma suposição sobre um
parâmetro populacional. A metodologia empregada pelo analista
depende da natureza dos dados utilizados e do motivo da análise. O
teste é usado para avaliar uma hipótese usando os dados de amostra,
vindos de uma população de interesse, por exemplo. Dessa forma:
• Realizar um experimento e descobrir que um determinado
medicamento é eficaz no tratamento de dores de cabeça.
• Mapear localizações de novas espécies.
• Identificar maneira mais justa de administrar testes padronizados.
Resultados dos testes:
• O teste de hipóteses é usado para avaliar uma hipótese usando
dados de amostra.
• O teste fornece evidências sobre a hipótese.
• Pesquisadores testam uma hipótese medindo e examinando uma
amostra aleatória da população que está sendo analisada.
Funcionamento do teste de hipóteses:
• No teste de hipóteses, o pesquisador testa uma amostra estatística
com o objetivo de fornecer evidências sobre a plausibilidade da
hipótese nula.
• Os pesquisadores testam uma hipótese medindo e examinando
uma amostra aleatória da população que está sendo analisada.
29
• Usa-se amostra populacional aleatória para testar duas hipóteses
diferentes: a hipótese nula e a hipótese alternativa.
Etapas do teste de hipóteses:
1. Primeiro passo: o pesquisador indica duas hipóteses no qual
apenas uma pode estar certa.
2. Segundo passo: formular um plano de análise, que descreve como
os dados serão avaliados.
3. Terceiro: executar o plano e analisar fisicamente os dados da
amostra.
4. Quarto: analisar os resultados e rejeitar a hipótese nula, ou
declarar que a hipótese nula é plausível.
2.2 Hipótese nula (H0)
Uma hipótese nula é um estudo ou teoria baseada em evidências
insuficientes que se prestam a mais testes e experimentações. Com
testes adicionais, uma hipótese, geralmente, pode ser provada
verdadeira ou falsa. Vejamos um exemplo:
Matheus tem a seguinte hipótese: as flores que ele rega com um novo
alimento crescem mais rápido do que as flores que ele rega com água
pura. Ele rega cada flor diariamente por um mês (experimento), para
provar que sua hipótese é verdadeira!
Uma hipótese nula diz que não há significância estatística entre duas
variáveis, ou seja, hipótese que o pesquisador está tentando refutar. No
exemplo anterior, a hipótese nula de Matheus seria:
Não há relação estatisticamente significativa entre o tipo de água
que ele alimenta as flores e o seu crescimento.
30
Geralmente,um pesquisador, quer refutar a hipótese nula, pois, dessa
forma, podemos demonstrar que existe relação estatisticamente
significativa entre as duas variáveis na hipótese.
2.3 Hipótese alternativa (H1)
Hipótese alternativa é simplesmente a inversa, ou oposta, da hipótese
nula. Ela afirma que um parâmetro populacional é menor, maior
ou diferente do valor hipotético na hipótese nula, conforme Bussab
e Morettin (2017). A hipótese alternativa é o que acreditamos ser
verdadeira ou espera provar ser verdadeira. Portanto, se avaliamos
o exemplo das flores, a hipótese alternativa seria que existe uma
relação estatisticamente significativa entre que tipo de água a que a
flor é alimentada e o crescimento. Mais especificamente, aqui estão as
hipóteses nulas e alternativas para o estudo de Matheus:
H0: se uma flor for alimentada com o novo alimento por um mês e outra
for alimentada com água pura, não haverá diferença no crescimento
entre as duas flores.
H1: se uma flor for alimentada com o novo alimento por um mês e outra
for alimentada com água pura, a flor que recebeu o novo alimento
crescerá melhor do a que é alimentada com água pura. Vamos avaliar
outro exemplo:
Um pesquisador supõe que, se os pacientes submetidos à cirurgia do
joelho fizerem fisioterapia duas vezes por semana (em vez de três vezes),
o período de recuperação será maior. O tempo médio de recuperação
para pacientes submetidos a cirurgia no joelho é de 8,2 semanas.
A afirmação de hipótese nesta pergunta é que o pesquisador acredita
que o tempo médio de recuperação é superior a 8,2 semanas. Pode ser
escrito em termos matemáticos como:
31
H1: μ> 8,2.
Em seguida, precisamos declarar a hipótese nula, isto é, o tempo de
recuperação será menor ou igual a 8,2 semanas. Logo,
H0 ≤ 8,2.
2.4 Hipóteses unilaterais e bilaterais
Nos testes de hipótese unicaudais, também conhecidos como testes
unilaterais, podemos testar os efeitos de um experimento em apenas
uma direção. Em um teste unilateral, tem-se duas opções para as
hipóteses nula e alternativa, que correspondem à região crítica.
Queremos demonstrar, por exemplo, que a média da amostra é maior
ou menor que a média da população.
As hipóteses seriam:
H0: a média é menor ou igual a zero.
H1: a média é maior que zero.
A seguir, observe dois exemplos de aplicação:
• Para determinar se os pesos líquidos de embalagens de
sorvete estão corretos.
Em um pote de sorvete, informa que o peso líquido é de 500 g. Caso
ocorra uma auditoria e for verificado que o peso é menor, então, o
consumidor está sendo enganado.
• Data de validade de alimentos.
Um litro de leite tem validade de 2 meses, então, o alimento não pode
estragar antes.
32
Antes que o teste unilateral possa ser realizado, hipóteses nulas
e alternativas devem ser estabelecidas. Uma hipótese nula é uma
afirmação que o pesquisador espera rejeitar. Uma hipótese alternativa,
por sua vez, é a afirmação que o pesquisador deseja aceitar.
Suponha que um criador de gado pretende aumentar massa muscular
dos seus animais em 8,90%. Para isso, ele comprou alguns novos
suplementos e vitaminas, e aplicou em parte do seu rebanho durante
dois meses. No restante dos animais, a alimentação continuou normal.
Então, o criador quer verificar se seus animais realmente tiveram ganho
de massa durante esse processo, isto é, se a média de massa muscular
aumentou 8,90%, H1: μ > 8,90% ou continuou não teve significância H0:
= 8,90%.
H0: os animais não tiveram um aumento em sua massa muscular.
H1: os animais tiveram um aumento em sua massa muscular
H0: = 8,90%.
H1: μ > 8,90%.
Um produto emagrecedor promete, em sua propaganda, a perda de
peso em duas semanas ao consumir o produto. A auditoria fez um
teste sobre esta afirmação selecionando 50 pessoas que consumiram
o produto. Depois de duas semanas com o uso do produto as pessoas
perderam, em média, 510 g.
A auditoria pode afirmar que a propaganda é enganosa?
A afirmação do produto informa que o peso médio das pessoas que
consomem o produto diminui após duas semanas. Representando a
média da perda de peso da amostra por µ, a afirmação do produto
corresponde a dizer que µ > 0.
33
Vamos adotar como hipótese nula a afirmação contrária, ou seja, que a
média da perda de peso é nula ou negativa (note que um valor negativo
para a perda de peso corresponde, de fato, a um ganho de peso):
H0: µ ≤ 0 g.
H1: µ > 0 g.
Em relação aos testes bilaterais, os dois extremos do espaço amostral
são usados como região crítica. Por exemplo, a cervejaria Beer Ocean
produz cervejas cujos rótulos das embalagens informam que o conteúdo
da garrafa tem 550 ml. Uma auditoria selecionou, de forma aleatória,
30 garrafas de cerveja produzidas pela companhia, e mediu o seu
conteúdo. Ao final do processo, obteve a média amostral de 546,35
ml. A auditoria quer testar se a empresa está enganando os seus
consumidores.
A auditoria quer testar se a quantidade média de cerveja nas garrafas é
diferente de 550 ml. Portanto, vai fixar como hipótese nula a hipótese
de que a quantidade média de cerveja em uma garrafa é igual a 550 ml.
A hipótese alternativa é que a quantidade média de cerveja em uma
garrafa é diferente de 550 ml.
H0 = µ = 550 ml.
H1 = µ ≠ 550 ml.
Referências Bibliográficas
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 9. ed. São Paulo: Saraiva, 2017.
FONSECA, J.; MARTINS, G. A. Curso de Estatística. 6. ed. São Paulo: Atlas, 1996
MEYER, Paul L. Probabilidade: aplicações à estatística. 2. ed. [s.l.]: Livros Técnicos,
1965.
QUEIROGA, F. Seleção de pessoas e desempenho no trabalho: um estudo sobre
a validade preditiva dos testes de conhecimentos. 2009. 223 f. Tese (Doutorado
34
em Psicologia Social, do Trabalho e das Organizações) – Instituto de Psicologia,
Universidade de Brasília, Brasília, 2009. Disponível em: https://repositorio.unb.br/
bitstream/10482/8437/1/2009_FabianaQueiroga.pdf. Acesso em: 27 out. 2020.
WEBSTER, A. L. Estatística aplicada à Administração e Economia. São Paulo:
McGraw-Hill, 2006.
about:blank
about:blank
35
Testes de hipótese bivariados
Autoria: Amanda Souza da Silva
Leitura crítica: Ítalo Colins Alves
Objetivos
• Compreender os conceitos do teste de hipótese
t-Student.
• Entender o conceito do teste de hipótese t-Student
para amostras independentes.
• Explicar os objetivos do teste t para amostras
independentes com tamanhos diferentes, variâncias
iguais.
• Apresentar o teste t para amostras emparelhadas
(dependentes).
36
1. Teste de hipóteses
Teste de hipóteses é uma metodologia estatística em que um
pesquisador testa uma suposição sobre um parâmetro populacional,
por exemplo, a média populacional, conforme Bussab e Morettin (2017).
O teste não faz apenas comparações matemáticas entre os dados,
mas confirma ou não se o valor obtido da amostra pode representar
fielmente a população em estudo. O método usado pelo analista
depende da natureza dos dados utilizados no experimento e do objetivo
da análise.
Os pesquisadores testam uma hipótese medindo e examinando uma
amostra aleatória extraída de uma população maior ou de um processo
de geração de dados. A amostra populacional aleatória testa duas
hipóteses diferentes: a hipótese nula e a hipótese alternativa. Dentre os
tipos de teste, podemos citar o tipo bivariado que analisa duas variáveis,
em que existe ou não uma relação de causa/efeito entre elas.
1.1 Teste t
Como nos dizem Bussab e Morettin (2017), o teste t de Student, em
estatística, é um método para testar hipóteses sobre a média de
uma pequena amostra retirada de uma população normalmente
distribuída quando o desvio padrão da população é desconhecido, em
que a medida que o tamanho da amostra aumenta, a distribuição t se
aproxima da distribuição normal padrão.
37
Figura 1 – População versus Amostra
Fonte: elaborada pela autora.
A partir da amostragem, como a Amostra Aleatória Simples (AAS), que
extrai os elementos de uma população, no qual todos elementos devem
conter a mesmaprobabilidade, em que todos eles possuem a mesma
chance de ser escolhidos, é extraída da população a amostra e realizada
as inferências sobre ela.
Logo, o teste de t é denotado pela seguinte fórmula:
onde t segue uma distribuição t de Student com n-1 graus de liberdade.
A Figura 2 apresenta os tipos de t de Student:
t = �̅�𝑿− µ𝟎𝟎𝒔𝒔
√𝒏𝒏
38
Figura 2 – Tipos de teste de t de Student
Fonte: elaborada pela autora.
1.2 Teste t para amostras independentes com tamanhos
diferentes, variâncias iguais
O teste t para amostras independentes, compara as médias de dois
grupos independentes para determinar se há evidência estatística de
que as médias da população associada são significativamente diferentes,
por exemplo, se homens e mulheres com idade igual a 35 anos têm
alturas médias diferentes.
O teste é do tipo paramétrico, isto é, assume que os dados seguem
uma distribuição normal, por exemplo, o peso segue aproximadamente
uma distribuição normal, pois se fossemos representar de forma gráfica
o peso de um grupo de pessoas, a curva ficaria em forma de sino.
Essa distribuição, segundo Chin e Lee (2008), também é chamada de
distribuição gaussiana.
Aplica-se o teste a planos amostrais que deseja comparar dois conjuntos
de dados independentes. Assim, os conjuntos podem ser formados de
duas formas distintas:
39
• Extrair uma amostra da população A e amostra da população B.
• Elementos da mesma população são distribuídos aleatoriamente a
um grupo, e em outro grupo são distribuídos os outros elementos
da população, para um determinado tratamento.
Conforme Lopes, Leinioski e Ceccon (2015), devemos usar o teste nas
seguintes situações:
• Quando precisamos comparar duas populações distintas quanto
a uma variável quantitativa, em que os parâmetros médios (µ) e
desvios padrão (σ) são desconhecidos.
• Em estudos epidemiológicos, no qual os experimentos são
realizados com duas amostras independentes de indivíduos
divididos em grupos experimental e controle.
• Vamos supor que temos duas populações distintas compostas por
um grande número de elementos e queremos comparar as médias
populacionais: µ1 e µ2.
Figura 3 – População 1 versus População 2
População 1 População 2
Fonte: elaborada pela autora.
40
O teste de hipótese seria:
H0: µ1 = µ2.
H1: µ1 ≠ µ2.
Obs.: os testes podem ser unilaterais.
Agora, vamos citar dois exemplos de aplicação do teste.
João deseja fazer um teste para a sua tese de doutorado na área
de Farmácia, e tem por objetivo testar uma nova medicação para o
tratamento de cefaleia, e comparar os resultados com outra medicação
já existente no mercado para o problema de dor de cabeça – isso para
avaliar se existe diferença significativa entre os dois tratamentos. Para
isso, ele decidiu escolher duas cidades com populações diferentes,
extraiu-se as amostras e, por fim, testou as medicações. Cada cidade
recebeu uma medicação diferente:
Cidade A: recebeu a nova medicação.
Cidade B: recebeu a medicação já existente.
Quais seriam as hipóteses?
H0: em média, os dois medicamentos produzem os mesmos efeitos.
H1: em média, os dois medicamentos produzem os efeitos diferentes.
Qual estatística teste?
Segue uma distribuição t Student com n1+ n2–2 graus de liberdade para
populações de tamanho diferentes.
𝑡𝑡0 =
𝑥𝑥1̅̅̅ − 𝑥𝑥2̅̅ ̅
√𝑆𝑆𝑝𝑝2 (
1
𝑛𝑛1 +
1
𝑛𝑛2 )
41
Onde,
: média amostral.
n: tamanho da amostra da população.
estimativa da variância populacional ao supor que o desvio padrão
nas duas populações são iguais, então, podemos definir como:
Agora, vamos analisar o exemplo de aplicação descrito por Lopes,
Leinioski e Ceccon (2015). Um estudo objetivou analisar a associação
entre diversas variáveis com a síndrome metabólica (SM) em indivíduos
de origem japonesa, com mais de 30 anos de idade, residentes em um
município do interior de São Paulo.
Figura 4 – População 1 versus População 2
População 1:
Indivíduos com
SM.
n1= 52.
SM
População 2:
Indivíduos sem
SM.
n2= 50.
Fonte: elaborada pela autora.
• Seja um nível de significância a = 0,05.
• O número de graus de liberdade é 52 + 50–2 = 100.
Conforme o exemplo não se rejeita H0 se encontrar um valor
de t0 > -1,984.
�̅�𝑥
𝑆𝑆𝑝𝑝2:
𝑆𝑆𝑝𝑝2 :
(𝑛𝑛1 − 1)𝑆𝑆𝑝𝑝12 − (𝑛𝑛2 − 1)𝑆𝑆𝑝𝑝2 2
𝑛𝑛1 + 𝑛𝑛2 − 2
�̅�𝑥
𝑆𝑆𝑝𝑝2:
𝑆𝑆𝑝𝑝2 :
(𝑛𝑛1 − 1)𝑆𝑆𝑝𝑝12 − (𝑛𝑛2 − 1)𝑆𝑆𝑝𝑝2 2
𝑛𝑛1 + 𝑛𝑛2 − 2
�̅�𝑥
𝑆𝑆𝑝𝑝2:
𝑆𝑆𝑝𝑝2 :
(𝑛𝑛1 − 1)𝑆𝑆𝑝𝑝12 − (𝑛𝑛2 − 1)𝑆𝑆𝑝𝑝2 2
𝑛𝑛1 + 𝑛𝑛2 − 2
42
t0 < 1,984.
Com
�̅�𝑥
𝑆𝑆𝑝𝑝2:
𝑆𝑆𝑝𝑝2 :
(𝑛𝑛1 − 1)𝑆𝑆𝑝𝑝12 − (𝑛𝑛2 − 1)𝑆𝑆𝑝𝑝2 2
𝑛𝑛1 + 𝑛𝑛2 − 2
= 492,0981.
Para esse exemplo temos os seguintes dados:
Quadro 1 – Dados
𝑛1 = 52 = 142,1 mmHg 𝑆1 = 23,0 mmHg
𝑛2 = 50 = 121,6 mmHg 𝑆2 = 21,3 mmHg
Fonte: elaborado pela autora.
Então, podemos fazer o cálculo da seguinte forma:
1.3 Teste t para amostras emparelhadas (dependentes)
Para Bussab e Morettin (2017), esse tipo de teste compara as médias
de dois grupos relacionados para determinar se existe uma diferença
estatisticamente significativa entre essas médias, em que podemos usar
para testar uma mudança ou diferença nas médias entre dois grupos
relacionados, porém, em períodos distintos.
O teste t dependente, procura diferenças entre as médias quando os
participantes são medidos sob a mesma variável dependente em duas
condições diferentes. O teste t pode ser usado para:
• Medir em dois momentos diferentes (por exemplo, pré-teste e pós-
teste com uma intervenção administrada entre os dois momentos).
• Analisar sob duas condições diferentes (por exemplo, concluir
um teste sob uma condição de “controle” e uma condição
“experimental”).
t0= 142,1−121,6
√492,0981( 152 +
1
50 )
= 4,67
43
• Medições tiradas de duas metades ou lados de um sujeito ou
unidade experimental (por exemplo, medir perda auditiva nas
orelhas esquerda e direita de um sujeito).
• Diferença estatística entre dois momentos.
• Diferença estatística entre duas condições.
• Diferença estatística entre duas medidas.
• Diferença estatística entre um par combinado.
A variável usada para este teste é dependente e contínua, medida
em dois momentos diferentes ou para duas condições. Também
vale salientar que o teste t para amostras dependentes é um teste
paramétrico, isto é, seus valores segue uma distribuição normal.
Vamos analisar uma situação típica desse tipo de teste: uma indústria
farmacêutica está interessada em investigar um novo tratamento,
voltado para diminuir a taxa de colesterol no organismo. Logo, foi
escolhido um grupo de 50 pessoas e para cada uma delas foi anotado
o nível de colesterol inicial. Depois de dois meses de tratamento com o
novo remédio, comparou-se os valores iniciais com a taxa do colesterol
depois do tratamento. Quais as hipóteses de interesse?
H0: µ1 = µ2.
H1: µ1 = µ2.
O efeito produzido para o i-ésimo indivíduo pode ser representado pela
variável Di = Xi–Yi (“antes” – “depois”).
H0: µD = 0.
H1: µD ≠ 0.
44
H1: µD > 0.
H1: µD < 0.
A estatística teste é dada por:
No qual sD é a variância amostral das diferenças:
A estatística testes segue uma distribuição de t Student com graus de
liberdade. A seguir, um exemplo de aplicação:
Um nutricionista lançou um novo tratamento para perda de peso,
e gostaria de verificar se a nova dieta é eficaz ou não. Para isso, ele
selecionou 30 pacientes e fez uma pesagem inicial anotando todos
os pesos de seus pacientes. Depois de três meses da nova dieta, o
nutricionista fez uma nova pesagem e comparou com os resultados
iniciais.
Agora, esse mesmo nutricionista precisa verificar se existe uma
diferença entre os pesos iniciais e depois do tratamento. Para isso, basta
usar o teste t pareado, no qual ele compara cada indivíduocom o seu
“antes” e “depois” a fim de verificar se o tratamento obteve o resultado
desejado.
2. Correlação
De acordo com Lira (2004), para uma análise ser consistente é
desejado que se avalie a relação entre as variáv eis de interesse, pois
T=
D̅− uD
SD
√n
SD =
∑ (Di − D̅)²n1
(n − 1)
45
é importante saber se elas possuem algum tipo de dependência entre
si, ou seja, se valores altos/baixos de uma das variáveis implicam
em valores altos/baixos da outra variável. Por exemplo: a correlação
mostra a força de um relacionamento entre duas variáveis e é expressa
numericamente pelo coeficiente de correlação. Assim:
• A correlação é positiva quando os valores aumentam juntos.
• A correlação é negativa quando um valor diminui à medida que o
outro aumenta.
Correlação pode variar em -1 e 1:
• 1 é uma correlação positiva perfeita.
• 0 não tem correlação (os valores não parecem vinculados).
• -1 é uma correlação negativa perfeita.
A análise de correlação (r) fornece um valor que resume o grau de
relacionamento linear entre as duas variáveis. Ela procura, conforme Lira
(2004), determinar o grau de relacionamento entre as variáveis.
Definição: sejam x1, x2, [...], xn e y1, y2, [...], yn. os valores observados de X
e Y, respectivamente. Denomina-se coeficiente de correlação (amostral)
entre X e Y o número dado por:
Onde:
r – o coeficiente de correlação.
xi – os valores da variável x em uma amostra.
r = ∑ 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 −𝑛𝑛𝑥𝑥 ̅ �̅�𝑦
√(𝑥𝑥𝑖𝑖2−𝑛𝑛𝑥𝑥 ̅²)−(𝑥𝑥²𝑖𝑖 −𝑛𝑛𝑦𝑦 ̅²)
46
yi – os valores da variável y em uma amostra.
x – a média dos valores da variável x.
y= a média de observações da variável y.
Propriedades:
• r varia entre -1 e + 1.
Uma correlação é assumida como linear conforme a Figura 1.
Figura 4 – Gráfico da correlação entre as variáveis X e Y
Fonte: elaborada pela autora.
O valor de r mede a intensidade da relação linear, e o sinal de r indica o
sentido da relação.
• As figuras (a) e (e) existem em correlação perfeita: o valor de Y
é determinado por uma reta linear em X, isto é, os pontos estão
distribuídos de maneira que as retas de regressão de Y sobre X e
de X sobre Y coincidam.
• Em (c), caso em que r = 0, ou seja, não existem indícios de relação
linear.
47
• Nas figuras (b) e (d) a correlação também é zero e, por esse motivo,
as retas de regressão são perpendiculares.
• É importante saber que r = 0 não quer dizer que existe ausência de
relação entre duas variáveis, apenas que ela é baixa.
Podemos usar a correlação para verificar as seguintes situações:
• Relação entre a expansão da carga horária de funcionamento, com
o aumento do volume de compras.
• Relação entre o aumento de casos de dengue e temporada de
chuva.
• Relação na altura de filho e pai.
• Relação entre promoção e aumento de vendas.
• Se diminuir a carga horária aumenta a produtividade dos
funcionários.
• Se o corte de gasto aumenta no aumento dos lucros.
Agora, vamos analisar um pequeno exemplo.
Uma sorveteria que fabrica sorvetes com sabores típicos da Região
Nordeste faz o monitoramento da quantidade vendida em comparação
com a temperatura naquele dia. O Quadro 2 apresenta alguns dos
valores coletados.
Quadro 2 – Quantidade de vendas de sorvete por temperatura do dia
Quantidade de vendas Temperatura do dia
58 25°
102 30º
26 11°
48
... ...
89 28°
65 27°
Fonte: elaborado pela autora.
Um analista fez a análise de correlação e obteve resultado de 89,5%, isto
é, existe correlação entre as variáveis. Com base nisso, podemos concluir
que quanto maior a temperatura, maior será a quantidade de vendas de
sorvete.
2.1 Correlação não implica em causalidade
A correlação não deve ser confundida com causalidade, pois, caso duas
variáveis estiverem correlacionadas, isso não implica que uma variável
cause as alterações em outra variável. A correlação apenas avalia os
relacionamentos entre variáveis, e pode haver diferentes fatores que levam
aos relacionamentos.
Não podemos assumir que uma correlação significa que uma mudança em
uma variável causa uma mudança em outra. Por exemplo:
As vendas de computadores pessoais e calçados esportivos podem
aumentar fortemente ao longo dos anos e haver uma alta correlação entre
eles, mas não podemos assumir que a compra de computadores faz com
que as pessoas comprem calçados esportivos (ou vice-versa).
O motivo que um evento (A) ocorre junto com o evento (B) não significa
que (A) causa (B). Para determinar a existência da causalidade é preciso
investigar de forma mais profunda, pois:
• (A) pode realmente influenciar (B).
• (B) pode ser influenciado por (A).
49
• Outro fator não identificado (C) pode influência tanto em (A) como em
(B).
• Pode ocorrer uma combinação das três situações: (A) influi (B) e, ao
mesmo tempo, (B) influi (A). Assim, a correlação pode ser apenas uma
coincidência, isto é, não existe relação entre as variáveis (A) e (B).
Referências Bibliográficas
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 9. ed. São Paulo: Saraiva, 2017.
CHIN, Richard; LEE, Bruce Y. Principles and Practice of Clinical Trial Medicine.
Cambridge: Academic Press, 2008.
LIRA, Sachiko A. Análise de correlação: abordagem teórica e de construção dos
coeficientes com aplicações. 2004. 209 f. Dissertação (Mestrado em Ciências) –
Universidade Federal do Paraná, Curitiba, 2004. Disponível em: http://www.ipardes.
pr.gov.br/sites/ipardes/arquivos_restritos/files/documento/2019-09/sachiko_
dissertacao_2004.pdf. Acesso em: 27 out. 2020.
LOPES, Aline C. B.; LEINIOSKI, Amanda C.; CECCON, Larissa. Testes t para
comparação de médias de dois grupos independentes. Universidade Federal
do Paraná (UFPR). Departamento de Zootecnia. 2015. Disponível em: http://
www.leg.ufpr.br/lib/exe/fetch.php/disciplinas:ce001:bioestatistica_testes_t_para_
comparacao_de_medias_de_dois.pdf. Acesso em: 27 out. 2020.
http://www.ipardes.pr.gov.br/sites/ipardes/arquivos_restritos/files/documento/2019-09/sachiko_dissertacao_2004.pdf
http://www.ipardes.pr.gov.br/sites/ipardes/arquivos_restritos/files/documento/2019-09/sachiko_dissertacao_2004.pdf
http://www.ipardes.pr.gov.br/sites/ipardes/arquivos_restritos/files/documento/2019-09/sachiko_dissertacao_2004.pdf
http://www.leg.ufpr.br/lib/exe/fetch.php/disciplinas:ce001:bioestatistica_testes_t_para_comparacao_de_medias_de_dois.pdf
http://www.leg.ufpr.br/lib/exe/fetch.php/disciplinas:ce001:bioestatistica_testes_t_para_comparacao_de_medias_de_dois.pdf
http://www.leg.ufpr.br/lib/exe/fetch.php/disciplinas:ce001:bioestatistica_testes_t_para_comparacao_de_medias_de_dois.pdf
50
Estatística descritiva e
inferencial no Python
Autoria: Amanda Souza da Silva
Leitura crítica: Ítalo Colins Alves
Objetivos
• Descrever como extrair as estatísticas descritivas no
Python.
• Descrever como fazer algumas visualizações dos
dados no Python.
• Compreender como fazer os testes de hipótese no
Python.
51
1. Estatística descritiva no Python
Cada dia mais, segundo Saffi e Janissek-Muniz (2019), as organizações
estão aumentando seus investimentos nas ferramentas de Big Data e
Business Analytics, para extrair informações do banco de dados. Logo,
a estatística descritiva e inferencial auxilia na descoberta padrões e
features para obter insight de dados e gerar insumos para uma análise
mais profunda, verificação dos pontos relevantes e irrelevantes, como
também a exclusão dos dados nulos e ambíguos.
O Python fornece métodos e algoritmos para a solução de vários tipos
de problemas que envolvem análise de dados. O Jupyter Notebook é
uma aplicação web de código aberto que permite criar e compartilhar
documentos. A aplicação permite solucionar vários tipos de problemas
que envolvam estatística descritiva, limpeza e transformação de dados,
visualização, inferência dentre outros.
Nos exemplos desse capítulo, vamos utilizar o Jupyter Notebook para
resolver os problemas propostos.
1.1 Medida de posição no Python
As medidas de posição descrevem a posiçãocentral em uma distribuição
de dados. As principais medidas de tendência central são:
Média.
A média amostral () de um conjunto de dados é o valor central de uma
distribuição de dados.
• Mediana.
Mediana é um valor numérico que divide a metade superior da
metade inferior de um conjunto de dados, amostra, população
52
ou distribuição de probabilidade, em que os dados precisam ser
ordenados.
• Moda.
A moda é o valor (ou valores) que ocorre com maior frequência
dentro da distribuição de dados.
• Máximo.
Maior valor da série de dados.
• Mínimo.
Menor valor da série de dados.
Agora, observe alguns exemplos usando o Python. Inicialmente, vamos
importar as bibliotecas fundamentais par análise estatística:
Pandas: biblioteca completa e fundamental para análise de dados.
NumPy: biblioteca usada para realizar cálculos matemáticos.
Para melhor compressão, vamos avaliar o próximo exemplo.
Uma rede de saúde coletou a quantidade de pacientes atendidos
durante o turno da noite por três médicos: Luiz, Ana e Paula. Os médicos
atendem em três bairros distintos: Centro, Bairro 1 e Bairro 2. Os dados
seguem na Tabela 1.
Tabela 1 – Total de pacientes atendidos por médico
Médicos Centro Bairro 1 Bairro
0 Luiz 35 23 12
1 Ana 55 32 56
2 Paula 62 44 19
53
3 Carol 34 16 56
4 Joaquim 45 29 22
5 Gisele 22 98 10
6 Vanessa 12 68 34
Fonte: elaborada pela autora.
Agora, vamos fazer algumas análises descritivas com base nos dados da
Tabela 1.
a. Vamos avaliar a média por bairro:
>>> média = np.mean (dados).
>>> média.
Quadro 1 – Média por bairro
Centro 37.857143
Bairro 1 44.285714
Bairro 2 29.857143
Fonte: elaborado pela autora.
b. Média de atendimento por médico:
>>> média = dados.mean (axis=1).
>>> média.
54
Quadro 2 – Média de atendimento por médico
Luiz 23.333333
Ana 47.666667
Paula 41.666667
Carol 35.333333
Joaquim 32.000000
Gisele 43.333333
Vanessa 38.000000
Fonte: elaborado pela autora.
c. Mediana dos atendimentos por bairro:
>>> mediana = np.median (dados[‘Centro’]).
>>> mediana.
>>> mediana = np.median (dados[‘Bairro 1’]).
>>> mediana.
>>> mediana = np.median (dados[‘Bairro 2’]).
>>> mediana.
d. Moda dos atendimentos por bairro:
Obs.: apenas o Bairro 2 apesenta valores repetidos.
>>> moda = dados[‘Bairro 2’].mode().
>>> moda.
55
Quadro 3 – Moda de atendimento por bairro
Bairro 2 56
Fonte: elaborado pela autora.
e. Vamos avaliar o valor máximo de atendimento por bairro:
Quadro 4 – Valor máximo de atendimento por bairro
Centro 62
Bairro 1 98
Bairro 2 56
Fonte: elaborado pela autora.
f. Vamos avaliar o valor mínimo de atendimento por bairro:
Quadro 5 – Valor mínimo de atendimento por bairro
Centro 12
Bairro 1 16
Bairro 2 10
Fonte: elaborado pela autora.
1.2 Medida de dispersão no Python
As medidas de dispersão apresentam o grau de variabilidade dos dados,
isto é, mede a distância entre o conjunto de dados e a média.
As principais medidas de dispersão são:
• Variância: medida que mede a variabilidade dentre o conjunto
de dados. Grande variação nos dados indica que os valores estão
distantes média e entre si outro.
56
• Desvio padrão: medida que fornece o grau de dispersão de uma
distribuição de dados, em que indica o nível de uniformidade que
possui um conjunto de dados.
Vamos continuar analisando a Tabela 1 para determinar as medidas de
dispersão do conjunto de dados.
a. Variância dos atendimentos por bairro:
>>> np.var (dados).
Quadro 6 – Variância dos atendimentos por bairro
Centro 267.265306
Bairro 1 726.489796
Bairro 2 325.265306
Fonte: elaborado pela autora.
b. Desvio padrão dos atendimentos por bairro:
Quadro 7–Desvio padrão dos atendimentos por bairro
Centro 16.348251
Bairro 1 26.953475
Bairro 2 18.035113
Fonte: elaborado pela autora.
1.3 Visualização dos dados
A visualização apresenta os dados de forma que padrões e tendências
possam ser identificados de forma simples. O Python oferece bibliotecas
gráficas para visualização. Neste tema iremos explorar a biblioteca:
Matplotlib.
57
O Matplotlib é uma biblioteca de software abrangente para criar
visualizações estáticas, animadas e interativas em Python, no qual ela é
uma extensão da biblioteca matemática NumPy.
Vamos, agora, voltar à Tabela 1 e criar algumas visualizações de dados
para esse problema. Iniciaremos, vamos analisar as duas variáveis: a
quantidade de pacientes que foram atendidos por cada bairro (Centro,
Bairro_1 e Bairro_2). Podemos criar a visualização com os comandos:
>>> plt.barh (Medicos, Centro).
>>> plt.xlabel (‘Pacientes Atendidos no Centro’).
Figura 1 – Total de pacientes atendidos no Centro
Fonte: elaborada pela autora.
>>> plt.barh (Medicos, Bairro_1).
>>> plt.xlabel (‘Pacientes Atendidos no Bairro_1’).
58
Figura 2 – Total de pacientes atendidos no Bairro 1
Fonte: elaborada pela autora.
>>> plt.barh (Medicos, Bairro_2).
>>> plt.xlabel (‘Pacientes Atendidos no Bairro_2’).
Figura 3 – Total de pacientes atendidos no Bairro 2
Fonte: elaborada pela autora.
59
Neste momento, vamos estudar outra maneira de visualizar esses dados
por meio do gráfico de pizza, em que podemos analisar a quantidade de
atendimento de cada médico para cada bairro:
>>> plt.pie(Centro,labels=Medicos).
Figura 4 – Médico X Centro
Fonte: elaborada pela autora.
>>> plt.pie(Bairro_1,labels=Medicos).
Figura 5 – Médico X Bairro_1
Fonte: elaborada pela autora.
60
>>> plt.pie(Bairro_2,labels=Medicos).
Figura 6 – Médico X Bairro_2
Fonte: elaborada pela autora.
2. Teste de hipóteses no Python
Teste de hipótese pode-se definir como uma metodologia estatística
que permite um pesquisador testar uma suposição sobre um parâmetro
populacional. O teste não faz apenas comparações matemáticas entre
os dados, mas confirma ou não o valor obtido da amostra e se pode
representar fielmente a população em estudo. O método usado pelo
analista depende da natureza dos dados utilizados no experimento e do
objetivo da análise.
O teste t de Student, em estatística, é um método para testar hipóteses
sobre a média de uma pequena amostra retirada de uma população
normalmente distribuída quando o desvio padrão da população é
desconhecido. Assim, conforme Bussab e Morettin (2017), à medida
que o tamanho da amostra aumenta, a distribuição t se aproxima da
distribuição normal padrão.
61
Figura 7 – População versus Amostra
Fonte: elaborada pela autora.
Vamos analisar o seguinte exemplo: vamos verificar se os dados seguem
uma mesma distribuição, para um α = 0.05. Assim:
H0: os dados têm a mesma distribuição.
H1: os dados não têm a mesma distribuição.
Quadro 8 – Dados do conjunto 1 versus Conjunto 2
Conjunto 1 Conjunto 2
0.9 1.142
1.4 -0.4
1.7 -0.9
8.9 -0.7
6.5 -0.8
7 -0.1
-0.9 0.5
Fonte: elaborado pela autora.
Inicialmente, vamos importar a biblioteca ttest_ind que calcula o
teste T para as médias, a partir do pacote funções estatísticas scipy.
62
stats. Para isso, vamos supor dois conjuntos de dados: dados1 =
[0.9,1.4,1.7,8.9,6.5,7,-0.9] e dados2 = [1.142, -0.4, -0.9, -0.7, -0.8, -0.1, 0.5].
>>> from scipy.stats import ttest_ind.
>>> dados1 = [0.9,1.4,1.7,8.9,6.5,7,-0.9].
>>> dados2 = [1.142, -0.4, -0.9, -0.7, -0.8, -0.1, 0.5].
>>> stat, p = ttest_ind(dados1, dados2).
>>> print(‘stat=%.3f, p=%.3f’ % (stat, p)).
Resultado do teste:
stat = 2.649.
p = 0.021.
Como temos o α = 0.05 e p = 0.021, ou seja
p < 0.05.
Logo, podemos concluir que os dados possuem a mesma distribuição.
Agora, vamos avaliar um exemplo para o teste para amostras pareadas.
O teste para amostras pareadas compara as médias de dois grupos
relacionados para determinar se existe uma diferença estatisticamente
significativa entre essas médias, em que podemos usar para testar
uma mudança ou diferença nas médias entre dois grupos relacionados,
porém em períodos distintos.
O teste t dependente procura diferenças entre as médias quando os
participantes são medidos sob a mesma variável dependente em duas
condições diferentes. Porexemplo, para medir em dois momentos
63
diferentes (pré-teste e pós-teste com uma intervenção administrada
entre os dois momentos).
Suponha, agora, que um novo produto para extermínio de pragas foi
testado durante dois meses na mesma plantação. Os dados foram
coletados e agora é necessário testar se o produto faz efeito ou não.
H0: em média, o tratamento não faz efeito.
H1: em média, o tratamento faz efeito.
Quadro 9 – Dados do efeito no mês 1 versus mês 2
Mês 1 Mês 2
0.3 1.34
3.8 0.43
0.1 0.67
0.94 0.72
0.055 0.34
1.43 0.15
0.3 0.7
Fonte: elaborado pela autora.
>>> from scipy.stats import ttest_rel.
>>> data1 = [0.3, 3.8, 0.1, 0.94, 0.055, 1.43, 0.3].
>>> data2 = [1.34, 0.43, 0.67, 0.72, 0.34, 0.15, 0.7].
>>> stat, p = ttest_rel(data1, data2).
>>> print(‘stat=%.3f, p=%.3f’ % (stat, p)).
64
Resultado do teste:
stat = 0.643.
p = 0.544.
Como temos o α = 0.05 e p = 0.544, ou seja
p > 0.05.
Logo, podemos concluir que tratamento fez efeito.
Referências Bibliográficas
BATISTA, Gustavo E. de A. P. A. Pré-processamento de dados em aprendizado de
máquina supervisionado. 2003. 232 f. Tese (Doutorado em Ciências – Ciências de
Computação e Matemática Computacional) – ICMC, Universidade de São Paulo, São
Carlos, 2003. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/
tde-06102003-160219/publico/TeseDoutorado.pdf. Acesso em: 27 out. 2020.
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 9. ed. São Paulo: Saraiva, 2017.
MCKINNEY, Wes. Python para análise de dados: Tratamento de dados com
Pandas, NumPy e IPython. São Paulo: Novatec Editora, 2019.
SAFFI, Fabiano C.; JANISSEK-MUNIZ, Raquel. Explorando usos potenciais do Big
Data Analytics para a Inteligência Antecipativa. XLIII Encontro da ANPAD–
EnANPAD 2019, São Paulo. 2019. Disponível em: https://www.researchgate.net/
publication/336868302_Explorando_usos_potenciais_do_Big_Data_Analytics_para_a_
Inteligencia_Antecipativa. Acesso em: 27 out. 2020.
about:blank
about:blank
about:blank
about:blank
about:blank
65
BONS ESTUDOS!
Sumário
Introdução à análise de dados
Objetivos
1. Introdução à análise de dados
2. Tipos de variáveis
3. Distribuições comuns
4. Validade e confiabilidade
5. Erros de mensuração
6. Estrutura dos dados
Referências Bibliográficas
Estatística descritiva e inferencial dos dados
Objetivos
1. Estatística descritiva
2. Análise inferencial dos dados
Referências Bibliográficas
Testes de hipótese bivariados
Objetivos
1. Teste de hipóteses
2. Correlação
Referências Bibliográficas
Testes de hipótese bivariados
Objetivos