Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

ANÁLISE DE DADOS
W
B
A
04
69
_v
1.
0
2
Amanda Souza da Silva
Londrina 
Editora e Distribuidora Educacional S.A. 
2020
ANÁLISE DE DADOS
1ª edição
3
2020
Editora e Distribuidora Educacional S.A.
Avenida Paris, 675 – Parque Residencial João Piza
CEP: 86041-100 — Londrina — PR
e-mail: editora.educacional@kroton.com.br
Homepage: http://www.kroton.com.br/
Presidente
Rodrigo Galindo
Vice-Presidente de Pós-Graduação e Educação Continuada
Paulo de Tarso Pires de Moraes
Conselho Acadêmico
Carlos Roberto Pagani Junior
Camila Braga de Oliveira Higa
Carolina Yaly
Giani Vendramel de Oliveira
Henrique Salustiano Silva
Juliana Caramigo Gennarini
Mariana Gerardi Mello
Nirse Ruscheinsky Breternitz
Priscila Pereira Silva
Tayra Carolina Nascimento Aleixo
Coordenador
Henrique Salustiano Silva
Revisor
Ítalo Colins Alves
Editorial
Alessandra Cristina Fahl
Beatriz Meloni Montefusco
Gilvânia Honório dos Santos
Mariana de Campos Barroso
Paola Andressa Machado Leal
Dados Internacionais de Catalogação na Publicação (CIP)
_________________________________________________________________________________________ 
Silva, Amanda Souza da
S586a Análise de dados/ Amanda Souza da Silva, – Londrina: 
 Editora e Distribuidora Educacional S.A., 2020.
 44 p.
 
 ISBN 978-65-5903-062-0 
 1. Análise. 2. Dados. 3. Estatística. I. Título. 
 
CDD 001.422 ____________________________________________________________________________________________
Raquel Torres – CRB 6/2786
© 2020 por Editora e Distribuidora Educacional S.A.
Todos os direitos reservados. Nenhuma parte desta publicação poderá ser 
reproduzida ou transmitida de qualquer modo ou por qualquer outro meio, 
eletrônico ou mecânico, incluindo fotocópia, gravação ou qualquer outro tipo de 
sistema de armazenamento e transmissão de informação, sem prévia autorização, 
por escrito, da Editora e Distribuidora Educacional S.A.
4
SUMÁRIO
Introdução à análise de dados ______________________________________ 05
Estatística descritiva e inferencial dos dados ________________________ 19
Testes de hipótese bivariados _______________________________________ 35
Estatística descritiva e inferencial no Python ________________________ 50
ANÁLISE DE DADOS
5
Introdução à análise de dados
Autoria: Amanda Souza da Silva
Leitura crítica: Ítalo Colins Alves
Objetivos
• Entender a importância e as características da 
análise de dados.
• Saber a diferença entre as variáveis.
• Aprender sobre as principais distribuições 
estatísticas.
• Aprender sobre algumas estruturas dos dados.
• Compreender sobre os conceitos de validade e 
confiabilidade.
6
1. Introdução à análise de dados
Com o aumento do volume de informações capturadas por mídias 
digitais, por coleta de dados ou por informações disponíveis dentro 
das organizações, torna-se necessário a compreensão e entendimento 
das metodologias da análise de dados, pois são utilizados com grande 
frequência no momento de fazer inferências sobre os dados e gerar 
feedback que auxiliam na tomada de decisão.
1.1 Desenho de pesquisa: o que é um desenho de 
pesquisa?
Pode-se definir o desenho de pesquisa como a metodologia utilizada por 
pesquisadores com o propósito da problemática ser tratada de modo 
eficaz, gerando resultados conclusivos. Mas, qual a importância de usar 
o desenho de pesquisa?
Essa metodologia explica todo o funcionamento de um projeto de 
pesquisa como os tipos qualitativa ou quantitativa. Por exemplo, 
elementos, potenciais problemas durante a investigação e objetivos do 
desenho, assim como suas características de confiabilidade, neutralidade 
dentre outras. Dentro de um desenho, existem três fases: a pesquisa 
inicia com a coleta dos dados, depois a etapa da medição e, por fim, a 
análise de dados.
1.2 Noções de análise de dados
A análise de dados contém conceitos básicos importantes que 
devemos compreender, pois são utilizados com grande frequência no 
momento de fazer inferências sobre os dados, como de população e 
amostra. Quando iniciamos o processo da pesquisa, é essencial definir 
qual a população de interesse, isto é, quais as características de um 
determinado grupo gostaríamos de extrair.
7
Após definir o grupo de interesse (público-alvo), é preciso pensarmos 
em quantas pessoas/elementos queremos analisar da nossa população, 
ou seja, precisamos definir o tamanho da amostra. Conforme Webster 
(2006), segue a definição mais detalhada de população e amostra.
• População: na estatística, define-se população como o conjunto 
total de observações que podem ser feitas. Em outras palavras, 
grupo de todos os indivíduos que contém, no mínimo, um atributo 
em comum. Por exemplo:
• Doentes com câncer de esôfago.
• Todos os clientes de uma multinacional que vende produto de 
tecnologia.
• Total de novos compradores que podem ser alcançados com o 
lançamento de um carro novo.
• Todas as pessoas dos Estados de São Paulo e Rio de Janeiro.
• Todos os frequentadores de um grande shopping.
Agora, vamos analisar os exemplos acima e verificar como seria difícil e 
custoso coletar informações de todos os elementos dessas populações, 
devido ao tamanho delas. Frequentemente, não conseguimos avaliar 
todos os elementos de uma população, então, o ideal é extrair uma 
amostra e, assim, realizar as devidas análises e inferências.
• Amostra: conjunto de elementos extraídos da população 
de análise. A amostra é importante, pois quase sempre não 
conseguimos analisar toda uma população, então, retirar um 
subconjunto de elementos da população é essencial para uma 
pesquisa. Podemos usar a amostra nos seguintes exemplos.
• Vamos supor que você precise avaliar toda a população brasileira 
para descobrir o salário médio de cada pessoa. Neste momento, 
8
vamos avaliar o problema: Você teria tempo e dinheiro para 
pesquisar todos os trabalhadores brasileiros? Provavelmente não! 
Portanto, o ideal é retirar uma amostra da população brasileira 
que trabalha e fazer as inferências com base nessa amostra.
• Outro exemplo é o fato de você ter que avaliar todos os 
consumidores que costumam a comprar na Black Friday. Neste 
caso, temos um grande volume de clientes, claro? Logo, o ideal 
é extrair uma amostra desses clientes e elaborar as análises nos 
dados.
2. Tipos de variáveis
Vamos iniciar o estudo com o seguinte questionamento: O que são 
variáveis?
Em um experimento, pode-se definir uma variável como uma 
característica, aspecto ou condição que possa existir em quantidades, ou 
tipos diferentes em um ou mais elementos. Assim, dentro de um estudo, 
pode conter dois tipos de variáveis: independente e dependente.
2.1 Variável independente
A variável independente, pode ser modificada pelo pesquisador, isto é, 
são variáveis que se deseja avaliar o comportamento. Elas descrevem os 
objetivos do estudo, ou seja, alguma previsão/avaliação como resultado 
a partir da sua alteração. Uma mudança na variável independente, 
causa, diretamente, uma mudança na variável dependente, no qual é 
medida e registrada. Assim:
• Um pesquisador está avaliando o efeito da luz e da escuridão 
no comportamento das mariposas, ligando e desligando a luz. 
9
A variável independente é a quantidade de luz, e a reação da 
mariposa é a variável dependente.
• Em um estudo para determinar o efeito da temperatura na 
pigmentação da planta, a variável independente (causa) é a 
temperatura, enquanto a quantidade de pigmento ou cor é a 
variável dependente (o efeito).
2.2 Variável dependente
As variáveis dependentes são o foco das observações de um estudo. 
No momento que o pesquisador modifica a variável independente, 
a alteração na variável dependente é observada e registrada. Em um 
experimento, a variável dependente é a que está sendo medida. Assim:
• Um pesquisador está avaliando os tipos de frango que produzemos maiores ovos. O tamanho dos ovos depende da raça do frango, 
portanto, a raça é a variável independente e o tamanho do ovo é a 
variável dependente.
• Você quer saber se o estresse afeta ou não a frequência cardíaca. 
Sua variável independente é o estresse, enquanto a variável 
dependente seria a frequência cardíaca.
2.3 A mensuração de variáveis
Os dados coletados podem ser classificados conforme a sua 
mensuração: nominal, ordinal, intervalar e razão.
Nominal: dados que identificam nomes, rótulos ou categorias, no qual 
não podem ser ordenados, por exemplo, cor dos olhos e gravidez.
Ordinal: os dados podem ser ordenados por uma classificação, por 
exemplo: dia, idade e escolaridade.
10
Intervalar: existe um intervalo entre os valores, por exemplo, a 
quantidade de sapatos produzidos dentro de uma indústria de calçados 
está no intervalo de [1.500 a 2.000] por mês.
Razão: quando o zero absoluto faz sentido, isto é, quando a razão 
entre duas variáveis é igual independentemente da unidade utilizada. 
Exemplo: medidas de comprimento e peso.
3. Distribuições comuns
Inicialmente, precisamos compreender o conceito de variável discreta e 
contínua. Assim:
• Variável discreta: valores de contagem, por exemplo, quantidade 
de pessoas que compraram um carro novo.
• Variável contínua: valores mensuráveis em uma escala, por 
exemplo, peso (kg).
Com base nesse conceito, podemos definir como distribuições de uma 
variável a quantidade de vezes que cada resultado possível pode ocorrer 
dentre várias tentativas. Dentro desse contexto, conforme Meyer 
(1965), existem a função de densidade de probabilidade e a função de 
distribuição.
• Função de densidade de probabilidade: descreve a 
probabilidade de ocorrência de um determinado valor.
• Função de distribuição: descreve a probabilidade cumulativa 
de que um determinado valor ou qualquer valor menor que ele 
ocorra.
11
Para os cientistas de dados, o conceito de distribuição é importante, pois 
fornece a base para análises e estatísticas inferenciais. Conforme Meyer 
(1965), neste capítulo vamos estudar as seguintes distribuições:
• Distribuições discretas: distribuição Bernoulli; distribuição 
binomial; distribuição Poisson.
• Distribuições contínuas: distribuição uniforme; distribuição 
exponencial; distribuição normal.
3.1 Distribuição Bernoulli
A distribuição discreta de Bernoulli possui somente dois resultados 
possíveis: 1 (sucesso) ou 0 (falha), para um único evento. A variável 
aleatória X possui uma distribuição de Bernoulli que pode assumir 
o valor 1 com a probabilidade de sucesso (p), e o valor 0 com a 
probabilidade de fracasso (q) ou 1-p. A probabilidade de sucesso 
ou fracasso é de 0.5 para os dois eventos. A função densidade de 
probabilidade da Bernoulli é dada por:
Podemos aplicar a Bernoulli nos seguintes problemas: chover/não 
chover; ganhar um jogo/perder o jogo.
3.2 Distribuição uniforme
Na distribuição contínua uniforme, todos os (n) números de resultados 
possíveis dentro de um evento são igualmente prováveis, no intervalo de 
valores de [a,b], onde a = menor valor, e b= maior valor. A função 
densidade de probabilidade da distribuição uniforme é dada por:
𝑝𝑝𝑥𝑥 (1 − 𝑝𝑝)1−𝑥𝑥 , 𝑥𝑥 ∈ (0,1) 
 
𝑓𝑓(𝑥𝑥) = 1(𝑏𝑏 − 𝑎𝑎) , −∞ < 𝑎𝑎 ≤ 𝑥𝑥 ≤ 𝑏𝑏 < ∞ 
12
Média: E(X) =
Variância: V(X) =
Podemos usar a distribuição uniforme no exemplo:
• Calcular a probabilidade de que as vendas diárias aumentem entre 
10 e 20.
3.3 Distribuição binomial
A distribuição discreta binomial é conhecida como n tentativas de 
Bernoulli, isto é, em seus eventos são possíveis apenas dois resultados: 
sucesso ou fracasso. Vale salientar que a probabilidade de sucesso 
e fracasso deve ser igual para todas as tentativas. Cada tentativa é 
independente da outra, uma vez que o resultado de um evento anterior 
não interfere no resultado do próximo. Um determinado experimento, 
como diz Meyer (1965), com apenas dois possíveis resultados repetidos 
(n) vezes é denominado de binomial.
Os parâmetros de uma distribuição binomial são chamados de n e 
p, no qual n é o número total de tentativas e p é a probabilidade de 
sucesso em cada tentativa, e (1-p) o fracasso. A função densidade de 
probabilidade da distribuição binomial é dada por:
Média: = n * p.
Variância: V(X) =n * p * (1 -p).
Podemos usar a distribuição uniforme nos exemplos:
• Vamos supor que você trabalha com a produção de lâmpadas, 
onde a chance de uma lâmpada ser defeituosa (sucesso) é p = 
(a + b)
2 
(𝑏𝑏 − 𝑎𝑎)²
12 
𝑝𝑝(𝑥𝑥) = 𝑛𝑛!(𝑛𝑛 − 𝑥𝑥)! 𝑥𝑥! 𝑝𝑝
𝑥𝑥 (1 − 𝑝𝑝)1−𝑥𝑥 x ≥ 0 
 
13
0,4. Foi retirado a amostra de cinco peças e você precisa testar se 
existe alguma defeituosa.
3.4 Distribuição Poisson
A distribuição discreta Poisson é aplicável em situações em que os 
eventos ocorrem em pontos aleatórios de tempo, no qual temos 
interesse apenas no número de ocorrências do evento. Uma distribuição 
é chamada distribuição de Poisson quando as seguintes suposições são 
válidas:
• Qualquer evento com sucesso, não deve influenciar o resultado de 
outro evento com sucesso.
• A probabilidade de sucesso em um intervalo de tempo menor, 
deve ser igual à probabilidade de sucesso em um intervalo maior.
• A probabilidade de sucesso em um intervalo, se aproxima de zero 
quando o intervalo de tempo se torna menor.
A função densidade de probabilidade da distribuição Poisson é dada por:
λ é a taxa na qual um evento ocorre, x é a duração de um intervalo de 
tempo.
Média = Variância = λ.
A seguir, observe alguns exemplos do uso da distribuição:
• O número de chamadas de emergência gravadas em um hospital 
em um dia.
• O número de erros de impressão em cada página do livro.
𝑝𝑝(𝑋𝑋 = 𝑥𝑥) = 𝑒𝑒−λ λ
𝑥𝑥
𝑥𝑥! , 𝑥𝑥 ≥ 0 
14
3.5 Distribuição exponencial
A distribuição contínua exponencial é utilizada para análise de 
sobrevivência, por exemplo, o tempo de funcionamento esperado de 
uma máquina de lavar. A distribuição exponencial fornece o sucesso 
como resultado, onde é a taxa de falha. A função densidade de 
probabilidade da distribuição exponencial é dada por:
Média:
Variância: 
3.6 Distribuição normal
De acordo com Bittencourt e Viali (2006), a distribuição contínua 
normal ou gaussiana, representa o comportamento dos fenômenos 
aleatoriamente, por exemplo, alturas, pressão arterial e erro de 
medição, em que a função de probabilidade descreve como os valores 
de uma variável são distribuídos. Ela possui distribuição simétrica, 
no qual a maioria das observações se agrupa ao redor da média, 
e as probabilidades de valores mais distantes da média diminuem 
igualmente nas duas direções.
Características da distribuição:
• A média, mediana e moda da distribuição são iguais.
• A curva da distribuição é em forma de sino e simétrica em torno da 
linha x = μ.
• A área total sob a curva é 1.
f(x)= λ𝑒𝑒−𝜆𝜆𝜆𝜆, 𝑥𝑥 ≥ 0 
 
1
λ 
(1λ)² 
15
• Exatamente a metade dos valores estão à esquerda do centro e a 
outra metade à direita.
Figura 1 – Gráfico da distribuição normal
Fonte: PeterHermesFurian/iStock.com. 
A função densidade de probabilidade da distribuição normal é dada por:
Onde σ é o desvio padrão e µ é a média.
Média: E(X) = µ
Variância: V(X)= σ²
4. Validade e confiabilidade
Dentro das pesquisas, os termos confiabilidade e validade podem 
ser usados de maneira complementar. Em pesquisas e testes, os 
𝑓𝑓(𝑥𝑥) = 1
√2𝜋𝜋𝜋𝜋 
 𝑒𝑒{−
1 
2 (
𝑥𝑥−𝑢𝑢
𝜎𝜎 )²}𝑥𝑥 ≥ 0 
 
16
experimentos podem conter pequenas diferenças em seus resultados. 
Em resumo, a confiabilidade comprova a consistência: um teste repetido 
dez vezes, deve obter aproximadamente os mesmos resultados em 
todos os experimentos. O teste é válido ao medir o que deveria.
4.1 Confiabilidade
Confiabilidade é uma medida que avalia a estabilidade dos testes após 
vários experimentos. Por exemplo, um termômetro médico é uma 
ferramenta confiável que mede a temperatura correta cada vez que é 
usado.
Para medir a confiabilidade dostestes, podemos usar os seguintes 
testes:
• Correlação: entre duas variáveis para o mesmo elemento; é 
uma forma simples de estimar um coeficiente de confiabilidade. 
Inicialmente, podemos extrair as medições em momentos 
diferentes, e avaliado os resultados.
• Correlação de Pearson: usada para estimar o coeficiente teórico 
de confiabilidade entre testes paralelos.
4.2 Validade
Pode-se definir a validade como a precisão do instrumento de avaliação. 
Existem vários tipos de estudos de validação, de acordo com Queiroga 
(2009). Neste material, vamos citar a validade preditiva do teste, 
que informa o grau de assertividade em um teste, ao predizer um 
determinado resultado.
O coeficiente de correlação Pearson é frequentemente usado para medir 
o grau da validade de um teste, ou seja, quanto mais próximo de 1, mais 
preciso é o poder preditivo do teste.
17
5. Erros de mensuração
5.1 Erros aleatórios
Erros aleatórios são causados por alterações desconhecidas e 
imprevisíveis no experimento, podendo ter valores positivos ou 
negativos, com probabilidade (“distribuição gaussiana”) igual. Os erros 
podem ocorrer devidos aos instrumentos de medição ou condições 
ambientais.
Exemplos de causas de erros aleatórios são:
• Ruído eletrônico no circuito de um instrumento elétrico.
5.2 Erros sistemáticos
O erro sistemático é o tipo mais frequente, em geral, decorrente 
de problemas persistentes e mais fáceis de serem descobertos e 
solucionados. Os erros sistemáticos geralmente ocorrem devido a um 
problema que persiste durante todo o experimento. Por exemplo, a 
balança eletrônica para pesar materiais de pesquisa está 0,05 g mais alta 
para todas as suas medições de massa.
6. Estrutura dos dados
Após coletar os dados de uma pesquisa, os próximos passos consistem 
em resumir, organizar e interpretar os dados. Abaixo, segue as 
estruturas:
18
• Resumir e organizar: podemos resumir os dados coletados a partir 
de medidas estatísticas, gráficos e tabelas. Com base nos dados 
resumidos conseguimos fazer inferências sobre as observações.
• Interpretar: com base na interpretação dos dados é possível 
identificar a distribuição dos dados e coletar informações sobre o 
fenômeno em análise.
Referências Bibliográficas
BITTENCOURT, Hélio R.; VIALI, Lori. Contribuições para o ensino da distribuição 
normal ou curva de Gauss em cursos de graduação. SIPEM (Seminário 
Internacional de Pesquisa em Educação Matemática), 2006.
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 9. ed. São Paulo: Saraiva, 2017.
MEYER, Paul L. Probabilidade: aplicações à estatística. 2. ed. [s.l.]: Livros Técnicos, 
1965.
QUEIROGA, Fabiana. Seleção de pessoas e desempenho no trabalho: um 
estudo sobre a validade preditiva dos testes de conhecimentos. 2009. 223 f. 
Tese (Doutorado em Psicologia Social, do Trabalho e das Organizações) – Instituto 
de Psicologia, Universidade de Brasília, Brasília, 2009. Disponível em: https://
repositorio.unb.br/bitstream/10482/8437/1/2009_FabianaQueiroga.pdf. Acesso em: 
27 out. 2020.
SILVA, Glauco Peres da. Desenho de pesquisa. Brasília: Enap, 2018. Disponível 
em: https://repositorio.enap.gov.br/bitstream/1/3330/1/Livro_Desenho%20de%20
pesquisa.pdf. Acesso em:
WEBSTER, A. L. Estatística aplicada à Administração e Economia. São Paulo: 
McGraw-Hill, 2006.
https://repositorio.unb.br/bitstream/10482/8437/1/2009_FabianaQueiroga.pdf
https://repositorio.unb.br/bitstream/10482/8437/1/2009_FabianaQueiroga.pdf
https://repositorio.enap.gov.br/bitstream/1/3330/1/Livro_Desenho%20de%20pesquisa.pdf
https://repositorio.enap.gov.br/bitstream/1/3330/1/Livro_Desenho%20de%20pesquisa.pdf
19
Estatística descritiva 
e inferencial dos dados
Autoria: Amanda Souza da Silva
Leitura crítica: Ítalo Colins Alves
Objetivos
• Compreender as técnicas de estatística descritiva.
• Entender sobre o conceito de estatística inferencial.
• Entender e diferenciar os tipos de hipóteses.
• Conhecer os casos de uso dos testes de hipóteses.
20
1. Estatística descritiva
Estatísticas são informações numéricas que podem estar relacionadas 
com fenômenos estudados, no qual os dados não têm limites quanto 
à sua referência, cobertura e escopo. As empresas – não importa 
o tamanho – produzem dados e estatísticas sobre suas operações. 
Dentre as formas de avaliar esses dados, a estatística descritiva permite 
apresentar os dados de uma maneira mais significativa, o que permite 
uma interpretação mais simples dos dados, com base em coleta, resumo 
e simplificação dos dados, de acordo com Bussab e Morettin (2017).
A maneira de descrever os dados por meio de estatísticas e gráficos é 
importante para uma análise. Normalmente, existem dois tipos gerais de 
estatística que são usados para descrever dados: medidas de tendência 
central e medidas de dispersão.
1.1 Medidas de tendência central
Medidas de tendência central são formas de descrever o valor central 
de uma distribuição de dados. As técnicas estatísticas que determinam 
a posição que um elemento tem dentro do conjunto de dados, ou 
seja, medidas que fornecem uma ideia do todo do conjunto de dados, 
podendo ser conhecidas como medidas de localização. As principais 
medidas de tendência central são: média, mediana e moda.
Estatísticas descritivas podem ser aplicadas conforme a necessidade do 
problema, por exemplo:
• Medir a renda dos habitantes de uma cidade (média).
• O produto que teve a maior quantidade de vendas (moda).
• Identificar o grau da variabilidade dos dados em relação ao 
número de vendas (desvio padrão).
21
• Saber a mediana das notas dos alunos.
1.1.1 Média
A média (x) de um conjunto de dados é encontrada por meio da soma de 
todos os números no conjunto de dados e depois dividindo pelo número 
de valores no conjunto. Ela fornece ao negócio a situação que está em 
relação ao mercado. Por exemplo:
• Número médio de vendas.
• Número médio de gastos com despesas de manutenção.
• Média de clientes novos entre outras aplicabilidades.
De acordo com Bussab e Morettin (2017), a média é dada pela soma 
das observações, dividida pelo número delas. Por exemplo, a média 
aritmética desse conjunto de dados 2, 5, 8, 9 e 10 é:
Média aritmética ponderada: calculada multiplicando cada valor do 
conjunto de dados pelo seu respectivo peso; em seguida, a soma desses 
valores será dividida pela soma dos pesos. É usada quando os dados 
estiverem agrupados, isto é, na forma de distribuição de frequências. A 
seguir, temos a fórmula:
1.1.2 Mediana
A mediana é um valor numérico que divide a metade superior da 
metade inferior de um conjunto de dados, amostra, população ou 
�̅�𝑥 =(2+5+8+9+10) 5 = 6,8 
 
𝑥𝑥𝑝𝑝̅̅ ̅ =
𝑃𝑃1(𝑋𝑋1) + ⋯+ 𝑃𝑃2(𝑋𝑋2)
𝑃𝑃1 + ⋯+ 𝑃𝑃𝑛𝑛
 
22
distribuição de probabilidade. Para isso, precisamos organizar as 
observações do menor para o maior valor.
A mediana (Md) de um conjunto de dados, descrita por Bussab e 
Morettin (2017), divide um conjunto de dados (ordenados) em dois 
subconjuntos de mesmo número de elementos.
Caso a quantidade de dados for ímpar, a mediana é o valor do meio, 
porém, se o número for par de observações, a mediana é a média dos 
dois valores médios.
Para os casos do n for par:
Nesse caso, precisamos ordenar os valores e somar e dividir os valores 
centrais:
Para os casos do n ímpar:
Nesse caso, essa fórmula vai fornecer a posição do elemento da 
amostra.
Por exemplo, para o número de observações ímpar:
{12,10,18,21,3}
Inicialmente, precisamos ordenar os valores: 3, 10, 12, 18, 21.
Qual a posição 3 no conjunto?
Logo, 12 é a nossa mediana.
𝑚𝑚𝑚𝑚 = 
𝑋𝑋𝑝𝑝 + 𝑋𝑋𝑝𝑝+1
2 
 
𝑚𝑚𝑚𝑚 = 𝑛𝑛 + 12 
 
 
𝑚𝑚𝑚𝑚 = (5 + 1)2 = 3 
 
 
23
Para os casos pares a mediana será exatamente a média “dos dois 
valores do meio”.
Para a sequência:
{2, 4, 6, 8}
Qual seria o valor mediano? 5.
1.1.3 Moda
Podemos definir como o(s) valor(es) que ocorre(m) com maior 
frequência dentro do conjunto de dados. A moda pode ser definida em 
unimodal, bimodal, amodal e multimodal.
• Unimodal:conjunto de dados com somente uma moda. 
 
Exemplo: a distribuição das notas de uma turma foi: 5,4; 7,8; 9,5; 
9; 4,3; 5,1; 2,6; 8,5; 9; 9. Podemos observar que apenas a nota 9 
é repetida, ou seja, o conjunto contém apenas uma única moda. 
Logo, o conjunto é unimodal.
• Bimodal: valor se repete duas vezes na mesma quantidade. 
 
Exemplo: em uma distribuição de peso de 15 pessoas: 63; 67; 70; 
69; 81; 57; 63; 73; 68; 63; 71; 71; 71 e 83, possui duas modas (63 kg 
e 71 kg), isto é, ela é bimodal.
• Amodal: no conjunto não existem valores repetidos. 
 
O peso (em kg) correspondente a oito pessoas: 56; 78; 59; 74; 81; 
82; 91 e 70 – este conjunto de valores não possui uma moda, então 
podemos chamar de amodal.
𝑚𝑚𝑚𝑚 = 4 + 62 = 5 
 
24
• Multimodal: no conjunto, ocorre que vários valores se repetiram. 
 
Exemplo: na distribuição de peso temos o conjunto de dados: 63; 
67; 51; 70; 69; 81; 57; 63; 73; 68; 51; 63; 71; 71; 71; 83; 64; 64. Nesta 
situação, temos vários valores que se repetem: 51, 63, 64 e 71. 
Então, neste caso temos a distribuição multimodal.
1.1.4 Valores máximo e mínimo
São determinados como os valores menores e os maiores da série de 
dados.
• Exemplo: 4, 5, 7, 1, 9, 8.
• Ordenado: 1, 4, 5, 7, 8, 9.
Mínimo: 1.
Máximo: 9.
1.2 Medidas de dispersão
A medida de dispersão, apresenta as dispersões dos dados como 
também a homogeneidade ou heterogeneidade da distribuição das 
observações.
Por exemplo, as notas médias de 10 alunos em um teste aplicado varia 
de 5 até 10, com média de 6,5. No entanto, nem todos os alunos tiveram 
notas 6,5. Em vez disso, suas notas serão distribuídas, algumas mais 
baixas e outras mais altas que 6,5.
As medidas de dispersão nos ajudam a resumir como os dados são 
distribuídos. Para descrever as medidas de dispersão, podemos usar:
25
• Variância.
• Desvio padrão.
A dispersão ajuda a entender a distribuição dos dados, no qual ela 
apresenta a variação em torno da média. As medidas de dispersão 
ajudam a interpretar a variabilidade dos dados, isto é, saber o quanto os 
dados são homogêneos ou heterogêneos. Em termos simples, mostra 
como a variável é compactada ou dispersa.
1.2.1 Alcance 
Calcula o range do conjunto de dados, a partir da subtração entre o 
maior e o menor valor, por exemplo:
{2,2,2,5,6,7,9,9,9,10}
Maior–menor = 10-2= 8.
Para Fonseca e Martins (1996), a amplitude total é muito limitante, 
visto que depende apenas dos valores extremos, e não é afetada pela 
dispersão dos valores internos.
1.2.2 Variância
Medida da dispersão que mede a variabilidade dentre o conjunto de 
dados, isto é, a distância entre cada valor do conjunto e a média, por 
exemplo, depois de uma prova em que um professor quer verificar a 
variabilidade das notas em torno da média.
26
Uma grande variação, indica que os números no conjunto estão longe da 
média e um do outro, enquanto uma pequena variação indica o oposto. 
A fórmula é dada por:
Em uma amostra de retrovisores de carro vendidos em uma loja durante 
uma semana, teve a distribuição: 10, 14, 13, 15, 16, 18 e 12 retrovisores; 
teríamos a variância igual a 7.
Como podemos usar a variância para otimizar a produção de uma 
empresa?
Em uma linha de produção de cabos de ferro, pode ocorrer uma pane 
na máquina que molda o tamanho ou espessura dos cabos. Então, vai 
haver uma variação do formato dos cabos, que modificará o resultado 
esperado.
1.2.3 Desvio padrão
Medida que fornece o grau de dispersão de um conjunto de dados, 
indicando o nível de uniformidade que possui esse conjunto. Desvio 
padrão com o valor alto, significa que os dados estão distantes da média, 
com valor baixo sinaliza que os valores se alinham com a média.
Sua fórmula é expressa pela raiz quadrada da média aritmética dos 
quadrados dos desvios, isto é:
Quando o desvio for igual ou próximo de 0, significa que os dados são 
homogêneos.
Em uma amostra de retrovisores de carro vendidos em uma loja durante 
uma semana, teve a distribuição: 10, 14, 13, 15, 16, 18 e 12 retrovisores. 
s² = ∑(𝑥𝑥𝑖𝑖− �̅�𝑥)𝑛𝑛−1 
 
s= √𝑠𝑠² 
 
27
Com média de 14 retrovisores e desvio padrão de 2,65 retrovisores, ou 
seja, a loja pode ter vendido 2,65 retrovisores a mais ou a menos do 
valor da média.
2. Análise inferencial dos dados
A análise inferencial envolve os métodos para gerar inferências 
sobre dados, conforme Bussab e Morettin (2017). O conjunto total de 
elementos em que podemos fazer inferências, denomina-se universo, e 
os dados que são extraídos são chamamos de amostra.
A inferência estatística consiste no uso de métodos estatísticos para 
gerar conclusões sobre algum aspecto desconhecido de uma população, 
com base em uma amostra dessa população. Para Bussab e Morettin 
(2017), algumas conclusões preliminares podem ser obtidas a partir da 
estatística descritiva, porém a inferência estatística baseia-se em cálculos 
da teoria da probabilidade para substanciar essas conclusões.
Dentro da inferência, podemos citar os testes de hipóteses. O objetivo 
desse teste é decidir qual das duas afirmações complementares sobre 
uma população é verdadeira. Duas dessas declarações complementares 
podem ser:
• (1) Os estudantes do Estado de São Paulo obtêm uma média mais 
alta de redação em relação aos estudantes do Rio de Janeiro.
• (2) Os estudantes de São Paulo obtêm uma média mais baixa na 
redação do que os estudantes do Rio de Janeiro.
28
2.1 Introdução aos testes de hipótese
Bussab e Morettin (2017) afirmam que testes de hipóteses são métodos 
estatísticos em que um pesquisador testa uma suposição sobre um 
parâmetro populacional. A metodologia empregada pelo analista 
depende da natureza dos dados utilizados e do motivo da análise. O 
teste é usado para avaliar uma hipótese usando os dados de amostra, 
vindos de uma população de interesse, por exemplo. Dessa forma:
• Realizar um experimento e descobrir que um determinado 
medicamento é eficaz no tratamento de dores de cabeça.
• Mapear localizações de novas espécies.
• Identificar maneira mais justa de administrar testes padronizados.
Resultados dos testes:
• O teste de hipóteses é usado para avaliar uma hipótese usando 
dados de amostra.
• O teste fornece evidências sobre a hipótese.
• Pesquisadores testam uma hipótese medindo e examinando uma 
amostra aleatória da população que está sendo analisada.
Funcionamento do teste de hipóteses:
• No teste de hipóteses, o pesquisador testa uma amostra estatística 
com o objetivo de fornecer evidências sobre a plausibilidade da 
hipótese nula.
• Os pesquisadores testam uma hipótese medindo e examinando 
uma amostra aleatória da população que está sendo analisada.
29
• Usa-se amostra populacional aleatória para testar duas hipóteses 
diferentes: a hipótese nula e a hipótese alternativa.
Etapas do teste de hipóteses:
1. Primeiro passo: o pesquisador indica duas hipóteses no qual 
apenas uma pode estar certa.
2. Segundo passo: formular um plano de análise, que descreve como 
os dados serão avaliados.
3. Terceiro: executar o plano e analisar fisicamente os dados da 
amostra.
4. Quarto: analisar os resultados e rejeitar a hipótese nula, ou 
declarar que a hipótese nula é plausível.
2.2 Hipótese nula (H0)
Uma hipótese nula é um estudo ou teoria baseada em evidências 
insuficientes que se prestam a mais testes e experimentações. Com 
testes adicionais, uma hipótese, geralmente, pode ser provada 
verdadeira ou falsa. Vejamos um exemplo:
Matheus tem a seguinte hipótese: as flores que ele rega com um novo 
alimento crescem mais rápido do que as flores que ele rega com água 
pura. Ele rega cada flor diariamente por um mês (experimento), para 
provar que sua hipótese é verdadeira!
Uma hipótese nula diz que não há significância estatística entre duas 
variáveis, ou seja, hipótese que o pesquisador está tentando refutar. No 
exemplo anterior, a hipótese nula de Matheus seria:
Não há relação estatisticamente significativa entre o tipo de água 
que ele alimenta as flores e o seu crescimento.
30
Geralmente,um pesquisador, quer refutar a hipótese nula, pois, dessa 
forma, podemos demonstrar que existe relação estatisticamente 
significativa entre as duas variáveis na hipótese.
2.3 Hipótese alternativa (H1)
Hipótese alternativa é simplesmente a inversa, ou oposta, da hipótese 
nula. Ela afirma que um parâmetro populacional é menor, maior 
ou diferente do valor hipotético na hipótese nula, conforme Bussab 
e Morettin (2017). A hipótese alternativa é o que acreditamos ser 
verdadeira ou espera provar ser verdadeira. Portanto, se avaliamos 
o exemplo das flores, a hipótese alternativa seria que existe uma 
relação estatisticamente significativa entre que tipo de água a que a 
flor é alimentada e o crescimento. Mais especificamente, aqui estão as 
hipóteses nulas e alternativas para o estudo de Matheus:
H0: se uma flor for alimentada com o novo alimento por um mês e outra 
for alimentada com água pura, não haverá diferença no crescimento 
entre as duas flores.
H1: se uma flor for alimentada com o novo alimento por um mês e outra 
for alimentada com água pura, a flor que recebeu o novo alimento 
crescerá melhor do a que é alimentada com água pura. Vamos avaliar 
outro exemplo:
Um pesquisador supõe que, se os pacientes submetidos à cirurgia do 
joelho fizerem fisioterapia duas vezes por semana (em vez de três vezes), 
o período de recuperação será maior. O tempo médio de recuperação 
para pacientes submetidos a cirurgia no joelho é de 8,2 semanas.
A afirmação de hipótese nesta pergunta é que o pesquisador acredita 
que o tempo médio de recuperação é superior a 8,2 semanas. Pode ser 
escrito em termos matemáticos como:
31
H1: μ> 8,2.
Em seguida, precisamos declarar a hipótese nula, isto é, o tempo de 
recuperação será menor ou igual a 8,2 semanas. Logo, 
H0 ≤ 8,2.
2.4 Hipóteses unilaterais e bilaterais
Nos testes de hipótese unicaudais, também conhecidos como testes 
unilaterais, podemos testar os efeitos de um experimento em apenas 
uma direção. Em um teste unilateral, tem-se duas opções para as 
hipóteses nula e alternativa, que correspondem à região crítica. 
Queremos demonstrar, por exemplo, que a média da amostra é maior 
ou menor que a média da população.
As hipóteses seriam:
H0: a média é menor ou igual a zero.
H1: a média é maior que zero.
A seguir, observe dois exemplos de aplicação:
• Para determinar se os pesos líquidos de embalagens de 
sorvete estão corretos.
Em um pote de sorvete, informa que o peso líquido é de 500 g. Caso 
ocorra uma auditoria e for verificado que o peso é menor, então, o 
consumidor está sendo enganado.
• Data de validade de alimentos.
Um litro de leite tem validade de 2 meses, então, o alimento não pode 
estragar antes.
32
Antes que o teste unilateral possa ser realizado, hipóteses nulas 
e alternativas devem ser estabelecidas. Uma hipótese nula é uma 
afirmação que o pesquisador espera rejeitar. Uma hipótese alternativa, 
por sua vez, é a afirmação que o pesquisador deseja aceitar.
Suponha que um criador de gado pretende aumentar massa muscular 
dos seus animais em 8,90%. Para isso, ele comprou alguns novos 
suplementos e vitaminas, e aplicou em parte do seu rebanho durante 
dois meses. No restante dos animais, a alimentação continuou normal. 
Então, o criador quer verificar se seus animais realmente tiveram ganho 
de massa durante esse processo, isto é, se a média de massa muscular 
aumentou 8,90%, H1: μ > 8,90% ou continuou não teve significância H0: 
= 8,90%.
H0: os animais não tiveram um aumento em sua massa muscular.
H1: os animais tiveram um aumento em sua massa muscular
H0: = 8,90%.
H1: μ > 8,90%.
Um produto emagrecedor promete, em sua propaganda, a perda de 
peso em duas semanas ao consumir o produto. A auditoria fez um 
teste sobre esta afirmação selecionando 50 pessoas que consumiram 
o produto. Depois de duas semanas com o uso do produto as pessoas 
perderam, em média, 510 g.
A auditoria pode afirmar que a propaganda é enganosa?
A afirmação do produto informa que o peso médio das pessoas que 
consomem o produto diminui após duas semanas. Representando a 
média da perda de peso da amostra por µ, a afirmação do produto 
corresponde a dizer que µ > 0.
33
Vamos adotar como hipótese nula a afirmação contrária, ou seja, que a 
média da perda de peso é nula ou negativa (note que um valor negativo 
para a perda de peso corresponde, de fato, a um ganho de peso):
H0: µ ≤ 0 g.
H1: µ > 0 g.
Em relação aos testes bilaterais, os dois extremos do espaço amostral 
são usados como região crítica. Por exemplo, a cervejaria Beer Ocean 
produz cervejas cujos rótulos das embalagens informam que o conteúdo 
da garrafa tem 550 ml. Uma auditoria selecionou, de forma aleatória, 
30 garrafas de cerveja produzidas pela companhia, e mediu o seu 
conteúdo. Ao final do processo, obteve a média amostral de 546,35 
ml. A auditoria quer testar se a empresa está enganando os seus 
consumidores.
A auditoria quer testar se a quantidade média de cerveja nas garrafas é 
diferente de 550 ml. Portanto, vai fixar como hipótese nula a hipótese 
de que a quantidade média de cerveja em uma garrafa é igual a 550 ml. 
A hipótese alternativa é que a quantidade média de cerveja em uma 
garrafa é diferente de 550 ml.
H0 = µ = 550 ml.
H1 = µ ≠ 550 ml.
Referências Bibliográficas
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 9. ed. São Paulo: Saraiva, 2017.
FONSECA, J.; MARTINS, G. A. Curso de Estatística. 6. ed. São Paulo: Atlas, 1996
MEYER, Paul L. Probabilidade: aplicações à estatística. 2. ed. [s.l.]: Livros Técnicos, 
1965.
QUEIROGA, F. Seleção de pessoas e desempenho no trabalho: um estudo sobre 
a validade preditiva dos testes de conhecimentos. 2009. 223 f. Tese (Doutorado 
34
em Psicologia Social, do Trabalho e das Organizações) – Instituto de Psicologia, 
Universidade de Brasília, Brasília, 2009. Disponível em: https://repositorio.unb.br/
bitstream/10482/8437/1/2009_FabianaQueiroga.pdf. Acesso em: 27 out. 2020.
WEBSTER, A. L. Estatística aplicada à Administração e Economia. São Paulo: 
McGraw-Hill, 2006.
about:blank
about:blank
35
Testes de hipótese bivariados
Autoria: Amanda Souza da Silva
Leitura crítica: Ítalo Colins Alves
Objetivos
• Compreender os conceitos do teste de hipótese 
t-Student.
• Entender o conceito do teste de hipótese t-Student 
para amostras independentes.
• Explicar os objetivos do teste t para amostras 
independentes com tamanhos diferentes, variâncias 
iguais.
• Apresentar o teste t para amostras emparelhadas 
(dependentes).
36
1. Teste de hipóteses
Teste de hipóteses é uma metodologia estatística em que um 
pesquisador testa uma suposição sobre um parâmetro populacional, 
por exemplo, a média populacional, conforme Bussab e Morettin (2017). 
O teste não faz apenas comparações matemáticas entre os dados, 
mas confirma ou não se o valor obtido da amostra pode representar 
fielmente a população em estudo. O método usado pelo analista 
depende da natureza dos dados utilizados no experimento e do objetivo 
da análise.
Os pesquisadores testam uma hipótese medindo e examinando uma 
amostra aleatória extraída de uma população maior ou de um processo 
de geração de dados. A amostra populacional aleatória testa duas 
hipóteses diferentes: a hipótese nula e a hipótese alternativa. Dentre os 
tipos de teste, podemos citar o tipo bivariado que analisa duas variáveis, 
em que existe ou não uma relação de causa/efeito entre elas.
1.1 Teste t
Como nos dizem Bussab e Morettin (2017), o teste t de Student, em 
estatística, é um método para testar hipóteses sobre a média de 
uma pequena amostra retirada de uma população normalmente 
distribuída quando o desvio padrão da população é desconhecido, em 
que a medida que o tamanho da amostra aumenta, a distribuição t se 
aproxima da distribuição normal padrão.
37
Figura 1 – População versus Amostra
Fonte: elaborada pela autora.
A partir da amostragem, como a Amostra Aleatória Simples (AAS), que 
extrai os elementos de uma população, no qual todos elementos devem 
conter a mesmaprobabilidade, em que todos eles possuem a mesma 
chance de ser escolhidos, é extraída da população a amostra e realizada 
as inferências sobre ela.
Logo, o teste de t é denotado pela seguinte fórmula: 
 
onde t segue uma distribuição t de Student com n-1 graus de liberdade.
A Figura 2 apresenta os tipos de t de Student:
t = �̅�𝑿− µ𝟎𝟎𝒔𝒔
√𝒏𝒏
 
38
Figura 2 – Tipos de teste de t de Student
Fonte: elaborada pela autora.
1.2 Teste t para amostras independentes com tamanhos 
diferentes, variâncias iguais
O teste t para amostras independentes, compara as médias de dois 
grupos independentes para determinar se há evidência estatística de 
que as médias da população associada são significativamente diferentes, 
por exemplo, se homens e mulheres com idade igual a 35 anos têm 
alturas médias diferentes.
O teste é do tipo paramétrico, isto é, assume que os dados seguem 
uma distribuição normal, por exemplo, o peso segue aproximadamente 
uma distribuição normal, pois se fossemos representar de forma gráfica 
o peso de um grupo de pessoas, a curva ficaria em forma de sino. 
Essa distribuição, segundo Chin e Lee (2008), também é chamada de 
distribuição gaussiana.
Aplica-se o teste a planos amostrais que deseja comparar dois conjuntos 
de dados independentes. Assim, os conjuntos podem ser formados de 
duas formas distintas:
39
• Extrair uma amostra da população A e amostra da população B.
• Elementos da mesma população são distribuídos aleatoriamente a 
um grupo, e em outro grupo são distribuídos os outros elementos 
da população, para um determinado tratamento.
Conforme Lopes, Leinioski e Ceccon (2015), devemos usar o teste nas 
seguintes situações:
• Quando precisamos comparar duas populações distintas quanto 
a uma variável quantitativa, em que os parâmetros médios (µ) e 
desvios padrão (σ) são desconhecidos.
• Em estudos epidemiológicos, no qual os experimentos são 
realizados com duas amostras independentes de indivíduos 
divididos em grupos experimental e controle.
• Vamos supor que temos duas populações distintas compostas por 
um grande número de elementos e queremos comparar as médias 
populacionais: µ1 e µ2.
Figura 3 – População 1 versus População 2
População 1 População 2 
 
 
 
 
 
Fonte: elaborada pela autora.
40
O teste de hipótese seria:
H0: µ1 = µ2.
H1: µ1 ≠ µ2.
Obs.: os testes podem ser unilaterais.
Agora, vamos citar dois exemplos de aplicação do teste.
João deseja fazer um teste para a sua tese de doutorado na área 
de Farmácia, e tem por objetivo testar uma nova medicação para o 
tratamento de cefaleia, e comparar os resultados com outra medicação 
já existente no mercado para o problema de dor de cabeça – isso para 
avaliar se existe diferença significativa entre os dois tratamentos. Para 
isso, ele decidiu escolher duas cidades com populações diferentes, 
extraiu-se as amostras e, por fim, testou as medicações. Cada cidade 
recebeu uma medicação diferente:
Cidade A: recebeu a nova medicação.
Cidade B: recebeu a medicação já existente.
Quais seriam as hipóteses?
H0: em média, os dois medicamentos produzem os mesmos efeitos.
H1: em média, os dois medicamentos produzem os efeitos diferentes.
Qual estatística teste?
 
Segue uma distribuição t Student com n1+ n2–2 graus de liberdade para 
populações de tamanho diferentes.
𝑡𝑡0 = 
𝑥𝑥1̅̅̅ − 𝑥𝑥2̅̅ ̅ 
√𝑆𝑆𝑝𝑝2 (
1
 𝑛𝑛1 + 
1
 𝑛𝑛2 ) 
 
41
Onde,
 : média amostral.
n: tamanho da amostra da população.
 estimativa da variância populacional ao supor que o desvio padrão 
nas duas populações são iguais, então, podemos definir como:
 
Agora, vamos analisar o exemplo de aplicação descrito por Lopes, 
Leinioski e Ceccon (2015). Um estudo objetivou analisar a associação 
entre diversas variáveis com a síndrome metabólica (SM) em indivíduos 
de origem japonesa, com mais de 30 anos de idade, residentes em um 
município do interior de São Paulo.
Figura 4 – População 1 versus População 2
 
 
 
População 1: 
Indivíduos com 
SM. 
n1= 52. 
 
SM 
População 2: 
Indivíduos sem 
SM. 
n2= 50. 
 
Fonte: elaborada pela autora.
• Seja um nível de significância a = 0,05.
• O número de graus de liberdade é 52 + 50–2 = 100.
Conforme o exemplo não se rejeita H0 se encontrar um valor 
de t0 > -1,984.
�̅�𝑥 
 
 
𝑆𝑆𝑝𝑝2: 
 
 
 
𝑆𝑆𝑝𝑝2 : 
(𝑛𝑛1 − 1)𝑆𝑆𝑝𝑝12 − (𝑛𝑛2 − 1)𝑆𝑆𝑝𝑝2 2
𝑛𝑛1 + 𝑛𝑛2 − 2
 
 
�̅�𝑥 
 
 
𝑆𝑆𝑝𝑝2: 
 
 
 
𝑆𝑆𝑝𝑝2 : 
(𝑛𝑛1 − 1)𝑆𝑆𝑝𝑝12 − (𝑛𝑛2 − 1)𝑆𝑆𝑝𝑝2 2
𝑛𝑛1 + 𝑛𝑛2 − 2
 
 
�̅�𝑥 
 
 
𝑆𝑆𝑝𝑝2: 
 
 
 
𝑆𝑆𝑝𝑝2 : 
(𝑛𝑛1 − 1)𝑆𝑆𝑝𝑝12 − (𝑛𝑛2 − 1)𝑆𝑆𝑝𝑝2 2
𝑛𝑛1 + 𝑛𝑛2 − 2
 
 
42
t0 < 1,984.
Com
�̅�𝑥 
 
 
𝑆𝑆𝑝𝑝2: 
 
 
 
𝑆𝑆𝑝𝑝2 : 
(𝑛𝑛1 − 1)𝑆𝑆𝑝𝑝12 − (𝑛𝑛2 − 1)𝑆𝑆𝑝𝑝2 2
𝑛𝑛1 + 𝑛𝑛2 − 2
 
 
 = 492,0981.
Para esse exemplo temos os seguintes dados:
Quadro 1 – Dados
𝑛1 = 52 = 142,1 mmHg 𝑆1 = 23,0 mmHg 
𝑛2 = 50 = 121,6 mmHg 𝑆2 = 21,3 mmHg
Fonte: elaborado pela autora.
Então, podemos fazer o cálculo da seguinte forma:
1.3 Teste t para amostras emparelhadas (dependentes)
Para Bussab e Morettin (2017), esse tipo de teste compara as médias 
de dois grupos relacionados para determinar se existe uma diferença 
estatisticamente significativa entre essas médias, em que podemos usar 
para testar uma mudança ou diferença nas médias entre dois grupos 
relacionados, porém, em períodos distintos.
O teste t dependente, procura diferenças entre as médias quando os 
participantes são medidos sob a mesma variável dependente em duas 
condições diferentes. O teste t pode ser usado para:
• Medir em dois momentos diferentes (por exemplo, pré-teste e pós-
teste com uma intervenção administrada entre os dois momentos).
• Analisar sob duas condições diferentes (por exemplo, concluir 
um teste sob uma condição de “controle” e uma condição 
“experimental”).
t0= 142,1−121,6 
√492,0981( 152 + 
1
50 )
 = 4,67 
 
43
• Medições tiradas de duas metades ou lados de um sujeito ou 
unidade experimental (por exemplo, medir perda auditiva nas 
orelhas esquerda e direita de um sujeito).
• Diferença estatística entre dois momentos.
• Diferença estatística entre duas condições.
• Diferença estatística entre duas medidas.
• Diferença estatística entre um par combinado.
A variável usada para este teste é dependente e contínua, medida 
em dois momentos diferentes ou para duas condições. Também 
vale salientar que o teste t para amostras dependentes é um teste 
paramétrico, isto é, seus valores segue uma distribuição normal.
Vamos analisar uma situação típica desse tipo de teste: uma indústria 
farmacêutica está interessada em investigar um novo tratamento, 
voltado para diminuir a taxa de colesterol no organismo. Logo, foi 
escolhido um grupo de 50 pessoas e para cada uma delas foi anotado 
o nível de colesterol inicial. Depois de dois meses de tratamento com o 
novo remédio, comparou-se os valores iniciais com a taxa do colesterol 
depois do tratamento. Quais as hipóteses de interesse?
H0: µ1 = µ2.
H1: µ1 = µ2.
O efeito produzido para o i-ésimo indivíduo pode ser representado pela 
variável Di = Xi–Yi (“antes” – “depois”).
H0: µD = 0.
H1: µD ≠ 0.
44
H1: µD > 0.
H1: µD < 0.
A estatística teste é dada por:
 
No qual sD é a variância amostral das diferenças: 
 
 
A estatística testes segue uma distribuição de t Student com  graus de 
liberdade. A seguir, um exemplo de aplicação:
Um nutricionista lançou um novo tratamento para perda de peso, 
e gostaria de verificar se a nova dieta é eficaz ou não. Para isso, ele 
selecionou 30 pacientes e fez uma pesagem inicial anotando todos 
os pesos de seus pacientes. Depois de três meses da nova dieta, o 
nutricionista fez uma nova pesagem e comparou com os resultados 
iniciais.
Agora, esse mesmo nutricionista precisa verificar se existe uma 
diferença entre os pesos iniciais e depois do tratamento. Para isso, basta 
usar o teste t pareado, no qual ele compara cada indivíduocom o seu 
“antes” e “depois” a fim de verificar se o tratamento obteve o resultado 
desejado.
2. Correlação
De acordo com Lira (2004), para uma análise ser consistente é 
desejado que se avalie a relação entre as variáv eis de interesse, pois 
T= 
D̅− uD
SD
√n
 
 
SD = 
∑ (Di − D̅)²n1
(n − 1) 
 
45
é importante saber se elas possuem algum tipo de dependência entre 
si, ou seja, se valores altos/baixos de uma das variáveis implicam 
em valores altos/baixos da outra variável. Por exemplo: a correlação 
mostra a força de um relacionamento entre duas variáveis e é expressa 
numericamente pelo coeficiente de correlação. Assim:
• A correlação é positiva quando os valores aumentam juntos.
• A correlação é negativa quando um valor diminui à medida que o 
outro aumenta.
Correlação pode variar em -1 e 1:
• 1 é uma correlação positiva perfeita.
• 0 não tem correlação (os valores não parecem vinculados).
• -1 é uma correlação negativa perfeita.
A análise de correlação (r) fornece um valor que resume o grau de 
relacionamento linear entre as duas variáveis. Ela procura, conforme Lira 
(2004), determinar o grau de relacionamento entre as variáveis.
Definição: sejam x1, x2, [...], xn e y1, y2, [...], yn. os valores observados de X 
e Y, respectivamente. Denomina-se coeficiente de correlação (amostral) 
entre X e Y o número dado por:
 
Onde:
r – o coeficiente de correlação.
xi – os valores da variável x em uma amostra.
r = ∑ 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 −𝑛𝑛𝑥𝑥 ̅ �̅�𝑦
√(𝑥𝑥𝑖𝑖2−𝑛𝑛𝑥𝑥 ̅²)−(𝑥𝑥²𝑖𝑖 −𝑛𝑛𝑦𝑦 ̅²) 
 
 
46
yi – os valores da variável y em uma amostra.
x – a média dos valores da variável x.
y= a média de observações da variável y.
Propriedades:
• r varia entre -1 e + 1.
Uma correlação é assumida como linear conforme a Figura 1.
Figura 4 – Gráfico da correlação entre as variáveis X e Y
Fonte: elaborada pela autora.
O valor de r mede a intensidade da relação linear, e o sinal de r indica o 
sentido da relação.
• As figuras (a) e (e) existem em correlação perfeita: o valor de Y 
é determinado por uma reta linear em X, isto é, os pontos estão 
distribuídos de maneira que as retas de regressão de Y sobre X e 
de X sobre Y coincidam.
• Em (c), caso em que r = 0, ou seja, não existem indícios de relação 
linear.
47
• Nas figuras (b) e (d) a correlação também é zero e, por esse motivo, 
as retas de regressão são perpendiculares.
• É importante saber que r = 0 não quer dizer que existe ausência de 
relação entre duas variáveis, apenas que ela é baixa.
Podemos usar a correlação para verificar as seguintes situações:
• Relação entre a expansão da carga horária de funcionamento, com 
o aumento do volume de compras.
• Relação entre o aumento de casos de dengue e temporada de 
chuva.
• Relação na altura de filho e pai.
• Relação entre promoção e aumento de vendas.
• Se diminuir a carga horária aumenta a produtividade dos 
funcionários.
• Se o corte de gasto aumenta no aumento dos lucros.
Agora, vamos analisar um pequeno exemplo.
Uma sorveteria que fabrica sorvetes com sabores típicos da Região 
Nordeste faz o monitoramento da quantidade vendida em comparação 
com a temperatura naquele dia. O Quadro 2 apresenta alguns dos 
valores coletados.
Quadro 2 – Quantidade de vendas de sorvete por temperatura do dia
Quantidade de vendas Temperatura do dia
58 25°
102 30º
26 11°
48
... ...
89 28°
65 27°
Fonte: elaborado pela autora.
Um analista fez a análise de correlação e obteve resultado de 89,5%, isto 
é, existe correlação entre as variáveis. Com base nisso, podemos concluir 
que quanto maior a temperatura, maior será a quantidade de vendas de 
sorvete.
2.1 Correlação não implica em causalidade
A correlação não deve ser confundida com causalidade, pois, caso duas 
variáveis estiverem correlacionadas, isso não implica que uma variável 
cause as alterações em outra variável. A correlação apenas avalia os 
relacionamentos entre variáveis, e pode haver diferentes fatores que levam 
aos relacionamentos.
Não podemos assumir que uma correlação significa que uma mudança em 
uma variável causa uma mudança em outra. Por exemplo:
As vendas de computadores pessoais e calçados esportivos podem 
aumentar fortemente ao longo dos anos e haver uma alta correlação entre 
eles, mas não podemos assumir que a compra de computadores faz com 
que as pessoas comprem calçados esportivos (ou vice-versa).
O motivo que um evento (A) ocorre junto com o evento (B) não significa 
que (A) causa (B). Para determinar a existência da causalidade é preciso 
investigar de forma mais profunda, pois:
• (A) pode realmente influenciar (B).
• (B) pode ser influenciado por (A).
49
• Outro fator não identificado (C) pode influência tanto em (A) como em 
(B).
• Pode ocorrer uma combinação das três situações: (A) influi (B) e, ao 
mesmo tempo, (B) influi (A). Assim, a correlação pode ser apenas uma 
coincidência, isto é, não existe relação entre as variáveis (A) e (B).
Referências Bibliográficas
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 9. ed. São Paulo: Saraiva, 2017.
CHIN, Richard; LEE, Bruce Y. Principles and Practice of Clinical Trial Medicine. 
Cambridge: Academic Press, 2008.
LIRA, Sachiko A. Análise de correlação: abordagem teórica e de construção dos 
coeficientes com aplicações. 2004. 209 f. Dissertação (Mestrado em Ciências) – 
Universidade Federal do Paraná, Curitiba, 2004. Disponível em: http://www.ipardes.
pr.gov.br/sites/ipardes/arquivos_restritos/files/documento/2019-09/sachiko_
dissertacao_2004.pdf. Acesso em: 27 out. 2020.
LOPES, Aline C. B.; LEINIOSKI, Amanda C.; CECCON, Larissa. Testes t para 
comparação de médias de dois grupos independentes. Universidade Federal 
do Paraná (UFPR). Departamento de Zootecnia. 2015. Disponível em: http://
www.leg.ufpr.br/lib/exe/fetch.php/disciplinas:ce001:bioestatistica_testes_t_para_
comparacao_de_medias_de_dois.pdf. Acesso em: 27 out. 2020. 
http://www.ipardes.pr.gov.br/sites/ipardes/arquivos_restritos/files/documento/2019-09/sachiko_dissertacao_2004.pdf
http://www.ipardes.pr.gov.br/sites/ipardes/arquivos_restritos/files/documento/2019-09/sachiko_dissertacao_2004.pdf
http://www.ipardes.pr.gov.br/sites/ipardes/arquivos_restritos/files/documento/2019-09/sachiko_dissertacao_2004.pdf
http://www.leg.ufpr.br/lib/exe/fetch.php/disciplinas:ce001:bioestatistica_testes_t_para_comparacao_de_medias_de_dois.pdf
http://www.leg.ufpr.br/lib/exe/fetch.php/disciplinas:ce001:bioestatistica_testes_t_para_comparacao_de_medias_de_dois.pdf
http://www.leg.ufpr.br/lib/exe/fetch.php/disciplinas:ce001:bioestatistica_testes_t_para_comparacao_de_medias_de_dois.pdf
50
Estatística descritiva e 
inferencial no Python
Autoria: Amanda Souza da Silva
Leitura crítica: Ítalo Colins Alves
Objetivos
• Descrever como extrair as estatísticas descritivas no 
Python.
• Descrever como fazer algumas visualizações dos 
dados no Python.
• Compreender como fazer os testes de hipótese no 
Python.
51
1. Estatística descritiva no Python
Cada dia mais, segundo Saffi e Janissek-Muniz (2019), as organizações 
estão aumentando seus investimentos nas ferramentas de Big Data e 
Business Analytics, para extrair informações do banco de dados. Logo, 
a estatística descritiva e inferencial auxilia na descoberta padrões e 
features para obter insight de dados e gerar insumos para uma análise 
mais profunda, verificação dos pontos relevantes e irrelevantes, como 
também a exclusão dos dados nulos e ambíguos.
O Python fornece métodos e algoritmos para a solução de vários tipos 
de problemas que envolvem análise de dados. O Jupyter Notebook é 
uma aplicação web de código aberto que permite criar e compartilhar 
documentos. A aplicação permite solucionar vários tipos de problemas 
que envolvam estatística descritiva, limpeza e transformação de dados, 
visualização, inferência dentre outros.
Nos exemplos desse capítulo, vamos utilizar o Jupyter Notebook para 
resolver os problemas propostos.
1.1 Medida de posição no Python
As medidas de posição descrevem a posiçãocentral em uma distribuição 
de dados. As principais medidas de tendência central são:
Média.
A média amostral () de um conjunto de dados é o valor central de uma 
distribuição de dados.
• Mediana. 
Mediana é um valor numérico que divide a metade superior da 
metade inferior de um conjunto de dados, amostra, população 
52
ou distribuição de probabilidade, em que os dados precisam ser 
ordenados.
• Moda. 
A moda é o valor (ou valores) que ocorre com maior frequência 
dentro da distribuição de dados.
• Máximo. 
Maior valor da série de dados.
• Mínimo. 
Menor valor da série de dados.
Agora, observe alguns exemplos usando o Python. Inicialmente, vamos 
importar as bibliotecas fundamentais par análise estatística:
Pandas: biblioteca completa e fundamental para análise de dados.
NumPy: biblioteca usada para realizar cálculos matemáticos.
Para melhor compressão, vamos avaliar o próximo exemplo.
Uma rede de saúde coletou a quantidade de pacientes atendidos 
durante o turno da noite por três médicos: Luiz, Ana e Paula. Os médicos 
atendem em três bairros distintos: Centro, Bairro 1 e Bairro 2. Os dados 
seguem na Tabela 1.
Tabela 1 – Total de pacientes atendidos por médico
Médicos Centro Bairro 1 Bairro
0 Luiz 35 23 12
1 Ana 55 32 56
2 Paula 62 44 19
53
3 Carol 34 16 56
4 Joaquim 45 29 22
5 Gisele 22 98 10
6 Vanessa 12 68 34
Fonte: elaborada pela autora.
Agora, vamos fazer algumas análises descritivas com base nos dados da 
Tabela 1.
a. Vamos avaliar a média por bairro:
>>> média = np.mean (dados).
>>> média.
Quadro 1 – Média por bairro
Centro 37.857143
Bairro 1 44.285714
Bairro 2 29.857143
Fonte: elaborado pela autora.
b. Média de atendimento por médico:
>>> média = dados.mean (axis=1).
>>> média.
54
Quadro 2 – Média de atendimento por médico
Luiz 23.333333
Ana 47.666667
Paula 41.666667
Carol 35.333333
Joaquim 32.000000
Gisele 43.333333
Vanessa 38.000000
Fonte: elaborado pela autora.
c. Mediana dos atendimentos por bairro:
>>> mediana = np.median (dados[‘Centro’]).
>>> mediana.
>>> mediana = np.median (dados[‘Bairro 1’]).
>>> mediana.
>>> mediana = np.median (dados[‘Bairro 2’]).
>>> mediana.
d. Moda dos atendimentos por bairro:
Obs.: apenas o Bairro 2 apesenta valores repetidos.
>>> moda = dados[‘Bairro 2’].mode().
>>> moda.
55
Quadro 3 – Moda de atendimento por bairro
Bairro 2 56
Fonte: elaborado pela autora.
e. Vamos avaliar o valor máximo de atendimento por bairro:
Quadro 4 – Valor máximo de atendimento por bairro
Centro 62
Bairro 1 98
Bairro 2 56
Fonte: elaborado pela autora.
f. Vamos avaliar o valor mínimo de atendimento por bairro:
Quadro 5 – Valor mínimo de atendimento por bairro
Centro 12
Bairro 1 16
Bairro 2 10
Fonte: elaborado pela autora.
1.2 Medida de dispersão no Python
As medidas de dispersão apresentam o grau de variabilidade dos dados, 
isto é, mede a distância entre o conjunto de dados e a média.
As principais medidas de dispersão são:
• Variância: medida que mede a variabilidade dentre o conjunto 
de dados. Grande variação nos dados indica que os valores estão 
distantes média e entre si outro.
56
• Desvio padrão: medida que fornece o grau de dispersão de uma 
distribuição de dados, em que indica o nível de uniformidade que 
possui um conjunto de dados.
Vamos continuar analisando a Tabela 1 para determinar as medidas de 
dispersão do conjunto de dados.
a. Variância dos atendimentos por bairro:
>>> np.var (dados).
Quadro 6 – Variância dos atendimentos por bairro
Centro 267.265306
Bairro 1 726.489796
Bairro 2 325.265306
Fonte: elaborado pela autora.
b. Desvio padrão dos atendimentos por bairro:
Quadro 7–Desvio padrão dos atendimentos por bairro
Centro 16.348251
Bairro 1 26.953475
Bairro 2 18.035113
Fonte: elaborado pela autora.
1.3 Visualização dos dados
A visualização apresenta os dados de forma que padrões e tendências 
possam ser identificados de forma simples. O Python oferece bibliotecas 
gráficas para visualização. Neste tema iremos explorar a biblioteca: 
Matplotlib.
57
O Matplotlib é uma biblioteca de software abrangente para criar 
visualizações estáticas, animadas e interativas em Python, no qual ela é 
uma extensão da biblioteca matemática NumPy.
Vamos, agora, voltar à Tabela 1 e criar algumas visualizações de dados 
para esse problema. Iniciaremos, vamos analisar as duas variáveis: a 
quantidade de pacientes que foram atendidos por cada bairro (Centro, 
Bairro_1 e Bairro_2). Podemos criar a visualização com os comandos:
>>> plt.barh (Medicos, Centro).
>>> plt.xlabel (‘Pacientes Atendidos no Centro’).
Figura 1 – Total de pacientes atendidos no Centro
Fonte: elaborada pela autora.
>>> plt.barh (Medicos, Bairro_1).
>>> plt.xlabel (‘Pacientes Atendidos no Bairro_1’).
58
Figura 2 – Total de pacientes atendidos no Bairro 1
Fonte: elaborada pela autora.
>>> plt.barh (Medicos, Bairro_2).
>>> plt.xlabel (‘Pacientes Atendidos no Bairro_2’).
Figura 3 – Total de pacientes atendidos no Bairro 2
Fonte: elaborada pela autora.
59
Neste momento, vamos estudar outra maneira de visualizar esses dados 
por meio do gráfico de pizza, em que podemos analisar a quantidade de 
atendimento de cada médico para cada bairro:
>>> plt.pie(Centro,labels=Medicos).
Figura 4 – Médico X Centro
Fonte: elaborada pela autora.
>>> plt.pie(Bairro_1,labels=Medicos).
Figura 5 – Médico X Bairro_1
Fonte: elaborada pela autora.
60
>>> plt.pie(Bairro_2,labels=Medicos).
Figura 6 – Médico X Bairro_2
Fonte: elaborada pela autora.
2. Teste de hipóteses no Python
Teste de hipótese pode-se definir como uma metodologia estatística 
que permite um pesquisador testar uma suposição sobre um parâmetro 
populacional. O teste não faz apenas comparações matemáticas entre 
os dados, mas confirma ou não o valor obtido da amostra e se pode 
representar fielmente a população em estudo. O método usado pelo 
analista depende da natureza dos dados utilizados no experimento e do 
objetivo da análise.
O teste t de Student, em estatística, é um método para testar hipóteses 
sobre a média de uma pequena amostra retirada de uma população 
normalmente distribuída quando o desvio padrão da população é 
desconhecido. Assim, conforme Bussab e Morettin (2017), à medida 
que o tamanho da amostra aumenta, a distribuição t se aproxima da 
distribuição normal padrão.
61
Figura 7 – População versus Amostra
Fonte: elaborada pela autora.
Vamos analisar o seguinte exemplo: vamos verificar se os dados seguem 
uma mesma distribuição, para um α = 0.05. Assim:
H0: os dados têm a mesma distribuição.
H1: os dados não têm a mesma distribuição.
Quadro 8 – Dados do conjunto 1 versus Conjunto 2
Conjunto 1 Conjunto 2
0.9 1.142
1.4 -0.4
1.7 -0.9
8.9 -0.7
6.5 -0.8
7 -0.1
-0.9 0.5
Fonte: elaborado pela autora.
Inicialmente, vamos importar a biblioteca ttest_ind que calcula o 
teste T para as médias, a partir do pacote funções estatísticas scipy.
62
stats. Para isso, vamos supor dois conjuntos de dados: dados1 = 
[0.9,1.4,1.7,8.9,6.5,7,-0.9] e dados2 = [1.142, -0.4, -0.9, -0.7, -0.8, -0.1, 0.5].
>>> from scipy.stats import ttest_ind.
>>> dados1 = [0.9,1.4,1.7,8.9,6.5,7,-0.9].
>>> dados2 = [1.142, -0.4, -0.9, -0.7, -0.8, -0.1, 0.5].
>>> stat, p = ttest_ind(dados1, dados2).
>>> print(‘stat=%.3f, p=%.3f’ % (stat, p)).
Resultado do teste:
stat = 2.649.
p = 0.021.
Como temos o α = 0.05 e p = 0.021, ou seja
p < 0.05.
Logo, podemos concluir que os dados possuem a mesma distribuição.
Agora, vamos avaliar um exemplo para o teste para amostras pareadas. 
O teste para amostras pareadas compara as médias de dois grupos 
relacionados para determinar se existe uma diferença estatisticamente 
significativa entre essas médias, em que podemos usar para testar 
uma mudança ou diferença nas médias entre dois grupos relacionados, 
porém em períodos distintos.
O teste t dependente procura diferenças entre as médias quando os 
participantes são medidos sob a mesma variável dependente em duas 
condições diferentes. Porexemplo, para medir em dois momentos 
63
diferentes (pré-teste e pós-teste com uma intervenção administrada 
entre os dois momentos).
Suponha, agora, que um novo produto para extermínio de pragas foi 
testado durante dois meses na mesma plantação. Os dados foram 
coletados e agora é necessário testar se o produto faz efeito ou não.
H0: em média, o tratamento não faz efeito.
H1: em média, o tratamento faz efeito.
Quadro 9 – Dados do efeito no mês 1 versus mês 2
Mês 1 Mês 2
0.3 1.34 
3.8 0.43
0.1 0.67
0.94 0.72
0.055 0.34
1.43 0.15
0.3 0.7
Fonte: elaborado pela autora.
>>> from scipy.stats import ttest_rel.
>>> data1 = [0.3, 3.8, 0.1, 0.94, 0.055, 1.43, 0.3].
>>> data2 = [1.34, 0.43, 0.67, 0.72, 0.34, 0.15, 0.7].
>>> stat, p = ttest_rel(data1, data2).
>>> print(‘stat=%.3f, p=%.3f’ % (stat, p)).
64
Resultado do teste:
stat = 0.643.
p = 0.544.
Como temos o α = 0.05 e p = 0.544, ou seja
p > 0.05.
Logo, podemos concluir que tratamento fez efeito.
Referências Bibliográficas
BATISTA, Gustavo E. de A. P. A. Pré-processamento de dados em aprendizado de 
máquina supervisionado. 2003. 232 f. Tese (Doutorado em Ciências – Ciências de 
Computação e Matemática Computacional) – ICMC, Universidade de São Paulo, São 
Carlos, 2003. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/
tde-06102003-160219/publico/TeseDoutorado.pdf. Acesso em: 27 out. 2020.
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 9. ed. São Paulo: Saraiva, 2017.
MCKINNEY, Wes. Python para análise de dados: Tratamento de dados com 
Pandas, NumPy e IPython. São Paulo: Novatec Editora, 2019.
SAFFI, Fabiano C.; JANISSEK-MUNIZ, Raquel. Explorando usos potenciais do Big 
Data Analytics para a Inteligência Antecipativa. XLIII Encontro da ANPAD–
EnANPAD 2019, São Paulo. 2019. Disponível em: https://www.researchgate.net/
publication/336868302_Explorando_usos_potenciais_do_Big_Data_Analytics_para_a_
Inteligencia_Antecipativa. Acesso em: 27 out. 2020.
about:blank
about:blank
about:blank
about:blank
about:blank
65
BONS ESTUDOS!
	Sumário
	Introdução à análise de dados 
	Objetivos
	1. Introdução à análise de dados 
	2. Tipos de variáveis
	3. Distribuições comuns 
	4. Validade e confiabilidade 
	5. Erros de mensuração 
	6. Estrutura dos dados 
	Referências Bibliográficas 
	Estatística descritiva e inferencial dos dados
	Objetivos
	1. Estatística descritiva
	2. Análise inferencial dos dados
	Referências Bibliográficas
	Testes de hipótese bivariados 
	Objetivos
	1. Teste de hipóteses 
	2. Correlação 
	Referências Bibliográficas 
	Testes de hipótese bivariados 
	Objetivos

Mais conteúdos dessa disciplina