Prévia do material em texto
Eustáquio Rabelo de Souza
Eustáquio Rabelo de Souza
Todos os direitos desta edição são reservados ao Centro Universitário Facens. Nenhuma parte da obra “Análise de dados”
poderá ser reproduzida ou transmitida sem autorização prévia. A violação dos direitos autorais é crime estabelecido pela Lei n.º
9.610/98 com punição de acordo com artigo 184 do Código Penal. Todas as imagens, vetores e ilustrações são creditados ao
Shutterstock Inc., salvo quando indicada a referência.
Centro Universitário Facens: Rodovia Senador José Ermírio de Moraes, 1425, Castelinho km 1,5 – Alto da Boa Vista – Sorocaba/SP.
CEP: 18087-125. Tel.: 55 15 3238 1188 / email: facens@facens.br
FICHA CATALOGRÁFICA ELABORADA PELA “BIBLIOTECA FACENS”
Eliane da Rocha CRB 8062/8ª
Bibliotecária Responsável
S729a
Souza, Eustáquio Rabelo.
Análise de Dados [recurso eletrônico] / Eustáquio Rabelo Souza
Rodolfo Encarnação Pinelli, Carina Macedo Martini; ed. ED+ Content
Hub; ilust. Diego Kendi Godinho, Vitor Bueno Lima. – Sorocaba, SP:
Centro Universitário Facens, 2022.
1 E-book; (PDF). il.
Inclui bibliografia
ISBN
Modo de acesso: restrito
1. Estatística Descritiva. 2. Probabilidades. 3. Probabilidade -
distribuição. 4. Estatística inferencial. I. Pinelli, Rodolfo Encinas de
Encarnação. II. Martini, Carina Macedo. III. Ed+ Content Hub. IV.
Godinho, Diego Kendi. V. Lima, Vitor Bueno. VI. Centro Universitário
Facens. V. Centro Universitário Newton Paiva. VI. Título.
CDD
Expediente
Conselho Acadêmico
Reitoria
Pró-Reitoria Acadêmica (presencial e a distância)
Gerente de Pós-Graduação
Conselho Editorial
Curadoria de Design Educacional
Autoria
Validação
Design Educacional
Ilustração
Diagramação
Revisão
Camila Ribeiro Romeiro
Patrícia da Silva Klahr
Monica Sabino Hasner
Antônio Henrique Ribeiro Dalbem
Mabel Oliveira
Rodolfo Encinas de Encarnação Pinelli
Carina Macedo Martini
Eustáquio Rabelo de Souza
Allan Silva Ferreira
Raquel Mendonça de Paula
Diego Kendi Godinho
Vitor Bueno Lima
Diego Kendi Godinho
Vitor Bueno Lima
Elisa Domingues Coelho
Patrícia Maria de Oliveira Carvalho Moreira
Sarah Elene Müller Rappl
Sheila Dystyler Ladeira
ED+ Content Hub
Conteúdo
Unidade 1
Introdução à Estatística descritiva ...................................................... 6
Unidade 2
Probabilidades .........................................................................................28
Unidade 3
Distribuição de probabilidade ..............................................................41
Unidade 4
Estatística Inferencial ............................................................................56
5
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Palavras do autor
Olá! Meu nome é Eustáquio Rabelo de Souza, sou estatístico, com especialização em Estatística
Aplicada, formado pela UFMG; matemático, formado pela Unimais; e engenheiro de produção,
formado pela Feamig. Fiz mestrado em Engenharia de Produção, pela UFMG, e sou autor do
componente curricular “Análise de dados”, no qual você iniciará os seus estudos. Há 25 anos
trabalho como professor no ensino superior e na pós graduação de Estatística e Engenharia.
Atualmente, leciono na Newton e na pós graduação do Cefet – MG, e também como consultor na
área da gestão da produção e estatística. Atuei em grandes empresas no setor industrial e de
serviços, fui docente na UFMG, UEMG (Universidade Estadual de Minas Gerais), no IBMEC-MG, na
Universidade FUMEC, na NEWTON e no CEFET-MG.
Em Análise de dados, você irá compreender e aplicar conceitos de resumo de dados em tabelas,
gráficos, medidas de posição e dispersão em planilhas eletrônicas; calcular a probabilidade de
um fenômeno ocorrer, por exemplo, uma peça ser fabricada sem defeitos; além de estimar o valor
médio de uma variável, como o tempo para executar uma tarefa contando com sua margem de
erro (a famosa margem de erro da pesquisa eleitoral).
Possuir dados é fundamental para o sucesso das empresas no mundo dos negócios, engenharia,
arquitetura e tecnologia, e as decisões tomadas são mais assertivas com a utilização das
informações adequadas em tempo hábil. As empresas utilizam de modelos para correlacionar
hábitos, preferências. Por exemplo, você pesquisa sobre uma passagem aérea para uma cidade
na internet e, logo após, já recebe promoções sobre hospedagem. O que é isso? Análise Dados:
correlação entre variáveis. Como o volume de dados disponíveis cresce exponencialmente com
tecnologia, para extrair todo o potencial deles, você pode contar com as técnicas de Análise de
dados. A principais são as da Estatística, juntamente com planilhas eletrônicas.
Mergulhe no mundo dos dados e solidifique seus conhecimentos. Boas vindas e bons estudos!
6
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Objetivos de aprendizagem:
Compreender os conceitos básicos das medidas de resumo estatísticas, análise de regressão e
análise de gráficos; entender as características de uma medida estatística e dos diferentes tipos
de gráficos; desenvolver a habilidade de usar recursos computacionais e a capacidade de fazer
descrições qualitativa e quantitativa de situações-problemas; além de conseguir interpretar
questões que abordam problemas a serem enfrentados.
Tópicos de estudo:
• Medidas de posição (média; moda, mediana);
• Medidas de dispersão (amplitude, desvio padrão, variância e coeficiente de
variação);
• Gráficos e tabelas de frequência;
• Regressão linear.
Iniciando os estudos:
Devido ao volume, os dados coletados (da população ou da amostra) devem ser resumidos em
tabelas, gráficos ou medidas de posição (médias) e medidas de dispersão (desvio padrão), e
também deve-se buscar relações entre variáveis (regressão linear). Isto é fundamental para
descrever o fenômeno estudado, bem como tomar decisões. É a parte mais simples da estatística,
porém a mais utilizada.
Esta unidade apresentará as principais técnicas para resumir os dados coletados e proporcionar
as melhores tomadas de decisões.
7
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
1 Medidas de posição
São utilizadas para sintetizar em um único número o conjunto de dados observados. As medidas
mais utilizadas são: média, mediana e moda.
Média
Segundo Triola (2017), é um ponto de equilíbrio de um conjunto de valores. A média aritmética
simples é a medida estatística mais utilizada. O cálculo é de acordo com a Equação 1.
Equação 1 – Média aritmética simples
i1 2 n xx x ... x
x x (1)
n n
+ + +
= ⇒ = ∑
Exemplo: Seja o tempo (minutos) para executar uma tarefa: 4, 5, 8, 9, 4
( )4 5 8 9 4 30x x 6
5 5
+ + + +
= = ⇒ =
em média, a tarefa é executada em 6 minutos.
Para conjuntos de dados maiores, o cálculo manual da média é trabalhoso e improdutivo. Utilize,
então, planilhas como o Excel.
8
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Figura 1 – Cálculo da média no Excel.
Fonte: elaborado pelo autor.
A média só deve ser utilizada se seu resultado for próximo ao meio do conjunto de dados, não
existindo valores extremos, ou seja, há baixa variabilidade (dispersão). Caso isso não aconteça,
deve-se utilizar a mediana.
Assista
Acesse na plataforma o vídeo: O uso e abuso da média aritmética simples
Mediana (Md)
Trata-se de um valor real que separa o rol de dados em duas partes, deixando à esquerda o
mesmo número de observações que à sua direita. Segundo Triola (2017), mediana (Md) é o valor
que ocupa o meio do conjunto de dados ordenados.
A mediana não sofre com a presença de valores extremos (muito altos ou muito baixos).
Costuma-se dizer que ela é mais robusta do que a média aritmética, devendo-se dar preferência
ao seu uso como medida sintetizadora quando o conjunto de dados é assimétrico, por exemplo,
a distribuição de salários dos empregadosde uma empresa.
A determinação da mediana varia se o número de observações (n) é par ou ímpar.
a) n é número par: a mediana é obtida pela média entre os dois valores do centro do conjunto
ordenado.
Exemplo: 7, 21, 13, 15, 10, 8, 9, 13
Ordenando : 7, 8, 9, 10, 13, 13, 15, 21
9
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
( )10 13
Md 11,5
2
+
= =
Conclui-se que 50% dos valores do conjunto de dados estão até 11,5 e 50% dos valores do conjunto
de dados estão a partir de 11,5.
O cálculo no Excel pode ser realizado utilizando a função percentil com k= 0,5 (50%).
Figura 2 – Função percentil no Excel.
Fonte: elaborado pelo autor.
b) n é número ímpar: a mediana é a observação que está na posição
n 1
2
+
, onde n é quantidade
de valores do conjunto de valores.
Exemplo: 2, 20, 12, 23, 20, 20, 23.
O valor 2 é considerado um valor extremo, pois ele está distante dos demais.
Ordenando: 2, 8, 12, 12, 20, 20, 23
→ Posição = a7 1 4
2
+
=
→ Md = 12
10
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Existe uma relação muito importante entre a média aritmética simples e a mediana.
Quando seus valores são iguais, o conjunto de dados é simétrico, isto é, metade do conjunto
de dados se encontra até a média. Quando a média é menor que a mediana, o conjunto de
dados é assimétrico negativo (ou assimetria a esquerda). Se a média for maior que a
mediana, o conjunto de dados é assimétrico positivo (ou assimetria a direita).
Moda
A moda é o valor com maior frequência (repetição) no conjunto de dados. Serve para resumi-lo
em único valor.
Exemplo: Seja o tempo (semanas) para desenvolver um aplicativo: 4; 5; 4; 3; 6; 7.
A moda é 4, pois é o valor que mais se repete (duas vezes).
Exemplo: Sejam as notas em Estatística: 8; 12; 10; 8; 9; 7; 9
São duas Modas: 8 e 9. O conjunto é bimodal.
Caso não exista valor repetido, o conjunto é amodal.
11
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Infográfico 1 – Principais medidas de posição.
12
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Aprofunde-se
O gerente de um time beisebol contrata um estatístico para negociar e montar um elenco de jogadores
utilizando dados ao invés de “olheiros”. É um filme baseado em fatos reais.
Título: O homem que mudou o jogo
Ano: 2012
Sinopse: Baseado em fatos reais, O Homem que Mudou o Jogo é a história de Billy Beane (Brad Pitt), gerente
do time de baseball Oakland Athletics. Com pouco dinheiro em caixa e a ajuda de Peter Brand (Jonah Hill),
ele desenvolve um sofisticado programa de estatísticas para o clube, fazendo com que ficasse entre as
principais equipes do esporte nos anos 80.
Fonte: (ADORO CINEMA, 2012)
13
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
2 Medidas de dispersão
Junto de uma medida de posição você sempre deve calcular uma medida de dispersão
(variabilidade) para mostrar o grau de afastamento dos valores observados em relação àquele
valor representativo. Não basta saber o valor em torno do qual os dados se concentram; é preciso
conhecer também o grau de agregação, ou seja, definir e usar medidas de dispersão dos dados.
Entre as medidas disponíveis, as mais usadas são: amplitude total, desvio padrão, variância e
coeficiente de variação.
Amplitude Total (AT)
É utilizada para avaliar o tamanho de uma série. É definida como diferença entre o maior e o
menor valor de uma sequência numérica, conforme a Equação 2.
Equação 2 – Amplitude Total (At)
t max minA X X (2)= −
Seja o número diário de peças defeituosas: 4, 2, 3, 3, 6, 3
At = 6 - 2 = 4
quanto maior o resultado da AT, maior a variabilidade presente no conjunto de dados.
Variância
Quantifica a variabilidade presente no conjunto de dados. Porém, a unidade da variância é o
quadrado da unidade original do conjunto de dados. É calculada de acordo com a Equação 3.
Equação 3 – Variância amostral
( ) ( )
2
i2 2
i
x1s x 3
n 1 n
= −
−
∑∑
14
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Desvio padrão
É a raiz quadrada da variância conforme a Equação 4.
Equação 1 – Desvio padrão amostral
( )2s s 4=
A desvantagem da variância em relação ao desvio padrão é o fato de que sua unidade de medida
é igual ao quadrado da unidade de medida dos dados originais. Considere o número diário de
peças defeituosas: 4, 2, 3, 3, 6, 3
( ) ( )2 2
i2 2
i
x 211 1s x = 83 1,9
n 1 n 6 1 6
= − − =
− −
∑∑
38,19,12 === ss
O número diário de peças defeituosas distancia, em média, 1,38 peças em relação ao número
médio.
O cálculo no Excel é por meio da função DESVPAD.A
Figura 3 – Cálculo do desvio padrão no Excel.
Fonte: elaborado pelo autor.
15
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Assista
Acesse na plataforma o vídeo: A melhoria da qualidade e a dispersão
Coeficiente de Variação
É a medida que expressa a variabilidade em termos relativos comparando o desvio padrão com
a média, conforme a Equação 5.
Equação 5 – Coeficiente de Variação
Note que é importante expressar a variabilidade em termos relativos porque, por exemplo, um
desvio padrão igual a 1 pode ser muito pequeno se a magnitude dos dados for da ordem de 1.000,
mas pode ser considerado muito elevado se a magnitude for da ordem de 10. Observe, também,
que o coeficiente de variação é adimensional e, por esse motivo, ele permite a comparação das
variabilidades de diferentes conjuntos de dados. Usualmente é expresso em porcentagem (%).
Quanto menor o coeficiente de variação, mais homogêneo é o conjunto de dados.
Considere as amostras de comprimento de peças de dois fornecedores, conforme Tabela 1.
Fo
rn
ec
ed
or
es
Fornecedor A Fornecedor B
70 66
69 72
71 67
70 73
70 72
71 73
69 67
Média 70 70
Desvio 0,82 3,16
CV (%) 1,17 4,52
Tabela 1 – Comprimento de peças de dois fornecedores.
Fonte: elaborado pelo autor.
Parece que o processo do fornecedor A apresenta uma menor variabilidade, pois 1,17% < 4,52%.
16
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Aprofunde-se
Veja como o estudo da variabilidade é utilizado para melhoria dos processos.
Título: Análise do processo produtivo por meio da abordagem seis sigma em uma empresa de cerâmica
localizada no município de Marabá-PA
Disponível em: http://www.abepro.org.br/biblioteca/TN_STP_239_388_34060.pdf
Acesso em: 02/12/2021.
Reflita
A variabilidade alta é a causadora de produtos
defeituosos e serviços não conformes. Assim, um dos principais objetivos da gestão da qualidade é reduzir
a dispersão nos processos. Por isso, a média aritmética simples só deve ser utilizada para tomar decisões se
a variabilidade não for elevada, ou seja, se o coeficiente de variação for inferior a 20%.
Pensando nisso, pode-se utilizar a média simples para representar os salários de toda a empresa?
http://www.abepro.org.br/biblioteca/TN_STP_239_388_34060.pdf
17
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
3 Gráficos e tabelas de frequência
Os dados obtidos durante a coleta devem ser reduzidos de forma a possibilitar a interpretação
dos mesmos durante a fase de análise. Para isso, é necessária a identificação do número de vezes
que os dados aparecem na coleta. Isso é feito pela determinação das frequências.
Exemplo: Sejam as notas de 49 alunos em estatística
75 89 66 52 90 68 83 94 77 60 38 47 87 65 98
49 65 70 73 81 85 77 83 56 63 79 82 84 69 70
62 75 68 88 74 30 81 76 74 63 69 73 91 87 76
58 63 71 82
Tem-se uma amostra de n = 49 valores.Os seguintes passos são necessários para a construção de uma tabela com perda de informação
(intervalos de classe):
a) Determinação do número de classes (K) da série: é a definição do número de intervalos gerados na
sequência. O intervalo de uma classe é qualquer subdivisão da amplitude total de uma série. Existem
critérios empíricos para a determinação do número de classes, entre eles o critério da raiz, conforme
Equação 6.
Equação 6 – Determinação do Número de Classes (K)
( )k n 6=
O número de classes deve ser inteiro. Para este exemplo temos:
k 49 7= =
Portanto, a tabela terá 7 intervalos de classe.
b) Cálculo da altura ou amplitude das classes (h): é a diferença do limite superior pelo inferior de uma classe,
que deve ser mantido igual para todas elas. Caso necessário, aumente o intervalo de tal forma que seja
um número inteiro. A fórmula está na Equação 7.
18
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Equação 7 – Cálculo da altura ou amplitude das classes (h)
( )tA
h 7
k
=
Em que:
t máx minA X X= −
tA 98 30 68= − = , desta maneira, temos
68h 10
7
= ≅
Cada classe terá altura 10. Começando pelo menor valor do conjunto de dados (30), soma-se 10,
obtendo o limite superior da classe (40). A notação mais utilizada é 30 |- 40. Na qual o valor 30
pertence ao intervalo (fechado) e 40 não pertence a nenhum intervalo (intervalo aberto). Isso
porque de 30 a 40 são 11 valores (incluídos os limites).
c) Calcular as frequências de cada classe:
•
ifFrequência absoluta simples ( )
É a contagem (frequência) de elementos pertencentes a determinada classe. Na primeira classe,
que vai de 30 (inclusive) e 40 (exclusive), vamos denotar por 30 |- 40, temos 2 alunos.
75 89 66 52 90 68 83 94 77 60 38 47 87 65 98
49 65 70 73 81 85 77 83 56 63 79 82 84 69 70
62 75 68 88 74 30 81 76 74 63 69 73 91 87 76
58 63 71 82
• rifFrequência relativa simples ( )
A frequência relativa é obtida pela divisão da frequência simples do elemento ou classe pelo
número total de elementos da série. Ou seja, i
ri
f
f
n
= . Para a primeira classe deste exemplo,
ri
2f 0,0408
39
= = ou 4,08%. A primeira classe possui 4,08% de todo o conjunto de dados (de todas
as notas). Pode-se dizer que 4,08% dos alunos obtiveram nota entre 30 e 39,999.
•
iFFrequência absoluta acumulada ( )
A frequência acumulada é obtida como a soma das frequências simples dos elementos ou classes
que o antecedem, ou seja, i 1 2 3 iF f f f ... f= + + + +
•
riFFrequência relativa acumulada ( )
19
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
É obtida, dentre outras formas, pela divisão da frequência acumulada do elemento ou classe pelo número
total de elementos da série, ou seja:
1
ri
F
F
n
=
O resumo dos dados está na Tabela 2.
Classe
if iF rif riF
30 | - 40 2 2 0,0408 0,0408
40 | - 50 2 4 0,0408 0,0816
50 | - 60 3 7 0,0612 0,1428
60 | - 70 12 19 0,2449 0,3877
70 | - 80 14 33 0,2857 0,6734
80 | - 90 12 45 0,2449 0,9183
90 | - 100 4 49 0,0816 1,00
Total 49 1,00
Tabela 2 – Distribuição de frequências de notas de alunos.
Fonte: elaborado pelo autor.
Gráficos
São utilizados para resumir ainda mais os dados, e de uma maneira mais visual que uma tabela.
É preciso definir a forma gráfica ideal para cada caso, buscando sempre a clareza e a simplicidade
necessárias para uma rápida interpretação, pelo observador, das informações contidas. O quadro
1 mostra quando usar cada gráfico.
20
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Gráfico Esboço Quando usar
Colunas ou barras
Comparar quantidades por categoria (máquina, turno, turma,
marca, modelo, filial).
Setores (pizza)
Apresentar percentuais divididos em fatias (categorias).
Linhas
Representar séries temporais: vendas por mês, produção
diária.
Dispersão
Visualizar o relacionamento existente entre duas ou mais
variáveis.
Histograma
Assimetria (forma) que os dados estão distribuídos e o grau
de achatamento (curtose).
Quadro 1 – Principais gráficos e exemplos de quando usar cada um.
Fonte: elaborado pelo autor.
Aprofunde-se
Neste artigo, você verá alguns exemplos de gráficos que foram utilizados para tomada de decisões. Os
gráficos são ferramentas visuais muito eficientes para controlar e melhorar processos.
Título: Análise do sistema de medição da remanência BR do processo de produção da ferrita magnética
PO2-C
Disponível em: http://www.abepro.org.br/biblioteca/TN_STO_239_388_33682.pdf
Acesso em: 03/12/2021.
Relação entre Peso e Altura
20
25
30
35
40
45
130 135 140 145 150
Altura
Pe
so Peso
21
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
4 Regressão Linear
Técnica utilizada para estudar o relacionamento (correlação) existente entre variáveis, por
exemplo, o tempo de fabricação de uma peça e o número de horas de treinamento.
Y : variável dependente ou resposta
X : variável independente ou explicativa
Gráfico 1 - Exemplo de um gráfico de regressão.
Fonte: elaborado pelo autor.
A equação do modelo de regressão linear simples é dada pela equação 8.
( )0 1Y X 8=β +β + ε
0β : coeficiente linear ou intercepto da reta (valor estimado de Y quando X 0= ).
1β : coeficiente angular ou inclinação da reta (alteração esperada em Y para variação unitária em
X ).
ε : erro aleatório (parte do valor Y que X não consegue explicar).
O cálculo desses coeficientes é realizado pelo método dos mínimos quadrados, isto é, uma reta
que passa o mais próximo possível de todos os pontos. O coeficiente linear é dado pela equação
9 e o angular pela equação 10.
( )
( )
2
0 22
X Y X XY
9
n X X
−
β =
−
∑ ∑ ∑ ∑
∑ ∑
( )
( )1 22
n XY X Y
10
n X X
−
β =
−
∑ ∑ ∑
∑ ∑
22
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Na qual n é a quantidade de pares de valores (𝑥𝑥,𝑦𝑦)
Exemplo: Seja o número de peças fabricadas(Y) e as horas recebidas de treinamento (X).
Para o cálculo dos coeficientes, deve-se adicionar duas colunas: x2 e X.Y e calcular o total de cada
uma das 4 colunas.
Horas de treinamento Peças fabricadas x2 xy
0 20 0 0
1 21 1 21
2 23 4 46
4 25 16 100
6 27 36 162
8 30 64 240
10 32 100 320
31 178 221 889
Tabela 3 – Cálculo de coeficientes de acordo com o número de peças e horas de treinamento.
Fonte: elaborado pelo autor.
( ) ( )
( ) ( )0 2
221 178 31 889
20,10
7 221 31
−
β = =
−
( ) ( )
( ) ( )1 2
7 889 31 178
1,20
7 221 31
−
β = =
−
O cálculo pelo Excel é:
Figura 4 – Cálculo da regressão pelo Excel.
Fonte: elaborado pelo autor.
23
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Figura 5 – Resultados da regressão pelo Excel.
Fonte: elaborado pelo autor.
0 20,10β =
- São fabricadas 20,10 peças para quem não possui horas de treinamento.
1 1,20β =
- A cada hora de treinamento, o número de peças fabricas aumenta, em média, 1,20
peças.
A partir desta equação, podemos estimar o valor da variável resposta a partir de um valor de
interesse da variável explicativa.
O número estimado de peças fabricadas para 5 horas de treinamento é:
( )y 20,10 1,20 5 26,1 26= + = ≅
O Coeficiente de Correlação amostral r mede a força da associação linear entre x e y, enquanto.
O coeficiente r é defindo pela equação 11.
( ) ( )( )
( ) ( ) ( ) ( )
( )
2 22 2
n xy x y
r 11
n x x n y y
−
=
− ⋅ −
∑ ∑ ∑
∑ ∑ ∑ ∑
Segundo Triola (2017), o valor de r estará sempre no intervalo [-1; 1]. Valores próximos de 1 indicam
uma forte correlação linear positiva entre X e Y. Valores próximos de -1 indicam uma forte
correlação linear negativaentre X e Y, isto é, enquanto uma variável aumenta, a outra diminui.
Importante lembrar que r mede a intensidade de um relacionamento linear. Ele não serve para
medir o relacionamento não linear.
24
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
Para o exemplo de número de peças fabricadas e horas de treinamento r = 0,9977 (R múltiplo da
saída do Excel), existe uma forte correlação positiva entre as duas variáveis.
Horas de treinamento Peças fabricadas x2 xy y2
0 20 0 0 400
1 21 1 21 441
2 23 4 46 529
4 25 16 100 625
6 27 36 162 729
8 30 64 240 900
10 32 100 320 1024
31 178 221 889 4.648
Tabela 4 – Cálculo do coeficiente de correlação de acordo com o número de peças e horas de
treinamento.
São 7 pares de valores de x e y, isto é, n=7.
( ) ( )( )
( ) ( ) ( ) ( )2 2
7 889 31 178
r 0,9977
7 221 31 7 4 648 178
−
= =
− ⋅ ⋅ −
O Coeficiente de Determinação ( )2R é o valor da variação de Y que é explicado pela reta de
regressão, de acordo com Triola (2017). O coeficiente de determinação é definido pela equação 12.
( ) ( )( )
( ) ( ) ( ) ( )
( )2
2 22 2
n xy x y
R 12
n x x n y y
−
=
− ⋅ −
∑ ∑ ∑
∑ ∑ ∑ ∑
Na prática, é só elevar r ao quadrado e, como você já calculou r = 0, 9977, na saída do Excel, é R-
Quadrado.
R2 = 0,99772 = 0,9954 ou 99,54%. As horas de treinamento (X) explicam 99,54% da variabilidade no
número de peças fabricadas (Y).
25
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
CONSIDERAÇÕES FINAIS
Muito bem! Você estudou nesta unidade a Estatística descritiva e viu a importância de resumir
os dados coletados. Também pôde entender que as principais técnicas são medidas resumo,
tabelas e gráficos e, por fim, utilizou a regressão linear para realizar previsões de uma variável
através de outra.
Bons estudos!
26
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
GLOSSÁRIO
Rol de dados: é o conjunto de dados em ordem crescente.
27
Unidade 1 - Introdução à Estatística descritiva
ANÁLISE DE DADOS
REFERÊNCIAS
ADORO CINEMA. O homem que mudou o jogo. 2012. Disponível em:
https://www.adorocinema.com/filmes/filme-140005/ Acesso em: 27 jan. 2022.
MORETTIN, Pedro A; BUSSAB, Wilton O. Estatística básica. 9. ed. São Paulo: Editora Saraiva, 2017.
TRIOLA, Mário F. Introdução à Estatística. 12. ed. São Paulo: Grupo GEN; Editora LTC, 2017.
WALPOLE, R. E. et al. Probabilidade & Estatística para Engenharia e Ciências. 8. ed. São Paulo: Pearson,
2009.
28
Unidade 2 - Probabilidades
ANÁLISE DE DADOS
Objetivos de aprendizagem:
Compreender os conceitos básicos da probabilidade. Desenvolver a habilidade de usar recursos
computacionais e a capacidade de fazer descrições qualitativa e quantitativa de situações-
problemas, além de conseguir interpretar questões que abordam problemas a serem
enfrentados.
Tópicos de estudo:
• Conceitos da probabilidade;
• Eventos.
Iniciando os estudos:
A probabilidade é vital para o mercado atualmente e, por meio de seu uso, por exemplo, as
empresas podem decidir se lançam ou não um novo produto, como também as seguradoras
podem cobrar um seguro maior ou menor em função da probabilidade de o cliente vir a acionar
esse seguro, dependendo do perfil do cliente, como tempo de carteira de habilitação, idade etc.
Nesta unidade, serão apresentados todos os conceitos e as fórmulas necessários para o cálculo e
a interpretação da probabilidade.
29
Unidade 2 - Probabilidades
ANÁLISE DE DADOS
1 CONCEITOS DA PROBABILIDADE
A probabilidade quantifica a ocorrência de um fenômeno como, por exemplo, chover hoje,
aparecer face 4 no lançamento de um dado e o notebook falhar.
Figura 1 - Probabilidade, dados e sorte.
Para calcular este número (a probabilidade), você precisará de três conceitos: experimento
aleatório, espaço amostral e evento.
Experimento aleatório
É uma ação com resultado não determinístico, como, por exemplo, lançar uma moeda e observar
a face que ficou virada para cima. Lançar é uma ação e o resultado dessa ação não é
determinístico, isto é, você não pode dizer que será cara com 100% de certeza. Portanto, é um
experimento aleatório.
Já um experimento determinístico é a 2H O (água). Toda vez que você realizar o experimento duas
moléculas de hidrogênio e uma de oxigênio, o resultado será água. Por outro lado, a fabricação
de um smartphone é um experimento aleatório: você não pode afirmar que o vigésimo aparelho
fabricado será perfeito com toda certeza. É provável que seja mais perfeito do que defeituoso,
mas não pode dizer que será perfeito com uma probabilidade de 100%.
Assista
Acesse na plataforma o vídeo: O uso e abuso da média aritmética simples
30
Unidade 2 - Probabilidades
ANÁLISE DE DADOS
Espaço amostral
É o conjunto de todos os resultados possíveis de um experimento aleatório, também conhecido
como EA. No lançamento de uma moeda, por exemplo, o espaço amostral é cara ou coroa, e é
padrão representá-lo entre chaves: EA = {cara; coroa}. Já a inspeção de um produto, o EA pode ser
demonstrado por {perfeito; defeituoso}; e uma empresa que vende um automóvel nas cores
prata, azul, branco e verde, o EA é {prata; azul; branco; verde}.
Evento
É um subconjunto do espaço amostral, sendo indicado por uma letra maiúscula. A probabilidade
é calculada para o evento, por isso, a escolha do evento é fundamental. Por exemplo, qual a
probabilidade de um produto fabricado ser perfeito? Nessa situação, o evento é A = {O produto é
perfeito}. Já num sorteio da Mega-Sena, o evento é a sequência de seis números jogados, em que
está sendo calculada a probabilidade de se ganhar.
APROFUNDE-SE
Veja um estudo de caso e mais detalhes dos principais conceitos sobre a probabilidade neste artigo.
Título: Algumas reflexões sobre a definição de probabilidade
Disponível em: https://periodicos.ufsc.br/index.php/revemat/article/download/1981-
1322.2020.e70030/43218/259470
Acesso em: 30/12/2021.
31
Unidade 2 - Probabilidades
ANÁLISE DE DADOS
2 EVENTOS
O evento pode ser simples, como sair face 3 no lançamento de um dado de 6 faces, ou composto,
como observar a face 3 ou a face 6, de modo que você pode calcular a probabilidade de ocorrência
de um ou mais eventos. Essa probabilidade varia entre 0 (impossível) e 1 (certeza da ocorrência).
Figura 2 - A probabilidade pode ser baixa ou alta.
Como a probabilidade é uma medida de razão, considere A um evento qualquer. A probabilidade
do evento A ocorrer é dada pela equação 1.
Equação 1 – cálculo da probabilidade
( ) nº de casos favoráveisP A (1)
nº de casos possíveis
=
Agora, vamos a um exemplo: você deve lançar um dado de 6 faces e observar a face virada para
cima.
EA = {1; 2; 3; 4; 5; 6}
32
Unidade 2 - Probabilidades
ANÁLISE DE DADOS
Assim:
• A probabilidade de aparecer a face 2 é P(face 2) = P(2) = 1/6 ou 0,1667 ou 16,67%;
• A probabilidade de sair face par é P(par) = 3/6 = ½ ou 50%;
• A probabilidade de sair face par ou ímpar é P(par ou ímpar) = 6/6 = 1 ou 100%;
• A probabilidade de sair face 7 é P(7) = 0/6 = 0.
Com esse exemplo simples, prova-se que qualquer probabilidade está entre 0 e 1; e que quanto
maior a probabilidade, mais provável é a ocorrência do evento.
Assista
Acesse na plataforma o vídeo: O uso da análise combinatória para calcular o espaço amostral
União de eventos ou regra da soma
Considere dois eventos: A e B. A união entre eles é denotada por ( )A B∪ , em que o símbolo da
união ∪ significa “ou”. Portanto, A B∪ é a probabilidade de ocorrer o evento A ou B .
A fórmula da união é dada pela equação 2, em que o símbolo ∩ significa interseção:
Equação 2 – probabilidade da união
( ) ( ) ( ) ()P A B P A P B P A B (2)∪ = + − ∩
33
Unidade 2 - Probabilidades
ANÁLISE DE DADOS
Veja um exemplo: o quadro 1 apresenta peças enviadas por dois fornecedores.
Perfeitas Defeituosas Total
Fornecedor A 230 15 245
Fornecedor B 130 8 138
Total 360 23 383
Quadro 1 - Quantidade de peças por fornecedor.
Fonte: elaborado pelo autor.
Uma peça foi selecionada ao acaso, então, a probabilidade de essa peça ser do fornecedor A ou
ser perfeita é:
( ) 245 360 230P A P 0,9791 ou 97,91%
383 383 383
∪ = + − =
APROFUNDE-SE
Veja a importância da probabilidade para a simulação de análises financeiras neste texto.
Título: Análise financeira com o uso de simulação de Monte Carlo: estudo de caso em uma cooperativa de
reciclagem de São Gonçalo – RJ
Disponível em: http://www.abepro.org.br/biblioteca/TN_STO_348_1790_40372.pdf
Acesso em: 26/12/2021.
Eventos mutuamente excludentes
Dois eventos são considerados excludentes quando a interseção entre eles é igual a zero, isto é, a
ocorrência de um elimina a possibilidade do outro. Por exemplo, uma peça é perfeita ou
defeituosa; não é possível ocorrer as duas características ao mesmo tempo, pois
( )P perfeita defeituosa 0∩ = . Dessa maneira, pode-se concluir que ( ) ( ) ( )P A B P A P B∪ = +
quando A e B são mutuamente excludentes.
34
Unidade 2 - Probabilidades
ANÁLISE DE DADOS
APROFUNDE-SE
Veja como o uso da probabilidade pode aumentar a confiabilidade e disponibilidade de equipamentos.
Título: Análise de confiabilidade e mantenabilidade de um processo de tratamento térmico: estudo de caso
em uma indústria de fabricação de tubos com costura
Disponível em: http://www.abepro.org.br/biblioteca/TN_STO_239_388_32356.pdf
Acesso em: 04/12/2021.
Interseção de eventos
Considere dois eventos: A e B. A interseção entre eles é denotada por (A ∩ B), portanto, A ∩ B é a
probabilidade de ocorrer os eventos A e B ao mesmo tempo. Normalmente, a probabilidade da
interseção de dois eventos é inferior à sua união.
Levando em conta o quadro 1, a probabilidade de uma peça ser do fornecedor A e ser perfeita é:
( ) 230P A P 0,60 ou 60%
383
∩ = =
Eventos independentes
É quando a ocorrência de um evento A não depende da ocorrência de um evento B. Dessa
maneira, a probabilidade da interseção entre eles é vista pela equação 3:
Equação 3 – Probabilidade da interseção e eventos independentes
( ) ( ) ( )P A B P A P B (3)∩ = ×
Essa regra vale para mais de dois eventos também, é só multiplicar as probabilidades individuais.
35
Unidade 2 - Probabilidades
ANÁLISE DE DADOS
Figura 3 – Lançamento de dados independentes.
Acompanhe este exemplo: a probabilidade de um automóvel A continuar funcionando daqui a 5
anos é 90%, enquanto a de um automóvel B, é 80%. Você percebe que o funcionamento de A não
depende de B? Dessa maneira, a probabilidade de ambos funcionarem daqui a 5 anos é
simplesmente a multiplicação das probabilidades individuais:
( )P A B 0,9 0,8 0,72 ou 72%∩ = × =
Regra da multiplicação
Quando dois eventos são dependentes, você pode calcular a probabilidade da interseção entre
eles utilizando a regra da multiplicação, dada pela equação 4, em que o termo P(B/A) é a
probabilidade de ocorrência do evento B condicionada à ocorrência do evento A, isto é, é a
probabilidade de ocorrência do evento B sabendo que o evento A já ocorreu.
Equação 4 – regra da multiplicação
( ) ( ) ( )P A B P A P B / A (4)∩ = ×
36
Unidade 2 - Probabilidades
ANÁLISE DE DADOS
Veja este exemplo: em uma caixa há 18 peças perfeitas e 5 defeituosas, e 2 peças (uma após a
outra) são retiradas sem reposição. A probabilidade da segunda peça depende do que aconteceu
na primeira retirada, pois não houve reposição. O espaço amostral foi alterado com a retirada da
primeira peça e, dessa maneira, o segundo evento depende do primeiro.
A probabilidade de ambas serem defeituosas é:
( ) ( ) ( ) 5 4P D1 D2 P D1 P D2/ D1 0,0395 ou 3,96%
23 22
∩ = × = × =
REFLITA
Um problema clássico de probabilidade é o dilema das portas, também conhecido como o Paradoxo de
Monty Hall. Considere um programa de entretenimento na televisão, o qual apresenta três portas. Atrás de
uma delas tem um prêmio milionário e as outras duas estão vazias. O apresentador solicita que você escolha
uma dessas três portas; a probabilidade de você ganhar o prêmio é 1/3. Ele, como sabe a porta premiada,
abre a outra que você não escolheu, que está vazia. Restam duas portas fechadas. Assim, o apresentador
pergunta se você quer mudar de porta. Você mudaria? Sua probabilidade de ganhar o prêmio aumenta
com essa troca?
Evento complementar
Dois eventos são complementares quando a soma das probabilidades individuais é igual a 1.
Pode-se definir o complementar do evento A como A � (não A), o qual serve todo o espaço amostral,
menos o evento A, isto é, serve tudo, menos o evento A. Esse cálculo é realizado pela equação 5:
Equação 5 – evento complementar
( ) ( )P A 1 P A (5)= −
Por exemplo: a probabilidade de uma peça defeituosa ser da filial A é de 20%, da filial B, 50%, e da
filial C, 30%. Então, a probabilidade dessa peça defeituosa não ser da filial A é:
( )P A 1 0,2 0,80 ou 80%= − =
37
Unidade 2 - Probabilidades
ANÁLISE DE DADOS
Infográfico 1 - Interseção e união de eventos.
Fonte: elaborado pelo autor.
38
Unidade 2 - Probabilidades
ANÁLISE DE DADOS
APROFUNDE-SE
Confira este filme, em que um grupo de alunos do MIT, juntamente com seu professor, vai para os cassinos
de Las Vegas e utiliza seus conhecimentos em probabilidades nos jogos.
Título: Quebrando a banca
Ano: 2008
Sinopse: Ben Campbell (Jim Sturgess) é um jovem tímido e superdotado do MIT que, precisando pagar a
faculdade, busca a quantia necessária em jogos de cartas. Ele é chamado para integrar um grupo de alunos
que, todo fim de semana, parte para Las Vegas com identidades falsas e o objetivo de ganhar muito dinheiro.
O grupo é liderado por Micky Rosa (Kevin Spacey), um professor de matemática e gênio em estatística, que
consegue montar um código infalível (ADORO CINEMA, 2022). https://www.adorocinema.com/filmes/filme-
124755/trailer-18797876/
https://www.adorocinema.com/filmes/filme-124755/trailer-18797876/
https://www.adorocinema.com/filmes/filme-124755/trailer-18797876/
39
Unidade 2 - Probabilidades
ANÁLISE DE DADOS
CONSIDERAÇÕES FINAIS
Muito bem! Você estudou nesta unidade a probabilidade e viu a sua importância para as
empresas. Os seus principais conceitos são: experimento aleatório; espaço amostral, evento e
regras de probabilidade, como união e interseção. Agora, você já sabe que toda probabilidade
está entre 0 e 1.
40
Unidade 2 - Probabilidades
ANÁLISE DE DADOS
REFERÊNCIAS
ADOROCINEMA. Quebrando a banca. Disponível em: https://www.adorocinema.com/filmes/filme-124755/
Acesso em: 05 jan. 2022.
MORETTIN, Pedro A; BUSSAB, Wilton de O. Estatística básica. 9. ed. São Paulo: Editora Saraiva, 2017.
ISBN 9788547220228.
TRIOLA, Mario F. Introdução à estatística. 12. ed. Rio de Janeiro: LTC, 2017. ISBN 9788521633747.
WALPOLE, Ronald E. et al. Probabilidade & estatística para engenharia e ciências. 8. ed. São Paulo:
Pearson, 2009.
https://www.adorocinema.com/filmes/filme-124755/
41
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
Objetivos de aprendizagem:
Compreender os conceitos da distribuição de probabilidade. Desenvolver a habilidade de usar
recursos computacionais e a capacidade de fazer descrições qualitativa e quantitativa de
situações-problemas, além de conseguir interpretar questões que abordam problemas a serem
enfrentados.
Tópicos de estudo:
• DistribuiçãoBinomial;
• Distribuição Normal.
Iniciando os estudos:
Muitos fenômenos aleatórios podem ser explicados ou modelados por funções. Identificar essas
funções e seus respectivos gráficos possibilita o cálculo rápido das probabilidades de eventos
desses fenômenos. Por exemplo, o comportamento do número diário de casos de covid-19ou o
tempo de funcionamento de um motor de automóvel até começar a falhar.
Nesta unidade, serão apresentados todos os conceitos necessários e fórmulas de duas principais
distribuições de probabilidade: a Binomial e a Normal.
42
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
1 Distribuição Binomial
A distribuição binomial serve para modelar variáveis quantitativas discretas, isto é, fenômenos
que assumem valores inteiros, como o número de peças defeituosas; a quantidade de clientes
atendidos; e o número de computadores fabricados em um determinado dia.
Um experimento aleatório apresenta um conjunto de resultados possíveis. Por exemplo, no
lançamento de duas moedas, considerando a ordem do lançamento, temos o seguinte espaço
amostral:
EA = {KK; KC; CK; CC}
Onde: C = cara e K = coroa
A distribuição de probabilidade é modelada para uma variável aleatória (v.a.). Vamos considerar
a variável aleatória X como sendo o número de caras encontrado no lançamento de duas moedas.
A cada evento simples ou resultado do espaço amostral, podemos associar um número,
conforme quadro 1.
Evento KK KC CK CC
x 0 1 1 2
Quadro 1 - Valores possíveis da variável aleatória.
Fonte: elaborado pelo autor.
Os valores diferentes que a variável aleatória X pode assumir são 0, 1 e 2. O nome da v.a. é
representado por uma letra maiúscula, e os valores que ela assume, por uma letra minúscula.
Assim, temos:
X: número de caras observado no lançamento de duas moedas
x: 0, 1 e 2
Vamos associar uma probabilidade a cada valor possível da nossa variável aleatória.
x 0 1 2
p(x) 0,25 0,50 0,25
Quadro 2 - Valores possíveis da variável aleatória.
Fonte: elaborado pelo autor.
43
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
Onde:
𝑝𝑝(𝑥𝑥 = 0) = 𝑝𝑝(0) =
1
4
= 0,25 ou 25%
O conjunto dos pares de cada valor de X e a sua respectiva probabilidade, ou seja,[𝑥𝑥;𝑝𝑝(𝑥𝑥)] é
denominado distribuição de probabilidade. É uma função bem específica, em que o eixo Y é
sempre a probabilidade.
Figura 1 - Gráfico da distribuição de probabilidades.
Fonte: elaborado pelo autor.
Para que uma distribuição discreta seja uma legítima distribuição de probabilidade, ela deve
satisfazer duas condições:
1. Cada probabilidade individual dever ser maior ou igual a zero.
2. A soma de todas as probabilidades deve ser igual a 1 ou 100%.
44
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
APROFUNDE-SE
Veja mais detalhes dos principais conceitos e aplicações de distribuição de probabilidade neste
texto. O artigo apresenta, também, um estudo de caso do uso de distribuições de probabilidades
em simulação.
Título: Análise da viabilidade econômica de produção de calçados por meio da simulação de
Monte Carlo
Disponível em: http://www.abepro.org.br/biblioteca/TN_WPG_360_1860_42180.pdf
Acesso em: 13/01/2022.
O valor esperado ou a média de uma variável aleatória discreta X é denotado por 𝐸𝐸(𝑋𝑋). Ele é
calculado de acordo com a Equação 1.
O valor esperado de uma variável aleatória
𝐸𝐸(𝑋𝑋) = ∑ 𝑥𝑥 ⋅ 𝑝𝑝(𝑥𝑥)𝑥𝑥 (1)
Para o exemplo do número de caras no lançamento de duas moedas, temos:
E(X) = 0 ⋅ 0,25 + 1 ⋅ 0,50 + 2 ⋅ 0,25 = 1 cara
Espera-se observar 1 cara no lançamento de 2 moedas. É uma média ponderada pela
probabilidade.
A distribuição binomial é um dos tipos de distribuição de probabilidade discreta. Ela serve para
modelar o número de sucessos em n tentativas de um experimento que somente apresenta 2
resultados possíveis: sucesso ou fracasso; 0 ou 1; defeituoso ou perfeito; aprovado ou reprovado.
Por exemplo, o número de peças perfeitas em 30 peças inspecionadas ou a quantidade de alunos
aprovados numa turma de 50 alunos. A palavra sucesso nem sempre se relaciona com algo
positivo do nosso cotidiano. Sucesso aqui ocorre no sentido de encontrarmos um valor que
definimos na variável aleatória, como 3 peças defeituosas em 40 peças inspecionadas.
• O número de tentativas (ou tamanho da amostra) é denotado por n.
• O número de sucessos em n tentativas é denotado por x.
• A probabilidade de sucesso a cada tentativa é constante e representada por p.
• A probabilidade de fracasso é (1 − 𝑝𝑝).
• A probabilidade de x sucessos em n tentativas é dada pela Equação 2.
45
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
Equação 2 – Distribuição binomial
𝑃𝑃(𝑥𝑥) = �𝑛𝑛𝑥𝑥� ⋅ 𝑝𝑝
𝑥𝑥(1 − 𝑝𝑝)𝑛𝑛−𝑥𝑥 (2)
A média da distribuição binomial é n(p).
O termo �𝑛𝑛𝑥𝑥� é o número de combinações possíveis de x elementos numa amostra de tamanho n,
calculado pela Equação 3.
Equação 3 – Fórmula da combinação
�𝑛𝑛𝑥𝑥� = 𝑛𝑛!
(𝑛𝑛−𝑥𝑥)!𝑥𝑥!
Onde: 𝑛𝑛! = 𝑛𝑛(𝑛𝑛 − 1) ⋅ (𝑛𝑛 − 2). . . (1)
5! = 5 ⋅ (4) ⋅ (3) ⋅ (2) ⋅ 1 = 120
Vamos considerar uma amostra de 30 peças inspecionadas. Sabe-se que, historicamente, a
probabilidade de uma peça ser defeituosa é de 10%. A probabilidade de encontrar 2 peças
defeituosas nessas 30 inspecionadas é de:
𝑃𝑃(2) = �30
2 � . 0,12 . (1 − 0,1)30−2 = 0,2277 𝑜𝑜𝑜𝑜 22,77%
Onde: 𝑛𝑛 = 30, 𝑥𝑥 = 2 e 𝑝𝑝 = 0,1
�30
2 � =
30!
(30 − 2)! 2!
=
30 ⋅ (29) ⋅ (28!)
28! ⋅ (2) ⋅ (1) = 435
Dessa maneira, temos:
𝑃𝑃(2) = 435 ⋅ 0, 12 ⋅ 0, 928 = 0,2277 ou 22,77%
46
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
O cálculo no Excel é o seguinte:
Figura 2 - Distribuição binomial no Excel.
47
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
REFLITA
O cálculo da probabilidade de um intervalo na distribuição binomial pode ser realizado utilizando
a fórmula da probabilidade no ponto. Por exemplo, a probabilidade de encontrar entre 3 e 6 peças
defeituosas em uma amostra de 40 peças inspecionadas, sabendo-se que 10% das peças
produzidas são defeituosas. A fórmula da binomial é usada para cálculo no ponto, isto é, para um
valor. Por exemplo, p(3), p(4), p(5) e p(6). Cada ponto apresentará uma probabilidade. A
probabilidade do intervalo entre 3 e 6 é a soma das probabilidades individuais. Essa soma é
denominada de probabilidade acumulada. Você concorda que essa soma seja a resposta do
cálculo da probabilidade no intervalo? Por quê?
ASSISTA
Acesse na plataforma o vídeo: Aproximação da distribuição binomial
48
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
2 Distribuição normal
A distribuição normal é indicada para modelar variáveis aleatórias contínuas. Essas variáveis
assumem qualquer valor em um determinado intervalo. Por exemplo, o tempo para executar
uma tarefa pode ser qualquer valor em um intervalo de 4 a 6 minutos (considerando os valores
com casas decimais). Quando se trata de uma variável aleatória contínua, ela é denominada
função densidade de probabilidade (FDP). As probabilidades são calculadas para um
determinado intervalo. Não existe conceito de probabilidade no ponto.
As distribuições discretas devem ser utilizadas para modelar o comportamento de variáveis que
assumem valores inteiros. Existem diversos modelos probabilísticos discretos, entre eles o
binomial e o de Bernoulli. Os modelos probabilísticos contínuos são adequados para variáveis que
assumem qualquer valor em um determinado intervalo quantitativo. As principais distribuições
contínuas são: a normal e a distribuição t de Student.
Diagrama 1 - Tipos de distribuições de probabilidade.
A distribuição de probabilidade mais utilizada no meio gerencial é a distribuição normal. A curvada distribuição normal está representada na figura 3.
49
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
Figura 3 - Curva da distribuição normal e suas propriedades.
Fonte: elaborado pelo autor.
A média da distribuição da distribuição normal é 𝜇𝜇 e o desvio padrão é 𝜎𝜎.
Figura 4 - Desvio padrão da distribuição normal.
Essa curva é simétrica em torno da média, isto é, metade da área da curva está abaixo da média,
e a outra metade, acima. A área total sob ela é igual a 1. O intervalo [𝜇𝜇 − 3𝜎𝜎; 𝜇𝜇 + 3𝜎𝜎]engloba 99,73%
das observações.
50
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
APROFUNDE-SE
Veja quem criou e qual é a origem da curva normal, além de conhecer suas principais
características, como a distribuição dos erros e o formato de boca de sino. O artigo também
apresenta várias aplicações na distribuição normal.
Título: Algumas considerações sobre a denominada curva normal
Disponível em: https://periodicos.ufn.edu.br/index.php/VIDYA/article/download/20/208
Acesso em: 13/01/2022.
A equação da função da densidade é dada pela Equação 4.
Equação 4 – Fórmula da equação da densidade da normal
𝑓𝑓(𝑥𝑥) = 1
√2𝜋𝜋𝜎𝜎
𝑒𝑒−
1
2�
𝑥𝑥−𝜇𝜇
𝜎𝜎 �
2
(3)
O cálculo direto de probabilidades é muito complexo para ser feito à mão. Por isso, são criadas
tabelas para a distribuição normal padrão (𝑍𝑍) que sempre apresentam média zero e desvio
padrão igual a 1.
Para utilizarmos essa tabela, fazemos uma transformação de variável conforme a Equação 5.
Equação 5 – Transformação da VA normal X em uma normal padronizada 𝒁𝒁
𝑍𝑍 = 𝑋𝑋−𝜇𝜇
𝜎𝜎
(5)
Considere que a variável aleatória do comprimento de uma camisa é normalmente distribuída
com média de 70cm e desvio padrão de 1cm. Calcule a probabilidade de uma camisa ser
fabricada com, no máximo, 73 centímetros.
X: Comprimento (centímetros) de uma camisa
Média 𝜇𝜇 = 70
desvio padrão 𝜎𝜎 = 1
𝑝𝑝(𝑋𝑋 ≤ 73) = 𝑝𝑝 �𝑍𝑍 ≤
73 − 70
1 � = 𝑝𝑝(𝑍𝑍 ≤ 3) = 0,9987 ou 99,87%
51
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
Vamos consultar a Z (tabela 1), procurando o valor 3,0. Esse valor está do lado de “fora” da tabela,
e a segunda casa decimal 0 está na coluna 0,00. Dentro da tabela, e na interseção de 3,0 e 0,00,
temos o valor 0,9987. Esta já é a probabilidade que estamos procurando.
Tabela 1 - Curva da distribuição normal e suas propriedades.
Fonte: adaptado de https://www.ime.unicamp.br/~cnaber/tabela_normal.pdf Acesso em: 09 mar. 2022.
https://www.ime.unicamp.br/%7Ecnaber/tabela_normal.pdf
52
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
O cálculo no Excel é o seguinte:
Figura 5 - Distribuição normal no Excel.
Fonte: elaborado pelo autor.
ASSISTA
Acesse na plataforma o vídeo: Relação entre a distribuição normal e o programa Seis Sigma
53
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
APROFUNDE-SE
Veja como escolher a distribuição de probabilidade que melhor se ajusta aos dados. O artigo
apresenta uma análise gráfica para determinar o melhor ajuste em dados de manutenção e
confiabilidade.
Título: Modelagem e escolha entre embalagens usando técnicas de confiabilidade e análise de
sobrevivência
Disponível em: https://periodicos.ufop.br/rest/article/view/3049/2320
Acesso em: 13/01/2022.
54
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
CONSIDERAÇÕES FINAIS
Você estudou, nesta unidade, as distribuições de probabilidades; verificou como se comportam
uma variável aleatória discreta e uma variável aleatória contínua; calculou o valor esperado de
uma VA; e aplicou as duas principais distribuições de probabilidades: a binomial e a normal.
55
Unidade 3 – Distribuição de probabilidade
ANÁLISE DE DADOS
REFERÊNCIAS
MORETTIN, Pedro A.; BUSSAB, Wilton de O. Estatística básica. 9. ed. São Paulo: Editora Saraiva,
2017. ISBN 9788547220228.
TRIOLA, Mario F. Introdução à estatística. 12. ed. Rio de Janeiro: LTC, 2017. ISBN 9788521633747.
WALPOLE, Ronald E. et al. Probabilidade & estatística para engenharia e ciências. 8. ed. São
Paulo: Pearson, 2009.
56
Unidade 4 – Estatística Inferencial
ANÁLISE DE DADOS
Objetivos de aprendizagem:
Compreender os conceitos de intervalos de confiança. Desenvolver a habilidade de usar recursos
computacionais e a capacidade de elaborar descrições qualitativas e quantitativas de situações-
problema, além de conseguir interpretar questões que abordam problemas a serem
enfrentados.
Tópicos de estudo:
• Intervalo de confiança para média;
• Intervalo de confiança para proporções.
Iniciando os estudos:
Muitas vezes, o nosso objetivo é tomar decisões sobre o todo (população). Podemos citar, como
exemplo, o cálculo do comprimento médio de um lote de produção de 10.000 peças: coletar
dados de todas é oneroso em termos de tempo e dinheiro, sendo uma alternativa, para esse
procedimento, medir o comprimento de algumas peças como amostra – 40, por exemplo. O
processo de calcular o comprimento médio dessa amostra e generalizar esse resultado para todo
o lote é conhecido como inferência estatística.
Nesta unidade, serão apresentados todos os conceitos de inferência de dois principais intervalos
de confiança: para média e para proporção.
57
Unidade 4 – Estatística Inferencial
ANÁLISE DE DADOS
1 Intervalo de confiança para média
Intervalo de confiança é uma técnica de inferência estatística. Nessa inferência, determinamos
uma população-alvo, escolhemos uma amostra dessa população, e construímos um intervalo da
média amostral que é interpretado para toda a população. Este processo é demonstrado na
figura 1.
Figura 1 – O processo de inferência.
Fonte: elaboradora pelo autor.
Para realizar a inferência, a amostra deve ser muito bem selecionada em termos de quantidade
e composição, representando bem toda a população.
58
Unidade 4 – Estatística Inferencial
ANÁLISE DE DADOS
Figura 2 – População.
A média amostral estima pontualmente a média populacional. Considere uma amostra
representativa da população de 30 peças extraída de um lote de 200. O comprimento médio das
30 peças é de 70,322 cm, portanto, o comprimento médio estimado de todo o lote é de 70,322 cm.
REFLITA
A parte mais técnica da estatística é a inferência. Tomar decisões sobre a população sem utilizar
todos os seus dados é fundamental para a rapidez demandada nas empresas. Contudo, a parte
coletada dos dados deve ser muito bem selecionada. Você pode estimar o diâmetro médio de
1.000 peças utilizando somente 50 e tomar uma decisão confiável? E se fossem 30? Como isso
seria possível?
Assista
Acesse na plataforma o vídeo: Técnicas de seleção de amostra
59
Unidade 4 – Estatística Inferencial
ANÁLISE DE DADOS
Podemos estimar com base em um intervalo: média amostral ± margem de erro, isto é, 70,322 ±
margem de erro. Vamos utilizar a equação 1 para determinar a margem de erro da estimativa e,
em seguida, o intervalo de confiança para a média populacional.
Equação 1 – Intervalo de confiança para uma média quando a amostra é igual ou superior a 30 ou o
desvio padrão é conhecido de uma população normal
Onde:
X é a média aritmética simples da amostra.
2
zα é obtido na tabela da distribuição normal padronizada de acordo com uma determinada
confiança.
A expressão (
2
sz
nα ) é denominada erro de estimativa.
O nível de confiança deve ser estipulado pelo pesquisador. Dessa forma, quanto maior a
importância do fenômeno (variável) estudado, maior será a confiança utilizada. O padrão na área
gerencial é 95% (softwares como Excel já estão configurados com este valor)e na área médica
99%. Na dúvida, utilize 95%. Os valores mais utilizados de confiança e seus respectivos valores de
2
zα estão descritos na tabela 1.
Confiança (%)
2
zα
90 1,65
95 1,96
99 2,58
Tabela 1 – Alguns valores de Z.
Fonte: extraído de Triola (2017).
α±
2
sX z (1)
n
60
Unidade 4 – Estatística Inferencial
ANÁLISE DE DADOS
Vamos construir um intervalo de 95% para o comprimento médio populacional. O comprimento
médio das 30 peças é de 70,322 cm, e o desvio padrão 2,567 cm. Pela tabela Z, temos z0 025, = 1,96.
Vamos calcular o intervalo:
± ×
2,56770,322 1,96
30
70,322 0,919±
[69,403; 71,241]
O comprimento médio populacional é compreendido entre 69,4 e 71,2 cm com 95% de confiança.
O valor 0,919 cm é a margem de erro da estimativa.
Podemos interpretar esse resultado da seguinte maneira: o comprimento médio populacional
estimado é 70,322 cm com uma margem de erro de 0,919 cm para mais ou para menos.
De posse do intervalo de confiança, você pode calcular a média amostral (estimativa) e a margem
de erro.
[69,403; 71,241]
Para determinar a estimativa, basta somar os limites do intervalo e dividir o resultado por 2. Ou
seja, a estimativa é:
69,403 71,241 70,322
2
+
=
Encontramos a margem de erro pela diferença entre o limite superior e a estimativa. Assim, a
margem de erro é de 71,241 – 70,322 = 0,919.
61
Unidade 4 – Estatística Inferencial
ANÁLISE DE DADOS
APROFUNDE-SE
Veja mais detalhes do intervalo de confiança para média populacional. Este trabalho de
conclusão de curso apresenta o Teorema Central do Limite no tópico 3.2.18, exibindo também
uma aplicação do intervalo.
Título: Uma abordagem da distribuição normal por meio da resolução de uma situação-
problema com a utilização do software GEOGEBRA
Disponível em:
https://repositorio.bc.ufg.br/tede/bitstream/tede/4760/5/Disserta%C3%A7%C3%A3o%20-%20Paul
o%20Henrique%20Rodrigues%20Gon%C3%A7alves%20-%202014.pdf
Acesso em: 14/01/2022.
No Excel, é possível calcular a margem de erro.
Figura 3 – Cálculo da margem de erro no Excel.
Fonte: elaborado pelo autor.
Como o valor de alfa foi solicitado, é possível calculá-lo da seguinte forma:
alfa = 1 – confiança (em decimal). No exemplo, alfa = 1 – 0,95 = 0,05.
O tamanho solicitado é o tamanho da amostra, sendo neste exemplo de 30.
62
Unidade 4 – Estatística Inferencial
ANÁLISE DE DADOS
A margem de erro fornecida pelo Excel é 0,919 – valor idêntico ao encontrado anteriormente.
Agora, basta subtrair e adicionar este valor à média da amostra para determinar o intervalo de
confiança.
70,322 ± 0,919
[69,403; 71,241]
APROFUNDE-SE
Veja outras maneiras de calcular o intervalo de confiança para a média populacional. Este artigo
apresenta e compara diversos métodos para construir um intervalo de confiança.
Título: Intervalos de confiança via simulação de Monte Carlo: o estado da arte
Disponível em: https://periodicos.ufop.br/rest/article/view/3338/2601
Acesso em: 14/01/2022.
63
Unidade 4 – Estatística Inferencial
ANÁLISE DE DADOS
2 Intervalo de confiança para proporção
Várias situações do cotidiano demandam estatísticas de percentuais (proporções), tais como:
percentual de peças defeituosas, proporção de alunos aprovados, proporção de automóveis que
retornam durante a garantia para reparos.
Considere um lote com uma produção de 5.000 peças. Extrai-se uma amostra representativa de
400, sendo que cada uma delas é inspecionada e a sua condição (perfeita ou defeituosa)
registrada. Nessa amostra, foram encontradas 10 peças defeituosas.
A estimativa do percentual de peças defeituosas em todo o lote é de 2,5%. Esse valor é calculado
pela razão 𝑝𝑝 = 𝑥𝑥
𝑛𝑛
. O valor x representa o número de elementos da amostra que apresentam a
característica em estudo e n o tamanho da amostra. Dessa maneira, 0,025 = 10
400
= 2,5%.
O intervalo de confiança para proporção populacional é construído utilizando-se essa estimativa
pontual de 2,5% e a margem de erro. A fórmula para o cálculo desse intervalo está exposta na
equação 2.
Equação 2 – Intervalo de confiança para uma proporção
( )−
± a
2
ˆ ˆp 1 p
p̂ z
n
Onde:
zα
2
é obtido na tabela da distribuição normal padronizada de acordo com uma determinada
confiança.
O símbolo ^ indica que se trata de um valor estimado (não o valor verdadeiro), sendo apenas uma
estimativa do valor verdadeiro (valor populacional e desconhecido).
Para utilizar a fórmula da equação, as seguintes condições devem ser satisfeitas: np ≥ 5 e n(1-p) ≥
5.
Vamos calcular o intervalo de 95% para a fração de defeitos do exemplo das 400 peças.
Dessa forma, temos:
64
Unidade 4 – Estatística Inferencial
ANÁLISE DE DADOS
Podemos utilizar a fórmula, pois 400 (0,025) = 10 e 400 (1-0,025) = 390. Os dois resultados são
maiores ou iguais a 5.
Dessa maneira, o intervalo é de:
( )0,025 1 0,025
0,025 1,96
400
× −
±
0,025 ± 0,0153
[0,0097; 0,0403] ou [0,97%; 4,03%]
A proporção populacional de peças defeituosas está entre 0,97% e 4,03% com 95% de confiança.
A proporção populacional estimada de peças defeituosas é de 2,5% com uma margem de erro de
1,53 pontos percentuais para mais ou para menos.
APROFUNDE-SE
Veja mais detalhes do intervalo de confiança para proporção. Este artigo apresenta o cálculo do
tamanho amostra necessário para a construção desse intervalo.
Título: Introdução à Inferência Estatística - Intervalo de Confiança para Média, Proporção e
Variância
Disponível em: http://www.est.ufmg.br/portal/arquivos/rts/RTE_01_2020.pdf
Acesso em: 14/01/2022.
65
Unidade 4 – Estatística Inferencial
ANÁLISE DE DADOS
CONSIDERAÇÕES FINAIS
Muito bem! Você estudou nesta unidade a inferência estatística. Verificou como tomar decisões
na população utilizando amostras. Calculou o intervalo de confiança para média e para
proporção, e aplicou esses intervalos em situações práticas.
66
Unidade 4 – Estatística Inferencial
ANÁLISE DE DADOS
REFERÊNCIAS
MORETTIN, Pedro A.; BUSSAB, Wilton de O. Estatística básica. 9. ed. São Paulo: Editora Saraiva,
2017.
TRIOLA, Mario F. Introdução à estatística. 12. ed. Rio de Janeiro: LTC, 2017..
WALPOLE, Ronald E.; MYERS, Raymond H.; MYERS, Sharon L.; YE, Keying. Probabilidade &
estatística para engenharia e ciências. 8. ed. São Paulo: Pearson, 2009.
Sumário.pdf
Análise de Dados_Newton U1.pdf
1 Medidas de posição
2 Medidas de dispersão
3 Gráficos e tabelas de frequência
4 Regressão Linear
CONSIDERAÇÕES FINAIS
GLOSSÁRIO
REFERÊNCIAS
Análise de Dados_U2.pdf
1 CONCEITOS DA PROBABILIDADE
2 EVENTOS
CONSIDERAÇÕES FINAIS
REFERÊNCIAS
AnaDadU3.pdf
1 Distribuição Binomial
2 Distribuição normal
CONSIDERAÇÕES FINAIS
REFERÊNCIAS
AnaDadU4.pdf
1 Intervalo de confiança para média
2 Intervalo de confiança para proporção
CONSIDERAÇÕES FINAIS
REFERÊNCIAS
QuartaCapa.pdf