Prévia do material em texto
alfaconcursos.com.br
MUDE SUA VIDA!
1
SUMÁRIO
INTRODUÇÃO À ESTATÍSTICA ............................................................................................................................ 2
CONCEITO ...................................................................................................................................................... 2
RAMOS DA ESTATÍSTICA ................................................................................................................................ 3
ESTATÍSTICA DESCRITIVA ........................................................................................................................... 3
ESTATÍSTICA INFERENCIAL ......................................................................................................................... 4
OBJETO DE ESTUDO ....................................................................................................................................... 5
ELEMENTOS AVALIADOS: POPULAÇÃO ..................................................................................................... 5
CARACTERÍSTICA AVALIADA: VARIÁVEL .................................................................................................... 8
EXEMPLOS ....................................................................................................................................................... 11
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
2
INTRODUÇÃO À ESTATÍSTICA
CONCEITO
A Estatística compreende a uma ciência que utiliza um conjunto de métodos científicos,
especialmente apropriados, com a finalidade de:
Dessa forma, o principal objetivo da Estatística é o estudo e a compreensão de uma
realidade específica (de fenômenos que ocorrem no mundo real, do cotidiano) e, com isso, é
possível extrair informações úteis para investigação e influenciar diretamente na tomada de
decisões.
Portanto, de modo geral, a Estatística é uma ciência especializada em transformar dados
brutos, coletados de qualquer campo de estudo, em informação. Em adição, combinado com
outras ciências, é capaz de gerar conhecimento, inteligência e novas tecnologias.
A Estatística utiliza, principalmente, a matemática aplicada para fazer a transformação
dos dados em conhecimento, portanto, entenda que a utilização da matemática é apenas uma
das ferramentas usadas na Estatística para obter esse resultado. É muito importante que o
aluno compreenda, primeiramente, a essência da disciplina e veja todas as deduções e cálculos
matemáticos apenas como instrumentos para compreender os fenômenos que ocorrem no
mundo real.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
3
RAMOS DA ESTATÍSTICA
Antes de começar o estudo direcionado aos tópicos do edital de Estatística, é interessante
compreender alguns conceitos e classificações que serão utilizados durante todo o raciocínio
desenvolvido pela disciplina.
Inicialmente, deve-se entender que a Estatística é dividida em dois grandes campos
conforme o objetivo das análises utilizadas:
ESTATÍSTICA DESCRITIVA
A Estatística Descritiva consiste em análises que resumem concisamente um conjunto de
dados, sintetizam em poucas informações, organizam em tabelas, e ilustram por meio de
gráficos.
Esse campo da Estatística também é aplicado para efetuar análises exploratórias sobre
um conjunto de dados, pois é possível compreender uma tendência genérica dos resultados.
Com uso de medidas descritivas, gráficos e tabelas, pode ser observado um comportamento
padrão, intuitivo e representativo do fenômeno em estudo.
Por exemplo, com o desempenho médio de uma determinada característica obtida a partir
de um conjunto de dados brutos, é possível levantar hipóteses sobre o real desempenho desse
objeto de estudo, ou até mesmo, se sua performance pode ser superior a um outro fenômeno
estudado.
Um conjunto de dados brutos pode ser descritos a partir de medidas como média e desvio-
padrão, ou organizados em tabela de frequência. Exemplo:
As informações geradas pela Estatística Descritiva, no exemplo acima, resumem o valor
da tendência central dos dados pela média, uma ideia do quanto os dados se dispersam pelo
desvio-padrão, e a distribuição dos dados pelo gráfico de barras que apresenta a frequência.
A Estatística Descritiva somente é completa e autossuficiente quando é possível obter
dados, com exatidão, de todos os elementos que compõem seu objeto de estudo (população).
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
4
Nessa situação, apenas descrever o conjunto de dados já bastaria para obter conclusões sobre
o fenômeno em estudo.
No entanto, a Estatística Descritiva, a partir de uma amostra (informações incompletas),
por si só, apenas descreve os dados dessa amostra e não permite inferir sobra toda a população.
Seria uma afirmação equivocada comparar duas médias estimadas simplesmente pela
magnitude do valor. Para isso, é necessário o uso de métodos da Estatística Inferencial.
ESTATÍSTICA INFERENCIAL
A Estatística Inferencial utiliza informações incompletas para tomar decisões, tirar
conclusões satisfatórias e generalizar informações sobre o fenômeno em estudo. Para obter
inferências fidedignas do objeto de estudo, é necessário o conhecimento aplicado da teoria da
probabilidade, de uma amostragem representativa e da Estatística Descritiva para explorar
hipóteses. Esses três tópicos, estudados na disciplina de Estatística, podem ser compreendidos
como alicerces necessários para aplicação eficiente da Estatística Inferencial.
As principais técnicas empregadas na Estatística Inferencial são a estimação pontual, a
estimação intervalar e o teste de hipóteses. O uso da Estatística Inferencial é valioso quando
não é conveniente ou possível examinar todos os elementos de uma população.
Quando se obtêm informações a partir de uma amostra, é necessário entender que essas
informações foram obtidas por um subconjunto da população e que possuem uma
probabilidade de corresponder coerentemente ao fenômeno estudado. Por isso, essas
informações estão sujeitas a erros e imprecisão, e, desse modo, cabe à Estatística Inferencial
quantificar essas incertezas e avaliar a credibilidade da informação. Exemplo:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
5
O valor da média estimada por um conjunto de dados de uma amostra é composto por
um possível erro de estimativa. Baseado nisso, calcula-se um intervalo de confiança em que o
valor estimado pode oscilar, isto é, a média é 12,8, mas pode oscilar entre 10,33 até 15,27. De
forma bem genérica, essa é a ideia da Estatística Inferencial que trabalha com informações
incompletas e usa matemática aplicada para generalizar a informação obtida.
OBJETO DE ESTUDO
O objeto de estudo na disciplina de Estatística compreende a um fenômeno do mundo real,
uma realidade específica. Em outras palavras, tudo aquilo que ocorre ao redor do homem e que
ele tem interesse de compreender suas características e seus comportamentos.
Desse modo, o objeto de estudo pode ser: fenômenos biológicos e naturais;
comportamentos sociais; aspectos políticos; avaliação de equipamentos; entre outros.
Praticamente, o objeto de estudo da disciplina é um “coringa”, ou seja, a Estatística pode ser
aplicada em qualquer fenômeno/realidade em que é possível extrair dados.
O fenômeno estudado em cada análise estatística é caracterizado basicamente por dois
componentes essenciais: os elementos que serão estudados (População) e a característica que
será avaliada (Variável). Segue a ilustração:
Dessa forma, em toda questão de Estatística, o aluno deve primeiramente analisar o
cenário apresentado em cada questão. Com isso, deve ser identificado quem são os elementos
avaliados ao qual pretende-se fazer inferênciase o que será avaliado em cada elemento (qual
característica, atributo será observado, contabilizado ou mensurado). Essa é uma leitura
essencial para iniciar a resolução de uma questão de Estatística.
ELEMENTOS AVALIADOS: POPULAÇÃO
Quando se refere aos elementos avaliados, deve-se ter o conhecimento pleno de quem
corresponde ao conjunto total de elementos do fenômeno estudado. Isso porque, todas as
inferências obtidas na Estatística serão válidas para todo esse conjunto, portanto não deve
haver conclusões incoerentes a população de estudo.
Além disso, é importante entender que o termo elementos corresponde a todas as
unidades de avaliação de que serão extraídos dados. Assim, os elementos podem ser
compostos por indivíduos, objetos ou eventos, dependendo do fenômeno estudado.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
6
➢ População x Amostra
Durante a explicação anterior, foram abordados temas como população e amostra, dessa
forma, agora, iremos compreender a essência desses dois conceitos. Sempre que a Estatística é
aplicada para estudar um fenômeno qualquer, é preciso saber quem são os elementos que
compõem o objeto de estudo, em cada situação particular. O conjunto de todos os elementos
representa o nosso universo estatístico, também denominado de população.
Então, população corresponde ao conjunto de elementos sobre os quais se desejam obter
dados de características que são comuns a todos. Portanto, população é todo o universo de um
objeto de estudo de interesse.
Entretanto, acontece que muitas vezes a população torna-se infinitamente grande e fica
muito oneroso, impraticável, inviável, demorado demais avaliar todos os elementos. Nesse
momento, uma alternativa interessante para estudar um fenômeno é avaliar parte dessa
população e utilizar métodos, como a Estatística Inferencial, para generalizar as informações
dessa parte para toda população. Veja a ilustração a seguir:
Conforme apresentado na ilustração, a fração de elementos retirada de uma população,
para serem avaliados, corresponde a amostra. Desse modo, a amostra é um subconjunto de
elementos da população que são coletados e analisados com objetivo de representar
fidedignamente toda a população de estudo.
Ao mesmo tempo, amostragem é a técnica de seleção de indivíduos da população para
compor a amostra. Já a generalização consiste nas inferências obtidas a partir da análise de uma
amostra (principal objetivo da Estatística Inferencial).
➢ Censo x Amostragem
A análise estatística mais valiosa será sempre obter dados sobre toda a população, o que
denominamos de censo. Dessa forma, denomina-se Censo a coleta exaustiva de dados referente
a todos os elementos que compõem a população, ou seja, quando se trata de informações
completas da população em estudo.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
7
No entanto, sabe-se que, muitas vezes, não será possível efetuar um censo. Em
contraponto, trabalha-se com o conjunto de dados proveniente da técnica de amostragem.
Assim, a amostragem consiste na coleta de um conjunto de dados incompletos de uma
população. Essa técnica deve seguir um método criterioso e adequado para que os dados
extraídos representem o fenômeno de estudo presente na população. Mais à frente, teremos
um tópico somente estudando sobre a amostragem e suas técnicas.
➢ Parâmetro x Estimativa
Quando coletamos dados referentes ao nosso objeto de estudo, é necessário compreender
que as informações geradas (por exemplo, média, desvio-padrão, tamanho), a partir de uma
população ou de uma amostra, possuem características diferentes e específicas.
As informações obtidas de uma população, quando possível, são constantes que se
referem ao verdadeiro valor do fenômeno estudado. Isso porque, se todos os elementos de um
objeto de estudo forem analisados, será obtido um valor único e uma informação absoluta sobre
o fenômeno. Portanto, definimos que as informações provenientes de uma população são
parâmetros, ou seja, constantes, muitas vezes desconhecidas, de um valor representativo que
permite modelar a realidade.
Por outro lado, quando se obtêm valores provenientes da amostra, sabe-se que as
informações geradas representam uma fração do fenômeno estudado e, portanto, são valores
variáveis e aleatórios. Com isso, tem-se a ideia de que as informações obtidas da amostra são
estimativas de um parâmetro ao qual se deseja conhecer. Então, denomina-se estimativa as
informações provenientes de dados incompletos com objetivo de generalizar um parâmetro
populacional. Assim, é possível esquematizar:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
8
Sobretudo, as principais informações estudadas – média, desvio-padrão, variância,
tamanho e proporção – são simbolizadas por letras gregas ou maiúsculas, quando se referem a
parâmetros da população, e por letras do alfabeto comum ou minúsculas quando se referem a
estimativas da amostra.
Em síntese a todos esses conceitos abordados, pode ser aplicado o seguinte esquema
conceitual:
CARACTERÍSTICA AVALIADA: VARIÁVEL
Após identificar os elementos em que serão extraídos os dados, é preciso determinar qual
característica/atributo será avaliada, o que denominamos na Estatística como variável. Logo, o
termo variável é a atribuição dos valores correspondentes aos dados observados e sua
respectiva representação do fenômeno estudado no mundo real, isto é, a natureza dos dados, a
grandeza.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
9
Sendo assim, ao se identificar a variável analisada, deve-se compreender a natureza ou o
tipo dessa variável, como os dados foram obtidos, sua unidade de medida, a distribuição da
variável e qual é o objetivo, a informação, que pretende se obter com essa variável. Todas essas
perguntas devem ser elucidadas na leitura de uma questão de Estatística, pois, com isso, obtém-
se um panorama geral do contexto apresentado na questão e facilita absurdamente a sua
resolução.
Os dados extraídos são uma variável que pode assumir diversos valores de acordo com
fenômeno em estudo. É importante ressaltar que os dados em questão não são necessariamente
numéricos, uma vez que podem dizer a respeito de atributos qualitativos observados na
população. Portanto, quanto a natureza/tipo das variáveis, elas podem ser qualitativas
(nominais ou ordinais) ou quantitativas (discretas ou contínuas). Segue a ilustração:
➢ Variáveis Qualitativas
As variáveis de natureza qualitativa são representadas por dados que não tem informação
numérica e não é possível efetuar cálculos matemáticos com os dados propriamente ditos.
Dessa forma, os dados extraídos correspondem a categorias, classes definidas, ou qualidades.
Podem também ser denominadas por variáveis categóricas. Esta se subdivide em duas outras
classificações: nominais e ordinais.
• Variáveis Qualitativas Nominais:
São compostas por dados que representam qualidade, mas que não possuem nenhuma
ordem ou hierarquia entre eles, apenas identificam as categoriais distintas. Exemplos: gênero
(masculino e feminino), cor (azul, preto, amarelo etc.), país (Brasil, África do Sul, Japão etc.).
Veja que não existe nenhuma ordenação ou relação hierárquica entre os valores que a variável
qualitativa nominal pode assumir.
• Variáveis Qualitativas Ordinais:
Em contrapartida, as variáveis ordinais são aquelas representadas por dados categóricos
que possuem uma determinada ordenação ou hierarquia entre os valores que a variável pode
assumir. Exemplos: classe de renda (baixa, média, alta), experiência profissional (novato,
intermediário, veterano), grau de escolaridade (fundamental, médio, graduação, mestrado,
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
10
doutorado). Nesse contexto, é possível estabeleceruma ordem em cada categoria como baixa,
média e alta, ou como em novato, intermediário e veterano.
➢ Variáveis Quantitativas
As variáveis de natureza quantitativa são representadas por dados que possuem
informação numérica e neles podem ser efetuados cálculos matemáticos. Dessa forma, os dados
são basicamente representados por valores numéricos atribuídos, contabilizados ou
mensurados. Esta variável se subdivide em duas classificações: discretas e contínuas.
• Variáveis Quantitativas Discretas
São aquelas representadas por valores numéricos inteiros e definidos, não possuem um
intervalo entre um valor e outro (não possuem valores decimais). Geralmente, essas variáveis
correspondem a atribuição numérica dos eventos de um fenômeno específico (exemplo:
atribuição de fracasso ou sucesso de uma operação {0,1}, atribuição de números para cada face
de um dado {1, 2, 3, 4, 5 e 6} etc.), ou então representam a contagem de algum fenômeno
(exemplo: número de filhos por família, registros de roubos por dia, ocorrências de homicídios
por cidades, etc.). Veja que não é coerente quantificar valores não inteiros (decimais), afinal,
não existe metade de um filho, ou meio homicídio, para esses fenômenos os resultados são
taxativos, ou ocorre ou não ocorre.
• Variáveis Quantitativas Contínuas
Contudo, as variáveis contínuas são aquelas representadas por valores numéricos que
podem ser inteiros e decimais. Existe um intervalo infinito entre um valor e outro. Essas
variáveis estão associadas a fenômenos que no mundo real são mensurados (medidos) por
algum instrumento que o homem criou junto a uma convenção que o homem estabeleceu.
Exemplos: peso, altura, tempo, temperatura, velocidade etc. Veja que existe um intervalo
infinito entre 20 kg e 30 kg, por exemplo, que pode ser 21 kg; 20,5 kg; 20,01 kg; 20,0001 kg e
assim infinitamente representado.
O Quadro a seguir resume toda a classificação de variáveis e fornece exemplos:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
11
EXEMPLOS
1. A Polícia Federal fez um registro do valor diário (em R$ mil) apreendido de contrabando
na região de fronteira do estado do Paraná - Brasil.
O exemplo 1 apresenta uma situação em que a Polícia Federal (PF) tem o
objetivo de estudar o fenômeno da ocorrência do crime de contrabando na região de
fronteira do estado do Paraná – Brasil. Desse modo, a população de estudo é
composta por todos os crimes de contrabando cometidos nessa região e cada
elemento avaliado foi um evento da ocorrência de contrabando. Entretanto, sabe-se
que é muito difícil para a PF controlar e quantificar todos os contrabandos que
ocorrem na fronteira do Paraná. Dessa forma, a PF trabalha com amostra de todos
os registros de contrabando que foram detidos e apreendidos pelos policiais e, com
isso, fazem uma estimativa sobre todo o contrabando na região de fronteira do
estado do Paraná. Para quantificar esse fenômeno, foram mensurado o valor, em R$
mil, apreendidos de contrabando por dia. Então a grandeza medida foi o dinheiro
correspondente a mercadoria apreendida diariamente, a unidade de medida foi R$
mil/dia, e o tipo da variável é quantitativa contínua.
2. Uma pesquisa realizada com passageiros estrangeiros que se encontravam em
determinado aeroporto durante um grande evento esportivo no país teve como
finalidade investigar a sensação de segurança nos voos internacionais. Foram
entrevistados 1.000 passageiros, do total de 1 milhão que foi registrado nas companhias
aéreas, quanto à sensação de segurança dos voos, respondendo praticamente se sentiu
segurança ou não nos voos.
O exemplo 2 aborda uma pesquisa com intuito de avaliar a sensação de
segurança dos passageiros em voos internacionais. A população de estudo é
composta por todos os 1 milhão de passageiros registrados nas companhias aéreas.
Cada elemento que compõe a população é um indivíduo que foi passageiro desses
voos. No entanto, foram avaliados apenas mil passageiros, uma amostra do todo. A
característica avaliada foi a sensação de segurança, quantificada a partir de um
questionário em que foi perguntado “sim” ou “não” quanto a sensação de segurança.
Desse modo, os valores que essa variável pode assumir é {sim, não}, isto é, uma
variável qualitativa nominal.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
12
3. Um pesquisador estudou a relação entre a ocorrência de criminalidade e a quantidade de
desocupação da população economicamente ativa em municípios da região do sudeste
do país.
No exemplo 3, temos uma análise mais voltada para relação entre variáveis
analisadas em uma população. Os municípios avaliados correspondem aos elementos
da população e provavelmente serão avaliados apenas por uma amostra desse todo.
As duas variáveis serão analisadas conjuntamente para compreender a relação entre
elas. Em adição, podemos observar que ambas as variáveis correspondem a uma
contagem, ou de crimes registrados, ou de casos de desocupação da população.
Dessa forma, temos o estudo de duas variáveis quantitativas discretas.
Em síntese, o quadro abaixo apresenta o resumo das principais informações que
compõem o objeto de estudo de cada exemplo. Conforme o contexto apresentado em cada
questão de Estatística, é muito importante, na primeira leitura, ter esses conceitos bem
determinados.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
1
SUMÁRIO
ESTATÍSTICA DESCRITIVA: APRESENTAÇÃO DE DADOS ..................................................................................... 2
INTRODUÇÃO ................................................................................................................................................. 2
APRESENTAÇÃO DE DADOS PARA UMA VARIÁVEL ....................................................................................... 2
A) DADOS BRUTOS ................................................................................................................................. 2
B) DADOS PONDERADOS (TABELA DE FREQUÊNCIA SEM INTERVALOS) ............................................... 3
C) DADOS AGRUPADOS (TABELA DE FREQUÊNCIA COM INTERVALOS) ................................................ 4
D) GRÁFICOS DE FREQUÊNCIA ............................................................................................................... 6
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
2
ESTATÍSTICA DESCRITIVA: APRESENTAÇÃO DE DADOS
INTRODUÇÃO
Como já abordado anteriormente, a Estatística Descritiva consiste em análises com
objetivo de descrever, organizar, resumir, simplificar e sintetizar um conjunto de dados
coletados sobre algum fenômeno em estudo. Além disso, ela tem utilidade como análise
exploratória, uma vez que resume o conjunto de dados. Com isso, a Estatística Descritiva
permite apontar tendências e levantar hipóteses sobre os possíveis resultados do fenômeno
estudado.
Como principais ferramentas para esse propósito, a Estatística Descritiva trabalha com
formas sintetizadas de apresentação de dados como tabelas e gráficos. Além disso, utiliza
medidas descritivas que são informações provenientes de cálculos que tentam descrever todo
conjunto de dados.
APRESENTAÇÃO DE DADOS PARA UMA VARIÁVEL
Os dados coletados de uma variável estudada podem ser apresentados de muitas formas.
Basicamente, o aluno deve entender que poderá se deparar com qualquer umas das formas de
apresentação de dados em uma prova de Estatística e, com isso, é necessário entender como
extrair as informações em cada situação.
Os dados referentes a uma única variável podem ser encontrados na forma de dados
brutos, dados ponderados, dados agrupados, ou por meio de gráficos, como histograma e curva
de frequência.
Para exemplificar a apresentação dos dados referentes a uma variável,vamos utilizar um
exemplo único de objeto de estudo e comparar como os dados serão simplificados no decorrer
de cada forma de apresentação.
OBJETO DE ESTUDO:
Dados referentes à quantidade de drogas, em quilogramas, apreendidas por
semana em uma delegacia de polícia.
A variável em estudo será denotada pela letra “X”.
A) DADOS BRUTOS
Os dados brutos correspondem à listagem dos dados conforme eles foram coletados em
um estudo qualquer. Cada dado é dito como uma observação feita pelo homem a respeito de
uma variável analisada.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
3
Conforme o exemplo abordado, os dados brutos referentes à quantidade de drogas
apreendidas podem ser representados da seguinte maneira:
𝑿 = {𝟏𝟓, 𝟐𝟎, 𝟏𝟎, 𝟑𝟎, 𝟐𝟎, 𝟏𝟓, 𝟎, 𝟓, 𝟏𝟓}
Os dados brutos mostram que na primeira semana foram coletados 15 kg de drogas na
delegacia, na segunda semana 20kg, e assim por diante. Podemos também concluir que essa
coleta de dados foi efetuada durante nove semanas. Tudo isso pode ser concluído pela análise
da unidade variável que consiste em kg/semana, ou seja, cada coleta corresponde a uma
semana transcorrida. Com isso, outra forma em que podem ser encontrados os dados brutos é:
Nessa tabela, é indicada a semana e seu respectivo registro de drogas apreendidas.
Observe que, nessa forma de representação, ainda tratamos de dados brutos.
Com essa análise, já podemos obter uma informação que será muito usada nos cálculos
matemáticos futuramente aplicados, o número de elementos (n). Basicamente, é a quantidade
de observações feitas na coleta de dados, isto é, n = 9. Outra característica que pode ser
observada nos dados brutos é a repetição de dados observados com mesmo valor, isso é uma
distinção muito importante comparada às demais formas de apresentação de dados.
Os dados brutos muitas vezes precisam ser ordenados para estudar a posição e
distribuição dos dados. Quando os dados estão ordenados, denominamos de rol. Exemplo:
𝑿 = {𝟎, 𝟓, 𝟏𝟎, 𝟏𝟓, 𝟏𝟓, 𝟏𝟓, 𝟐𝟎, 𝟐𝟎, 𝟑𝟎}
B) DADOS PONDERADOS (TABELA DE FREQUÊNCIA SEM INTERVALOS)
Os dados são ponderados quando suas repetições são sintetizadas em uma informação
que as contabiliza. Essa informação é denominada de frequência, isto é, frequência é contagem
de dados com mesmo valor (repetidos). Assim, cada valor observado que uma variável pode
assumir é ponderado pelas suas repetições. Os dados são representados por uma tabela de
frequência, conforme ilustração a seguir:
Valor
Observado (Xi)
Frequência
Absoluta (fi)
Frequência
Relativa (fri)
Frequência
Acumulada (Fi)
Frequência
Acumulada
Relativa (Fri)
0 1 1/9 ≌ 11% 1 1/9 ≌ 11%
5 1 1/9 ≌ 11% 2 2/9 ≌ 22%
10 1 1/9 ≌ 11% 3 3/9 ≌ 44%
15 3 3/9 ≌ 33% 6 6/9 ≌ 67%
20 2 2/9 ≌ 22% 8 8/9 ≌ 89%
30 1 1/9 ≌ 11% 9 9/9 = 100%
Soma (Σi) 9 9/9 = 100% - -
Na tabela de frequência de dados ponderados, cada linha corresponde às frequências de
uma observação não repetida dos dados brutos. A primeira coluna corresponde aos valores
observados da variável X e as demais colunas, aos diferentes tipos de frequências. Assim, é
possível afirmar que existem três observações com valor de 15kg/semana e duas observações
com valor de 20 kg/semana. Interpretando de acordo com o exemplo, foram apreendidos, em
três semanas, 15kg de drogas, e em duas semanas 20kg.
Os tipos de frequência são:
➢ Frequência Absoluta (fi): contagem de repetições de cada valor observado;
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
4
➢ Frequência Relativa (fri): proporção da frequência absoluta sobre o número de
elementos, 𝑓𝑟𝑖 =
𝑓𝑖
𝑛
(conceito muito associado à probabilidade);
➢ Frequência Acumulada (Fi): número de repetições de cada valor observado,
somando (acumulando) os valores das linhas anteriores;
➢ Frequência Acumulada Relativa (Fri): proporção da frequência acumulada sobre
o número de elementos, 𝐹𝑟𝑖 =
𝐹𝑖
𝑛
.
Esses quatro tipos de frequências podem aparecer em sua prova de Estatística,
dificilmente todos os quatros tipos juntos em uma questão. Por isso, é necessário identificar as
características de cada uma das frequências, como também diferenciar suas simbologias.
Observe que quando a frequência for acumulada o F é representado por letra maiúscula e f
minúscula para absoluta, sem acumular.
Outros detalhes que ajudam identificar o tipo de frequência e obter informações úteis são
que a soma total da frequência absoluta deve sempre ser o n – número de elementos do
conjunto de dados.
∑ 𝒇𝒊 = 𝒏
𝒏
𝒊=𝟏
∑ 𝒇𝒓𝒊 = 𝟏 𝒐𝒖 𝟏𝟎𝟎%
𝒏
𝒊=𝟏
Ainda, a soma da frequência relativa deve sempre ser 1 ou 100%. A última linha da
frequência acumulada deve ser o número de elementos (n) e a última linha da frequência
acumulada relativa deve ser 1 ou 100%.
C) DADOS AGRUPADOS (TABELA DE FREQUÊNCIA COM INTERVALOS)
Quando o conjunto de dados fica cada vez maior, ocorrem muitas observações diferentes
e representá-las por meio de dados ponderados pode ficar muito extensivo e pouco claro. Para
isso, outra forma de apresentação de dados sugere que as observações da variável X sejam
agrupadas em intervalos predefinidos. Um detalhe importante é que o agrupamento de dados
somente é coerente para dados quantitativos, sendo mais frequentemente aplicado em dados
quantitativos contínuos.
Para agrupar os dados, é necessário definir duas informações: número de classes (nc) e
amplitude/intervalo da classe (h). Para definir o número de classes, podem ser utilizadas
diferentes metodologias, entre as principais está a regra de Sturges e o critério da raiz
quadrada.
As questões de Estatística raramente pedem para estabelecer o número de classes, no
entanto conhecer os critérios para formação de classes é útil para entender uma tabela de
frequência com dados agrupados. Por praticidade nos cálculos e quando não for fornecida uma
informação específica na questão, recomenda-se usar o critério da raiz quadrada. Para esse
exemplo, será utilizado esse critério, logo:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
5
𝒏𝑪 = √𝟗 = 𝟑 𝒄𝒍𝒂𝒔𝒔𝒆𝒔
Portanto, três classes são suficientes para agrupar todo o conjunto de dados. Quando o
valor do número de classes não for inteiro, pode ser feito um arredondamento, sem problemas.
Após isso, resta saber qual é o intervalo da classe. Essa informação pode ser calculada a partir
do seguinte cálculo:
𝒉 =
(𝑿𝑴á𝒙 − 𝑿𝑴í𝒏)
𝒏𝒄
Dessa forma, calcula-se a diferença entre o valor máximo e o mínimo observado no
conjunto de dados em análise, em seguida, essa diferença é dividida pelo número de classes.
Assim, tem-se o seguinte valor para h:
𝒉 =
(𝟑𝟎 − 𝟎)
𝟑
= 𝟏𝟎 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
O valor h = 10 kg/semana corresponde que a cada 10 unidades da variável X há uma classe
definida, e assim sucessivamente até estabelecer as três classes. Desse modo, a tabela de
frequência para dados agrupados fica da seguinte forma:
Valor
Observado (Xi)
Frequência
Absoluta (fi)
Frequência
Relativa (fri)
Frequência
Acumulada (Fi)
Frequência
Acumulada
Relativa (Fri)
0 10 2 2/9 ≌ 22% 2 2/9 ≌ 22%
10 20 4 4/9 ≌ 44% 6 6/9 ≌ 67%
20 30 3 3/9 ≌ 33% 9 9/9 = 100%
Soma (Σi) 9 9/9 = 100% - -
A tabela de frequência com intervalos agrupa os dados observados da variável X e
simplifica as informações. No entanto, a partir do momento que os dados são agrupados, a
precisão de algumas informações é perdida. Por exemplo, é possível constatar que no intervalo
de 10 ˫ 20 existem quatro observações, entretanto, não é possível afirmar precisamente quais
são os dados que foram observados nesse intervalo, que nesse caso seria {10, 15, 15, 15}.
Mesmo perdendo a precisão de algumas informações, a apresentação de dados agrupados é
interessante por reduzir e simplificar um conjunto grande de dados.
Cada intervalo de classe é caracterizadopelo seu limite inferior e superior. Exemplo, a
primeira classe é caracterizada por 0 10, que engloba observações de 0 kg/semana de drogas
apreendidas até valores < 10 kg/semana. Observe que o limite superior não é enquadrado no
primeiro intervalo, pois faz parte do limite inferior da segunda classe. O símbolo indica que
o limite inferior está contido na classe e o superior não está. Já na terceira e última classe, note
que o intervalo foi representado por 20 30, que engloba tanto limite inferior como superior,
para poder englobar todos os dados na tabela de frequência.
As simbologias de intervalos podem ser as seguintes:
➢ Intervalo que inclui o limite inferior e inclui o limite superior;
➢ Intervalo que inclui o limite inferior e exclui o limite superior;
➢ Intervalo que exclui o limite inferior e inclui o limite superior;
➢ Intervalor que exclui limite inferior e exclui o limite superior.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
6
D) GRÁFICOS DE FREQUÊNCIA
Seguindo com as formas de apresentação de dados da variável X, a frequência pode ser
também ilustrada por meio de gráficos, tanto para os dados ponderados quanto os dados
agrupados. As principais representações gráficas associadas à frequência são: histograma,
polígono de frequência e curva de frequência.
➢ Histograma
Histograma é uma representação gráfica em retângulos (gráfico de barras verticais ou
barras horizontais) da distribuição de frequências de um conjunto de dados. Os histogramas
podem ser apresentados das seguintes formas:
• Histograma da Frequência Absoluta:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
7
• Histograma da Frequência Acumulada:
O histograma pode ser representado na forma vertical ou horizontal, porém sempre será
composto pela relação entre a variável estudada e sua frequência, cada uma representando um
eixo do plano cartesiano. O histograma estuda a frequência de apenas uma variável, assim não
deve ser confundido com outros gráficos de barras ou colunas que costumam associar duas
variáveis distintas.
Os histogramas da frequência absoluta irão assumir uma forma variável (distribuição)
conforme a repetição de cada observação. Em contrapartida, o histograma da frequência
acumulada sempre será crescente com última observação ou classe com o valor total de
observações acumulado.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
8
➢ Curva de frequência
A curva de frequência evidencia uma imagem tendencial e apresenta o suposto
desempenho que o fenômeno teria com maior número de dados coletados. Esse gráfico é muito
usado para estudar a distribuição e o formato do conjunto de dados. A seguir, a representação
gráfica das curvas de frequência:
• Curva de Frequência Absoluta para Dados Agrupados:
• Curva de Frequência Acumulada para Dados Agrupados:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
1
SUMÁRIO
ESTATÍSTICA DESCRITIVA: TABELAS E GRÁFICOS ............................................................................................... 2
DIAGRAMA DE PONTOS ................................................................................................................................. 2
DIAGRAMA DE RAMOS E FOLHAS ................................................................................................................. 2
TABELAS ......................................................................................................................................................... 3
GRÁFICOS ....................................................................................................................................................... 3
GRÁFICO DE COLUNAS ............................................................................................................................... 4
GRÁFICO DE BARRAS ................................................................................................................................. 4
GRÁFICO DE SETORES (PIZZA).................................................................................................................... 5
GRÁFICO DE DISPERSÃO ............................................................................................................................ 6
GRÁFICO DE LINHAS (POLÍGONOS)............................................................................................................ 6
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
2
ESTATÍSTICA DESCRITIVA: TABELAS E GRÁFICOS
DIAGRAMA DE PONTOS
Os dados de uma variável podem ser representados por um diagrama de pontos que
apresenta a frequência de cada observação com uso de pontos, isto é, basicamente um
histograma representado por pontos ao invés de colunas ou barras. Veja como fica
representado o diagrama de pontos, no mesmo exemplo abordado da aula anterior:
OBJETO DE ESTUDO:
Dados referentes à quantidade de drogas (X), em quilogramas, apreendidas
por semana em uma delegacia de polícia.
O gráfico é representado pelo seguinte esquema:
Essa ilustração corresponde ao seguinte conjunto de dados brutos:
𝑋𝑋 = {0, 5, 10, 15, 15, 15, 20, 20, 30}
DIAGRAMA DE RAMOS E FOLHAS
O diagrama de ramos e folhas trata-se de outra representação gráfica para expor um
conjunto de dados referentes a uma variável. Para apresentá-lo, será utilizado um exemplo
que desenvolve melhor sua aplicação.
OBJETO DE ESTUDO:
Altura de alunos (Y), em centímetros, da turma presencial do AlfaCon.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
3
Esta representação gráfica aglomera os dados brutos a partir de um esquema que se
associa à ideia de uma árvore com ramos e folhas. Cada observação é composta pela
concatenação do ramo com suas respectivas folhas. Assim, o ramo 16 concatenado com
cada folha tem as seguintes observações: 161cm, 162cm, 162cm, 166cm. Para obter o total de
observações, basta contabilizar a quantidade de números em cada folha. Esse gráfico é
indicado para conjunto de dados com poucas observações (o suficiente para não perder a
simplicidade e clareza).
Em adição, o diagrama de ramos e folhas evidencia a distribuição dos dados, bem como a
frequência das observações. Isso pode ser constatado pelo comprimento das linhas de cada
folha, quanto maior a linha (mais números) maior é a quantidade de dados naquele intervalo.
Também pode ser compreendido que cada ramo consiste em um intervalo de dados
agrupados com amplitude, nesse exemplo, de uma dezena 16 ˫ 17, 17 ˫ 18, e assim
consecutivamente.
O conjunto de dados representado no diagrama de ramos e folhas pode ser expresso em
dados brutos da seguinte forma:
Y = {161, 162, 162, 166, 174, 174, 175, 177, 177, 178, 181, 181, 183, 184, 185, 185, 185,
186, 186, 187, 191, 194, 196, 197, 197, 200, 202, 203, 206}.
TABELAS
As tabelas, de modo geral, servem para organizar e apresentar os dados coletados no
sentido de facilitar a sua interpretação. A tabela de frequência costuma apresentar apenas
informações referentes a uma variável, já as demais tabelas costumam associar dados de
diferentes variáveis, além dos elementos avaliados. A organização estruturada dos dados
brutos em tabelas alinha os valores de cada variável e transforma-os em informações. É muito
utilizada em banco de dados (grandes quantidades de dados).
OBJETO DE ESTUDO:
Informações sobre concursos das carreiras policiais.
Concurso Vagas Inscritos Remuneração Dificuldade
Polícia Federal 600 85.000 R$ 12.600,00 Alta
DEPEN 150 21.000 R$ 8.900,00 Média
PRF 400 60.000 R$ 10.800,00 Alta
Polícia Legislativa 80 55.000 R$ 19.700,00 Baixa
Na tabela acima, cada coluna apresenta valores de uma variável diferente, associando os
dados de cada variável nas linhas da tabela. Assim, é possível afirmar queo concurso da
Polícia Federal oferecerá 650 vagas, tem 85 mil inscritos, remuneração de R$ 12.600,00, e
avaliado por algum critério qualquer com dificuldade alta na prova. Observe que variáveis de
diferentes tipos (qualitativa e quantitativa) podem ser associadas sem problema algum.
GRÁFICOS
Os gráficos, de modo geral, são representações ilustrativas do conjunto de dados brutos
com maior apelo visual. Basicamente, os gráficos devem apresentar simplicidade, clareza na
leitura dos valores e veracidade nas informações sobre o fenômeno estudado. Existem
inúmeros formas de representação gráfica para duas ou mais variáveis, nesse material serão
abordados os principais gráficos cobrados nas provas de Estatística, entre eles, os gráficos de
colunas, barras, setor (pizzas), dispersão e linhas.
O objeto de estudo exemplificado a seguir será aplicado para ilustrar os gráficos de
colunas, barras e setores.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
4
OBJETO DE ESTUDO:
Quantidade de prisões efetuadas por mês nos estados do Sudeste brasileiro.
Rio de Janeiro: 6200
São Paulo: 5000
Minas Gerais: 3200
Espírito Santo: 2600
GRÁFICO DE COLUNAS
Os gráficos de colunas apresentam uma associação entre duas variáveis diferentes,
geralmente se trata de uma variável qualitativa (categórica), representada por cada coluna,
com uma variável quantitativa, representada pela altura das colunas. Esse gráfico não pode
ser confundido com o histograma (a banca costuma muito induzir o aluno a esse erro). O
detalhe para diferenciá-los está no fato de que o gráfico de colunas não contempla a
frequência de uma variável e apresenta duas variáveis em cada eixo.
GRÁFICO DE BARRAS
Os gráficos de barras praticamente invertem a relação dos eixos comparados aos
gráficos de colunas. Mas ainda permanece a associação de duas variáveis em que as barras
representam uma variável qualitativa e o comprimento das barras representa a variável
quantitativa. O mesmo exemplo abordado para o gráfico de colunas pode ser abordado no
gráfico de barras.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
5
GRÁFICO DE SETORES (PIZZA)
Os gráficos de setores focam na proporção em que cada variável qualitativa evidencia
comparativamente ao total observado. Desse modo, abordando o mesmo exemplo que os
demais gráficos, é possível verificar que a variável quantitativa perde sua ênfase nessa
representação gráfica. Para esclarecer o que se refere à quantidade em cada classe, é
necessário especificar, no título, junto ao gráfico que o quantitativo representa o número de
prisões por mês.
Ainda, os gráficos de setores estabelecem uma relação do ângulo de cada setor com o
quantitativo de cada classe. Desse modo, é possível inferir que o total de prisões por mês
observado nesse exemplo corresponde a um ângulo de 360º. Assim, em simples cálculos de
proporção (regra de três), é possível calcular o ângulo do setor de cada classe. Exemplo:
𝟑𝟑𝟑𝟑𝟑𝟑° = 𝟏𝟏𝟑𝟑𝟑𝟑%
Para o Estado de SP, com 29,4%, tem-se:
𝑿𝑿
𝟑𝟑𝟑𝟑𝟑𝟑° =
𝟐𝟐𝟐𝟐,𝟒𝟒%
𝟏𝟏𝟑𝟑𝟑𝟑%
𝟑𝟑𝟑𝟑𝟑𝟑 × 𝟐𝟐𝟐𝟐,𝟒𝟒 = 𝟏𝟏𝟑𝟑𝟑𝟑𝑿𝑿
𝑋𝑋 =
10584
100 = 105,84°
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
6
GRÁFICO DE DISPERSÃO
O gráfico de dispersão também é conhecido como gráfico de correlação. Isso porque é
possível identificar visualmente pelo gráfico uma tendência de correlação entre as variáveis.
Mais à frente, no decorrer do conteúdo, iremos trabalhar profundamente com conceito de
correlação. Sobretudo, entenda que o importante desse gráfico é identificar o que ocorre com
valores de uma variável quando a outra variável aumenta ou diminui. Para exemplificar a
aplicação desse gráfico, é necessário trabalhar com outro exemplo.
OBJETO DE ESTUDO:
Uma investigação tem o objetivo de estudar a associação da quantidade de
drogas apreendidas, em kg, pela Polícia Civil em relação ao desempenho escolar
nos municípios do estado do Mato Grosso. O desempenho escolar foi avaliado pela
média das notas dos alunos de cada município.
Cada ponto presente no gráfico indica uma coordenada (associação) do valor da variável
desempenho médio das escolas, com a variável quantidade de drogas apreendidas. Nesse
exemplo, é possível identificar uma tendência em que, quanto maior o desempenho médio das
escolas, menor é quantidade de drogas apreendidas no município.
O gráfico de dispersão é utilizado para associar duas variáveis quantitativas, não é
recomendado para variáveis qualitativas.
GRÁFICO DE LINHAS (POLÍGONOS)
O gráfico de linhas é semelhante ao polígono de frequência, a diferença é que o gráfico
associa duas variáveis diferentes e não trabalha com a frequência.
OBJETO DE ESTUDO:
Registro de denúncias na delegacia Y no decorrer de 20 dias, após fatos que
levaram à calamidade pública do município.
X = Tempo, em dias {0, 5, 10, 15, 20}
Y = Registro de Denúncias {20, 18, 26, 20, 34}
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
7
Basicamente, o gráfico ilustra a quantidade de denúncias no decorrer de uma série
temporal. Esse gráfico é indicado para associar variáveis quantitativas, uma vez que a linha
gera a ideia de transitividade e progressividade entre um valor e outro, ou seja, existem
valores entre o intervalo do dia inicial da contagem (dia 0) até o 5º dia. Não seria indicado
para variáveis qualitativas, uma vez que as classes são bem definidas sem transição entre um
valor e outro, nesse caso um gráfico de colunas ou barras é o apropriado.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
1
SUMÁRIO
ESTATÍSTICA DESCRITIVA: MEDIDAS DESCRITIVAS ............................................................................................ 2
INTRODUÇÃO ................................................................................................................................................. 2
MEDIDAS DE POSIÇÃO: TENDÊNCIA CENTRAL .............................................................................................. 2
MÉDIA ............................................................................................................................................................ 3
MÉDIA ARITMÉTICA (�̅�): ........................................................................................................................... 3
MÉDIA GEOMÉTRICA (�̅�): ......................................................................................................................... 4
MÉDIA HARMÔNICA (�̅�): .......................................................................................................................... 4
CÁLCULO DA MÉDIA PARA DADOS BRUTOS: ............................................................................................. 5
CÁLCULO DA MÉDIA PARA DADOS PONDERADOS: ................................................................................... 5
CÁLCULO DA MÉDIA PARA DADOS AGRUPADOS: ..................................................................................... 6
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
2
ESTATÍSTICA DESCRITIVA: MEDIDAS DESCRITIVAS
INTRODUÇÃO
As medidas descritivas são resumos numéricos que tentam exprimir o comportamento
observado no conjunto de dados. São informações obtidas por cálculos matemáticos que
resumem, descrevem e interpretam os dados coletados de um fenômeno em estudo. Perante
um conjunto de dados grande, elas são altamente eficientes para tornar a informação manejável
e, com isso, podem-se relacionar os dados e levantar hipóteses de comparação.
No entanto, como acontece sempre que se resume algo, esse processo implica a perda de
alguma informação mais detalhada. Por isso, conhecer as informações que podem ser obtidas
por cada medida descritiva,bem como as informações perdidas é essencial para uma análise
exploratória. Para alcançar sua completude, as medidas descritivas devem ser calculadas em
conjunto, pois cada uma extrai uma informação distinta em relação ao conjunto de dados e
quando juntas permitem uma interpretação satisfatória. Por exemplo, o valor da Média (medida
de tendência central) é frequentemente apresentado em associação com o valor do Desvio
Padrão (medida de dispersão).
Sobretudo, as medidas descritivas são classificadas de acordo com o tipo de informação
gerada. Desse modo, os tipos de medidas descritivas são: de posição (tendência central e
separatrizes); de dispersão (absolutas e relativas); e de forma. As principais medidas
descritivas que serão estudadas e sua respectiva classificação são apresentadas no esquema a
seguir:
MEDIDAS DE POSIÇÃO: TENDÊNCIA CENTRAL
As medidas de posição referem-se à “localização” do conjunto de dados em relação aos
valores que a variável pode assumir, isto é, indicam um valor que está posicionado em algum
ponto específico da escala numérica. As medidas de posição de tendência central informam
valores que tendem a estar posicionados no centro, ou próximos, do conjunto de dados e, com
isso, sabe-se que possui observações oscilando para mais e para menos em relação à
centralidade.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
3
As principais medidas de tendência são a média, a mediana e a moda. De forma prática, a
utilização dessas três medidas varia consoante o tipo de informação que pretendemos resumir
ou descrever.
EXEMPLO:
Avaliação do desempenho de uma turma de acadêmicos em um curso de
formação.
Com esse objeto de estudo, podemos obter as seguintes informações: se
pretendemos resumir o nível de desempenho dos acadêmicos, a média de todas as
notas é a melhor indicação; se pretendemos identificar a nota mais frequente na
turma, utilizaremos a moda; se pretendemos dividir os acadêmicos em dois grupos
de acordo com desempenho (50% melhores notas e 50% notas inferiores), a
mediana é mais indicada.
MÉDIA
A média é a medida de centralidade que quantifica o desempenho central (médio) da
variável estudada. É a medida que mais resume o conjunto de dados em informações
diretamente associadas ao fenômeno em estudo. A média é considerada como um número que
tem a faculdade de representar uma série de valores. Ela quantifica a centralidade, pois leva em
consideração todos os dados observados em seu cálculo. Desse modo, é também a medida
de posição mais sensível à inserção de novos dados, principalmente se forem valores muitos
discrepantes (extremos) ao desempenho médio.
O desempenho central de um conjunto de dados pode ser obtido de acordo com diferentes
procedimentos matemáticos. Apesar de cálculos distintos, todas as metodologias tentam
resumir uma ideia de centralidade. Desse modo, a média pode ser aritmética (simples ou
ponderada), geométrica e harmônica. Segue o esquema:
MÉDIA ARITMÉTICA (�̅�):
É obtida pela soma de todas as observações do conjunto de dados dividido pelo número
de observações. A média aritmética pode ser simples ou ponderada. Essas definições variam
conforme o peso atribuído para cada observação. Assim, pode ser representada
matematicamente:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
4
�̅� =
∑ 𝑿𝒊
𝒏
=
𝑿𝟏 + 𝑿𝟐 + ⋯ + 𝑿𝒏
𝒏
Em que 𝑋𝑖 corresponde ao valor de cada observação (na i-ésima observação).
MÉDIA GEOMÉTRICA (�̅�):
Esse método de cálculo considera o princípio da multiplicação. O cálculo é efetuado
multiplicando cada observação e extraindo a raiz quadrada na potência equivalente ao número
de observações. Assim:
�̅� = √∏ 𝑿𝒊
𝒏
= √𝑿𝟏 × 𝑿𝟐 × … × 𝑿𝒏
𝒏
MÉDIA HARMÔNICA (�̅�):
O cálculo da média harmônica é efetuado invertendo a fração de cada observação e a
fração principal do cálculo de uma média aritmética simples. Basicamente, esse tipo de cálculo
é recomendado quando envolve grandezas que são inversamente proporcionais (exemplo,
velocidade e tempo). Desse modo, pode ser calculada da seguinte forma:
�̅� =
𝒏
∑
𝟏
𝑿𝒊
=
𝒏
𝟏
𝑿𝟏
+
𝟏
𝑿𝟐
+ ⋯ +
𝟏
𝑿𝒏
Dos três tipos de médias apresentadas (aritmética, geométrica e harmônica), a mais
importante e utilizada é a média aritmética. Para a maioria das provas de Estatística, os
cálculos da média geométrica e harmônica não são cobrados. O mais importante é entender que
todas as metodologias de cálculos estão preocupadas em quantificar uma tendência central do
conjunto de dados. Além disso, existe uma relação entre essas médias que é muito cobrada em
prova.
Para exemplificar essa relação, será utilizado o seguinte conjunto de dados:
𝑿 = {𝟏, 𝟑, 𝟗}
➢ Média Aritmética Simples:
�̅� =
𝟏 + 𝟑 + 𝟗
𝟑
=
𝟏𝟑
𝟑
= 𝟒, 𝟑𝟑
➢ Média Geométrica:
�̅� = √𝟏𝒙𝟑𝒙𝟗
𝟑
= √𝟐𝟕
𝟑
= 𝟑
➢ Média Harmônica:
�̅� =
𝟑
𝟏
𝟏 +
𝟏
𝟑 +
𝟏
𝟗
=
𝟑
𝟏𝟑
𝟗
=
𝟑𝒙𝟗
𝟏𝟑
=
𝟐𝟕
𝟏𝟑
= 𝟐, 𝟎𝟖
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
5
Com o exemplo abordado, é possível concluir que para o mesmo conjunto de dados,
somente quando assumirem valores positivos, a relação entre os tipos de média será:
A média aritmética será sempre maior que a média geométrica que, por sua vez, será
maior que a média harmônica. Somente serão iguais, quando os valores do conjunto de dados
forem idênticos entre si, por exemplo, X = {2, 2, 2, 2, 2}. Essa relação pode não ser verdadeira
quando a variável assumir ao menos um valor negativo.
Apesar das diferentes metodologias de cálculo, agora, toda vez que for abordado sobre
média utilizaremos apenas a média aritmética simples. O cálculo da média pode ser aplicado
diferentemente para cada forma de apresentação de dados. Desse modo, serão exemplificados
os cálculos para dados brutos, ponderados e agrupados de acordo com exemplo inicial.
CÁLCULO DA MÉDIA PARA DADOS BRUTOS:
Para esse cálculo, basta considerar cada observação, mesmo que repetida, na fórmula
original da média.
�̅� =
𝟎 + 𝟓 + 𝟏𝟎 + 𝟏𝟓 + 𝟏𝟓 + 𝟏𝟓 + 𝟐𝟎 + 𝟐𝟎 + 𝟑𝟎
𝟗
�̅� =
𝟏𝟑𝟎
𝟗
= 𝟏𝟒, 𝟒𝟒 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
Baseado no exemplo, o valor médio da quantidade de drogas apreendido, em nove
semanas de estudo, corresponde a 14,44 kg/semana. Perceba que a unidade de medida
permanece a mesma que o fenômeno estudado.
CÁLCULO DA MÉDIA PARA DADOS PONDERADOS:
Em uma tabela de frequência, o cálculo da média pode ser efetuado de modo semelhante
a uma média ponderada, em que a frequência corresponde ao peso de cada observação. Para o
cálculo, é suficiente ter informações da frequência absoluta ou relativa. Observe:
Valor Observado (Xi) Frequência Absoluta (fi) Frequência Relativa (fri)
0 1 1/9
10 1 1/9
5 1 1/9
15 3 2/9
20 2 3/9
30 1 1/9
Soma (Σi) 9 9/9
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
6
A tabela informa quantas vezes cada observação repete no conjunto de dados observados
(frequência absoluta), ou então, à proporção que cada observação representa do conjunto total
(frequência relativa). Assim, o cálculo da média pode ser:
�̅� =
∑ 𝑿𝒊𝒇𝒊
𝒏
�̅� =
𝟎𝒙𝟏 + 𝟓𝒙𝟏 + 𝟏𝟎𝒙𝟏 + 𝟏𝟓𝒙𝟑 + 𝟐𝟎𝒙𝟐 + 𝟑𝟎𝒙𝟏
𝟗
�̅� = 𝟏𝟒, 𝟒𝟒 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
Ou então:
�̅� = ∑ 𝑿𝒊𝒇𝒓𝒊
�̅� = 𝟎𝒙
𝟏
𝟗
+ 𝟓𝒙
𝟏
𝟗
+ 𝟏𝟎𝒙
𝟏
𝟗
+ 𝟏𝟓𝒙
𝟑
𝟗
+ 𝟐𝟎𝒙
𝟐
𝟗
+ 𝟑𝟎𝒙
𝟏
𝟗
�̅� = 𝟏𝟒, 𝟒𝟒 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
Observe que o cálculo da média com uso da frequência relativa não precisa dividir pelo
número de elementos (n), uma vez que esse termo já é levado em consideração quando
multiplicado com cada observação.
CÁLCULO DA MÉDIA PARA DADOS AGRUPADOS:
Quando os dados estão agrupados, ocorre perda na precisão, pois não é possível inferir
quais são as observações presentesdentro de cada intervalo. Desse modo, para o cálculo da
média, assume-se que as observações coincidem com o ponto médio de cada classe. Observe:
Valor Observado (Xi) Frequência Absoluta (fi) Frequência Relativa (fri)
0 10 2 2/9
10 20 4 4/9
20 30 3 3/9
Soma (Σi) 9 9/9
O ponto médio de cada classe é calculado da seguinte forma:
𝑷𝒎𝒊 =
𝑳𝑺𝒊 + 𝑳𝑰𝒊
𝟐
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
7
Em que 𝑃𝑚𝑖 corresponde ao ponto médio de uma determinada classe (i-ésima classe);
𝐿𝑆𝑖 o limite superior da mesma classe; 𝐿𝐼𝑖 o limite inferior da mesma classe. Assim, os pontos
médios são:
𝑷𝒎𝟏ª =
𝟏𝟎+𝟎
𝟐
= 𝟓
𝑷𝒎𝟐ª =
𝟐𝟎 + 𝟏𝟎
𝟐
= 𝟏𝟓
𝑷𝒎𝟑ª =
𝟑𝟎 + 𝟐𝟎
𝟐
= 𝟐𝟓
Com isso, a média pode ser calculada da mesma forma que os dados agrupados,
substituindo o valor de cada observação pelo ponto médio da classe:
�̅� =
∑ 𝑷𝒎𝒊𝒇𝒊
𝒏
�̅� =
𝟓𝒙𝟐 + 𝟏𝟓𝒙𝟒 + 𝟐𝟓𝒙𝟑
𝟗
�̅� = 𝟏𝟔, 𝟏𝟏 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
Ou então:
�̅� = ∑ 𝑷𝒎𝒊
𝒏
𝒊=𝟏
𝒇𝒓𝒊
�̅� = 𝟓𝒙
𝟐
𝟗
+ 𝟏𝟓𝒙
𝟒
𝟗
+ 𝟐𝟓𝒙
𝟑
𝟗
�̅� = 𝟏𝟔, 𝟏𝟏 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
O cálculo da média com perda na precisão dos dados acarreta valor diferente daquele
calculado com os dados completos. Quando se trabalha com grande número de observações,
simplificar o conjunto de dados torna-se uma alternativa vantajosa para organização dos dados,
mesmo com variação no valor mais apropriado para a média.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
1
SUMÁRIO
ESTATÍSTICA DESCRITIVA: MEDIDAS TENDÊNCIA CENTRAL .............................................................................. 2
MEDIANA (Me) .............................................................................................................................................. 2
MEDIANA PARA DADOS BRUTOS: ............................................................................................................. 2
MEDIANA PARA DADOS PONDERADOS: .................................................................................................... 3
MEDIANA PARA DADOS AGRUPADOS: ...................................................................................................... 5
MODA (Mo) ................................................................................................................................................... 6
MODA PARA DADOS BRUTOS: ................................................................................................................... 7
MODA PARA DADOS PONDERADOS: ......................................................................................................... 7
MODA PARA DADOS AGRUPADOS: ........................................................................................................... 7
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
2
ESTATÍSTICA DESCRITIVA: MEDIDAS TENDÊNCIA CENTRAL
MEDIANA (Me)
A mediana é uma medida que divide o conjunto de dados em exatamente 50% para cada
lado, por isso ela é um valor de referência para indicar o dado que está exatamente no centro.
É uma medida ideal para ser utilizada quando o objetivo for classificar os elementos avaliados
e distingui-los quanto ao desempenho na metade.
Para calcular e identificar a mediana, é necessário que o conjunto de dados esteja
ordenado de forma crescente, em rol. Além disso, se a quantidade de elementos for ímpar, o
valor da mediana corresponde ao valor de central do conjunto de dados. Todavia, se a
quantidade de elementos for par, é preciso obter a média dos valores centrais para obter a
mediana.
MEDIANA PARA DADOS BRUTOS:
Inicialmente, os dados devem ser colocados em ordem crescente, após isso deve ser
identificada a posição central. A identificação pode ser de forma visual ou calculando a posição
do centro.
X = {15, 20, 10, 30, 20, 15, 0, 5, 15} n =9
Dados em rol crescente:
Mediana, posição central para número ímpar:
Observe que a mediana é o valor 15 que está na quinta posição dos dados de nove
elementos ordenados. Quando for obter a mediana em um conjunto de dados muito extenso,
identificar visualmente o centro pode ser um pouco difícil, para isso calcular a posição central
pode ser uma alternativa vantajosa.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
3
𝑷𝑴𝒆 =
(𝒏 + 𝟏)
𝟐
𝒐𝒖 𝟎, 𝟓(𝒏 + 𝟏)
𝑷𝑴𝒆 =
(𝟗 + 𝟏)
𝟐
= 𝟓
Assim, a posição central ou a posição da mediana (PMe) é calculada por n+1 divido por
dois. O cálculo fornece a posição central do conjunto de dados, que nesse caso corresponde a
posição 5.
Caso o conjunto de dados tenha número par no total de elementos, o cálculo da mediana
fica da seguinte forma, considerando outro exemplo hipotético:
X = {0, 10, 15, 15, 20, 20, 25, 30} n = 8
Visualmente, a mediana está localizada:
A posição da mediana está entre a quarta e quinta posição. Nesse caso, deve-se calcular a
média entre os termos que estão no centro. Assim, a mediana é 17,5. Se fosse calcular a posição
central o resultado seria:
𝑷𝑴𝒆 =
(𝟖 + 𝟏)
𝟐
= 𝟒, 𝟓
O valor 4,5 indica que a mediana está exatamente no centro entre o 4º termo e 5º termo
do conjunto de dados em análise.
MEDIANA PARA DADOS PONDERADOS:
Para obter o valor da mediana em dados ponderados, a melhor informação que indica a
posição do conjunto de dados está na frequência acumulada. Isso porque essa frequência
acumula os valores das observações anteriores e, de certa forma, contabiliza o número de
elementos e indica sua posição.
Desse modo, basta identificar, na frequência acumulada, onde está a posição central e ver
qual observação corresponde a essa posição. O valor que divide a distribuição de frequências
em dois grupos com mesmo número de elementos estará na posição dada por:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
4
∑ 𝒇𝒊
𝟐
𝒐𝒖
𝒏
𝟐
Neste caso, basta identificar a observação que tem frequência acumulada imediatamente
superior à metade da soma das frequências absolutas (ou metade do número total de
observações).
Observe que até o valor de 10 kg/semana há 3 observações acumuladas, o valor de 20
kg/semana acumula 6 observações que inclui a posição 5ª que é imediatamente superior a 4,5.
Desse modo, a observação 15 kg/semana é a mediana. O aluno não deve confundir a informação
da posição dos dados na frequência com o valor correspondente ao fenômeno estudado. A
mediana sempre será um valor referente ao fenômeno estudado e terá a mesma unidade de
medida que o mesmo. A posição dos dados ordenados observada na frequência acumulada é
apenas um indicativo para localizar a mediana.
Se na questão forem fornecidos os dados da frequência acumulada relativa (Fri), é
necessário identificar a posição que acumula 50% dos dados. Com isso, basta localizar a
observação que acumula imediatamente superior a 50% de dados.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
5
MEDIANA PARA DADOS AGRUPADOS:
Para calcular a mediana em conjunto de dados agrupados, é preciso inicialmente
identificar a classe mediana, ou seja, a classe com o intervalo de valores que engloba a mediana.
A identificação da classe mediana funciona da mesma forma que a identificação da
mediana nos dados ponderados. Como os dados são agrupados não é possível identificar o valor
exato da mediana, e sim a classe em que ela se encontra. Para isso, basta localizar a classe
imediatamente superior que acumula metade do total dos elementos (
∑ 𝑓𝑖
2
𝑜𝑢
𝑛
2
) na frequência
acumulada, ou então, que acumula um pouco mais de 50% na frequência acumulada relativa.
Com isso, é possível inferir que a mediana está localizada entre o valor 10 kg/semana até
20 kg/semana. Para calcular o valor exato da mediana,é necessário utilizar o cálculo da
interpolação linear. Quando se trabalha com dados agrupados, utiliza-se esse método de
cálculo para estimar o valor dentro do intervalo que corresponde proporcionalmente a posição
que acumula um pouco mais da metade dos dados.
O cálculo da interpolação linear trabalha com a ideia de que existe uma proporção entre
a diferença dos valores observados com a diferença de sua respectiva frequência
acumulada (ou acumulada relativa). Veja a relação matemática:
𝟐𝟎 − 𝟏𝟎
𝟔 − 𝟐
=
𝑴𝒆 − 𝟏𝟎
𝟒, 𝟓 − 𝟐
Valor Observado (Xi) Quantidade Acumulada (Fi)
10 2
Me 4,5
20 6
Essa relação de proporção é a interpolação linear. É possível associar que até o valor de
20 kg/semana acumula-se 6 observações, assim como, para 10 kg/semana acumula-se 2
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
6
observações. Logo, a divisão dessas diferenças estabelece uma relação de proporção com
qualquer outra relação nesse conjunto de dados. Assim, é possível igualar com a divisão de
diferenças que tenha a mediana como incógnita, sabendo que a mediana corresponde à
frequência acumulada da metade dos dados, isto é, posição 4,5. Resolvendo a conta matemática,
tem-se:
𝟏𝟎
𝟒
=
𝑴𝒆 − 𝟏𝟎
𝟐, 𝟓
𝟐, 𝟓 =
𝑴𝒆 − 𝟏𝟎
𝟐, 𝟓
𝟐, 𝟓 × 𝟐, 𝟓 = 𝑴𝒆 – 𝟏𝟎
𝟔, 𝟐𝟓 + 𝟏𝟎 = 𝑴𝒆
𝑴𝒆 = 𝟏𝟔, 𝟐𝟓 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
Observe que o intervalo que vai de 0 até 10 kg/semana acumula até 2 observações, quase
a metade da posição da mediana (que é 4,5). Desse modo, sabe-se que a mediana estará perto
do meio do intervalo da classe mediana (10 até 20 kg/semana). Enquanto esse cálculo é
efetuado, o aluno deve entender que nunca obterá um valor que extrapole o limite da classe
mediana, assim se porventura ocorrer algum erro no cálculo que passe desse valor, é
interessante revisar os cálculos, pois certamente houve algum erro.
A mediana, ao contrário da média, não depende de todos os valores observados; além
disso, sofre baixa influência de valores extremos. Em adição, não podem ser aplicadas as
variáveis qualitativas nominais, uma vez que não é possível ordenar os dados. A mediana é
adequada quando os dados apresentam grande variabilidade ou distribuição assimétrica, além
de valores extremos indefinidos.
MODA (Mo)
A moda é o valor observado que mais se repete no conjunto de dados. Em outras palavras,
é o valor com maior frequência, ou então, valor com maior probabilidade de ocorrer. É
também a medida descritiva que pode ser facilmente identificada em um gráfico de frequência
absoluta (em qualquer tipo de representação gráfica), pois será sempre o pico (ponto mais alto)
do gráfico. Ao contrário da Média e da Mediana, a Moda tem de ser obrigatoriamente um valor
existente no conjunto de dados.
Um conjunto de dados pode ser Unimodal, quando somente um valor tem mais frequência,
exemplo:
𝑿 = {𝟐, 𝟑, 𝟒, 𝟒, 𝟒, 𝟓, 𝟖} 𝑴𝒐 = 𝟒
Pode ser Bimodal (ou Trimodal, assim por diante) quando duas observações possuem
mais frequência do que as demais observações, exemplo:
𝑿 = {𝟐, 𝟑, 𝟒, 𝟒, 𝟒, 𝟔, 𝟕, 𝟕, 𝟕} 𝑴𝒐 = 𝟒 𝒆 𝟕
Quando o conjunto de dados não tem um valor que se repete, não existe moda e classifica-
se como Amodal, exemplo:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
7
X = {2, 4, 7, 8, 9, 10, 15} Mo = Ø
MODA PARA DADOS BRUTOS:
Quando a questão apresentar dados na forma bruta, para obter a moda, basta identificar
o valor que mais se repete no conjunto de dados. Assim, conforme o exemplo:
𝐗 = {𝟎, 𝟓, 𝟏𝟎, 𝟏𝟓, 𝟏𝟓, 𝟏𝟓, 𝟐𝟎, 𝟐𝟎, 𝟑𝟎}
Mo = 15 kg/semana
A observação de 15 kg/semana repete-se três vezes e mais nenhuma outra observação
tem esse mesmo número de observações. Logo, a moda é apenas 15 kg/semana.
MODA PARA DADOS PONDERADOS:
Em situação de dados ponderados, para identificar a observação que corresponde à moda,
devem-se utilizar as informações presente na tabela de frequência absoluta ou relativa.
Praticamente, a observação que possuir maior valor de frequência absoluta ou relativa será a
moda. Como é possível identificar na tabela a seguir:
MODA PARA DADOS AGRUPADOS:
Como as observações estão agrupadas em classes, é necessário, primeiramente,
identificar a classe que engloba a moda, denominada de classe modal. Para isso, basta
identificar a classe com maior frequência absoluta ou relativa (igualmente como para dados
ponderados). Portanto:
Após essa etapa, é preciso calcular o valor pontual da moda, que estará dentro dos
limites da classe modal. Para isso, existem quatro metodologias matemáticas diferentes que
podem ser utilizadas.
➢ Moda Bruta
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
8
➢ Moda de Pearson
➢ Moda de Czuber
➢ Moda de King
• Moda Bruta:
É o método mais simples; consiste em tomar como Moda o ponto médio da classe modal.
Assim:
𝑴𝒐 =
𝟏𝟎 + 𝟐𝟎
𝟐
= 𝟏𝟓 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
• Moda de Pearson:
É calculada por meio da média e da mediana a partir da seguinte expressão:
𝑴𝒐 = 𝟑𝑴𝒆 − 𝟐�̅�
É a diferença entre três vezes o valor da mediana e duas vezes o valor da média. Logo,
consoante aos cálculos da média e mediana para dados agrupados (Me = 21; �̅� = 19,44):
𝑴𝒐 = 𝟑 × 𝟏𝟔, 𝟐𝟓 − 𝟐 × 𝟏𝟔, 𝟏𝟏
𝑴𝒐 = 𝟒𝟖, 𝟕𝟓 − 𝟑𝟐, 𝟐𝟐 = 𝟏𝟔, 𝟓𝟑 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
• Moda de Czuber:
Essa metodologia estima a moda baseado nos valores de frequência das classes modal,
anterior a modal e posterior a modal. O cálculo é feito pela seguinte fórmula:
𝑴𝒐 = 𝑳𝒊 + 𝒉
𝒇𝑴𝒐𝒅𝒂𝒍 − 𝒇𝑨𝒏𝒕.
𝟐𝒇𝑴𝒐𝒅𝒂𝒍 − (𝒇𝑨𝒏𝒕. + 𝒇𝑷𝒐𝒔𝒕.)
Li: corresponde ao limite inferior da classe modal; Li = 10
h: corresponde à amplitude da classe modal; h =10
𝑓𝑀𝑜𝑑𝑎𝑙 : frequência absoluta da classe modal; 𝑓𝑀𝑜𝑑𝑎𝑙 = 4
𝑓𝐴𝑛𝑡.: frequência anterior à classe modal; 𝑓𝐴𝑛𝑡. = 2
𝑓𝑃𝑜𝑠𝑡.: frequência posterior à classe modal; 𝑓𝑃𝑜𝑠𝑡. = 3
Desse modo, os valores correspondentes a cada frequência podem ser encontrados:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
9
Com isso, o cálculo é efetuado da seguinte forma:
𝑴𝒐 = 𝟏𝟎 + 𝟏𝟎 ×
𝟒 − 𝟐
𝟐 × 𝟒 − (𝟐 + 𝟑)
𝑴𝒐 = 𝟏𝟎 + 𝟏𝟎 ×
𝟐
𝟖 − 𝟓
𝑴𝒐 = 𝟏𝟎 +
𝟐𝟎
𝟑
𝑴𝒐 = 𝟏𝟎 + 𝟔, 𝟔𝟔𝟔 = 𝟏𝟔, 𝟔𝟔 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
• Moda de King:
Estima a moda baseado nos valores de frequência das classes anterior à modal e posterior
à modal. O cálculo é feito pela seguinte fórmula:
𝑴𝒐 = 𝑳𝒊 + 𝒉
𝒇𝒑𝒐𝒔𝒕.
(𝒇𝑨𝒏𝒕. + 𝒇𝑷𝒐𝒔𝒕.)
Assim, o cálculo é procedido da seguinte maneira:
𝑴𝒐 = 𝟏𝟎 + 𝟏𝟎 ×
𝟑
(𝟐 + 𝟑)
𝑴𝒐 = 𝟏𝟎 +
𝟑𝟎
𝟓
= 𝟏𝟔 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
1
SUMÁRIO
ESTATÍSTICA DESCRITIVA: SEPARATRIZRES ....................................................................................................... 2
INTRODUÇÃO ................................................................................................................................................. 2
QUARTIS (Q)................................................................................................................................................... 2
QUARTIS PARA DADOS BRUTOS: ............................................................................................................... 3
QUARTIS PARA DADOS PONDERADOS: ..................................................................................................... 5
QUARTIS PARA DADOS AGRUPADOS: ....................................................................................................... 6
DECIS (D) ........................................................................................................................................................ 7
PERCENTIL(P) ................................................................................................................................................ 9
BOX-PLOT E ESQUEMA DE CINCO PONTOS ................................................................................................. 10
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
2
ESTATÍSTICA DESCRITIVA: SEPARATRIZES
INTRODUÇÃO
As separatrizes são valores que dividem todo o conjunto de dados em partes iguais e de
tamanhos específicos. Cada separatriz é nomeada conforme a quantidade de partes que separa
o conjunto de dados. A mediana, como estudado anteriormente, separa os dados no meio (em
duas partes com 50% cada lado). Além de ser uma medida de posição de tendência central, a
mediana também é uma separatriz. Outras separatrizes são: os quartis, os decis e os percentis.
Como as separatrizes separam o conjunto de dados, é necessário que estejam em ordem
crescente, em rol.
QUARTIS (Q)
Os quartis são valores que dividem o conjunto de dados em quatro partes iguais, com 25%
dos dados em cada parte. Assim, para dividir o rol de dados, é preciso ter três quartis.
➢ 1º Quartil (Q1):
É o valor que separa o rol de dados em 25% dos dados à sua esquerda e 75% à direita.
➢ 2º Quartil (Q2):
Tem 50% dos dados de cada lado, coincide com a mediana.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
3
➢ 3º Quartil (Q3):
Tem 75% dos dados à sua esquerda e 25% à direita.
Para localizar o valor de um quartil, é indicado calcular a posição respectiva que separa
os dados em partes correspondentes ao conceito de cada quartil. Desse modo:
𝑷𝑸𝟏 = 𝟎, 𝟐𝟓(𝒏 + 𝟏) =
(𝒏 + 𝟏)
𝟒
𝑷𝑸𝟐 = 𝟎, 𝟓(𝒏 + 𝟏) =
(𝒏 + 𝟏)
𝟐
𝑷𝑸𝟑 = 𝟎, 𝟕𝟓(𝒏 + 𝟏) =
𝟑(𝒏 + 𝟏)
𝟒
QUARTIS PARA DADOS BRUTOS:
Para obter os quartis em uma série de dados brutos, primeiramente, é necessário deixá-
los em rol crescente. Após isso, basta aplicar as fórmulas para calcular a posição respectiva da
observação correspondente a cada quartil.
𝑿 = {𝟎, 𝟓, 𝟏𝟎, 𝟏𝟓, 𝟏𝟓, 𝟏𝟓, 𝟐𝟎, 𝟐𝟎, 𝟑𝟎} 𝒏 = 𝟗
Para calcular a posição do 1º quartil (PQ1):
𝑷𝑸𝟏 = 𝟎, 𝟐𝟓(𝟗 + 𝟏) =
(𝟗 + 𝟏)
𝟒
= 𝟐, 𝟓
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
4
Assim, o Q1 com posição 2,5 corresponde à média entre o valor da 2ª e 3ª posição:
➢ Para calcular a posição do 2º quartil (PQ2):
𝑷𝑸𝟐 = 𝟎, 𝟓(𝟗 + 𝟏) =
(𝟗 + 𝟏)
𝟐
= 𝟓
Assim, o Q2 corresponde ao valor na 5ª posição:
➢ Para calcular a posição do 3º quartil (PQ3):
𝑷𝑸𝟑 = 𝟎, 𝟕𝟓(𝟗 + 𝟏) =
𝟑(𝟗 + 𝟏)
𝟒
= 𝟕, 𝟓
Assim, o Q3 com posição 7,5 corresponde à média entre o valor da 7ª e 8ª posição:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
5
QUARTIS PARA DADOS PONDERADOS:
Para localizar os quartis em uma tabela de frequência sem intervalo, é necessário
observar a frequência acumulada, pois a Fi apresenta a ideia de posição dos dados (semelhante
ao discutido na mediana para dados ponderados). Cada quartil representa um valor específico
na frequência acumulada, da seguinte forma:
𝑸𝟏 →
∑ 𝒇𝒊
𝟒
𝒐𝒖
𝒏
𝟒
𝒐𝒖 𝑭𝒓𝒊 = 𝟐𝟓%
𝑸𝟐 →
∑ 𝒇𝒊
𝟐
𝒐𝒖
𝒏
𝟐
𝒐𝒖 𝑭𝒓𝒊 = 𝟓𝟎%
𝑸𝟑 →
𝟑(∑ 𝒇𝒊)
𝟒
𝒐𝒖
𝟑𝒏
𝟒
𝒐𝒖 𝑭𝒓𝒊 = 𝟕𝟓%
O 1º quartil corresponde à observação imediatamente superior à aquela que acumula 1/4
ou 25% dos dados, que pode ser observado tanto na frequência acumulada quanto na
frequência relativa acumulada. O 2º quartil corresponde à metade ou 50%, e o 3º quartil
corresponde à 3/4 ou 75%. Portanto:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
6
Observe que até a observação de 5 kg/semana se acumula 22%, e a partir de 10
kg/semana acumula-se 33% dos dados. Dessa forma, o valor 10 contém a posição que separa
os dados em 25% à esquerda e 75% à direita. Assim pode-se dizer que o 1º quartil é igual a 10.
As mesmas conclusões podem ser feitas para os 2º e 3 º quartis.
QUARTIS PARA DADOS AGRUPADOS:
Para calcular os quartis em uma tabela de frequência com intervalos, utiliza-se o mesmo
raciocínio adotado na mediana, a interpolação linear. Primeiro, é necessário identificar a classe
de cada quartil (classe quartílica). As classes dos quartis são identificadas pela mesma forma
que nos dados ponderados. Desse modo:
A segunda classe da tabela de frequência acumula a partir de 22% até 67% dos dados
(engloba 25% e 50% dos dados acumulados). Com isso, é possível inferir que a segunda classe
contém tanto o 1º quanto o 2º quartil. Já a terceira classe engloba 75% dos dados acumulados
e, por isso, contém o 3º quartil.
Após identificar as classes quartílicas, basta aplicar o cálculo de interpolação linear
seguindo a ideia da posição dos quartis:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
7
𝑸𝟏 →
∑ 𝒇𝒊
𝟒
=
𝟗
𝟒
= 𝟐, 𝟐𝟓
𝑸𝟐 →
∑ 𝒇𝒊
𝟐
=
𝟗
𝟐
= 𝟒, 𝟓
𝑸𝟑 →
𝟑(∑ 𝒇𝒊)
𝟒
=
𝟑 × 𝟗
𝟒
= 𝟔, 𝟕𝟓
➢ Assim, os cálculos resultam, para Q1:
𝟐𝟎 − 𝟏𝟎
𝟔 − 𝟐
=
𝑸𝟏 − 𝟏𝟎
𝟐, 𝟐𝟓 − 𝟐
𝟏𝟎
𝟒
=
𝑸𝟏 − 𝟏𝟎
𝟎, 𝟐𝟓
𝟏𝟎 × 𝟎, 𝟐𝟓
𝟒
= 𝑸𝟏 – 𝟏𝟎
𝟐, 𝟓
𝟒
= 𝑸𝟏 – 𝟏𝟎
𝑸𝟏 = 𝟏𝟎 + 𝟎, 𝟔𝟐𝟓 = 𝟏𝟎, 𝟔𝟐𝟓
➢ Para Q2:
𝟐𝟎 − 𝟏𝟎
𝟔 − 𝟐
=
𝑸𝟐 − 𝟏𝟎
𝟒, 𝟓 − 𝟐
𝟏𝟎
𝟒
=
𝑸𝟐 − 𝟏𝟎
𝟐, 𝟓
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
8
𝟐, 𝟓 =
𝑸𝟐 − 𝟏𝟎
𝟐, 𝟓
𝟐, 𝟓 × 𝟐, 𝟓 = 𝑸𝟐 – 𝟏𝟎
𝟔, 𝟐𝟓 + 𝟏𝟎 = 𝑸𝟐
𝑸𝟐 = 𝟏𝟔, 𝟐𝟓
➢ Para Q3:
𝟑𝟎 − 𝟐𝟎
𝟗 − 𝟔
=
𝑸𝟐 − 𝟐𝟎
𝟔, 𝟕𝟓 − 𝟔
𝟏𝟎
𝟑
=
𝑸𝟐 − 𝟐𝟎
𝟎, 𝟕𝟓
𝟑, 𝟑𝟑 × 𝟎, 𝟕𝟓 = 𝑸𝟑 – 𝟐𝟎
𝟐, 𝟓 = 𝑸𝟑 – 𝟐𝟎
𝑸𝟑 = 𝟐𝟎 + 𝟐, 𝟓 = 𝟐𝟐, 𝟓
DECIS (D)
Os decis são medidas descritivas que dividem uma série em 10 partes iguais. Portanto,
existem nove decis; o primeiro tem 10% dos dados à sua esquerda, e 90% à sua direita; o
segundo tem 20% dos dados à sua esquerda, e 80% à sua direita, e assim por diante, até o nono
decil, que tem 90% dos dados à sua esquerda, e 10% à sua direita.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
9
Para o cálculo da posição dos decis em qualquer forma de apresentação de dados, o
raciocínio atribuído é o mesmo que para todas as outras separatrizes:
Decis (D) Cálculo da posição
1º Decil PD1 = 0,10(n+1)
2º Decil PD2 = 0,20(n+1)
3º Decil PD3 = 0,30(n+1)
4º Decil PD4 = 0,40(n+1)
5º Decil PD5 = 0,50(n+1)
6º Decil PD6 = 0,60(n+1)
7º Decil PD7 = 0,70(n+1)
8º Decil PD8 = 0,80(n+1)
9º Decil PD9 = 0,90(n+1)
PERCENTIL (P)
Os percentis são os 99 valores que separam uma série de dados em 100 partes iguais. O
cálculo dos percentis está relacionado com a percentagem. A posição de cada percentil pode ser
obtida da mesma forma que as demais separatrizes. Exemplo:
Percentil (P) Cálculo da posição
5º Percentil PP5 = 0,05(n+1)
20º Percentil PP20 = 0,20(n+1)
32º Percentil PP32 = 0,32(n+1)
50º Percentil PP50 = 0,50(n+1)
80º Percentil PP80 = 0,80(n+1)
Todas as separatrizes (mediana, quartis, decis e percentis) podem ser relacionadas da
seguinte forma:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
10
Com isso, podemos estabelecer a seguinte relação entre as separatrizes:
𝑴𝒆 = 𝑸𝟐 = 𝑫𝟓 = 𝑪𝟓𝟎
BOX-PLOT E ESQUEMA DE CINCO PONTOS
O Box-plot é uma representação gráfica que fornece informações sobre a posição central,
dispersão e assimetria da respectiva distribuição de frequência dos dados. O gráfico utiliza
cinco medidas estatísticas: mínimo, máximo, mediana, primeiro quartil, terceiro quartil. Ele
representa essas cinco medidas em um único conjuntode resultados, conforme apresentado a
seguir:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
11
O box-plot são utilizados para:
• Comparar diferentes conjuntos de dados, visualmente, é possível observar dois
ou mais box-plot e verificar o desempenho e posição de cada um;
• Fornecer evidência sobre o nível de assimetria da distribuição dos dados, a partir
das posições dos quartis Q1, Me (ou Q2) e Q3;
• Identificar observações atípicas (outliers).
Os comprimentos das caudas da distribuição são dados pelas linhas que vão do retângulo
aos valores atípicos. Estes valores atípicos são chamados de outliers. Um outliers pode ser
produto de um erro de observações ou de arredondamento. Outros sinônimos para outliers:
pontos discrepantes, pontos extremos, valores atípicos ou observações fora de lugar.
Para ilustrar um diagrama de Box-plot, o valor máximo pode ser o limite superior (Ls) ou
a observação máxima (Xmáx), entre elas, aquela que for menor (que mais limita); o valor mínimo
pode ser o limite inferior (Li) ou a observação mínima (Xmín), entre elas, aquela que for maior
(que mais limita). Os limites podem ser calculados da seguinte forma:
Limite Inferior (LI): Q1 – 1,5AQ
Limite Superior (LS): Q3 + 1,5AQ
Os limites são calculados tolerando uma variação de 1,5 da amplitude entre os quartis
(𝑨𝑸 = 𝑸𝟑 − 𝑸𝟏).
De modo geral, um ponto será considerado outlier quando estiver fora do intervalo desses
limites: Limite inferior (Li) ou Limite Superior (Ls).
Existe ainda, outra representação gráfica das cinco medidas descritivas já mencionadas, é
o “esquema dos cinco números”, conforme mostrado genericamente a seguir:
Conforme o exemplo abordado para o cálculo dos quartis para dados brutos, vamos
obter os gráficos de box-plot e esquema de cinco pontos. Para isso, é necessário calcular os
limites inferior e superior.
𝑿 = {𝟎, 𝟓, 𝟏𝟎, 𝟏𝟓, 𝟏𝟓, 𝟏𝟓, 𝟐𝟎, 𝟐𝟎, 𝟑𝟎} 𝒏 = 𝟗
𝑸𝟏 = 𝟕, 𝟓 𝑸𝟐 = 𝑴𝒆 = 𝟏𝟓 𝑸𝟑 = 𝟐𝟎
𝑨𝒒 = 𝟐𝟎 − 𝟕, 𝟓 = 𝟏𝟐, 𝟓
𝑳𝒔 = 𝟐𝟎 + 𝟏, 𝟓𝒙𝟏𝟐, 𝟓 = 𝟑𝟖, 𝟕𝟓 ou 𝑿𝑴á𝒙 = 𝟑𝟎
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
12
𝑳𝒊 = 𝟕, 𝟓 − 𝟏, 𝟓𝒙𝟏𝟐, 𝟓 = −𝟏𝟏, 𝟐𝟓 ou 𝑿𝑴í𝒏 = 𝟎
Os limites inferior e superior formam um intervalo mais amplo do que as observações
de mínimo e de máximo, portanto, os valores de Xmín e Xmáx devem ser utilizados no box-plot
porque limitam mais o intervalo do conjunto de dados. Assim:
No box-plot, perceba que a mediana e o 3º quartil estão muito mais próximos
numericamente do que no 1º quartil. A linha central dentro do box-plot está situada mais acima
e com distâncias desproporcionais em relação ao Q1 e Q3. Essa situação evidencia uma
distribuição assimétrica que será abordada em detalhes no conteúdo de assimetria (em
medidas de formas) mais a diante.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
1
SUMÁRIO
ESTATÍSTICA DESCRITIVA: DISPERSÃO ............................................................................................................... 2
INTRODUÇÃO ................................................................................................................................................. 2
AMPLITUDE TOTAL (AT) ................................................................................................................................. 3
AMPLITUDE/INTERVALO INTERQUARTÍLICO (AQ) .......................................................................................... 3
DESVIO QUARTIL (DQ) .................................................................................................................................... 4
DESVIO MÉDIO (DM) ....................................................................................................................................... 4
VARIÂNCIA (σ2, s2) ......................................................................................................................................... 6
DESVIO-PADRÃO (σ, s) ................................................................................................................................... 8
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
2
ESTATÍSTICA DESCRITIVA: DISPERSÃO
INTRODUÇÃO
As medidas de dispersão ou variabilidade permitem visualizar como os dados espalham-
se (ou concentram-se) em torno de um valor central. Essas medidas indicam se um conjunto de
dados é homogêneo ou heterogêneo.
As medidas de posição (tendência central e separatrizes), por si só, não trazem
completude nas informações geradas. Isso pode ser facilmente comprovado quando se
observam dois conjuntos de dados distintos que podem gerar a mesma tendência central. Por
exemplo, sejam dois conjuntos qualquer:
X = {12, 12, 14, 14, 13, 13, 12,14} �̅� = 𝟏𝟑 MeX = 13
Y = {6, 6, 20, 20, 19, 7. 6, 20} �̅� = 𝟏𝟑 MeY = 13
Observe que os valores que compõem a variável X são diferentes comparativamente à
variável Y. No entanto, ambas geram a mesma informação quanto à média e à mediana, isto é,
estão posicionados na sua centralidade no valor numérico 13. Desse modo, as medidas
descritivas de posição precisam ser complementadas quanto o seu grau de dispersão, ou seja,
o quanto os dados se distanciam uns dos outros e de sua posição central (que pode ter como
referência a média ou mediana). Entenda essa relação por meio de gráficos:
Considerando que a linha horizontal representa o valor médio das variáveis, é possível
verificar que a dispersão da variável Y em relação à média é maior do que a variável X. Em
outros aspectos, pode-se afirmar que a variável X é mais homogênea do que a variável Y.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
3
Portanto, as medidas descritivas de dispersão são essenciais, como também complementares
para compreender a performance do fenômeno estudado.
Ainda, quando falamos em dispersão dos dados, dois conceitos são de fundamental
compreensão: a amplitude e o desvio. O termo amplitude se refere à variação entre os valores
extremos de um conjunto de dados, desse modo, traz a ideia de dispersão máxima. Por outro
lado, o desvio é o distanciamento dos dados observados, comparado a um valor de referência
(o desvio deve ser em relação a algum valor), que normalmente é uma medida de tendência
central.
Para quantificar esse aspecto, existem várias medidas descritivas de dispersão:
➢ Absolutas:
• Amplitude Total (AT);
• Amplitude/intervalo Interquartil (AQ);
• Desvio Quartil (DQ);
• Desvio Médio (DM);
• Variância (σ2 ou s2);
• Desvio-padrão (σ ou s).
➢ Relativas:
• Coeficiente de Variação (CV);
• Coeficiente de variação Quartil (CVQ).
AMPLITUDE TOTAL (AT)
A amplitude total consiste na diferença entre o menor e o maior valor no conjunto de
dados. Desse modo:
𝑨𝑻 = 𝑿𝑴á𝒙 − 𝑿𝑴í𝒏
Essa medida de dispersão não leva em consideração os valores intermediários,
perdendo a informação de como os dados estão distribuídos internamente. Apenas informa a
oscilação máxima que as observações alcançam. É baseada somente em duas observações, por
isso, é altamente influenciada pelos valores extremos. Além de tudo, é possível estabelecer uma
relação direta com a variabilidade: quanto maior a amplitude, maior será a variabilidade do
conjunto de dados.
Na forma de apresentação de dados agrupados, a amplitude total pode ser obtida pela
diferença entre o limite superior da última classe e o limite inferior da primeira classe:
𝑨𝑻 = 𝑳𝒔ú𝒍𝒕. 𝑪𝒍𝒂𝒔𝒔𝒆 − 𝑳𝒊𝟏ª𝒄𝒍𝒂𝒔𝒔𝒆
AMPLITUDE/INTERVALO INTERQUARTÍLICO (AQ)
A amplitude (ou intervalo) interquartil é a diferença entre os quartis extremos, ou seja, a
diferença entre o 3º quartil e o 1º quartil. Assim:
𝑨𝑸 = 𝑸𝟑 − 𝑸𝟏
A amplitude interquartil é uma medida essencial para calcular os limites inferiore
superior do box-plot. Com isso, é possível estabelecer limites menos vulneráveis a valores
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
4
extremos, uma vez que os quartis são pouco sensíveis aos outliers (ao contrário do que ocorre
com a amplitude total). A amplitude entre os quartis extremos mostra a variabilidade de 50%
dos dados que estão em torno da mediana, isto é, a distribuição da metade central dos dados.
Entenda pela ilustração:
Essa amplitude não é suficiente para avaliar a variabilidade, pois despreza 50% dos
dados (os extremos). É utilizada para determinar outliers (valores atípicos).
DESVIO QUARTIL (DQ)
Também denominado de amplitude semi-interquatílica, o desvio quartil pode ser
calculado obtendo a metade da amplitude interquartil, da seguinte maneira:
𝑫𝑸 =
(𝑸𝟑 − 𝑸𝟏)
𝟐
O desvio quartil tem como ponto de referência de centralidade a mediana, uma vez que a
metade da amplitude interquartil é o próprio desvio dos quartis extremos em relação À
mediana.
O desvio quartil apresenta como vantagem o fato de ser uma medida fácil de calcular e de
interpretar. Além do mais, não é afetado pelos valores extremos. Trata-se de uma medida
insensível a distribuição dos dados menores que Q1 e maiores que Q3.
DESVIO MÉDIO (DM)
Os desvios baseados nos quartis têm como referência a mediana e não consideram todo o
conjunto de dados. Para obter uma compreensão completa sobre a variabilidade dos dados, é
necessário utilizar a média como ponto de referência para os desvios, pois ela considera todo o
conjunto de observações em seu cálculo. Assim, a partir de agora serão abordadas medidas de
dispersão baseadas na média, e os desvios de cada observação serão obtidos pela diferença da
média:
𝐃𝐞𝐬𝐯𝐢𝐨 = 𝑿𝒊 − 𝝁
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
5
Para compreender o cálculo do desvio médio, vamos abordar um exemplo com um
conjunto de dados qualquer:
OBJETO DE ESTUDO:
Comprimento de corpos de delitos retirados da cena de um crime, com unidade
de medida em centímetros (cm).
𝑿 = {𝟓, 𝟔, 𝟔, 𝟗, 𝟗}
𝝁 =
𝟓 + 𝟔 + 𝟔 + 𝟗 + 𝟗
𝟓
=
𝟑𝟓
𝟓
= 𝟕𝒄𝒎
Para quantificar a dispersão dos dados, uma alternativa interessante é tirar uma média
dos desvios de cada observação. Entretanto, quando somamos os desvios de cada observação,
encontramos o seguinte resultado:
Cada linha da tabela calcula o desvio de uma observação em relação à média, quando
tentamos quantificar todos esses desvios (a própria dispersão do fenômeno estudado),
obtemos como somatório o valor zero. Isso ocorre porque a média é um valor de tendência
central, que é quantificada por todas as observações. Assim, os desvios em relação a ela têm o
mesmo valor para o lado negativo como para o lado positivo. Como pode ser observado na
tabela acima, os valores dessa variável desviam no intervalo de [-4cm; +4cm]. Os desvios
possuem a mesma unidade de medida que o fenômeno em estudo.
Diante dessa situação, alguns recursos matemáticos podem ser aplicados para evitar que
o somatório dos desvios se torne zero, ao mesmo tempo em que seja possível quantificar a
dispersão da variável X. Uma alternativa é utilizar a função modular no cálculo dos desvios, isto
é,|𝑋𝑖 − 𝜇|, por exemplo:
𝑿𝒊 𝑿𝒊 – 𝝁 |𝑿𝒊 − 𝝁|
5 -2 2
6 -1 1
6 -1 1
9 2 2
9 2 2
Σ 0 8
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
6
A função modular despreza o sinal do resultado, trabalhando apenas com o módulo (o
valor numérico). Com isso, todos os valores são somados e se obtém um resultado diferente de
zero. Nesse exemplo, o somatório do módulo dos desvios (∑(|𝑋𝑖 − 𝜇|) foi 8 cm. Dessa forma,
um valor que mensura a dispersão ou a variabilidade dos dados pode ser obtido tirando uma
média desses desvios. Essa medida descritiva é definida como desvio médio (DM).
𝑫𝑴 =
𝟖
𝟓
= 𝟏, 𝟔 𝒄𝒎
Desse modo, é possível inferir que, em média, os dados dispersam na faixa de ±1,60cm
em relação à centralidade dos dados. Com essa construção, desenvolvemos o raciocínio
matemático por trás da fórmula do desvio médio. Após todo o exposto, a fórmula do desvio
médio pode ser definida pela seguinte expressão:
𝑫𝑴 =
∑ (|𝑿𝒊 − 𝝁|)
𝒏
𝒊=𝟏
𝒏
O desvio médio é o somatório dos desvios em relação à média, em módulo, dividido pelo
número de elementos. Em síntese, o desvio médio corresponde à média dos valores absolutos
dos desvios.
Contudo, o desvio médio muitas vezes não é utilizado como medida referente para
descrever a dispersão dos dados. Isso porque a função modular apresenta algumas limitações
matemáticas, compreendê-las não é interessante para o estudo do aluno, seria aprofundar
demais no assunto. O importante é entender que outro recurso matemático deve ser utilizado
para calcular os desvios, de modo que o somatório não resulte em zero. Essa outra medida
descritiva é a variância.
VARIÂNCIA (σ2, s2)
A variância é uma medida de dispersão que aplica uma função quadrática nos desvios em
relação à média. Desse modo, os desvios com sinais negativos resultam em valores positivos e,
assim, é possível quantificar um valor que representa a dispersão de todo conjunto de dados.
Observe que a construção do raciocínio é semelhante ao desvio médio, só que em vez de aplicar
o módulo nos desvios, eles são elevados ao quadrado. Entenda:
𝑿𝒊 𝑿𝒊 – 𝝁 (𝑿𝒊 − 𝝁)
𝟐
5 -2 4
6 -1 1
6 -1 1
9 2 4
9 2 4
Σ 0 14
Portanto, o valor 14cm2 quantifica a soma de toda a dispersão (variabilidade) do conjunto
de dados em relação à média. Para obter um valor que represente uma variação média, é
interessante dividir pelo número de observações (tirar uma média dos desvios ao quadrado).
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
7
𝝈𝟐 =
𝟏𝟒
𝟓
= 𝟐, 𝟖 𝒄𝒎𝟐
Desse modo, a variância dos dados é de 2,8 cm2. Apesar de trabalhar com valores
absolutos do fenômeno estudado, a variância, por elevar os desvios ao quadrado, tem sua
unidade de medida também elevada ao quadrado, como pode ser observado nesse exemplo
hipotético, em cm2. Isso faz com que a informação dessa medida descritiva não tenha a mesma
natureza da variável quantificada, o que implica a necessidade de mais um ajuste matemático
para obter uma medida coerente ao fenômeno em estudo.
Seguindo a linha de raciocínio desenvolvida, a fórmula da variância pode ser definida pelo
somatório dos desvios, em relação à média, elevado ao quadrado e dividido pelo número de
elementos:
𝝈𝟐 =
∑(𝑿𝒊 − 𝝁)
𝟐
𝑵
Observe que tanto a simbologia da média (µ) quanto a da variância (σ2) foram
representadas por letras gregas. Conforme abordado nos conceitos iniciais, esses símbolos são
aplicados quando forem medidas referentes à população. Esses detalhes serão explicados com
mais profundidade no conteúdo de estimadores da Estatística Inferencial, por hora, entenda
que, para a variância, as fórmulas são diferentes quando os dados obtidos são provenientes da
população ou da amostra. Por conseguinte, as fórmulas são:
Basicamente, quando se trata de um conjunto de dados proveniente da população, utiliza-
se o parâmetro populacional da média µ, além de dividir o somatório dos desvios ao quadrado
por N, para assim, obter a variância σ2.
Por outro lado, quando o conjunto de dados for referente a uma amostra, utiliza-se o
estimador do parâmetro da média �̅�, e divide-se o somatório dos desvios ao quadrado por n-1,
para obter a variância s2. A princípio, o mais importante nas questões de Estatística Descritiva
é identificar se dados pertencem a uma amostra ou não, e dividir por n ou n-1, somente isso.
Futuramente, no tema de Estatística Inferencial, essa diferença será fundamentada.
Se tratarmos o exemplo anterior como uma amostra, o cálculo ficaria da seguinte forma:
�̅� = 𝟕𝒄𝒎
𝒔𝟐 =𝟏𝟒
𝟒
= 𝟑, 𝟓 𝒄𝒎𝟐
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
8
A estimativa da média permanece a mesma que a da população, apenas a simbologia do
que ela representa é diferente. Quanto à variância, o cálculo é feito dividindo por n -1 e se obtém
um resultado diferente. É muito importante identificar na questão se os dados são amostras ou
não, pois isso muda todo o possível resultado de uma questão.
DESVIO-PADRÃO (σ, s)
O desvio-padrão é uma medida que fornece a ideia de distribuição dos desvios em relação
ao valor da média, semelhante ao desvio médio. A diferença está que ele não é obtido por meio
da função modular e sim a partir da variância que utiliza a função quadrática.
O cálculo da variância eleva as observações ao quadrado, transformando a natureza do
fenômeno estudado. No exemplo abordado, o valor da variância, para uma população, foi
2,8cm2, desse modo, a variância deixa de expressar um valor referente ao comprimento linear
e transforma-se em uma grandeza de área. Para corrigir matematicamente essa distorção é
necessário tirar a raiz quadrada da variância, e transformá-la em um desvio com unidade de
medida da variável analisada.
Esse desvio é dito como padrão, pois é muito mais vantajoso matematicamente obter o
desvio por meio da variância do que pela função modular. Em outras palavras, a variância é
apenas um meio para obter a medida de dispersão que melhor representa a variabilidade
absoluta do fenômeno em estudo: o desvio-padrão. Assim, pode ser obtido, simplesmente,
extraindo a raiz quadrada da variância:
Com isso, conforme o exemplo abordado anteriormente, o desvio-padrão é:
Para interpretar se o desvio-padrão está alto ou baixo, devemos compará-lo com o valor
da média. Quanto maior o valor do desvio-padrão em relação à média, maior então será a
variação dos dados e mais heterogêneo é o nosso conjunto de observações.
Em síntese a todo o raciocínio desenvolvido, a variância e o desvio-padrão podem ser
calculados seguindo as etapas em sequência lógica:
➢ 1ª etapa: calcular a média (𝜇 𝑜𝑢 �̅�) do conjunto de dados;
➢ 2ª etapa: obter os desvios, em relação à média, de cada observação (𝑑𝑖 = 𝑋𝑖 − 𝜇);
➢ 3ª etapa: elevar cada desvio ao quadrado [𝑑𝑖 = (𝑋𝑖 − 𝜇)
2];
➢ 4ª etapa: obter o somatório dos desvios ao quadrado [∑(𝑋𝑖 − 𝜇)
2];
➢ 5ª etapa: dividir o somatório por 𝑛 quando o conjunto de dados se tratar de uma
população, ou dividir por 𝑛 − 1 quando for referente a uma amostra. Com isso,
obtém a variância (𝜎2 𝑜𝑢 𝑠2);
➢ 6ª etapa: extrair a raiz quadrada da variância para obter o desvio-padrão (𝜎 𝑜𝑢 𝑠);
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUEDE SUA VIDA!
1
SUMÁRIO
ESTATÍSTICA DESCRITIVA: DISPERSÃO ............................................................................................................... 2
VARIÂNCIA E DESVIO-PADRÃO ...................................................................................................................... 2
FÓRMULA ALTERNATIVA DA VARIÂNCIA: ................................................................................................. 2
VARIÂNCIA E DESVIO-PADRÃO PARA DADOS AGRUPADOS: ..................................................................... 5
COEFICIENTE DE VARIAÇÃO (CV) ................................................................................................................... 7
COEFICIENTE DE VARIAÇÃO QUARTIL (CVQ) ................................................................................................. 8
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUEDE SUA VIDA!
2
ESTATÍSTICA DESCRITIVA: DISPERSÃO
VARIÂNCIA E DESVIO-PADRÃO
FÓRMULA ALTERNATIVA DA VARIÂNCIA:
Matematicamente, a fórmula da variância pode ser expressa de modo diferente. Isso
porque o somatório dos desvios ao quadrado pode ser representado por outra notação. Essa
relação de igualdade pode simplificar muito os cálculos da variância, além de ser muito aplicada
nos conteúdos mais avançados.
NOTAÇÃO SOBRE O SOMATÓRIO DOS DESVIOS AO QUADRADO:
∑(𝑋𝑖 − 𝜇)
2
𝑛
𝑖=1
= ∑ 𝑋𝑖
2 −
(∑ 𝑋𝑖)
2
𝑁
𝑛
𝑖=1
Explicando a notação matemática, observe que o somatório dos desvios ao quadrado
(∑ (𝑋𝑖 − 𝜇)
2𝑛
𝑖=1 é igual ao somatório de cada observação ao quadrado (∑ 𝑋𝑖
2)𝑛𝑖=1 menos o efeito
da média (
(∑ 𝑋1
𝑛
𝑖=1 )
2
𝑁
). Ao aplicar essa igualdade na fórmula da variância populacional, temos a
seguinte conclusão:
𝝈𝟐 =
∑(𝑿𝒊 − 𝝁)
𝟐
𝑵
=
∑ 𝑿𝒊
𝟐 −
(∑ 𝑿𝒊)
𝟐
𝑵
𝑵
𝝈𝟐 =
∑ 𝑿𝒊
𝟐
𝑵
−
(∑ 𝑿𝒊)
𝟐
𝑵𝟐
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUEDE SUA VIDA!
3
Com essa dedução matemática, é possível definir a variância populacional da seguinte
forma:
𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 = 𝑀é𝑑𝑖𝑎 𝑑𝑜𝑠 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 − 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑑𝑎 𝑀é𝑑𝑖𝑎
Essa expressão poder ser muito útil nas questões de Estatística que envolvam cálculo da
variância, pois não precisa calcular os desvios de cada observação em relação à média para
depois elevar ao quadrado. Em questões que não são fornecidas, cada observação que compõe
o conjunto de dados, essa fórmula é o recurso que deve ser utilizado. Vamos aplicar o cálculo
da variância com essa fórmula no seguinte exemplo:
OBJETO DE ESTUDO:
Comprimento de corpos de delitos retirados da cena de um crime, com unidade
de medida em centímetros (cm).
X = {5, 6, 6, 9, 9}
𝝁 = 𝟕𝒄𝒎
Após obter o valor da média, basta calcular a média de cada observação elevada ao
quadrado, isto é, a média dos quadrados (
∑ 𝑋𝑖
2
𝑁
). O cálculo pode ser procedido da seguinte
maneira:
𝑿𝒊 𝑿𝒊
𝟐
5 25
6 36
6 36
9 81
9 81
∑ 𝑿𝒊 = 𝟑𝟓 ∑ 𝑿𝒊
𝟐 = 𝟐𝟓𝟗
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUEDE SUA VIDA!
4
Se o somatório de cada uma das cinco observações elevadas ao quadrado é igual a 259,
então a média dos quadrados é igual a:
∑ 𝑿𝒊
𝟐
𝑵
=
𝟐𝟓𝟗
𝟓
= 𝟓𝟏, 𝟖
Com isso, a variância pode ser rapidamente calculada:
𝝈𝟐 =
∑ 𝑿𝒊
𝟐
𝑵
− 𝝁𝟐
𝝈𝟐 = 𝟓𝟏, 𝟖 − 𝟕𝟐
𝝈𝟐 = 𝟓𝟏, 𝟖 − 𝟒𝟗 = 𝟐, 𝟖 𝒄𝒎𝟐
O resultado de 2,8cm2 é o mesmo daquele encontrado utilizando a fórmula original.
Para o cálculo da fórmula alternativa da variância e desvio-padrão, exclusivamente para
dados de uma população, as etapas são:
➢ 1ª etapa: calcular a média (𝜇 ) do conjunto de dados;
➢ 2ª etapa: elevar cada observação ao quadrado (𝑋𝑖
2);
➢ 3ª etapa: efetuar o somatório de cada observação ao quadrado (∑ 𝑋𝑖
2);
➢ 4ª etapa: obter a média dos quadrados (
∑ 𝑋𝑖
2
𝑛
);
➢ 5ª etapa: elevar o valor da média ao quadrado (𝜇2);
➢ 6ª etapa: obter a diferença entre a média dos quadrados e o quadrado da média
(
∑ 𝑋𝑖
2
𝑛
− 𝜇2). Com isso, será obtido o valor da variância (𝜎2);
➢ 7ª etapa: extrair a raiz quadrada da variância para obter o desvio-padrão;
Quando os dados pertencerem a uma amostra, a fórmula alternativa não chega à mesma
conclusão anterior (média dos quadrados menos o quadrado da média). Isso porque o
denominador é n -1. Cuidado para não aplicar a dedução abordada anteriormente para dados
amostrais, pois a fórmula alternativa é a seguinte:
𝒔𝟐 =
∑(𝑿𝒊 − �̅�)
𝟐
𝒏 − 𝟏
=
∑ 𝑿𝒊
𝟐 −
(∑ 𝑿𝒊)
𝟐
𝒏
𝒏 − 𝟏
Se tratarmos o exemplo anterior como uma amostra, é interessante obter, além da soma
dos quadrados de cada observação (∑ 𝑋𝑖
2), o somatório total das observações (∑ 𝑋𝑖), sem
necessidade de obter a média:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUEDE SUA VIDA!
5
𝑿𝒊 𝑿𝒊
𝟐
5 25
6 36
6 36
9 81
9 81
∑ 𝑿𝒊 = 𝟑𝟓 ∑ 𝑿𝒊
𝟐 = 𝟐𝟓𝟗
Assim, o cálculo pode ser efetuado da seguinte forma:
𝒔𝟐 =
∑ 𝑿𝒊
𝟐 −
(∑ 𝑿𝒊)
𝟐
𝒏
𝒏 − 𝟏
=
𝟐𝟓𝟗 −
𝟑𝟓𝟐
𝟓
𝟓 − 𝟏
𝒔𝟐 =
𝟐𝟓𝟗 −
𝟏𝟐𝟐𝟓𝟓
𝟒
=
𝟐𝟓𝟗 − 𝟐𝟒𝟓
𝟒
𝒔𝟐 =
𝟏𝟒
𝟒
= 𝟑, 𝟓 𝒄𝒎𝟐
Essa fórmula alternativa é também útil quando o valor da média não é exato, pois não
precisa subtrair cada observação de uma média que pode ter sofrido arredondamento.
VARIÂNCIA E DESVIO-PADRÃO PARA DADOS AGRUPADOS:
Os cálculos dessas medidas de dispersão em dados ponderados ou agrupados são
semelhantes à forma como são obtidas as médias. Basta entender que cada observação, além
de representar um valor da variável analisada, também possui um desvio em relação à média.
Assim, se alguma observação se repete duas vezes, o desvio dessa observação em relação à
média também se repete duas vezes.
Para exemplificar essa aplicação será abordado um exemplo com dados agrupados, no
entanto, deve-se entender que para dados ponderados, o mesmo raciocínio é feito. A diferença
está que, para dados agrupados, assume-se que os dados coincidem com o ponto médio da
classe, e para os dados ponderados, trabalha-se com o valor exato e sua respectiva frequência.
OBJETO DE ESTUDO:
Dados de uma amostra referentes ao peso de mercadorias exportadas
ilegalmente, em quilogramas, apreendidas por diversas operações policiais.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUEDE SUA VIDA!
6
Valor Observado (Xi) Frequência Absoluta (fi) Frequência Relativa (fri)
0 10 2 20%
10 20 5 50%
20 30 3 30%
Soma (Σi) 10 100%
Assim como para a média, para calcular a variância, é necessário utilizar as informações
da frequência absoluta ou relativa. Com isso, a primeira etapa é calcular o ponto médio de cada
classe:
𝑷𝒎𝟏ª =
𝟏𝟎 + 𝟎
𝟐
= 𝟓 𝒌𝒈
𝑷𝒎𝟐ª =
𝟐𝟎 + 𝟏𝟎
𝟐
= 𝟏𝟓 𝒌𝒈
𝑷𝒎𝟑ª =
𝟑𝟎 + 𝟐𝟎
𝟐
= 𝟐𝟓 𝒌𝒈
Após isso, é também preciso calcular a média para obter os desvios em relação a ela:
�̅� =
𝟓𝒙𝟐 + 𝟏𝟓𝒙𝟓 + 𝟐𝟓𝒙𝟑
𝟏𝟎
=
𝟏𝟔𝟎
𝟏𝟎
= 𝟏𝟔 𝒌𝒈
Ao considerar que cada observação coincide com o ponto médio de cada classe, é possível
entender que a observação de 5kg tem um desvio de -11kg em relação à média, e que este desvio
se repete duas vezes. O mesmo raciocínio pode ser aplicado aos demais pontos médios.
Portanto, o cálculo dos desvios ao quadrado pode ser esquematizado da seguinte forma:
𝑿𝒊 𝒇𝒊 𝑿𝒊 − 𝝁 (𝑿𝒊 − 𝝁)
𝟐 𝒇𝒊(𝑿𝒊 − 𝝁)
𝟐
5 2 -11 121 2x121 = 242
15 5 -1 1 1x5 = 5
25 3 9 81 3x81 = 243
Total 10 0 - 490
Ao obter o desvio de cada observação, deve ser elevado ao quadrado (por questões já
explicadas), e posteriormente multiplicado pela sua respectiva frequência, pois representa a
quantidade de vezes que esse desvio ocorre. Assim, o somatório dos desvios é expresso em
notação matemática por ∑ 𝑓𝑖(𝑋𝑖 − 𝜇)
2. Consequentemente, o cálculo da variância é concluído
da seguinte maneira:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUEDE SUA VIDA!
7
𝒔𝟐 =
𝟒𝟗𝟎
(𝟏𝟎 − 𝟏)
= 𝟓𝟒, 𝟒𝟒 𝒌𝒈𝟐
O exemplo abordado tratava-se de uma amostra, assim o cálculo da variância foi efetuado
dividindo por n – 1, isto é, 9. Em seguida, o desvio-padrão é obtido pela raiz da variância:
𝒔 = √𝟓𝟒, 𝟒𝟒 𝒌𝒈𝟐 = 𝟕, 𝟑𝟖 𝒌𝒈
Lembre-se de que, para obter o desvio-padrão, é necessário calcular a variância antes!
COEFICIENTE DE VARIAÇÃO (CV)
O desvio-padrão é a medida de dispersão mais utilizada para representar a variabilidade
dos dados absolutos referentes a um fenômeno específico. No entanto, não é possível comparar
a heterogeneidade de um conjunto de dados de natureza diferente. Exemplo: sobre a altura e o
peso de um grupo de policiais, não pode ser afirmado que um desvio-padrão de 20cm é mais
heterogêneo do que um de 12kg. Primeiramente, essa comparação não pode ser feita porque se
trata de variáveis com grandezas diferentes, e, em segundo lugar, o desvio é calculado em
relação à média, então é necessário ter a média de cada variável como referência. Para
solucionar essa problemática, é interessante utilizar o coeficiente de variação, calculado da
seguinte forma:
𝑪𝑽 =
𝝈
𝝁
𝒐𝒖
𝒔
�̅�
A característica mais interessante do coeficiente de variação é que se trata de uma
medida descritiva adimensional, uma vez que a divisão do desvio-padrão sobre a média retira
a unidade, já que ambos têm a mesma unidade de medida. Com isso, é possível comparar
coeficientes de variação de diferentes fenômenos estudados. Desse modo, pode-se inferir sobre
a variabilidade de uma população (ou amostra) em relação a outra. Baseado no que foi exposto,
o coeficiente de variação é uma medida de variabilidade relativa, e por isso também é conhecido
como dispersão relativa.
O coeficiente de variação pode ser expresso em porcentagem, caso seja multiplicado por
100. Isso não interfere em nada quanto ao seu valor, magnitude ou interpretação. Para
exemplificar sua aplicação, será utilizado o primeiro exemplo abordado neste material. Assim,
o cálculo é representado:
O cálculo do coeficiente de variação terá diferentes resultados ao se tratar de uma
população ou amostra. Quanto maior o coeficiente de variação, maior é a dispersão dos dados
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUEDE SUA VIDA!
8
sobre a média, assim é possível inferir que a média não seria uma boa medida para representar
o conjunto de dados. Para ter uma ideia dos valores de CV e o que eles representam, pode ser
utilizado a seguinte interpretação:
➢ Menor que 10%: significa que é a média é um ótimo representante do conjunto dos
dados, pois existe uma pequena dispersão;
➢ Entre 10% e 20%: a média é uma boa representante, pois existe uma pequena
dispersão dos dados em torno da média;
➢ Entre 20% e 35%: é um valor razoável, utilizar a média pode ser suficiente, pois
existe uma razoável dispersão dos dados dela;
➢ Entre 35% e 50%: a média representa fracamente, pois existe uma grande
dispersão dos dados em torno dela;
➢ Acima de 50%: a média não é capaz de representar o conjunto de dados, pois existe
uma enorme dispersão.
COEFICIENTE DE VARIAÇÃO QUARTIL (CVQ)
O coeficiente de variação quartil é uma medida com interpretações semelhantes ao CV,
porém é relativa aos desvios dos quartis (também é adimensional). É uma medida útil para
comparação de diferentes variáveis quando possuem a presença de muitos valores atípicos
(outliers). Nessa situação, é mais interessante observar a variação dos dados concentrados em
torno de 50% da mediana. O cálculo é assim efetuado da seguinte forma:
𝑪𝑽𝑸 =
𝑨𝒒
𝑸𝟑 + 𝑸𝟏
=
𝑸𝟑 − 𝑸𝟏
𝑸𝟑 + 𝑸𝟏
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
1
SUMÁRIO
ESTATÍSTICA DESCRITIVA: FORMA ..................................................................................................................... 2
MEDIDAS DE FORMA ..................................................................................................................................... 2
ASSIMETRIA (As) ............................................................................................................................................ 2
DISTRIBUIÇÃO SIMÉTRICA ......................................................................................................................... 3
DISTRIBUIÇÃO ASSIMÉTRICA À DIREITA (OU POSITIVA): ........................................................................... 4
DISTRIBUIÇÃO ASSIMÉTRICA À ESQUERDA (OU NEGATIVA): .................................................................... 4
COEFICIENTE DE ASSIMETRIA DE PEARSON .............................................................................................. 6
COEFICIENTE QUARTÍLICO DE ASSIMETRIA ............................................................................................... 7
CURTOSE (C) .................................................................................................................................................. 8
DISTRIBUIÇÃOMESOCÚRTICA ................................................................................................................... 8
DISTRIBUIÇÃO LEPTOCÚRTICA .................................................................................................................. 9
DISTRIBUIÇÃO PLATICÚRTICA .................................................................................................................... 9
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
2
ESTATÍSTICA DESCRITIVA: FORMA
MEDIDAS DE FORMA
As medidas de forma, ou de formato, caracterizam como os dados estão distribuídos em
relação a si mesmos. Com essas medidas, é possível determinar uma tendência da curva de
frequência. As principais informações são quanto à assimetria e ao grau de achatamento da
distribuição. Entenda por distribuição todos os valores que a variável pode assumir e onde
estão mais concentrados (com maior frequência). A melhor forma de representar uma
distribuição é a partir da curva de frequência.
ASSIMETRIA (As)
A medida de assimetria caracteriza como e quanto a distribuição (ou frequência) dos
dados se afasta de uma condição simétrica, isto é, indica o grau de distorção em relação à
simetria. Os dados são distribuídos simetricamente quando, ao separar em duas partes iguais,
possuem formatos iguais de distribuição para os dois lados. Portanto, ao cortar uma
distribuição na sua mediana, que separa o conjunto de dados em dois grupos de 50%, o
formato das distribuições particionadas deve ser igual para que a distribuição seja simétrica.
Assim:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
3
Na distribuição dos dados representada acima, o ponto da mediana separa em dois
componentes igualmente distribuídos (com a mesma forma). Nessa condição, os dados são
considerados simétricos. Qualquer posicionamento diferente da mediana, modificando as
duas partes da distribuição, de modo que não tenham mais formatos iguais, faz com que o
conjunto de dados não tenha mais distribuição simétrica. Desse modo, as distribuições podem
ser da seguinte forma:
Simétrica;
Assimétrica à Esquerda (ou Negativa);
Assimétrica à Direito (ou Positiva).
Os diferentes tipos de distribuições estão associados a outras informações relevantes na
Estatística Descritiva. Basicamente, a assimetria possui uma relação com as medidas de
tendência central, bem como as separatrizes. Por isso, pode-se detectar a assimetria do
conjunto de dados pelos valores da média, mediana e moda; pelas distâncias dos quartis; pela
presença de valores atípicos; e pelas frequências dos dados. Nesse exposto, os gráficos mais
comuns aplicados em provas, para detectar a assimetria, são a curva de frequência e o box-
plot.
DISTRIBUIÇÃO SIMÉTRICA
Os dados com distribuição simétrica têm os valores de média, mediana e moda iguais
para uma distribuição unimodal. Desse modo, em uma curva de frequência com distribuição
simétrica, o pico da curva (ponto com maior frequência) será o valor de todas as três medidas
de tendência central. Além disso, é possível observar que as distâncias entre os quartis
extremos (Q1 e Q3) com o quartil central (Q2) são iguais, isto é, são equidistantes. Isso ocorre
porque os dados são distribuídos igualmente para ambos os lados, e os quartis Q1 e Q3 estão
distanciados da posição do centro na proporção de 25% cada um.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
4
DISTRIBUIÇÃO ASSIMÉTRICA À DIREITA (OU POSITIVA):
Em distribuições assimétricas à direita (ou positiva), existem observações extremas
para o lado direito do plano cartesiano – direção para o sentido positivo da variável. A cauda
da distribuição de frequência prolonga-se para o lado direito. Nessa situação, temos que a
média é maior que a mediana, e ambas são maiores que a moda, em uma distribuição
unimodal. Isso ocorre, praticamente, porque a média é uma medida mais sensível a valores
extremos, já que considera todas as observações em seu cálculo. Assim, é possível afirmar que,
para onde a distribuição se deslocar, a média irá se deslocar junto. A mediana terá um
deslocamento bem menor para a direita, e a moda permanece sendo o valor mais frequente.
Em adição, a diferença entre o Q3 e o Q2 é maior do que a diferença entre o Q2 e o Q1. Essa
variação de distância ocorre porque os dados estão mais deslocados para a direita e, portanto,
o valor da posição do Q3 é mais distante. Na assimetria à direita, é provável que existam
outliers para os valores positivos. A existência de outliers, por si só, já determina uma
distribuição assimétrica, mesmo que seja observada uma equidistância entre os quartis.
DISTRIBUIÇÃO ASSIMÉTRICA À ESQUERDA (OU NEGATIVA):
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
5
O raciocínio inverso se aplica a uma distribuição assimétrica à esquerda (em direção ao
sentido negativo da variável). A cauda da distribuição de frequência prolonga-se para o lado
esquerdo. Além disso, a média é mais influenciada para o lado esquerdo e se torna o menor
valor das medidas de centralidade, em uma distribuição unimodal. Logo, a moda é maior que a
mediana que é maior que a média. Junto a isso, podem ser observados outliers para o sentido
negativo da variável e a distância entre o Q2 e o Q1 será maior que a distância entre o Q3 e o Q2.
Todas as informações apresentadas, quanto a assimetria, são válidas para dados que
possuem apenas uma moda (unimodal). Quando o conjunto de dados não for unimodal,
algumas informações podem não ser exatamente iguais ao exposto anteriormente. Nessa
circunstância, é recomendado ilustrar a distribuição dos dados em gráficos, particionar o
conjunto de dados no valor da mediana e, por fim, observar se as duas partes têm formato
simétrico. Exemplo:
𝑿𝑿𝒊𝒊 Freq. Relativa
Freq. Acumulada
Relativa
2 30% 30%
4 10% 40%
6 20% 60%
8 10% 70%
10 30% 100%
A tabela acima evidencia a distribuição de frequência de uma variável X qualquer. É
possível observar que existem duas modas nesse conjunto de dados (Mo = 2 e 10). A
observação de valor 6 é a mediana, isto é, acumula 50% do conjunto de dados. Desse modo, ao
representar a distribuição de frequências dessa variável e separá-la no valor da mediana,
teremos a seguinte ilustração:
Observe que os dois formatos da distribuição particionada são espelhados (simétricos).
Desse modo, temos uma distribuição simétrica em que a moda é diferente da mediana e da
média. No entanto, os valores da média e da mediana são iguais. Assim, ao identificar que se
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
6
trata de um conjunto de dados com distribuição não unimodal, a representação gráfica pode
ser uma alternativa interessante para identificar a assimetria dos dados.
Além de identificar a assimetria de uma variável pela sua distribuição de frequência, é
possível calcular o coeficiente de assimetria que permite classificar quanto ao tipo de
assimetria, além de quantificar o grau de distorção do conjunto de dados em relação a uma
forma simétrica. As fórmulas mais cobradas em prova para quantificar o coeficiente de
assimetria são:
COEFICIENTE DE ASSIMETRIA DE PEARSON
Existem dois coeficientes de Pearson que calculam o grau de assimetria de uma
distribuição de dados, o primeiro coeficiente de Pearson pode ser obtido da seguinte forma:
𝑨𝑨𝑨𝑨 =
(𝑿𝑿� − 𝑴𝑴𝑴𝑴)
𝑨𝑨
O 1º coeficiente de Pearson é calculado a partir da diferença da média pela moda,
dividido pelo desvio-padrão. Essa fórmula pode ser inconsistente quando a distribuição dos
dados não foram unimodais, como exemplificado na situação anterior, assim surge a
necessidade de um segundo coeficiente que seja mais eficiente para quantificar a assimetria
dos dados em qualquer situação. Dessaforma, o segundo coeficiente de Pearson pode ser
calculado por:
𝑨𝑨𝑨𝑨 =
𝟑𝟑(𝑿𝑿� − 𝑴𝑴𝑴𝑴)
𝑨𝑨
O 2º coeficiente de Pearson é obtido por três vezes a diferença entre a média e a
mediana, dividido pelo desvio-padrão. Esse coeficiente consegue quantificar com mais
eficiência a assimetria uma vez que o valor da mediana assume apenas um resultado.
Para ambos os coeficientes, os resultados são interpretados da seguinte forma:
As = 0, dados com distribuição simétrica;
As > 0, dados com distribuição assimétrica à direita, ou positiva;
As < 0, dados com distribuição assimétrica à esquerda, ou negativa.
É fácil interpretar os possíveis resultados do coeficiente de assimetria de Pearson já que
os valores positivos indicam uma assimetria positiva, assim como, valores negativos indicam
assimetria negativa. Observe que o sinal do coeficiente de assimetria é determinado pela
diferença da média com a moda ou com a mediana, e o resultado coincide com as relações de
assimetria estudadas. Junto a isso, quanto mais distante o coeficiente de assimetria for em
relação a zero, maior será o grau de distorção da distribuição de frequência em relação a uma
forma simétrica.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
7
COEFICIENTE QUARTÍLICO DE ASSIMETRIA
O coeficiente quartílico de assimetria trabalha com a ideia das distâncias entre os
quartis e sua relação com a assimetria da distribuição de dados. Assim, o cálculo pode ser
efetuado da seguinte maneira:
𝑨𝑨𝑨𝑨 =
𝑸𝑸𝟑𝟑 + 𝑸𝑸𝟏𝟏 − 𝟐𝟐𝑴𝑴𝑴𝑴
𝑸𝑸𝟑𝟑 − 𝑸𝑸𝟏𝟏
Os valores desse coeficiente oscilam entre -1 até +1. A interpretação dos resultados são
as mesmas que o coeficiente de Pearson.
As = 0, dados com distribuição simétrica;
As > 0, dados com distribuição assimétrica à direita, ou positiva;
As < 0, dados com distribuição assimétrica à esquerda, ou negativa.
Os coeficientes de assimetria são todos adimensionais (sem unidade de medida), por
isso, o coeficiente de assimetria de uma variável pode ser comparado com o coeficiente de
outra variável, mesmo sendo dados de natureza completamente diferente. Basicamente, a
comparação fornece a ideia de qual conjunto de dados distancia-se mais de uma forma
simétrica. Para exemplificar o cálculo do coeficiente de assimetria, vamos utilizar o exemplo
abordado no cálculo das medidas de posição.
Conforme os valores do exemplo, o cálculo dos coeficientes de assimetria são:
1º Coeficiente de Pearson:
𝑨𝑨𝑨𝑨 =
(𝟏𝟏𝟏𝟏,𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏)
𝟖𝟖,𝟖𝟖𝟐𝟐
=
−𝟎𝟎,𝟔𝟔𝟔𝟔
𝟖𝟖,𝟖𝟖𝟐𝟐
= −𝟎𝟎,𝟎𝟎𝟎𝟎𝟏𝟏
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
8
2º Coeficiente de Pearson:
𝑨𝑨𝑨𝑨 =
𝟑𝟑(𝟏𝟏𝟏𝟏,𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏)
𝟖𝟖,𝟖𝟖𝟐𝟐
=
−𝟏𝟏,𝟗𝟗𝟖𝟖
𝟖𝟖,𝟖𝟖𝟐𝟐
= −𝟎𝟎,𝟐𝟐𝟐𝟐𝟏𝟏
Coeficiente Quartílico:
𝑨𝑨𝑨𝑨 =
𝟐𝟐𝟎𝟎 + 𝟎𝟎,𝟏𝟏 − 𝟐𝟐𝟐𝟐𝟏𝟏𝟏𝟏
𝟐𝟐𝟎𝟎 − 𝟎𝟎,𝟏𝟏
=
𝟐𝟐𝟎𝟎,𝟏𝟏 − 𝟑𝟑𝟎𝟎
𝟏𝟏𝟐𝟐,𝟏𝟏
=
−𝟐𝟐,𝟏𝟏
𝟏𝟏𝟐𝟐,𝟏𝟏
= −𝟎𝟎,𝟐𝟐
Todos os resultados obtidos indicam que os dados são distribuídos assimetricamente
para o lado negativo (à esquerda). Como os valores são próximos de zero, é possível inferir
que os dados são levemente assimétricos, sendo sua distribuição de frequência muito próxima
a uma forma assimétrica.
CURTOSE (C)
A medida de curtose indica o grau de concentração dos dados em relação a sua
centralidade, também pode ser abordada como grau de achatamento da curva de frequência.
Basicamente, a forma da curva de frequência em relação à curtose pode ser:
DISTRIBUIÇÃO MESOCÚRTICA
A distribuição dos dados com curtose mesocúrtica é o ponto de referência para
discriminar os demais tipos de curtose. Isso porque ela possui uma distribuição normal,
comportamento que os fenômenos de modo geral tendem a apresentar. Nesse tipo de curtose,
observa-se um aumento gradativo de frequência quando os dados se aproximam da sua
centralidade (média, mediana e moda), isto é, o grau de achatamento da curva é mediano.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
9
DISTRIBUIÇÃO LEPTOCÚRTICA
A curtose leptocúrtica apresenta observações mais concentradas em valores com
maiores frequências (maior concentração na centralidade), comparativamente à curtose
mesocúrtica. Observa-se um aumento mais abrupto na frequência quando se aproxima da
centralidade. A distribuição apresenta uma curva de frequência mais fechada que a normal
(ou mais aguda em sua parte superior).
DISTRIBUIÇÃO PLATICÚRTICA
A curtose platicúrtica apresenta observações mais distribuídas ao longo de todo
conjunto de dados com valores de frequência mais homogêneos entre as observações (menor
concentração na centralidade), comparativamente à curtose mesocúrtica. A curva de
frequência apresenta-se mais aberta que a normal (ou mais achatada na parte superior, como
um platô).
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
10
Além de identificar a curtose pela forma da distribuição de frequências, é possível
quantificá-la por meio do coeficiente percentílico de curtose (C). Calculado da seguinte forma:
𝑪𝑪 =
𝑸𝑸𝟑𝟑 − 𝑸𝑸𝟏𝟏
𝟐𝟐(𝑷𝑷𝟗𝟗𝟎𝟎 − 𝑷𝑷𝟏𝟏𝟎𝟎)
𝑴𝑴𝒐𝒐
𝑸𝑸𝟑𝟑 − 𝑸𝑸𝟏𝟏
𝟐𝟐(𝑫𝑫𝟗𝟗 − 𝑫𝑫𝟏𝟏)
Outra forma de representar a fórmula é:
𝑪𝑪 =
𝑫𝑫𝑸𝑸
(𝑫𝑫𝟗𝟗 − 𝑫𝑫𝟏𝟏)
Os resultados do coeficiente percentílico de curtose podem ser os seguintes:
C = 0,263 corresponde à curva mesocúrtica, valor observado na curva normal;
C < 0,263 corresponde à curva leptocúrtica;
C > 0,263 corresponde à curva platicúrtica.
É possível interpretar que quanto mais distante o coeficiente de curtose estiver do valor
0,263, maior é distorção em relação à curva normal, sendo mais achatada para valores
maiores que 0,263, ou mais aguda para valores menores que 0,263. Além disso, é interessante
observar que o coeficiente é adimensional, sendo passível a comparação com outras
distribuições de dados.
Para exemplificar, será abordado o mesmo exemplo anterior:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
11
O cálculo fica da seguinte forma:
𝑪𝑪 =
𝟐𝟐𝟏𝟏 − 𝟎𝟎,𝟏𝟏
𝟐𝟐(𝟑𝟑𝟎𝟎 − 𝟎𝟎)
=
𝟏𝟏𝟎𝟎,𝟏𝟏
𝟔𝟔𝟎𝟎
= 𝟎𝟎,𝟐𝟐𝟗𝟗𝟐𝟐
Com o seguinte resultado é possível afirmar que a distribuição dos dados é levemente
platicúrtica, ou seja, as observações estão mais distribuídas por todo intervalo do conjunto de
dados.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
1
SUMÁRIO
ESTATÍSTICA DESCRITIVA: TRANSFORMAÇÃO DE DADOS ................................................................................. 2
TRANSFORMAÇÃO UNIFORME DO CONJUNTO DE DADOS ........................................................................... 2
EFEITO NAS MEDIDAS DE POSIÇÃO ........................................................................................................... 2
EFEITO NAS MEDIDAS DE DISPERSÃO ....................................................................................................... 3
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
2
ESTATÍSTICA DESCRITIVA: TRANSFORMAÇÃO DE DADOS
TRANSFORMAÇÃO UNIFORME DO CONJUNTO DE DADOS
Um assunto muito cobrado em concursos, dentro do tópico de Estatística Descritiva, é o
efeito nas medidas descritivas (principalmente tendência central e dispersão) quando ocorre
uma transformação uniforme em todo o conjunto de dados. De modo geral, essa temática
aborda algum fenômeno que modifica a realidade estudada, alterando todo o conjunto de
dados a partir de alguma operação matemática aplicada em todas as observações. Observe
que a transformação de dados deve ser uniforme para todas as observações. Caso alguma
observação seja modificadapor alguma forma diferente, as informações abordadas nesse
tópico não serão válidas.
Por exemplo, um objeto de estudo avalia a faixa etária de um grupo de pessoas
pertencentes a uma região. Nesse cenário, após cinco anos completos, todas as idades foram
adicionadas em cinco unidades, isto é, todo o conjunto de dados foi modificado somando um
valor constante.
Outro fenômeno bem comum, é quando um conjunto de dados é multiplicado por uma
constante. Por exemplo, quando os salários de uma equipe de funcionários são duplicados por
uma promoção na empresa. Nessa situação, todas as observações são multiplicadas por dois.
Nesse contexto, é interessante compreender o que acontece com as medidas
descritivas após o conjunto de dados sofrer uma modificação uniforme. Essa modificação
pode apresentar resultados diferentes quando os dados são subtraídos/somados por uma
constante, ou então, quando são multiplicados/divididos. Desse modo, serão abordadas as
propriedades das medidas descritivas mais cobradas em prova – média, moda, mediana,
variância, desvio-padrão e coeficiente de variação.
EFEITO NAS MEDIDAS DE POSIÇÃO
As medidas de posição, todas elas, são influenciadas tanto pela soma/subtração como
pela multiplicação/divisão. Basicamente, se um conjunto de dados sofre qualquer uma dessas
quatro operações matemáticas, as medidas de posição são modificadas igualmente, isto é,
sofrem a mesma transformação matemática que cada uma das observações sofreu.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
3
Exemplo de um conjunto de dados qualquer:
Quando os dados são transformados em mais cinco unidades, observa-se o seguinte
resultado:
Todos os dados foram deslocados em mais cinco unidades, junto a isso, as medidas que
representam a posição desses dados também são deslocadas na mesma proporção. O mesmo
resultado ocorre se os dados forem multiplicados ou divididos por um valor constante. Assim,
é possível concluir que qualquer alteração uniforme no conjunto de dados altera igualmente
todas as medidas de posição (média, mediana, moda, quartis etc.). Veja a tabela que
exemplifica todas as quatro operações matemáticas:
Medida X X+5 X-10 2x X/4
𝑋𝑋� 23,89 28,89 13,89 47,78 4,78
Me 20 25 10 40 5
Mo 20 25 10 40 5
Q1 15,5 20,5 10,5 31 3,88
Q3 35 40 25 70 8,75
EFEITO NAS MEDIDAS DE DISPERSÃO
Variância e desvio-padrão:
Quanto as medidas de dispersão (variância e desvio-padrão), resultados diferentes são
encontrados nas operações de soma/subtração e multiplicação/divisão. O que determina o
valor das medidas de dispersão é o quantitativo dos desvios em relação à média. Quando um
conjunto é transformado uniformemente com soma/subtração, a média também é
transformada igualmente e o valor do desvio permanece o mesmo:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
4
Portanto, os valores da variância e do desvio-padrão não são alterados pela
soma/subtração. Por outro lado, quando os dados são multiplicados/divididos, os valores são
alterados. Tanto as observações como a média são multiplicadas/divididas por uma
constante, assim o valor do desvio também é alterado na mesma proporção:
Desse modo, se cada desvio é modificado, o valor total da variância e o desvio-padrão
também é alterado. Entretanto, vale ressaltar que a variância eleva os valores dos desvios ao
quadrado, então o efeito da constante que for multiplicada/dividida também é elevado ao
quadrado. Já para o desvio-padrão, como o valor é submetido à raiz quadrada, o efeito da
multiplicação/divisão altera o desvio-padrão na mesma proporção da constante.
Coeficiente de variação:
O coeficiente de variação, divisão do desvio-padrão sobre a média, tem seu valor
alterado com operações de soma/subtração, já que o desvio-padrão não é modificado e a
média sim. Dessa forma, o coeficiente é modificado devido ao denominador ser somado por
uma constante, enquanto o numerador permanece constante.
Contudo, quando um conjunto de dados é transformado por uma multiplicação/divisão,
tanto o desvio-padrão quanto a média são modificados na mesma proporção, assim o valor do
CV não é alterado. Entenda a partir de um exemplo qualquer:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
5
O efeito das medidas descritivas com transformação uniforme do conjunto de dados é,
com certeza, o conteúdo mais cobrado no assunto de Estatística Descritiva. Esse raciocínio
também será desenvolvido semelhantemente no assunto de variáveis aleatórias, por isso, é
muito importante fazer a associação desses conhecimentos. Para sintetizar todo o conteúdo
assimilado, um quadro resumido dos efeitos pode ser bem útil:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
1
SUMÁRIO
TEORIA DA PROBABILIDADE .............................................................................................................................. 2
INTRODUÇÃO ................................................................................................................................................. 2
DEFINIÇÕES BÁSICAS ..................................................................................................................................... 2
EXPERIMENTO ........................................................................................................................................... 2
ESPAÇO AMOSTRAL (Ω) ............................................................................................................................. 2
EVENTO ...................................................................................................................................................... 3
CÁLCULO DA PROBABILIDADE ................................................................................................................... 3
AXIOMAS DA PROBABILIDADE....................................................................................................................... 4
1º AXIOMA ................................................................................................................................................. 4
2º AXIOMA ................................................................................................................................................. 5
3º AXIOMA ................................................................................................................................................. 5
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
2
TEORIA DA PROBABILIDADE
INTRODUÇÃO
A teoria da probabilidade trabalha com a aplicação da intuição humana para estudar
quaisquer fenômenos do cotidiano. O ser humano, com objetivo de compreender os eventos
que ocorrem ao seu redor, utiliza o princípio básico de aprendizado: a experimentação. Dessa
forma, ele observa os possíveis resultados que um fenômeno pode apresentar, a partir de
simulações da realidade, e tenta quantificar as chances que cada resultado pode ocorrer.
Basicamente, é uma teoria criada a partir da prática, isto é, a partir de observações, estimam-se
as possibilidades. Todo esse conteúdo é fundamental para extrapolar informações incompletas
de qualquer objeto de estudo (é base para Estatística Inferencial).
DEFINIÇÕES BÁSICAS
EXPERIMENTO
O experimento é o meio pelo qual o homem simula e observa os possíveis resultados de
um determinado fenômeno. O resultado de um experimento é um estado final de
acontecimentos que não são previsíveis. De modo geral, os experimentos podem ser
determinísticos ou aleatórios.
Experimento Determinístico (não casuais):
É aquele que gera resultados constantes, sem variação e não aleatórios. O resultado
desse tipo de experimento, sempre que realizado e repetido nas mesmas circunstâncias, é um
evento determinado sem possibilidades de obter outro resultado.Por exemplo, reduzir a
temperatura da água abaixo de 0º graus Celsius e em condições normais de pressão, acarretará
o congelamento da água.
Experimento Aleatório (Casuais):
É o experimento que, mesmo repetido diversas vezes, sob as mesmas circunstâncias,
apresenta resultados diferentes. Desse modo, todas as eventualidades não podem ser
preditas e geram um conjunto de resultados denominado espaço amostral. Para esse tipo de
experimento, o que mais predomina na realidade, deve ser utilizado o conhecimento da
probabilidade, isto é, se os resultados são aleatórios, cabe quantificar as possibilidades que
cada evento tem de ocorrer.
Exemplos básicos de experimentos aleatórios:
• Lançar um dado e observar o resultado da face virada para cima;
• Lançar duas moedas e observar o número de caras obtidas;
• Selecionar uma carta de um baralho de 52 cartas e observar o número.
Nos fenômenos que apresentam resultados aleatórios, é interessante quantificar as
probabilidades – chances ou possibilidades – que cada resultado possui dentro de todos os
possíveis. Para isso, é necessário compreender dois conceitos fundamentais: o espaço amostral
e o evento.
ESPAÇO AMOSTRAL (Ω)
Consiste no conjunto de todos os resultados possíveis de um Experimento Aleatório. A
determinação do espaço amostral está diretamente associada ao fenômeno que se quer
compreender. Neste material, o espaço amostral será sempre representado pelo símbolo “Ω”.
Além de identificar todo o conjunto que representa o espaço amostral, deve-se contabilizar o
número de elementos possíveis desse conjunto, representado por n(Ω).
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
3
Exemplos de como determinar o espaço amostral e o respectivo número de elementos em
Experimentos Aleatórios:
Lançar um dado de seis faces, numerado de 1 a 6, e observar a face de cima:
Ω = {1, 2, 3, 4, 5, 6} n(Ω) = 6
Lançar duas moedas e observar as faces de cima:
Ω = {(Cara, Cara); (Cara, Coroa); (Coroa, Cara); (Coroa, Coroa)} n(Ω) = 4
Sortear em uma urna um número de 1 a 9.
Ω = {1, 2, 3, 4, 5, 6, 7, 8, 9} n(Ω) = 9
EVENTO
Um evento será um subconjunto do espaço amostral. É qualquer resultado ou conjunto de
resultados, relacionado ao fenômeno em estudo, que se pretende compreender suas
possibilidades de ocorrer. Para determiná-lo, é necessário, em cada situação, compreender os
resultados de interesse. Designaremos um evento qualquer por uma alguma letra maiúscula.
Veja, a partir de exemplos, como determinar um evento e o respectivo número de elementos desse
elemento:
Exemplo 01:
Experimento Aleatório: lançar um dado e observar a face para cima.
Espaço Amostral: Ω = {1, 2, 3, 4, 5, 6}; n(Ω) = 6
Evento X: obter um resultado par no lançamento do dado.
O conjunto do evento X será: X = {2, 4, 6}, com n(X) = 3.
Se o resultado do lançamento do dado pertencer ao conjunto X, haverá a ocorrência do
evento X.
Outros eventos podem ser determinados no mesmo experimento de lançar o dado:
Evento Y: obter um múltiplo de 3 no lançamento do dado.
O conjunto do evento Y será: Y = {3, 6}, com n(Y) = 2.
Exemplo 02:
Experimento Aleatório: resultado de um jogo em uma partida de futebol.
Espaço Amostral: Ω = {Vitória, Empate, Derrota} n(Ω) = 3
Evento A: obter uma vitória no jogo.
O conjunto do evento A será: A = {Vitória}, com n(A) = 1.
Evento B: não obter uma derrota no jogo.
O conjunto do evento B será: B = {Vitória, Empate}, com n(B) = 2.
CÁLCULO DA PROBABILIDADE
Para efetuar o cálculo da probabilidade, deve-se primeiramente identificar e
compreender o fenômeno em estudo, na sua escala ampla. Após isso, é necessário mapear todos
os resultados do experimento aleatório e determinar o espaço amostral e o evento de interesse.
O cálculo da probabilidade de ocorrência de um evento de interesse X consiste no número
de possibilidades que esse evento pode assumir sobre o número de todos os resultados
possíveis. Assim, é possível representar da seguinte forma:
𝑃𝑃(𝑋𝑋) =
𝑛𝑛(𝑋𝑋)
𝑛𝑛(Ω)
=
𝑁𝑁º 𝑑𝑑𝑑𝑑 𝑟𝑟𝑑𝑑𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑑𝑑𝑟𝑟𝑟𝑟 𝑓𝑓𝑟𝑟𝑓𝑓𝑟𝑟𝑟𝑟á𝑓𝑓𝑑𝑑𝑣𝑣𝑟𝑟 𝑟𝑟𝑟𝑟 𝑑𝑑𝑓𝑓𝑑𝑑𝑛𝑛𝑟𝑟𝑟𝑟 𝑋𝑋
𝑁𝑁º 𝑑𝑑𝑑𝑑 𝑟𝑟𝑑𝑑𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑑𝑑𝑟𝑟𝑟𝑟 𝑝𝑝𝑟𝑟𝑟𝑟𝑟𝑟í𝑓𝑓𝑑𝑑𝑣𝑣𝑟𝑟
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
4
𝑃𝑃(𝑋𝑋) =
𝑁𝑁º 𝑑𝑑𝑑𝑑 𝐸𝐸𝑓𝑓𝑑𝑑𝑛𝑛𝑟𝑟𝑟𝑟𝑟𝑟
𝑁𝑁º 𝑑𝑑𝑟𝑟 𝐸𝐸𝑟𝑟𝑝𝑝𝑟𝑟Ç𝑟𝑟 𝐴𝐴𝐴𝐴𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟
IMPORTANTE!
Essa é a fórmula básica da probabilidade, contudo, ela é somente aplicável
quando os elementos do espaço amostral tiverem a mesma probabilidade de
ocorrer.
Por exemplo, podemos aplicar a fórmula acima em um experimento que
consiste no lançamento de uma moeda “honesta” (não viciada), pois as faces cara e
coroa têm a mesma probabilidade de sorteio. No entanto, não podemos aplicar em
um experimento de lançamento de uma moeda “não honesta” (viciada), pois a
probabilidade de sorteio de uma das faces é maior do que a da outra.
A notação “P(X)” indica a probabilidade de ocorrer o evento X. Sempre nas notações
matemáticas de probabilidade, o que estiver dentro dos parênteses representa o evento de
interesse ao qual se deseja obter o valor de probabilidade da sua ocorrência.
Com esse conhecimento, é interessante estabelecer um padrão toda vez que for realizar
uma questão de probabilidade. Esse tipo de conteúdo depende muito da interpretação do aluno
em cada caso abordado nas questões. Para isso, a forma como as informações devem ser
buscadas e interpretadas pode ser vantajosa, seguindo a seguinte sequência lógica:
1º Passo → Identificar o experimento aleatório e compreender qual fenômeno ele
pretende obter informações, definindo assim o número de elementos do espaço amostral n(Ω),
isto é, o número de resultados possíveis;
2º Passo → Identificar o evento de interesse, ou seja, dentro dos resultados possíveis
quais são aqueles que a questão tem o objetivo de quantificar. Com isso, define-se o seu
respectivo número de elementos n(X), isto é, o número de resultados favoráveis (ou de
interesse);
3º Passo → Aplicar a fórmula da Probabilidade: 𝑃𝑃(𝑋𝑋) = 𝑛𝑛(𝑋𝑋)
𝑛𝑛(Ω)
;
Muitas vezes, para contagem do número de elementos do espaço amostral e do evento,
será necessário fazer uso do princípio fundamental da contagem, como também, utilizar os
recursos matemáticos da combinação, permutação e do arranjo, conforme cada questão. O
aluno precisa ter domínio desses conhecimentos da matemática para não precisar fazer
contagens extensas e quase impraticáveis em uma questão de concurso.
AXIOMAS DA PROBABILIDADE
Os axiomas da probabilidade são propriedades básicas estabelecidas na teoria clássica da
probabilidade que devem ser obedecidas de maneira absoluta. Em outras palavras, toda
informação aplicada ao conteúdo de probabilidade obedece aos axiomas e podem ser utilizados
para solucionar diversas questões de Estatística. São três os principais axiomas da
probabilidade.
1º AXIOMA
Os valores que a probabilidade de um evento X qualquer pode assumir varia de 0 (ou 0%)
até 1 (ou 100%). Assim é possível representar:
0 ≤ 𝑃𝑃(𝑋𝑋) ≤ 1
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
5
No caso de seu valor mínimo, com P(X) = 0, ocorre um evento impossível, isto é, o evento
é um resultado que não pertence ao espaço amostral. Por exemplo, a probabilidade de jogar um
dado de seis faces, numerado de 1 a 6, e obter o número 9. Veja que, para esse exemplo, o evento
não está nos resultados possíveis, assim, esse evento é impossível de ocorrer nesse
experimento aleatório.
Já para situação de valor máximo, com P(X) = 1, ocorre um evento certo, isto é, o evento é
um resultado que engloba todo o espaço amostral. Por exemplo, a probabilidade de jogar um
dado de seis faces, numerado de 1 a 6, e obter um resultado menor que 7. Todos os resultados
possíveis estão contempladosno evento de interesse, desse modo, para esse experimento
aleatório, é certo que irá ocorrer o evento.
2º AXIOMA
A soma das probabilidades de cada elemento que compõe o espaço amostral é igual a 1.
Em outras definições, o espaço amostral contém todos os possíveis resultados de um
experimento aleatório, assim, é possível concluir que se trata de um evento certo. Dessa forma:
𝑃𝑃(𝛺𝛺) = 1
A partir desse axioma, é possível obter deduções bem interessantes para resolução de
questões de probabilidade. No exemplo do experimento de um lançamento de um dado de seis
faces, é possível chegar à seguinte conclusão:
𝑃𝑃(𝑋𝑋 = 1) + 𝑃𝑃(𝑋𝑋 = 2) + 𝑃𝑃(𝑋𝑋 = 3) + 𝑃𝑃(𝑋𝑋 = 4) + 𝑃𝑃(𝑋𝑋 = 5) + 𝑃𝑃(𝑋𝑋 = 6) = 1
Dessa forma, a soma da probabilidade de cada resultado possível será 100% das
possibilidades de um experimento aleatório. Nesse exemplo em questão, a soma da
probabilidade de obter cada uma das seis faces de um dado será 1.
3º AXIOMA
A probabilidade de ocorrência de um evento X somada com a probabilidade de não
ocorrência desse mesmo evento é igual a 1. Assim:
𝑃𝑃(𝑋𝑋 𝑟𝑟𝑜𝑜𝑟𝑟𝑟𝑟𝑟𝑟𝑑𝑑𝑟𝑟) + 𝑃𝑃(𝑋𝑋 𝑛𝑛ã𝑟𝑟 𝑟𝑟𝑜𝑜𝑟𝑟𝑟𝑟𝑟𝑟𝑑𝑑𝑟𝑟) = 1
A relação de probabilidade entre um evento “X ocorrer” e “X não ocorrer” é de
complementariedade. Dessa forma, são denominados de eventos complementares. Portanto,
um evento complementar são os resultados possíveis que faltam para completar 100% das
possibilidades e, assim, a soma do evento de interesse e o evento complementar é 1.
O complementar de um evento X pode ser representado por ~X, ¬X ou XC. Assim:
𝑃𝑃(𝑋𝑋) + 𝑃𝑃(𝑋𝑋𝐶𝐶) = 1
Exemplos de eventos complementares:
• P(ganhar o jogo) + P(não ganhar o jogo) = 1;
• P(réu inocente) + P(réu culpado) = 1;
• P(cara) + P(coroa) = 1;
• P(par no dado) + P(ímpar no dado) = 1;
• P(mínimo de 3 pessoas) + P(máximo de 2 pessoas) = 1;
• P(nascer pelo menos 1 menina) + P(nascer nenhuma menina) = 1.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
6
Este axioma será muitas vezes utilizado em questões de probabilidade. Por meio dela,
podemos calcular a probabilidade de um evento ocorrer a partir da probabilidade do seu evento
complementar.
Por exemplo, uma questão pede a probabilidade de ocorrer pelo menos uma cara no
lançamento de cinco moedas, isto é, P(pelo menos 1 cara). É mais fácil calcular a probabilidade
do evento complementar, ou seja, calcular P(nenhuma cara), pois, dessa forma, só haverá uma
situação favorável: (coroa, coroa, coroa). Calculada essa probabilidade, é só lançar o resultado
na relação existente entre eventos complementares para encontrar a probabilidade da
ocorrência do evento desejado na questão:
P(pelo menos 1 cara) = 1 – P(nenhuma cara)
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
1
SUMÁRIO
INTERAÇÕES ENTRE EVENTOS PROBABILÍSTICOS .............................................................................................. 2
INTRODUÇÃO ................................................................................................................................................. 2
INTERSEÇÃO ............................................................................................................................................... 2
UNIÃO ........................................................................................................................................................ 2
EVENTOS DEPENDENTES ............................................................................................................................... 3
EVENTOS INDEPENDENTES ............................................................................................................................ 5
EVENTOS MUTUAMENTE EXCLUSIVOS.......................................................................................................... 6
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
2
INTERAÇÕES ENTRE EVENTOS PROBABILÍSTICOS
INTRODUÇÃO
Após o estudo de todas as definições básicas sobre a teoria da probabilidade, é
interessante compreender que cada evento probabilístico pode interagir com outro evento. As
formas de interação podem ser bem elucidadas a partir da teoria dos conjuntos. Com isso, as
informações mais importantes, neste tópico, são como se obtém a probabilidade da interseção
e da união de dois eventos probabilísticos.
INTERSEÇÃO
A interseção de dois eventos probabilísticos consiste na probabilidade de ocorrência
conjunta, isto é, os resultados de cada evento devem ocorrer simultaneamente. Em questões de
probabilidade, é muito provável que a pergunta sobre a interseção dos eventos esteja conectada
de forma expressa pelo conectivo “E”. A probabilidade conjunta de um evento A e B ocorrerem
pode ser representada pela simbologia P(A e B) ou então P(A ∩ B). Entenda pela representação
em diagrama:
A e B são dois eventos probabilísticos quaisquer, que podem estar ou não associados a um
mesmo experimento aleatório. O diagrama de A representa todo o espaço em que A pode
ocorrer; o diagrama de B representa todo o espaço em que B pode ocorrer; a interseção de A e
B corresponde à região onde a possibilidade de ocorrência dos dois eventos se sobrepõe, ou
seja, onde podem ocorrer conjuntamente. Para obter o valor da interseção, deve ser utilizado o
princípio da multiplicação da probabilidade. Contudo, para multiplicar as probabilidades, é
necessário conhecer a forma de interação entre os dois eventos probabilísticos, isto é, se são
independentes, dependentes ou mutuamente exclusivos.
UNIÃO
Já a união de dois eventos consiste na probabilidade de ocorrência de qualquer uma das
possibilidades entre A e B, ou seja, inclui a ocorrência somente de A, a ocorrência somente de
B, ou, então, a ocorrência de A e B simultaneamente. Em questões de probabilidade, é muito
provável que a pergunta sobre a união dos eventos esteja expressa pelo conectivo “OU”. A
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
3
probabilidade do evento A ou B ocorrerem pode ser representada pela simbologia “P(A ou B)”
ou, então, “P(A ∪ B)”. Entenda pela representação em diagrama:
Na representação do diagrama, é possível compreender que a união de dois eventos
probabilísticos quaisquer corresponde à soma da ocorrência somente de A, ocorrência somente
de B e a ocorrência dos dois eventos simultaneamente. Desse modo, pode ser aplicada a mesma
dedução matemática para união de conjuntos:
𝑃(𝐴 𝑜𝑢 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 𝑒 𝐵)
Assim, se for somada a probabilidade total de A e B, é necessário subtrair uma vez a
interseção de A e B. Isso porque as probabilidades totais já incluem a interseção, assim, ela seria
incluída duas vezes. O cálculo da união depende da ocorrência simultânea dos dois eventos,
destarte, também varia conforme o tipo de interação entre os eventos probabilísticos.
Dessa forma, agora serão discutidas as formas de interação dos eventos probabilísticos e
como serão efetuados os cálculos de interseção e união conforme cada tipo de interação. Os
eventos podem ser completamente independentes um do outro; podem apresentar uma relação
de dependência; ou então, podem ser mutuamente exclusivos.
EVENTOS DEPENDENTES
Um evento A possui uma relação de dependência com B quando a ocorrência ou não de
um deles afeta a probabilidade de ocorrência do outro. Assim, os valores de probabilidade do
evento A são modificados caso o evento B tenha ocorrido e vice-versa. Nessa situação, é
necessário compreender quais as alterações na probabilidade do evento que ocorre após ao
outro evento que era dependente.
EXEMPLO:
Em uma caixa com 12 bolas, sendo 4 brancas, 2 vermelhas e 6 pretas, qual é
a probabilidade de sortear uma bola preta e uma bola branca, em seguida, sem
reposição das bolas sorteadas?A probabilidade de sortear, primeiramente, uma bola preta é:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
4
𝑷 (𝟏ª 𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂) =
𝟔 𝒃𝒐𝒍𝒂𝒔 𝒑𝒓𝒆𝒕𝒂𝒔
𝟏𝟐 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍
=
𝟔
𝟏𝟐
A probabilidade de sortear uma bola branca, após já ter sorteado uma preta, sem
reposição, é:
𝑷 (𝟐ª 𝑩𝒐𝒍𝒂 𝑩𝒓𝒂𝒏𝒄𝒂) =
𝟒 𝒃𝒐𝒍𝒂𝒔 𝒃𝒓𝒂𝒏𝒄𝒂𝒔
𝟏𝟏 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍
=
𝟒
𝟏𝟏
Veja que o espaço amostral no sorteio da segunda bola foi alterado devido ao sorteio da
primeira bola. Em vez de ter 12 bolas, no segundo sorteio já havia 11 bolas. Assim, esses eventos
probabilísticos possuem uma relação de dependência de tal modo que a ocorrência de um
evento interfere na probabilidade do segundo evento que venha a ocorrer.
Por fim, a probabilidade de sortear uma bola preta e uma branca, em seguida, é:
𝑃(1ª 𝐵𝑜𝑙𝑎 𝑃𝑟𝑒𝑡𝑎 𝑒 2ª 𝐵𝑟𝑎𝑛𝑐𝑎) =
6
12
𝑥
4
11
=
24
132
Nesse exemplo, foi questionado sobre a ocorrência dos dois eventos probabilísticos
conjuntamente, isto é, a interseção. Dessa forma, a interseção para eventos que possuem
relação de dependência pode ser expressa da seguinte forma:
𝑃(𝐴 𝑒 𝐵) = 𝑃(𝐴)𝑥𝑃(𝐵|𝐴)
A notação “P(B|A)” representa a probabilidade do evento B dado que o evento A já tenha
ocorrido (note que B|A não é uma fração). Também é denominada como probabilidade
condicional. Dessa forma, é sempre interessante observar que o segundo evento a ocorrer deve
ser analisado com mais cautela para compreender como a probabilidade irá ser obtida, após a
ocorrência do primeiro evento.
Com isso, é importante entender que a ordem da ocorrência dos eventos interfere no
cálculo, pois a probabilidade de ocorrer o evento B é diferente da probabilidade de o evento B
ocorrer depois que o evento A ocorreu, assim como o contrário, deste modo:
𝑃(𝐴) ≠ 𝑃(𝐴|𝐵) 𝑃(𝐵) ≠ 𝑃(𝐵|𝐴)
Portanto, a probabilidade de A e B ocorrerem P(A e B) pode ser diferente da probabilidade
B e A ocorrem P(B e A), não necessariamente serão diferentes, mas levar a ordem em
consideração nos cálculos é relevante. Ao compreender como se calcula a ocorrência
simultânea de dois eventos probabilísticos dependentes, é possível concluir:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
5
EVENTOS INDEPENDENTES
Dois eventos quaisquer A e B são independentes quando a ocorrência, ou não, de um deles
não afeta a probabilidade de ocorrência do outro. Assim, os valores de probabilidade do evento
A permanecem os mesmos após a ocorrência do evento B e vice-versa.
EXEMPLO:
Em uma caixa com 12 bolas, sendo 4 brancas, 2 vermelhas e 6 pretas, qual é
a probabilidade de sortear uma bola preta e uma bola branca, em seguida, com
reposição das bolas sorteadas?
A probabilidade de sortear, primeiramente, uma bola preta é:
𝑷 (𝟏ª 𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂) =
𝟔 𝒃𝒐𝒍𝒂𝒔 𝒑𝒓𝒆𝒕𝒂𝒔
𝟏𝟐 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍
=
𝟔
𝟏𝟐
A probabilidade de sortear uma bola branca, após já ter sorteado uma preta com
reposição, é:
𝑷 (𝟐ª 𝑩𝒐𝒍𝒂 𝑩𝒓𝒂𝒏𝒄𝒂) =
𝟒 𝒃𝒐𝒍𝒂𝒔 𝒃𝒓𝒂𝒏𝒄𝒂𝒔
𝟏𝟐 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍
=
𝟒
𝟏𝟐
O espaço amostral no sorteio da segunda bola não foi alterado devido ao sorteio da
primeira bola, pois houve a reposição da bola na caixa. Desse modo, havia doze bolas tanto no
primeiro como no segundo sorteio. Assim, esses eventos probabilísticos possuem uma relação
de independência.
Por fim, a probabilidade de sortear uma bola preta e uma branca, em seguida, é:
𝑷(𝟏ª 𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂 𝒆 𝟐ª 𝑩𝒓𝒂𝒏𝒄𝒂) =
𝟔
𝟏𝟐
𝒙
𝟒
𝟏𝟐
=
𝟐𝟒
𝟏𝟒𝟒
Com isso, a ordem em que os eventos ocorrem não interfere no cálculo da probabilidade,
pois a probabilidade de ocorrer o evento B é igual à probabilidade de o evento B ocorrer depois
que o evento A ocorreu, assim como o contrário, deste modo:
𝑷(𝑨) = 𝑷(𝑨|𝑩) 𝑷(𝑩) = 𝑷(𝑩|𝑨)
Nesse tipo de interação probabilística, o cálculo da ocorrência conjunta de dois eventos (a
interseção) é expresso por:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
6
𝑷(𝑨 𝒆 𝑩) = 𝑷(𝑨)𝒙𝑷(𝑩)
Sempre que eventos ocorrerem de forma independente um do outro, a probabilidade da
ocorrência simultânea é o produto das probabilidades de cada evento separadamente. Essa
propriedade de eventos independentes é muito importante no estudo simultâneo de duas
variáveis (dentro do tópico variáveis aleatórias bidimensionais).
Portanto, para eventos independentes, é possível concluir que:
EVENTOS MUTUAMENTE EXCLUSIVOS
Dois eventos quaisquer A e B, são mutuamente exclusivos quando não podem ocorrer
simultaneamente. Desse modo, a ocorrência de um deles certamente exclui a ocorrência do
outro evento. Portanto, não existe interseção entre esses dois eventos (A ∩ B = ∅), podendo ser
representado por diagramas da seguinte maneira:
São eventos disjuntos, que não se interseccionam em nenhum momento. Desse modo, a
interseção pode ser expressa por:
𝑃(𝐴 𝑒 𝐵) = 0
O valor da probabilidade de A e B ocorreram conjuntamente é zero, pois não há interseção.
Ao mesmo tempo, é possível concluir que, se ocorrer A, o evento B certamente não ocorrerá e
vice-versa, portanto:
𝑷(𝑨|𝑩) = 𝟎 (𝑺𝒆 𝑩 𝒐𝒄𝒐𝒓𝒓𝒆𝒖, 𝑨 𝒄𝒆𝒓𝒕𝒂𝒎𝒆𝒏𝒕𝒆 𝒏Ã𝒐 𝒐𝒄𝒐𝒓𝒓𝒆𝒓Á);
𝑷(𝑩|𝑨) = 𝟎 (𝑺𝒆 𝑨 𝒐𝒄𝒐𝒓𝒓𝒆𝒖, 𝑩 𝒄𝒆𝒓𝒕𝒂𝒎𝒆𝒏𝒕𝒆 𝒏Ã𝒐 𝒐𝒄𝒐𝒓𝒓𝒆𝒓Á);
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
7
EXEMPLO:
Em uma caixa com 12 bolas, sendo 4 brancas, 2 vermelhas e 6 pretas, qual é
a probabilidade, em um sorteio, de obter uma bola preta ou uma bola branca?
Veja que, em situações de eventos mutuamente exclusivos, as perguntas mais coerentes
são sobre a união de eventos. Isso porque, se fosse perguntado sobre a interseção, ficaria óbvio
que, em um sorteio de uma bola, ou se retira uma bola branca ou uma preta. Não há como
ocorrerem os dois eventos ao mesmo tempo nesse experimento aleatório (interseção seria
igual a zero). Assim, a resolução para questão é:
A probabilidade de sortear uma bola preta é:
𝑷 (𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂) =
𝟔 𝒃𝒐𝒍𝒂𝒔 𝒑𝒓𝒆𝒕𝒂𝒔
𝟏𝟎 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍
=
𝟔
𝟏𝟐
A probabilidade de sortear uma bola branca é:
𝑷 (𝑩𝒐𝒍𝒂 𝑩𝒓𝒂𝒏𝒄𝒂) =
𝟒 𝒃𝒐𝒍𝒂𝒔 𝒃𝒓𝒂𝒏𝒄𝒂𝒔
𝟏𝟎 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍
=
𝟒
𝟏𝟐
Por fim, a probabilidade de sortear uma bola preta ou uma branca, em um sorteio apenas,
é:
𝑷(𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂 𝒐𝒖 𝑩𝒓𝒂𝒏𝒄𝒂) =
𝟔
𝟏𝟐
+
𝟒
𝟏𝟐
=
𝟏𝟎
𝟏𝟐
Portanto, para eventos mutuamente exclusivos, é possível concluir que:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
8
De modo geral, os cálculos de probabilidade para interseção e união de eventos, conforme
cada tipo de interação, podem ser esquematizados da seguinte forma:
Interação P(A e B) – Interseção P(A ou B) – União
Eventos
Dependentes
P(A e B) = P(A)×P(B|A) P(A ou B) = P(A) + P(B) – P(A)×P(B|A)
Eventos
Independentes
P(A e B) = P(A)×P(B) P(A ou B) = P(A) + P(B) – P(A)×P(B)
Eventos
Mutuamente
Exclusivos
0 P(A ou B) = P(A) + P(B)
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
1
SUMÁRIO
PROBABILIDADE CONDICIONAL ......................................................................................................................... 2
CONCEITO ...................................................................................................................................................... 2
CÁLCULO DA PROBABILIDADE CONDICIONAL ............................................................................................... 2
CÁLCULO PELA FÓRMULA .......................................................................................................................... 3
CÁLCULO PELA INTERPRETAÇÃO ...............................................................................................................3
PROBABILDIADE COMPLEMENTAR .................................................................................................................... 4
CONCEITO ...................................................................................................................................................... 4
DEDUÇÕES PELA PROBABILIDADE COMPLEMENTAR .................................................................................... 5
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
2
PROBABILIDADE CONDICIONAL
CONCEITO
A probabilidade condicional é a probabilidade de ocorrência de um evento dado que outro
evento, que pode interferi-lo, ocorreu anteriormente. Em outras definições, trata-se da
probabilidade já abordada no tópico anterior, a ocorrência do evento A dado que B ocorreu –
“P(A|B)”. Quando as questões de Estatística perguntarem sobre probabilidade condicional, o
aluno deve entender que se baseia em uma probabilidade em que suas circunstâncias foram
alteradas devido a outro evento que aconteceu a priori e influenciou o evento presente.
A questão é considerada de Probabilidade Condicional quando seu enunciado fornecer
alguma informação sobre o resultado de experimento aleatório que ocorre anteriormente. Para
compreender essa ideia, será abordado um exemplo de questão para trabalhar a interpretação:
Exemplo: (ESAF) Carlos sabe que Ana e Beatriz estão viajando pela Europa. Com as
informações de que dispõe, ele estima corretamente que a probabilidade de Ana estar hoje em
Paris é 3/7, que a probabilidade de Beatriz estar hoje em Paris é 2/7, e que a probabilidade de
ambas, Ana e Beatriz, estarem hoje em Paris é 1/7. Carlos, então, recebe um telefonema de Ana,
informando que ela está hoje em Paris. Com a informação recebida pelo telefonema de Ana,
Carlos, agora, estima corretamente que a probabilidade de Beatriz também estar hoje em Paris
é igual a 1/3.
A primeira parte (em vermelho) informa toda a problemática da questão e fornece
algumas probabilidades; a segunda parte (em azul) é uma informação adicional que nos revela
um fato. Algo que passa a ser do nosso conhecimento. Não é uma probabilidade e, sim, um fato
dado. Uma informação a priori que altera as probabilidades já conhecidas; a terceira parte (em
verde) é a pergunta da questão.
Ao juntar essa pergunta ao fato dado, teremos a seguinte pergunta completa que deve ser
interpretada pelo aluno:
“Qual a probabilidade de Beatriz estar hoje em Paris, dado que Ana está hoje em Paris?”
Estamos diante de uma probabilidade condicional!
Ao identificar uma questão de probabilidade condicional, o aluno deve saber que há duas
alternativas promissoras para solucionar uma questão de probabilidade condicional, são elas:
CÁLCULO DA PROBABILIDADE CONDICIONAL
A forma de resolução dependerá das informações fornecidas pela questão, assim sendo,
uma alternativa pode ser muito mais vantajosa e eficiente do que a outra. Basicamente, se a
questão fornecer os valores de probabilidade da interseção e do evento que interferiu a
ocorrência do outro, utilizar a fórmula da probabilidade condicional já é o suficiente. Contudo,
se foram fornecidas todas as observações organizadas de cada possível evento, o método da
interpretação pode ser muito mais fácil. Vamos abordar essas formas de soluções a partir de
questões.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
3
CÁLCULO PELA FÓRMULA
EXEMPLO ANTERIOR:
Carlos sabe que Ana e Beatriz estão viajando pela Europa. Com as informações
de que dispõe, ele estima corretamente que a probabilidade de Ana estar hoje em
Paris é 3/7, que a probabilidade de Beatriz estar hoje em Paris é 2/7 e que a
probabilidade de ambas, Ana e Beatriz, estarem hoje em Paris é 1/7. Carlos, então,
recebe um telefonema de Ana, informando que ela está hoje em Paris. Com a
informação recebida pelo telefonema de Ana, Carlos agora estima corretamente que
a probabilidade de Beatriz também estar hoje em Paris é igual a 1/3.
Essa questão pode ser facilmente resolvida pela fórmula, uma vez que foram fornecidos
os valores das probabilidades da interseção e do evento que interferiu no outro:
𝑃𝑃(𝐴𝐴𝐴𝐴𝐴𝐴 𝑒𝑒 𝐵𝐵𝑒𝑒𝐴𝐴𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵) = 1/7
𝑃𝑃(𝐴𝐴𝐴𝐴𝐴𝐴 ) = 3/7
O fato de Ana estar em Paris foi o evento que afetou a probabilidade de Beatriz estar em
Paris, assim, é o evento que causou a probabilidade condicional. Desse modo a resolução da
questão é:
𝑃𝑃(𝐵𝐵𝑒𝑒𝐴𝐴𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵|𝐴𝐴𝐴𝐴𝐴𝐴) =
𝑃𝑃(𝐴𝐴𝐴𝐴𝐴𝐴 𝑒𝑒 𝐵𝐵𝑒𝑒𝐴𝐴𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵)
𝑃𝑃(𝐴𝐴𝐴𝐴𝐴𝐴)
𝑃𝑃(𝐵𝐵𝑒𝑒𝐴𝐴𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵|𝐴𝐴𝐴𝐴𝐴𝐴) =
1
7
3
7
=
1
3
Portanto, questão correta!
CÁLCULO PELA INTERPRETAÇÃO
EXEMPLO:
(CESPE) Como forma de melhorar a convivência, as famílias Turing, Russell e
Gödel disputaram, no parque da cidade, em um domingo à tarde, partidas de futebol
e de vôlei. O quadro a seguir mostra os quantitativos de membros de cada família
presentes no parque, distribuídos por gênero.
Considere que, em eventual sorteio de brindes, um nome tenha sido retirado,
ao acaso, do interior de uma urna que continha os nomes de todos os familiares
presentes no evento. Nessa situação, sabendo-se que o sorteado não é uma mulher
da família Gödel, a probabilidade de ser uma mulher da família Russel será superior
a 20%.
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
4
A questão fornece o número de elementos para cada possível evento (a família e o gênero).
Com isso, interpretando a questão, é possível compreender que foi fornecida uma informação
a prior que alterou o espaço amostral desse experimento aleatório. Ao citar “sabendo-se que o
sorteado não é uma mulher da família Gödel”, pode ser retirado do espaço amostral as 9
mulheres da família Gödel.
Inicialmente, o espaço amostral, isto é, todas as pessoas que poderiam ser sorteadas:
𝐴𝐴(𝛺𝛺) = 5 + 6 + 5 + 7 + 5 + 9 = 37 𝑝𝑝𝑒𝑒𝑝𝑝𝑝𝑝𝑝𝑝𝐴𝐴𝑝𝑝
Ao reduzir o espaço amostral pela condição fornecida, tem-se:
𝐴𝐴(𝛺𝛺) = 37 − 9 = 28 𝑝𝑝𝑒𝑒𝑝𝑝𝑝𝑝𝑝𝑝𝐴𝐴𝑝𝑝
Com isso, basta aplicar a fórmula básica da probabilidade e obter a probabilidade
condicional:
Portanto, item errado, pois é inferior a 20%.
PROBABILIDADE COMPLEMENTAR
CONCEITO
A probabilidade complementar consiste na ocorrência de qualquer outro evento que não
seja o de interesse e complementa o que falta para alcançar 100%. Em outras palavras, é a
probabilidade que complementa os eventos que pertencem ao espaço amostral, mas não
contemplados pelo resultado de interesse. A probabilidade complementar de um evento A pode
ser representada por:
𝑃𝑃(𝐴𝐴 𝐴𝐴Ã𝑝𝑝 𝑝𝑝𝑜𝑜𝑝𝑝𝐵𝐵𝐵𝐵𝑒𝑒𝐵𝐵) = 𝑃𝑃(𝐴𝐴𝐶𝐶) = 𝑃𝑃(~𝐴𝐴) = 𝑃𝑃(¬𝐴𝐴) = 𝑃𝑃(�̅�𝐴)
Essa definição está associada ao conceito abordado no 3º axioma da probabilidade:
𝑃𝑃(𝐴𝐴 𝑝𝑝𝑜𝑜𝑝𝑝𝐵𝐵𝐵𝐵𝑒𝑒𝐵𝐵) + 𝑃𝑃(𝐴𝐴 𝐴𝐴Ã𝑝𝑝 𝑝𝑝𝑜𝑜𝑝𝑝𝐵𝐵𝐵𝐵𝑒𝑒𝐵𝐵) = 1
𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐴𝐴𝐶𝐶) = 1
Podemos representar a probabilidade complementar a partir de diagramas da seguinte
forma:
https://www.alfaconcursos.com.br/
alfaconcursos.com.br
MUDE SUA VIDA!
5
Portanto, tudo aquilo que não está contemplado dentro do círculo que representa a
ocorrência do evento A, pertence à ocorrência da complementar de A.
DEDUÇÕES PELA PROBABILIDADE COMPLEMENTAR
Ao entender que a probabilidade complementar pertence a todo espaço que não está
dentro do diagrama do evento de interesse, podemos obter a probabilidade desconhecida de
um evento a partir das probabilidades condicionais e complementares. Suponha que não se
conheça a probabilidade de um evento B, mas se conhece a probabilidade do evento A, bem
como a probabilidade condicional de B dado que A ocorreu e de B dado que AC ocorreu. Com
isso, podemos calcular a probabilidade de B ocorrer, sem o evento condicional, por meio da
seguinte relação:
Basicamente, foram somados os doiscomponentes que formam todo o evento B. A área
que consiste na interseção entre A e B pode ser calculada pela expressão 𝑃𝑃(𝐴𝐴) × 𝑃𝑃(𝐵𝐵|𝐴𝐴),
enquanto a área que não faz interseção com B, é o mesmo que dizer que faz interseção entre
não A e B, isto é, AC e B, e pode ser calculada pela expressão 𝑃𝑃(𝐴𝐴𝐶𝐶) × 𝑃𝑃(𝐵𝐵|𝐴𝐴𝐶𝐶). Assim, somando
esses dois componentes, temos a probabilidade de ocorrência de B sem eventos condicionais,
isto é, P(B).
https://www.alfaconcursos.com.br/
1.1 - Introdução à Estatística:
1.2 - Estatística Descritiva:
1.3 - Estatística Descritiva:
1.4 - Estatística Descritiva:
1.5 - Estatística Descritiva:
2.1 - Estatística Descritiva:
2.2 - Estatística Descritiva:
2.3 - Estatística Descritiva
2.4 - Estatística Descritiva
2.5 - Estatística Descritiva
3.1 - Teoria da Probabilidade
3.2 - Teoria da Probabilidade
3.3 - Teoria da Probabilidade