Prévia do material em texto
ESTATÍSTICA
Ana Laura Bertelli Grams
O que é estatística
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Reconhecer os conceitos básicos relacionados à estatística.
� Identificar as aplicações da estatística em situações cotidianas e no
seu trabalho profissional.
� Explicar os passos e os resultados.
Introdução
O uso da estatística está relacionado com a necessidade de organização
dos seres humanos, seja no estudo das populações (demografia), nas
tomadas de decisões nos setores econômicos (economia), no controle
de qualidade e monitoramento de resultados em um processo produtivo
(engenharia), na previsão de fenômenos futuros evidenciados em situa-
ções anteriores (administração), além de diversas outras áreas. Podemos
dizer que o objetivo do estudo da estatística é descobrir como obter
dados úteis para análise e o que fazer com eles.
Neste capítulo, você reconhecerá elementos básicos da estatística,
explorará exemplos que ilustram aplicações da estatística em variadas
áreas do conhecimento e, ainda, distinguirá as fases do método estatístico.
Conceitos básicos da estatística
Toda evolução humana dá-se em virtude de descobertas e invenções, que
podem ser criadas ou adaptadas para contribuir e descomplicar a vida do
homem, seja na área da saúde, engenharia, economia, comunicação, entre
outras. Essa evolução se deve em grande parte à análise de dados coletados
nas mais diversas áreas. E, coletar e analisar tais dados são funções da esta-
tística, embasando decisões, planejamentos, sabendo como obter dados úteis
e, principalmente, o que fazer com eles.
A coleta, organização, interpretação e análise dos dados de nada adiantam se não
afetarem uma tomada de decisão.
� O controle de qualidade de uma indústria de airbags necessita deter-
minar a eficácia dos sistemas produzidos. Se a indústria testar todos os
airbags, sua produção nunca chegaria ao mercado e seria uma indústria
de testes, não de produtos. Sendo assim, o controle é realizado em parte
do estoque produzido.
� Baseado em suas vendas anteriores, um empresário precisa decidir a
quantidade de produto que deve estocar para o mês seguinte.
� A estimativa do valor do dólar no mercado é feita a partir de análi-
ses preliminares de fatos recorrentes da economia e consequências
subsequentes.
� O resultado de uma eleição é pressuposto minutos após encerrar o
período de votação, e essa é uma conjectura fundamentada em apenas
3 ou 4% dos eleitores entrevistados no dia da eleição, depois de votarem
— esse fato é popularmente chamado de pesquisa de “boca de urna”.
� Uma empresa faz uso de informações sobre seus clientes para gerenciar
seu negócio. Ela conhece seu cliente por meio de pesquisas anuais
relativas a hábitos, estilos de vida, gostos particulares, entre outros,
permitindo, assim, tomar decisões sobre campanhas de marketing,
maneiras de abordagem, tipos de produtos a manter em estoque, e
assim por diante.
Em cada um dos casos anteriores, podemos perceber a importância de
estimar, observar fenômenos e gerar dados. Todas essas informações, obtidas
por meio de métodos estatísticos, proporcionam uma tomada científica de
decisões, fundamentadas e que melhor garantem os resultados esperados.
O que é estatística2
A estatística pode ser definida como um ramo da matemática aplicada que estuda
maneiras de coletar, organizar, analisar, interpretar e chegar a conclusões ou anteci-
pações sobre eventos ou populações, a partir da investigação e de considerações de
uma parte do todo.
A estatística se divide em três grandes áreas (MILONE, 2006):
� estatística descritiva;
� inferência estatística;
� estatística probabilística.
A estatística descritiva se responsabiliza pela descrição dos dados, ou
seja, a coleta, a apresentação (seja ela por meio de gráficos, tabelas ou números)
e a organização dos dados de modo que sejam fáceis de serem interpretados.
Um exemplo de apresentação numérica da estatística descritiva é a MÉDIA, a qual é
tomada a partir de um conjunto de dados e calculada com a finalidade de facilitar a
interpretação do tomador de decisões. A média é uma medida de tendência central,
considerada como um ponto de equilíbrio do conjunto. Por isso, seu uso é tão habitual
na interpretação e compreensão dos fenômenos estudados.
Os gráficos (Figura 1) e quadros (Quadro 1) também são bons exemplos
da estatística descritiva, que buscam sintetizar e apresentar dados de maneira
compreensível.
3O que é estatística
Figura 1. Gráfico em linha — vendas de uma loja de calçados durante o ano de 2017.
Fábrica de calçados Maria Valentina
R$14.000,00
R$12.000,00
R$10.000,00
R$8.000,00
R$6.000,00
R$4.000,00
R$2.000,00
R$–
jan fev mar abr mai jun jul ago set out nov dez
Notas Frequência Frequência relativa
5 6 30,0%
6 4 20,0%
7 4 20,0%
8 3 15,0%
9 2 10,0%
10 1 5,0%
Total 20 100,0%
Quadro 1. Distribuição de frequência das notas de Estatística de 20 estudantes
A estatística inferencial, ou inferência estatística, é a utilização dos
dados obtidos por meio da estatística descritiva, isto é, a interpretação, seja
ela uma estimativa ou uma hipótese sobre eventos prováveis, fundamentada
em características dos dados.
A análise da possibilidade de um evento ocorrer e o seu grau de incerteza
são a finalidade da estatística probabilística. Consequentemente, a inferência
estatística utiliza-se da teoria da probabilidade para interpretar e concluir a
possibilidade da ocorrência de um fenômeno.
O que é estatística4
Na estatística descritiva, alguns termos, como dado, conjunto de dados,
variáveis, dados quantitativos e qualitativos, são bastante comuns. Veja, a
seguir, o que eles significam.
� Dado: são informações (fatos ou números) obtidas a partir da coleta,
geralmente sintetizados por meio de gráficos, tabelas, medidas centrais,
etc., a fim de serem interpretados. Sem os dados não há análise ou
interpretação de fenômenos, assim, eles podem ser qualificados como
a matéria-prima para o processo de todos os métodos estatísticos.
� Conjunto de dados: são todos os dados coletados, ou seja, o conjunto
de informações obtidas de elementos. Essas informações caracterizam
ou descrevem todos os elementos qualitativa ou quantitativamente de
um grupo.
� Dados quantitativos: informações numéricas que quantificam algo.
Sendo assim, seus valores são sempre expressos por números. Os da-
dos quantitativos podem ser discretos (provenientes de contagem, ou
seja, apenas números inteiros) ou contínuos (provenientes de medida,
expressos por um número real, inteiro ou não).
� Dados qualitativos: informações não numéricas que identificam uma
característica dos elementos investigados. Os dados qualitativos podem
ser as respostas de nomes, locais, incidência ou não de uma doença (em
geral, respostas como sim ou não), cor de pele, entre outras.
� Variáveis: são os atributos que originam os dados. São chamados assim
(variáveis) porque exprimem um grau de variabilidade. Por exemplo, a
cor da pele é a variável, alternando entre branca, negra, amarela, etc.
Outros exemplos de variáveis são a quantidade de filhos, a altura, o peso,
a idade. Assim como os dados, as variáveis também são classificadas
em quantitativas e qualitativas.
Na estatística inferencial e probabilística, surgem, também, outros termos
comuns, como os seguintes.
� População: é o conjunto de todos os elementos, apresentando pelo
menos uma característica em comum, que representam o universo que
será observado no estudo em questão.
� Amostra: é uma fração da população, a qual será representada. A amostra
é sempre um subconjunto finito de elementos selecionados do conjunto
maior: a população. Na estatística, existem técnicas de amostragem, ou seja,
maneiras para eleger os elementos a serem estudados e compor a amostra.
5O que é estatística
Aplicações da estatística
Os conhecimentos básicos da estatística são úteis não apenas para cientistaspesquisadores, mas muito válidos para as pessoas em geral manterem-se
bem-informadas e não serem enganadas ou iludidas por números, gráficos e
tabelas capazes de persuadir seus leitores.
Todos os dias, os jornais impressos, televisivos ou periódicos científicos
apresentam fatos e resumos estatísticos para auxiliar na interpretação de
tendências sociais ou econômicas, por exemplo, baseadas na geração de dados
coletados sobre a atualidade. Frequentemente nos deparamos com pesquisa-
dores coletando dados sobre nossas opiniões e estilos de vida das pessoas, a
fim de inferir sobre a população em questão. Com os dados, é possível criar
campanhas de marketing direcionadas para os consumidores de determinado
produto ou, mesmo, elaborar políticas públicas que melhoram a qualidade de
vida das pessoas.
Huff (2016, p. 7) destaca, em seu livro intitulado Como mentir com a Estatística, que:
[...] a Estatística possui uma linguagem secreta que geralmente sensa-
cionaliza e confunde as pessoas afirmando supersimplificar e apelando
para uma cultura “baseada em fatos”. É fato que os métodos estatístico
relatam os dados das tendências sociais e econômicas, da “opinião”,
das condições de mercado e dos negócios e também dos censos. Mas
sem narradores honestos com as palavras ou sem compreensão, e sem
leitores que saibam o que significam, o resultado só poderá ser o ab-
surdo semântico.
As aplicações da estatística são inúmeras, desde os conceitos mais bási-
cos de interpretação de notícias de jornais para um leigo leitor até testes de
hipóteses, regressões e controles estatísticos de qualidade. Buscamos alguns
exemplos para elucidar o quanto a estatística está presente nas mais diversas
áreas do conhecimento.
O que é estatística6
O estatístico da Universidade Federal de Santa Catarina, Marcelo Menezes Reis, busca
emergir o senso crítico das pessoas em relação à estatística. Veja no link a seguir.
https://goo.gl/PiZsJJ
Estatística na engenharia
As engenharias civil, mecânica, de produção, entre outras, utilizam-se da
estatística para melhorar processos e tirar conclusões na presença de variabi-
lidade. Quando se realiza medições (coleta de dados) repetidamente, pode-se
perceber uma variação a cada ocorrência e, no caso de uma produção em
série, por exemplo, isso pode representar um problema. É necessário analisar o
percentual de falhas e verificar ele é significativo para uma tomada de decisões.
Além disso, saber o que concluir de uma amostra de dados que é altamente
exposta a variações a cada medição, se é possível confiar nestes dados — a
projeção de resultados e conclusões seguros são feitas por meio da estatística.
Outro caso do uso da estatística que pode ser comum na engenharia é o
estudo da capacidade de rodovias em determinada região, influenciando dire-
tamente na abrangência da obra civil a ser realizada. Esse estudo é submetido
a um modelo de deslocamento que planeja o sistema de transporte, baseado
no número de moradores daquela região, na quantidade de veículos de cada
moradia e na quantidade de itinerários disponíveis.
Estatística na economia
O futuro da economia seguidamente é previsto por estudiosos, sendo esta
previsão seguida devotadamente por empreendedores e investidores que
desejam alavancar seus negócios. Por exemplo, como é possível prever a
situação econômica de um país ou o comportamento das taxas de juros após
decisões importantes, como as eleições presidenciais? Estatísticos e econo-
mistas utilizam-se de informações e indicadores, como valores de produção,
que permitem a criação de modelos para taxas de inflação e desemprego ou
inclinação da manufatura.
7O que é estatística
Estatística na saúde
A tomada de decisões por políticas públicas de controle de doenças, de cam-
panhas de vacinação e a incidência de epidemias são alguns exemplos da
aplicação da estatística na área da saúde. Especialmente processos de serviços
hospitalares podem ser resolvidos por meio da aplicação de modelos estatísticos
e probabilidade, contribuindo para a melhoria no atendimento dos pacientes.
A variação de atendimentos em uma unidade de emergência influencia dire-
tamente na capacidade de leitos e organização do número de funcionários.
E, ainda, dados dos pacientes internados analisados diariamente auxiliam na
evolução de uma doença ou na cura dela, e, quando comparados e relacionados
com uma amostra maior de pacientes, podem originar estudos de prevenção.
Estatística no marketing
A análise de dados do seu perfil a partir de uma rede social ou de pesquisas
de opinião é muito utilizada para encontrar padrões de comportamento e
influenciar o consumidor em decisões de compras ou de uso de serviços. As
análises dos padrões de comportamento podem ser vendidas para indústrias a
fim de basearem a quantidade da sua produção nas intenções de consumo de
uma determinada população. As estratégias de marketing de qualquer empresa
podem ser baseadas em resultados estatísticos das promoções realizadas e,
até mesmo, no público-alvo de cada negócio.
Estatística na informática
Exemplo da aplicação da estatística na informática são a análise de desempenho
dos sistemas computacionais e o uso de banco de dados para desenvolvimento
de softwares e aplicativos das mais diversas áreas. Ao programar, simulam-se
situações reais, as quais costumam dispor de variabilidade, ou seja, não são
previsíveis. É nesses casos que observamos a presença da estatística, ao inserir
a aleatoriedade nos sistemas de simulações reais.
Estatística na administração e nas finanças
Tomar decisões no ramo das finanças e da administração é determinante para
a maioria das tarefas exigidas. Sabendo que a estatística é a área que fornece
mecanismos de coleta, análise e interpretação de dados para embasar um feito,
fica evidente sua utilidade para facilitar as ações nessas áreas.
O que é estatística8
Um exemplo são as recomendações de investimentos financeiros feitas por
analistas, os quais avaliam uma situação passada, ou a variabilidade de preços,
perdas e ganhos, e comparam todos os dados com fatos que influenciam essas
variáveis. Essa busca de dados, a análise e as comparações das informações
são objetivos da estatística.
Ainda nessas áreas, uma empresa que adota metas precisa estabelecê-las de
acordo com padrões do próprio empreendimento, de vendas, compras, lucros,
entre outros. A partir da análise dessas informações é que se determina quais
das metas serão de curto, médio ou longo prazo, a fim de que sejam atingíveis
ou, mesmo, possibilitem a superação (ANDERSON, 2008).
Passos e resultados
Todo estudo estatístico depende de um planejamento detalhado, e cada etapa
se submete à determinação da etapa anterior. Resumidamente, as etapas deste
estudo são demonstradas na Figura 2.
Figura 2. Ciclo das etapas de um estudo estatístico.
Problema
Variável
Tomada de
decisão
relacionada ao
problema
Interpretação Coleta dedados
Organização
dos dados
9O que é estatística
O esquema está apresentado como um ciclo, pois percebemos que, ao gerar
um conhecimento referente ao problema inicial, é possível que se originem
novos problemas, motivados por fatos novos que, antes da coleta de informa-
ções, eram desconhecidos.
Cada etapa do esquema anterior apresenta fases importantes que precisam
ser definidas e dependem da origem do problema.
1. Definir o problema: a definição do problema deve ser o primeiro passo
para qualquer pesquisa. Na prática, definir o problema é transformar o tema
da pesquisa em uma pergunta que deverá ser respondida ao final de todo o
processo que segue.
2. Planejar a coleta de dados: a coleta de dados será determinada pelo tipo
de pesquisa — em função do problema de pesquisa, devemos planejar se
esta será de caráter experimental ou de levantamento (BARBETTA; REIS;
BORNIA, 2008).
A pesquisa experimental tem a característica de manipular os elementos
para avaliar os efeitos. Por exemplo, qual a reação de um medicamento em
um grupo de animais,ou quais os efeitos em um traço de concreto quando
utilizados aditivos especiais, ou qual a resistência de uma peça de automóvel
quando exposta a altas temperaturas, etc. Neste tipo de pesquisa, a coleta de
dados é feita exclusivamente após a realização dos experimentos.
A pesquisa de levantamento é aquela que gera dados a partir da obser-
vação (ou da medida) das características dos elementos em questão — por
exemplo, a contagem nos censos demográficos, as pesquisas de intenções de
votos, uma anamnese a fim de prescrever diagnóstico de um paciente, etc. Nas
pesquisas de levantamento, os dados são coletados por meio de instrumentos
que os mensuram.
Quando as variáveis analisadas são quantitativas, os instrumentos são
geralmente definidos pela norma de unidades padrão, como termômetros para
medir temperaturas, réguas e trenas que medem altura ou comprimentos e a
própria contagem numérica (conjunto dos números naturais) para determinar
quantidades.
Já quando as variáveis são qualitativas, é necessária a elaboração de um
questionário como instrumento de pesquisa. Nele, devem conter as questões
que avaliam cada variável, como estado civil, intenção de voto a partir das
seguintes opções, escolaridade, etc.
O que é estatística10
Ainda no planejamento de coleta de dados, é necessário delinear como
os elementos pesquisados serão selecionados de modo que a amostra seja
imparcial e que represente fielmente a população. Ou seja, é preciso definir
as técnicas de amostragem quando a pesquisa não é realizada com todos os
elementos da população, mas, sim, com uma amostra.
Dois fatores tornam a aleatorização imparcial. Primeiro, ninguém consegue prever o
resultado da seleção da amostra antes que ele de fato ocorra. Segundo, o conjunto de
resultados subjacente deve ser igualmente provável (SHARPE; VEAUX; VELLEMAN, 2011).
3. Organização, apresentação e análise dos dados: com os dados coletados,
temos o que chamamos de dados brutos da pesquisa. A partir deles, é pre-
ciso organizá-los e apresentá-los de maneira adequada para análise e futura
conclusão.
A organização deve ser feita mediante critérios de classificação, sejam em
ordem alfabética nos dados qualitativos ou crescente para dados quantitativos,
por exemplo. A disposição dos dados de maneira adequada facilita a análise e
inibe que o erro aconteça ou que algum dado não seja considerado.
Depois de organizados, os dados são apresentados em tabelas, gráficos ou
histogramas, a fim de ficarem mais evidentes para análise.
Os dados quantitativos, além de serem analisados a partir de tabelas e
gráficos, permitem-nos analisar por meio de medidas descritivas que cons-
tituem uma síntese das características analisadas. Algumas dessas medidas
são as médias e as medidas de dispersão.
Essas medidas são uma maneira generalizada de notarmos o conjunto de
elementos como um todo, classificando-os descritivamente quando possível.
4. Os resultados: após conhecer todas as características dos dados, a partir
da análise, faz-se as conclusões sobre a população, ou seja, o todo considerado
na pesquisa. Por meio da estatística inferencial, é possível fazer deduções e
previsões relevantes, com o intuito de responder o problema inicial da pesquisa.
11O que é estatística
ANDERSON, D. R. Estatística aplicada à administração e economia. 2. ed. São Paulo:
Cengage Learning, 2008.
BARBETTA, P. A.; REIS, M. M. R.; BORNIA, A. C. B. Estatística para cursos de engenharia e
informática. 2. ed. São Paulo: Atlas, 2008.
HUFF, D. Como mentir com estatística. Rio de Janeiro: Intrínseca, 2016.
MILONE, G. Estatística: geral e aplicada. São Paulo: Thomson Learnig, 2006.
SHARPE, N. R.; VEAUX, R. D.; VELLEMAN, P. F. Estatística aplicada: administração, economia
e negócios. Porto Alegre: Bookman, 2011.
Leituras recomendadas
BECKER, J. L. Estatística básica: transformando dados em informação. Porto Alegre:
Bookman, 2015.
NAVIDI, W. Probabilidade e estatística para ciências exatas. Porto Alegre: AMGH, 2012.
O que é estatística12
Conteúdo:
BIOESTATÍSTICA
Juliane Silveira
Freire da Silva
Revisão técnica:
Rute Henrique da Silva Ferreira
Licenciada em Matemática
Mestre em Educação Matemática
Doutora em Sensoriamento Remoto
Catalogação na publicação: Karin Lorien Menoncin CRB-10/2147
P228b Parenti, Tatiane.
Bioestatística / Tatiane Parenti, Juliane Silveira Freire da
Silva, Jamur Silveira; [revisão técnica : Rute Henrique da Silva
Ferreira ]. – Porto Alegre: SAGAH, 2018.
207 p. il. ; 22,5 cm
ISBN 978-85-9502-362-8
1. Bioestatística. I. Silva, Juliane Silveira Freire da. II. Silveira,
Jamur. III.Título.
CDU 311
Bioestatistica_LIVRO.indb 2 13/03/2018 09:16:30
Organização de dados:
tabelas e gráficos
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Reconhecer por que os dados devem ser organizados em estatística.
� Identificar os principais tipos de tabelas e gráficos.
� Selecionar o tipo de gráfico mais adequado para cada tipo de situação.
Introdução
Neste capítulo, vamos calcular e aplicar métodos estatísticos à análise
de dados. A partir daí, construir e analisar tabelas e gráficos utilizando
as normas científicas.
Por que organizamos os dados em estatística?
Quando estamos coletando os dados, essa coleta ocorre de forma aleatória
e, durante esse processo, não temos a capacidade de organizá-los e também
não temos condições de tomar alguma decisão com base na coleta, sem o
tratamento desses dados.
Por esse motivo, precisamos começar a analisar os dados coletados e, de
alguma forma, resumi-los para podermos visualizar os resultados de forma
organizada, iniciando, assim, a análise descritiva dos dados.
Primeiramente, resumimos em tabelas de distribuição de frequências e
depois podemos fazer gráficos, o que visualmente é melhor para representar
os dados (Figura 1). A análise descritiva dos dados ainda dispõe de outras
técnicas além dessas, mas, neste capítulo, atentaremos para a análise de tabelas
e gráficos.
Bioestatistica_LIVRO.indb 99 13/03/2018 09:16:40
Figura 1. Exemplo de diferentes tipos de gráficos.
Fonte: Araujo (2011).
Título do grá�co Título do grá�co
Título do grá�co
Título do grá�co
Série 1 (linha esquerda)
Série 1 Série 2
Série 3
18
16
14
12
10
45
10,00
9,00
8,00
7,00
6,00
5,00
4,00
3,00
2,00
1,00
0,00
40
35
30
25
20
15
10
5
7
6
5
4
3
2
1
0
8
6
4
2
Série 4
Série 1 Série 2
Série 3 Série 4
Série 2 (linha direita)
Categoria E, 1
Categoria A, 5
Categoria D, 2
Categoria C, 3
Categoria B, 4 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov DezJan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Sobre a coleta de dados, é importante estarmos sempre atentos à forma como coleta-
mos os dados. Precisamos, antes de qualquer coleta, estabelecer a metodologia para
a escolha das unidades amostrais. Muitas vezes, quando coletamos dados, estamos
interessados em poder fazer inferência para o restante da população (extrapolar para
toda a população). Somente quando temos uma amostra probabilística – ou seja,
os elementos da população são escolhidos por sorteio aleatório – que poderemos
realizar inferências. Caso a amostra não seja probabilística, poderemos apenas fazer
uma análise descritiva dos dados e o resultado dessa análise dirá respeito somente à
amostra pesquisada.
Organização de dados: tabelas e gráficos100
Bioestatistica_LIVRO.indb 100 13/03/2018 09:16:40
Tipos de tabelas e gráficos
Existem tabelas que são para dados qualitativos, que também chamamos
de tabelas para dados categóricos (Tabela 1). São tabelas simples em que se
anota a frequência que cada uma das opções de resposta aparece na amostra.
Sexo F Fr
Masculino 63 52,5
Feminino 57 47,5
Total 120 100,0
Tabela 1. Exemplo de tabela com dados qualitativos.
Conforme verificado na Tabela 1, a coluna f (frequência simples absoluta)
é resultado da contagem da frequência quecada uma das palavras apareceu na
amostra. Ou seja, havia 63 pessoas do sexo masculino e 57 do sexo feminino
na amostra.
Para calcularmos a coluna fr, precisamos ver quanto cada uma das fre-
quências tem de proporção no total da amostra. Podemos resolver isso por
regra de três.
120
63
100%
x 120 ∙ x = 63 ∙ 100 x =
63∙100
120 = 52,5%
Podemos representar essa tabela com um gráfico de setores, também
conhecido como gráfico de pizza, conforme a Figura 2.
101Organização de dados: tabelas e gráficos
Bioestatistica_LIVRO.indb 101 13/03/2018 09:16:40
Figura 2. Gráfico de setores (pizza).
47,5
52,5
Masculino Feminino
Observe que em tabelas para dados de uma variável qualitativa nominal,
devemos ordenar do mais frequente para o menos frequente. Já quando temos
uma variável qualitativa ordinal, precisamos respeitar a ordem em que a
variável é apresentada (Tabela 2).
Satisfação F fr
Muito satisfeito 12 13,3
Satisfeito 14 15,6
Indiferente 21 23,3
Insatisfeito 19 21,1
Muito insatisfeito 24 26,7
Total 90 100
Tabela 2. Exemplo de tabela com dados qualitativos ordinais sobre a satisfação com o
atendimento recebido em uma Unidade de Pronto Atendimento (UPA) de Porto Alegre,
RS.
Para representarmos essa tabela, podemos fazer um gráfico de colunas,
conforme a Figura 3.
Organização de dados: tabelas e gráficos102
Bioestatistica_LIVRO.indb 102 13/03/2018 09:16:40
Figura 3. Exemplo de gráfico de colunas.
30,0
25,0
20,0
15,0 13,3
Muito
satisfeito
Muito
insatisfeito
Satisfeito InsatisfeitoIndiferente
15,6
23,3
26,7
21,1
10,0
5,0
0,0
Podemos também utilizar as tabelas para representar dados quantitativos.
Nesse caso, podemos ter tabelas por ponto e tabelas por intervalos (também
chamadas de tabelas por classes). Variáveis quantitativas discretas costumam
gerar tabelas de distribuição de frequência por ponto (Tabela 3).
Número de filhos F fr
0 12 15,0
1 11 13,8
2 23 28,8
3 19 23,8
4 9 11,3
5 6 7,5
Total 80 100
Tabela 3. Exemplo de tabela quantitativa sobre o número de filhos por família.
103Organização de dados: tabelas e gráficos
Bioestatistica_LIVRO.indb 103 13/03/2018 09:16:40
Também podemos representar esses dados com um gráfico de colunas,
conforme a Figura 4.
Figura 4. Gráfico de colunas sobre o número de filhos por família.
30,0
35,0
25,0
20,0
15,0
15,0 13,8
28,8
23,8
11,3
7,5
543210
10,0
5,0
0,0
Já as variáveis quantitativas geram tabelas de distribuição de frequências
por intervalos (Tabela 4).
Faixa F Fr
15|---25 9 14,5
25|---35 12 19,4
35|---45 22 35,5
45|---55 11 17,7
55|---65 8 12,9
Total 62 100,0
Tabela 4. Exemplo de tabela com variáveis quantitativas sobre a faixa etária.
Organização de dados: tabelas e gráficos104
Bioestatistica_LIVRO.indb 104 13/03/2018 09:16:40
Para representarmos essa tabela, precisamos nos dar conta de um fato:
entre as faixas, não existe um intervalo numérico, pois chegamos ao limite
de um número e na faixa seguinte já iniciamos com ele. Assim, não podemos
representar nenhum espaço no eixo do gráfico quando temos um gráfico de
colunas. Nesse caso, as colunas estão grudadas umas às outras, e chamamos
esse gráfico de histograma (Figura 5).
Figura 5. Exemplo de gráfico histograma.
30,0
35,0
25,0
20,0
15,0
14,5
15| ---25 25| ---35 35| ---45 45| ---55 55| ---65
19,4
35,5
17,7
12,9
10,0
5,0
0,0
Quando temos uma variável quantitativa discreta, pode ser que também precisemos
fazer intervalos para melhor representar os dados. Caso existam mais de 10 opções de
resposta, já podemos montar os intervalos para poder representar melhor esses dados.
105Organização de dados: tabelas e gráficos
Bioestatistica_LIVRO.indb 105 13/03/2018 09:16:40
Podemos ainda acrescentar mais colunas a essas tabelas que representam
dados quantitativos para utilizarmos para fins de análise (Tabela 5). As co-
lunas que necessariamente precisam aparecer em uma tabela de distribuição
de frequências, além da primeira coluna que representa as opções de resposta
dos dados coletados, são:
� f → frequência simples absoluta (resulta da contagem na amostra).
� fr → frequência simples relativa (resulta da regra de três vista ante-
riormente no capítulo).
� F → frequência acumulada absoluta (resulta somando a coluna f).
� Fr → frequência acumulada relativa (resulta somando a coluna fr).
� x’ → ponto médio do intervalo, no caso da tabela de intervalos.
Faixa f fr F Fr
15|---25 9 14,5 9 14,5 (15+25)/2=20
25|---35 12 19,4 9+12=21 33,9 (25+35)/2=30
35|---45 22 35,5 21+22=43 69,4 (35+45)/2=40
45|---55 11 17,7 43+11=54 87,1 (45+55)/2=50
55|---65 8 12,9 54+8=62 100,0 (55+65)/2=60
Total 62 100,0 - - -
Tabela 5. Exemplo de tabela de faixa etária com demais colunas.
Sobre a nomenclatura para a tabela de distribuição de frequências por intervalos, a
barra na vertical (|) indica que o número ao seu lado está contido no intervalo. Quando
temos o traço na horizontal, chegamos muito próximo ao número que está ao seu
lado, mas não chegamos até ele. Por exemplo:
15|---25 → o número 15 está contido nesse intervalo, mas o número 25 não.
15---|25 → o número 15 não está contido nesse intervalo e o número 25 sim.
15---25 → o número 15 não está contido nesse intervalo e o número 25 também não.
15|---|25 → o número 15 está contido nesse intervalo e o número 25 também.
Organização de dados: tabelas e gráficos106
Bioestatistica_LIVRO.indb 106 13/03/2018 09:16:41
Agora, qual gráfico escolher?
Além dos gráficos apresentados aqui, temos uma grande quantidade de gráficos.
Os mais básicos para a análise descritiva de dados são os de setores e os de
barras ou colunas, mas não são somente esses que podemos utilizar.
Quando tivermos uma variável qualitativa, tanto nominal quanto ordinal,
podemos representar esses dados com um gráfico de setores, de colunas ou
barras (Figura 6).
Figura 6. Exemplo de dados representados em um gráfico de setores.
Dois Irmãos
7%
Campo Bom
10%
São Leopoldo
15%
Porto Alegre
32%
Canoas
20%
Novo
Hamburgo
16%
Para os mesmos dados, poderíamos representar em um gráfico de colunas
e de barras (Figuras 7 e 8).
107Organização de dados: tabelas e gráficos
Bioestatistica_LIVRO.indb 107 13/03/2018 09:16:41
Figura 7. Exemplo de gráfico de colunas utilizando os dados da Figura 6.
30,0
35,0 32,2
20,0
15,6 15,6
10,0
6,7
25,0
20,0
15,0
10,0
5,0
0,0
Dois
Irmãos
Campo
Bom
São
Leopoldo
Porto
Alegre
Canoas Novo
Hamburgo
Figura 8. Exemplo de gráfico de barras utilizando os dados da Figura 6.
Porto Alegre
Canoas
Novo Hamburgo
São Leopoldo
Campo Bom
Dois Irmãos
32,2
20,0
15,6
15,6
10,0
6,7
0,0 5,0 10,0 15,0 20,0 25,0 30,0 35,0
Agora, para as variáveis quantitativas para tabelas de distribuição de fre-
quências simples ou por intervalos, podemos ter gráficos de colunas para
representar as variáveis quantitativas discretas, conforme mostra a Figura 9.
Organização de dados: tabelas e gráficos108
Bioestatistica_LIVRO.indb 108 13/03/2018 09:16:41
Para os dados de variáveis quantitativas representadas em tabelas de distri-
buição de frequências por intervalos, representamos graficamente com um
histograma, conforme mostra a Figura 10.
Figura 9. Exemplo de gráfico de colunas com variáveis quantitativas discretas.
35,0
30,0
25,0
20,0
15,0
10,0
5,0
0,0
0 1 2 3 4
15,0 13,8
28,8
23,8
11,3
Figura 10. Exemplo de histograma.
30,0
25,0
20,0
15,0
10,0
5,0
0,0
0|---10 10|---20 20|---30 30|---40 40|---50
25,6
24,4
17,4
22,1
10,5
109Organização de dados: tabelas e gráficos
Bioestatistica_LIVRO.indb 109 13/03/2018 09:16:41
Além desses gráficos, podemos citar ainda o gráfico de dispersão, que é
utilizado em análise de correlação e regressão, quando temos duas variáveis
e verificamos a relação entre elas. Imaginemos duasvariáveis, peso e altura.
Podemos, com o gráfico de dispersão (Figura 11), verificar a relação entre
elas. Cada um dos pontos representa um par de valores (peso no eixo y e
altura no eixo x).
Figura 11. Exemplo de diagrama de dispersão.
Pe
so
Altura
110
100
90
80
70
60
50
40
150 160 170 180 190 200
O gráfico de linhas é utilizado quando desejamos representar uma variável
quantitativa ao longo do tempo (Figura 12). O eixo x sempre será o tempo.
Imaginemos acompanhar a evolução do número de nascidos vivos em uma
pequena maternidade ao longo dos anos.
Organização de dados: tabelas e gráficos110
Bioestatistica_LIVRO.indb 110 13/03/2018 09:16:41
Figura 12. Exemplo de gráfico de linhas.
1260
1250
1240
1230
1220
1210
1200
1190
1180
1170
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
Nestes endereços eletrônicos, você pode aprender a fazer gráficos utilizando o Excel:
https://goo.gl/4mQZ0m
https://goo.gl/Ek3Ydy
111Organização de dados: tabelas e gráficos
Bioestatistica_LIVRO.indb 111 13/03/2018 09:16:41
Considere os dados referentes a uma pesquisa com 20 famílias de um bairro pequeno,
onde foi perguntado quantas vezes o chefe da família procurou o médico no ano
anterior. As respostas da coleta são as seguintes:
1 4 2 0 2
2 2 3 0 4
5 0 1 1 3
3 1 4 2 5
Para representarmos esses dados, o primeiro passo é a montagem da tabela de
distribuição de frequências. Precisamos contar quantas vezes cada um dos números
apareceu e então fazer os seus percentuais.
nº de visitas f fr
0 3 15
1 4 20
2 5 25
3 3 15
4 3 15
5 2 10
total 20 100
A segunda maneira de representarmos esses dados seria por meio de um gráfico.
30,0
25,0
25,0
20,0
20,0
15,0
15,0 15,015,0
10,0
10,0
5,0
0,0
0 1 2 3 4 5
Concluímos então que o número mais frequente de visitas é igual a 2, representando
25%. Ou seja, mais da metade dos chefes de família foi, no máximo, até duas vezes a
uma consulta com um médico no último ano.
Organização de dados: tabelas e gráficos112
Bioestatistica_LIVRO.indb 112 13/03/2018 09:16:41
ARAUJO, A. Gráficos: modelos prontos. 04 fev. 2011. Disponível em: <http://geomor-
fologiacesc.blogspot.com.br/2011/02/graficos-modelos-prontos.html>. Acesso em:
26 out. 2017.
Leituras recomendadas
CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed,
2007.
FREUND, J. E. Estatística aplicada economicamente. 11. ed. Porto Alegre: Bookman, 2007.
Referência
Organização de dados: tabelas e gráficos113
Bioestatistica_LIVRO.indb 114 13/03/2018 09:16:42
Encerra aqui o trecho do livro disponibilizado para
esta Unidade de Aprendizagem. Na Biblioteca Virtual
da Instituição, você encontra a obra na íntegra.
ESTATÍSTICA
Ana Laura Bertelli Grams
Identificação interna do documento D1VPS59MOG-U16J1H1
Medidas de posição:
média, mediana e moda
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Calcular as medidas de posição: média, mediana e moda.
� Escolher a medida de posição mais adequada.
� Aplicar as medidas estatísticas a partir das definições.
Introdução
Após a coleta e organização dos dados de uma pesquisa, é fundamental
que se faça a análise para futura tomada de decisão. A análise mais trivial
de um conjunto de dados é feita por meio de medidas de posição.
Neste capítulo, você reconhecerá as medidas de posição central,
chamadas média, mediana e moda, identificando suas definições, caracte-
rísticas e aplicações em conjuntos numéricos agrupados e não agrupados.
Medidas de posição: média, mediana e moda
Para análise das variáveis qualitativas, precisamos nos restringir apenas à sua
distribuição de frequências, enquanto que, em sua análise, as variáveis quan-
titativas permitem que algumas medidas que descrevem suas características
sejam manipuladas e praticadas (BARBETTA; REIS; BORNIA, 2008). As
medidas que estudaremos agora serão medidas de posição central.
As medidas estatísticas informam características importantes da amostra,
que geralmente são um rol com muitos dados difíceis de serem analisados
quando apresentados todos juntos. Por isso, buscamos algumas medidas que
os descrevem. As medidas de posição mais utilizadas são as de tendência
central: média, mediana e moda.
Identificação interna do documento D1VPS59MOG-U16J1H1
Essas medidas são chamadas de medidas de tendência central, pois cada
uma delas tende a se dispor em torno dos valores que ocupam as posições
centrais de um rol de dados. Além delas, temos as medidas de posição chamadas
separatrizes, que são: quartil, decil e percentil.
Média
A média é definida como o centro de massa, ou o ponto de equilíbrio, do
conjunto (MILONE, 2006). Entre as principais médias, destacamos a média
aritmética.
A média aritmética é calculada por meio da soma dos dados (quantitativos)
do conjunto e da divisão da soma pela quantidade de dados do conjunto:
x– =
∑i =1 xi
n
n
onde xi representa os dados em questão (na posição 1 até n-ésima), e n a
quantidade de dados do conjunto.
Características da média
1. A média é afetada por todos os elementos do conjunto (para o seu
cálculo, é preciso somar todos eles). Como consequência, ela se altera
a cada mudança dos elementos do conjunto, e, ainda, valores de extre-
mos, muito altos ou muito baixos, tendem a aumentá-la ou diminuí-la,
respectivamente, de maneira bastante significativa.
Sendo 30, 32, 44, 82 e 97 dados de uma amostra qualquer, sua média é obtida com
x– = 30 + 32 + 44 + 82 + 97
5
= 57. Se qualquer dado for afetado por alguma mudança,
a média também será afetada, especialmente se os extremos se alterarem:
2, 32, 44, 82, 97 →x– = 2 + 32 + 44 + 82 + 97
5
= 51,4 ou ainda: 30, 32, 44, 82 e 250
→x– = 30 + 32 + 44 + 82 + 250
5
= 87,6.
Medidas de posição: média, mediana e moda2
Identificação interna do documento D1VPS59MOG-U16J1H1
2. A média apresenta propriedades algébricas de manipulação, que são:
somando-se uma constante a todos os dados da amostra, a média é
aumentada da mesma constante.
A média dos valores 41, 75 e 64 é 41 + 75 + 64
3
= 60. Ao somarmos a constante 5 aos
dados, temos 46, 80, 69, e a média dos novos valores é 46 + 80 + 69
3
= 65.
3. O valor da média estará sempre entre o maior e o menor valor do conjunto
de dados e pode não corresponder a algum valor do próprio conjunto.
Como, no conjunto anterior (41, 75, 64), a média é igual a 60, sendo assim, 41 < x– < 64
e, ainda, não é igual a nenhum dado do conjunto.
Média de dados agrupados
O conceito de média e suas características mantém-se para qualquer conjunto
de dados. Contudo, o processo do cálculo pode variar, dependendo de como
esses dados estão apresentados. O caso mais simples para encontrar o valor
da média é em um rol de dados simplesmente ordenados (ou não), em que
basta aplicarmos a equação que a define. Já em dados que são apresentados
em uma distribuição de frequência, precisamos de uma etapa anterior, para
então aplicarmos a mesma fórmula.
Considere a tabela de distribuição de frequência no Quadro 1, relativa
ao número de acidentes ocorridos com 30 motociclistas em uma empresa de
entrega rápida.
3Medidas de posição: média, mediana e moda
Identificação interna do documento D1VPS59MOG-U16J1H1
Número de acidentes
(variável)
Número de motociclistas
(frequência)
1 13
2 5
3 9
4 1
5 2
Quadro 1. Número de acidentes com 10 motoristas de mototáxi
As frequências dos acidentes indicam a intensidade deles, facilitando a
apresentação das variáveis. Contudo, para o cálculo da média, precisamos ficar
atentos a elas e não nos esquecer de que cada variável tem a sua quantidade
indicada na coluna ao lado. O cálculo da média de acidentes por motociclista
deve ser feito da seguinte maneira:
x– =
(13 ∙ 1) + (5 ∙ 2) + (9 ∙ 3) + (1 ∙ 4) + (2 ∙ 5)
13 + 5 + 9 + 1 + 2 = 2,133
onde cada acidente é multiplicado pela frequênciaem que ocorreram e a
soma deles dividida pelo total de motociclistas na empresa.
De maneira geral, a média em uma distribuição de frequência é calculada
pela lei:
x– =
∑ (xi · fi )
∑ fi
Ou seja, o somatório do produto entre a variável (xi) e a sua frequência
correspondente a ( fi), divido pelo somatório das frequências (∑ fi ).
Média de dados agrupados com intervalos de classe
Além do formato do Quadro 1 para apresentação dos dados, podemos, ainda,
expressá-los por meio de intervalos de classe, que se trata do agrupamento
dos valores em intervalos. Essa prática é comumente utilizada em variáveis
contínuas e quando cada valor tem uma baixa frequência, resultando, assim,
em uma tabela com muitas linhas, que se torna inconveniente para análise. O
Medidas de posição: média, mediana e moda4
Identificação interna do documento D1VPS59MOG-U16J1H1
Quadro 2 mostra um exemplo de distribuição de frequência com intervalos
de classe.
Estatura (variável) Número de alunos (frequência)
160 ⊢ 165 5
165 ⊢ 170 20
170 ⊢ 175 11
175 ⊢ 180 1
180 ⊢ 185 3
Quadro 2. Estatura (em cm) de 40 alunos de uma classe
Por característica das distribuições de frequência com dados agrupados,
ocultamos algumas informações anteriormente tidas nos dados brutos. Perceba
que a tabela nos indica que cinco estudantes apresentam estatura entre 160 cm
e 165 cm, porém não nos orienta para a altura exata de cada um deles.
Para cálculo da média de dados apresentados dessa forma, precisamos assumir
um único valor para esses intervalos de classe. Fizemos isso por meio do cálculo
da própria média das classes. Para o exemplo anterior, teremos o Quadro 3.
Estatura
(variável)
xi (média das
classes)
Número de
alunos (fi)
xi ∙ fi
160 ⊢ 165 160 + 165
2
= 162,5
5 812,5
165 ⊢ 170 167,5 20 3350
170 ⊢ 175 172,5 11 1897,5
175 ⊢ 180 177,5 1 177,5
180 ⊢ 185 182,5 3 547,5
6785
Quadro 3. Estatura (em cm) de 40 alunos de uma classe — inserção das colunas xi e xi ∙ fi
para cálculo da média
5Medidas de posição: média, mediana e moda
Identificação interna do documento D1VPS59MOG-U16J1H1
Note que, no Quadro 3, inserimos, além da média das classes, uma coluna
com a multiplicação entre a variável e a frequência. Isso pode facilitar no
cálculo da média. Contudo, é o mesmo que aplicarmos a seguinte lei:
x– =
∑ (xi · fi )
∑ fi
x– =
812,5 + 3350 + 1897,5 + 177,5 + 547,5
40 = = 169,63 cm
6785
40
Concluímos, assim, que a média das estaturas entre os 40 alunos pesqui-
sados é 169,63 cm.
Mediana
Outra medida de centro bastante utilizada é a mediana. Seu conceito é dado
por: o valor que se encontra no centro de uma série ordenada de números.
Ou seja, é o dado que divide o conjunto ordenado em dois subconjuntos de
mesmo número de elementos (CRESPO, 2002).
A posição da mediana é encontrada por n + 12 . Em um conjunto de dados
não agrupados, como 8, 5, 14, 9, 56, 32, 23, no qual temos n = 7 dados, a
posição da mediana é dada por 82 = 4, ou seja, na quarta posição. Contudo,
antes de localizarmos o dado que se encontra na quarta posição, é preciso
ordená-los segundo um critério preestabelecido, de ordem crescente, por
exemplo. Sendo assim, temos 5, 8, 9, 14, 23, 32, 56, onde constatamos que a
mediana é igual a 14.
Em casos em que a quantidade de dados é par, teremos dois termos no
centro da série. Assim, precisamos encontrar o ponto médio dos dois valores
para determinarmos a mediana. Na série 2, 5, 8, 9, 14, 23, 32, 56, o quarto e
o quinto termos são que dividem a série em dois subconjuntos com o mesmo
número de elementos. Dessa forma, a mediana dessa é dada por 9 + 142 = 11,5.
Perceba que a mediana, além de uma medida de tendência central, também é con-
siderada separatriz, pois divide o conjunto de dados em duas partes com iguais
quantidades de elementos.
Medidas de posição: média, mediana e moda6
Identificação interna do documento D1VPS59MOG-U16J1H1
As separatrizes separam o conjunto de dados em grupos com o mesmo número de
valores, os quartis dividem o conjunto em 4 (quatro) partes iguais, os decis em 10 (dez)
e os percentis em 100 (cem).
Moda
A moda é geralmente a medida de tendência central mais simples de ser
informada, pois exige apenas a observação dos dados existentes. Definimos
moda como o valor que ocorre com maior frequência em um conjunto de
dados. Ou seja, é o valor mais comum dentre todos do conjunto.
No exemplo 2, 5, 8, 9, 14, 23, 32, 56, temos um conjunto em que todos os
elementos têm a mesma frequência. Isso implica em um conjunto amodal, ou
sem moda. Já a série de dados 2, 5, 8, 8, 8, 9, 9 14, 23, 32, 56 tem moda igual
a 8, e a série 2, 5, 8, 8, 8, 9, 9 14, 23, 32, 56, 56, 56 tem duas modas: 8 e 56.
Neste último caso, chamamos o conjunto de bimodal.
Escolha da medida de posição mais adequada
A escolha entre a média, a mediana e a moda depende dos fatores que elas
afetam. É necessário conhecer suas propriedades com a finalidade de adequar
a melhor medida a cada caso em estudo.
Uma das características da média é sua sensibilidade a valores muito altos
ou muito baixos do conjunto de dados, pois é uma medida que reflete cada
valor do conjunto. Sendo assim, uma análise possível é: quando os valores
extremos do conjunto de dados são consideravelmente dispersos dos de-
mais, a média não é uma medida de posição indicada para análise, pois
ela não representa adequadamente a maioria dos dados do conjunto.
Por outro lado, a mediana é, de fato, insensível aos valores extremos do
conjunto, podendo estes se alterarem, e, mesmo assim, a mediana se manter.
Portanto, no caso citado, a indicação é a utilização da mediana como medida
de posição mais adequada.
Em contrapartida, a média é mais prática de ser calculada, visto que, para
encontrar a mediana, é imprescindível a ordenação dos dados, o que acarreta
7Medidas de posição: média, mediana e moda
Identificação interna do documento D1VPS59MOG-U16J1H1
em grande dificuldade quando o conjunto apresenta grande quantidade de
dados, sobretudo quando não se utiliza de recursos tecnológicos para tal.
A moda é geralmente um ponto isolado, mas de maior peso no conjunto de
elementos. Sua característica é vantajosa sobre as demais, pois é sempre um valor
típico, o qual tem maior quantidade de valores concentrados no mesmo ponto.
Quando temos dados qualitativos, não podemos aplicar as medidas de posição média
e mediana, por motivos óbvios. Em contrapartida, a moda é uma medida de posição
que pode ser obtida mesmo em conjuntos de dados qualitativos.
Aplicação a partir das definições
Nesta etapa de estudo, aplicaremos os conceitos estudados anteriormente em
alguns exemplos de atividades, a fim de utilizar as ferramentas estatísticas
para o desenvolvimento do raciocínio lógico, enquanto descobrimos a melhor
maneira para encontrar as soluções.
Em um conjunto com 15 dados, a média aritmética é igual a 9. Depois de uma vistoria
detalhada nos dados, descobriu-se que alguns eram inconsistentes e precisavam
ser desconsiderados. Assim, os números 34, 27, 14 foram retirados. Qual será a nova
média do conjunto?
Solução:
Temos que o primeiro conjunto tinha média igual a:
x– =
x1 + ... x15
15 = 9
Assim, a soma de todos os 15 elementos do conjunto de dados é dada por:
x1 + ... x15 = 9 · 15 = 135
Medidas de posição: média, mediana e moda8
Identificação interna do documento D1VPS59MOG-U16J1H1
Com a retirada de três elementos, passamos a ter 12 dados, e sua soma representada
por:
x1 + ... x12 = 135 – 34 – 27 – 14 = 60
Aplicando a definição de média, temos:
x– =
x1 + ... x12
12 = 9
60
12
=
Aplicou-se uma prova para 80 alunos da turma da disciplina de Estatística. Porém,
como o espaço físico era pequeno, dividiu-se a turma em duas partes, que realizaram
a prova em dias diferentes. No primeiro dia, 35 alunos realizaram a avaliação, e a média
desse grupo foi 9,0. No segundo dia, aplicou-se a prova para os demais, que obtiveram
média igual a 7,0. Qual foi a média da turma toda?
Solução:
Podemos representara média da turma do primeiro dia como:
x— =
x1 + ... x35
35 = 91
bem como a média da segunda turma é:
x— =
x1 + ... x45
45 = 72
x1 + ... x35 = 9 · 35 = 315
x1 + ... x45 = 7 · 45 = 315
x1 + ... x80 = 315 + 315 = 630
Portanto, a média final é igual a:
x— =
x1 + ... x80
80 = 7,87f
630
80
=
9Medidas de posição: média, mediana e moda
Identificação interna do documento D1VPS59MOG-U16J1H1
Uma loja de roupas está promovendo um bazar de suas peças e fez a seguinte
promoção:
� 2 blusas custam R$ 89,00 cada;
� 4 blusas custam R$ 68,00 cada;
� 6 blusas custam R$ 57,00 cada.
Qual é o preço médio das blusas desta loja no seu bazar?
Solução:
Os valores expostos na promoção nos fornecem a seguinte relação:
x– =
(2 · 89,00) + (4 · 68,00) + (6 · 57,00)
12 = = 66,00
792
12
Concluímos, assim, que o preço médio de cada blusa é igual a R$ 66,00.
Os próximos exemplos da aplicação da média são exercícios adaptados de
concursos de vestibular, que mostram variações no raciocínio utilizado para
empregar o cálculo da média.
(FUVEST) Sabe-se que a média aritmética de 5 dados, sendo esses números inteiros
distintos, estritamente positivos, é igual a 16. O maior valor existente entre esses
dados é igual a:
a) 16
b) 20
c) 50
d) 70
e) 100
Solução:
Como indicado, o conjunto tem cinco elementos. Assim, da mesma maneira das
soluções anteriores, temos:
x– =
x1 + ... x5
5 = 16
Medidas de posição: média, mediana e moda10
Identificação interna do documento D1VPS59MOG-U16J1H1
Portanto, a soma de todos os 5 elementos do conjunto de dados é dada por:
x1 + ... x5 = 16 · 5 = 80
Então, para descobrirmos o maior valor possível entre os 5 dados, assumiremos os
4 outros valores como os menores possíveis, ou seja:
1 + 2 + 3 + 4 + x = 80
Sendo assim, o maior valor possível do conjunto de dados é:
x = 80 – 1 – 2 – 3 – 4
x = 70
Resposta: letra D.
(FUVEST) Numa classe com vinte alunos, as notas do exame final podiam variar de 0
a 100, e a nota mínima para aprovação era 70. Realizado o exame, verificou-se que
8 alunos foram reprovados. A média aritmética das notas desses oito alunos foi 65,
enquanto que a média dos aprovados foi 77. Após a divulgação dos resultados, o
professor verificou que uma questão havia sido mal formulada e decidiu atribuir 5
pontos a mais para todos os alunos. Com essa decisão, a média dos aprovados passou
a ser 80, e a dos reprovados, 68,8.
a) Calcule a média aritmética das notas da classe toda antes da atribuição dos cinco
pontos extras.
b) Com a atribuição dos cinco pontos extras, quantos alunos, inicialmente reprovados,
atingiram nota para a aprovação?
Solução:
a) Com os dados informados no problema, temos:
x– reprovados =
x1 + ... x8
8 = 65
x– aprovados =
x1 + ... x12
12 = 77
x– total =
(x1 + ... x8) + (x1 + ... x12)
20 =
520 + 924
20
= 72,2
A média das notas da classe antes da atribuição dos cinco pontos extras era de 72,2.
11Medidas de posição: média, mediana e moda
Identificação interna do documento D1VPS59MOG-U16J1H1
b) A nova média de toda a turma, após a atribuição dos cinco pontos por aluno, é:
x1 + ... x5 = 16 · 5 = 80
x– = 520 + 924 + (5 · 20)
20
=
1544
20
= 77,2
Com a atribuição dos cinco pontos, é possível que alguma quantidade de alunos tenha
sido aprovada — chamemos essa quantidade de A. Sendo assim, a nova quantidade
de alunos aprovados é 12 + A, e de alunos reprovados, 8 – A.
Temos, do enunciado, que a nova média dos aprovados é 80, e dos reprovados,
68,8. Então:
77,2 = (12 + A) 80 + (8 – A) 68,8
20
Resolvendo a equação, temos que A = 3.
Assim, 3 alunos foram aprovados após a atribuição dos 5 pontos.
BARBETTA, P. A.; REIS, M. M.; BORNIA, A. C. Estatística para cursos de engenharia e infor-
mática. 2. ed. São Paulo: Atlas, 2008.
CRESPO, A. A. Estatística fácil. 17. ed. São Paulo: Saraiva, 2002.
MILONE, G. Estatística: geral e aplicada. São Paulo: Thomson Learning, 2006.
Leitura recomendada
BECKER, J. L. Estatística básica: transformando dados em informação. Porto Alegre:
Bookman, 2015.
Medidas de posição: média, mediana e moda12
Identificação interna do documento D1VPS59MOG-U16J1H1
Identificação interna do documento D1VPS59MOG-U16J1H1
Identificação interna do documento D1VPS59MOG-U16J1H1
Identificação interna do documento D1VPS59MOG-U16J1H1
Nome do arquivo:
C03_Medidas_posicao_media_mediana_moda_20230309111416531
172.pdf
Data de vinculação à solicitação: 09/03/2023 11:14
Aplicativo: 655458
Medidas de posição: separatrizes
Rafael Botelho Barbosa
Introdução
As medidas de posição têm por finalidade representar um conjunto de dados por meio de um
valor. Nesta aula, conheceremos as medidas de posição chamadas separatrizes, bem como suas
principais classificações.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
• identificar as medidas separatrizes.
Bons estudos!
1 Medidas de posição
Por meio da análise das medidas de posição, conseguimos verificar como é a distribuição de
um determinado conjunto de dados. Estas medidas são divididas em medidas de tendência e sepa-
ratrizes. Nesta aula, aprofundaremos nosso conhecimento sobre as separatrizes. Acompanhe!
2 Separatrizes
As separatrizes são medidas de posição que separam um conjunto de dados em “n” partes.
Cada uma destas partes deve conter a mesma quantidade de dados. Assim, caso façamos uma
divisão de um conjunto de 40 dados em 4 partes, cada parte terá 10 dados.
FIQUE ATENTO!
A mediana é uma das separatrizes, visto que separa um conjunto de dados em duas
partes com exatamente a mesma quantidade de dados.
A classificação e nomenclatura das separatrizes dão-se com base no número de divisões fei-
tas. As separatrizes mais conhecidas são: quartil (divisão de um conjunto de dados em 4 partes),
decil (divisão em 10 partes) e percentil (divisão em 100 partes).
SAIBA MAIS!
Na seção 4 (p. 109) do texto “Estatística aplicada à educação”, do Ministério da
Educação, você pode aprofundar seus conhecimentos sobre o tema desta aula.
Acesse: <http://portal.mec.gov.br/seb/arquivos/pdf/profunc/estatistica.pdf>.
2.1 Quartil
No quartil, a série de dados será dividida em quatro partes iguais (cada parte contém a
mesma quantidade de dados). Temos, então, 3 quartis denominados 1 2 3Q ,Q ,Q . Assim, podemos
dizer que 25% dos dados estão presentes dentro de cada quartil; e que 50% dos dados situam-se
até o valor do quartil 2Q (note que o quartil 2Q é a mediana); 75% dos dados situam-se até o valor
do quartil 3Q . Stevenson (2001, p. 22) afirma que
os quartis dividem conjuntos ordenados em 4 partes iguais: 25% dos valores serão inferio-
res ao primeiro quartil ( 1Q ), 50% serão inferiores ao segundo quartil ( 2Q mediana= ), 75%
serão inferiores ao terceiro quartil ( 3Q ) e 25% serão superiores ao terceiro quartil.
De acordo com Crespo (2005), os quartis são valores (o valor de um quartil pode não coincidir
com um valor observado) que dividem o conjunto de dados em quatro partes iguais, conforme
figura a seguir.
Figura 1 – Representação das divisões dos quartis
Q1 Q2 Q3
0% 25% 50% 75% 100%
Fonte: elaborada pelo autor, 2016.
Os quartis podem ser calculados como:
• dados não agrupados: quando os dados não estão agrupados em classes (interva-
los de valores). Nestes casos, devemos utilizar a expressão i ii
k f
Q
4
= ∑ para calcular
os quartis;
EXEMPLO
Considerando os dados (2, 2, 3, 4, 5, 6, 6, 6, 8, 9), temos que ( )1
1 10
Q = =2,5
4
; 2Q , que é a me-
diana, é dado pela média dos elementos centrais, logo vale 5,5; e ( )3
3 10
Q 7,5
4
= = ; assim,
podemos dizer que: o quartil 1 ocupa a posição 2,5, ou seja, ele é o valor 2,5 (média de 2
e 3); o quartil 2 é 5,5; o quartil 3 ocupa a posição 7,5, é o valor 6 (média de 6 e 6).
• dados agrupados com intervalos de classes: quando os dados estão agrupados em
classes, devemos utilizar a expressão
( )i *
i i *
k f
F ant h
4
Q LI
f
−
= +
∑
Em que:
iQ - quartil i;
iLI - limite inferior da classe que contém o quartil em análise;k - número do quartil (quartil 1, 2, ou 3);
if
4
∑ - somatório das frequências dividido por 4;
( )F ant - frequência acumulada da classe anterior àquela que estamos analisando;
*h - intervalo ou amplitude da classe que estamos analisando;
*f
- frequência da classe que estamos analisando.
EXEMPLO
Considere as classes apresentadas na tabela a seguir.
Tabela 1 – Classes
Classe Frequência simples Frequência acumulada
[150,154) 4 4
[154,158) 9 13
[158,162) 11 24
[162,166) 8 32
[166,170) 5 37
[170,174) 3 40
Fonte: elaborada pelo autor, 2016.
Assim, calculamos os quartis.
Quartil 1:
1x40 10
4
= . Então, 10 dados são inferiores ou iguais ao quartil 1.
Logo, ele está na classe [154, 158). Assim, 1
1x40 4Q 154 4 156,66
4 9
= + − =
;
EXEMPLO
Quartil 2:
2x40 20
4
= . Então, 20 dados são inferiores ou iguais ao quartil 2.
Logo, ele está na classe [158, 162). Assim, 2
2x40 4Q 158 13 160,54
4 11
= + − =
;
Quartil 3
3x40 30
4
= . Então, os dados são inferiores ou iguais ao quartil 3.
Logo, ele está na classe [162, 166). Assim,
3
3x40 4Q 162 24 165
4 8
= + − =
;
Assim encontramos todos os quartis para o caso em questão.
Atente para as expressões utilizadas para calcular os quartis para dados agrupados em clas-
ses e para dados não agrupados. Você irá notar que nos tópicos a seguir, faremos apenas algumas
reformulações destas expressões.
2.2 Decil
Os decis dividem um conjunto de dados em 10 partes iguais. Deste modo, podemos dizer
que 10% dos dados são inferiores ou iguais ao primeiro decil 1D , 20% dos dados são inferiores ou
iguais ao segundo decil 2D e assim por diante, até chegar ao último decil.
Figura 2 – Representação das divisões dos decis
D1 D2 D9
0% 10% 20% 90% 100%. . .
. . .
Fonte: elaborado pelo autor, 2016.
FIQUE ATENTO!
O decil 5 equivale à mediana, visto que 50% dos dados são menores ou iguais a ele.
Agora, vejamos os cálculos para dados não agrupados ou agrupados em classes.
• Dados não agrupados: quando os dados não estão agrupados em classes, usamos
a expressão
i i
i
k f
D
10
= ∑
• Dados agrupados com intervalos de classes: quando os dados estão agrupados em
classes, devemos utilizar
( )i *
i i *
k f
F ant h
10
D LI
f
−
= +
∑
Em que:
iD - decil i;
iLI - limite inferior da classe que contém o decil em análise;
k - número do decil (1, 2, 3, ...9);
if
10
∑ - somatório das frequências dividido por 10;
( )F ant - frequência acumulada da classe anterior àquela que estamos analisando;
*h - intervalo ou amplitude da classe que estamos analisando;
*f - frequência da classe que estamos analisando.
Para exemplificar o cálculo, considere o seguinte conjunto de dados: 2, 3, 4, 5, 6, 6, 6, 7, 8,
8, 9, 9, 9, 10, 11, 12,12, 13, 14, 15. Quais seriam, então, os três primeiros decis? Note que temos
20 dados, logo, o primeiro decil é o valor que ocupa a posição 1 x 20 2ª posição
10
= , que é o 3. O
segundo decil é o valor que ocupa a posição 2x20 4ºposição
10
= , que é 5. O terceiro decil é o valor
que ocupa a posição 3x20 6ºposição
10
=
203x 6ºposição
2
= , que é 6.
Os cálculos dos decis seguem a mesma linha de raciocínio dos quartis, sendo necessário
apenas fazer as devidas adaptações.
2.3 Percentil
O percentil divide um conjunto de dados em 100 partes iguais. Desta forma, o percen-
til 1P indica que 1% dos dados são inferiores ou iguais a ele. O percentil 2P ilustra que 2% dos
dados são inferiores ou iguais a ele; o 3P indica que 3% dos dados são inferiores ou iguais a ele; e
assim sucessivamente.
Figura 3 – Representação das divisões dos percentis
P1 P2 P98
0% 1% 2% 98% 100%. . .
. . .
99%
P99
Fonte: elaborada pelo autor, 2016.
Os percentis também são calculados a partir de dados não agrupados e agrupados
em classes.
• Dados não agrupados: quando os dados não estão agrupados em classes, usamos
a expressão
i i
i
k f
P
100
= ∑
• Dados agrupados com intervalos de classes: quando os dados estão agrupados em
classes, usamos
( )i *
i i *
k f
F ant h
100
P LI
f
−
= +
∑
Em que:
iP - percentil i;
iLI - limite inferior da classe que contém o percentil em análise;
k - número do percentil (1, 2, 3, ...99);
if
100
∑ - somatório das frequências dividido por 100;
( )F ant - frequência acumulada da classe anterior àquela que estamos analisando;
*h - intervalo ou amplitude da classe que estamos analisando;
*f - frequência da classe que estamos analisando.
Para compreender o cálculo, imagine que, em uma prova, os estudantes tenham tirado as
seguintes notas: 0 (10 estudantes); 1 (5 estudantes); 2 (5 estudantes); 3 (1 estudante); 4 (5 estu-
dantes); 5 (10 estudantes); 6 (30 estudantes); 7 (10 estudantes); 8 (15 estudantes); 9 (6 estudan-
tes); 10 (3 estudantes). A tabela abaixo ilustra as notas e frequências.
Tabela 2 – Notas e frequências
Nota Frequência simples Frequência acumulada
0 10 10
1 5 15
2 5 20
3 1 21
4 5 26
5 10 36
6 30 66
7 10 76
8 15 91
9 6 97
10 3 100
Fonte: elaborada pelo autor, 2016.
Assim, quais seriam o 11º percentil, o 23º percentil e o 89º percentil? Primeiro, observamos se
os dados estão organizados em ordem crescente. Como eles estão, podemos continuar o cálculo.
Note que temos 100 dados, logo, o 11º percentil é o valor que ocupa a posição 10011 x 11º posição
100
= ,
que é 1. O 23º percentil é o valor que ocupa a posição 10023x = 23º posição
100
, que é 4. O 89º percentil
é o valor que ocupa a posição 10089x 89ºposição
100
= , que é 8.
O percentil é bastante conhecido e utilizado na Estatística. Uma aplicação prática destas
separatrizes seria analisar a altura da população de uma determinada cidade. Colocando os dados
em ordem crescente, o percentil 90% indicará que 90% das pessoas possuem altura igual ou infe-
rior àquele valor.
Agora vamos imaginar que um determinado vendedor de sapatos queira saber qual tamanho
máximo de sapato ele deveria vender. Ele pode obter a devida proporção entre altura e tamanho
dos pés e chegar à conclusão de um valor que atenda a 90% da população.
3 Interpretando as separatrizes
Para efetuarmos a interpretação de outros tipos de separatrizes, basta recorrermos aos nos-
sos conhecimentos de quartis, decis e percentis. Todo o processo de cálculo das referidas divisões
deve ser feito de maneira análoga àqueles que foram descritos em tópicos anteriores.
SAIBA MAIS!
Lembre-se sempre que a mediana é um valor que separa os 50% menores valores
dos 50% maiores. Vamos supor que uma determinada divisão de um conjunto de
dados seja em 50 partes iguais. Note que 25 partes são menores ou iguais a mediana
e 25 são maiores. Assim, o valor que ocupa a 25º divisão é a respectiva mediana.
As separatrizes são medidas que dividem um conjunto de dados em “n” partes iguais. O
valor de “n” pode assumir qualquer valor inteiro, por isso, é impossível citarmos todos os tipos de
separatrizes.
Além disso, naquelas em que as divisões não são exatas, é mais difícil de se encontrar os
valores que ocupam cada divisão. No entanto, nada nos impede de fazermos a divisão de um con-
junto de dados em quantas partes quisermos, com os devidos cálculos.
Fechamento
Nesta aula, você teve a oportunidade de:
• entender o conceito de separatrizes;
• aprender sobre os principais tipos de separatrizes;
• saber os cálculos das classificações de separatrizes.
Referências
CRESPO, Antônio. Estatística Fácil. 18. ed. São Paulo: Editora: Saraiva, 2005.
DUQUIA, Rodrigo Pereira; BASTOS, João Luiz Dornelles. Medidas de tendência central: onde a
maior parte dos indivíduos se encontra? Scientia Medica, Porto Alegre, v.16, n. 4, out/dez. 2006.
STEVENSON, William J. Estatística Aplicada à Administração. São Paulo: Editora Harbra, 2001.
Assimetria
José Tadeu de Almeida
Introdução
Nesta aula, aprofundaremos nosso conhecimento sobre a assimetria. Para isso, verificare-
mos quais as situações em que, utilizando-nos de uma distribuição de dados,é possível identificar
se há uma tendência de distribuição de dados ao longo da média, ou se o conjunto possui alguma
desigualdade. Assim, entenderemos o conceito e as características das distribuições simétricas
e assimétricas.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
• identificar os tipos de assimetria baseados na posição relativa entre a média e a
mediana.
1 Conceito de assimetria
Quando pensamos em assimetria, normalmente, estamos considerando uma desigualdade,
uma discrepância, uma tendência. Já a simetria, por sua vez, pressupõe uma organização de ele-
mentos que segue uma ordem, uma coincidência de informações (CRESPO, 2005). Além disso,
na Estatística, quando analisamos uma distribuição de dados associada a uma amostra ou a
uma população, é comum efetuarmos alguns cálculos denominados medidas de posição, como
a média (que denota o ponto equidistante entre os dois extremos de uma distribuição), a mediana
(que divide os dados do conjunto em duas partes iguais) e a moda (o elemento que se repete com
maior frequência).
Deste modo, quando analisamos graficamente esta distribuição, verificamos se ela é simé-
trica, ou seja, igualmente distribuída em relação à média, ou assimétrica, quando há uma diferença
em relação à distribuição de dados em torno da média. Assim, quanto maior for esta diferença,
pode-se dizer que a distribuição é mais assimétrica (CRESPO, 2005).
Para entender melhor o conceito de assimetria, tomemos um exemplo. Um aluno, ao anali-
sar um conjunto de dados, constrói um histograma - uma representação gráfica em colunas, em
que o eixo horizontal apresenta as classes (intervalos de valores) e o eixo vertical apresenta as
frequências (o número de vezes em que se visualizou um certo dado) - verificando como se dá a
distribuição dos valores para uma característica de interesse.
Figura 1 – HistogramaHistograma
Classe
Fr
eq
uê
nc
ia
1 2 3 4 5
5
4
3
2
1
0
Fonte: elaborada pelo autor, 2016.
No exemplo, vimos que a distribuição dos dados é simétrica, pois, em cinco classes, há o
mesmo número de dados distribuídos em torno da média. Mas, como verifi car a simetria de uma
distribuição de dados de um conjunto, ou de uma amostra de várias classes? Nestes casos, utili-
zamos o primeiro Coefi ciente de Assimetria de Pearson (Ap), um valor adimensional que permite a
verifi cação da assimetria, conforme a equação:
=
X Mo-X Mo-
Ap
s
Em que:
Ap = coefi ciente de assimetria;
S = desvio padrão, que é dado pela equação
( )22 1
n
ii
x Xix Xi
n
=
x X−x X∑
cujo quadrado corresponde
à variância;
O somatório ( )∑
n 2
i
i=1
x X−x X−ix Xi mostra os quadrados dos desvios, ou seja, as diferenças de cada dado
xi, sendo i =1, 2, 3... até o último dado, n, em relação à média;
x = média das observações, dada pela fórmula ni=1 /∑
iX x n
nX x nn /X x n/X x n=X x n=∑X x n∑ iX x ni ;
Mo = Moda, ou seja, o elemento que apresenta maior frequência;
= n – número de observações.
Caso um conjunto de dados não possua moda, utilizamos o segundo coefi ciente de assime-
tria de Pearson dado por:
( )3× −(× −(
=
X Md× −X Md× −
Ap
s
Em que Md representa a mediana, o valor que separa os 50% menores dos 50% maiores
valores.
2 Tipos de assimetria
Uma distribuição de frequências pode ser classifi cada como simétrica, assimétrica posi-
tiva ou assimétrica negativa, em função de como os dados e frequências são distribuídos
(CRESPO, 2005).
FIQUE ATENTO!
A distribuição simétrica não é preferível à distribuição assimétrica, ou seja, não há
um critério de qualidade em relação à simetria de um conjunto de dados, uma vez
que as características de interesse devem ser fi xadas pelo pesquisador.
Quando o Coefi ciente de Assimetria de Pearson é igual a zero, observamos que a média é
igual a moda, logo, o ponto que contém a maior frequência corresponde à média, e a distribuição
é perfeitamente simétrica. Na fi gura anterior, temos um exemplo de distribuição simétrica, uma
vez que a moda, a mediana e a média são iguais e estão na terceira classe. Assim, há o mesmo
número de dados à esquerda e à direita desta classe.
Caso haja uma tendência de acumulação das frequências à esquerda ou à direita da moda,
observaremos que esta distribuição possui uma assimetria. Trata-se do chamado “encauda-
mento” (CRESPO, 2005).
3 Distribuições simétricas - características
A distribuição simétrica ocorre quando uma amostra possui uma característica de interesse
que tenha valores igualmente dispostos em torno da moda e da média. Para Stevenson (2001,
p. 48) a distribuição é simétrica quando “a metade esquerda é a imagem refl exa da metade direita”.
A fi gura a seguir representa uma distribuição simétrica.
Figura 2 – Distribuição simétrica
-3 -25 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
Fonte: elaborada pelo autor, 2016.
FIQUE ATENTO!
Em uma distribuição de frequências, a chamada ‘curva normal’ possui uma distri-
buição simétrica, sendo que cerca de 95% dos dados encontra-se em uma distân-
cia inferior a dois desviospadrões em relação à média.
A distribuição simétrica possui as seguintes características:
• x Md Mox Md Mox Md Mo= =x Md Mo , ou seja, a média, mediana e moda se equivalem;
• Ap = 0, o coefi ciente de assimetria é nulo;
• metade do gráfi co é a imagem-espelho da outra.
Portanto, há uma pequena probabilidade de visualização de frequências baixas ou altas nas
primeiras e últimas classes destas distribuições, fazendo com que este tipo de distribuição tenha
a forma de um “sino”.
EXEMPLO
Calculemos o coefi ciente de assimetria do conjunto de dados A = {1,2,2,3,3,3,4,4,5}.
Primeiro, precisamos obter a média, que é dada por:
( )1 2 2 3 3 3 4 4 5/ 3(/ 3( )/ 3)1 2 2 3 3 3 4 4 5/ 31 2 2 3 3 3 4 4 5
9
/ 3
9
/ 3
1 2 2 3 3 3 4 4 5+ + + + + + + +1 2 2 3 3 3 4 4 51 2 2 3 3 3 4 4 5
/ 3
1 2 2 3 3 3 4 4 5+ + + + + + + +1 2 2 3 3 3 4 4 5
/ 3
1 2 2 3 3 3 4 4 5
/ 3= = =/ 3(/ 3(= = =(/ 3( )/ 3)= = =)/ 3)/ 3= = =/ 3∑ iX x n/ 3X x n/ 3X x n/ 3X x n/ 3= = =X x n= = =/ 3= = =/ 3X x n/ 3= = =/ 3X x n= = =X x n= = =∑X x n∑= = =∑= = =X x n= = =∑= = =iX x ni= = =i= = =X x n= = =i= = =nX x nnX x ni=1
A moda é o elemento com a maior repetição: Mo 3Mo 3=Mo 3
A variância desta amostra é dada por:
( )
( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( )
2 2 2 2 2 2(2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2)
2 2 2 2(2 2 2( )2 2 2) (2 2 2( )2 2 2)2 1
1 3 2 3 2 3 3 3 3 3 3 3)1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3(2 2 2 2 2 21 3 2 3 2 3 3 3 3 3 3 32 2 2 2 2 2(2 2 2 2 2 2(1 3 2 3 2 3 3 3 3 3 3 3(2 2 2 2 2 2( )2 2 2 2 2 2)1 3 2 3 2 3 3 3 3 3 3 3)2 2 2 2 2 2) (2 2 2 2 2 2(1 3 2 3 2 3 3 3 3 3 3 3(2 2 2 2 2 2( )2 2 2 2 2 2)1 3 2 3 2 3 3 3 3 3 3 3)2 2 2 2 2 2) (2 2 2 2 2 2(1 3 2 3 2 3 3 3 3 3 3 3(2 2 2 2 2 2( )2 2 2 2 2 2)1 3 2 3 2 3 3 3 3 3 3 3)2 2 2 2 2 2) (2 2 2 2 2 2(1 3 2 3 2 3 3 3 3 3 3 3(2 2 2 2 2 2( )2 2 2 2 2 2)1 3 2 3 2 3 3 3 3 3 3 3)2 2 2 2 2 2) (2 2 2 2 2 2(1 3 2 3 2 3 3 3 3 3 3 3(2 2 2 2 2 2(
4 3 4 3 5 3)4 3 4 3 5 3) (4 3 4 3 5 3( )4 3 4 3 5 3) (4 3 4 3 5 3(2 2 24 3 4 3 5 32 2 2(2 2 2(4 3 4 3 5 3(2 2 2( )2 2 2)4 3 4 3 5 3)2 2 2) (2 2 2(4 3 4 3 5 3(2 2 2( 12 1,500
1 9 1 8
=
1 3 2 3 2 3 3 3 3 3 3 3− + − + − + − + − + −1 3 2 3 2 3 3 3 3 3 3 3)1 3 2 3 2 3 3 3 3 3 3 3)− + − + − + − + − + −)1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3(− + − + − + − + − + −(1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3)− + − + − + − + − + −)1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3(− + − + − + − + − + −(1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3)− + − + − + − + − + −)1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 33 3 3 3(− + − + − + − + − + −(1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3)− + − + − + − + − + −)1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3(− + − + − + − + − + −(1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3)− + − + − + − + − + −)1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3(− + − + − + − + − + −(1 3 2 3 2 3 3 3 3 3 3 3(
+ − + − + −(+ − + − + −(4 3 4 3 5 3+ − + − + −4 3 4 3 5 3)4 3 4 3 5 3)+ − + − + −)4 3 4 3 5 3) (4 3 4 3 5 3(+ − + − + −(4 3 4 3 5 3( )4 3 4 3 5 3)+ − + − + −)4 3 4 3 5 3) (4 3 4 3 5 3(+ − + − + −(4 3 4 3 5 3(
= = = == = = =
(
= = = =
( )
= = = =
) (
= = = =
( )
= = = =
) (
= = = =
( )
= = = =
)
= = = == = = =
− −1 9 1 8− −1 9 1 8
∑k ii x X−x X−ix Xis
n
Deste modo, temos que o desvio padrão amostral é dado pors 2 1,500 1,225= == =2= =2 1,500 1,225= =1,500 1,225
Assim, o coefi ciente de assimetria é
3 3
1,225
− −3 3− −3 3
= = == = == = =
X Mo− −X Mo− −Ap
s . Logo, a distribuição de fre-
quências associado ao conjunto A é simétrica.
SAIBA MAIS!
Na Estatística, as distribuições simétricas associadas a uma curva normal são
muito utilizadas para a formulação de Testes de Hipóteses. Esses testes procuram
validar o comportamento de características de uma população a partir de uma
amostra representativa da mesma.
4 Distribuições assimétricas positivas
A distribuição assimétrica positiva é conhecida pelo nome de distribuição assimétrica à
direita, devido ao fato de a assimetria ser visualizada na parte direita do gráfi co. Na fi gura a seguir,
a distribuição possui um encaudamento (distorção) à direita, indicando que há pequenas probabi-
lidades de ocorrência de valores mais altos em uma distribuição de dados associada a esta curva.
Figura 3 – Distribuição assimétrica positiva
-1.5 -1 -0.5 0 0.5 1 1.5
Fonte: elaborada pelo autor, 2016.
A distribuição assimétrica positiva possui as seguintes características:
• Mo Md xMo Md xMo Md x< <Mo Md x , ou seja, a moda é menor que a mediana, que é menor que a média;
• Ap > 0, ou seja, o coefi ciente de assimetria é maior do que zero;
• o gráfi co não cria imagem-espelho entre as metades.
EXEMPLO
Vamos calcular o coefi ciente de assimetria do conjunto de dados de uma amostra
dado por:
B = {1,1,1,2,2,5,16}.
A média é dada por
( )1 1 1 2 2 5 16/ 4(/ 4( )/ 4)
7
1 1 1 2 2 5 16+ + + + + +1 1 1 2 2 5 16
/ 4= = =/ 4/ 4= = =/ 4∑ iX x n/ 4X x n/ 4X x n/ 4X x n/ 4X x n= = =X x n= = =/ 4= = =/ 4X x n/ 4= = =/ 4= = =X x n= = =∑X x n∑= = =∑= = =X x n= = =∑= = =iX x ni= = =i= = =X x n= = =i= = =nX x nnX x ni=1
A moda é o elemento que apresenta a maior repetição, logo Mo 1Mo 1=Mo 1
A variância amostral é dada por
( )
( ) ( ) ( ) ( ) ( ) ( )
( )
2 2 2 2 2 2(2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2)
2 2
2 1
1 4 1 4 1 4 2 4 2 4 5 4)1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4(2 2 2 2 2 21 4 1 4 1 4 2 4 2 4 5 42 2 2 2 2 2(2 2 2 2 2 2(1 4 1 4 1 4 2 4 2 4 5 4(2 2 2 2 2 2( )2 2 2 2 2 2)1 4 1 4 1 4 2 4 2 4 5 4)2 2 2 2 2 2) (2 2 2 2 2 2(1 4 1 4 1 4 2 4 2 4 5 4(2 2 2 2 2 2( )2 2 2 2 2 2)1 4 1 4 1 4 2 4 2 4 5 4)2 2 2 2 2 2) (2 2 2 2 2 2(1 4 1 4 1 4 2 4 2 4 5 4(2 2 2 2 2 2( )2 2 2 2 2 2)1 4 1 4 1 4 2 4 2 4 5 4)2 2 2 2 2 2) (2 2 2 2 2 2(1 4 1 4 1 4 2 4 2 4 5 4(2 2 2 2 2 2( )2 2 2 2 2 2)1 4 1 4 1 4 2 4 2 4 5 4)2 2 2 2 2 2) (2 2 2 2 2 2(1 4 1 4 1 4 2 4 2 4 5 4(2 2 2 2 2 2(
16 4 180 30
1 7 1 6
=
1 4 1 4 1 4 2 4 2 4 5 4− + − + − + − + − + −1 4 1 4 1 4 2 4 2 4 5 4)1 4 1 4 1 4 2 4 2 4 5 4)− + − + − + − + − + −)1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4(− + − + − + − + − + −(1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4)− + − + − + − + − + −)1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4(− + − + − + − + − + −(1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4)− + − + − + − + − + −)1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4(− + − + − + − + − + −(1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4)− + − + − + − + − + −)1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4(− + − + − + − + − + −(1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4)− + − + − + − + − + −)1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4(− + − + − + − + − + −(1 4 1 4 1 4 2 4 2 4 5 4(
+ −(+ −(16 4+ −16 4
= = = == = = == = = == = = =
− −1 7 1 6− −1 7 1 6
∑k ii x X−x X−ix Xis
n
Como a variância é igual a 30, o desviopadrão associado a esta amostra é
2 30 5,477= == =30 5,477= =30 5,477s
Assim, o coefi ciente de assimetria é
4 1 0,548
5,477
− −4 1− −4 1
= = == = == = =
X Mo− −X Mo− −Ap
s
Como o valor é maior que zero, temos que a distribuição é assimétrica positiva.
Para descobrir o sinal da assimetria (negativa ou positiva), apenas, não é necessário o cálculo
do Coefi ciente de Assimetria, basta observar o sinal da diferença entre a Moda e a Média, uma vez
que o Desvio Padrão é sempre maior ou igual a zero.
Na Demografi a, área que estuda o comportamento da população sob uma perspectiva esta-
tística, podemos encontrar exemplos de distribuições assimétricas. Em muitos países em desen-
volvimento, de menor nível de renda, costuma-se observar um predomínio de habitantes de menor
idade, uma vez que a baixa expectativa de vida e o crescimento populacional recente fazem com
que a porcentagem de idosos nestes grupos seja pequena (CARVALHO, 2004). Assim, quando dis-
tribuímos os dados por faixas etárias, percebemos uma participação muito grande de indivíduos
com idade inferior à média.
FIQUE ATENTO!
Valores extremamente desassociados a uma distribuição de frequências, ou seja,
atípicos, são denominados outliers. Eles prejudicam a análise estatística, pois inter-
ferem no cálculo da média e dos coefi cientes de dispersão e assimetria.
5 Distribuições assimétricas negativas
A distribuição assimétrica negativa recebe a denominação de distribuição assimétrica à
esquerda, pois o “encaudamento” (distorção) está presente na parte esquerda do gráfi co. Uma
distribuição assimétrica negativa pode ser evidenciada quando há dados que estejam mais asso-
ciados a um limite inferior, relacionado a classes ou intervalos de classes mais baixos (classes 1,
2, 3...) para uma característica de interesse, de maneira que poucos valores sejam pertencentes a
estas classes.
Figura 4 – Distribuição assimétrica negativa
-1.5 -1 -0.5 0 0.5 1 1.5
Fonte: elaboradapelo autor, 2016.
A distribuição assimétrica negativa caracteriza-se por:
• x Md Mox Md Mox Md Mo< <x Md Mo , ou seja, a média é menor que a mediana, que é menor que a moda;
• Ap < 0, o coefi ciente de assimetria é menor que zero;
• o gráfi co não cria imagem-espelho entre as metades.
Por exemplo, no conjunto de dados: C = {1,1,2,3,4,4,4}, a média é dada por
n
i=1
( )1 1 2 3 4 4 4/ 2,714(/ 2,714( )/ 2,714)1 1 2 3 4 4 4/ 2,7141 1 2 3 4 4 4
7
/ 2,714
7
/ 2,714
1 1 2 3 4 4 4+ + + + + +1 1 2 3 4 4 4
/ 2,714= = =/ 2,714/ 2,714= = =/ 2,714∑ iX x nnX x nn / 2,714X x n/ 2,714X x n/ 2,714X x n/ 2,714X x n= = =X x n= = =/ 2,714= = =/ 2,714X x n/ 2,714= = =/ 2,714= = =X x n= = =∑X x n∑= = =∑= = =X x n= = =∑= = =iX x ni= = =i= = =X x n= = =i= = =
A moda é 4=Mo
A variância da amostra é
( )22 1
1
==
−
∑k ii x X−x X−ix Xis
n
( ) ( ) ( ) ( ) ( ) ( )
( )
2 2 2 2 2 2(2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2)
2
1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 42,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(2 2 2 2 2 21 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,7142 2 2 2 2 2(2 2 2 2 2 2(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(2 2 2 2 2 2( )2 2 2 2 2 2)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)2 2 2 2 2 2) (2 2 2 2 2 2(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(2 2 2 2 2 2( )2 2 2 2 2 2)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)2 2 2 2 2 2) (2 2 2 2 2 2(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(2 2 2 2 2 2( )2 2 2 2 2 2)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)2 2 2 2 2 2) (2 2 2 2 2 2(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(2 2 2 2 2 2( )2 2 2 2 2 2)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)2 2 2 2 2 2) (2 2 2 2 2 2(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(2 2 2 2 2 2(
4 2,714
7 1
1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714− + − + − + − + − + −1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)− + − + − + − + − + −)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(− + − + − + − + − + −(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)− + − + − + − + − + −)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(− + − + − + − + − + −(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)− + − + − + − + − + −)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(− + − + − + − + − + −(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)− + − + − + − + − + −)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(− + − + − + − + − + −(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)− + − + − + − + − + −)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(− + − + − + − + − + −(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(
+ −(+ −(4 2,714+ −4 2,714
=
7 1−7 1
11,429
6
=
( )22 1 11,429 1,904
1 6
== = == = == = =
−
∑k ii x X−x X−ix Xis
n
Logo, o desvio padrão amostral é 2 1,904 1,38= == =2= =2 1,904 1,38= =1,904 1,38s . Assim, temos que o coefi ciente de assi-
metria é
2,714 4 0,932
1,38
− −2,714 4− −2,714 4
= = = −= = = −= = = −
X Mo− −X Mo− −Ap
s . Como Ap é menor que zero, a distribuição é assimé-
trica negativa. Aqui, da mesma forma que no exemplo anterior, não é necessário o cálculo do
Coeficiente de Assimetria para saber o sinal da assimetria, pois como a Média (2,714) é menor que
a Moda (4), a assimetria é negativa.
Para sabermos se uma distribuição é pouco ou muito assimétrica, com base na análise do
coefi ciente de assimetria de Pearson, temos de tomar o módulo, que representa os valores abso-
lutos, de tal coefi ciente. Assim, temos que, caso o valor, em módulo, para o coefi ciente seja inferior
a 1, a distribuição é pouco assimétrica. No entanto, quando o valor é superior a 1, a distribuição é
muito assimétrica.
SAIBA MAIS!
Conheça exemplos de distribuições simétricas e assimétricas no estudo do Instituto
Brasileiro de Geografi a e Estatística (IBGE) sobre a população brasileira. Acesse:
http://www.ibge.gov.br/home/presidencia/noticias/imprensa/ppts/00000014425
608112013563329137649.pdf .
Fechamento
Nesta aula, você teve a oportunidade de:
• entender o que são distribuições simétricas e assimétricas;
• conhecer o Coefi ciente de Assimetria de Pearson;
• conhecer a classifi cação das distribuições assimétricas.
Referências
CARVALHO, José Alberto Magno. Crescimento populacional e estrutura demográfica no Brasil.
Texto para Discussão. n. 227, Cedeplar/UFMG, 2004. Disponível em: <http://cedeplar.face.ufmg.
br/pesquisas/td/TD%20227.pdf>. Acesso em: 17 fev 2017.
CRESPO, Antonio. Estatística Fácil. São Paulo: Saraiva, 2005.
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA (IBGE). Projeção da população por sexo
e idade: Brasil 2000-2060. Disponível em: <http://www.ibge.gov.br/home/presidencia/noticias/
imprensa/ppts/00000014425608112013563329137649.pdf.>. Acesso em: 13 fev. 2017.
STEVENSON, William J. Estatística Aplicada à Administração. São Paulo: Editora Harbra, 2001.
ESTATÍSTICA
Ana Laura Bertelli Grams
Distribuições de
probabilidade: esperança
matemática, variância
e desvio-padrão
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Resolver cálculos de esperança matemática.
� Definir medidas de dispersão.
� Realizar cálculos de variância e desvio-padrão.
Introdução
A análise estatística e a inferência sobre populações com base em amostras
dependem de muitas medidas para que a tomada de decisões seja a
melhor possível. Em estatística, dizemos que, quanto mais informações
das características da variável em estudo tivermos, mais acertada será
nossa decisão sobre ela. Neste capítulo, você descobrirá o que significa
esperança matemática, variância e desvio-padrão.
Esperança matemática
A inferência estatística baseia-se no estudo de dados amostrais, e a busca da
estimativa amostral (ou do valor esperado) ocorre para podermos estimar o
verdadeiro parâmetro populacional para a tomada de decisão. A esperança
matemática (estimativa) estuda como prever medidas populacionais desco-
nhecidas, fundamentadas em resultados conhecidos na amostra.
A rotina das pessoas é estabelecida pela inferência de fatos amostrais.
Os exemplos citados por Milone (2006) revelam a naturalidade dessas apli-
cações: em dias em que o céu está recheado de nuvens escuras, inferimos a
possibilidade de chuvas; o fato de haver muita fumaça em uma edificação
remete a uma eventualidade de um incêndio. Esses casos são eventos prováveis,
mas nem sempre acontecem de fato.
Na prática, há diversos fatos que buscam pela estimação e baseiam suas
previsões, por exemplo, de vendas, de eleitores, de defeitos das peças em
uma linha de produção, dos custos dos produtos, de dívidas, entre outros.
Os dados descritivos amostrais são estimadores dos parâmetros populacionais.
Por exemplo, a média amostral e a proporção amostral são consideradas esti-
mativas pontuais, quando apresentadas a partir de um único número (ponto).
Para estudos estatísticos, utilizamos com mais frequência a estimação por
intervalo, que fornece um intervalo de valores possíveis, admitindo uma
margem de confiança, considerando a estimativa pontual.
Suponha que 500 pessoas são questionadas sobre seu consumo anual de carne
vermelha, e a média amostral seja de 20 kg por pessoa, com desvio-padrão de 0,2 kg.
� A média amostral de 20 kg é uma estimativa pontual para o consumo anual de
carne vermelha por pessoa.
� A média da população provavelmente está próxima de 20 kg, mas, possivelmente,
não é exatamente igual a 20 kg.
O intervalo de confiança estima o quanto a média amostral aproxima-se da média
populacional.
Se o intervalo de confiança fosse 20 ± 0,08, poderíamos calcular um nível de confiança
que define a média populacional no intervalo ]19,92; 20,08[.
Cálculo
Seja p a probabilidade de um evento S ocorrer, a esperança matemática (E)
é definida por:
E = p ∙ S
Distribuições de probabilidade: esperança matemática, variância e desvio-padrão2
Em um conjunto de dados de uma variável aleatória discreta x1, x2, ..., xn,
em que a probabilidade de cada dado é p1, p2, ..., pn, respectivamente, define-se
esperança matemática por:
E(x) = p1 ∙ x1 + p2 ∙ x2 + ... pn ∙ xn
Ou seja,
E(x) = ∑ pi · xi
n
i = 1
Duas moedas são jogadas 14 vezes, e os resultados foram:
� 5 jogadas sem nenhum resultado cara;
� 6 jogadas, sendo apenas uma moeda cara;
� 3 jogadas, sendo as duas moedas cara.
Qualé o valor esperado de caras por lançamento?
Temos que a probabilidade de nenhum resultado cara é: 5
14
, de apenas uma moeda
ser cara: 6
14
; e de as duas moedas serem cara: 3
14
.
Assim, a esperança da variável cara ocorrer, por lançamento, é:
5
14
6
14
3
14
∙ 0 + ∙ 1 + ∙ 2 = = 0,865 ∙ 0 + 6 ∙ 1 + 3 ∙ 2
14
Medidas de dispersão
O estudo das medidas de posição é útil para fornecer boa parte das carac-
terísticas de um conjunto de dados. Contudo, existem outros parâmetros
que complementam a caracterização dos conjuntos, principalmente quando
estes possuem uma disparidade consideravelmente grande para uma simples
análise por medidas de posição. Chamamos esses parâmetros de medidas de
dispersão, e eles indicam a variabilidade da variável em torno de uma medida
de posição — comumente, a média aritmética.
3Distribuições de probabilidade: esperança matemática, variância e desvio-padrão
Amplitude
A amplitude é o mesmo que a variação entre dois elementos. Em um conjunto
de dados, a amplitude total é encontrada por meio do cálculo da diferença
entre o limite superior e o limite inferior, conforme segue:
Ar = xmáx – xmin
onde xmáx representa o limite superior, e xmin, o limite inferior.
A amplitude é considerada uma medida instável, pois é influenciada pelas
extremidades dos conjuntos. As próximas medidas não possuem essa caracte-
rística, já que consideram todos os valores sob análise, sendo, assim, medidas
mais utilizadas e com índices de variabilidade estáveis.
Desvio médio
O desvio médio é uma medida de dispersão, pela qual temos a média dos des-
vios em relação a uma medida de posição, podendo ser a média das diferenças
absolutas entre cada elemento do conjunto e a média aritmética. A seguinte
expressão representa o desvio médio da população:
D– m =
∑|x – μ|
N
onde x representa cada elemento do conjunto de dados, μ, a média da
população, e N, a quantidade de desvios. Contudo, os dados analisados, na
maioria dos estudos estatísticos, referem-se a uma amostra. Assim, para o
cálculo do desvio médio amostral, utiliza-se a seguinte expressão, a qual
fornece uma estimativa sem tendenciosidade do desvio médio da população.
d
–
m =
∑|x – x–|
n – 1
onde x representa cada elemento do conjunto de dados, x–, a média da
população, e n, a quantidade de elementos na amostra.
Distribuições de probabilidade: esperança matemática, variância e desvio-padrão4
Perceba que o desvio médio é uma medida não negativa. Por isso, calcula-se o módulo
(valor absoluto) de cada desvio, pois entre cada uma das diferenças (de cada um dos
valores com relação à média) pode-se ter valores positivos ou negativos. Ao se aplicar
o módulo, elimina-se esse sinal.
Variância
A variância da população baseia-se no desvio médio. Para seu cálculo, os
desvios em torno da média do conjunto são elevados ao quadrado. Sendo assim:
σ2 =
∑(xi – μ)
2
N
Em que xi representa cada elemento, μ, a média da população, e N, a quan-
tidade de observações. A mesma explicação dada no cálculo do desvio médio
vale para a variância, de modo que a variância de uma amostral é dada por:
s2 =
∑(xi – x
–)2
n – 1
onde 𝜎² é o valor numérico da variância, xi, representa cada elemento, x
–,
a média aritmética amostral, e n, o tamanho da amostra.
Uma interpretação razoável do valor numérico da variância é dada por
Anderson et al. (2006), quando sugere que a variância seja considerada como
uma medida útil ao comparar a variabilidade entre variáveis, de modo que,
em uma comparação de variáveis, aquela que tem a maior variância exibe
maior variabilidade.
Desvio-padrão
A medida de dispersão, chamada desvio-padrão, é definida como a raiz qua-
drada positiva da variância, simplesmente denotada por σ = √σ2, desvio-padrão
da população.
5Distribuições de probabilidade: esperança matemática, variância e desvio-padrão
O interesse em calcular e considerar o desvio-padrão como uma medida
útil na análise estatística é que a variância se restringe a uma análise das
unidades elevadas ao quadrado — por exemplo, a variância de medidas de
comprimento é dada em medidas de área, enquanto que o desvio-padrão é
medido nas mesmas unidades que os dados originais. Sendo assim, é facilmente
comparado a outras medidas de posição ou outros dados estatísticos.
Há, ainda, uma descrição de dados muito utilizada e derivada do desvio-padrão: o
coeficiente de variação. Este é utilizado quando queremos comprar dois ou mais
grupos de dados quanto à sua variabilidade e temos médias aritméticas distintas.
Quanto menor for o coeficiente de variação, mais homogêneos serão os dados.
Para casos com coeficiente de variação muito elevado, a média nem sempre será a
medida de posição mais apropriada para resumir a variável. O coeficiente de variação
é calculado em situações em que é preciso indicar o “tamanho” de , em relação à
média aritmética.
Ele é expresso em porcentagem, a partir de σ
x–
∙ 100 % .
Cálculos de variância e desvio-padrão
A aplicação das expressões matemáticas indicadas anteriormente será mostrada
aqui, a partir de alguns exemplos de cálculos de cada medida de dispersão.
A resistência é uma característica importante para analisar materiais pré-fabricados.
Cada um dos 8 elementos de placas pré-fabricadas de concreto foi submetido a um
teste de tensão, e a largura máxima (mm) das trincas resultantes foi registrada no
seguinte quadro:
0,794 3,870 0,483 0,924
2,230 1,038 1,285 0,598
Distribuições de probabilidade: esperança matemática, variância e desvio-padrão6
Qual é o desvio-padrão da largura das trincas?
Solução:
Para a resolução, utilizaremos três etapas: o cálculo da média, o cálculo da variância
e, por fim, o desvio-padrão.
1. Cálculo da média aritmética:
x– = ∑x
n
x– = 0,794 + 3,870 + 0,483 + 0,924 + 2,230 + 1,038 + 1,285 + 0,598
8
x– = 1,4 mm
2. Cálculo da variância:
A partir da média, calculamos os desvios de cada elemento.
s2 =
∑(xi – x
–)2
n – 1
σ2 = (0,794 – 1,4)
2 + (3,87 – 1,4)2 + (0,483 – 1,4)2 + (0,924 – 1,4)2 + (2,23 – 1,4)2 + (1,038 – 1,4)2 + (1,285 – 1,4)2 + (0,598 – 1,4)2
8 – 1
s2 =
9,012
7
= 1,287 mm2
3. Cálculo do desvio-padrão:
Sendo a variância 1,287, temos que:
s = √1,287 = 1,135 mm
Qual é o desvio-padrão da vida útil (em horas) de um determinado tipo de lâmpada,
considerando as 20 observações amostrais a seguir?
xi fi
612 4
666 3
7Distribuições de probabilidade: esperança matemática, variância e desvio-padrão
xi fi
744 6
883 5
964 2
Total 20
Solução:
As mesmas etapas do exemplo anterior devem ser seguidas. Entretanto, agora temos
uma distribuição de frequências. Para o cálculo da média, será necessário multiplicarmos
cada variável (vida útil) pela sua respectiva frequência.
1. Cálculo da média aritmética:
x– =
∑(xi · fi)
∑fi
x– =
(612 · 4) + (666 · 3) + (744 · 6) + (883 · 5) + (964 · 2)
4 + 3 + 6 + 5 + 2
x– =
15.253
20
= 762,65 h
2. Cálculo da variância:
s2 =
∑(xi – x
–)2
n – 1
σ2 = 4 · (612 – 762,65)
2 + 3 · (666 – 762,65)2 + 6 · (744 – 762,65)2 + 5 · (883 – 762,65)2 + 2 · (964 – 762,65)2
20 –1
s2 =
274.396,6
19
= 14.441,93 h2
3. Cálculo do desvio-padrão:
s = √14441,93 = 120,17 h
Distribuições de probabilidade: esperança matemática, variância e desvio-padrão8
Os dados a seguir representam o tempo (em segundos) para carga de um aplicativo,
num sistema compartilhado.
Classes de tempo Número de observações
[6, 7[ 14
[7, 8[ 4
[8, 9[ 7
[9, 10[ 3
[10, 11[ 0
[11, 12[ 0
[12, 13[ 2
Total 30
Determine o desvio-padrão e o coeficiente de variação dessa amostra.
Solução:
Nesse caso, temos uma distribuição de frequência em intervalos de classe. Por isso,
precisamos encontrar o ponto médio de cada intervalo para, então, calcular a média
e prosseguir com os cálculos das medidas de dispersão.
Classes de
tempo
xi (ponto médio
da classe)
Número de
observações
[6, 7[ 6,5 14
[7, 8[ 7,5 4
[8, 9[ 8,5 7
[9, 10[ 9,5 3
[10, 11[ 10,5 0
[11, 12[ 11,5 0
[12, 13[ 12,5 2
Total 30
9Distribuições de probabilidade: esperançamatemática, variância e desvio-padrão
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística aplicada à administração e
economia. 2. ed. São Paulo: Cengage Learning, 2008.
MILONE, G. Estatística: geral e aplicada. São Paulo: Thomson Learning, 2006.
Leitura recomendada
MORETTIN, L. G. Estatística básica: probabilidade e inferência. São Paulo: Pearson Pren-
tice Hall, 2010.
1. Cálculo da média aritmética:
x– = (6,5 · 14) + (7,5 · 4) + (8,5 · 7) + (9,5 · 3) + (10,5 · 0) + (11,5 · 0) + (12,5 · 2)
14 + 4 + 7 + 3 + 0 + 0 + 2
x– = 234
30
= 7,8 s
(Em distribuições de frequência como essas, os valores de x_i são expressos pelos
respectivos pontos médios dos intervalos de classe).
x– = (6,5 · 14) + (7,5 · 4) + (8,5 · 7) + (9,5 · 3) + (10,5 · 0) + (11,5 · 0) + (12,5 · 2)
14 + 4 + 7 + 3 + 0 + 0 + 2
x– = 234
30
= 7,8 s
2. Cálculo da variância:
s2 =
∑(xi – x
–)2
n – 1
s2 = 14 · (6,5 – 7,8)
2 + 4 · (7,5 – 7,8)2 + 7 · (8,5 – 7,8)2 + 3 · (9,5 – 7,8)2 + 2 · (12,5 – 7,8)2
30 –1
s2 =
80,3
29 = 2,769 s
2
3. Cálculo do desvio-padrão:
s = √2,769 = 1,664 s
Distribuições de probabilidade: esperança matemática, variância e desvio-padrão10
Conteúdo:
Cálculo de probabilidade
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Diferenciar eventos mutuamente excludentes de eventos comple-
mentares.
� Distinguir eventos independentes de eventos dependentes.
� Realizar cálculos simples de probabilidade.
Introdução
Neste texto, você vai estudar um dos conceitos mais importantes da
estatística: a probabilidade. A partir dele, você terá informações adicionais
da situação que está analisando e, com isso, mais êxito na tomada de
decisões.
Probabilidade
A teoria das probabilidades é um ramo da matemática que cria, elabora e
pesquisa modelos para estudar experimentos ou fenômenos aleatórios.
Há certos fenômenos (ou experimentos) que, embora sejam repetidos muitas
vezes e sob condições idênticas, não apresentam os mesmos resultados. Por
exemplo, no lançamento de uma moeda perfeita, o resultado é imprevisível,
não se pode determiná-lo antes de ser realizado e não podemos prever, mas
podemos saber quais são os possíveis resultados. Aos fenômenos (ou expe-
rimentos) desse tipo damos o nome de fenômenos aleatórios (ou casuais).
Pelo fato de não sabermos o resultado exato de um fenômeno aleatório é
que buscamos os resultados prováveis, as chances e as probabilidades de um
determinado resultado ocorrer.
Identificação interna do documento PYDB0XJZAK-D1SFU31
Segundo Mann, a probabilidade corresponde à medida numérica da possibilidade de
que um determinado evento venha a ocorrer.
Espaço amostral
Em um experimento (ou fenômeno) aleatório, o conjunto formado por todos
os resultados possíveis é chamado espaço amostral, que vamos indicar por
U ou Ω.
Veja os seguintes exemplos.
� Lançar uma moeda e observar a face voltada para cima: U = {cara,
coroa}.
� Lançar um dado e observar a face voltada para cima: U = {1, 2, 3, 4, 5, 6}.
Evento
Chama-se evento todo subconjunto de um espaço amostral, ou seja, os resul-
tados que poderão ocorrer em um determinado fenômeno. Resultados esses
que queremos que aconteçam ou não.
No lançamento de um dado, por exemplo, em relação à face voltada para
cima, podemos ter os seguintes eventos.
� O número é par: {2, 4, 6}.
� O número é menor que 5: U = {1, 2, 3, 4}.
� O número é 8: {}.
Cálculo de probabilidade2
Identificação interna do documento PYDB0XJZAK-D1SFU31
Uma urna contém 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso e se
observa o número indicado. Descrever de forma explícita os seguintes conjuntos e
dar o número de elementos de cada um:
a) o espaço amostral U.
b) o evento A: o número da bola é ímpar.
c) o evento B: o número da bola é múltiplo de 3.
Solução:
a) O conjunto de todos os resultados possíveis é representado pelo seguinte espaço
amostral: U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}. O número de elementos desse conjunto é n(U) = 10.
b) Se o número da bola é ímpar, temos o evento: A = {1, 3, 5, 7, 9}. O número de
elementos desse conjunto é n(A) = 5.
Se o número da bola é múltiplo de 3, temos o evento: B = {3, 6, 9}. O número de
elementos desse conjunto é n(B) = 3.
Eventos mutuamente excludentes e eventos
complementares
Eventos que não podem ocorrer conjuntamente são conhecidos com eventos
mutuamente excludentes (também chamados de eventos mutuamente exclu-
sivos). Caso dois ou mais eventos sejam mutuamente excludentes, no máximo
um deles irá ocorrer a cada vez que repetirmos o experimento. Por conseguinte,
a ocorrência de um evento exclui a ocorrência do outro, ou de outros eventos.
Considerando, por exemplo, dois lançamentos de uma moeda, esse expe-
rimento tem quatro resultados possíveis: cara/cara, cara/coroa, coroa/cara,
coroa/coroa. Esses resultados são mutuamente excludentes, uma vez que um,
e somente um, deles irá ocorrer ao lançarmos a moeda duas vezes.
Chama-se evento complementar de um evento A e é representado por Ā
o conjunto formado por todos os elementos do espaço amostral U que não
pertencem ao evento A.
No lançamento de um dado, temos o seu espaço amostral: U = {1, 2, 3, 4,
5, 6}. Considere os eventos a seguir.
� O evento A: o número obtido é menor que 3.
� O evento Ā: o número obtido é maior ou igual a 3.
3Cálculo de probabilidade
Identificação interna do documento PYDB0XJZAK-D1SFU31
Observe que os eventos A = {1, 2} e Ā = {3, 4, 5, 6}. Estes são complemen-
tares, pois, A ∩ Ā = { } e A Ā = U, a interseção (o que há de comum entre os
conjuntos) entre os dois conjuntos resulta em um resultado vazio, visto que
os dois conjuntos não possuem resultados em comum, e a união (unir todos
os elementos dos conjuntos envolvidos) entre os dois conjuntos resulta no
conjunto espaço amostral U.
Eventos independentes e eventos dependentes
Dois eventos são independentes quando a ocorrência ou a não ocorrência de um
evento não tem efeito algum na probabilidade de ocorrência do outro evento.
Dois eventos são dependentes quando a ocorrência ou a não ocorrência de um
evento afeta a probabilidade de ocorrência do outro evento.
Os eventos independentes e dependentes são chamados de com e sem
reposição, respectivamente.
Com reposição significa o retorno do evento sorteado ao seu conjunto de
origem. É isso que mantém a probabilidade de sorteio constante, portanto,
não se altera a probabilidade de sorteio do evento seguinte.
Sem reposição significa o não retorno do evento sorteado ou do seu con-
junto de origem, alterando a probabilidade de sorteio do evento seguinte.
Exemplo de evento independente:
Dois lançamentos sucessivos de uma moeda não viciada são considerados
como eventos independentes, uma vez que o resultado do primeiro lançamento
não tem efeito algum nas probabilidades de ocorrer uma cara ou uma coroa
no segundo lançamento.
Exemplo de evento dependente:
A retirada de duas bolas, sem reposição, de uma urna contendo 20 bolas
numeradas de 1 a 20 são dependentes, pois as probabilidades do resultado
da retirada da segunda bola estão diretamente ligadas a retirada da primeira
bola. Especificamente, se na primeira bola retirada saiu a de número 10, e
se não houver reposição, com certeza não existirá a probabilidade de que, na
segunda retirada, a bola 10 apareça, pois esta não se encontra mais na urna, ou
seja, a primeira retirada afetou completamente as probabilidades de retirada
da segunda bola.
Cálculo de probabilidade4
Identificação interna do documento PYDB0XJZAK-D1SFU31
Todo experimento que tiver dois ou mais eventos e aparecer no enunciado as palavras
com reposição ou sem reposição, automaticamente já saberemos se são indepen-
dentes (com reposição) ou dependentes (sem reposição).
Cálculo de probabilidade
Como se calcular questões e/ou experimentos de probabilidade? Considere
uma área muito visitada no Museu de Animais. Em um recipiente, existem
12 aranhas, das quais 8 são fêmeas. A probabilidadede se retirar uma aranha
macho para um experimento é de?
No lançamento de um dado perfeito, qual é a probabilidade de sair um
número maior do que 4?
Em uma urna existem 20 bolas numeradas de 1 a 20. Sorteando-se uma
bola, ao acaso, qual é a probabilidade, em porcentagem, de que o número da
bola sorteada seja divisível por 3?
Considere o lançamento de três dados comuns. Qual é a probabilidade de
que a soma dos valores sorteados seja igual a 5?
Maria ganhou de João nove pulseiras, quatro delas de prata e cinco de
ouro. Maria ganhou de Pedro onze pulseiras, oito delas de prata e três de ouro.
Ela guarda todas essas pulseiras – e apenas essas – em sua pequena caixa de
joias. Uma noite, arrumando-se apressadamente para ir ao cinema com João,
Maria retira, ao acaso, uma pulseira de sua pequena caixa de joias. Ela vê,
então, que retirou uma pulseira de prata. Levando em conta tais informações,
a probabilidade de que a pulseira de prata que Maria retirou seja uma das
pulseiras que ganhou de João é igual a?
Uma urna contém 8 bolas, das quais três são vermelhas e as restantes são
brancas. Qual a probabilidade de, ao retirar duas bolas sucessivamente, sem
reposição, obtermos a 1ª vermelha e a 2ª branca?
Para se calcular as probabilidades de ocorrer determinado evento, como os
casos apresentados acima, além dos conceitos de espaço amostral, eventos e
tipos de eventos, apresentados neste capítulo anteriormente, foi preciso saber
diferenciar os tipos de probabilidade, que veremos adiante: probabilidade
de um evento em um espaço amostral finito; probabilidade condicional; e
probabilidades de eventos independentes. Além de sabermos apresentar os
5Cálculo de probabilidade
Identificação interna do documento PYDB0XJZAK-D1SFU31
cálculos de probabilidade nas 3 maneiras diferentes de apresentação: valor
fracionário, valor numérico e valor percentual.
Resultados da probabilidade
Como citado anteriormente, podemos apresentar os resultados obtidos nos
cálculos de probabilidade de três maneiras diferentes.
� Valor fracionário: quando se faz um cálculo de probabilidade, como
veremos adiante, o primeiro resultado obtido é o fracionário, em que
temos um número que fica na parte superior da fração, chamado de
numerador, e outro valor, na parte inferior da mesma fração, chamado
de denominador (a/b).
1. Exemplo: 2
5
.
� Valor numérico: quando acharmos o valor fracionário e realizarmos
a divisão proposta, ou seja, o numerador (em cima) dividido pelo de-
nominador (embaixo) obterá um resultado, que chamaremos de valor
numérico. É o resultado da divisão do valor fracionário.
2. Exemplo: 25 = 0,40 .
� Valor percentual: ao chegarmos ao valor numérico, podemos trans-
formar qualquer um deles em valor percentual, apenas multiplicando
o valor por 100 (cem) e após colocar o símbolo de porcentagem (%).
3. Exemplo: 0,40 × 100 = 40% (quarenta por cento).
Os resultados podem ser apresentados em qualquer uma das três maneiras,
isso vai depender do que for pedido no enunciado de algum problema/questão/
experimento.
Probabilidade de um evento em
um espaço amostral finito
A probabilidade de um evento em um espaço amostral finito também é co-
nhecida como probabilidade clássica. A regra da probabilidade clássica é
aplicada para se calcularem as probabilidades de eventos a um experimento
para o qual os resultados sejam igualmente possíveis.
Dado um experimento aleatório, sendo U o seu espaço amostral, vamos
admitir que todos os elementos de U tenham a mesma chance de acontecer.
Cálculo de probabilidade6
Identificação interna do documento PYDB0XJZAK-D1SFU31
Chamamos de probabilidade de um evento A o número real P(A), tal que:
P(A) = n(A)n(U)
, em que: n(A) é o número de elementos do conjunto A e n(U)
é o número de elementos do conjunto U.
Em outras palavras:
P(A) =
número de casos favoráveis
número total de casos possíveis
Todas as possíveis respostas favoráveis (eventos) são divididas por todas
de respostas possíveis (espaço amostral).
Encontre a probabilidade de se obter um número par em um lançamento de um dado.
Solução:
Esse experimento tem um total de seis resultados: 1, 2, 3, 4, 5 e 6. Todos estes são
igualmente possíveis. Considere A um evento em que um número par seja observado
no dado. O evento A inclui três resultados possíveis: 2, 4 e 6, ou seja,
A = {2, 4, 6}
Caso qualquer um desses três números seja obtido, considera-se que o evento A
tenha ocorrido. Assim sendo,
P(A) = número de casos favoráveis
número total de casos possíveis
P(A) = 36 . Simplificando, ou seja, dividindo o numerador e o denominador pelo
mesmo valor, neste caso, dividindo os dois valores por 3, obtemos: 1
2
(valor fracionário).
Se dividirmos o valor fracionário 1
2
, ou seja, 1 ÷ 2 = 0,50 (valor numérico).
E se multiplicarmos por 100 esse valor numérico, iremos obter o valor fracionário:
0,50 x 100 = 50% (cinquenta por cento).
Resumindo: qualquer uma das 3 respostas são iguais (válidas) e podem ser
apresentadas.
1
2
= 0,50 = 50%
Interpretando o resultado obtido:
1
2
– a cada 2 vezes que o dado for jogado, temos a probabilidade de 1 dessas
jogadas ser o valor par.
0,5 – a probabilidade de acontecer um evento é exatamente a metade, ou seja,
cada vez que se joga 2 vezes o dado, a probabilidade é que a metade das vezes (0,5)
aconteça de sair o valor par.
50% – a probabilidade de acontecer o evento favorável, no caso números pares, é
de exatamente 50% a cada 2 vezes que for jogado o dado.
7Cálculo de probabilidade
Identificação interna do documento PYDB0XJZAK-D1SFU31
Os valores do espaço amostral: no exemplo acima, foi jogado apenas um dado. Como
ficaria o valor do espaço amostral se jogássemos, ao mesmo tempo, 2, 3 ou mais dados?
Ao jogarmos 1 dado, chegamos a conclusão de que teremos 6 possíveis respostas,
todas as mesmas possibilidades. Mas, ao jogarmos 2 dados ao mesmo tempo, esse
valor não será o mesmo. Vamos pensar um pouco e verificar as possíveis respostas: (1,
1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4),
(3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6,
2), (6, 3), (6, 4), (6, 5) e (6, 6). Isso totaliza 36 possíveis respostas, mas podemos chegar
a esse valor de uma maneira muito mais rápida, utilizando a seguinte operação: 6n.
n é a quantidade de dados que estão sendo utilizados.
Dois dados: 62 = 6 × 6 = 36.
Três dados: 63 = 6 × 6 × 6 = 216.
E assim por diante.
No início do texto referente ao título Cálculo de probabilidade, apresentamos
várias questões sobre probabilidade. Vamos aproveitar agora que aprendemos
a calcular a probabilidade de um evento em um espaço amostral finito (pro-
babilidade clássica) e resolvermos estas:
1. Considere uma área muito visitada do Museu de Animais. Em um
recipiente existem 12 aranhas, das quais 8 são fêmeas. A probabilidade
de se retirar uma aranha macho para um experimento é de quanto?
Solução:
No total, existem 12 aranhas no recipiente e todas elas possuem a mesma
possibilidade de serem sorteadas (espaço amostral) e queremos sortear aranhas-
-macho. Se o problema apresenta que 8 das aranhas são fêmeas, então 4 são
machos (evento).
Colocando os valores na fórmula:
P(A) =
número de casos favoráveis
número total de casos possíveis
P(A) =
4
12
P(A) = 13 (valor fracionário, que significa que a cada 3 aranhas retiradas,
temos a probabilidade 1 delas ser macho).
Cálculo de probabilidade8
Identificação interna do documento PYDB0XJZAK-D1SFU31
Ou P(A) = 13 = 0,333 ... (valor numérico).
Ou P(A) = 0,333... x 100 = 33,33% (valor percentual).
2. No lançamento de um dado perfeito, qual é a probabilidade de sair um
número maior do que 4?
Solução:
Um dado possui 6 faces numeradas, ou seja, os números 1, 2, 3, 4, 5 e 6
possuem as mesmas possibilidades, ao jogarmos o dado, da face desse número
cair voltada para cima (espaço amostral). Oproblema pede a probabilidade de
sair a face para cima de um número maior do que 4. Temos como possíveis
respostas os números 5 e 6 (evento).
Colocando na fórmula:
P(A) = 2
6
, simplificando (dividindo os dois valores por 2), obtemos o valor
final de 1
3
.
Ou P(A) = 1
3
= 0,333 ... (valor numérico).
Ou P(A) = 0,333... x 100 = 33,33% (valor percentual).
3. Em uma urna existem 20 bolas numeradas de 1 a 20. Sorteando uma
bola, ao acaso, qual é a probabilidade, em porcentagem, de que o número
da bola sorteada seja divisível por 3?
Solução:
Na urna existem 20 bolas numeradas de 1 a 20, em que todas possuem a
mesma possibilidade de serem retiradas (espaço amostral). O problema quer
calcular a probabilidade de se retirar uma bola, cujo número seja divisível por
3. Esses números são: 3, 6, 9, 12, 15 e 18, ou seja, temos 6 possíveis números
que são favoráveis ao que o problema está solicitando (evento).
Colocando na fórmula:
P(A) = 6
20, simplificando, fica como resultado final
3
10 (a cada 10 retiradas
de bolas, temos a probabilidade de 3 delas serem divisíveis por 3).
Ou P(A) = 3
10
= 0,3 (valor numérico).
Ou P(A) = 0,3 x 100 = 30% (valor percentual).
9Cálculo de probabilidade
Identificação interna do documento PYDB0XJZAK-D1SFU31
4. Considere o lançamento de três dados comuns. Qual é a probabilidade
de que a soma dos valores sorteados seja igual a 5?
Solução:
Em primeiro lugar, precisamos calcular o valor do espaço amostral e da
quantidade de possíveis respostas. Utilizando a operação que foi citada no
Fique Atento acima, como estamos jogando 3 dados ao mesmo tempo, vamos
utilizar a operação: 6n.
63 = 216 possíveis respostas.
O problema está solicitando as respostas em que a soma de todos os dados
ao mesmo tempo sejam 5. Vamos achar essas possíveis respostas: (1, 1, 3), (1,
3, 1), (3, 1, 1), (1, 2, 2), (2, 1, 2) e (2, 2, 1), totalizando 6 possíveis respostas
favoráveis.
Colocando na fórmula:
P(A) = 6216. Simplificando, ou seja, dividindo os dois valores por 6, chega-
mos ao valor final 1
36
(valor fracionário). A cada 36 vezes que jogarmos os 3
dados ao mesmo tempo, 1 das jogadas dará como soma de todos os números
o valor 5.
Ou P(A) = 136 = 0,02777 ...
Ou P(A) = 0,02777... x 100 = 2,77% (valor percentual).
Probabilidade condicional
Se a probabilidade de ocorrência de um evento B interfere na probabilidade
de ocorrência de um evento A, então dizemos que a probabilidade de A está
condicionada à probabilidade de B e representamos por P(A/B). Lê-se: pro-
babilidade de A dado B.
A/B significa a ocorrência do evento A sabendo que o evento B já ocorreu
ou que a ocorrência de B esteja garantida (os eventos A e B são dependentes).
P(A/B) =
n(A ∩ B)
n(B)
Cálculo de probabilidade10
Identificação interna do documento PYDB0XJZAK-D1SFU31
Para se calcular uma probabilidade condicional, no denominador se coloca o total de
possíveis respostas da condição e, no denominador, coloque a quantidade de possíveis
respostas favoráveis (eventos) dentro da condição.
Uma concessionária A tem em seu estoque 25 carros de um modelo B. O quadro a
seguir divide os 25 carros disponíveis em tipo de motor e cor.
Motor
Cor
Branca Preta Prata Vermelha
1.0 2 2 5 1
1.6 1 1 4 1
2.0 2 2 3 1
Um carro do modelo B foi comprado nessa concessionária. Dado que esse carro é
de cor prata, qual a probabilidade que seu motor seja 1.0?
Solução:
Esse problema de probabilidade é um caso de probabilidade condicional, pois
o cálculo está condicionado à informação de que já sabemos que o carro é prata
(condição). Utilizando a fórmula da probabilidade condicional:
P(A/B) = n(A ∩ B)
n(B)
No denominador colocamos a quantidade de possíveis respostas da condição (cor
prata), conforme tabela. Verificou-se que a concessionária possui 12 carros pratas.
Na parte superior, no numerador, colocamos as possibilidades de respostas favoráveis
(motor 1.0) dentro dos carros de cor prata: 5 carros com motor 1.0 e que são de cor prata.
P(A/B) = 5
12
(valor fracionário).
P(A/B) = 5
12 = 0,4166...
(valor numérico).
P(A/B) = 0,4166... x 100 = 41,66% (valor percentual).
11Cálculo de probabilidade
Identificação interna do documento PYDB0XJZAK-D1SFU31
Resolvendo o problema citado anteriormente:
� Maria ganhou de João nove pulseiras, quatro delas de prata e cinco
de ouro. Maria ganhou de Pedro onze pulseiras, oito delas de prata e
três de ouro. Ela guarda todas essas pulseiras – e apenas essas – em
sua pequena caixa de joias. Uma noite, arrumando-se apressadamente
para ir ao cinema com João, Maria retira, ao acaso, uma pulseira de
sua pequena caixa de joias. Ela vê, então, que retirou uma pulseira de
prata. Levando em conta tais informações, a probabilidade de que a
pulseira de prata que Maria retirou seja uma das pulseiras que ganhou
de João é igual a?
Solução:
Verificamos que a condição é ser uma pulseira de prata, por isso, precisamos
saber o total de pulseiras de prata que Maria ganhou: 12.
Ela que saber a probabilidade de que essa pulseira que ela está pegando
no escuro tenha sido dada de presente pelo João. Então, precisamos verificar
quantas pulseiras de prata João deu de presente: 4.
Utilizando a fórmula:
P(A/B) =
n(A ∩ B)
n(B)
P(A/B) = 4
12
. Simplificando, 1/3 (valor fracionário).
P(A/B) = 13 = 0,3333 ... (valor numérico).
P(A/B) = 0,3333... × 100 = 33,33%.
Probabilidade de eventos independentes
Dois eventos, A e B, são chamados independentes quando a probabilidade
de ocorrência de um deles não interfere na probabilidade de ocorrência do
outro, ou seja:
P(B/A) = P(B) ou P(A/B) = P(A)
Se A e B são eventos independentes, então a probabilidade de ocorrência
de A e B será:
P(A ∩ B) = P(A) × P(B)
Cálculo de probabilidade12
Identificação interna do documento PYDB0XJZAK-D1SFU31
No caso da probabilidade de eventos independentes, calcula-se cada evento se-
paradamente e após obter todas as respostas, faz-se a multiplicação entre todas as
probabilidades de cada evento (resultados).
De acordo com os cálculos de sinistro de uma determinada seguradora, o cliente
Antonio tem uma probabilidade de sinistro para o ano de vigência de seu seguro
de 22%. Já a cliente Maria tem uma probabilidade de sinistro de 10% para o ano de
vigência de seu seguro.
Qual seria a probabilidade de ambos terem um sinistro durante a vigência de seu
seguro? Como temos duas apólices distintas de pessoas que provavelmente nem se
conheçam, temos eventos independentes.
P (Antonio ter sinistro) = 0,22
P (Maria ter sinistro) = 0,10
P (ambos com sinistro) = P (Antonio ter sinistro) ∩ P (Maria ter sinistro)
Por serem eventos independentes, calculamos da seguinte forma:
P (ambos com sinistro) = 0,22 ∙ 0,10 = 0,022 ou 2,20%
Agora, qual é a probabilidade de ambos não terem um sinistro durante a vigência de
seu seguro?
P (Antônio não ter sinistro) = 1 – 0,22 = 0,78
P (Maria não ter sinistro) = 1 – 0,10 = 0,90
P (nenhum com sinistro) = P (Antonio não ter sinistro) ∩ P (Maria não ter sinistro)
Por serem eventos independentes calculamos da seguinte forma:
P (nenhum com sinistro) = 0,78 ∙ 0,90 = 0,7020 ou 70,20%
13Cálculo de probabilidade
Identificação interna do documento PYDB0XJZAK-D1SFU31
Probabilidade
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Definir contagem, evento e espaço amostral.
� Distinguir probabilidade, probabilidade condicional e teorema de
Bayes.
� Identificar a utilização da probabilidade na inteligência artificial.
Introdução
A história da probabilidade se iniciou com os jogos de cartas, dados e
roleta, talvez por isso haja uma grande quantidade de exemplos de jogos
de azar associados ao seu estudo. A teoria da probabilidade é calcular
a chance de ocorrência de um resultado em um experimento aleatório,
permitindo prever com certa antecipação essa chance.
Neste capítulo, você estudará as definições básicas de probabilidade,
contagem, evento, espaço amostral; sua utilizaçãona inteligência artificial;
bem como a diferença entre probabilidade, probabilidade condicional
e teorema de Bayes.
Definições básicas de probabilidade
A probabilidade é uma técnica de estudo das chances de ocorrência de cada
resultado de um experimento aleatório, às quais são atribuídos os números
reais do intervalo entre 0 e 1 — os resultados mais próximos de 1 têm mais
chances de ocorrer. Ela também pode ser apresentada na forma de percentual.
A probabilidade associa números às chances de determinado resultado
acontecer, assim, quanto maior for o número, maior deve ser a chance. Existem
ainda um menor número que representa a impossibilidade da ocorrência desse
evento e um maior que mostra a certeza do resultado. Para analisar a probabi-
lidade de sua ocorrência, é necessário entender três fatores envolvidos nela:
Fi
gu
ra
1
. M
ap
a
m
en
ta
l d
a
pr
ob
ab
ili
da
de
.
Fo
nt
e:
T
ab
or
da
(2
01
5,
d
oc
um
en
to
o
n-
lin
e)
.
Probabilidade2
� contagem;
� evento;
� espaço amostral.
Em probabilidade, o espaço amostral é o conjunto de todos os possíveis re-
sultados de um experimento aleatório e, no evento, são considerados quaisquer
subconjuntos desse espaço amostral. Na Figura 1, você pode ver um exemplo
de mapa mental para entender melhor os conceitos de probabilidade. Perceba
que o espaço está em uma etapa anterior ao evento, simbolizando exatamente
o que já foi relatado.
Contagem
Em matemática, a definição de contagem é o ato de determinar um número
de elementos de um conjunto (finito), e existem evidências arqueológicas que
possibilitam concluir que o processo de contar tenha sido utilizado há mais de
50 mil anos por culturas primitivas para acompanhar os dados econômicos
e sociais, como:
� quantidade de membros do grupo, das presas, etc.;
� propriedades e dívidas.
O princípio de contagem levou ao desenvolvimento da notação matemática,
dos sistemas numéricos e da escrita atual. Ela ainda pode ocorrer de várias
formas, por exemplo, verbalmente, falando cada número em voz alta (ou
mentalmente) para acompanhar o progresso, utilizado com frequência para
contar objetos presentes em vez de uma variedade de coisas no decorrer do
tempo (horas, dias, semanas, etc.). Também pode ser por meio de marcações,
com base de contagem unitária, registrando uma marca para cada objeto e
contando seu total, o que é útil quando se deseja contar objetos ao longo de
períodos, como o número de ocorrências de algo durante um dia. A contagem
usual é realizada em base decimal, já os computadores usam base binária
(zeros e uns).
A realização da contagem permite determinar a quantidade de elementos
de determinado conjunto, por exemplo, o censo demográfico, que, por meio
dela, sabe o número de elementos dos seguintes conjuntos:
Fi
gu
ra
1
. M
ap
a
m
en
ta
l d
a
pr
ob
ab
ili
da
de
.
Fo
nt
e:
T
ab
or
da
(2
01
5,
d
oc
um
en
to
o
n-
lin
e)
.
3Probabilidade
� quantidade de pessoas que vivem em determinado estado ou cidade;
� quantidade de pessoas do sexo masculino e do feminino que vivem em
determinado lugar.
No exemplo anterior, o estado ou a cidade podem ser o conjunto da con-
tagem, assim como o sexo.
Evento
O evento é qualquer subconjunto de um espaço amostral e pode conter nenhum
elemento (conjunto vazio) ou todos os elementos desse espaço. Já seu número
de elementos é representado da seguinte forma: n(E), sendo E o evento em
questão. Seus exemplos incluem duas opções.
a) Sair cara em um lançamento de uma moeda.
O evento é sair cara e tem um único elemento. Sua representação também
pode ser feita com notações de conjuntos, e seu número de elementos se trata
de n(E) = 1.
E = {cara}
b) Sair um número par no lançamento de um dado.
O evento é sair um número par, e seu número de elementos se trata de
n(E) = 3.
E = {2, 4, 6}
Os eventos que possuem apenas um elemento (ponto amostral) são cha-
mados de simples. Quando eles forem iguais ao espaço amostral, se chamam
evento certo e sua probabilidade de ocorrência é 100%. Caso eles sejam iguais
ao conjunto vazio, se denominam evento impossível e têm 0% de chances de
ocorrência.
Espaço amostral
O espaço amostral, também chamado de universo, é um conjunto que possui
todos os pontos amostrais de um evento aleatório, por exemplo, quando se
referir ao experimento lançar uma moeda, ele será formado por cara e co-
roa. Além disso, como se trata de um conjunto, qualquer notação deste pode
representá-lo.
Probabilidade4
Assim, o espaço amostral, seus subconjuntos e as operações que o envol-
vem herdam as propriedades e operações dos conjuntos numéricos, por isso,
pode-se dizer que os possíveis resultados do lançamento de duas moedas são:
S = {(x, y) naturais | x < 7 e y < 7}
Nesse caso, S representa o conjunto de pares ordenados, formados pelos
resultados dos dois dados. Já o número de elementos de um espaço amostral
é representado da seguinte maneira: dado o espaço amostral Ω, o número de
elementos de Ω é n(Ω).
O espaço amostral S (finito) é equiprovável quando os eventos elementares têm
probabilidades iguais de ocorrência. Assim, em um espaço amostral equiprovável S
(finito), a probabilidade de ocorrência de um evento A é sempre:
P(A) =
número de elementos de A
número de elementos de S
=
n(A)
n(S)
Probabilidade condicional
A probabilidade condicional refere-se à probabilidade de um evento ocorrer
com base em um anterior e, evidentemente, ambos precisam ser conjuntos
não vazios pertencentes a um espaço amostral finito.
Por exemplo, se no lançamento simultâneo de dois dados obtêm-se números
em suas faces superiores, qual a probabilidade de que a soma desses números
seja 8, desde que seus resultados sejam ímpares? Veja que ela está condicionada
aos resultados ímpares nos dois dados, logo, lançamentos que têm um ou dois
números pares na face superior podem ser descartados, havendo uma redução
no espaço amostral.
O novo espaço amostral é composto dos seguintes pares:
{1,1}; {1,3}; {1,5}; {3,1}; {3,3}; {3,5}; {5,1}; {5,3} e {5,5}.
5Probabilidade
Desses, apenas {3,5} e {5,3} possuem soma 8. Logo, a probabilidade de se
obter 8 no lançamento de dois dados é de 2/9, considerando que os resultados
obtidos são ambos ímpares.
Para entender melhor a probabilidade condicional, considere um espaço
amostral S finito não vazio e um evento A de S, se quiser outro evento B
desse espaço S, a nova probabilidade é indicada por P(B|a), denominada
como a probabilidade condicional de B em relação ao A. Assim, ela formará
um novo espaço amostral, pois agora este será A e os elementos do evento B
pertencerão a B ∩ A, como você pode ver na Figura 2.
Figura 2. Probabilidade condicional.
Fonte: Brito (2018, documento on-line).
BA∩BA
E
Há diversos casos para ilustrar a probabilidade condicional, por exemplo,
as chances de um bebê nascer menina é um evento A, mas a probabilidade de
essa criança ter doença celíaca (intolerância ao glúten) se trata de um evento
B. Essa situação pode ser considerada uma probabilidade condicional, porque
a doença celíaca atinge mais mulheres do que homens. Se as chances fossem
iguais para pessoas dos dois gêneros, esses eventos não estariam condicionados
e seriam uma probabilidade marginal ou incondicional, pois a possibilidade
de que um deles ocorra não influencia na do outro.
Assim, se os eventos forem independentes, a probabilidade não será con-
dicional, pois você representa a probabilidade condicional com a seguinte
expressão: P (A|B), que se lê “a probabilidade condicional de A em relação a
B”. Já a fórmula para calculá-la é:
P (A|B) = P(A∩B)/P(B)
Probabilidade6
Quando dois eventos são independentes, a probabilidade de ocorrerem ao
mesmo tempo é dada por:
P(A∩B) = P(A).P(B)
Já se você colocar isso na fórmula da probabilidade condicional, encontrará:
P (A|B) = P(A∩B)/P(B)
P (A|B) = P(A).P(B)/P(B)
P (A|B) = P(A).P(B)/P(B)
P(A|B) = P(A)
Portanto, a probabilidade de A ocorrer não se altera.
Teoremade Bayes
O teorema de Bayes é uma fórmula matemática usada para o cálculo da proba-
bilidade de um evento dado que outro já ocorreu, o que se chama probabilidade
condicional. Para esse teorema, precisa-se ter alguma informação anterior ou
saber que determinado evento já ocorreu e qual sua probabilidade. Baseada
nessa inferência bayesiana, surge a expressão grau de crença, ou a confiança
em algum evento anterior.
Uma das muitas aplicações do teorema de Bayes é a inferência bayesiana,
uma abordagem particular da inferência estatística. Assim, quando for apli-
cado, as probabilidades envolvidas nele podem ter diferentes interpretações
de probabilidade.
Com a interpretação bayesiana, o teorema expressa como a probabilidade
de um evento (ou seu grau de crença) deve ser alterada após considerar as
evidências sobre sua ocorrência. Apesar do pioneirismo, essa abordagem caiu
em esquecimento nas ciências e foi preterida pela frequentista, que ainda é
hegemônica, mas devido ao grande aumento na capacidade de processamento
dos computadores, a bayesiana renasceu com muita força.
Para calcular pelo teorema de Bayes a probabilidade de um evento A dado
que um B ocorreu, P(A|B), tem-se a seguinte fórmula:
P(A/B) =
P(B/A)*P(A)
P(B)
7Probabilidade
Em que,
P(B|A): probabilidade de B acontecer dado que A ocorreu;
P(A): probabilidade de A ocorrer;
P(B): probabilidade de B ocorrer.
Em um algoritmo probabilístico, a mesma sequência de entrada não leva sempre
a um mesmo estado final de computação, porque as transições entre os estados
dependem do estado atual, do símbolo recebido e de uma escolha aleatória.
Simplificadamente, imagine que, além de ler um símbolo para decidir o próximo
passo de computação, a máquina ainda lance uma moeda para decidir se passa
ou não ao próximo estado.
Aplicação da probabilidade na inteligência
artificial
A inteligência artificial é um campo amplo há muitas décadas, que vem sendo
impulsionado rapidamente com a informática e a computação. Sua aplicação
nos sistemas especialistas procura escrever programas que copiem e repro-
duzam os modos como os seres humanos pensam, falam, compreendem e
aprendem, elaborando uma réplica da inteligência humana e aplicando-a nas
diversas áreas da empresa.
Esses sistemas especialistas aplicam a inteligência artificial nas empresas
e, segundo O´Brien (2004), situam-se na área da ciência cognitiva, a qual
utiliza disciplinas como biologia, neurologia, psicologia e matemática para
verificar como os seres humanos aprendem, criam e desenvolvem as aplicações
baseadas no conhecimento com acompanhamento de um especialista. Trata-se
de sistemas que agem e comportam-se como um ser humano, utilizados para
solucionar problemas em áreas específicas da empresa.
Probabilidade8
Os dois grandes paradigmas para o desenvolvimento de sistemas especia-
listas em inteligência artificial são o simbólico e o subsimbólico (conexionista).
No paradigma conexionista, utiliza-se técnicas de redes neurais para representar
e solucionar problemas em um domínio específico, sendo aplicável aos domí-
nios nos quais a forma de raciocínio do especialista não pode ser totalmente
explicitada. No simbólico, por sua vez, o conhecimento é disposto em uma
base de conhecimentos, em que as inferências são representadas por meio
de regras do tipo SE-ENTÃO. Geralmente, o raciocínio do sistema se baseia
em uma árvore de decisões, mas nesse caso, o conhecimento do especialista
deve ser adquirido e representado do modo mais aprofundado possível para
permitir que o sistema emule seu comportamento.
A rede bayesiana trabalha com relações causais quantificadas por valores
de probabilidade condicional e, segundo Murteira (1990), “a causalidade
é a vantagem de nossa existência e a desvantagem de nossa matemática.
Acreditamos em causalidade em nossas interações com a realidade, mas é
difícil capturá-la em nossos modelos”. Portanto, considerando que a causa
precede o efeito, é fundamental ter um processo unidirecional para modelar
a causalidade — se B causa A, então B ocorre antes de A. Já no contexto da
lógica clássica, a implicação não capta uma relação causal por problemas de
falta de direcionalidade, em que (B->A) é equivalente a (]B->]A), assim não
permite que a causalidade seja modelada.
As redes bayesianas são compostas de duas partes complementares: uma
qualitativa e outra quantitativa (GAAG, 1996). A parte qualitativa é um
modelo gráfico (grafo acíclico direcionado), em que as variáveis incluem
os nodos e as regras, relações de dependência entre elas, chamadas de arcos
direcionados. Assim, um arco ligando as variáveis A e B (na forma A->B)
indica que a variável B é a consequência e a variável A se trata da causa,
apresentando uma relação de dependência resumida na regra “se A então
B”. Porém, se não houver um arco ligando duas variáveis, assume-se que
elas são independentes.
Veja na Figura 3 um exemplo de rede bayesiana.
9Probabilidade
Fi
gu
ra
3
. E
xe
m
pl
o
de
u
m
a
re
de
b
ay
es
ia
na
.
Fo
nt
e:
D
an
ta
s (
20
08
).
Probabilidade10
Nos sistemas especialistas probabilísticos, os valores de probabilidade
refletem a crença do especialista sobre o que espera que ocorra em situações
similares às que têm experiência e aprendeu ao longo de sua vivência. Assim,
ele tenta extrapolar com base em experiência e aprendizado no domínio de
aplicação.
Conheça um instituto brasileiro de inteligência artificial, que usa probabilidade e
estatística, no link a seguir.
https://qrgo.page.link/QeSBj
Administrado pelo Centro de Estudos do Risco da Universidade Federal da Bahia
(CER-UFBA), o site Previsão Esportiva tem o objetivo de agregar pesquisadores, alunos
de graduação e pós-graduação interessados no desenvolvimento metodológico
estatístico para dados esportivos. As previsões divulgadas são obtidas a partir de um
modelo estatístico para os resultados dos jogos, que considera os fatores: mando de
campo, poder de ataque e poder de defesa de cada equipe do campeonato. Saiba
mais sobre esse assunto no link a seguir.
https://qrgo.page.link/T2hWE
BRITO, R. Probabilidade condicional: o que é, exemplos e exercícios! Stoodi, 22 jul.
2018. Disponível em: https://www.stoodi.com.br/blog/2018/07/11/probabilidade-
-condicional/. Acesso em: 14 maio 2019.
DANTAS, C. A. B. Probabilidade: um curso introdutório. 3. ed. São Paulo: EDUSP, 2008.
11Probabilidade
Distribuições contínuas
de probabilidade
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Comparar as principais distribuições contínuas de probabilidade.
� Identificar as características das distribuições contínuas.
� Usar a tabela da distribuição normal para encontrar probabilidade
desejada.
Introdução
Neste capítulo, você identificará quando uma variável em estudo segue um
modelo de distribuição contínua de probabilidade, conhecerá as principais
distribuições contínuas de probabilidade e aprenderá a utilizar a mais
importante de todas as distribuições em estatística: a distribuição normal.
Distribuições contínuas de probabilidade
Existem distribuições discretas e contínuas de probabilidade. No primeiro caso,
temos variáveis aleatórias discretas, ou seja, valores resultantes de contagens.
Então, no caso das distribuições discretas de probabilidade, podemos calcular
probabilidade do valor da variável que se quer investigar. Temos funções
matemáticas que fornecem essas probabilidades.
Porém, nas distribuições contínuas de probabilidade, estamos lidando com
variáveis aleatórias contínuas, ou seja, que resultam de uma medição. Nesses
casos, não temos valores únicos em uma escala, mas, sim, em intervalos, pois,
na variável aleatória contínua, podemos ter qualquer valor na reta dos reais.
Dessa forma, a função densidade de probabilidade (FDP), que terá uma
função matemática associada, necessitará uma integral para a resolução do
cálculo de probabilidade. Nesse caso, estamos calculando intervalosabaixo
de uma curva, como mostrado na Figura 1.
Figura 1. Curva de distribuição contínua.
Fonte: Freund (2006, p. 215).
Conforme podemos observar na Figura 1, para obtermos a probabilidade,
no caso da distribuição contínua, não podemos obtê-la em um ponto único,
mas apenas em intervalos, como em um intervalo entre os pontos e quaisquer
abaixo de uma curva. Concluímos, então, que, na distribuição contínua de
probabilidade, não existe probabilidade no ponto.
Matematicamente, a resolução dessas probabilidades se dá com a integração
da função da distribuição em estudo. Isso nem sempre é simples, pois nem
todas as integrações de funções de probabilidade são de fácil resolução. Para
isso, funções comumente utilizadas contêm tabelas para auxiliar no cálculo
de probabilidade.
Esse é o caso da distribuição normal, a mais importante distribuição de
probabilidade em estatística. É do pressuposto de normalidade dos dados que
muitas inferências são possíveis.
Mas, independentemente de estarmos estudando distribuições discretas
ou distribuições contínuas de probabilidade, alguns axiomas continuam va-
lendo, como: 0 ≤ f(x) ≤ 1 e a área total abaixo da curva sempre somarão 1 na
distribuição acumulada.
Características das distribuições contínuas
Veremos, aqui, as características de algumas distribuições de probabilidade
contínuas além da distribuição normal. Mais adiante, trataremos da distri-
buição de Gauss (normal), à qual, por ser a mais importante, daremos um
maior destaque.
Distribuições contínuas de probabilidade98
Para o caso da distribuição de probabilidade exponencial, segundo Doane
e Seward (2014), no modelo exponencial, o foco está no tempo de espera até o
evento subsequente: uma variável contínua. A função densidade de probabi-
lidade exponencial aproxima-se de zero à medida que o valor de x aumenta.
Isso é útil para calcular tempo de vida de alguns componentes.
f(x) = λe
–λx se x ≥ 0
0 se x < 0
onde:
λ é a taxa média pelo tempo ou espaço;
x é o valor da variável aleatória que se quer obter a probabilidade.
Representamos a distribuição exponencial por x~Exp(λ), ou seja, a variável
x aproxima-se de uma distribuição exponencial de parâmetro λ, conforme
gráfico da Figura 2.
Figura 2. Distribuição exponencial.
Fonte: Adaptada de Portal Action (2017, documento on-line).
1.7
1.6
1.5
1.4
1.3
1.2
1.1
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0 0.5 1.0 1.5 2.0 3.0 4.0 5.0 6.02.5 3.5 4.5 5.5
x
λ = 1/2
λ = 1
λ = 3/2
Fu
nç
ão
d
en
sid
ad
e
de
p
ro
ba
bi
lid
ad
e
99Distribuições contínuas de probabilidade
Temos, também, a distribuição de probabilidade de Laplace, também cha-
mada de exponencial dupla, pois, algumas vezes, é como se tivéssemos uma
exponencial positiva junto a uma exponencial negativa. Pode ser utilizada para
dados de modelagem em biologia e finanças. Tem por função a distribuição
de probabilidade:
f(x) = 12σ e , –∞ < x < ∞, –∞ < μ < ∞, –∞ < σ < ∞
|x – µ|
σ( )
onde:
𝜎 é o desvio-padrão;
μ é a média;
x é o valor da variável aleatória que se quer obter a probabilidade.
Representamos a distribuição Laplace por x~Laplace(μ, 𝜎), ou seja, a
variável x aproxima-se de uma distribuição Laplace de parâmetros μ e 𝜎. A
forma da distribuição de Laplace é semelhante à normal, porém com um pico
bem mais fino e acentuado, como na Figura 3.
Figura 3. Distribuição Laplace comparada à distribuição
normal.
Fonte: Suporte ao Minitab (c2017a, documento on-line).
Outra distribuição de probabilidade contínua de grande utilização é a
distribuição logística, utilizada mais largamente para dados demográficos e
de vendas, quando se investiga o crescimento. A função é definida por:
Distribuições contínuas de probabilidade100
f(x) = , –∞ < x < ∞, –∞ < μ < ∞, –∞ < σ < ∞
e
(x – µ)
σ–
( )(x – µ)σ–σ 1 + e
2
𝜎 é o desvio-padrão;
μ é a média;
x é o valor da variável aleatória que se quer obter a probabilidade.
Representamos a distribuição logística por x~Logist(μ, 𝜎), ou seja, a variável
x aproxima-se de uma distribuição logística de parâmetros μ e 𝜎. A forma da
distribuição logística é semelhante à normal, porém com caudas mais longas,
como na Figura 4.
Figura 4. Distribuição logística.
Fonte: Suporte ao Minitab (c2017b, documento on-line).
Grá�co de distribuição
logística; Loc = 1
0,25
0,20
0,15
0,10
0,05
0,00
D
en
sid
ad
e
–50 50 75–25 250
x
Escala
1
5
10
Ainda temos a distribuição de pareto, utilizada para modelar fenômenos
sociais, físicos e econômicos. O princípio de pareto diz que aproximadamente
80% dos efeitos provêm de 20% das causas.
Além dessas distribuições citadas, ainda há outras tantas, como a distri-
buição beta, de Cauchy, de Maxwell, etc.
101Distribuições contínuas de probabilidade
Distribuição normal
Como já mencionado, esta é a distribuição de probabilidade contínua mais
importante e utilizada dentro da estatística. Muito da inferência estatística
parte do pressuposto da normalidade dos dados, além, é claro, de grande parte
das variáveis encontradas seguir esse modelo de distribuição.
Essa distribuição tem como parâmetros a média que é uma medida de
posição e o desvio-padrão que é a medida de variabilidade. Então, o formato
dessa distribuição depende da variabilidade — quanto mais achatada for a
distribuição, maior será a variabilidade dos dados e, ao contrário, quanto mais
estreita for a distribuição, menor será a variabilidade. Já a média situa no eixo
em que os dados se concentram.
É com base na teoria da distribuição de probabilidade normal que podemos
estruturar testes de hipótese, estabelecer intervalos de confiança e calcular
tamanhos de amostra.
A função matemática que descreve a distribuição de probabilidade normal
é dada por:
f(x) = , –∞ < x < ∞, –∞ < μ < ∞, –∞ < σ < ∞
(x – µ)2
2σ2–1
√2�σ
e
Representamos a distribuição normal por x~N(μ, 𝜎), ou seja, a variável
x aproxima-se de uma distribuição normal de parâmetros μ (média) e 𝜎
(desvio-padrão).
O formato da distribuição normal é parecido com um sino. Por esse motivo,
alguns a chamam de distribuição em forma de sino, ou distribuição de Gauss
(Figura 5).
Veja, a seguir, as propriedades da distribuição normal.
� A distribuição normal é simétrica em torno da média (μ).
� A média, a moda e a mediana são iguais e localizam-se no pico mais
alto da distribuição.
� Quanto maior for o desvio-padrão, mais achatado será o gráfico da
distribuição normal.
� A área total abaixo da curva soma 1 (1 corresponde a 100%).
� Os parâmetros são a média (μ) e o desvio-padrão (𝜎).
� Não existe probabilidade menor do que zero, nem maior do que 1.
Distribuições contínuas de probabilidade102
Figura 5. Distribuição normal.
Fonte: Doane e Seward (2014, p. 254).
0,09
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,00
f(x
)
60 70 80 9065 75 85
FDP normal
Velocidade (milhas por hora)
Como se pode perceber, a resolução de uma integral para a FDP da normal
é bastante elaborada. Por esse motivo, fazemos uso de uma tabela para nos
auxiliar no cálculo de probabilidade.
Como a média e o desvio-padrão variam de variável para variável e só
temos uma tabela, estabeleceu-se, para fins de cálculo da tabela, que a média
seria igual a zero, e o desvio-padrão igual a 1. Claramente, na vida real, as
médias das variáveis não são iguais a 1, e o desvio-padrão também não é igual
a 0. Precisamos, então, antes de usarmos a tabela, padronizar a nossa variável
com a seguinte fórmula:
Z =
x – µ
σ
Padronizamos a variável x com sua média e seu desvio-padrão específicos
e transformamos na variável z com média 1 e desvio-padrão 0, para podemos
fazer uso da tabela da normal padrão.
Existe apenas uma tabela, porém existem apresentações distintas dela.
Em uma delas, é apresentada a área total abaixo da curva, sendo acumulada
de – ∞ até + ∞. A outra forma de apresentação é apenas com metade da curva
normal de 0 até + ∞. Veja o Quadro 1, a seguir.
103Distribuições contínuas de probabilidadeQuadro 1. Distribuição normal
Vamos utilizar um exemplo para aprendermos como encontrar as pro-
babilidades nessa tabela. Suponha uma financeira que empresta, em média,
R$ 2.000,00 para seus clientes com um desvio-padrão de R$ 900,00. Calcu-
laremos a probabilidade de a financeira emprestar menos de R$ 2.200,00 a
um cliente.
P(X < 2200) = P z < = P(z < 0,22)2200 – 2000900( )
Observem que, até aqui, apenas fizemos a padronização da variável com
média de 2.000 e desvio-padrão de 900 em uma variável z com média 1 e
Distribuições contínuas de probabilidade104
desvio-padrão 0. Depois da padronização, precisamos observar a tabela para
encontrarmos a probabilidade.
Procuramos, na tabela, o cruzamento da linha com o 0,2 até a coluna do
0,02, que é a nossa segunda casa decimal. Nesse cruzamento, encontramos o
valor de 0,08706. Estamos trabalhando em uma tabela que tem apenas metade
da distribuição. Nesse caso, precisamos adicionar a outra metade que não
está na tabela a esse valor de probabilidade encontrado. A área de cálculo é
mostrada na Figura 6.
Figura 6. Área de cálculo da tabela apresentada.
Fonte: Freund (2006, p. 492).
0 z
P(X < 2200) = 0,08706 + 0,5 = 0,58706 = 58,71%
Agora queremos calcular a probabilidade de a financeira emprestar mais
de R$ 2.100,00. Primeiramente, vamos calcular a probabilidade de emprestar
menos de R$ 2.100,00.
( )P(X < 2100) = P z < = P(z < 0,11)2100 – 2000900
Olhamos na linha do 0,1 até a coluna do 0,01 da tabela e encontramos o
valor de 0,04380. Para encontrar (P > 0,11) temos que fazer a subtração, pois
a tabela forneceu o valor de P(z < 0,11). Assim:
P(X > 2100) = 0,5 – 0,04380 = 0,45620
Se quisermos calcular a probabilidade de a financeira emprestar entre
R$ 2.100,00 e R$ 2.200,00, este seria o cálculo:
105Distribuições contínuas de probabilidade
P(2100 < X < 2200) =
P z < = 0,222200 – 2000
900( )
( )P z < = 0,112100 – 2000900
Olhamos, na tabela, os valores referentes a essas duas padronizações e
encontramos, respectivamente, 0,08706 e 0,04380.
P(2.000 < X < 2.200) = 0,08706 – 0,0438 = 0,04326 = 4,33%
Vale ressaltar que, com a tabela normal com a área total abaixo da curva,
a utilização é diferente para encontrarmos a probabilidade.
Ainda como exemplo de distribuições contínuas de probabilidade, temos a
distribuição t-student (Figura 7). Ela tem uma curva muito semelhante à nor-
mal, também tem parâmetros de média e desvio-padrão, porém é influenciada
pelo tamanho da amostra. Quando n tende a infinito, a distribuição normal
e a distribuição t são equivalentes. A distribuição t-student é utilizada nos
casos em que temos amostras de tamanho inferior a 30 ou não conhecemos
o desvio-padrão populacional, quando a população tem distribuição aproxi-
madamente normal.
Figura 7. Distribuição t com 2 graus de liberdade.
Fonte: Suporte ao Minitab (c2017c, documento on-line).
Grá�co de distribuição
T; gl–2
0,4
0,3
0,2
0,1
0,0
–5,0 5,0 7,5–2,5 2,50,0
x
D
en
sid
ad
e
Distribuições contínuas de probabilidade106
OBJETIVOS DE APRENDIZAGEM
> Definir o que é um teste de correlação.
> Diferenciar as correlações: positiva, negativa e nula.
> Identificar a partir da correlação o grau de associação entre as variáveis.
Introdução
A maior parte dos problemas do nosso cotidiano envolve a interação entre
pelos menos duas variáveis. Medir a relação entre elas ajuda a compreender o
comportamento dos dados e o que essa relação significa. Para isso, utiliza-se
o coeficiente de correlação, que permite mensurar o grau de relacionamento
entre duas variáveis. Ao gerar um gráfico de dispersão, caso os pontos das
variáveis apresentem uma distribuição ao longo de uma reta imaginária, diz-se
que os dados apresentam uma correlação linear.
Uma medida para avaliar o grau e o sinal da correlação linear entre duas
variáveis (x, y) é dada pelo coeficiente de correlação linear de Pearson.
Essa medida é relevante nas mais diversas áreas do conhecimento. Pode haver
interesse, por exemplo, em saber se existe e como é a relação entre: i) o peso e
a altura dos indivíduos; ii) o preço do vinho e o montante da colheita em cada
ano; iii) a receita das vendas e os descontos fornecidos; iv) a renda e a despesa
das famílias. Entre tantas outras.
Neste capítulo, você vai conhecer o teste de correlação, os tipos e subtipos
de correlações existentes, bem como a utilidade de um teste de correlação.
Além disso, a resolução de problemas aplicados utilizando o teste de correlação
e os diagramas de dispersão permitirão avaliar cada situação particular.
Correlações
Cristiane da Silva
Propósito de um teste de correlação
A análise de correlação tem por propósito estudar o comportamento conjunto
de duas ou mais variáveis. Em outras palavras, ela é uma técnica estatística
que permite verificar se duas ou mais variáveis estão relacionadas umas
com as outras. Tomando como exemplo a área da saúde, podemos saber se
pessoas com índice de massa corporal (IMC) relativamente alto teriam uma
frequência cardíaca maior, ou, se quanto maior a frequência cardíaca, maior o
IMC. Neste caso, o coeficiente de correlação é bastante útil (MARTINEZ, 2015).
Por meio do teste de correlação é possível determinar o sentido e a
intensidade da relação entre as variáveis, tópicos que serão abordados e
aprofundados nas seções seguintes.
Antes de partir para o teste de correlação, pode-se realizar uma análise
preliminar graficamente. Isso significa que, partindo de uma amostra de n
elementos, conhecidos os valores x e y de duas variáveis — que geram pa-
res como pontos em um gráfico conhecido como diagrama de dispersão —,
é possível identificar algum padrão de comportamento. Assim, temos alguma
ideia sobre a relação entre as duas variáveis. Trata-se de uma inspeção visual
dos dados (RAUPP, 2013). A Figura 1 apresenta diagramas de dispersão que
permitem a realização dessa análise gráfica.
Figura 1. Diagramas de dispersão.
Fonte: Adaptada de zizou7/Shutterstock.com.
Para compreender melhor, considere o Quadro 1 e analise os gráficos de
dispersão nas Figuras 2 e 3, em que temos dados fictícios que se referem aos
percentuais de gordura corporal de 13 homens adultos.
Correlações2
Quadro 1. Percentuais de gordura corporal de homens conforme a idade
Idade Percentual
25 10,5
27 14,0
31 16,5
36 15,5
38 15,0
41 18,0
45 17,0
48 18,5
52 19,0
53 20,5
56 20,0
67 20,5
70 21,0
Figura 2. Diagrama de dispersão entre duas variáveis quantitativas.
Correlações 3
Figura 3. Diagrama de dispersão com linha de tendência linear.
A inspeção visual desses dados significa que existe uma relação positiva
(direta) entre o percentual de gordura corporal (y) e a idade (x) dos homens
que fazem parte da amostra investigada. Também pode-se dizer que a relação
é linear. No entanto, apenas a inspeção visual não é suficiente. É necessária
uma forma mais objetiva de fazer essa análise, utilizando o coeficiente de
variação de Pearson.
Esse coeficiente foi elaborado para avaliar uma forma específica de relação
entre duas variáveis contínuas, que é o grau de relação linear existente entre
elas. Ele é conhecido como coeficiente de correlação de Pearson, coeficiente de
correlação produto-momento ou, simplesmente, r de Pearson (BLAIR; TAYLOR,
2013). O coeficiente de correlação é uma medida numérica da “força” da relação
ou associação entre duas variáveis quantitativas contínuas (MARTINEZ, 2015).
Existem diversas equações para o cálculo do r de Pearson, mas algebrica-
mente elas são todas idênticas (BLAIR; TAYLOR, 2013). Aqui vamos representar
o coeficiente de correlação de Pearson por meio da Equação 1:
=
∑ −
(∑ )(∑ )
∑ 2 −
(∑ )2
∑ 2 −
(∑ )2
(1)
Correlações4
Em que n é o número de pares de dados, e a quantidade r mede a força e
a direção de uma relação linear entre duas variáveis. Embora a fórmula seja
extensa, atualmente o cálculo de r é facilmenterealizado pelo computador,
com o Excel (VIEIRA, 2018). Confira os exemplos a seguir.
Archaeopteryx é uma fera extinta que tinha penas, como um pássaro,
mas tinha dentes e uma longa cauda de ossos, como um réptil. Apenas
alguns espécimes de fóssil são conhecidos. Como eles diferem bastante em
tamanho, alguns cientistas pensam que pertencem a espécies diferentes.
Examinaremos alguns dados.
Se alguns pertencem à mesma espécie e diferem em tamanho porque
são mais jovens do que outros, deve haver uma relação linear entre os com-
primentos de pares de ossos de todos os indivíduos. Um valor atípico nessa
relação sugeriria uma espécie diferente. Confira no quadro abaixo os dados
dos comprimentos, em centímetros, do fêmur (osso da perna) e do úmero
(osso da parte superior do braço) para cinco espécimes que preservaram
ambos os ossos.
Fêmur 38 56 59 64 74
Úmero 41 63 70 72 84
Vamos calcular o coeficiente de correlação de Pearson por meio da fór-
mula e verificar como isso pode ser rapidamente calculado usando o Excel.
Utilizando a fórmula, temos:
=
∑ −
(∑ )(∑ )
∑ 2 −
(∑ )2
∑ 2 −
(∑ )2
X Y XY X2 Y2
38 41 1558 1444 1681
56 63 3528 3136 3969
59 70 4130 3481 4900
(Continua)
Correlações 5
X Y XY X2 Y2
64 72 4608 4096 5184
74 84 6216 5476 7056
∑X = 291 ∑Y = 330 ∑XY = 20040 ∑X2 = 17633 ∑Y2 = 22790
Portanto, substituindo-se na fórmula, teremos:
=
20040 −
(291)(330)
5
17633 −
84681
5 22790 −
108900
5
=
20040 − 19206
[696,80][1010]
=
834
√703768
0,9941
No Excel, para obter o coeficiente de correlação r, clicamos na “barra de
ferramentas”, em “dados” e, depois, em “análise de dados”. Abrirá uma tela
como a que vemos na Figura 4. Caso não esteja aparecendo a ferramenta de
dados, leia as instruções ao final deste exemplo.
(Continuação)
Correlações6
Figura 4. Tela para obter a análise de correlação no Excel.
Nessa tela, selecionamos a ferramenta de correlação e clicamos em OK.
Teremos a tela apresentada na Figura 5.
Figura 5. Tela para obter a análise de correlação no Excel.
Correlações 7
Na tela apresentada na Figura 5, devemos informar o intervalo de entrada
dos dados (valores atribuídos a Fêmur e Úmero), incluindo toda a área em
que se encontram os dados das duas variáveis. A seguir, devemos informar
o formato em que os dados foram agrupados na nossa planilha; neste caso,
em colunas. Devemos informar se selecionamos os rótulos, ou seja, os nomes
das variáveis (Fêmur e Úmero). Além disso, escolhemos o local em que serão
apresentados os resultados da análise. Preenchidas essas informações,
clicamos em OK e obtemos o resultado apresentado na Figura 6.
Figura 6. Tela de resultados da análise de correlação no Excel.
O resultado da análise aparece em uma matriz de correlação. A diagonal
principal dessa matriz é preenchida com números 1, pois ali estão coeficientes
de correlação de cada variável com ela mesma. O Excel só preenche a parte de
baixo da matriz, uma vez que ela é simétrica, ou seja, a correlação entre fêmur e
úmero é a mesma correlação entre úmero e fêmur. Observamos que o coeficiente
de correlação entre fêmur e úmero é de aproximadamente 0,9941. Nas seções
seguintes, veremos como interpretar esses resultados (BALDI; MOORE, 2014).
Para fazer o teste de correlação no Excel, clique em “Dados” na barra
de ferramentas e, depois, em “Análise de dados”. Para que dê certo,
as “Ferramentas de análise” precisam estar selecionadas, na aba “Arquivo”, em
“Opções” e “Suplementos”. Assim, uma caixa de diálogo será aberta.
Correlações8
Nesta seção, você conheceu a definição de correlação e o que é correlação
linear simples. Além disso, com uma inspeção visual dos dados, foi possível
identificar a correlação entre variáveis antes mesmo de calcular o coeficiente
de correlação. O cálculo do coeficiente de correlação foi introduzido tanto por
meio da fórmula matemática quanto pelo Excel. A seguir, você vai estudar os
tipos de correlação (positiva, negativa e nula), bem como a sua intensidade:
fraca, regular, forte, muito forte e perfeita.
Tipos de correlação
O coeficiente de correlação (r) assume valores que podem variar entre –1 e
+1. A partir dos valores e sinais observados para o coeficiente, definimos o
tipo de correlação e a sua intensidade. Valores negativos de r indicam uma
correlação do tipo inversa: na medida em que x aumenta, y em média diminui,
e vice-versa. Já valores positivos de r indicam uma correlação do tipo direta:
na medida em que x aumenta, y em média aumenta, e vice-versa (BALDI;
MOORE, 2014; CALLEGARI-JACQUES, 2003; VIEIRA, 2018).
Quando todos os pontos do diagrama de dispersão estiverem em uma
linha reta inclinada, significa que o valor de r será igual a –1 ou +1, o que se
denomina correlação perfeita. Observe a Figura 7, que evidencia essa situação
(BALDI; MOORE, 2014; CALLEGARI-JACQUES, 2003; VIEIRA, 2018).
Figura 7. Correlações perfeitas: (a) negativa; (b) positiva.
Fonte: Adaptada de zizou7/Shutterstock.com.
–1 1
A B
Já quando não existe correlação entre x e y, os pontos se distribuem em
nuvens circulares, como mostra a Figura 8.
Correlações 9
Figura 8. Correlação nula.
Fonte: Adaptada de zizou7/Shutterstock.com.
0
As associações com grau intermediário, em que o r está entre zero e |1|,
apresentam-se como nuvens inclinadas de forma elíptica, sendo mais estreitas
quanto maior for a correlação, como mostra a Figura 9.
Figura 9. Correlações (a) r = 0,8 (maior correlação positiva) e (b) r = 0,6 (menor correlação
positiva).
Fonte: Adaptada de Callegari-Jacques (2003).
A B
Nos casos em que os pontos formam uma nuvem cujo eixo principal é uma
curva, o valor de r não mede corretamente a associação entre as variáveis.
Isso ocorre porque a técnica para calcular esse coeficiente supõe que os
pontos do gráfico formam nuvens elípticas, cujo eixo principal é uma reta.
Observe a Figura 10.
Correlações10
Figura 10. Ausência de correlação linear.
Fonte: Adaptada de Callegari-Jacques (2003).
Podemos avaliar o grau de correlação entre duas variáveis quanto à sua
intensidade usando o critério apresentado no Quadro 2.
Quadro 2. Avaliação qualitativa do grau de correlação entre duas variáveis
|r| A correlação é dita:
0 nula
0 — 0,3 fraca
0,3| — 0,6 regular
0,6| — 0,9 forte
0,9 |— 1 muito forte
1 plena/perfeita
Fonte: Adaptado de Callegari-Jacques (2003, p. 90).
Nesta seção, conhecemos os tipos de correlação (inversa, direta e nula),
os valores que o coeficiente de correlação (r) pode assumir e vimos como
avaliar o grau de correlação entre duas variáveis quanto à sua intensidade.
Vimos que r pode ser positivo, negativo ou nulo, e seu módulo pode ser de
intensidade fraca, regular, forte, muito forte ou plena. Na próxima seção,
apresentaremos problemas aplicados que envolvem a identificação do grau
de correlação a partir do cálculo de r e/ou da construção do diagrama de
dispersão.
Correlações 11
Grau de associação entre as variáveis
Retomando os exemplos da primeira seção deste capítulo, que tratam dos
percentuais de gordura corporal de homens conforme a idade e da análise de
correlação entre o fêmur (osso da perna) e o úmero (osso da parte superior do
braço) do Archaeopteryx, podemos avaliar o tipo e o grau de correlação entre
as variáveis envolvidas em cada caso. Além desses exemplos, apresentaremos
outra situação, em que o coeficiente de correlação pode ser utilizado na área
de gestão e negócios.
Exemplo 1
Ao calcular o coeficiente de correlação para os percentuais de gordura corporal
de homens conforme a idade, chegamos ao resultado apresentado na Figura 11.
Figura 11. Coeficiente de correlação para os percentuais de gordura corporal de homens
conforme a idade.
O diagrama de dispersão evidencia uma tendência linear positiva, o que
significa que existe uma correlação direta. O sinal do coeficiente de correlação
positivo entre a idade e o percentual de gordura corporal dos homens da
amostra reforça a observação feita por meio da inspeção visual gráfica.Além
disso, essa correlação pode ser classificada como de muito forte intensidade,
uma vez que r = 0,9000316. Isso porque, para valores do 0,9 ≤ |r| < 1, tem-se
uma correlação muito forte.
Correlações12
Exemplo 2
Ao analisar o coeficiente de correlação entre o fêmur (osso da perna) e o úmero
(osso da parte superior do braço) do Archaeopteryx, chegamos ao resultado
apresentando na Figura 12.
Figura 12. Coeficiente de correlação entre o fêmur e o úmero do Archaeopteryx.
Pelo diagrama de dispersão da Figura 12, vemos uma tendência linear
positiva O que significa dizer que existe uma correlação direta. Perceba que o
sinal do coeficiente de correlação é positivo entre fêmur e úmero. Além disso,
essa correlação pode ser classificada como de muito forte intensidade, uma
vez que r = 0,994149 e, para valores do 0,9 ≤ |r| < 1, tem-se uma correlação
muito forte.
Exemplo 3
Considere que o preço de duas ações é registrado no fechamento todas as
sextas-feiras durante oito semanas, como mostra o Quadro 3.
Correlações 13
Quadro 3. Preço das ações
Empresa 1 2 3 4 5 6 7 8
X (AardCo) 41,87 47,87 43,26 37,76 45,86 45,22 46,83 46,49
Y (Zymurgy) 9,11 8,07 11,02 13,24 9,14 12,04 6,96 9,27
Fonte: Adaptado de Doane e Seward (2014, p. 149).
O gráfico de dispersão que representa esses dados pode ser observado
na Figura 13.
Figura 13. Gráfico de dispersão dos preços de duas ações (n = 8).
Fonte: Doane e Seward (2014, p. 149).
Pela Figura 13 podemos observar que os preços dessas duas ações tendem a
caminhar em direções opostas. Para nos certificarmos do que está ocorrendo,
calculamos o coeficiente de variação de Pearson, como mostra a Figura 14.
Correlações14
Figura 14. Coeficiente de correlação dos preços de duas ações (n = 8).
De fato, observa-se uma relação inversa (negativa) entre os preços das
duas ações. Além disso, pode-se dizer que esta relação é de forte intensidade.
Essa informação auxiliar o analista financeiro a construir um portfólio cujo
valor total seja mais estável, uma vez que ele sabe que os preços dessas ações
tendem a caminhar em direções opostas. A diversificação, investimento em
diferentes tipos de fundos, ajuda a minimizar o impacto que algumas ações
possam ter no portfólio.
Perceba que existe mais de uma maneira de calcular o coeficiente
de correlação, como a ferramenta “Análise de dados” do Excel,
a fórmula “CORREL” do Excel, a fórmula matemática estudada na seção anterior,
entre outras possibilidades.
Correlações 15
Nesta seção, aprofundamos o cálculo do coeficiente de correlação por
meio de problemas aplicados que envolveram a identificação do grau de
correlação a partir do cálculo de r e da construção do diagrama de dispersão.
Os tópicos tratados neste capítulo contribuem significativamente para análises
estatísticas, especialmente no que diz respeito ao grau de correlação entre
duas ou mais variáveis. O uso do Excel como um recurso para a realização dos
cálculos viabiliza uma análise simples e eficiente. Sugere-se a continuidade
dos estudos e consulta às obras referenciadas no capítulo.
Referências
BALDI, B.; MOORE, D. S. A prática da estatística nas ciências da vida. 2. ed. Rio de
Janeiro: LTC, 2014.
BLAIR, R. C.; TAYLOR, R. A. Bioestatística para ciências da saúde. São Paulo: Pearson, 2013.
CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed,
2003.
DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed.
Porto Alegre: AMGH, 2014.
MARTINEZ, E. Z. Bioestatística para os cursos de graduação da área da saúde. São
Paulo: Blucher, 2015.
RAUPP, C. A. F. Método quantitativo com o uso de software. São Leopoldo: Unisinbos, 2013.
VIEIRA, S. Estatística básica. 2. ed. São Paulo: Cengage, 2018.
Correlações16
CAPÍTULO 17 ● CORRELAÇÃO E REGRESSÃO 427
Como fazer análise de regressão bivariada
As etapas a serem desenvolvidas na análise de regressão bivariada
são descritas na Figura 17.2. Suponha que o pesquisador pretenda
explicar atitudes em relação à cidade de residência em termos da
duração da residência (ver Tabela 17.1). Para deduzir tais relacio-
namentos, é muitas vezes útil examinar, em primeiro lugar, um dia-
grama de dispersão.
Fazer o diagrama de dispersão
Um diagrama de dispersão é um gráfico dos valores de duas variá-
veis para todos os casos ou observações. É costume grafar a variável
dependente no eixo vertical e a variável independente no eixo hori-
zontal. O diagrama de dispersão serve para determinar a forma da
relação entre as variáveis e pode alertar o pesquisador quanto a de-
terminados padrões dos dados, ou possíveis problemas. Quaisquer
combinações incomuns das duas variáveis podem ser facilmente
identificadas. A Figura 17.3 mostra um gráfico de Y (atitude em re-
lação à cidade) comparado com X (tempo de residência). Os pontos
parecem dispor-se em uma faixa que vai da esquerda inferior para a
direita superior. Pode-se ver logo o padrão: à medida que uma das
variáveis aumenta, a outra também aumenta. Por esse gráfico, pare-
ce que a relação entre X e Y é linear, podendo ser descrita por uma
linha reta. Como determinar a reta que melhor descreve os dados?
A técnica mais comum de ajuste de uma linha reta a um dia-
grama de dispersão é o procedimento dos mínimos quadrados.
Essa técnica determina a reta de melhor ajuste minimizando o qua-
drado das distâncias verticais de todos os pontos a partir da reta e
esse procedimento é chamado de regressão dos mínimos quadrados
ordinários (MQO*). A reta de melhor ajuste é chamada de reta de re-
gressão. Qualquer ponto que não esteja sobre a reta de regressão não
é plenamente considerado. A distância vertical do ponto até a reta é
o erro, ej (ver Figura 17.5). Elevam-se ao quadrado as distâncias de
todos os pontos até a reta e somam-se os resultados, obtendo-se a
soma dos quadrados dos erros, que é a medida do total dos erros, �e2j.
Ao ajustar a reta, o procedimento de mínimos quadrados minimiza
a soma dos quadrados dos erros. Colocando-se Y no eixo vertical e
X no eixo horizontal, como na Figura 17.5, a reta de melhor ajuste é
chamada de regressão de Y em função de X, pois as distâncias ver-
ticais são minimizadas. O diagrama de dispersão indica se a relação
entre Y e X pode ser modelada como em uma linha reta e, consequen-
temente, se o modelo de regressão bivariada é apropriado.
Procedimento dos mínimos quadrados
Técnica de ajuste de uma linha reta a um diagrama de dispersão pela
minimização do quadrado das distâncias verticais de todos os pontos
a partir da reta. Tal procedimento é denominado regressão dos míni-
mos quadrados ordinários.
Formular o modelo de regressão bivariada
No modelo de regressão bivariada, a forma geral de uma reta é:
onde
Y � variável dependente ou de critério
X = variável independente ou previsora
�0 � intercepto da reta
�1 � coeficiente angular da reta
Estimar os parâmetros
Fazer o diagrama de dispersão
Formular o modelo geral
Estimar o coeficiente de regressão padronizado
Testar a significância
Identificar a intensidade e a significância da associação
Verificar a precisão da previsão
Examinar os resíduos
Fazer a validação cruzada do modelo
FIGURA 17.2 Como fazer uma análise de regressão bi-
variada.
2,25
9
6
3
4,5 6,75 9 11,25 13,5 15,75 18
Duração da residência
A
tit
ud
e
FIGURA 17.3 Gráfico da atitude versus tempo de residência.
* N de T.: Ordinary least-squares (OLS).
SPSS Arquivo de Saída
SAS Arquivo de Saída
Malhotra_17.indd 427Malhotra_17.indd 427 15/09/11 08:5715/09/11 08:57
428 PARTE III ● COLETA, PREPARAÇÃO E ANÁLISE DE DADOS E RELATÓRIO
Este modelo implica uma relação determinística, no sentido de
que Y é completamente determinado por X. O valor de Y pode ser
perfeitamente previsto desde que conheçamos �0 e �l. Em pesqui-
sa de marketing, entretanto, poucas relações são determinísticas.
Por isso, o processo de regressão acrescenta um termo de erro para
responder pela natureza probabilística ou estocásticada relação. A
equação básica da regressão se escreve:
Onde ei é o termo de erro associado à i-ésima observação.
8 A es-
timação dos parâmetros de regressão, �0 e �1, é relativamente simples.
Estimar os parâmetros
Na maioria dos casos, �0 e �1 são desconhecidos e devem ser es-
timados com base nas observações amostrais, mediante a equação
onde Ŷi é o valor estimado, ou previsto, de Yi, e a e b estimam �0
e �1, respectivamente. A constante b costuma ser chamada de co-
eficiente de regressão não padronizado. É o coeficiente angular da
reta de regressão e indica a variação esperada em Y quando X varia
de uma unidade. As fórmulas para o cálculo de a e b são simples.9
6
3
2,25 4,5 6,75 9 11,25 13,5 15,75 v
•
•
•
•
•
•
•
•
•
•
•
9
Linha 4
A
tit
ud
e
Duração da residência
Linha 1
Linha 2
Linha 3
FIGURA 17.4 Que linha reta é a melhor?
Y
X
�0 + �1X
X1 X2 X3 X4 X5
Yj
Yi
ej
ei
FIGURA 17.5 Regressão bivariada.
Malhotra_17.indd 428Malhotra_17.indd 428 15/09/11 08:5715/09/11 08:57
CAPÍTULO 17 ● CORRELAÇÃO E REGRESSÃO 429
O coeficiente angular, b, pode ser calculado em termos da covariân-
cia entre X e Y (COVxy) e da variância de X como:
Pode-se então calcular o intercepto a como:
Para os dados da Tabela 17.1, pode-se ilustrar a estimação dos
parâmetros como segue:
Convém lembrar, de cálculos anteriores da correlação simples, que
Dado n � 12, pode-se calcular b como segue:
Observe que esses coeficientes foram estimados com base nos
dados brutos (não transformados). Se a padronização dos dados
for considerada desejável, o cálculo dos coeficientes padronizados
também pode ser feito de imediato.
Estimar o coeficiente de regressão padronizado
Padronização é o procedimento pelo qual os dados brutos são trans-
formados em novas variáveis, com média 0 e variância 1 (Capítulo
14). Quando os dados são padronizados, o intercepto toma o valor
0. Usa-se a expressão coeficiente beta ou peso beta para denotar
o coeficiente de regressão padronizado. Neste caso, o coeficiente
angular obtido pela regressão de Y sobre X, Byx, é o mesmo que o
coeficiente angular obtido pela regressão de X sobre Y, Bxy. Além
disso, cada um desses coeficientes de regressão é igual à correlação
simples entre X e Y.
Byx � Bxy � rxy
Há uma relação simples entre os coeficientes de regressão pa-
dronizados e não padronizados:
Byx � byx(sx/sy)
Para os resultados de regressão dados na Tabela 17.2, o valor do
coeficiente beta é estimado em 0,9361. Observe que esse também é
o valor de r calculado anteriormente neste capítulo.
Uma vez estimados, os parâmetros podem ser testados quanto
à sua significância.
Testar a significância
Podemos testar a significância estatística da relação linear entre X e
Y examinando as hipóteses:
A hipótese nula implica que não há qualquer relação linear entre
X e Y. A hipótese alternativa é que há alguma relação, positiva ou
TABELA 17.2
Regressão bivariada
R múltiplo 0,93608
R2 0,87624
R2 ajustado 0,86387
Erro padrão 1,22329
gl
Análise da variância
Soma de quadrados
Quadrado
médio
Regressão 1 105,95222 105,95222
Residual 10 14,96444 1,49644
F � 70,80266 Significância de F � 0,0000
Variáveis na equação
Variável b EPB Beta (B) t Significância de t
Tempo de residência 0,58972 0,07008 0,93608 8,414 0,0000
(constante) 1,07932 0,74335 1,452 0,1772
SPSS Arquivo de Saída
SAS Arquivo de Saída
Malhotra_17.indd 429Malhotra_17.indd 429 15/09/11 08:5715/09/11 08:57
430 PARTE III ● COLETA, PREPARAÇÃO E ANÁLISE DE DADOS E RELATÓRIO
negativa, entre X e Y. Em geral, faz-se um teste bicaudal. Pode-se
utilizar uma estatística t com n – 2 graus de liberdade, onde
EPb denota o desvio-padrão de b e é chamado de erro padrão.
10 A
distribuição t foi estudada no Capítulo 15.
Com um programa de computador, a regressão da atitude so-
bre o tempo de residência, utilizando-se os dados da Tabela 17.1,
apresentou os resultados da Tabela 17.2. O intercepto a é 1,0793 e
o coeficiente angular b é 0,5897. Portanto, a equação estimada é:
Atitude (Ŷ) = 1,0793 + 0,5897 (tempo de residência)
O erro padrão ou o desvio-padrão de b é estimado em 0,07008,
e o valor da estatística t é t � 0,5897/0,07008 � 8,414, com n – 2
� 10 graus de liberdade. Na Tabela 4 dos Apêndices Estatísticos,
vemos que o valor crítico de t com 10 graus de liberdade e � � 0,05
é 2,228 para um teste bicaudal. Como o valor calculado de t é maior
do que o valor crítico, rejeitamos a hipótese nula. Logo, existe uma
relação linear significativa entre a atitude em relação à cidade e
o tempo de residência nela. O sinal positivo do coeficiente angu-
lar indica que essa relação é positiva. Em outras palavras, os que
residem há mais tempo na cidade têm atitude mais favorável em
relação a ela. A implicação para gerentes, autoridades municipais
e políticos é a mesma que a discutida para a correlação simples,
sujeita à representatividade da amostra.
Determinar a intensidade e a significância da
associação
Uma inferência relacionada envolve a determinação da intensidade
e da significância da associação entre Y e X. A intensidade da re-
lação é medida pelo coeficiente de determinação, r2. Na regressão
bivariada, r2 é o quadrado do coeficiente de correlação simples ob-
tido ao correlacionar as duas variáveis. O coeficiente r2 varia entre
0 e 1 e indica a proporção da variação total em Y que é ocasionada
pela variação em X. A decomposição da variação total em Y é aná-
loga à da análise da variância (Capítulo 16). Conforme mostra a
Figura 17.6, a variação total, SQy, pode ser decomposta na variação
proporcionada pela reta de regressão, SQreg, e o erro ou a variação
residual, SQerro ou SQres, como segue:
SQy � SQreg + SQres
Onde
Pode-se então calcular a intensidade da associação:
Para ilustrar os cálculos de r2, consideremos novamente o efei-
to do tempo de residência sobre a atitude em relação à cidade. Pelos
cálculos anteriores do coeficiente de correlação simples, sabemos
que:
Os valores previstos (Ŷ) podem ser calculados com auxilio da
equação de regressão:
Atitude (Ŷ) � 1,0793 + 0,5897 (tempo de residência)
Para a primeira observação da Tabela 17.1, esse valor é:
(Ŷ) � 1,0793 + 0,5897 x 10 � 6,9763
Para cada observação sucessiva, os valores previstos são, pela
ordem: 8,1557, 8,1557, 3,4381, 8,1557, 4,6175, 5,7969, 2,2587,
11,6939, 6,3866, 11,1042, 2,2587. Portanto,
Y
X
Y
Variação
total,
SQ
y
Variação residual,
SQ
res
Variação explicada,
SQ
reg
FIGURA 17.6 Decomposição da variação total na re-
gressão bivariada.
Malhotra_17.indd 430Malhotra_17.indd 430 15/09/11 08:5715/09/11 08:57
CAPÍTULO 17 ● CORRELAÇÃO E REGRESSÃO 431
Pode-se ver que SQy = SQreg + SQ,s. Além disso,
Outro teste equivalente para examinar a significância da rela-
ção linear entre X e Y (significância de b) é o teste da significância
do coeficiente de determinação. As hipóteses, neste caso, são:
H0: R
2
pop � 0
H1: R
2
pop > 0
A estatística de teste apropriada é a estatística F:
que tem distribuição F com 1 e n – 2 graus de liberdade. O teste F
é uma forma generalizada do teste t (ver Capítulo 15). Se uma va-
riável aleatória tiver distribuição t com n graus de liberdade, então
t2 tem distribuição F com 1 e n graus de liberdade. Logo, o teste F
para testar a significância do coeficiente de determinação é equiva-
lente a testar as seguintes hipóteses:
H0: �1 � 0
H1: �1 � 0
Ou
H0: � �0
H1: � � 0
Pela Tabela 17.2, pode-se ver que:
que é o mesmo valor já calculado anteriormente. O valor da esta-
tística F é:
com 1 e 10 graus de liberdade. A estatística F calculada excede o
valor crítico de 4,96 obtido na Tabela 5 dos Apêndices Estatísticos.
Portanto, a relação é significativa ao nível � � 0,05, corroborando
os resultados do teste t. Se a relação entre X e Y for significativa,
faz sentido prever os valores de Y com base nos valores de X e esti-
mar a precisão da predição.
Verificar a precisão da previsão
Para estimar a precisão dos valores previstos,Ŷ, convém calcular o
erro padrão da estimativa, EPE. Essa estatística é o desvio-padrão
dos valores reais de Y em relação aos valores Ŷ previstos.
Ou
ou, de forma mais geral, se há k variáveis independentes,
O EPE pode ser interpretado como uma espécie de resíduo médio
ou erro médio na predição de Y com base na equação de regressão.11
Podem surgir dois casos de previsão. O pesquisador pode que-
rer predizer o valor médio de Y para todos os casos com um de-
terminado valor de X, digamos X0, ou prever o valor de Y para um
único caso. Em ambas as situações, o valor previsto é o mesmo e é
dado por Ŷ, onde:
Entretanto, o erro padrão é diferente nas duas situações, embora em
ambas seja uma função do EPE. Para grandes amostras, o erro pa-
drão na predição do valor médio de Y é , e para predizer
valores individuais de Y é EPE. Logo, a construção de intervalos
de confiança (ver Capítulo 12) para os valores previstos varia, con-
forme estejamos prevendo o valor médio ou o valor para uma única
observação.
Para os dados da Tabela 17.2, o EPE é estimado conforme a
seguir:
As duas etapas finais da regressão bivariada, a saber, o exame dos
resíduos e a validação cruzada do modelo, serão consideradas mais
adiante.
Suposições
O modelo de regressão exige várias suposições na estimativa dos pa-
râmetros e no teste de significância, conforme mostra a Figura 17.5:
1. O termo de erro tem distribuição normal. Para cada valor fixo
de X, a distribuição de Y é normal.12
2. As médias de todas essas distribuições normais de Y, dado X,
situam-se em uma reta de coeficiente angular b.
3. A média do termo de erro é 0.
4. A variância do termo de erro é constante. Essa variância não
depende dos valores que X toma.
5. Os termos de erro não são correlacionados. Em outras pala-
vras, as observações são extraídas independentemente umas
das outras.
Mediante exame dos resíduos, pode-se obter uma visualização
do alcance dessas suposições. Esse assunto é abordado na próxima
seção sobre regressão múltipla.13
PESQUISA ATIVA
Associando a propaganda e as vendas da Ford
Acesse www.ford.com e pesquise na Internet (utilizando um dispo-
sitivo de busca) e no banco de dados on-line de sua biblioteca infor-
mações sobre as relações entre propaganda e vendas para fabricantes
de automóveis.
Formule um modelo de regressão bivariada explicando a relação
entre propaganda e vendas na indústria automobilística.
Como diretor de marketing da Ford Motor Company, como você
determinaria suas despesas com propaganda?
Malhotra_17.indd 431Malhotra_17.indd 431 15/09/11 08:5715/09/11 08:57
432 PARTE III ● COLETA, PREPARAÇÃO E ANÁLISE DE DADOS E RELATÓRIO
Regressão múltipla
A regressão múltipla envolve uma única variável dependente e
duas ou mais variáveis independentes. As questões suscitadas no
contexto da regressão bivariada também podem ser resolvidas via
regressão múltipla, com a consideração de variáveis independentes
adicionais:
• A variação nas vendas pode ser explicada em termos da va-
riação nas despesas de propaganda, nos preços e no nível de
distribuição?
• A variação na participação de mercado pode ser decorrência
do tamanho da equipe de vendas, das despesas de propaganda
e dos orçamentos de promoção de vendas?
• A conscientização dos consumidores quanto à qualidade é
determinada pela sua percepção quanto a preços, imagem e
atributos da marca?
regressão múltipla
Técnica estatística que desenvolve simultaneamente uma relação ma-
temática entre duas ou mais variáveis independentes e uma variável
dependente intervalar.
A regressão múltipla pode também responder a outras questões:
• Quanto da variação nas vendas pode ser explicado pelas des-
pesas de propaganda, pelos preços e pelo nível de distribuição?
• Qual é a contribuição das despesas de propaganda para expli-
car a variação nas vendas, quando os níveis de preços e de
distribuição são controlados?
• Que níveis de venda podemos esperar, dados os níveis de des-
pesas, de preços e de distribuição?
Pesquisa real
Marcas globais – anúncios locais
Os europeus são receptivos a produtos de outros países, mas quando se
trata de propaganda, preferem a “prata da casa”. Em uma pesquisa feita
por Yankelovich and Partners (www.yankelovich.com) e suas afiliadas,
constatou-se que os comerciais favoritos da maioria dos europeus se
referiam a marcas locais, embora eles não hesitem em comprar produtos
de marcas estrangeiras. Respondentes na França, na Alemanha e no Rei-
no Unido indicaram a Coca-Cola como o refrigerante mais comprado.
Entretanto, os franceses escolheram como favorito o anúncio da afa-
mada e premiada água Perrier. Na Alemanha, o anúncio preferido foi
o de uma marca alemã de cerveja sem álcool, Clausthaler. No Reino
Unido, porém, a Coca-Cola foi não apenas a bebida favorita como a
preferida na propaganda. À luz desses resultados, a questão importante
é: a propaganda ajuda? Ela contribui para aumentar a probabilidade de
venda da marca, ou apenas mantém em alta o conhecimento da marca?
Uma forma de resolver esse problema consiste em fazer uma regressão
na qual a variável dependente é a probabilidade de compra da marca e
as variáveis independentes são as avaliações das qualidades do produto
e avaliações da propaganda. Podem ser elaborados modelos separados,
com propaganda e sem ela, para avaliar qualquer diferença significativa
na contribuição. Podem também ser analisados testes t para verificar a
contribuição significativa tanto dos atributos da marca como da propa-
ganda. Os resultados indicam até que ponto a propaganda desempenha
um papel importante nas decisões de compra da marca. Junto a esses
resultados, um estudo realizado recentemente revelou que a tentativa de
construir fidelidade na compra de uma marca por meio de promoções de
vendas não é uma forma desejável de alcançar esse objetivo. Segundo o
estudo, as promoções de vendas apenas incentivam uma troca momen-
tânea de marca e simplesmente melhoram o desempenho a curto prazo
para as empresas. Além disso, no longo prazo, uma promoção de ven-
das pode implicar uma baixa qualidade, ou imagem de marca instável
frente aos consumidores, ou pode inclusive confundi-los, o que poderia
também levar a um declínio na fidelidade à marca. Os resultados desse
estudo mostram que sacrificar a propaganda e confiar nas promoções de
vendas reduz as associações de marca, o que finalmente acabará levando
a uma diminuição nas compras por fidelidade à marca.14 ■
A forma geral do modelo de regressão múltipla é:
que é estimado pela seguinte equação:
modelo de regressão múltipla
Equação usada para explicar os resultados da análise de regressão
múltipla.
Como anteriormente, o coeficiente a representa o intercepto,
mas os bs são agora coeficientes de regressão parcial. O critério de
mínimos quadrados estima os parâmetros de forma a minimizar o
erro total, SQres.Esse processo também maximiza a correlação entre
os valores reais de Y e os valores previstos, Ŷ. Todas as suposições
feitas na regressão bivariada aplicam-se também à regressão múlti-
pla. A seguir definimos algumas estatísticas associadas e, posterior-
mente, descrevemos o processo da análise de regressão múltipla.15
Estatísticas associadas à regressão múltipla
A maioria das estatísticas e dos termos estatísticos utilizados na
regressão bivariada também se aplicam à regressão múltipla. Além
disso, são empregadas as seguintes estatísticas:
R2 ajustado: R2, coeficiente de determinação múltipla, é ajus-
tado para o número de variáveis independentes e para o ta-
manho da amostra levando em conta os retornos decrescentes.
Após as primeiras variáveis, as variáveis independentes adi-
cionais não oferecem grande contribuição.
Coeficiente de determinação múltipla: a intensidade de asso-
ciação em regressão múltipla é medida pelo quadrado do coe-
ficiente de correlação múltipla, R2, que é chamado também de
coeficiente de determinação múltipla.
Teste F: o teste F é usado para testar a hipótesenula de que
o coeficiente de determinação múltipla na população, R2pop, é
zero. Isso equivale a testar a hipótese nula H0: �1 � �2 � �3
�... ��k � 0. A estatística de teste tem distribuição F com k e
(n – k – 1) graus de liberdade.
Teste F parcial: pode-se testar a significância de um coefi-
ciente de regressão parcial, �i, de Xi, com auxílio de uma esta-
tística F incremental. A estatística F incremental se baseia no
incremento da soma explicada de quadrados resultante da adi-
ção da variável independente Xi à equação de regressão após
terem sido incluídas todas as outras variáveis independentes.
Coeficiente de regressão parcial: o coeficiente de regressão
parcial, b1, denota a variação no valor previsto, Ŷ, por unidade
de variação em X1 quando as outras variáveis independentes,
X2 a Xk, são mantidas constantes.
Malhotra_17.indd 432Malhotra_17.indd 432 15/09/11 08:5715/09/11 08:57
CAPÍTULO 17 ● CORRELAÇÃO E REGRESSÃO 433
Como fazer análise de regressão múltipla
Os passos para a elaboração de uma análise de regressão múltipla
são similares aos adotados na regressão bivariada. O foco da dis-
cussão reside nos coeficientes de regressão parcial, intensidade de
associação, teste de significância e avaliação de resíduos.
Coeficientes de regressão parcial
Para entender o significado de um coeficiente de regressão parcial,
consideremos um caso em que há duas variáveis independentes, de
forma que
Ŷ = a + b1X1 + b2X2
Observemos inicialmente que a magnitude relativa do coeficiente
de regressão parcial de uma variável independente costuma ser dife-
rente daquela do seu coeficiente de regressão bivariada. Em outras
palavras, o coeficiente de regressão parcial, b1, será diferente do
coeficiente de regressão, b, obtido ao fazermos Y regredir sobre X1
somente. Isso ocorre porque X1 e X2 são geralmente correlacionadas.
Na regressão bivariada, não consideramos X2, e qualquer variação
em Y compartilhada por X1 e X2 foi atribuída a X1. Entretanto, no
caso de variáveis independentes múltiplas, isso não se justifica mais.
A interpretação do coeficiente de regressão parcial, b1, é que
ele representa a variação esperada em Y quando X1 varia de uma
unidade mas X2 é mantida constante ou controlada de outra forma.
De maneira semelhante, b2 representa a variação esperada em Y
para uma variação unitária em X2, quando X1 é mantida constante.
É, pois, adequada a designação de coeficientes de regressão parcial
para b1 e b2. Pode-se ver também que os efeitos combinados de X1 e
X2 sobre Y são aditivos. Em outras palavras, se X1 e X2 variam cada
um de uma unidade, a variação esperada em Y será (b1 + b2).
Conceitualmente, pode-se ilustrar como segue a relação entre
o coeficiente de regressão bivariada e o coeficiente de regressão
parcial. Suponhamos que se deva remover de X1 o efeito de X2. Para
tanto, fazemos uma regressão de X1 sobre X2. Em outras palavras,
estimaríamos a equação X̂1� a + bX2 e calcularíamos o resíduo Xr.
� (X1 – X̂1). O coeficiente de regressão parcial, b1, é igual ao coe-
ficiente de regressão bivariada, br, obtido da equação Ŷ � a + brXr.
Em outras palavras, o coeficiente de regressão parcial, b1, é igual
ao coeficiente de regressão, br, entre Y e os resíduos de X1 dos quais
foi removido o efeito de X2. Pode-se dar interpretação análoga ao
coeficiente parcial b2.
A extensão ao caso de k variáveis é imediata. O coeficiente de
regressão parcial, b1, representa a variação esperada em Y quando
X1 varia de uma unidade e X2 a Xk são mantidas constantes. Pode ser
interpretado também como o coeficiente de regressão bivariada, b,
para a regressão de Y sobre os resíduos de X1 quando o efeito de X2
a Xk foi removido de X1.
Os coeficientes beta são os coeficientes de regressão parcial
obtidos quando todas as variáveis (Y,X1,X2,. Xk) foram padronizadas
com média 0 e variância 1 antes de estimar a equação de regressão.
A relação dos coeficientes padronizados para os não padronizados
é a mesma que a anterior:
O intercepto e os coeficientes de regressão parcial são estima-
dos ao resolver um sistema de equações simultâneas obtido ao dife-
renciar e igualar a 0 as derivadas parciais. Como esses coeficientes
são estimados automaticamente por vários programas de computa-
dor, não vamos apresentar os detalhes. Cabe notar, entretanto, que
as equações não podem ser resolvidas se (1) o tamanho da amostra,
n, não superar o número de variáveis independentes, k, ou (2) uma
variável independente tiver correlação perfeita com outra.
Suponha que, ao explicar a atitude em relação à cidade, intro-
duzamos uma segunda variável – a importância atribuída ao clima.
A Tabela 17.1 apresenta os dados dos 12 entrevistados em um teste
preliminar sobre atitude em relação à cidade, tempo de residência
e importância atribuída ao clima. A Tabela 17.3 exibe os resultados
da análise de regressão múltipla. O coeficiente de regressão parcial
TABELA 17.3
Regressão múltipla
R múltiplo 0,97210
R2 0,94498
R2 ajustado 0,93276
Erro padrão 0,85974
gl
Análise da variância
Soma de quadrados
Quadrado
médio
Regressão 2 114,26425 57,13213
Resíduo 9 6,65241 0,73916
F � 77,29364 Significância de F � 0,0000
Variáveis na equação
Variável b SEB Beta (B) t Significância de t
Importância 0,28865 0,08608 0,31382 3,353 0,0085
Tempo 0,48108 0,05895 0,76363 8,160 0,0000
(Constante) 0,33732 0,56736 0,595 0,5668
SPSS Arquivo de Saída
SAS Arquivo de Saída
Malhotra_17.indd 433Malhotra_17.indd 433 15/09/11 08:5715/09/11 08:57
434 PARTE III ● COLETA, PREPARAÇÃO E ANÁLISE DE DADOS E RELATÓRIO
para o tempo de residência (X1) agora é 0,48108, diferente do que
era no caso bivariado. O coeficiente beta correspondente é 0,7636.
O coeficiente de regressão parcial para a importância atribuída ao
clima (X2) é 0,28865, com um coeficiente beta de 0,3138. A equa-
ção estimada de regressão é:
(Ŷ) � 0,33732 + 0,48108X1 + 0,28865X2
Ou
Atitude � 0,33732 + 0,48108 (Tempo) + 0,28865 (Importância)
Essa equação pode ser utilizada para vários fins, inclusive a previ-
são de atitudes em relação à cidade com base no conhecimento do
tempo de residência dos entrevistados na cidade e a importância
que eles atribuem ao clima.
Intensidade de associação
Pode-se determinar a intensidade da relação estipulada pela equa-
ção de regressão utilizando medidas adequadas de associação. A
variação total se decompõe como no caso bivariado:
SQy = SQreg + SQres
Onde:
A intensidade da associação é medida pelo quadrado do coeficiente
de correlação múltipla, R2, também chamado de coeficiente de de-
terminação múltipla.
O coeficiente de correlação múltipla, R, também pode ser visto
como o coeficiente de correlação simples, r, entre Y e . São dignos
de nota vários pontos sobre as características de R2. O coeficien-
te de determinação múltipla, R2, não pode ser menor que o maior
bivariado, r2, de qualquer variável independente individual com a
variável dependente. R2 será maior quando as correlações entre as
variáveis independentes forem baixas. Se as variáveis independen-
tes forem estatisticamente independentes (não correlacionadas),
então R2 será a soma dos r2 bivariados de cada variável indepen-
dente com a variável dependente. R2 não pode decrescer quando se
acrescentam mais variáveis independentes à equação de regressão.
Entretanto, em virtude dos retornos decrescentes, as variáveis adi-
cionais não dão qualquer contribuição sensível.16 Por essa razão, R2
é ajustado para o número de variáveis independentes e o tamanho
da amostra pela fórmula:
Para os resultados de regressão dados na Tabela 17.3, o valor de
R2 é:
Esse valor é maior do que o valor de r2, 0,8762, obtido no caso
bivariado, que é o quadrado da correlação simples (momento-
-produto) entre atitude em relação à cidade e tempo de residência.
O R2 obtido na regressão múltipla também é maior do que o qua-
drado da correlação simples entre atitude e importância atribuída
ao clima (que pode ser estimada em 0,5379). O R2 ajustadoé es-
timado em:
Observe que o valor de R2 ajustado está próximo de R2 e ambos são
maiores do que r2 para o caso bivariado. Isso sugere que o acrés-
cimo da segunda variável independente, importância atribuída ao
clima, dá uma contribuição para explicar a variação da atitude em
relação à cidade.
Teste da significância
Esse teste envolve o teste da significância não só da equação de
regressão global como dos coeficientes específicos de regressão
parcial. A hipótese nula para o teste global é que o coeficiente de
determinação múltipla na população, R2pop, é zero.
H0: R
2
pop � 0
Isso equivale à seguinte hipótese nula:
H0: �1 � �2 � �3 �...� �k � 0
O teste global pode ser feito com uma estatística F:
que tem distribuição F com k e (n – k – 1) graus de liberdade.17 Para
os resultados de regressão múltipla da Tabela 17.3,
significativo ao nível � � 0,05.
Se a hipótese nula for rejeitada, pelo menos um coeficiente de
regressão parcial da população é diferente de zero. Para determinar
que coeficientes específicos (�´is) são diferentes de zero, são ne-
cessários testes adicionais. O teste da significância dos �´is pode
ser feito da maneira análoga ao do caso bivariado, utilizando testes
t. A significância do coeficiente parcial da importância atribuída ao
clima pode ser testada pela seguinte equação:
que tem distribuição t com n – k – 1 graus de liberdade. Esse coefi-
ciente é significativo ao nível � � 0,05. Testa-se de maneira análo-
ga a significância do coeficiente do tempo de residência, que cons-
tatamos ser significativa. Logo, tanto o tempo de residência como
a importância atribuída ao clima são importantes para explicar a
atitude em relação à cidade.
Malhotra_17.indd 434Malhotra_17.indd 434 15/09/11 08:5715/09/11 08:57
CAPÍTULO 17 ● CORRELAÇÃO E REGRESSÃO 435
Alguns programas de computador contêm um teste F equiva-
lente, geralmente chamado de teste F parcial. Esse teste envolve
uma decomposição da soma de quadrados de regressão, SQreg, em
componentes relativos a cada variável independente. Na aborda-
gem padrão, isso se faz supondo que cada variável independente
tenha sido acrescentada à equação de regressão após terem sido
incluídas todas as outras variáveis independentes. O incremento na
soma de quadrados explicada, resultante da adição de uma variável
independente, é o componente da variação atribuída àquela variá-
vel, e se denota por SQxi.
18 Testa-se a significância do coeficiente de
regressão parcial para esta variável, com auxílio de uma estatística
F incremental:
que tem distribuição F com 1 e (n – k – 1) graus de liberdade.
Embora um valor alto de R2 e coeficientes significativos de re-
gressão parcial sejam satisfatórios, a eficácia do modelo de regres-
são deve ser avaliada mais cuidadosamente mediante o exame dos
resíduos.
Exame dos resíduos
Um resíduo é a diferença entre o valor observado de Yi, e o valor
previsto pela equação de regressão, Ŷi. Os resíduos são utilizados
no cálculo de várias estatísticas associadas à regressão. Além disso,
os diagramas de dispersão, em que são diagramados os resíduos
versus os valores previstos, Ŷi, tempo, ou variáveis previsoras, per-
mitem uma visão adequada das suposições fundamentais e da vali-
dade do modelo ajustado.19
resíduo
Diferença entre o valor observado de Y, e o valor previsto pela equa-
ção de regressão, Ŷi.
A suposição de um termo de erro distribuído normalmente
pode ser avaliada construindo um histograma dos resíduos padro-
nizados. Uma verificação visual revela se a distribuição é normal.
Também é útil examinar o gráfico de probabilidade de normalidade
dos resíduos padronizados, que mostra os resíduos padronizados
comparados a resíduos padronizados esperados de uma distribuição
normal. Se os resíduos observados forem normalmente distribuí-
dos, eles ficarão em uma reta de 45°. Além disso, dê uma olhada
na tabela de estatísticas residuais e identifique quaisquer valores
padronizados previstos ou resíduos padronizados que são maiores
do que ± um ou dois desvios-padrão. Essas porcentagens podem ser
comparadas com o que se poderia esperar com a distribuição nor-
mal (68 e 95%, respectivamente). Com o teste K-S de uma amostra,
fazemos uma avaliação mais formal.
A suposição de variância constante do termo de erro pode
ser examinada diagramando os resíduos versus os valores pre-
vistos da variável dependente, Ŷi. Se o padrão não for aleatório, a
variância do termo de erro não é constante. A Figura 17.7 mostra
um padrão cuja variância depende dos valores de Ŷi.
Um gráfico dos resíduos ao longo do tempo, ou da sequência
de observações, lançará alguma luz sobre a suposição de que os
termos de erro não são correlacionados. Se essa suposição for ver-
dadeira, deve-se observar um padrão aleatório. Um gráfico como
o da Figura 17.8 indica uma relação linear entre os resíduos e o
tempo. O teste de Durbin-Watson é um procedimento mais formal
para estudar as correlações entre os termos de erro20.
O gráfico de resíduos versus variáveis independentes eviden-
cia se um modelo linear é adequado ou não. Mais uma vez, o grá-
fico deve apresentar um padrão aleatório. Os resíduos dispõem-se
aleatoriamente, com dispersão relativamente igual em torno de 0, e
não devem apresentar qualquer tendência, seja positiva ou negativa.
Para verificar se devemos incluir quaisquer variáveis adicio-
nais na equação de regressão, podemos fazer uma regressão dos
resíduos sobre as variáveis propostas. Se qualquer variável explica
uma proporção significativa da variação residual, ela deve ser in-
cluída. A inclusão de variáveis na equação de regressão deve ser
fortemente orientada pela teoria do pesquisador. Assim, um estudo
dos resíduos proporciona uma visualização valiosa da adequação
das suposições básicas e do modelo que é ajustado. A Figura 17.9
exibe um gráfico que indica que as suposições básicas são satis-
feitas e que o modelo linear é adequado. Se o exame dos resíduos
indicar que as suposições básicas da regressão linear não são satis-
feitas, o pesquisador pode transformar as variáveis, em uma ten-
tativa de satisfazer as suposições. Transformações, como extrair
logaritmos, ou raízes quadradas ou recíprocas, podem estabilizar a
variância, normalizar a distribuição ou tornar linear a relação.
Os gráficos e as tabelas residuais podem ser pedidos quando a
regressão é feita, por exemplo, ao usar o SPSS. Você deve realizar
essas análises para a regressão múltipla dos dados da Tabela 17.1.
A partir do histograma, pode-se ver que cinco resíduos são posi-
tivos, enquanto sete são negativos. Ao comparar a distribuição de
R
es
id
ua
ls
Predicted Y Values
R
es
íd
uo
s
Valores previstos de Y
FIGURA 17.7 Gráfico dos resíduos, indicando que a va-
riância não é constante.
R
es
id
ua
ls
Time
R
es
íd
uo
s
Tempo
FIGURA 17.8 Gráfico indicando uma relação linear en-
tre resíduos e tempo.
R
es
id
ua
ls
Predicted Y Values
R
es
íd
uo
s
Valores previstos de Y
FIGURA 17.9 Gráfico de resíduos indicando que o mo-
delo ajustado é adequado.
Malhotra_17.indd 435Malhotra_17.indd 435 15/09/11 08:5715/09/11 08:57
436 PARTE III ● COLETA, PREPARAÇÃO E ANÁLISE DE DADOS E RELATÓRIO
frequência com a distribuição normal mostrada no mesmo resulta-
do, visualizamos que a suposição de normalidade provavelmente
não é satisfeita, mas que o desvio da normalidade pode não ser
significativo. Certamente, podemos fazer um teste estatístico mais
formal para a normalidade se isso for garantido. Todos os resíduos
estatísticos estão dentro de ± dois desvios-padrão. Além disso, mui-
tos dos resíduos são relativamente pequenos, o que indica que a
maioria dos modelos de previsão são bons.
O gráfico da probabilidade de normalidade mostra que os resí-
duos estão bem próximos da reta de 45° apresentada. Quando compa-
ramos o gráfico dos resíduos padronizados com os valores previstos,
nenhum padrão sistemático pode ser visto na disposição dos resíduos.
Finalmente, a tabelade estatísticas residuais indica que todos os va-
lores previstos e todos os resíduos estão dentro de ± dois desvios-
-padrão. Assim, concluímos que a regressão múltipla dos dados da
Tabela 17.1 não parece resultar em violações inaceitáveis das suposi-
ções. Isso sugere que a relação que estamos tentando prever é linear e
que os termos de erro são mais ou menos distribuídos normalmente.
Pesquisa real
O que influencia os preços dos ingressos? Um novo
estádio!
Uma das principais fontes de receita para qualquer time profissional é a
venda de ingressos, especialmente a venda para os sócios da tempora-
da. Um estudo fez uma análise de regressão para identificar que fatores
causavam a variação dos preços dos ingressos entre os times na mesma
liga em um determinado ano. A equação de regressão empregada foi a
seguinte:
LNPMI � a0 + a1NVIT + a2RENDA + a3PAG+ a4POP + a5TEND +
a6CAP + a7EST
Onde:
LNPMI � logaritmo neperiano do preço médio dos ingressos
PMI � preço médio dos ingressos
NVIT � número médio de vitórias do time nas últimas três temporadas
RENDA � nível médio de renda da população da cidade
PAG � folha de pagamento do time
POP � tamanho da população da cidade
TEND � tendências no setor
CAP � público como porcentagem da capacidade
EST � se o time está jogando em um estádio novo
A pesquisa reuniu dados cobrindo um período de 7 anos (1996-2002).
Os dados financeiros foram obtidos do Team Marketing Reports e os
outros dados foram coletados utilizando fontes disponíveis publica-
mente, como reportagens esportivas. Os resultados das análises de re-
gressão podem ser vistos na tabela no pé da página.
Os resultados sugerem que diversos fatores influenciam os preços
dos ingressos, e o principal deles foi o fato de o time estar jogando em
um estádio novo. 21 ■
Como no exemplo anterior, algumas variáveis independentes conside-
radas em um estudo muitas vezes se mostram insignificantes. Quando
há muitas variáveis independentes e o pesquisador suspeita que nem
todas elas são significantes, a regressão passo a passo deve ser usada.
Regressão passo a passo
O objetivo da regressão passo a passo é selecionar, entre inúme-
ras variáveis previsoras, um pequeno subconjunto de variáveis que
respondam pela maior parte da variação na variável dependente.
Nesse procedimento, as variáveis previsoras entram na equação de
regressão, ou saem dela, uma de cada vez.22 Há várias abordagens
para a regressão passo a passo.
regressão passo a passo
Procedimento de regressão em que as variáveis previsoras entram na
equação de regressão, ou saem dela, uma de cada vez.
1. Inclusão avançada. Inicialmente, não há variáveis previsoras
na equação de regressão. Elas são introduzidas uma de cada
vez somente se satisfizerem certos critérios definidos em ter-
Resultados da regressão
MLB NBA NFL NHL
Variável
Coefi-
ciente
Estatísti-
ca t
Valor
p
Coefi-
ciente
Estatísti-
ca t
Valor
p
Coefi-
ciente
Estatísti-
ca t
Valor
p
Coefi-
ciente
Estatísti-
ca t
Valor
p
Constante 1,521 12,012 0,000 2,965 20,749 0,000 2,886 18,890 0,000 3,172 16,410 0,000
POP 0,000 5,404 0,000 0,000 5,036 0,000 0,000 –2,287 0,023 0,000 2,246 0,026
RENDA 0,000 3,991 0,000 0,000 0,208 0,836 0,000 3,645 0,000 0,000 0,669 0,504
EST 0,337 5,356 0,000 0,108 3,180 0,002 0,226 3,357 0,001 0,321 4,087 0,000
NVIT 0,000 0,091 0,927 0,004 3,459 0,001 0,013 2,190 0,030 0,001 0,369 0,713
CAP 0,006 8,210 0,000 0,000 2,968 0,003 0,002 1,325 0,187 0,005 3,951 0,000
PAG 0,004 4,192 0,000 0,008 5,341 0,000 0,001 0,607 0,545 0,002 1,099 0,273
TEND 0,047 6,803 0,000 0,016 1,616 0,100 0,058 6,735 0,000 0,009 0,718 0,474
CAN (Canadá) –0,146 –3,167 0,002
R2 Ajustado 0,778 0,488 0,443 0,292
Estatística F 98,366 28,227 24,763 9,545
Significância de F 0,000 0,000 0,000
Malhotra_17.indd 436Malhotra_17.indd 436 15/09/11 08:5715/09/11 08:57
CAPÍTULO 17 ● CORRELAÇÃO E REGRESSÃO 437
mos da razão F. A ordem em que as variáveis são incluídas se
baseia na contribuição para a variância explicada.
2. Eliminação para trás. Inicialmente, todas as variáveis previso-
ras são incluídas na equação de regressão. Removem-se então
as variáveis previsoras uma de cada vez, com base na razão F.
3. Solução passo a passo. Combina-se a inclusão antecipada
com a remoção das variáveis previsoras que não mais satisfa-
zem o critério especificado em cada passo.
Os procedimentos da regressão passo a passo não resultam em
equações ótimas de regressão, no sentido de gerar o maior R2 para um
número determinado de previsores. Em razão das correlações entre
previsores, pode ocorrer que uma variável importante nunca venha a
ser incluída, enquanto variáveis menos importantes podem ser intro-
duzidas na equação. Para identificar uma equação ótima de regressão,
teríamos de calcular soluções combinatórias em que se examinem to-
das as combinações possíveis. Ainda assim, a regressão passo a passo
é útil quando o tamanho da amostra for grande em relação ao número
de variáveis previsoras, conforme mostra o exemplo a seguir.
Pesquisa real
Saindo... para o shopping center
Até mesmo no século XXI olhar e comparar é uma parte fundamental
das compras – seja on-line ou no shopping. Os clientes gostam de ana-
lisar suas decisões de compra antes de realizá-las. Muitos consideram
que os varejistas de lojas físicas têm uma vantagem sobre os varejistas
da Internet quando se trata de comparar, porque os primeiros são maio-
res em tamanho e ofertas de produtos. Embora a Web seja mais atraente
para os compradores mais jovens, o shopping continuará muito à fren-
te nessa corrida, especialmente com tantas opções de entretenimento
sendo construídas dentro dele atualmente. Elaborou-se um perfil dos
clientes comparadores em shopping centers regionais utilizando três
conjuntos de variáveis independentes: demográficas, comportamentais
e variáveis psicológicas de atitude. A variável dependente consistiu
em um índice de curiosidade/comparação. Em uma regressão passo
a passo incluindo os três conjuntos de variáveis, constatou-se que o
aspecto demográfico era o previsor mais poderoso do comportamento
de comparação. A equação final de regressão, que continha 20 das 36
variáveis possíveis, incluía todas as características demográficas. A ta-
bela a seguir apresenta os coeficientes de regressão, erros padrão dos
coeficientes e seus níveis de significância.
Ao interpretar os coeficientes, deve-se ter em mente que quanto
menor for o índice de curiosidade/comparação (a variável dependen-
te), maior a tendência de apresentar um comportamento associado à
comparação. Os dois previsores com maiores coeficientes são gênero e
situação de emprego. Os comparadores tendem a ser mulheres empre-
gadas. Tendem também a se situar em posição ligeiramente inferior em
comparação com outros clientes do shopping center, apresentando ní-
veis mais baixos de instrução e de renda, após levar em conta os efeitos
do gênero e da situação de emprego. Embora os comparadores tendam
a ser um pouco mais jovens que os não comparadores, não são necessa-
riamente solteiros; os que relatam tamanhos maiores de família tendem
a se associar a menores valores do índice de curiosidade/comparação.
O perfil menos afluente dos curiosos em relação a outros clientes
indica que as lojas especializadas nos shopping centers devem dar ên-
fase a produtos de preço moderado. Isso pode explicar a taxa historica-
mente baixa de falência em shopping centers de tais lojas e a tendência
das lojas especializadas, com preços elevados, a se localizarem apenas
em galerias de prestígio ou em shopping centers mais qualificados.23 ■
Regressão do índice de curiosidade/comparação sobre as variáveis descritivas e de atitude por
ordem de entrada na regressão passo a passo
Descrição da variável Coeficiente EP Significância
Gênero (0 � masc., 1� fem.) – 0,485 0,164 0,001
Situação de emprego (0 � empregado) 0,391 0,182 0,003
Autoconfiança – 0,152 0,128 0,234
Instrução 0,0790,072 0,271
Intenção quanto à marca – 0,063 0,028 0,024
Vê TV durante o dia? (0 � sim) 0,232 0,144 0,107
Tensão – 0,182 0,069 0,008
Renda 0,089 0,061 0,144
Frequência das visitas ao shopping – 0,130 0,059 0,028
Menos amigos que a maioria 0,162 0,084 0,054
Bom comprador – 0,122 0,090 0,174
As opiniões de outros são importantes – 0,147 0,065 0,024
Controle sobre a vida – 0,069 0,069 0,317
Tamanho da família – 0,086 0,062 0,165
Pessoa entusiasta – 0,143 0,099 0,150
Idade 0,036 0,069 0,603
Número de compras feitas – 0,068 0,043 0,150
Compras por estabelecimento 0,209 0,152 0,167
Compra com economia – 0,055 0,067 0,412
Excelente avaliador de qualidade – 0,070 0,089 0,435
CONSTANTE 3,250
R2 global � 0,477
Malhotra_17.indd 437Malhotra_17.indd 437 15/09/11 08:5715/09/11 08:57
438 PARTE III ● COLETA, PREPARAÇÃO E ANÁLISE DE DADOS E RELATÓRIO
Multicolinearidade
A regressão passo a passo e a regressão múltipla são dificultadas
pela presença da multicolinearidade. Praticamente todas as análises
de regressão múltipla feitas em pesquisa de marketing envolvem
previsores ou variáveis independentes que são correlacionados.
Entretanto, surge a multicolinearidade quando as intercorrelações
entre os previsores são muito altas. A multicolinearidade pode ori-
ginar vários problemas, incluindo:
multicolinearidade
Situação de intercorrelações muito altas entre variáveis independentes.
1. Os coeficientes de regressão parcial podem não ser estimados
com precisão. Os erros padrão tendem a ser muito altos.
2. As magnitudes e os sinais dos coeficientes de regressão par-
cial podem variar de uma amostra para outra.
3. Torna-se difícil avaliar a importância relativa das variáveis in-
dependentes ao explicar a variação na variável dependente.
4. Algumas variáveis previsoras podem ser incluídas ou removi-
das incorretamente na regressão passo a passo.
Nem sempre fica claro o que constitui uma multicolinearidade
grave, embora tenham sido sugeridas várias regras e processos
empíricos, bem como processos de maior ou menor complexida-
de para enfrentar o problema.24 Um processo simples consiste em
utilizar apenas uma das variáveis em um conjunto de variáveis al-
tamente correlacionadas. Alternativamente, pode-se transformar o
conjunto de variáveis independentes em um novo conjunto de pre-
visoras mutuamente independentes, recorrendo-se a técnicas como
análise dos componentes principais (ver Capítulo 19). Podem ser
utilizadas também técnicas mais especializadas, como regressão
em crista e regressão de raízes latentes.25
PESQUISA ATIVA
Avaliação da marca e preferência pelos laptops Lenovo
Visite www.lenovo.com e pesquise na Internet (utilizando um dis-
positivo de busca) e no banco de dados on-line de sua biblioteca
informações sobre os fatores que os consumidores utilizam ao
avaliar as marcas concorrentes de laptops.
Como diretor de marketing da Lenovo Computers, como você
melhoraria a imagem e o posicionamento competitivo de sua marca?
Formule um modelo de regressão múltipla explicando as prefe-
rências do consumidor por marcas de laptop como uma função das
avaliações da marca nos fatores de critérios de escolha dos consumi-
dores para avaliar marcas concorrentes.
Importância relativa dos previsores
Na presença da multicolinearidade, exige-se um cuidado especial na
avaliação da importância relativa de variáveis independentes. Na pes-
quisa de marketing aplicada, é conveniente determinar a importância
relativa dos previsores. Melhor dizendo: qual é a importância das
variáveis independentes na justificativa para a variação na variável
dependente?26 Infelizmente, como os previsores são correlacionados,
não existe uma medida não ambígua da importância relativa dos pre-
visores na análise de regressão.27 Não obstante, há várias abordagens
para avaliar a importância relativa das variáveis previsoras.
1. Significância estatística. Se o coeficiente de regressão par-
cial de uma variável não for significativo, conforme determi-
nado por um teste incremental F, essa variável é considerada
como não importante. Ocorre uma exceção a essa regra se
houver fortes razões teóricas para crer que a variável seja
importante.
2. Quadrado do coeficiente de correlação simples. Essa medi-
da, r2, representa a proporção da variação na variável depen-
dente explicada pela variável independente em uma relação
bivariada.
3. Quadrado do coeficiente de correlação parcial. Essa medida,
R2yxi.xj xk é o coeficiente de determinação entre a variável de-
pendente e a variável independente, controlando os efeitos das
outras variáveis independentes.
4. Quadrado do coeficiente de correlação de partes. Este coefi-
ciente representa um aumento em R2 quando se introduz uma
variável em uma equação de regressão que já contém as outras
variáveis independentes.
5. Medidas baseadas em coeficientes padronizados ou pesos
beta. As medidas mais usadas são os valores absolutos dos
pesos beta, |Bi|, ou seus quadrados Bi
2. Como são coeficientes
parciais, os pesos beta levam em conta o efeito das outras va-
riáveis independentes. Essas medidas vão se tornando menos
confiáveis conforme aumentam as correlações entre as variá-
veis previsoras (a multicolinearidade aumenta).
6. Regressão passo a passo. Utiliza-se a ordem em que os previ-
sores entram em uma equação de regressão ou saem dela para
inferir sua importância relativa.
Como os previsores são correlacionados, ao menos até certo
ponto, em praticamente todas as situações de regressão, nenhu-
ma dessas medidas é satisfatória. É possível também que as di-
ferentes medidas indiquem uma ordem diferente de importância
dos previsores.28 Todavia, se todas as medidas forem examinadas
coletivamente, pode-se obter uma visualização conveniente da
importância relativa dos previsores.
Pesquisa de decisão
West Michigan Whitecaps: estimulando a
fidelidade dos torcedores
A situação
O West Michigan Whitecaps (www.whitecaps-baseball.com), um
time da liga nacional de beisebol de Gram Rapids, Estados Unidos,
queria saber o que eles deveriam fazer para desenvolver a fidelidade
dos torcedores. Como eles poderiam mantê-la, fazê-la crescer e apro-
veitá-la? O diretor geral Scott Lane contratou a empresa de pesquisa
Message Factors (www.messagefactors.com), com base em Memphis,
Tennessee, para ajudar a identificar maneiras de manter com eficácia
a fidelidade dos torcedores com um orçamento limitado. A Message
Factors desenvolveu um estudo que usou uma técnica proprietária de
análise de valor que examinava a relação entre o valor geral percebido
e os atributos de satisfação específicos a fim de identificar os elemen-
tos que impulsionam a fidelidade. Ela ajudou a determinar as quatro
coisas que os clientes querem lhe dizer, que são os elementos básicos
– o que os clientes esperam da empresa; questões de valor – o que
os clientes valorizam na empresa; irritações – o que os clientes não
gostam na empresa; e sem importância – com o que os clientes não se
importam na empresa.
Pesquisas qualitativas foram feitas para identificar um conjunto de
71 atributos que influenciaram a fidelidade dos torcedores. Em seguida,
um questionário elaborado para incorporar os 71 atributos foi aplicado
Malhotra_17.indd 438Malhotra_17.indd 438 15/09/11 08:5715/09/11 08:57