Prévia do material em texto
Notas de Aula de Estatística
Professor Kleison Freitas
2020.2
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 2
Informações Sobre a Disciplina
- Apresentação: Cursando a disciplina de Estatística, o acadêmico poderá utilizar a ferramenta estatística
na tomada de decisões que tangem às funções empresariais ou acadêmicas, através de uma postura crítica e
reflexiva.
- Objetivos
1. Compreender o uso da estatística na prática acadêmica ou empresarial;
2. Desenvolver cálculos básicos da estatística e interpretá-los;
3. Utilizar a objetividade e a probabilidade como uma base nas tomadas de decisões;
4. Entender o uso e a importância da inferência e da previsão estatística em pesquisas de mercado, de opinião
e em consultorias empresariais.
- Metodologias e Recursos: Utilizar as técnicas estatísticas através de aulas expositivas, práticas em
laboratório de informática com uso do Microsoft Excel e possibilitando o discente na resolução de problemas
em sua área de atuação e formação.
- Sistema de Avaliação: Verificar no Portal da disciplina
- Sistema de frequência: O aluno deve ter no mínimo 75% de frequência. Se o aluno tiver acima de 15
faltas estará reprovado por falta, visto que cada aula são três faltas ou três presenças, respectivamente. O
aluno deverá administrar as suas faltas.
Bibliografia Recomendada
• TRIOLA, M. F. Introdução à Estatística. 11ª Edição. Rio de Janeiro. Livros Técnicos e Científicos, 2014.
• MORETIN, L. G. Estatística básica: Probabilidade e Inferência. Volume único. São Paulo: Pearson,
2010.
• LAPONNI, J.C. Estatística Usando o Excel. 4ª Edição. Editora Campus, 2005.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 3
Informações Sobre o Professor Kleison Freitas
Graduação
Curso: Estatística - Instituição: Universidade Federal do Ceará - Ano de Conclusão: 2004
Pós-Graduação
Curso: Mestrado em Logística e Pesquisa Operacional
Instituição: Universidade Federal do Ceará - Ano de Conclusão: 2009
Curso: MBA em Administração e Marketing
Instituição: Centro Universitário Internacional Uninter – Paraná – SC - Ano de Conclusão: 2017
Curso: Especialização em Gastronomia
Instituição: Unifanor – Ano de Conclusão: 2018
Experiência no Magistério
1. Professor da Universidade Federal do Ceará (UFC).
Setor de estudo: Probabilidade e Estatística.
Departamento de Estatística e Matemática Aplicada (DEMA) do Centro de Ciências.
Cursos em que já ministrou/ministra aulas: Biblioteconomia, Ciências Atuariais, Ciências Biológicas, Ciências
Contábeis, Computação, Engenharia de Alimentos, Engenharia Elétrica, Engenharia Mecânica, Engenharia
Metalúrgica, Engenharia de Pesca, Geografia, Química, Matemática e Publicidade e Propaganda.
De 2006 a 2017
2. Professor do Centro Universitário UNIFANOR/Wyden.
Cursos de graduação em que ministrou/ministra aulas: Administração, Ciências Contábeis, Construção de
Edifícios, Engenharia Ambiental, Engenharia Civil, Engenharia Elétrica, Engenharia de Produção,
Engenharia Química, Gestão Comercial, Logística, Marketing, Nutrição, Processos Gerenciais, Psicologia,
Recursos Humanos e Sistema de Informação.
Disciplinas: Estatística, Bioestatística e Pesquisa Operacional. Desde agosto de 2007.
4 vezes Academic Stars pelo grupo Wyden.
Experiência como Estatístico
1. Diretor de Marketing e de Projetos na Gauss – Empresa Júnior de Estatística (UFC).
Período: 2000 a 2004.
2. Consultorias Empresariais: Empresas Públicas, Privadas e Clientes físicos.
Período: Desde 1999.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 4
Calculadoras Sugeridas e Obrigatórias
Modelo Casio fx 82 MS ou HP – Modelo: 12C
Modelo Casio fx 82 ES
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 5
Nota de Aula 1 – Estatística - Conceito
1 INTRODUÇÃO
A Estatística é uma ciência que utiliza teorias probabilísticas para explicar a frequência da ocorrência
de eventos advindos de uma pesquisa de mercado e opinião tendo como objetivo maior obter, organizar e
analisar dados, a fim de estimar a previsão de fenômenos, conforme o caso estudado, principalmente na área
de negócios.
A palavra estatística originou-se da expressão latina statisticum, que significa “Estado”, que depois de
vários significados, surgiu em alemão a palavra statistik que significa “análise de dados sobre o Estado”. O
Estado teve fundamental importância na origem da Estatística como ciência, pois originalmente, as
estatísticas eram colhidas para as finalidades relacionadas com o Estado, como os recenseamentos, por
exemplo. Como disciplina, só no século XIX é que se estruturou, mas já era conhecida desde a antiguidade,
há mais de 4 mil anos.
Nas decisões do dia-a-dia, o indivíduo há de forma direta ou indireta que se basear em dados
observados para isso, por exemplo, ao decidir pelo seguro de um carro de uma determinada seguradora,
geralmente, esta procura verificar se este seguro satisfaz as suas necessidades, ou seja, se o seu preço é
compatível com o seu orçamento, além de outras características. Posteriormente, compara se dados deste
seguro com o de outras seguradoras e, através de uma análise processada internamente em sua mente, toma-
se a decisão de adquiri-lo ou não.
Essa analogia não difere na realização das pesquisas de mercado, que tem por objetivo responder as
indagações ou comprovar as hipóteses elaboradas pelo pesquisador. E para isso, é preciso, inicialmente,
coletar dados que possam fornecer informações relevantes para responder esses questionamentos, mas para
que os resultados da pesquisa sejam confiáveis, tanto a coleta de dados quanto à sua análise deve ser feita de
forma criteriosa e objetiva. Para isso, o planejamento eficaz da realização da pesquisa é necessário.
O profissional de pesquisa de mercado, na grande maioria das vezes, trabalha com limitações de
tempo, escassez financeira, de recursos humanos, de produtos, de materiais, dentre outros, impedindo-o de
analisar afundo o processo como um todo, mas de um lado não se faz necessário estudá-lo por inteiro, pois a
Estatística defende que apenas o estudo de uma parcela deste pode atender de forma eficaz às necessidades
desejadas.
Algumas ciências utilizam à estatística como uma ferramenta própria, possuindo-a com suas
terminologias próprias, como sendo:
• Estatística aplicada à Engenharia: É um ramo da estatística que estuda as suas aplicações no
controle de processos de produtos e serviços, no planejamento de novas estratégias de
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 6
produção, nas vendas, no controle de qualidade, em ensaios destrutivos e não destrutivos,
com o objetivo de verificar a porcentagem de peças não conforme as especificações ou a
probabilidade de vida de equipamentos ou peças, dentre outras;
• Estatística aplicada à Contabilidade: A estatística é utilizada na área da contabilidade para
comparar o sexo de carteira de clientes, para comparar cargos de funcionários da empresa,
onde se compara o custo gasto colocando os mais importantes acima da pirâmide para
comparação entre cargos similares, variação e montagem na estrutura de cargose salários,
contagem de estoque, de imobilizado, perdas, juros, dentre outros;
• Estatística Econômica ou Econometria: É um ramo da estatística direcionado para a análise
de fenômenos econômicos;
• Estatística Populacional: É o ramo da estatística relacionado à população e à demografia
(área da ciência geográfica que estuda a dinâmica populacional humana, ou seja, as taxas de
natalidade, mortalidade, imigração, emigração, densidade populacional, IDH, dentre outros);
• Estatística Aplicada à Tecnologia da Informação: É um ramo da estatística que trabalha com
a mineração dos dados cadastrados em um banco de dados, a fim de encontrar anomalias ou
tendências em séries qualitativas ou quantitativas;
• Bioestatística: É o planejamento, coleta, avaliação e interpretação de todos os dados obtidos
em pesquisa na área biológica, médica e áreas da saúde em geral;
• Estatística Social: É o ramo da estatística que avalia fatores relativos à realidade social,
econômica e ambiental de um país e seu uso para a formulação e a avaliação de políticas
públicas;
• Estatística Física: É o ramo da física que através da estatística analisa sistemas físicos de alta
complexidade, com elevado número de entidades constituintes, como os átomos, as
moléculas, os íons, entre outros;
• Dentre outras áreas.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 7
2 ESTATÍSTICA – FASES DE REALIZAÇÃO PRÁTICA
A estatística é uma ciência importante, útil e com um escopo abrangente de aplicação em negócios,
administração, engenharia, política, física, ciências sociais, dentre outras áreas, quase ilimitado.
Na prática empresarial e industrial, a Estatística é uma ferramenta-chave e segura para entender
sistemas variáveis, controlar processos, sumarizar dados e tomar decisões baseados nos mesmos.
De forma prática e didática, a estatística como pesquisa prática se resume na:
Segundo Kotler, um dos mais respeitados estudiosos de marketing no mundo, a definição de pesquisa
de marketing que também serve para pesquisa estatística se resume em:
“O planejamento, a coleta, a análise e a apresentação sistemática de dados e
descobertas relevantes sobre uma situação específica de marketing enfrentada por
uma empresa”
É uma maneira de entender se as estratégias empresariais estão, de fato, gerando os resultados
esperados focados nos 4 P’s do Marketing, que são eles:
• Produto: este “P” se refere ao produto ou serviço oferecido pela empresa;
• Preço: este “P” se refere é quando a empresa conhece o seu custo de produção, para, então
definir a sua precificação;
• Praça: este “P” se refere onde o produto ou serviço é vendido, a disponibilidade de
atendimento e a logística envolvida;
• Promoção: este “P” se refere se refere às estratégias de comunicação, publicidade e
propaganda. Vale ressaltar que a promoção representa somente ¼ do marketing, então nunca
confunda marketing com propaganda.
Neste sentido, a pesquisa de marketing é muito importante para cada um dos P’s, tanto para a
definição da melhor forma de se posicionar, quanto para melhorias ou identificação de novas oportunidades,
podendo esta ser feita até mesmo pela internet, de forma qualitativa e/ou quantitativa, sem o envolvimento de
entrevistas diretas com o consumidor, pois caso o envolva a pesquisa de marketing também será pesquisa de
mercado e opinião.
O motivo que leva uma empresa a realizar uma pesquisa de marketing pode variar dependendo do
caso, e geralmente o motivo é pela identificação de um problema no seu processo, ou por causa de um
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 8
momento desafiador, uma crise econômica, por exemplo, e precisa se reestruturar ou se reinventar. Assim, os
principais benefícios em se fazer pesquisa de marketing em uma empresa são:
• Identificar oportunidades de negócios: validar ou definir oportunidades de
reposicionamento, alterações na precificação ou logística, ou até mesmo perceber potencial
em um novo produto ou serviço;
• Melhorar estratégias de marketing: ajuda ser mais assertivo nas mensagens e campanhas;
• Gerar leads: ou seja, pode apresentar um alto número de compartilhamentos, o que irá
favorecer para aumentar o reconhecimento e a autoridade da sua marca;
• Fazer benchmarking: pesquisar tendências e analisar a concorrência;
• Apoiar a tomada de decisão: Com as informações obtidas de forma clara e sólida, o
empreendedor terá muito mais segurança em tomar uma decisão importante, e com isso a
redução dos riscos de um fracasso.
2.1 TIPOS PRÁTICOS DE PESQUISAS ESTATÍSTICAS
As pesquisas podem variar conforme os objetivos, a estrutura adequada para a estratégia e as
variáveis que serão utilizadas para a análise dos resultados, assim os tipos ou modelos principais são:
exploratórias, transversal, longitudinal e experimental, como segue:
• Pesquisa Exploratória: A pesquisa exploratória, como o nome diz, de exploração de um
assunto, se serve de fontes secundárias, podendo ser interna da empresa ou de forma externa
do mercado que atua, com estudos de caso, pesquisas anteriores com relatórios disponíveis
para o público, observações informais, trabalhos acadêmicos, livros, relatórios da própria
empresa e publicações governamentais e de instituições não governamentais;
• Transversal: é aquele que levanta e analisa dados em um tempo definido como
observacional, tendo como objetivo estudar uma população em um determinado ponto no
tempo não considerando o que acontece antes ou depois, ou seja, é um retrato do momento.
A pesquisa transversal pode ser dividida em:
a) Descritiva pois procura respostas para um problema específico e pontual, observando
fenômenos e buscando descrevê-los ou agrupá-los, para então poder interpretar essas
informações em busca de uma conclusão. Ela tem o compromisso de expor os fenômenos e
descrevê-los, porém não precisa explicar o motivo desse fenômeno. É realizada por meio de
questionários, entrevistas, grupos focais, dentre outros. Por exemplo: um estudo transversal
pode ser realizado com homens e mulheres, entre 24 e 35 anos para verificar com o que
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 9
preferem gastar sua renda no momento da compra em que o resultado foi de que as
mulheres preferem sapatos e os homens cervejas (Figura 1);
Figura 1: Exemplo de um estudo transversal
Fonte: QuestionPro (2020)
b) Analítica: Este estudo transversal é utilizado para investigar a associação entre dois
parâmetros relacionados ou não relacionados, por exemplo os estudos de causa e efeito. Pela
Figura 1, pode-se estender o estudo tentando entender o motivo das preferências de acordo
o gênero dos pesquisados, ou seja, é uma continuidade do estudo descritivo;
• Longitudinal: Da mesma forma que o estudo transversal, um estudo observacional em que
os dados da mesma amostra são coletados repetidamente durante um período prolongado,
podendo durar alguns anos, chegando até décadas, dependendo do tipo de dados que se
deseja coletar. O benefício do estudo longitudinal é que os investigadores podem tomar
notas das mudanças, fazer observações e detectar quaisquer alterações que ocorrem nas
características de seus participantes e comparar o antes e o depois. Por exemplo: durante
uma pandemia em que a população fica confinada em casa, verifica-se o comportamento de
compras por delivery no início da quarentena, durante e depois com o objetivo de verificarse
o comportamento é o mesmo ou muda ao longo do período estudado;
• Pesquisa Experimental (ou casual): é a conhecida pesquisa laboratorial por meio de um
experimento, onde um produto é testado incansavelmente para se obter todas as
informações sobre os seus resultados. Em geral, o ambiente é artificial e mostra o seu
desenvolvimento antes mesmo de ser lançado.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 10
Ao se falar de pesquisa estatística não tem como desassociar da pesquisa de mercado que surgiu da
necessidade que os empresários tinham em conhecer de forma mais concreta as variáveis diante do
crescimento dos mercados, pois é utilizada como um sistema eficaz, que permite tomar rápidas decisões para
ajustar a empresa mercadologicamente.
A princípio, os mercados eram formados por populações reduzidas, onde o empresário conhecia
estreitamente as pessoas que ali viviam, com o passar do tempo essa relação foi se perdendo. O cenário do
mercado transformou-se e a pesquisa de mercado permitiu resgatar o contato da empresa com o mercado.
A pesquisa de mercado surgiu em 1911 nos Estados Unidos, em que uma editora de livros foi a
primeira empresa a montar um departamento de pesquisa. Oito anos depois, surgiu o primeiro livro sobre o
tema e começaram a aparecer os primeiros estudos sobre a organização dos questionários de coletas de dados
e técnicas de amostragem. Em 1936, após um erro grave na previsão do resultado das eleições americanas, os
técnicos em pesquisa passaram a valorizar mais as técnicas de probabilidade e estatística e a dar especial
atenção à qualidade da amostra de pesquisados. Após a segunda guerra mundial, em 1948, os Estados Unidos
tinham mais duzentas empresas envolvidas em pesquisas sistemáticas de mercado. Desde, então, a pesquisa
mercadológica passou a ser parte integrante do universo de marketing.
No Brasil, os introdutores da pesquisa de mercado foram principalmente duas agências americanas
de publicidade que haviam iniciado suas atividades no país nos primeiros anos da década de 1930, a N. W.
Ayer & Son importante agência da cidade da Filadelfia, e a McCann-Erickson, uma das principais agências
americanas, e duas indústrias de produtos de consumo, a Lever e a Sidney Ross, a primeira estabelecida no
país em 1929 e a segunda pela mesma época. Na década de 1930, a Lever e a Sidney Ross começaram a fazer
pesquisas de mercado em nosso país sobre hábitos e preferências dos consumidores e audiência de rádio. No
mesmo ano, a N. W. Ayer & Son teve seu nome ligado à primeira grande pesquisa de mercado, de âmbito
nacional no Brasil. Foi uma pesquisa sobre os hábitos de consumo de café. O patrocinador foi o
Departamento Nacional do Café, importante órgão do Governo Federal. No ano de 1940, foi realizada no
país a primeira pesquisa nacional de opinião pública, que teve dois objetivos: conhecer as opiniões e atitudes
do povo brasileiro sobre a guerra que eclodira na Europa em 1939, sobre as partes em conflito e outras que
poderiam envolver-se; e determinar a penetração das emissoras internacionais de ondas curtas no país.
Em 1942, ocorreu a criação do IBOPE (Instituto Brasileiro de Opinião Pública e Estatística) que
deu início à atividade regular e sistemática da pesquisa de mercado e de opinião pública no Brasil, foi quando
as emissoras de rádio começaram a se interessar em mensurar a sua audiência no país e mais tarde as
emissoras de televisão. E após isso começou surgir diversos institutos de pesquisas de mercado no país, e
todos eles utilizam as três partes do conceito da Estatística que se encontra no início desta nota de aula.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 11
2.2 COLETA DE DADOS
A coleta de dados é um processo que visa reunir dados já existentes em instituições públicas ou
privadas (dados secundários) ou através de pesquisa de levantamento em campo (dados primários) e
experimentos, sendo que estas podem ser das seguintes formas:
• Por questionário: o questionário é um instrumento de coleta de dados constituído por uma
série de perguntas, que devem ser respondidas por escrito, e que dentre as principais
vantagens estão a economia de tempo, a eficiência na coleta de um grande número de dados,
a possibilidade de atingir um número maios de pessoas em uma área geográfica mais ampla.
Além de economizar com treinamento e coletas de campo, obter respostas mais rápidas e
exatas, o anonimato e mais tempo para as respostas, além da flexibilidade de horário;
• Por observação: utiliza os sentidos na obtenção de determinados aspectos da realidade, e
consiste em ver, ouvir e examinar fatos ou fenômenos. Para ser considerada científica deverá
ser planejada sistematicamente, registrada metodicamente, além de sujeita às verificações e
controle sobre a validade e segurança;
• Por entrevista pessoal: este tipo de coleta de dados pode ser feito com perguntas pré-
determinadas (entrevista estruturada), ou com apenas com os principais tópicos que deseja
abordar, tendo maior liberdade durante a conversa (entrevista semiestruturada).
De qualquer forma, o ideal é estabelecer um roteiro para a coleta de dados primários, tendo claro
quais dados serão coletados, seja por meio de perguntas previamente elaboradas, ou apenas através da ordem
que os assuntos serão abordados. Após essa coleta realizada, parte-se para a segunda parte, o tratamento
desses dados.
2.3 TRATAMENTO DOS DADOS
Após a coleta de dados, deve-se tabular os dados, ou seja, ler as respostas uma a uma, contá-las e
organizá-las, que pode ser feita à mão, de forma mecânica ou eletronicamente. No caso de estudos mais
amplos, com mais dados, recomenda-se o emprego de algum software para economizar tempo, recursos,
esforços e diminuir as margens de erro, e o mais indicado é o Microsoft Excel pela acessibilidade.
2.4 APRESENTAÇÃO DOS DADOS
Para a apresentação dos resultados, pode-se recorrer a tabelas, quadros, gráficos e medidas
paramétricas e não paramétricas estatísticas.
O profissional que utiliza a estatística nas suas análises precisa entender a sua definição/conceito,
como segue a próxima nota de aula.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 12
Nota de Aula 2 – Estatística - Variáveis
1 INTRODUÇÃO
As variáveis (ou dados), são as características associadas ao objeto de estudo investigado ou do
experimento realizado, podendo serem coletados de forma primária em que as informações são recolhidas
diretamente nas fontes que as geram por vivência própria ou por testemunhos diretos, e secundária, que são
feitas a partir de informações conseguidas pela composição de levantamentos de dados existentes por outras
instituições.
As variáveis são divididas de duas formas: qualitativas e quantitativas, assim:
1.1 VARIÁVEIS QUALITATIVAS
• Qualitativas (ou categorizadas): São caraterísticas que exprimem qualidade do elemento
investigado, sendo dividido em:
- Nominal: Quando o dado se apresenta sob o aspecto qualitativo e não importa a ordem de
disposição delas, ou seja, não há uma hierarquia embutida. Exemplos: Gênero de clientes de
uma determinada marca, Raça, Tipo de espécie de uma planta, Tipo de adubo utilizado, Cor
do cabelo de modelos de uma agência de publicidade, dentre outros.
- Ordinal: Quando há uma hierarquia embutida, ou seja, um grau de relevância de um
indivíduo para outro mediante suas características. Exemplos: Classe social, Grau de
instrução, Desempenho (ótimo, bom, regular, ruim e péssimo), Cargodos funcionários na
empresa, Grau de dor (forte, moderada ou leve), dentre outros.
1.1.1 Análise Estatística de Variáveis Qualitativas
Os métodos de análise qualitativos são usados em muitos campos acadêmicos, como sociologia,
psicologia, ciência política, medicina e ciências da educação, entre outros, para conduzir pesquisas científicas.
Saber como analisar dados qualitativos também é importante em contextos menos acadêmicos, como
gerenciamento de negócios e pesquisa de mercado, usando dados qualitativos coletados de uma variedade de
métodos de trabalho de escritório ou de campo.
O principal objetivo da análise qualitativa de dados é sempre obter alguma forma de explicação,
compreensão ou interpretação dos fenômenos sociais. A análise qualitativa de dados enfatiza as experiências,
opiniões, comportamentos e contextos sociais dos participantes da pesquisa. Em suma, a análise qualitativa
dos dados é usada para responder a perguntas sobre o “como” e “porquê” de uma situação, em vez de
“quantos”.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 13
A análise qualitativa de dados pode ser conduzida usando uma ampla gama de métodos, estruturas
teóricas e análises conceituais. Algumas abordagens comumente usadas incluem: análise de conteúdo
qualitativa, Teoria Fundamentada nos Dados e análise de discurso.
Escolher sua metodologia de análise dependerá de sua(s) pergunta(s) de pesquisa, objetivos
(encontrar padrões ou comparação de grupos), o tipo de dados que você está usando (entrevistas ou tweets),
como seus dados foram coletados (entrevistas estruturadas versus não estruturadas, por exemplo), e que tipo
de sistema de categorização (também chamado de sistema de codificação) você precisa desenvolver (por
exemplo, abordagens dedutiva versus indutiva).
A estratégia utilizada neste tipo de análise é criar subcategorias para segmentos de seus dados que
têm qualidades específicas em comum. Essas categorias e subcategorias se tornarão seus “códigos” – códigos
que você pode atribuir a outros segmentos em seus dados que tenham as qualidades relevantes – e esses
códigos podem ser usados para identificar padrões, temas ou relacionamentos em seus dados.
A maioria dos pesquisadores codifica seus conjuntos de dados várias vezes (chamados de “rounds”)
para refinar seu sistema de código, portanto não desanime se você precisar de algumas tentativas! Você pode
então examinar os dados atribuídos aos códigos em relação às suas perguntas de pesquisa e hipóteses para
começar a formular o que você acha que os resultados de sua investigação podem ser.
1.2 VARIÁVEIS QUANTITATIVAS
• Quantitativas (ou numéricas): São atributos resultantes de uma contagem ou mensuração,
podendo ser:
- Discreta: São todas as variáveis numéricas cujos valores se obtém a partir de procedimento
de contagem originado de um conjunto amostral finito ou enumerável. As variáveis discretas
assumem valores inteiros. Exemplos: Número de alunos de um curso específico, Número de
pacientes vacinados contra a covid-19, dentre outros.
- Contínua: São variáveis numéricas cujos valores são obtidos por procedimento de
mensuração (ou não enumerável), de sorte que ao menos teoricamente, os resultados das
medidas são capazes de variações insensíveis ou contínuas. As variáveis contínuas podem
assumir qualquer valor num intervalo contínuo e são quantificadas em uma escala infinita de
valores, por isso, diz-se que as variáveis contínuas são muito informativas. Exemplos: Peso,
Altura, Temperatura, Espessura, Velocidade, Idade, Renda (em Reais), dentre outros.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 14
1.2.1 Análise Estatística de Variáveis Quantitativas
Nos métodos de análises de dados quantitativos as informações coletadas são tabuladas e agrupadas
mediante o número de respostas com o intuito de observar a frequência ocorrida e determinar assim a ordem
de importância dos valores encontrados.
Nas pesquisas quantitativas, é muito comum o uso de questionário, com a maioria das questões
fechadas. Existem diversos tipos de perguntas que podem ser utilizadas, como múltipla escolha, dicotomia,
ranking, matriz e abertas. É importante observar que o foco é testar uma teoria e obter resultados concisos e
limitados. Por isso, não há abertura para interpretações diversificadas.
Com o auxílio de uma boa análise de dados quantitativos e qualitativos, as empresas contam com
uma base de informações mais sólidas para nortear suas decisões. Vale ressaltar que esses dois dados podem
ser utilizados complementando um ao outro, com a finalidade de obter melhores resultados e otimizar ainda
mais as ações de negócios das organizações.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 15
Nota de Aula 3 – Inferência Estatística - População
1 INTRODUÇÃO
Com visto nas notas de aulas anteriores, a realização das pesquisas estatísticas tem por objetivo
responder as indagações ou comprovar as hipóteses elaboradas pelo pesquisador, e para isso, é preciso,
inicialmente, coletar os dados que possam fornecer informações relevantes para responder esses
questionamentos, mas para que os resultados da pesquisa sejam confiáveis, tanto a coleta de dados quanto à
sua análise deve ser feita de forma criteriosa e objetiva, mas antes disso o planejamento desta coleta deve ser
eficiente na sua realização.
O profissional de pesquisa de mercado, na grande maioria das vezes, trabalha com limitações de
tempo, escassez financeira, de recursos humanos, de produtos, de materiais, dentre outros, impedindo-o de
analisar afundo o processo como um todo, mas de um lado não se faz necessário estudá-lo por inteiro, pois a
Estatística defende que apenas o estudo de uma parcela deste pode atender de forma eficaz às necessidades
desejadas.
Desta forma, quando se deseja estudar uma população-alvo (ou universo), o pesquisador tem duas
formas possíveis de fazê-lo, ou de forma censitária, o que exige a observação de todos os elementos que
formam essa população, ou analisar apenas uma parcela que represente este universo, ou seja, uma amostra.
A finalidade da amostragem é permitir fazer suposições, predições, generalizações (ou inferências)
acerca de características de uma população com base na análise de apenas alguns de seus elementos. Essa
técnica é amplamente utilizada em diversas situações do dia-a-dia das empresas e de vários pesquisadores, de
várias áreas profissionais, pois proporciona economia de recursos, de tempo, rapidez nos resultados e maior
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 16
controle. No caso das indústrias, a verificação da qualidade de seus produtos, é um exemplo disto, pois é
impossível analisar todos os produtos fabricados, pois muitos deles após a análise não podem ser mais
comercializados, desta forma, isto implica em prejuízo para a empresa, portanto recorrer a um estudo de
amostragem é o indicado. Outro exemplo, é analisar a opinião de moradores de um determinado bairro de
um município em que analisar todos além de alto custo, é demorado e inacessível a todos.
Desta forma, conhecer e entender os procedimentos básicos aplicáveis à realização de estudos
estatísticos por inferência e por consequência utilizando uma amostra significativa, é uma condição si ne qua
non para qualquerprofissional de qualquer área, que queira ter uma segurança e consistência nas tomadas de
decisões.
2 CONCEITOS INICIAIS
Assim, para se inteirar do assunto, alguns conceitos iniciais são necessários:
• Inferência Estatística: É o processo de generalização do universo a partir de resultados
particulares, ou seja, consiste em obter e generalizar conclusões para o todo com base no
particular, isso quer dizer que a partir de amostras tiram-se conclusões para a população-
alvo;
- População (N): É o conjunto de todos os elementos que possuem em comum
determinadas características de interesse para uma pesquisa. Por exemplo: Pessoas,
Maquinários, Clientes, Produtos, dentre outros.
Quanto ao tamanho, a população-alvo pode ser classificada como finita ou infinita, sendo:
• Finita: são as que possuem um tamanho limitado de elementos, em que é possível identificar
do primeiro até o último componente populacional, analogamente;
• Infinita: são aquelas cujo número de elementos é ilimitado, ou seja, impossível de identificar
o último indivíduo. Assim, a população, nesse caso é tão grande que é dificultoso a sua
análise com precisão.
Portanto, a escolha em analisar toda a população é uma decisão arbitrária do pesquisador chamada
pesquisa censitária (ou censo). Desta forma, os pesquisadores que optarem em utilizar o censo terão que
verificar a seguinte medida estatística conhecida como parâmetro.
- Parâmetro: É a medida usada para descrever uma característica numérica da população em
estudo e para isso é necessária uma análise integral desta. Assim, como na prática este
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 17
procedimento se torna inviável, seu valor é quase sempre desconhecido, na maioria das
vezes. Um exemplo prático de parâmetro é a Idade média de todos os alunos de uma sala de
aula, ou seja, a média () e a variância (2), são exemplos de parâmetros.
Muitos pesquisadores defendem que o censo proporciona uma precisão incontestável nos resultados
estatísticos, pois todo o universo é analisado. No entanto, essa precisão pode ser contestada por diversos
fatores, dentre eles, as mudanças comportamentais dos componentes da população, nos casos em que a
pesquisa demanda período longo, ou por erros de coleta de dados, como informações inverídicas, dentre
outras.
Então, para abster-se desses fatores que o censo pode causar de forma implícita e, muitas das vezes,
explícita, a utilização da amostragem é uma solução, pois a mesma permite que o pesquisador, ao contrário do
censo, cometa alguns “equívocos” previsíveis e aceitáveis ao estudo, mas para que esses “equívocos” sejam
toleráveis, faz-se necessário que o pesquisador entenda estatisticamente o que é amostragem.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 18
Nota de Aula 4 – Inferência Estatística - Amostra
1 CONCEITOS INICIAIS
Amostra (n), é uma parcela significativa de uma população, ou seja, uma parte da população que a
representa estatisticamente. Os pesquisadores que optarem em utilizar o processo de amostragem terão que
utilizar as seguintes medidas estatísticas conhecidas como estimativa e margem de erro, sendo:
• Estimativa: É o valor numérico do estimador obtido com base nos resultados amostrais. Um
exemplo prático de estimativa é a Idade média de uma parte significativa dos alunos de uma
sala de aula, ou seja, a média amostral ( x ), a variância amostral (S²), são exemplos de
estimadores;
• Margem de Erro (e): Um estudo em que se optou na utilização da amostragem como método
de coleta de dados, sempre apresentará uma “falha” embutida nas suas análises, visto que
não se analisou todo o universo. Essa “falha” é conhecida como margem de erro (ou erro
amostral), e tem uma relação forte e inversamente proporcional com o tamanho da amostra
e dos resultados que foram obtidos com a pesquisa, ou seja, quanto maior for a quantidade
de elementos pesquisados, menor a quantidade de erros cometidos, ou seja, menor a
margem de erro, mas em contrapartida, maior o custo financeiro da mesma. E vice-versa
quando o tamanho amostral for menor.
Um exemplo prático de margem de erro é visto nas pesquisas eleitorais em que através de uma
amostragem de eleitores um determinado candidato aparece com um percentual de tantos por centos de
aceitação ao pleito, levando-se em consideração a margem de erro tolerável de tantos pontos percentuais para
mais ou para menos, ou seja, ele estará entre x% e y% dentro da margem de erro, isso quer dizer que, se fosse
analisada toda a população de eleitores, existem uma possibilidade de que no dia da eleição o resultado
percentual do candidato fique entre x% e y%.
A margem de erro é definida, na grande maioria das vezes, antes da coleta de dados, para evitar
assim retrabalho aos pesquisadores do estudo, pois caso a margem de erro fique muito alta (acima de 5% para
mais ou para menos), o retrabalho é inevitável ocasionando um custo a mais a quem encomendou a pesquisa,
e isso ocorre, na prática, por falta de planejamento amostral adequado ao estudo almejado.
Assim, para planejar um estudo estatístico com uso de amostragem faz-se necessário conhecer dois
processos básicos de amostragens, as amostras não probabilísticas e as probabilísticas.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 19
2 TÉCNICAS DE AMOSTRAGEM
Ao realizar uma pesquisa de mercado e opinião, faz-se necessário definir a técnica de amostragem a
ser utilizada, se será probabilística ou não probabilística, sendo:
• Não probabilísticas: Uma amostra é não probabilística (ou não casual ou não aleatória),
quando a probabilidade de seleção de cada unidade amostral da população é desconhecida.
Nesse caso, não se podem supor os resultados obtidos para o universo da população, visto
que a amostra, por ser não probabilística é não significativa. Desta forma, devem ser
evitadas, porque além de não conhecer a margem de erro e a confiabilidade, introduzem
tendenciosidade (ou viés ou vício) na seleção das unidades e estimação delas, ou seja,
distorcendo os dados do estudo para uma determinada direção. As amostras não
probabilísticas mais comuns são:
a) Amostras por Conveniência: As amostras por conveniência ocorrem quando as unidades a
serem analisadas estão mais acessíveis ao pesquisador de acordo com as conveniências
sociais, econômicas, de tempo, dentre outras. É um tipo de amostragem que é vantajosa por
ser rápida, de baixo custo e de fácil acessibilidade, mas não há nada que a credite
estatisticamente. Uma extensão da pesquisa por conveniência é a por julgamento ou
intencional, na qual os elementos populacionais são selecionados com base no julgamento
arbitrário do pesquisador, ou seja, o pesquisador identifica os elementos que corroborarão
com o objetivo do seu estudo sem o risco de fugir deste objetivo pré-definido, ou seja, não
há uma escolha aleatória dos elementos pesquisados e sim o contrário.
b) Amostras por Cotas: São amostras em que se leva em conta a porcentagem de alguma(s)
característica(s) da população de origem.
• Probabilísticas: Uma amostra é probabilística (ou ao acaso ou aleatória) quando cada unidade
amostral tem uma probabilidade conhecida e diferente de zero de ser escolhida frente a
população de origem, garantindo, se for realizada de forma correta, a isenção de vícios. As
técnicas de amostragem probabilística consistem em Amostra Aleatória Simples, Amostra
Aleatória Estratificada,Amostra Sistemática e Amostra por Conglomerado, sendo:
a) Amostra Aleatória Simples (AAS): Selecionado por um processo ao qual a probabilidade de
escolha de todos os elementos é a mesma para todos, ou seja, a população de origem é
consideração homogênea, pois os seus elementos têm características parecidas entre si.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 20
Fórmula para determinação do tamanho da amostra com AAS, de acordo com Barbetta (2001):
Onde:
N = Tamanho da população;
n = Tamanho da amostra;
²
1
0
e
n = , se a confiança do estudo for de 95%, de acordo a tabela da Normal Padrão.
e = margem de erro.
Exercício 1 – Pesquisa de Mercado sobre Abertura de uma Loja de Material de Construção: Um
empreendedor foi ao SEBRAE (Serviço Brasileiro de Apoio às Micro e Pequenas Empresas) buscar
informações sobre os procedimentos para abertura de uma nova loja de materiais de construção em um
determinado bairro de Fortaleza, Ceará. O consultor de marketing informou que o primeiro passo seria fazer
uma pesquisa de mercado para verificar se o negócio teria sucesso ou não na região desejada analisando o
futuro público-alvo do empreendimento. Assim, o empreendedor conseguiu identificar que no bairro há 2.356
residências. Assim, quantas residências deverão ser pesquisadas para responder aos questionamentos do
empreendedor a fim de que ele tome a decisão de montar ou não o seu empreendimento após a análise
estatística, se for considerado:
a) Uma margem de erro de 4%, com uma confiança de 95%?
b) Se diminuirmos a margem de erro para 2%, qual será o tamanho da amostra (n), mantendo a confiança de
95%?
c) E se pesquisássemos 2000 residências, qual seria a margem de erro, com a confiança de 95%?
Baseado nos itens anteriores:
d) Se para o empreendedor o que importa é o resultado estatístico da pesquisa, qual das alternativas (“a”,
“b” e “c”) você a aconselharia a utilizar? Por quê?
e) Se para o empreendedor o que importa é o quanto ela vai pagar pela pesquisa, ou seja, o custo dela, qual
das alternativas (“a”, “b” e “c”) você a aconselharia a utilizar? Por quê?
f) Se para o empreendedor o que importa é o resultado estatístico da pesquisa e ao mesmo tempo com
menor custo, qual das alternativas (“a”, “b” e “c”) você a aconselharia a utilizar? Por quê?
0
0.
nN
nN
n
+
=
mailto:kleison.freitas@professores.unifanor.edu.br
b) Amostra Aleatória Estratificada (AAE): Muitas vezes a população se divide em
subpopulações (ou estratos), sendo razoável supor que em cada estrato a variável de
interesse analisada apresenta um comportamento substancialmente diverso, ou seja, a
população é considerada heterogênea, mas homogêneo dentro de cada estrato. Assim, deve-
se adotar um tipo de amostragem que represente bem as diferentes características dentro de
cada um dos grupos, podendo ser, por exemplo, proporcional ao tamanho de cada um deles.
Exercício 2 – Pesquisa de Mercado sobre Abertura de um Restaurante: Um investidor deseja verificar
se em um determinado bairro de Fortaleza vale a pena ou não a construção e implantação de um restaurante
mediante uma aceitação expressiva do público-alvo analisado. Caso o nível de aceitação a este tipo de
empreendimento seja acima de 70% o investidor estudará a possibilidade de instalação da empresa. Assim, o
investidor conseguiu levantar junto com a prefeitura a quantidade de domicílios no bairro e verificou que é de
2.550. Estes domicílios cadastrados são os que pagam anualmente o IPTU, onde 1.500 deles são residenciais e
1.050 são comerciais. Assim, com confiança de 95%, quantos deles serão pesquisados, por categoria,
utilizando uma amostra aleatória estratificada, se a margem de erro for de 3%?
c) Amostra Sistemática (AS): Esse tipo de amostragem é uma variação da amostragem aleatória
simples, mas que exige que um sistema aleatoriamente seja definido. Segue abaixo outros
tipos de exemplos de amostras sistemáticas:
- Exemplo1: Um engenheiro de controle da qualidade seleciona cada centésima fonte de
computador que passa em uma esteira transportadora;
- Exemplo2: Um professor retira da população para compor a amostra os alunos
aleatoriamente escolhidos que possuem o algarismo “0” como último número da sua
matrícula.
d) Amostra por Conglomerado: Primeiramente, na amostra por conglomerado, a população-
alvo é dividida em estratos mutuamente exclusivos e coletivamente exaustivos. Após isso,
reduz-se, arbitrariamente, a quantidade de estratos a serem analisados. Após isso, sorteiam-se
quais grupos serão pesquisados e por fim, define-se qual o tipo de amostra probabilística
deverá ser utilizada (AAS, AAE ou AS). Podendo também, se assim o pesquisador desejar,
utilizar o censo nos grupos selecionados para coleta de dados. Com isso, a amostragem por
conglomerado tem duas grandes vantagens: a viabilidade e o baixo custo, ou seja, a que traz
o menor custo-benefício, se comparado às outras técnicas probabilísticas disponíveis.
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 22
Nota de Aula 5 – Medidas Descritivas para dados não
agrupados
1 INTRODUÇÃO
Para a maioria das pessoas, estatística significa descrever números da forma mais entendível possível,
como por exemplo, as taxas mensais de desemprego no Brasil após a alta do dólar no mercado atual, o índice
de falências empresariais ocorridas no Brasil de 2010 para cá, a proporção de mulheres que assumem cargos
de CEO no mercado brasileiro nos últimos dois anos, a proporção de eleitores que votarão em um
determinado candidato nas próximas eleições, o nível de satisfação de clientes de uma determinada loja de
conveniência de um determinado Shopping Center, dentre outros.
Todos esses exemplos representam descrições estatísticas de um conjunto de dados coletados sobre
algum fenômeno e para isso não é preciso usar a inferência estatística ainda, pois o objetivo aqui é apenas
descrever estatisticamente essas informações.
A descrição estatística dos dados verifica a localização central e a variabilidade desses dados através
de médias, medianas, modas, variâncias, desvios-padrão e coeficientes de variação. Ainda, há métodos
ilustrativos que possibilitam uma melhor interpretação deles, como os gráficos, dos quais pode-se citar os
histogramas, os diagramas de ramo-e-folhas, os diagramas de pontos, os gráficos de caixa (box-blot), dentre
outros.
A descrição dos dados se dá em duas formas, tanto para dados agrupados em classes como para
dados não agrupados. Esta nota de aula verificará apenas os dados não agrupados, e está divido em medidas
de tendência central e medidas de dispersão.
2 MEDIDAS DE TENDÊNCIA CENTRAL
As chamadas medidas de tendência central têm por objetivo verificar o centro da distribuição dos
dados, ou seja, verificar através de medidas específicas o centro do conjunto de dados. As medidas de
tendência central mais utilizada são a média aritmética, a moda e a mediana. As usadas com menos
frequências são as médias geométricas, harmônicas, quadráticas, cúbicas e biquadráticas.
As outras medidas de posição usadas com menos intensidade são as separatrizes, que englobam: a
própria mediana através dos decis, dos quartis e dos percentis.
Para início desta nota de aula, a primeira medida de tendência central a ser analisada é a média
aritmética simples, como segue:
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 23
2.1 MÉDIA ARITMÉTICA SIMPLESÉ definida como sendo o quociente da soma de todos os valores de um conjunto de dados pelo total
de valores deste conjunto.
Média amostral Média populacional
n
x
X
n
i
i
== 1
N
x
N
i
i
== 1 , Onde
xi = Valores da variável
n = Número de valores da amostra
N = Número de valores da população
OBS1: A média por ser influenciada por todos os valores do conjunto de dados é considerada como uma
medida sensível, ao contrário das outras medidas de tendência central existentes.
Propriedades:
a) A média de um grupo de dados sempre será única, independente da sua localização;
b) O resultado de multiplicar a média pela quantidade “n” de valores da variável x é igual a soma dos “n”
valores da variável;
c) A soma algébrica dos desvios tomados em relação à média é sempre nula: ( )
=
=−
n
i
i Xx
1
0
d) Somando-se ou subtraindo-se uma constante “c” (valor invariável) a todos os valores de uma variável, a
média do conjunto ficará aumentada ou diminuída dessa constante, respectivamente, de forma análoga, se
multiplicar ou dividir, a média ficará multiplicada ou dividida, respectivamente.
( )
n
cx
X
n
i
i
=
= 1 e
( )
n
cx
X
n
i
i
== 1
.
e
n
c
x
X
n
i
i
=
= 1
Falando ainda de média, há a média aparada, que não é tão utilizada na prática estatística pois ela
tende a manipular o resultado desta medida de tendência central, mas vale a pena conhecer o que é este tipo
de medida como segue no próximo tópico.
2.1.1 Média Aparada:
Uma média aparada é calculada aparando-se certa porcentagem dos maiores ou menores valores do
conjunto de dados. Por exemplo, para calcular a média aparada de 10%, deve-se eliminar 10% dos valores
maiores e 10% dos valores menores, e então calcular a média dos valores que sobraram. Podendo-se usar de
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 24
forma arbitrária a porcentagem a ser retirada da amostra para um novo cálculo. Ao contrário da média
aritmética, a média aparada é uma medida resistente, pois não sofre influência dos valores extremos.
A segunda medida de tendência central a analisar é a moda, como segue no próximo tópico.
2.2 MODA (MO):
Na linguagem coloquial, moda é algo que está em evidência, ou seja, algo que se vê bastante. Na
Estatística, como o próprio nome sugere, a Moda é aquele elemento que mais vezes aparece no conjunto de
dados. Não é muito sensato dizer que a moda é uma medida de tendência central, pois nem sempre ela
representa o centro do conjunto de dados, visto que ela identifica o(s) valor(es) que ocorre(m) com maior
frequência, podendo ser único, se existir, como pode também não existir. Nesse caso, é mais correto chamá-
la de medida de posição.
Quando dois valores ocorrem com a mesma frequência máxima, cada um deles é uma moda.
Das diferentes medidas de tendência central, a moda é a única medida que pode ser usada com
dados em nível nominal de mensuração, conforme o exemplo 1:
Exemplo 1: Um estudo sobre tempos de reação de pessoas em um teste foi composto por 30 canhotos, 50
destros e 20 ambidestros. Embora não possamos tomar a média numérica dessas características, podemos
afirmar que a moda é destro, que é a característica com maior frequência.
Quando no conjunto há apenas um valor que se repete além dos demais de forma máxima, chama-
se este conjunto de unimodal, bem como se tiver dois valores que se repete além dos demais, de forma
máxima e na mesma quantidade é bimodal, assim acima de 2 modas é multimodal. Se o conjunto de dados
não tiver nenhum valor que se repete além dos demais de forma máxima, o conjunto de dados é amodal.
OBS2: Se o conjunto de dados tiver os valores: 1, 1, 2, 2, 3, 3, o conjunto é multimodal, pois todos os valores
se repetem 2 vezes, ou seja, a frequência é a mesma para todos. Agora se for: 1, 2, 3, 4, é amodal, pois não há
repetição de valores.
E se for: 10, 10, 10, 10 é unimodal, pois o valor 10 é o que ocorre com maior frequencia.
A terceira medida de tendência central a ser analisada é a mediana. Muitos confundem a mediana
com a média, mas são medidas completamente diferente, tanto na sua forma de encontrar quanto na sua
interpretação, como segue no próximo tópico.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 25
2.3 MEDIANA (Md)
A mediana é uma medida de tendência central que ocupa a posição central dos dados observados,
quando estes estão ordenados em ordem crescente ou decrescente (rol), tendo uma mudança na sua
realização se a quantidade de dados é par ou ímpar.
Sendo assim, se o conjunto de dados (n) é constituído por um número ímpar de dados, a mediana é
o valor que fica no centro dos dados ordenados que pode ser encontrado através da seguinte notação:
+
2
1n
Pelo exemplo 2, como segue, é possível verificar como é a realização da mediana para uma
quantidade ímpar de valores.
Exemplo 2: Notas de um aluno obtidas na disciplina de Estatística: 8 7 3 4 8
Solução:
Ordenar os dados: 3 4 7 8 8
Mediana (Md) =
Interpretação:
Agora, se o conjunto de dados (n) é constituído por um número par de dados, a mediana é a média
aritmética dos dois valores que ficam na posição central dos dados ordenados que pode ser encontrado
através da seguinte notação:
2
1
22
++
nn
Pelo exemplo 3, como segue, é possível verificar como é a realização da mediana para uma
quantidade par de valores.
Exemplo 3: Notas de um aluno obtidas na disciplina de Estatística: 8 7 3 4 8 9
Solução:
Ordenar os dados: 3 4 7 8 8 9
Mediana (Md) =
Interpretação:
A mediana tem como vantagem a não afetação por valores extremos, ao contrário da média
aritmética, por isso a mediana é uma medida mais “robusta” (forte) que a média, pois na média qualquer
alteração nos dados, modifica-se o valor da média, e a mediana nem sempre isso acontece.
Depois de verificado as três medidas de tendência central que são utilizadas com maior frequência,
dentre as três, a média aritmética é a medida mais usada na tomada de decisão, pois a mesma é encontrada
com uso de todos os valores do conjunto de dados, ao passo que a mediana e a moda não utiliza todos eles, e
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 26
sim alguns ou nenhum dos valores (amodal), apresentado resultados “distorcidos” da realidade dos dados
apresentados.
Quando se descreve os dados, além das medidas de tendência central, é necessário analisar a
variabilidade dos dados, pois através destas pode-se tirar algumas conclusões mais consistentes na tomada de
decisão. Assim, o próximo item mostrar as medidas de variabilidades mais utilizadas no campo estatístico.
3 MEDIDAS DE DISPERSÃO
Ao se fazer a descrição dos dados, além de verificar o centro da distribuição deles através das
medidas de tendência central é prescindível verificar também se os dados se comportam de forma
homogênea ou heterogênea, e isso será possível através das medidas de dispersão.
Essa verificação é importante, pois através delas podem-se tomar decisões mais consistentes e
eficazes. Um exemplo disso eram que os bancos, há uns anos, costumavam exigir que os clientes formassem
filas separados para os diversos guinches, masatualmente passaram adotar a fila única. O motivo dessa
modificação foi que o tempo médio de espera era o mesmo para ambos os formatos de filas, não afetando a
eficiência dos caixas, mas a adoção de fila única ocorreu ao fato de os clientes preferirem tempos de espera
com menor variação. Assim, é que milhares de bancos efetuaram essa modificação que resultou em uma
variação menor (e clientes mais satisfeitos), mesmo que a média de tempo de atendimento não tenha sido
afetada.
Com isso, pode-se concluir que as medidas de dispersão avaliam a variabilidade dos dados com
relação à sua média. As medidas de dispersão mais usadas são a amplitude total, variância, desvio padrão e
coeficiente de variação.
3.1 VARIÂNCIA (S²)
A variância é uma medida de dispersão que mensura a variabilidade dos dados, através da soma do
quadrado dos desvios pela quantidade de valores da variável menos um (n-1) no caso amostral, e por N se for
populacional.
Pela propriedade “b” da média aritmética, verifica-se que a soma dos desvios será sempre zero,
fazendo com que o pesquisador suponha que não há desvio (ou variabilidade) no conjunto de dados
analisado, mas se todos os valores não forem iguais, haverá variabilidade sim, mas mesmo assim sempre
somando os desvios o resultado será zero. Nesse caso, para que esse problema seja contornando, eleva-se os
desvios ao quadrado, ocasionando a não anulação deles.
Com isso, a notação matemática da variância é:
Variância amostral Variância populacional
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 27
( )
1
1
2
2
−
−
=
=
n
Xx
S
n
i
i
( )
N
x
n
i
i
=
−
= 1
2
2
, onde
xi = Valores da variável xi = Valores da variável
X = Média aritmética simples µ = Média populacional
n = Número de valores da amostra N = Número de valores da população
Propriedades:
a) A variância de uma constante “c” é igual a zero;
b) Ao somar ou subtrair uma mesma constante “c” a todos os valores do conjunto de dados, a variância não
ficará alterada;
c) Se multiplicar ou dividir cada valor do conjunto de dados por uma mesma constante “c”, a variância ficará
multiplicada ou dividida, respectivamente, pela constante ao quadrado (c²).
Mas, mesmo elevando os desvios ao quadrado, surge o seguinte questionamento: E se ao invés de
elevar cada desvio ao quadrado e depois somar, não seria melhor utilizar o módulo, em que os desvios
resultam em valores absolutos e depois utilizar a soma deles? Ou seja, assim:
=
−
n
i
i Xx
1
? E após isso, dividir
tudo pela quantidade de valores (n), obtendo aí o desvio médio dado pela seguinte notação
n
Xx
DM
n
i
i
=
−
= 1 ?
A resposta para essa pergunta é não, pois o módulo fará com que os desvios negativos fiquem
positivos, apresentando uma realidade distorcida dos dados.
Ao elevar ao quadrado, todos os desvios são elevados ao quadrado e não somente alguns, portanto,
o melhor a ser utilizado é a variância porque ela dá certeza absoluta que as amostras são diferentes. Já o
módulo não dá essa informação de variabilidade, ao contrário, ele nos dá evidências de que as amostras são
iguais. Por exemplo: Suponha que uma turma fez uma prova e a média desta foi 7,0, e um aluno tirou 8,0, ou
seja, a dispersão foi de 1 ponto para mais (8 - 7 = 1 ponto). Se outro aluno tirar 6,0, a dispersão é 1 ponto
para menos (6 – 7 = -1 ponto). Se usar o módulo, a dispersão ao invés de ser -1 e 1, será 1 e 1, mostrando
que não há dispersão das notas dos dois alunos, ou seja, ao invés de um aluno ter tirado a nota 6 e o outro a
nota 8, ambos tiraram a nota 8, pois o desvio com o uso do módulo foi 1 ponto para mais.
Mas mesmo a variância sendo considerada a ideal para tomar decisões sobre a variabilidade dos
dados, a mesma apresenta um grande problema com unidade de medida dos dados que a compõem, pois
estes serão elevados ao quadrado, dificultando assim a sua interpretação, pois se a unidade de medida for em
metro, será metro quadrado, se for em centímetro, ficará centímetro ao quadrado e assim por diante.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 28
Para contornar esse problema e verificar os dados com a unidade de medida original, aconselha-se
tirar a raiz quadrada da variância. Nesse caso, chega-se a outra medida de dispersão, o chamado desvio
padrão, mas antes de analisar esta medida de dispersão, faz-se necessário se atentar para as seguintes
observações:
OBS3: Para um melhor entendimento da divisão por “n-1” na fórmula da variância e não por “n” apenas, é
que a variância trabalha encima de “n-1” valores, pois se subtende que pelo menos um valor é a própria média
(não havendo dispersão de um valor, nesse caso). Portanto, a variabilidade será entre “n-1” valores e não “n”.
Por exemplo, sejam os seguintes valores: 1, 2 e 3, a média é “2”, ou seja, um valor é a própria média, mas dois
valores não, ou seja, 2 = n-1 = 3-1 = 2. Mas isso não tem 100% de certeza não, pois tem casos em que a
média não é igual ao conjunto de valores.
OBS4: Observe que no cálculo da variância amostral (S²), deve-se dividir a soma dos quadrados dos desvios
por “n-1”e não por “n” apenas. Isso se dá, pois através de estudos que serão vistos em Estimação de
Parâmetros, a variância amostral (S²) tende a estimar de forma distorcida a variância populacional (²) se for
dividido apenas por “n”, então para que S² seja um estimador não viciado ou não tendencioso de ² deve-se
dividir por “n-1”.
Há uma demonstração que prova que E(S²) = ², mostrando que a esperança da variância amostral é igual a
variância populacional, ou seja, a variância amostral com divisão da sua fórmula por “n-1” representa de
forma eficaz e inferencial a variância populacional, sem ter analisado a população em si.
OBS5: Quando o tamanho da amostral é suficientemente grande (é usual considerar um valor de n superior a
30) não há praticamente diferença entre S² e ², assim pode-se dividir por “n-1” ou por “n”, respectivamente
que o resultado será aproximadamente o mesmo, pois, para comprovação S²/² será aproximadamente 1,
não fazendo diferença nenhuma nos cálculos. Agora, se n for menor que 30, essa divisão será bem menor que
1 mostrando que não é a mesma coisa, devendo assim não deixar de dividir por n-1 se for o amostral e por n
se for o populacional.
Após as observações anteriores, faz-se necessário verificar a medida de dispersão realmente utilizada
na tomada de decisão, o desvio padrão.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 29
3.2 DESVIO PADRÃO (S)
O desvio padrão é uma medida de variabilidade dos valores com relação à média deles, mas ao
contrário da variância, esta medida utiliza-se à mesma unidade de medida dos dados originais, por isso esta é
utilizada com maior frequência que a variância (S²). A notação matemática do desvio padrão, que é a raiz
quadrada da variância é como segue:
1-n
)(x
n
1i
2
i
=
−
=
X
S
A última medida de dispersão a ser analisada é o coeficiente de variação, como segue no próximo
tópico.
3.3 COEFICIENTE DE VARIAÇÃO DE PEARSON (CV)
O coeficiente de variação é uma medida de dispersão relativa que avalia o quanto o desvio padrão
representa comrelação à média aritmética de um conjunto de dados. Assim, quanto menor for o CV, mais
homogêneo será o conjunto de dados, ou seja, com menor variabilidade entre eles, caso contrário haverá uma
grande variabilidade. Assim, a notação do coeficiente de variação é a seguinte:
100
=
X
S
CV
Mas para afirmar se os dados são ou não passíveis de grandes ou pequenas variabilidades, adota-se
o ponto de corte percentual como segue:
Se CV < 50% (Há baixa dispersão entre os dados, ou seja, eles são homogêneos)
Se CV 50% (Há alta dispersão entre os dados, ou seja, eles são heterogêneos)
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 30
Anexo 1 – Manual da Calculadora Científica e HP 12C para
Estatística Descritiva
Modelo: Casio fx 82MS
1 MÉDIA E DESVIO PADRÃO
Colocar no modo estatístico: Clicar em Mode → 2 (Sd)
Digitar os seguintes números 1, 2 e 3 assim:
1 M+
2 M+
3 M+
Encontrar o valor da média:
Clicar em Shift → 2 (S-VAR) → 1 = (Sairá o valor da média igual a 2)
Encontrar o valor do desvio padrão:
Clicar em Shift → 2 (S-VAR) → 3 = (Sairá o valor do desvio padrão igual a 1)
Modelo: Casio fx 82ES
1 MÉDIA E DESVIO PADRÃO
Mode
2: Stat
1: 1-Var
Digitar valor
=
Modelo: HP 12C
1. Média e Desvio Padrão:
Limpar a memória: f → Clx
Adicionar valores (1, 2, 3) na memória da calculadora assim: 1 + 2 + 3 +
Calcular a média: g → 0
Calcular o desvio padrão: g → (ponto)
AC
Shift
1 (Stat)
4: Var
2: Média
4: Desvio Padrão
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 31
Anexo 2 – Estatística Descritiva com uso do Microsoft Excel
1º Passo: Abrir o Excel
→ Ao abrir o Excel: Digitar o banco de dados abaixo referente ao Salário Mínimo dos funcionários de uma
determinada Empresa.
Funcionário
Nº.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Salário (S.M*) 6 7 11 4 13 8 7 15 9 11 10 16 5 13 8 19 8 12
Funcionário
Nº.
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Salário (S.M*) 14 16 5 17 9 11 9 10 6 15 7 12 23 7 17 9 14 19
2º Passo: Estatística Descritiva de todas as variáveis quantitativas: Salário
Acionar a Ferramenta “Análise de Dados”:
Clicar em Opções do Excel → Suplementos → Em gerenciar, clicar em Ir → Clicar em Ferramentas de
Análise → OK: A função ficará acionada na função Dados.
Dados → Análise de Dados → Estatística descritiva:
Em Intervalo de entrada: Selecionar todas as células da variável quantitativa em estudo, inclusive o título da
variável (Pode selecionar tudo de uma vez só) → Selecionar Rótulos (OBS: Como selecionou o título, é
necessário clicar em rótulo);
Em Opções de Saída: Clicar em “Nova Planilha” e “Resumo estatístico”.
O resultado está na tabela abaixo com as suas respectivas interpretações abaixo:
Saída do Excel:
Salário (S.M)
Média 11,12
Erro padrão 0,76
Mediana 10,165
Modo 7,0 e 9,0
Desvio padrão 4,58
Variância da amostra 21,04
Curtose -0,014
Assimetria 0,65
Intervalo 19,3
Mínimo 4
Máximo 23,3
Soma 400,4
Contagem 36
Desvio Padrão: (11,12 4,6), ou seja, a maioria dos funcionários ganham entre 6,52 s.m e 15,72 s.m.
Intervalo: É a amplitude total, ou seja, a diferença entre o meio e o menor salário é de 19,3 s.m.
Mínimo e Máximo: O menor salário entre os 36 funcionários é 4 s.m e o maior é 23,3 s.m.
Soma: A empresa gasta 400,4 s.m no pagamento de seus 36 funcionários, ou seja, 400,4 s.m é a folha de pagamentos da
empresa.
Interpretação da variável salário:
Média: A média salarial dos 36 funcionários é de 11,12 s.m.
Mediana: 50% dos funcionários ganham abaixo de 10,16 s.m e
50% acima.
Moda: Os salários que mais ocorreu entre os funcionários foi 7
e 9 s.m.
Assimetria: Como o Coeficiente de Assimetria é > 0, então os
dados são assimétricos à direita, ou seja, como a média sempre
está no final da curva por ser influenciada por dados extremos,
então a média > mediana > moda, ou seja, o ponto mais alto
está no começo da curva e o ponto mais baixo (média) no final
da curva.
Curtose: O Grau de achatamento, por ser apresentar o
coeficiente de curtose < 0, então os dados têm o formato de
uma curva platicúrtica, ou seja, com os dados bem espalhados.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 32
Nota de Aula 6 – Separatrizes e Box-Plot
1 INTRODUÇÃO
Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um
conjunto de dados, pois são afetados, de forma exagerada por valores extremos, ou seja, são medidas
sensíveis. Então analisar outras medidas de posição, com as separatrizes, se faz necessário, assim segue as
medidas:
1.1 QUARTIS:
Dividem os valores ordenados (em ordem crescente ou decrescente) da variável em quatro partes
iguais através de três quartis (Q1, Q2 e Q3), ou seja, (25% abaixo, 50% abaixo e acima, 25% acima).
Exercício 1: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas,
calcule os quartis:
2 5 6 9 10 13 15
Exercício 2: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas,
calcule e interprete os quartis:
1 1 2 3 5 5 6 7 9 9
Exercício 3: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas,
calcule e interprete os quartis:
1 1 2 3 5 5 6 7 9 9 10 13
1.2 DECIL
Divide o conjunto de dados em 10 partes iguais: D1 = 10%, D2 = 20%, ..., D10 = 100%, sendo:
Decil 1 = Representa os 10% menores e os 90% maiores.
1.3 PERCENTIL
Divide a série em 100 partes iguais: P1 = 1%, P2 = 2%, ..., P100 = 100%, sendo: Percentil 90 =
Representa os 90% abaixo e 10% acima. Assim:
Md = Q2 = D5 = P50
Q1 = P25
Q3 = P75
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 33
2 BOX-PLOT
Em 1977, John Tukey publicou uma proposta que posteriormente foi reconhecida como sendo um
eficiente método para mostrar cinco números que sumarizam qualquer conjunto de dados. O gráfico
proposto é chamado de Box-Plot (também conhecido como Box and whisker plot).
O Box-Plot é um tipo de representação gráfica conveniente para revelar tendências centrais,
dispersão, distribuição dos dados e a presença de outliers (dados discrepantes). A construção de um Box-plot
exige o “resumo dos cinco números”, ou seja, o menor valor do conjunto de dados, o primeiro quartil, o
segundo quartil, o terceiro quartil e o maior valor do conjunto de dados.
2.1 INTERPRETAÇÃO DO BOX-PLOT
O gráfico de Box-plot interpreta-se da seguinte forma:
• A caixa (Box) propriamente contém a metade 50% dos dados (Q2 = Mediana). O limite
superior da caixa indica o percentil de 75% dos dados (Q3) e o limite inferior da caixa indica
o percentil de 25% (Q1). A distância entre esses dois quantis (Q3 – Q1) é conhecida como
intervalo interquartílico (Tamanho da caixa);
• A linha no meio da caixa indica o valor de mediana (Q2) dos dados;
• Se a linha mediana dentro da caixa não é equidistante (ter a mesma distância) dos extremos,
diz então que os dados são assimétricos (à direita ou à esquerda);
• Os extremos do gráfico indicam o valor mínimo e máximo, a menos que valores outliers
estejam presentes;
• Os pontos fora do gráfico são então outliers ou suspeitos de serem outliers.
2.2 VANTAGENS DO BOX-PLOT
• Mostra graficamente a posição central dos dados (mediana)e a tendência;
• Mostra a forma de simetria ou assimetria (à direita ou à esquerda) dos dados;
• Ao contrário de muitas outras formas de mostrar os dados, o Box-plot mostra os outliers;
• Utilizando o Box-plot para cada variável categórica de lado a lado no mesmo gráfico, pode-se
facilmente comparar os dados.
2.3 DESVANTAGEM DO BOX-PLOT
Em alguns casos a quantidade de outliers pelo intervalo definido pelo desvio padrão e pelo Box-Plot se
diferem, pois pelo intervalo definido pelo desvio padrão os dados não são modificados em momento algum,
já com o Box-Plot o cálculo do limite inferior junto com o intervalo interquartílico não mostra bem a realidade
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 34
dos dados, mas este tipo de gráfico é bastante utilizado para verificar o formato da curva dos dados. Assim,
para contornar esta situção a idéia é utilizar os Box-Plot para verificar o formato da curva e o intervalo
definido pelo desvio padrão para encontrar os dados discrepantes. Neste caso, o uso do Box-Plot deve ser em
último caso para evitar interpretações erradas. Segue um exemplo prático para ilustrar isso:
Através desse gráfico, podemos comparar as distribuições de idade entre cada profissão, quanto a
posição e dispersão. Temos por exemplo, que advogados têm a menor média de idade de escolha da
profissão. Médicos têm a maior idade, seguidos pelos dentistas. Temos, entretanto, que a variação de idade
para os dentistas é muito maior do que para os médicos e advogados. Provavelmente detecta-se uma
diferença significativa entre as médias de idade de advogados e médicos, e advogados e dentistas, mas devido
a grande variação de idades para dentistas, talvez não se detecte diferença entre médicos e dentistas. Temos
também a ocorrência de uma observação discrepante (outlier) para idade de dentistas: enquanto 50% dos
dentistas estão entre aproximadamente 29 e 34 anos, houve um dentista com idade próxima de 20.
Além disso, enquanto a distribuição de idade para advogados parece razoavelmente simétrica em
torno da mediana, para médicos e dentistas parece haver uma concentração maior (moda) para idades
maiores, indicando provavelmente uma distribuição assimétrica à direita (Md > Média). Se a assimetria fosse
do lado esquerdo, a distribuição dos dados seria assimétrica à esquerda (Média < Md). Caso haja dúvidas na
assimetria dos dados, a sugestão é encontrar o coeficiente de assimetria (CA), com a seguinte notação:
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 35
( )
S
Modax
CA
−
=
3
, assim, se:
CA = 0, então os dados são simétricos
CA < 0, os dados são assimétricos à esquerda ou negativamente
CA > 0, os dados são assimétricos à direita ou positivamente
Portanto, sugere-se o uso do “resumo dos cinco números” de um conjunto de dados para a
construção do Box-Plot:
1 – Valor mínimo (V1): Menor valor do conjunto de dados.
2 – Primeiro Quartil (Q1): É um valor que deixa um quarto dos valores abaixo e três quartos acima dele (25%
abaixo e 75% acima);
3 – Segundo Quartil ou Mediana (Q2 ou Md): É um valor que divide na metade o conjunto de dados (50%
abaixo e 50% acima);
4 – Terceiro Quartil (Q3): É um valor que deixa três quartos dos dados abaixo e um quarto acima dele (75%
abaixo e 25% acima);
5 – Valor máximo (Vn): Maior extremo do conjunto de dados.
Segue abaixo um modelo de um Box-Plot:
Sendo:
IIQ = Intervalo Interquartílico = Tamanho da caixa
LI = Limite Inferior = Q1 - IIQ
LS = Limite Superior = Q3 + IIQ
* Outliers = Dados discrepantes
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 36
Nota de Aula 7 – Correlação e Regressão Linear
1 INTRODUÇÃO
Diversas decisões tomadas no dia-a-dia das empresas envolvem informações do tipo: volume de
vendas previsto para subsidiar a área de produção, demanda estimada de produtos que indique se e quais
equipamentos devem ser comprados, ou qual o lucro projetado para justificar determinados investimentos.
(CORRAR, 2009).
Ainda de acordo o autor, dado um ambiente organizacional em contínua transformação, o que se
procura é reduzir incertezas. Desta forma, os gestores demandam informações que os auxiliem a escolher,
hoje, as que parecem ser as melhores alternativas sobre eventos que ocorrerão no futuro. Assim, permitir a
antecipação de cenários futuros é a proposta dos modelos quantitativos de previsão, pois estes envolvem
dados históricos e podem ser de dois tipos: por séries causais ou séries temporais.
Corrar (2009) defende que os modelos causais estudam os fatores que tem influência sobre a
variável a ser estimada, e a análise de regressão é um exemplo desse tipo de modelo. Já os modelos de séries
temporais, por sua vez, envolvem projeções baseadas, exclusivamente, nas observações do passado da
variável que se deseja estudar, ou seja, ao longo do tempo. Assuntos esses que serão tratados nesta nota de
aula. Para isso faz-se necessário estudar inicialmente a correlação linear de Pearson e na sequência a regressão
linear simples.
2 CORRELAÇÃO LINEAR
O estudo de correlação mostra uma forma de medir quanto e de que maneira se relacionam duas
variáveis quantitativas por meio do qual se pode analisar a relação existente das variáveis em estudo, ou seja,
qual alteração deve esperar em uma das variáveis, como consequência de alterações sofridas pela outra
variável, ou seja, uma relação de causa de efeito.
Para entendimento dessa relação entre duas variáveis, segue alguns exemplos práticos: o frio está
para o setor farmacêutico, assim como o dia das mães está para o comércio, pois as vendas de medicamentos
não controlados, como analgésicos, antigripais e vitaminas, disparam. Outro exemplo é o faturamento das
empresas de energia elétrica é diretamente influenciada pela temperatura, especialmente no verão, onde a
demanda por energia aumenta, pelo uso de ar condicionado e ventiladores, fazendo com que as empresas
produtoras de energia aumentem seus lucros. De forma similar, para o consumo de água, desta forma em
Fortaleza, por exemplo, nos meses que ocorre o verão (dezembro até meados de março), o consumo de água
nas residências aumenta de forma significativa.
A priori essa relação pode ser verificada com auxílio de um gráfico de dispersão bidimensional, que
será definido como eixo x, a variável causa e y, a variável efeito, como segue:
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 37
2.1 INTERPRETAÇÃO SUBJETIVA DO GRÁFICO DE DISPERSÃO
x
y
Correlação Positiva
entre x e y
x
y
Forte correlação
Positiva entre x e y
x
y
Correlação Positiva
perfeita entre x e y
Assim, a importância de tal determinação decorre do fato de que a presença de uma correlação pode
conduzir-nos a um método para estimar a variável y (efeito) utilizando a variável x (causa).
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 38
2.2 OUTLIERS
Os conhecidos como outliers, são os pontos discrepantes, ou as observações extremas que não são
condizentes com o restante da massa de dados, conforme o Gráfico abaixo. As causas mais prováveis da
ocorrência de outliers pode ser o registro incorreto dos dados, algum defeito no instrumento de mediçãoutilizado, dentre outros. Caso isso ocorra, o outlier deve ser, se possível, corrigido, em extremo caso eliminado.
Desta forma, deve-se dar a devida atenção à causa de tais anomalias, pois esses dados discrepantes
podem ser úteis para descobrir a causa dessa ocorrência.
Como as conclusões tiradas de gráficos de dispersão tendem a ser subjetivas, necessita-se de
métodos mais precisos e objetivos. Então se utiliza o coeficiente de correlação linear de Pearson para detectar
padrões lineares.
2.3 COEFICIENTE DE CORRELAÇÃO DE PEARSON1 (
xyR )
O Coeficiente de Correlação de Pearson mede o grau de associação entre as duas variáveis analisadas,
podendo ser fraca ou forte. Para isso, a notação matemática que permite verificar essa associação é a que
segue:
( )
( ) ( )
−
−
−
=
n
Y
Y
n
X
X
n
YX
XY
Rxy
2
2
2
2
Assim, o valor de Rxy deve pertencer ao intervalo -1 Rxy 1, e a sua interpretação é a seguinte:
0,00 Rxy 0,69 = Correlação fraca +
0,70 Rxy 1,00 = Correlação forte +
-0,69 Rxy 0,00 = Correlação fraca -
-0,70 Rxy -1,00 = Correlação forte -
1Karl Pearson foi um grande contribuidor para o desenvolvimento da estatística como uma disciplina científica. Foi o fundador
do Departamento de Estatística Aplicada na University College London em 1911, sendo o primeiro departamento universitário
dedicado à estatística em todo o mundo.
x
y
Outlier
Diretamente proporcional: x y
Inversamente proporcional: x y
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 39
Contudo, em geral, uma correlação forte não é sinônima de uma relação causa-efeito entre as
amostras ou variáveis. Há situações em que um coeficiente de correlação próximo de um ou de um menos
um não significa que a maioria dos pares de valores esteja contida em uma reta (será visto em regressão
linear). Desta forma, o simples conhecimento do coeficiente de correlação não é suficiente devido a
anomalias na dispersão dos dados, por isso é recomendada a construção do gráfico de dispersão das amostras
para melhor compreender o resultado, pois em alguns casos, a relação de causa e efeito pode ser provocada
por um ou mais fatores ocultos, uma variável não considerada na análise.
Por exemplo, suponha que o número de vendas diárias de um jornal e a produção diária de ovos
tenha uma forte correlação positiva. Não se pode afirmar que o aumento do número de jornais vendidos
resulte no aumento da produção de ovos. Para compreender a forte correlação positiva, devem-se procurar
fatores ocultos, por exemplo, o aumento de riqueza da população que resulta em aumento de demanda dos
dois produtos ao mesmo tempo, jornais e ovos.
Conhecer a relação significativa entre as variáveis é de extrema importância para que assim o
investigador possa realizar suas previsões com mais segurança, assim, faz-se necessário conhecer o que é
regressão linear.
3 REGRESSÃO LINEAR SIMPLES
Como visto anteriormente, o coeficiente de correlação (Rxy) apenas não mede com segurança a
relação causa-efeito entre duas variáveis, apesar de essa relação poder estar presente. Por exemplo, uma
correlação fortemente positiva entre as variáveis x e y não autoriza afirmar que variações da variável X
provocam variações na Y, ou vice-versa. Entretanto, em uma regressão linear, a relação causa e efeito deve
ser definida no início da análise de forma sensata pelo pesquisador ou analista.
Em muitas pesquisas estatísticas, o objetivo principal é estabelecer relações que possibilitem predizer
uma ou mais variáveis em termos de outras. Assim, é que se fazem estudos para predizer os seguintes
exemplos:
• Temperatura de uma cidade com relação ao consumo de medicamento para gripe;
• Perda de peso de uma pessoa em decorrência do número de semanas que se submete a uma
dieta de 800 calorias-dia;
• Despesa de uma família com médico e com remédio em função de sua renda;
• Consumo per capita de certos alimentos em função do seu valor nutritivo e do gasto com
propaganda na TV;
• Taxa de juros em função da inflação;
• Salário em função da escolaridade do trabalhador.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 40
Assim, no estudo de regressão linear simples, utilizam-se duas amostras (ou duas variáveis) e se
objetiva em analisar a reta que melhor explica a relação entre essas duas variáveis, tendo previamente definido
a variável independente (ou resposta ou causa) e a variável dependente (ou preditora ou efeito).
A origem do termo “regressão” remonta a Francis Galton (1822 a 1911), que por volta de 1855,
investigava relações entre características antropométricas de sucessivas gerações. Uma de suas constatações
era de que “cada peculiaridade de um homem é transmitida aos seus descendentes, mas, em média, numa
intensidade menor”. Por exemplo: embora pais com baixa estatura tendem a ter filhos também com baixa
estatura, estes têm altura média do que a altura média de seus pais. O mesmo ocorre, mas em direção
contrária, com pais com estatura alta. A esse fenômeno de a altura dos pais mover-se em direção à altura
média de todos os homens ele chamou de regressão.
O termo regressão remete ao passado, ou seja, para se fazer previsões estatísticas é necessário
conhecer o passado (ou histórico) das variáveis de causa e efeito da empresa. Caso a empresa não possua
estes dados e quiser fazer previsões, a saída é buscar dados do seu concorrente.
3.1 EQUAÇÃO DA RETA
Uma vez que o comportamento entre as variáveis tende para uma relação linear, o próximo passo
consiste em buscar determinar a respectiva equação de regressão linear simples.
Toda reta pode ser representada pela seguinte expressão matemática y = a + bx, onde x e y são as
variáveis e a e b, seus respectivos coeficientes. Sendo:
a = Coeficiente linear ou ponto que intercepta o eixo vertical y, ou seja, valor de y para x = 0
b = Coeficiente angular ou Declividade da reta, ou seja, a variação de y por unidade de variação de x.
O gráfico da equação y = a + bx é uma linha reta. Na prática, os valores de a e b costumam ser
estimados. Para obter os valores dos coeficientes a e b, recorre-se ao Cálculo Diferencial. Sendo:
3.2 COEFICIENTE DE DETERMINAÇÃO (R²)
Indica a proporção da variação total da variável dependente que é explicada pela variação da variável
independente, ou seja, mede a confiabilidade da previsão a ser realizada. Assim, quanto maior for o R²,
melhor será o poder de explicação da reta de regressão.
A diferença do coeficiente de correlação (Rxy) para o coeficiente de determinação (R²), é que o
primeiro mede a força da relação linear entre as variáveis, enquanto o R² mede a explicação da reta de
regressão.
( )( ) ( )( )
( ) ( )²²
²
−
−
=
xxn
xyxxy
a
( )
( )
n
x
x
n
yx
xy
b
²
²
−
−
=
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 41
Dessa maneira, para apreciar o ajuste de uma reta, é melhor utilizar o coeficiente de determinação
que mede o sucesso da regressão em explicar y, ou seja, o R² verifica quantos por centos de y pode ser
explicado por x, o restante (%) são os sem explicação.
4 SÉRIES TEMPORAIS
Segundo Corrar (2009), uma série temporal é um conjunto de observações sequenciais de
determinada variável, expressas numericamente, obtidas em períodos regulares. Assim, a análise de séries
temporais baseia-se na premissa segundo a qual os fatores que influenciaramo comportamento dos dados no
passado continuam influenciando seus movimentos futuros.
Desta forma, os dados coletados de uma série temporal podem sofrer a influência de diversos
fatores, como: alterações macroeconômicas, mudanças no padrão tecnológico vigente, variações nas
condições de natureza, ou mesmo podem ser afetados por fenômenos imprevisíveis, e por consequência
disso, os dados podem sofrer alguma tendência (sazonalidade, por exemplo), que consiste em mudanças nos
dados, fazendo-os serem no formato linear (diretamente ou inversamente proporcional), ou no formato de
uma curva, como por exemplo, a exponencial, polinomial, potencial, dentre outras (Quadro 1).
Tipo de Função Equação Original Equação Linearizada Variável X Variável Y
Linear1 y = a + b.x y = a + b.x x y
Polinomial2 y= a + b1x + b2x
2 y= a + b1x + b2x
2 x y
Exponencial3 y = a.ebx ln y = ln a + b.x x ln y
Potência4 y = a.xb ln y = ln a + b.ln x ln x ln y
Logarítmica5 y = a + b.ln x y = a + b.ln x ln x y
Quadro 1: Principais transformações lineares
Fonte: Adaptado de Corrar (2009)
1Uma linha de tendência linear é uma linha reta de melhor ajuste usada com conjuntos de dados
lineares simples. Seus dados serão lineares se o padrão nos pontos de dados se parecer com uma linha. Uma
linha de tendência linear geralmente mostra que algo está aumentando ou diminuindo com uma taxa
constante.
2A linha de tendência polinomial é uma linha curva usada quando os dados flutuam, útil, por
exemplo, para analisar ganhos e perdas em um conjunto de dados grande.
3A linha de tendência exponencial é uma linha curva muito útil quando valores de dados estão
crescendo ou caindo de forma constante.
4Uma linha de tendência de potência é uma linha curva que é usada com conjuntos de dados que
comparam medidas que aumentam numa taxa específica (de hora em hora, de minuto em minuto).
5A linha de tendência logarítmica é uma linha curva de melhor ajuste, muito útil quando a taxa de
alteração nos dados aumenta ou diminui rapidamente e depois se nivela.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 42
Anexo 3 – Manual da Calculadora Científica e HP 12C para
Correlação e Regressão Linear
Modelo: Casio fx 82MS
1 CALCULAR COEFICIENTE DE CORRELAÇÃO (RXY)
Colocar no modo que aceita valores de x e y: Clicar em Mode → 3 (Reg) → 1 (Lin)
Digitar os seguintes pares ordenados (valores de x e) na calculadora:
Digitar:
2,5→ (tecla do lado do M+) → 57 → M+
4,5 → (tecla do lado do M+) → 78 → M+
...
1 → (tecla do lado do M+) → 48 → M+
Encontrar o valor do Coeficiente de Correlação (Rxy): Clicar em Shift → 2 (S-VAR) → clicar na seta localizada em
Replay duas vezes para a direita → Clicar no número 3 = → Aparecerá 0,9575 (Valor do Coeficiente de Correlação =
95,75%).
2 CALCULAR “A” E “B” DA REGRESSÃO LINEAR
Não desligar a calculadora. Com os dados já digitados ir em:
Clicar em Shift → 2 (S-VAR) → clicar na seta localizada em Replay duas vezes para a direita → Clicar no número 1 = →
Aparecerá 40,675 (Valor do “a”).
Clicar em Shift → 2 (S-VAR) → clicar na seta localizada em Replay duas vezes para a direita → Clicar no número 2 = →
Aparecerá 8,35 (Valor do “b”).
X = Causa Y = Efeito
2,5 57
4,5 78
4 72
2 58
6 89
3 63
4 75
5 84
3 75
1 48
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 43
Modelo: Casio fx 82ES
Limpar a memória: Clicar em Shift → 9 → 3 =
1 CALCULAR COEFICIENTE DE CORRELAÇÃO
(RXY)
Colocar no modo que aceita valores de x e y:
Clicar em Mode → 1 (Stat) → 2 (Ax+b)
Digitar:
1,1 = → 12
1,2 = → 12,5
...
1,9 = → 7
Encontrar o valor do Coeficiente de Correlação (Rxy): Clicar em Shift → 1 → 7
3 =
2 CALCULAR “A” E “B” DA REGRESSÃO LINEAR
Shift → 1 → 7
1 =
Shift → 1 → 7
2 =
HP – Modelo: 12C
Passos para o procedimento completo:
1º) Digitar os pares ordenados na calculadora: y → Enter → x → +
2º) Achar o valor de “a”: 0 → g → 2
3º) Armazenar o valor de “a”: Clicar em STO → 0
4º) Achar o coeficiente de Correlação: Clicar em x y
5º) Achar o valor de a + b: Clicar em 1 → g → 2, depois
Valor de b: Clicar em RCL (Recuperar o valor de b) → 0 → -
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 44
Anexo 4 – Correlação e Regressão Linear com uso do Microsoft
Excel
CORRELAÇÃO:
1º Passo:
→ Digitar o banco de dados em coluna;
→ Identificar quais são as variáveis quantitativas e qual delas será x (causa) e y (Efeito);
2º Passo: Construção do gráfico de dispersão entre x e y:
→ Selecionar as variáveis Propaganda (x) e Vendas (y) → Inserir gráfico → escolher gráfico de dispersão xy
(ou Ponto) → Avançar → Clicar em “OK”.
Formatação do gráfico:
→ Apagar a legenda
→ Título: Clique com botão direto do mouse dentro do gráfico: Opções do gráfico → Em Título: digitar
“Relação entre Propaganda (R$ milhões) versus Vendas (R$ milhões) de uma determinada empresa x”.
→ Formatar os eixos “x” e “y”, sendo Propaganda (R$ milhões) e Vendas (R$ milhões), respectivamente;
→ Letra Times New Roman, tamanho 11;
→ Verificar se os dados do gráfico seguem uma tendência linear. Se sim, calcula-se a correlação linear entre
as variáveis x e y;
2º Passo: Fazer estudo de correlação linear entre x e y:
Procedimento 1: Com a ferramenta FUNÇÃO:
→ Posicione o cursor em um local abaixo do banco de dados para visualizar o resultado;
→ Clicar em Inserir função → Em selecionar uma categoria, escolha “Estatística” → Selecione uma função:
CORREL → OK → Em matriz 1: selecione todos os dados da variável x, em matriz 2: selecione todos os
dados da variável y, inclusive com o título. Caso esqueça de selecionar o título, o programa calcula a
correlação mesmo assim.
→ Com isso sairá o resultado da correlação entre x e y = 0,8594 = 85,94%
Propaganda (R$ milhões) Vendas (R$ milhões)
Propaganda (R$ milhões) 1
Vendas (R$ milhões) 0,8593 1
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 45
Procedimento 2: Com a FERRAMENTA ANÁLISE DE DADOS:
→ Clicar em Inserir
Ferramentas → Análise de dados → Clicar na função Correlação → OK → Em intervalo de entrada,
selecionar tudo que compõe o banco de dados, inclusive o título → Clicar também em “Rótulos na primeira
linha”, pois caso não clique, o programa não conseguirá ler o banco de dados, pois você está informando a
ele que a primeira linha do banco de dados são as variáveis → Agrupados por coluna → Clicar em Nova
saída → OK. O resultado será:
PARA A REGRESSÃO LINEAR SIMPLES:
Procedimento 1: Através da ferramenta FUNÇÃO:
Para encontrar o valor de “a” (o intercepto), que é representado pela fórmula:
CUIDADO para definir qual variável é x (independente) e qual é y (dependente), pois contrário o resultado
de a e b será errado.
→ Clique em Inserir função → INTERCEPÇÃO → Selecione os dados da variável y, inclusive o título, e os
dados da variável y. Resultará: a = 117,07
Para encontrar o valor de “b” (o coeficiente angular, ou seja, a inclinação da reta), que é representado pela
fórmula:
→ Clique em Inserir função → INCLINAÇÃO → Selecione os dados da variável y, inclusive o título, e os
dados da variável y. Resultará: b = 9,74
Portanto a equação de previsão será: y = a + bx, ou seja, y = 117,07 + 9,74x, que representa:
Vendas= 117,07 + 9,74. Propaganda
( )( ) ( )( )
( ) ( )²²
²
−
−
=
xxn
xyxxy
a
( )
( )
n
x
x
n
yx
xy
b
²
²
−
−
=
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 46
Procedimento 2: Através da ferramenta ANÁLISE DE DADOS:
→ Clique em Ferramentas → Análise de dados → Regressão → OK → Selecione separadamente a variável
y (vendas) e a variável x (propaganda), inclusive os títulos → Clique em rótulos → Nova planilha. O que
iremos utilizar segue abaixo:
Estatística de regressão
R múltiplo 0,8593
R-Quadrado 0,7385
R-quadrado ajustado 0,7058
Erro padrão 65,173
Observações 10
Onde o Coeficiente de determinação (R²) é igual a 0,7385, ou seja, 73,85% dos dados estão sendo explicados
pela equação y = 117,07 + 9,74x, e 0,2614 = 26,14% não estão sendo explicados pela reta encontrada.
Coeficientes
Interseção 117,07
Propaganda (R$ milhões) 9,73
O quadro acima mostra os coeficientes a e b da reta de regressão.
Procedimento 3: Através do GRÁFICO DE DISPERSÃO:
→ Clique em algum dos pontos do gráfico com o botão direito: Clicar em Adicionar linha de tendência →
Clicar em Linear → Ir em Opções: Clicar em exibir equação do gráfico e exibir valor de R² no gráfico, e
sairá a equação y = 117,07 + 9,73x e R² = 0,7385. Assim:
Relação entre Propaganda (R$ milhões) versus Vendas
(R$ milhões) de uma determinada empresa X
y = 9,7381x + 117,07
R2 = 0,7385
0
100
200
300
400
500
600
0 10 20 30 40 50
Propaganda (R$ milhões)
V
e
n
d
a
s
(
R
$
m
il
h
õ
e
s
)
Fazendo previsões matemáticas com uso da equação de regressão linear:
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 47
Para investimento em propaganda no valor de 20 milhões, 40 milhões e 50 milhões de reais, assim:
Assim, a projeção para cada um dos investimentos será de:
Nota de Aula 8 – Probabilidade
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 48
1 INTRODUÇÃO
O passo decisivo para a fundamentação teórica da inferência estatística associa-se ao
desenvolvimento do cálculo das probabilidades.
Até recentemente, era comum creditar a decisão de qualquer evento aos deuses ou alguma outra
causa sobrenatural. Simplesmente não havia espaço para uma abordagem que atribuísse ao acaso, e tão
somente a ele, essas ocorrências. Entretanto, a Humanidade precisou de centenas de anos para se acostumar
com um mundo onde alguns eventos não tinham causa, ou eram determinados por causas tão remotas que
somente podiam ser razoavelmente representados por modelos não casuais. Tendo isso em vista, fica mais
fácil perceber por que a abordagem matemática do acaso, do azar e do risco só se iniciou há pouco mais de
500 anos.
Dessa forma, a teoria das probabilidades nasceu das tentativas de quantificação dos riscos dos
seguros e da avaliação das chances de se ganhar em jogos de azar.
Assim, essa quantificação dos riscos ocorreu há mais de 5 mil anos entre os comerciantes marítimos
mesopotâmicos e fenícios, aplicados à perda de carga de navios, ou por naufrágio ou por roubo. Assim, a
prática foi continuada pelos gregos e romanos e acabou chegando ao mundo cristão medieval através dos
comerciantes marítimos italianos que se baseavam em estimavas empíricas das probabilidades de acidentes
para estipularem as taxas e prêmios correspondentes.
Logo após o término da Idade Média, o crescimento dos centros urbanos levou à popularização de
um novo tipo de seguro: o seguro de vida. Assim, com este tipo de seguro surgiram os primeiros estudos
matemáticos sobre o assunto, fazendo com que houvesse um enorme aumento nos negócios de seguros
marítimos (associados aos preciosos carregamentos trazidos das Américas e das Índias), mas os seguradores
continuaram a usar as milenares técnicas empíricas.
Além disso, ele também dá os primeiros passos em direção a novos tipos de seguros calculando, por
exemplo, a mortalidade causada pela varíola em pessoas de idade dada.
Posteriormente a isso, o primeiro trabalho prático na área dos seguros de
vida é devido a Halley em 1693 (Degrees of Mortality of Mankind). Nesse
trabalho, Halley mostrou como calcular o valor da anuidade do seguro em
termos da expectativa de vida da pessoa e da probabilidade de que ela
sobreviva por um ou mais anos, mas com Daniel Bernoulli (1730), a
matemática dos seguros atingiu um estado bastante maduro, pois com ele
retoma-se um clássico problema de, a partir de um número dado de recém-
nascidos, calcular o número esperado de sobreviventes após n anos.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 49
Concomitantemente, os jogos de azar, jogos nos quais a possibilidade de ganhar ou perder não dependem da
habilidade do jogador, mas sim exclusivamente do azar do apostador, são, provavelmente, tão velhos quanto
à humanidade.
Sendo assim, a origem da probabilidade se deu aos jogos de azar, através de questões postas pelo
matemático francês Pascal (1623-1662) com o célebre cavaleiro Méré, um famoso jogador profissional que
escreveu uma carta a Pascal, propondo-lhe resolver alguns problemas matemáticos que tinha encontrado em
suas lidas com jogos de azar.
Sendo assim, hoje há muitas aplicações que envolvem jogos de azar como as loterias, os cassinos de
jogos, as corridas de cavalos e os esportes organizados (futebol, voleibol, handebol), dentre outros, que
utilizam a teoria das probabilidades diariamente nas duas deliberações.
Independente de qual seja a aplicação em particular, a utilização das probabilidades indica que existe
um elemento de acaso, ou de incerteza, quanto à ocorrência ou não de um evento futuro. Assim é que, em
muitos casos, pode ser impossível afirmar por antecipação o que ocorrerá, mas é possível dizer o que pode
ocorrer. Por exemplo, se jogarmos uma moeda para o ar, de modo geral não podemos afirmar se vai dar cara
ou coroa. Além disso, mediante determinada combinação de julgamento, experiência e dados históricos, em
geral, é possível dizer quão provável é a ocorrência de determinado evento futuro.
Assim, as probabilidades são úteis porque auxiliam a desenvolver estratégias e faz com que o
método da inferência estatística se baseie na teoria da probabilidade para formular conclusões sobre toda uma
população (N) baseada em uma amostra (n). Dessa forma é que alguns motoristas parecem demonstrar uma
tendência para correr a grande velocidade se acham que há pouco risco de serem apanhados ou de correr
acidentes fatais. Os investidores sentem-se mais inclinados a aplicar seu dinheiro se as chances de lucro são
boas, e você certamente carregará capa ou guarda-chuva se houver grande probabilidade de chover.
Analogamente, uma empresa pode sentir-se inclinada a negociar seriamente com um sindicato quando há
forte ameaça de greve, ou mais inclinada a investir em novo equipamento se há boa chance de recuperar o
dinheiro, ou ainda de contratar um novo funcionário que pareça promissor, dentre outros.
Ao longo dos anos, os cálculos probabilísticos vieram se aperfeiçoando, passando da simples análise
de fatos à abstração destes. Um caso de utilização da teoria da probabilidade é o envolver a maior loteria do
Brasil, a Mega-Sena, onde são apostados de seis a quinze números, entre os 60 disponíveis no volante (01 a
60, inclusive respectivamente).
Neste jogo, os apostadorespodem apostar de no mínimo seis números e no máximo quinze do total
de 60. Marcando 4, 5 ou 6 pontos (quadra, quina ou sena, respectivamente) receberão prêmios.
O preço das apostas dependendo de quantos grupos possíveis de seis números existem dentro dos
números escolhidos, variam de R$ 4,50 para seis números (somente 1 jogo possível) a R$ 8.758,75 para 15
mailto:kleison.freitas@professores.unifanor.edu.br
http://pt.wikipedia.org/wiki/Jogo
http://pt.wikipedia.org/wiki/Azar
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 50
números (5005 jogos possíveis). A possibilidade de acertar a Mega-Sena ao fazer uma aposta mínima é de 1
em 50.063.860 (aproximadamente 50 milhões).
O cálculo é feito da seguinte forma:
n = Total de número a escolher (n = 60)
X = Ganhar na Mega-Sena, ou seja, quantidade de números a acertar dentre os 60 números (x = 6
números), então:
Como a ordem de escolha dos números não importa, então usa-se a seguinte fórmula de
combinação:
860.063.50
!54!6
!60
)!660(!6
!60
6
60
==
−
=
=
x
n
, então:
P(ganhar na mega-sena) = %000002,000000002,0
860.063.50
1
== , ou seja, as chances de ganhar o
jogo com uma única cartela é de 1 para 50 milhões. Para todos os efeitos práticos, essa probabilidade é zero,
o que significa que o apostador tem quase nenhuma chance de ganhar na loteria com uma única cartela,
mesmo assim, sempre há algum ganhador na loteria. Essa contradição aparente pode ser explicada com a
seguinte analogia:
“Suponha que há uma fila de micro-ônibus de Fortaleza até o Porto Alegre (RS). Suponha que pela
distância entre as duas cidades e pelo comprimento de um micro-ônibus normal, haverá, de forma hipotética,
aproximadamente 23 milhões de micro-ônibus na fila. Diretores da loteria selecionariam, ao acaso, um dos
micro-ônibus e colocariam um cheque de 30 milhões de reais em seu porta-luvas. Por um custo de dois reais
o apostador pode viajar pelo país e selecionar um (e somente um) micro-ônibus e verificar o porta-luvas”.
Em sua opinião, você acha que o apostador vai encontrar os 30 milhões no micro-ônibus que
escolheu?
Você deve estar quase certo de que não. Agora, permita que qualquer pessoa entre na lotérica e por
dois reais adquira uma cartela e suponha que 50 milhões de pessoas façam isso uma única vez. Com um
número tão grande de participantes é muito provável que alguém vá achar o micro-ônibus com os 30
milhões, mas é quase certo que não será você.
Este exemplo ilustra um axioma da Estatística chamando de a lei dos grandes números (proposta
por Bernoulli), que estabelece que a frequência relativa (proporção entre o número de elementos do espaço
amostral e o espaço amostral) do número de vezes em que um resultado ocorre quando um experimento é
repetido muitas vezes (um grande número de vezes) se aproxima do valor teórico da probabilidade de
resultado. Em outras palavras, quando se repete um experimento um número suficientemente grande de
vezes é possível, substituir a expressão “frequência relativa” por “Probabilidade” com erro desprezível.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 51
Bernoulli afirmou: “Para muitas experiências, tendo cada uma um resultado aleatório, a frequência
relativa de cada um desses resultados tende a estabilizar, convergindo para um certo número que constitui a
probabilidade desse resultado”.
É claro que se o número de repetições da experiência aleatória for bastante elevado, e ela for
repetida em sequências de n vezes, a frequência do acontecimento do evento E é diferente de sequência para
sequência, mas toma valores próximos de um valor dado. Esse valor é o limite para o qual tende a frequência
do acontecimento E, e é também o valor esperado (teórico) da probabilidade desse acontecimento quando o
número n de provas que se realizaram tende para infinito. Assim:
)(
)(lim
)(
lim
)(
→
=
→
=
n
En
n
EP
n
EP
No entanto, para este processo poder ter precisão, é necessário realizar muitas vezes a experiência
aleatória. Isto ocorrendo, para qualquer tipo de distribuição de probabilidade (Normal, Uniforme, Triangular,
Exponencial) a lei dos grandes números funciona também.
Na prática empresarial, a utilização lei dos grandes números ocorre devida uma razão bem científica
para escolha do ser humano médio como foco na formulação desta lei na gestão de pessoas, podendo
formulá-la mais ou menos assim: “O comportamento de muitas pessoas é mais previsível do que o
comportamento de um grupo pequeno ou que o comportamento de uma pessoa isolada”. Essa afirmação nos
ajuda a entender vários acontecimentos aparentemente misteriosos da vida em sociedade, e muita mais na
vida na empresa. Por exemplo, ninguém controla a quantidade de comida que deve chegar a uma cidade
como Fortaleza, ou quais tipos de comida devem ser encomendados, mas é certo eu encontrar o que quero,
quando quero, do jeito que quero. A habilidade que o sistema tem de antecipar minhas necessidades e desejos
sem que eu tenha falado deles a ninguém, é explicada pela lei dos grandes números. Eu, um cara “médio”,
não vou sair procurando nada muito fora da média. Chamam esse talento para computar o que os “médios”
querem, de talento de marketing, e para isso utilizam a teoria da probabilidade.
Ainda para uma maior explicação da lei dos grandes números, se não soubermos a probabilidade de
ocorrer algum evento natural (por exemplo, a chance de chover), ou se não conhecemos a fração de alguma
população que satisfaz uma condição (tal como quantas partes defeituosas foram produzidas numa linha de
montagem) podemos descobrir esta probabilidade ou esta porcentagem através de numerosas observações e
experimentos suficientes.
Um outro exemplo para a lei dos grandes números é você pode achar estranho que uma pessoa
ganhe duas vezes ou mais na Mega-Sena. O New York Times contou a história de uma mulher de Nova Jersey
(EUA) que ganhou duas vezes a lotaria americana, dizendo que as probabilidades eram de “1 em 17 trilhões”.
Contudo, os estatísticos Stephen Samuels e George McCabe da Universidade de Purdue calcularam a
probabilidade de alguém ganhar a loteria duas vezes num período de 4 meses como de 1 para 30.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 52
Por que essa chance e essa probabilidade de ganho aumentam?
Porque os jogadores não compram um único bilhete para cada uma das duas loterias, compram
vários bilhetes múltiplos por semana. Justificando nesse caso a lei dos grandes números com a quantidade
grande de jogadas por jogadores.
Em outras palavras, quer ganhar na Mega-Sena, aposte nela e com muitas cartelas, mas muitas
mesmas.
Um outro exemplo para a lei dos grandes números é, se fizermos uma pesquisa sobre a população
de um Estado brasileiro e observamos apenas alguns cidadãos (amostra), os resultados podem conter grande
erro, porém se analisarmos várias pessoas em várias cidades diferentes dentro deste Estado (selecionados ao
acaso), os resultados das amostras estarão muito próximos dos verdadeiros valores da população e quanto
maior a amostra (maior número de pessoas entrevistadas) maior será esta aproximação.
Diante de tudo isto, os jogos, considerados legais, no Brasil é estimulado, pois de acordo o site da
Caixa Econômica Federal (janeiro, 2012), quem joga na Mega-Sena tem milhões de motivos para apostar e
milhões de brasileiros para ajudar. 51% do valor arrecadado com as apostas é repassada ao Governo Federal,
que pode, então, realizar investimentos nas áreas da saúde, educação, segurança, culturae do esporte,
beneficiando toda a população, por exemplo, 18,1% é destinado à Seguridade Social, 7,76% ao FIES-Crédito
educativo e 3,14% ao Fundo Penitenciário Nacional.
Desde então, as loterias em geral se tornaram imensamente populares por duas razões. Primeiro, elas
atraem o apostador com a oportunidade de ganhar milhões de reais com um investimento de dois reais,
segundo, quando o apostador perde, pelo menos acredita que seu dinheiro está indo para uma boa causa.
A Mega-Sena não é simplesmente uma “vantagem” para o povo concedida pelo governo, pois como
a grande maioria dos apostadores são pertencentes à classe baixa, os mesmos gastam na loteria
aproximadamente o mesmo que pessoas de classe média, mas por terem menos dinheiro, o maior percentual
de seus ganhos dos que apostam na sorte se destinam a esse fim. Isso faz desta uma forma de atividade
“regressiva”, ou seja, empobrece mais quem já é tido como pobre.
“Sempre acerto 11 pontos e ganho 2 reais na LOTOFACIL, só uma vez que
acertei 13 pontos e ganhei 10 reais. No total ja ganhei 32 reais, mas aí
descontei 12 reais das apostas, sobrou 20 reais, só que aí fui descontar os
outros jogos que eu não acertei e vi que fiquei 17 reais mais pobre...”
(depoimento anônimo de um jogador)
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 53
2 CONCEITOS INICIAIS
• Experimentos aleatórios: São aqueles ensaios que não são previsíveis, mesmo que repetido
em idênticas condições, geram resultados diferentes, pois ocorrem ao acaso. Exemplo:
Nascimento de duas crianças;
• Espaço amostral (): É o conjunto de todos os resultados possíveis de um experimento
aleatório, ou seja, é o conjunto universo do experimento.
Exemplo: Seja o experimento “Nascimento de duas crianças”. Os resultados possíveis são?
• Evento (E): É o subconjunto do espaço amostral que contém os resultados que nos
interessam.
Exemplo: Lançam-se uma moeda e um dado honestos. Enumere o seguinte evento: E1= Sair
cara e face par
• Evento certo: É o evento que ocorre com certeza (É o próprio espaço amostral).
Exemplo: Sair face menor que 7 no lançamento de um dado.
• Evento impossível: É o evento que nunca ocorre (), ou seja, não há possibilidade de
ocorrência deste evento.
Exemplo: Obter soma maior que 12 no lançamento de dois dados.
• Operações com eventos aleatórios:
a) União: Sejam os eventos A e B, a união do evento A ao evento B é entendido por A
B. Representa a ocorrência de pelo menos um dos eventos, A ou B.
b) Interseção: O evento interseção é formado pelos pontos amostrais que pertencem
simultaneamente aos eventos A e B, sendo representado por A B.
Exemplo: Seja o experimento: “Lançamento um dado de 6 faces honesto”. Então, = {1, 2, 3, 4, 5, 6},
sejam os eventos:
E1: Ocorrer face par
E2: Ocorrer número menor que 3
a) Então, E1 E2 =
b) Então, E1 E2 =
E1
E2
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 54
• Eventos mutuamente exclusivos ou disjuntos: São eventos que não ocorrem
simultaneamente, ou seja, A B = , pois a ocorrência de um deles anula a ocorrência do
outro.
Exemplo: Seja o experimento “Lançar um dado honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos:
E1: Ocorrer face par
E2: Ocorrer face ímpar
Então, E1 E2 =
• Eventos complementares ( )E : O complemento de um evento “E”, denotado por
E ou cE , consiste em todos os resultados em que o evento “E” não ocorre, ou seja, é o
acontecimento complementar de E. Eventos complementares são eventos mutuamente
exclusivos, mas a recíproca não é verdadeira, ou seja, nem todo evento mutuamente
exclusivo é complementar, por exemplo, no jogo de futebol, se o time ganhar é por que o
outro perdeu, mas se empatar, nenhum ganhou ou nenhum perdeu.
E E = (mutuamente exclusivo)
E E = E + E = E = - E
Dizemos que E e E são complementares se sua união é o próprio espaço amostral e sua
interseção é vazia. Exemplo: Cara ou coroa na jogada de uma moeda; Exemplo: Feridos e
não feridos num acidente.
2.1 DEFINIÇÃO DE PROBABILIDADE
É a possibilidade de que certo evento venha ocorrer, ou seja, é uma medida da incerteza associada
aos resultados do experimento aleatório. De acordo a Lei de Laplace: Seja um espaço amostral
equiprovável (quando todos têm a mesma probabilidade de ocorrer) de um experimento aleatório, e E, um
evento desse espaço amostral finito, definido por:
=
do elementos de Número
E de elementos de Número
)(EP , assim:
)(
)(
)(
=
n
En
EP
Em outras palavras, probabilidade é uma fração entre o número de resultados favoráveis (aqueles
que satisfazem a necessidade do problema a ser calculado) com o número de resultados possíveis.
• Propriedades/Axiomas:
a) A probabilidade de um evento certo é igual a 1, isto é, P() = 1 ;
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 55
b) O P(E) 1: A probabilidade de um evento ocorrer é sempre maior ou igual a zero
e menor ou igual a 1;
c) 1)()()(1)( =+−= APAPAPAP = P(), ou seja, a soma de eventos
mutuamente exclusivos sempre será igual a 1;
d) P() = 0, mas a reciproca não é verdadeira, pois o fato de P(A) = 0 não implica que
seja impossível.
Exercício 1: É sexta-feira a noite e um estudante universitário está em uma festa e lembra que na próxima
segunda-feira haverá uma prova de cálculo em que ele está totalmente “por fora” da matéria. E o pior é que,
se ele não conseguir uma boa nota, estará reprovado. Mas ele lembra que o professor falou que a prova teria
3 questões de múltipla escolha, e basta ele acertar duas dessas questões para ser aprovado. Se o estudante
optar em continuar na festa e decidir que vai fazer a prova na base do “chute”. Portanto:
a) Relacione os diferentes resultados possíveis que ele poderá obter:
b) Qual é a probabilidade de responder corretamente todas as três questões e ser aprovado?
c) Qual é a probabilidade chutar corretamente pelo menos 2 questões e conseguir sua aprovação?
d) A estratégia de “chutar” na prova é uma estratégia inteligente adotada pelo aluno?
3 TEOREMA DA SOMA
Seja E um espaço amostral finito e não vazio. O principal objetivo da regra da adição é encontrar a
probabilidade de ocorrência do evento A, ou do evento B, ou de ambos, ou pelo menos um deles. Assim:
P (A B) = P (A) + P (B) – P (A B) Ou )()()()( BAPBAPBAPBAP ++=
Representando pelo diagrama de Venn:
Se os eventos forem mutuamente exclusivos, ou seja, não ocorrem simultaneamente, isto é,
P (A e B) = P (A B)
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 56
A B = , então P (A B) = 0, assim: P (A B) = P (A) + P (B)
Quando as probabilidades de eventos mutuamente exclusivos somam 1, diz-se que os eventos são
coletivamente exaustivos, nesse caso não existem outros resultados possíveis.
• Leis de Morgan ou Leis das Dualidades: Seja E um espaço amostral finito e não vazio. O
principal objetivo da regra é verificar a:
)( BAP = Probabilidade de não ocorrer A e B, ou seja, não ocorre a interseção.
)( BAP = Probabilidade de não ocorrer “A” e não ocorrer “B”, ou seja, não ocorre cada um
separadamente, assim: )( BAP =1- P(A B)
)()(1)( BAPBAPBAP =−= : A probabilidade de não ocorrer a interseção.
Sejam A, B e C três eventos. Então:
P (A B C) = P (A) + P (B)+ P (C) – P (A B) – P (A C) – P (B C) + P (A B C)
Exercício 2: Considere um experimento aleatório e os eventos A e B associados, tais que
P (A) =
2
1
, P (B) =
3
1
e P (A B) =
4
1
. Então temos:
a) P(A B)
b) )( BAP
c) )( BAP
d) )( BAP
Exercício 3: Em uma determinada Unidade de Pronto Atendimento (UPA) de Fortaleza, dos pacientes
atendidos no último final de semana passado, 50% estavam com covid-19, 20% com dengue e 5% com
covid-19 e dengue. Diante dessas prevalências, o diretor da UPA solicitou ao Engenheiro de Computação que
calculasse a probabilidade de no próximo final de semana, dada às mesmas circunstâncias climáticas do fim de
semana passado, a probabilidade de nesta UPA ocorrer:
a) Nenhum paciente com covid-19 e dengue.
b) Nenhum paciente com covid-19 e nenhum com dengue nesse determinado hospital.
c) Pelo menos um paciente com covid-19 ou dengue.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 57
4 TEOREMA DA MULTIPLICAÇÃO
A regra da multiplicação calcula a probabilidade de o evento A ocorrer e a ocorrência do evento B,
ou seja, P (A e B).
P (A e B) = P (A). P (B), se A e B são independentes
P (A e B) = P (A). P (B/A), se A e B são dependentes
• Eventos independentes: Dois eventos A e B são independentes se a ocorrência de um
deles não afeta a probabilidade de ocorrência do outro, caso contrário, são dependentes.
Então:
P (A B) = P (A). P (B), se A e B são independentes
P (A B) = P (A). P (B/A), se A e B são dependentes
A regra da multiplicação é extremamente importante em virtude de suas inúmeras aplicações.
Exercício 4: Um aquarista coleciona peixes ornamentais e deseja com estes realizar um estudo com o
objetivo de descrever características comportamentais com relação ao gênero destes peixes, pois estudos
afirmam que os machos são mais agressivos que as fêmeas. O estudo será feito da seguinte forma: captura-se
o peixe, coloca-o em outro aquário durante 3 dias sob determinadas situações manipuladas por ele e filma-se
o comportamento de cada peixe frente às situações ocorridas. Com este estudo o pesquisador poderá traçar
estratégias de forma de cultivo destas espécies, de acordo as características comportamentais identificadas.
Desta forma, no aquário em que ele os cultiva há 5 peixes machos de cor branca e 8 peixes fêmeas de cor
azul. Dois peixes serão retirados do aquário, aleatoriamente e sem reposição. Portanto determine a
probabilidade de ser branco (ou macho) e outro azul (ou fêmea), em qualquer ordem.
5 PROBABILIDADE CONDICIONAL
Se A e B são eventos associados a um espaço amostral , com P(B) 0, então a probabilidade de
ocorrência do evento A condicionada à ocorrência do evento B, é denotada por P (A/B) e definida pela
relação:
)(
)(
)/(
BP
BAP
BAP
= , onde P (B) > 0
Nesse caso,
)(
)(
)(
)(
)/(
=
n
Bn
n
BAn
BAP . Se A e B forem independentes: )(
)(
)().(
)/( AP
BP
BPAP
BAP == ,
analogamente P(B/A) = P(B), ou seja, a regra da probabilidade condicional não se aplica.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 58
Exercício 5: Suponha que nesta sala de aula há um total 15 alunos regularmente matriculados. O professor
gostaria de identificar qual a área da estatística é mais interessante para o aluno se aprofundar de acordo a sua
área de formação. Assim, um aluno será sorteado ao acaso entre todos os alunos que constam na lista de
presença do professor. Se o número sorteado for par, qual a probabilidade de que seja o aluno de número 6?
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 59
Nota de Aula 9 – Distribuição Normal de Probabilidade
1 INTRODUÇÃO
Quando uma variável aleatória assume somente valores inteiros, suas informações são originadas de
uma variável aleatória discreta, pois estas são obtidas por contagem. Agora, em alguns casos, os resultados de
uma variável aleatória podem não estar limitados somente a números inteiros, mas podendo ser não inteiros
também. Suponha, por exemplo, que uma variável X represente a altura (cm) de um indivíduo, neste caso,
raramente um indivíduo tem exatamente 1,77cm ou 1,78cm de altura, pois teoricamente, esta variável pode
assumir um número infinito de valores intermediários, como 1,7704cm ou 1,7832 cm, por isso trata-se de uma
variável aleatória contínua, variável este que é obtida por mensuração e por este motivo seus possíveis valores
tendem para o infinito, visto não serem inteiros.
A descoberta teve logo grande sucesso e grandes estudiosos da época foram ligados à curva normal,
tais como Laplace que em 1783 a utilizou para descrever a distribuição de erros, e Gauss que em 1809 a
empregou para analisar dados astronômicos.
Assim, como Gauss foi a primeira pessoa a reafirmar o papel fundamental proposta por Moivre a
curva da normal é chamada hoje de curva de Gauss.
Antes de explanar com mais detalhes a curva de Gauss, faz-se necessário analisar a lei dos grandes
números proposta por Bernoulli. Esse teorema diz o seguinte: numa situação de eventos casuais, onde as
alternativas são independentes, obter coroa em lances de uma moeda de cara ou coroa, tem a probabilidade
A distribuição contínua mais comum e mais utilizada no
âmbito estatístico é a distribuição de probabilidade chamada
normal, que também é conhecida como curva em forma de sino
ou curva de Gauss, como será vista mais adiante.
Esta distribuição tem uma história bastante longa, e está
ligada à história da descoberta das probabilidades, que surgiram
no século XVII para resolver, inicialmente, questões de apostas
de jogo de azar.
O responsável direto pela curva normal foi o matemático
francês Abraham de Moivre (1667-1754), exilado na Inglaterra, que
a definiu em 1730, dando sequência aos trabalhos de Jacob Bernoulli
(com o teorema dos grandes números) e de seu sobrinho Nicolaus
Bernoulli, ambos matemáticos suíços.
Johann Carl Friedrich Gauss (1777-1855)
mailto:kleison.freitas@professores.unifanor.edu.br
http://upload.wikimedia.org/wikipedia/commons/9/9b/Carl_Friedrich_Gauss.jpg
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 60
matemática exata de 50% (porque somente dois eventos possíveis: cara ou coroa), mas na prática esta
probabilidade de 50% é apenas aproximada. E essa aproximação é tanto mais exata quanto maior forem às
tentativas que você fizer de lançar moeda, chegando a quase atingir os exatos 50% se você lançar a moeda
infinitas vezes. Isto é, quanto mais lances você fizer, menor será o desvio (erro) em relação à média de 50%
que o resultado irá produzir. Isso quer dizer que os desvios serão menores na medida em que sobe o número
de lances. Desvios grandes são raros e desvios pequenos frequentes, quanto menores os desvios mais
frequentes eles serão, de sorte que, aumentando as tentativas (os lances), aumenta-se o número de desvios
pequenos, sobrepujando cada vez mais os desvios grandes, de tal sorte que, no limite, haverá quase somente
desvios pequenos, sendo o desvio zero o menor deles e, por consequência, o mais frequente.
O matemático francês Moivre assumiu essa idéia de Bernoulli e disse: erros grandes são mais raros que
erros pequenos. Assim, quanto menores os erros, mais frequentes eles serão e quanto maiores, menos
frequentes. Dessa forma, os errosse distribuem equitativamente em torno de um ponto modal, a média,
formando uma curva simétrica com pico na média e caindo rapidamente para as caudas à esquerda (erros que
subestimam a média) e à direita (erros que superestimam a média). Além disso, essa curva simétrica permitiu a
Moivre calcular uma medida de dispersão das observações em torno da média, medida esta que hoje em dia é
conhecida como o desvio padrão. Moivre, ainda chamou esta curva de normal, por que a média dela representa
a norma, isto é, as coisas todas deviam ser como a média, de sorte que tudo que se desvia dessa média é
considerado erro, portanto a equivalência, neste caso, entre desvio e erro.
Um outro matemático do século XIX, de origem belga, Quetelet, fez uma “orgia de medições” sobre
eventos do homem, tais como natalidade, mortalidade, alcoolismo, insanidade, medidas antropométricas,
dentre outros, resultando no Tratado sobre o homem e o desenvolvimento de suas faculdades (1835),
afirmando que tudo no homem e no mundo se distribui segundo a curva normal. Embora essa afirmação de
Quetelet tenha tido reações contrárias, ela evocou pesquisas sem fim sobre esta história da distribuição normal
dos eventos, chegando hoje em dia a ser mantida a idéia de que, praticamente, todos os eventos se distribuem
assim. Daí a hegemonia da curva normal nas análises estatísticas em pesquisas científicas.
Aliás, assumir a distribuição normal em pesquisa está baseado em dois fundamentos:
1 – Quando a distribuição da própria população for normal, ou
2 – Quando a distribuição da população não for normal, mas se tiver o número grande de casos (teorema de
Bernoulli através da lei dos grandes números ou o teorema central do limite).
Esta história do limite central é extremamente complicada, mas os matemáticos chegaram a provar
este teorema. Assim, qualquer que seja a distribuição dos seus dados, se você tiver um número grande de
observações, você pode usar com tranquilidade a curva normal como uma aproximação adequada para a
análise dos seus dados. Uma curiosidade: um N de tamanho 30 já é considerado um grande número se a
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 61
distribuição da população for próxima do normal. Um N bem maior será necessário se a distribuição da
população não for normal.
Hoje em dia, a curva da normal é um ganho fundamental na prática estatística, pois a normalidade
dos dados ocorre naturalmente em muitas áreas científicas, como na física, biologia e nas áreas sociais, e
também uma distribuição fundamental para a inferência estatística. Por exemplo, a sua aplicação na análise de
dados na área da biomedicina é grande, pois muitas variáveis numéricas contínuas comprovaram que têm
distribuição normal ou aproximadamente normal. Um outro exemplo que pode ser citado é a altura, o peso, o
índice de massa corporal (IMC) dos indivíduos, dentre outras. Alguns dos principais métodos empregados na
análise estatística, como a Análise de Variância, a Análise de Regressão, dentre outros exigem, como
pressuposto que os dados sigam uma distribuição normal para sua realização.
Esta nota de aula mostrará o uso prático da distribuição normal de probabilidade e a sua importância
tanto na academia quanto no mercado empresarial.
2 DISTRIBUIÇÃO NORMAL
Mas por que esta distribuição tem esse nome? Existe uma explicação plausível para isto, será visto
mais adiante.
A distribuição normal é uma distribuição de probabilidade usada para variáveis aleatórias contínuas
(obtidas por mensuração), com a seguinte notação X ~ N (; ²) e sua função densidade de probabilidade é
dada por:
2
2
1
2
1
)(
−
−
=
x
exf , para - < x < (ou x ), onde:
X = Variável aleatória contínua analisada
x = Valor qualquer da variável aleatória X
= Média populacional
= Desvio padrão populacional
= 3,1416...
e = 2,7182...
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 62
3 CARACTERÍSTICAS DA DISTRIBUIÇÃO NORMAL
a) A variável “X” pode assumir qualquer valor real (- a +);
b) O gráfico da distribuição normal tem uma curva simétrica (a média moda mediana) e
unimodal na forma de um sino e é apresentado um ponto de inflexão à esquerda (x = -
1) e outro à direita (x = + 1), ou seja, ou seja, o que define a área sob a curva são os
desvios padrão (), assim fixando o valor da média, o “achatamento” da curva está
diretamente ligado ao valor de .
O gráfico que mostra os indícios de que os dados de uma distribuição são aproximadamente normal
é o histograma ou o diagrama de ramo e folhas.
A distribuição normal é uma das distribuições fundamentais da moderna teoria estatística. A
vantagem da distribuição normal reside na facilidade de defini-la com apenas dois parâmetros, a média e o
desvio padrão da distribuição, por exemplo, suponha a seguinte a curva da normal f(x) para = 40 e =
10, o gráfico construído será:
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 63
0,0000
0,0050
0,0100
0,0150
0,0200
0,0250
0,0300
0,0350
0,0400
0,0450
0 10 20 30 40 50 60 70 80
Parâmetros da variável aleatória
F
r
e
q
u
ê
n
c
ia
r
e
la
ti
v
a
Gráfico 1: Distribuição Normal com média e desvio padrão
Uma das características importantes da normal é que a partir desses parâmetros será possível
calcular, por exemplo, a porcentagem de valores que deverão estar acima ou abaixo de um determinado valor
da v.a., ou entre esses dois valores definidos.
Analisando a fórmula de f(x), observe que para cada par de parâmetros e , há uma curva
diferente de f(x) ou que, para qualquer outro par de parâmetros e , a curva f(x) será diferente.
c) Os valores de f(x) nunca tocam o eixo “x” da curva da Normal, mas f(x) → 0, se x → ;
d) A área sob a curva é 1.
Como se trata de distribuição de probabilidade contínua, a área que fica entre a curva e o eixo “x”
representa a probabilidade. A probabilidade de ocorrer um evento entre os pontos “a” e “b” é calculada pela
integral definida (visto na disciplina de cálculo) da função entre os pontos “a” e “b”, representada por:
2
2
1
2
1
),(
−
−
=
xb
a
ebaP , graficamente:
a b
Substituindo os parâmetros
= 40 e = 10 na função densidade
de probabilidade, será encontrado os
seguintes valores:
x f(x)
20 0,0007
30 0,0146
40 0,0399
50 0,0146
60 0,0007
Segue o gráfico 1 com a plotagem dos
seguintes valores.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 64
Observa-se que o cálculo direto de probabilidade envolvendo a distribuição normal exige recursos de
cálculo avançado e, mesmo assim, dada a forma da função densidade de probabilidade (f.d.p), não é um
processo muito elementar. Por isso ela foi tabelada, permitindo assim obter diretamente o valor da
probabilidade desejada.
Verifica-se que, no entanto, a f.d.p da normal depende de dois parâmetros, a e ², o que acarreta um
grande trabalho para tabelar as probabilidades, considerando-se as várias combinações de e ².
Esse problema pode ser resolvido por meio de uma mudança de variável, obtendo-se, assim, a
distribuição normal padronizada ou reduzida.
4 A CURVA NORMAL E A CURVA PADRONIZADA (Z)
Os pesquisadores quando falam da curvam normal, tipicamente entendem a curvanormal
padronizada (ou igualitária a normal original), a qual é definida pela simetria e pela curtose. Mas a curva
normal original é definida exclusivamente pela simetria, isto é, que as áreas sob a curva são idênticas em
ambos os lados da média: a curva normal é unimodal (tem apenas um pico) e simétrica. Assim, todas as
curvas da figura abaixo são normais, porque têm um pico somente e são simétricas, embora os desvios sejam
diferentes, provocando diferentes níveis de curtose.
Na fórmula
2
x
2
1
e
2
1
)x(f
−
−
=
, observa-se que a parte mais importante é o expoente
2
X
2
1
−
−
, e nele se vê que quem comanda as ações são os dados empíricos de X e os parâmetros de
sua distribuição (µ e ). Agora, tanto os X quanto os parâmetros de uma distribuição variam de pesquisa para
pesquisa e, assim, as curvas normais que resultam são diferentes. Portanto, ao invés de trabalhar com os
valores brutos de X, vamos padronizar estes valores e transformá-los em valores de Z, ou seja, agora a
distribuição normal terá o seguinte formato:
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 65
−
=
X
Z , com isso 2
2
2
1
)(
Z
eZf
−
=
A vantagem desta curva normal padronizada é que em alguns parâmetros já estão automaticamente
definidos para qualquer escala de medida que você utilizar, quais seja, a média é zero ( = 0) e desvio padrão
um ( = 1), onde suas probabilidades já foram calculadas e são apresentadas em uma tabela (ver anexo desta
nota de aula) de fácil utilização. Essa tabela nada mais é que uma tabela de conversão do número de desvios
padrão entre x e em um algoritmo.
Em que X é uma variável aleatória normal da média e variância ² (são constantes), assim:
X ~ N(; ²) Z ~ N(0; 1²), seu gráfico será:
A curva normal padronizada é definida pela simetria e pela curtose, sendo chamada de mesocúrtica.
A curtose da distribuição normal se refere á altura do pico da curva, o qual acontece na média da
distribuição: se o pico é muito elevado, a curva é chamada de leptocúrtica, se o pico é achatado a curva é
chamada de platicúrtica, se for mediano, a curva é chamada de mesocúrtica, sendo esta última, a característica
da normal padronizada, como mostra a figura abaixo:
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 66
Trabalhar com a curva normal padronizada facilita muito a vida da gente, pois com ela a média
sempre será zero e o desvio padrão será um. Quando não for padronizada, então teremos que calcular o valor
da média e o valor do desvio padrão da distribuição e trabalhar com os dois parâmetros.
5 USO DA TABELA NORMAL PADRÃO (Z)
A tabela oferece a área entre 0 e Z0 ou P(0 Z Z0), conforme visto no gráfico abaixo:
Onde Z0 representa o número de desvios padrão distante da média, ou seja, as informações contidas
nessa tabela não são sempre idênticas nos diferentes autores de livros de estatística, mas duas informações
sempre estão presentes e essas duas são as mais importantes, a saber, o Z e a proporção de casos que caem na
faixa que vai da média zero até este valor de Z. Assim, se você conhece o Z, você pode descobrir qual a
proporção de casos que corresponde a ele ou, se você conhece a proporção de casos, você pode descobrir
qual o Z que lhe corresponde.
OBS: Embora a curva normal vá até o infinito (positivo e negativo), você vê que quase a totalidade dos casos
cai entre -3 e 3 desvios padrão (ou Z), de fato, 99,74% dos casos, por isso, a tabela (em anexo) varia -3,99 a
3,99, acima ou abaixo disso é 0,499.
6 REGRA EMPÍRICA (OU REGRA 68-95-99)
Outra regra que auxilia a interpretação de um desvio padrão é a regra empírica, aplicável somente a
conjunto de dados com distribuição aproximadamente em forma de sino, pois mostra como a média e o
desvio padrão estão relacionados com a proporção dos dados que se enquadram em determinados limites. A
regra é a seguinte:
• Cerca de 68% dos valores estão a menos ou a mais de 1 desvio padrão a contar da média, o
que justifica o nome da distribuição de probabilidade “normal”, pois 68% representa a
maioria, e a maioria é o que representa “ser normal” ou que está “dentro do padrão”. Nesse
caso, 68% dos elementos (a maioria) apresentam determinada característica;
• Se quiser melhorar esse nível proporcional de elementos que possuem determinada
característica, de 68% para 95%, ou seja, basta-se pegar 2 desvios padrão para mais e para
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 67
menos a contar da média, assim cerca de 95% dos valores estão a menos ou a mais de 2
desvios padrão a contar da média;
• Se quiser ainda aumento esse nível proporcional de 95% para 99,7%, então deve-se pegar 3
desvios padrão para mais e para menos a contar da média, assim cerca de 99,74% dos valores
estão a menos ou a mais de 3 desvios padrão a contar da média. Nesse último caso, a análise
é de quase toda a população possuir determinada característica.
Com isso, se os dados são aproximadamente normais, as porcentagens serão aproximadamente
iguais a 68%, 95% e 100%, respectivamente.
Ver figura da regra empírica.
Portanto, quase nunca é preciso prolongar muito as caudas de uma distribuição normal, porque a
área sob a curva é de mais ou menos 4 ou 5 desvios-padrão a contar da média é desprezível para quase todos
os fins práticos.
Exercício 1 - Exercício para aprender utilizar a Tabela na Normal Padrão: Encontre a probabilidade
de:
a) P(Z 1,34)
b) P(Z 1)
c) P(-2,55 Z 1,2)
d) P(1 Z 3,09)
e) P( - 3 X + 3)
mailto:kleison.freitas@professores.unifanor.edu.br
Anexo 5 – Tabela da Distribuição Normal
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 69
LISTA DE EXERCÍCIOS DE ESTATÍSTICA
Variáveis:
1) Suponha que o mestre de obras de uma construção civil de um determinado condomínio residencial de
Fortaleza, Ceará, solicitou que o gerente de Segurança do Trabalho analisasse os indicadores referente aos 20
profissionais que se acidentaram ou se lesionaram durante o trabalhado no decorrer do ano passado. Os
dados estão organizados no seguinte banco de dados abaixo:
Profissional Gênero
Peso
(kg)
Tipo e Classificação
do Acidente/Lesão
Número de
vezes ocorridos
1 Masculino 89,79 Alergia Leve 1
2 Feminino 64,20 Queda Severa 3
3 Masculino 91,00 Surdez Moderada 1
... ... ... ... ...
18 Masculino 71,00 LER1 Severa 2
19 Masculino 78,80 Corte Leve 2
20 Feminino 71,00 Queda Moderada 1
Fonte: Dados hipotéticos
1Lesão por Esforços Repetidos
De acordo com o banco de dados acima classifique o tipo de variável para as variáveis seguintes. Marque a
alternativa correta:
a) Gênero:
(a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua
b) Peso:
(a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua
c) Tipo e Classificação do Acidente/Lesão:
(a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua
d) Número de vezes ocorridos:
(a) Qualitativa Nominal (b) Qualitativa Ordinal(c) Quantitativa Discreta (d) Quantitativa Contínua
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 70
2) O atual Governo Federal está exigindo uma quantidade maior de informação antes de aceitar um candidato
e decidir se concede ou não uma bolsa do Prouni para uma faculdade privada de Fortaleza. Assim, classifique
cada uma das informações dos futuros alunos à instituição. Marque a alternativa correta:
a) Quantidade de prêmios escolares obtidos:
(a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua
b) Qual a sua faixa de Renda familiar mensal (OBS: Identificar a classe social de acordo com a legenda
abaixo)?
( ) Até R$ 1.874,00
( ) De R$ 1.874,01 a R$ 3.748,00
( ) De R$ 3.748,01 a R$ 9.370,00
( ) De R$ 9.370,01 a R$ 18.740,00
( ) Mais de R$ 18.740,00
(a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua
c) Salário (em reais) dos pais:
(a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua
d) Qual o seu Estado civil?
(a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua
Planejamento Amostral:
3) (Amostra Aleatória Simples) Estudo sobre elaboração de estratégia de marketing: A “Guerra das Colas”
é o termo popular utilizado para a intensa competição entre Coca-Cola e Pepsi mostrada em suas campanhas
de marketing. As campanhas geralmente têm estrelas do cinema, televisão, youtubers e influenciadores digitais,
que surgem reforçando as suas preferências com base em testes de sabor. Assim, como parte de uma
campanha de marketing, a Pepsi submeteu de uma população de 625 consumidores de refrigerante sabor cola
uma amostragem de 300 a um teste cego (isto é, o consumidor degusta o refrigerante e informa qual dos dois
ele prefere sem visualizar a marcar que está degustando). Cada consumidor é questionado quanto à sua
preferência em relação à marca A ou B. Diante disso, calcule a margem de erro do teste cego, se a
confiança for de 95%?
Gabarito: 4,16%
Legenda com relação a faixa de renda familiar do pesquisado e sua classe social
segundo o IBGE:
Até R$ 1.874,00 – Classe E
De R$ 1.874,01 a R$ 3.748,00 – Classe D
De R$ 3.748,01 a R$ 9.370,00 – Classe C
De R$ 9.370,01 a R$ 18.740,00 – Classe B
Mais de 18.740,00 – Classe A
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 71
4) (Amostra Aleatória Estratificada) Estudo sobre o nível de serviço logístico: Uma das áreas que a
logística exige é a de criação de software para planejar e administrar rotas, sistemas de armazenagem e o tempo
de entrega de produtos. Assim, uma empresa de logística localizada em Fortaleza que transporta cargas de
equipamentos eletrônicos em seus caminhões-baú que são monitorados por um rastreador até o último
cliente ser atendido deseja fazer uma pesquisa de satisfação com estes clientes (lojas de eletrônicos),
localizados em três capitais brasileiras, sendo elas: São Paulo, Recife e Rio de Janeiro, conforme visto no
Quadro abaixo. O objetivo da pesquisa é verificar, na opinião deles, se a logística de entrega dos produtos
está sendo realizada de forma eficiente.
Destino Número de lojas (N)
São Paulo 851
Recife 400
Rio de Janeiro 511
Total 1.762
Como não é possível analisar todos as lojas nas três capitais, será feito um estudo por amostragem. Portanto,
através de uma Amostra Aleatória Estratificada Proporcional, quantas lojas serão pesquisadas, por destino de
entrega, com uma margem de erro de 2,5% para mais ou para menos e uma Confiança de 95%?
Gabarito: São Paulo = 403; Recife = 193; Rio de Janeiro = 243
Medidas Descritivas Para Dados Não Agrupados:
5) Estudo meteorológico na construção civil: Uma equipe de especialistas do centro meteorológico de
uma cidade europeia mediu a temperatura ambiental, sempre no mesmo horário, durante 11 dias intercalados,
a partir do primeiro dia útil do mês. Esse tipo de procedimento é frequente para os engenheiros civis que
analisam as tendências climáticas nas construções de futuras barragens. Segue os dados:
2°C 3°C -5°C 6°C -7°C -2°C 0°C 8°C -3°C 5°C 10°C
Assim, determine e interprete:
a) A média da temperatura da cidade.
b) A moda da temperatura da cidade.
c) A mediana da temperatura da cidade.
d) O Desvio Padrão da temperatura da cidade.
e) Através do coeficiente de variação (CV), verifique se as temperaturas são homogêneas ou heterogêneas.
f) De acordo um protocolo de construção de barragens de cidades europeias, a mesma só pode ser
construída se estatisticamente as temperaturas da região for homogênea e abaixo de 2ºC em média. Qual a
decisão do engenheiro responsável pela obra?
Gabarito: a) 1,54°C; c) 2°C; d) 5,46°C; e) 354,54%;
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 72
6) Estudo sobre a logística de distribuição: Suponha que o departamento de logística de uma lanchonete
que tem o serviço de delivery registrou o tempo (em minutos) de entrega de produtos por duas empresas de
aplicativos com previsão de entrega informado ao cliente de em média 35 minutos após a compra ser
finalizada:
Tempo (minutos)
por aplicativo
Clientes
1 2 3 4 5 6 7 8 9 10
Ifoof 46 45 57 55 42 59 60 48 39 59
Uber Eats 32 34 32 33 37 35 37 30 34 30
a) Calcule o tempo médio de entrega de cada aplicativo
b) Calcule o desvio padrão do tempo de entrega de cada aplicativo
c) Calcule o coeficiente de variação do tempo de entrega de cada aplicativo
d) Verifique qual dos dois app´s tem o tempo de entrega mais concentrado, e verifique com qual app a
empresa deve continuar com o contrato de distribuição de seus produtos.
Gabarito:
a) Transportadora 1: 51; Transportadora 2: 33,4;
b) Transportadora 1: 7,86; Transportadora 2: 2,5;
c) Transportadora 1: 15,4%; Transportadora 2: 7,5%
7) Estudo para tomada de decisão de atendimento ao cliente: Uma rede de supermercados de Fortaleza
queria saber se o tempo de espera para atendimento de clientes de dois tipos de filas (Única e Múltipla) era o
mesmo ou não, pois caso o tempo do tipo de fila fosse diferente, iriam adotar a partir do mês seguinte o tipo
de fila que apresentasse o menor tempo de atendimento. Na fila única os clientes entram e são atendidos por 3
caixas, enquanto na fila múltipla os clientes entram em qualquer uma das três filas que conduzem até os caixas.
Foram observados 10 clientes aleatoriamente escolhidos durante 1 hora de um determinado dia e anotou-se o
tempo que cada um levou para ser atendido, como segue abaixo:
a) Calcule o tempo médio de cada fila
b) Calcule o desvio padrão de cadafila
c) Calcule o coeficiente de variação do tempo de atendimento de cada fila
d) E decida o que o supermercado deve fazer, visando a satisfação do seu cliente: adotar a fila única ou
múltipla.
Gabarito:
a) Transportadora 1: 7,15; Transportadora 2: 7,15;
b) Transportadora 1: 0,48; Transportadora 2: 1,82;
c) Transportadora 1: 6,7%; Transportadora 2: 25,5%
Fila única 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7
Fila múltipla 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 73
Separatrizes e Box-Plot
8) Estudo sobre controle de qualidade na construção civil e de produção: Uma olaria produz tijolos
que é um material cerâmico utilizado na construção civil de acordo com a norma de resistência estabelecido
pelo departamento de controle de qualidade do seu respectivo cliente. Assim, um determinado cliente
estabeleceu como critério que 50% entre o Quartil 1 e Quartil 3 dos tijolos devem suportar, no mínimo, uma
força de compressão entre 6,5 e 8,5kg/cm2 (ou seja, o tijolo consegue suportar um corpo de peso entre 6,5 e
8,5 kg, por exemplo) para que o lote produzido seja aprovado e utilizado nas suas futuras construções. Num
ensaio de uma amostra de 26 tijolos escolhidos aleatoriamente de um lote produzido pela olaria e realizado
pelo engenheiro de controle de qualidade do cliente foram registrados os seguintes dados com relação a sua
resistência à compressão em kg/cm2:
2,8 3,3 4,5 5,0 5,3 6,0 6,0 7,0 7,0 7,3
7,3 7,5 7,8 7,8 8,3 8,5 8,8 9,0 9,0 9,0
9,0 9,3 9,6 9,8 10,0 10,0
Nestas condições, através do gráfico Box-Plot, o departamento de Controle Estatístico de Qualidade do
cliente, de acordo o critério estabelecido aprovará ou reprovará o lote de tijolos para utilização?
9) Dentre as afirmativas abaixo, marque a INCORRETA:
(a) O Q2 é igual à mediana que é igual ao Percentil 25
(b) Os Decis dividem a distribuição em dez partes iguais
(c) As Separatrizes são estimativas que não analisam a dispersão dos dados
(d) O P60 indica que 40% dos valores são maiores que ele e 60% abaixo
(e) O Q3 é igual ao Percentil 75.
10) Em relação ao gráfico Box-Plot, conforme a figura abaixo, pode-se afirmar que:
(a) A linha que passa no interior da caixa é a média.
(b) O comprimento da caixa no gráfico retrata o intervalo interquartílico (IIQ).
(c) Entre o primeiro e o segundo quartis há 50% dos dados da amostra.
(d) Se houver valores discrepantes (outliers), estes estarão localizadas dentro da caixa.
(e) No limite superior da “caixa” há 50% dos dados da amostral.
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 74
Correlação e Regressão Linear
11) Estudo sobre marketing digital: O Instagram® é a rede social que mais cresce no mundo, pois além de
tudo é uma ótima estratégia de marketing digital na divulgação de uma marca e também no engajamento com
potenciais clientes. A rede só permite que o usuário utilize até 30 hashtags (#) por postagens, para captação de
possíveis clientes. Assim, suponha que um determinado usuário fez postagem de divulgação do seu negócio
de produção de bolos caseiros no seu perfil comercial durante 10 dias seguidos e utilizou para cada dia uma
quantidade diferente de hashtags, conforme vista no Quadro abaixo:
Quantidade de
hashtags
Vendas fechadas
(R$)
30 430
18 335
25 520
26 490
27 470
10 210
8 195
17 270
15 400
25 480
Assim, através dos dados:
a) Faça o gráfico de dispersão e tire as conclusões preliminares
b) Calcule o Coeficiente de Correlação de Pearson
c) Através do Método de Regressão Linear, encontre a equação de previsão.
d) Faça uma previsão de vendas se a quantidade de hashtags no próximo post que ele fizer for de:
d1) 30 hashtags (o limite máximo)
d2) 25 hashtags
d3) 20 hashtags
e) Essas previsões têm uma confiança de quantos porcentos?
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 75
12) Estudo sobre a produção industrial: Uma determinada produtora de cimentos localizada no município
do Pecém, interior do Ceará, levantou os seguintes dados referente a venda de saco de cimentos de 50kg
durante os primeiros 7 dias úteis de um determinado mês.
Dia 1 2 3 4 5 6 7
Quantidade de cimentos vendidos (sacos) 180 188 190 198 200 208 213
a) Fazer o diagrama de dispersão;
b) Calcular o Coeficiente de Correlação de Pearson (Rxy);
c) Calcular a reta de regressão estimada (y = a + bx);
d) Se a quantidade vendida seguir a mesma tendência dos 7 dias analisados, faça uma previsão da produção
de sacos de cimentos para o 8º, 9º e 10º dia;
e) Se a meta da indústria analisada é de vender 270 sacos de cimentos por dia, em que dia eles conseguirão
isso?
f) Encontre o Coeficiente de Determinação (R²) e interprete.
Probabilidade
13) Em um canteiro de obras há 375 quadrantes de 1 metro quadrado, que foi definido por um engenheiro
civil, numerados consecutivamente de 1 a 375 para realizar um estudo do solo por amostragem. Escolhe-se
por sorteio um quadrante desse canteiro para estudo de suas características, a probabilidade de se obter um
quadrante numerado com um número múltiplo de 15 é?
Gabarito: 6,67%
14) Suponha que o professor falou o seguinte na última aula de Estatística: “Alunos, estudem todo o assunto
que foi visto durante todo o semestre que se encontra nas Notas de Aulas de Estatística, pois na próxima aula
farei um sorteio de um aluno e abrirei aleatoriamente a nota de aula. Assim, na página em que eu abrir o aluno
sorteado deverá fazer no quadro para toda a turma um exercício que estiver na página sorteada, sendo que se
a página tiver mais de um exercício, será feito o primeiro exercício que há nela”. Suponha ainda que a nota de
aula é composta por 240 páginas, e o aluno verificou que os assuntos que ele mais domina estão entre as
páginas 80 e 120, excluindo estas duas. Diante disso qual é a probabilidade de quando o professor abrir a nota
de aula ele abra entre estas páginas, e ele resolva com tranquilidade e receba a pontuação que será
proporcionada pela atividade?
15) Dentre os números formados por três algarismos, qual é a probabilidade de encontrarmos um número
maior que 930? Gabarito: 7,67%
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 76
16) Um estádio de futebol será reformado para receber um grande jogo clássico durante o mês de dezembro
de 2019. O estádio é composto por 25.000 lugares numerados de 1 a 25.000. Qual a probabilidade de escolher
um lugar numerado com um número múltiplo de 14 para começar a pintura por eles?
Gabarito: 7,14%
17) Escolhe-se ao acaso dois números naturais (*) distintos de 1 a 100. Qual a probabilidade de que o
produto dos números escolhidos seja ímpar?
Gabarito: 24,75%
18) Numa urna há 6 bolas azuis numeradas de 1 a 6 e cinco bolas vermelhas numeradas de 1 a 5. Extraindo
ao acaso uma bola, qual a probabilidade de sair uma bola azul ou com número ímpar?
Gabarito: 81,8%
19) Em uma locadora de carro, de cada 100 veículos 30 são de 4 portas e 20 têm motor a gasolina. Se de cada
100 veículos, 5 são a gasolina e têm 4 portas, qual a probabilidade de carros na locadora que não são a
gasolina e nem tem 4 portas?
Gabarito: 55%
Distribuição Normal de Probabilidade:
20) Estudo de investimento financeiro: O saldo diário de caixa de uma determinada indústria química
segueuma distribuição normal com média R$ 80.000 e desvio padrão R$ 40.000. Suponha que o químico
responsável por um dos mais importantes setores desta indústria sugeriu ao gerente financeiro que comprem
um conjunto de maquinário novo para que a formulação de um determinado composto químico seja mais
eficaz do que se produz atualmente. Desta forma, o gerente financeiro deseja tomar a decisão de
investimento com seu banco e precisa com urgência saber qual a probabilidade do saldo do caixa de hoje às
18 horas fechar entre R$ 30.000 e R$ 120.000, pois de acordo o Diretor Geral da empresa se o caixa de hoje
fechar com valores dentro desse intervalo, o gerente financeiro pode arriscar a fazer o investimento de
maquinário, mas isso só pode ser realizado se a probabilidade for alta (de acordo o Diretor Geral é acima de
70%). Portanto verifique para o gerente financeiro se ele pode ou não fazer o investimento.
21) Estudo para engenharia de tráfego: O tráfego aéreo (número de aterrissagens e decolagens) no
Aeroporto Internacional de Fortaleza durante a “hora de pico” é uma variável aleatória normal com média de
80 aviões por hora e desvio padrão de 10 aviões por hora. Se a capacidade atual de tráfego aéreo no aeroporto
é de 90 aviões por hora, qual é a probabilidade de ocorrer congestionamento do tráfego aéreo?
Gabarito: 15,87%
mailto:kleison.freitas@professores.unifanor.edu.br
Notas de Aula Estatística Professor Ms. Kleison Freitas – kleison.freitas@professores.unifanor.edu.br Página 77
22) Estudo para avaliar a inteligência humana: O Quociente de Inteligência (QI) é uma medida
padronizada obtida por meio de testes desenvolvidos para avaliar as capacidades cognitivas (inteligência) de
um sujeito. De acordo o matemático Lewis Madison Terman (1916), esta variável é considerada normal se o
indivíduo analisado apresentar em média 100 unidades de QI e desvio padrão de 15 unidades. Suponha que
uma universidade americana irá selecionar estudantes desta faculdade para conceder a estes uma bolsa de
estudos com tudo pago, para estudar no seu campus em San Francisco, na Califórnia, por um ano, mas só
admite pessoas com inteligência acima da média (entre 110 – 120). Portanto, calcule a probabilidade de
alunos escolhidos aleatoriamente nesta faculdade ganhar esta oportunidade.
Gabarito: 15,97%
23) Estudo para descobrir possíveis fraudes: Uma aplicação clássica da distribuição normal é inspirada em
uma carta de uma esposa americana ao seu marido também americano, em que ela alegava ter dado à luz 308
dias após uma rápida visita de seu marido que estava servindo na Marinha no Havaí. Segundo informações
médicas, os prazos da gravidez têm distribuição normal com média de 268 dias e desvio padrão de 15 dias.
Assim, com base nessa informação determine a probabilidade de uma gravidez durar 308 dias ou mais. O que
o resultado sugere?
mailto:kleison.freitas@professores.unifanor.edu.br