Prévia do material em texto
Universidade Politécnica
A POLITÉCNICA
Escola Superior Aberta
GUIA DE ESTUDO
ESTATÍSTICA APLICADA II
Curso de Gestão de Empresas
(4º Semestre)
Moçambique
FICHA TÉCNICA
Maputo, Julho de 2009
© Série de Guias de Estudo para o Curso de Gestão de
Empresas (Ensino a Distância).
Todos os direitos reservados à Universidade de
Uberaba/Universidade Politécnica
Título: Guia de Estudo de Estatística Inferencial
Edição: 1ª
Organização e Edição
Escola Superior Aberta (ESA)
Adaptação
Paulo Massinga (Conteúdo)
Benedito Marime (Revisão Textual)
UNIDADES TEMÁTICAS
UNIDADE TEMÁTICA 1 ............................................................................... 1
A importância da Inferência para decisões administrativas: intervalos de
confiança e testes de hipóteses ................................................................... 1
UNIDADE TEMÁTICA 2 ............................................................................. 45
Aplicações do teste Qui- Quadrado em tabelas de contingência .............. 45
UNIDADE TEMÁTICA 3 ............................................................................. 62
Correlação, regressão linear simples e múltipla ....................................... 62
CHAVE DE CORRECÇÃO DAS ACTIVIDADES ....................................... 92
UNIDADE TEMÁTICA 1 – A IMPORTÂNCIA DA INFERÊNCIA PARA
DECISÕES ADMINISTRATIVAS: INTERVALOS DE CONFIANÇA E
TESTES DE HIPÓTESES ...................................................................... 92
UNIDADE TEMÁTICA 2 – APLICAÇÕES DO TESTE QUI-QUADRADO
EM TABELAS DE CONTINGÊNCIA ...................................................... 93
UNIDADE TEMÁTICA 3 – APLICAÇÕES CORRELAÇÃO,
REGRESSÃO LINEAR SIMPLES E MÚLTIPLA .................................... 99
APRESENTAÇÃO
Caro(a) estudante
Está nas suas mãos o manual de estudo da disciplina de Estatística Aplicada
II que integra a grelha curricular do Curso de Gestão de Empresas oferecido
pela Universidade Politécnica, na modalidade de Educação a Distância.
Este guia tem por finalidade orientar os seus estudos individuais neste
primeiro semestre do curso. Ao estudar a disciplina de Estatística Aplicada II,
você irá aprender a testar diferentes populações, identificar se as variáveis
estão relacionadas e aprender a desenvolver modelos estatísticos.
Este Guia de Estudo contempla textos introdutórios para situar: o assunto que
será estudado; os objectivos específicos a serem alcançados, ao término de
cada unidade temática; a indicação de diversas actividades que favorecem a
compreensão dos textos lidos e a chave de correcção das actividades, que
lhe permite verificar se você está a compreender o que está a estudar. Vai,
também, encontrar no guia a indicação de leituras complementares, isto é,
indicações de outros textos, livros e materiais relacionados ao tema em
estudo, para ampliar as suas possibilidades de reflectir, investigar e dialogar
sobre aspectos do seu interesse. Finalmente, encontrará em anexo a este
guia três cadernos de actividades de avaliação à distância, que deverá
realizar à medida que for estudando as diversas unidades temáticas desta
disciplina e enviar para o secretariado da Escola para avaliação.
Esta é a nossa proposta para o estudo de cada disciplina deste curso. Ao
recebê-la, sinta-se como um actor que se apropria de um texto para
expressar a sua inteligência, sensibilidade e emoção, pois você é também o(a)
autor(a) no processo da sua formação em Gestão de Empresas. Os seus
estudos individuais, a partir destes guias, nos conduzirão a muitos diálogos e
a novos encontros.
A equipa de professores que se dedicou à elaboração, adaptação e
organização deste guia sente-se honrada em te-lo como interlocutor(a) em
constantes diálogos motivados por um interesse comum: a educação de
pessoas e a melhoria contínua da gestão de pessoas, base para o aumento
da produtividade e da qualidade no sector empresarial no país.
Seja muito bem-vindo(a) ao nosso convívio.
A Equipa da ESA
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 1
UNIDADE TEMÁTICA 1
A IMPORTÂNCIA DA INFERÊNCIA PARA DECISÕES
ADMINISTRATIVAS: INTERVALOS DE CONFIANÇA E TESTES
DE HIPÓTESES
Adaptado de Fernanda Karine Ruiz Colenghi
Objectivos
No final desta unidade você deverá ser capaz de:
• Compreender conceitos e ideias de estimação pontual e intervalar
para a média e proporção amostral, nas diferentes situações que
serão vistas.
• Calcular o tamanho da amostra necessário para atender
especificações fixadas, tais como margem de erro e grau de
confiança.
• Entender os fundamentos básicos para a tomada de decisões dos
diferentes cenários de testes de hipóteses.
• Tomar decisão em testes de hipóteses pelo critério do valor p.
• Aprender a realizar testes de hipótese para proporção populacional.
• Tomar decisões a partir de intervalos de confiança.
• Tomar conhecimento de como os softwares Excel e Minitab calculam
intervalos de confiança e realizam testes de hipóteses.
• Praticar os conhecimentos adquiridos no conteúdo estudado, através
da resolução de exercícios voltados à sua área de actuação.
Inferência: intervalos de confiança e testes de hipóteses
Introdução à estatística inferencial
A Estatística inferencial compreende as técnicas por meio das quais são
tomadas decisões sobre uma população estatística, decisões estas baseadas
unicamente na observação de uma amostra ou na elaboração de um juízo.
Devido ao facto de tais decisões serem tomadas em condições de incerteza,
requer-se, a estatística inferencial, e ao uso de conceitos de probabilidade, já
vistos anteriormente (Webster, 2007), para reduzir-se o grau de incerteza.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 2
Para ilustrar as ideias apresentadas neste manual, pense como um
Administrador ou um analista de marcas que precisa de estudar a proporção
de consumidores da marca de sabão em pó OMO, em Maputo.
Para tal, podemos:
• seleccionar uma amostra de donas de casa e perguntar-lhes sobre a
marca de sabão em pó que preferem.
• usar a proporção das que preferem o sabão OMO como uma
indicação para o valor da proporção em Maputo, como um todo.
De acordo com o Instituto Nacional de Estatística, o número de famílias
residentes em Maputo em 2006 era de 23.832. Considerando-se que exista
uma dona de casa em cada família, então o número de donas de casa em
Maputo é 23.832. Suponha que a amostra seleccionada de donas de casa
seja de 1.000 consumidoras. Podemos escolher as 1.000 numa praça central
da cidade, ou podemos escolher uma quantidade em cada um dos bairros da
cidade até completar 1.000 entrevistadas.
Uma forma simples de escolher é associar um número a cada uma das
23.832 famílias, colocar todos esses números numa lista e escolher
aleatoriamente 1000 números. As moradoras correspondentes aos números
sorteados formariam a amostra.
Suponha que realiza a escolha desta forma e um amigo seu repete o mesmo
procedimento. Acha que as amostras escolhidas por si e por seu amigo serão
as mesmas? É intuitivo assumir que não.
Se realizarmos várias vezes uma amostragem descrita, provavelmente
obteremos amostras compostas por consumidoras diferentes. A questão é:
apesar de diferentes, podemos ter respostas próximas ou iguais nas varias
amostras?
A resposta é afirmativa e está relacionada às ideias desenvolvidas a seguir.
Resumindo a discussão do parágrafo anterior, podemos dizer que devido à
natureza aleatória geralmente associado a amostragem, não podemos
garantir que repetições das amostras produzam sempre resultados idênticos.
Assim, ao colhermos uma amostra, não podemos prever antecipadamente o
seu resultado. Em outras palavras, todas as quantidadesassociadas à
amostra terão um carácter aleatório e, portanto, devem ter tratamento
probabilístico.
Nesta secção, vamos formalizar alguns conceitos relacionados à estimação,
com realce para a obtenção de informações a respeito de características de
interesse na população.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 3
Logo em seguida, a secção será dividida em duas partes: A e B, conforme
descrito, a seguir:
• na parte A, serão abordados os diferentes cenários de intervalo de
confiança para média, cálculo de tamanho de amostra e intervalo de
confiança para proporção;
• na parte B, os vários cenários de testes de hipóteses para a média e
proporção e outros critérios de decisão baseados em intervalos de
confiança e valor p .
Os exemplos das partes A e B estão voltados para áreas administrativas e
contabilísticas. Através deles, verá como a inferência estatística é uma
ferramenta útil para estimação e tomada de decisões. Em seguida, aprenderá
como se faz o intervalo de confiança e teste de hipóteses no Minitab e no
Excel. Por fim terá actividades e exercícios a resolver para cimentar os
conhecimentos aprendidos.
Considerações iniciais
Parâmetros, Estimadores e Estimativas
Para formalizar as ideias apresentadas nesta secção, precisamos de definir
parâmetros, estimadores e estimativas.
Parâmetro
Parâmetros são as quantidades de nosso interesse numa população e são
desconhecidas na maioria das aplicações. Podem ser representadas por
letras gregas, tais como θ , µ e ,σ entre outras. A média( µ ) e desvio
padrão (σ ) são os parâmetros do nosso interesse .
Estimador e estimativa
Geralmente são representados por símbolos gregos com um acento
circunflexo.
Estimativas pontuais são os valores numéricos assumidos pelos símbolos,
µ , σ que são as notações que vamos utilizar para a média e o desvio
populacionais. Como o estimador, por exemplo , é uma função das variáveis
aleatórias, a sua distribuição de probabilidade será a base de inferências
sobre os parâmetros da população. Para que entenda melhor, vamos rever
como se calcula a média e o desvio padrão,.
Considere uma amostra de tamanho n retirada de uma população N e
representada por um conjunto de variáveis aleatórias ( 1 2, ,..... nX X X ) . Os
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 4
parâmetros média, variância e proporção de certa da população são
representados por µ , σ e p, respectivamente. Os estimadores usuais são
média, variância e a proporção amostral, que sao representados,
respectivamente, por x , σ̂ e ρ̂ , temos:
1 2
1
...... nn i
i
x x x xx
n n=
+ +
= =∑
2 2
1
1ˆ ( )
n
i
i
x x
n
σ
=
= −∑
n mero de itens com caracter stica na amostraˆ ú íp
n
=
Cada um dos estimadores depende dos valores que estão na amostra
aleatória . Este tipo de estimação é ( 1 2, ,..... nX X X ) chamado de estimação
pontual.
Vários sao os critérios utilizados por estatísticos e matemáticos para
seleccionar estimadores apropriados para calcular, com base em dados da
amostra, os parâmetros populacionais. Uma das características mais
importantes de um estimador é que não seja viciado (não tendencioso).
Um estimador não viciado é uma estatística amostral cujo valor esperado é
igual ao parâmetro que está a ser estimado. Pode encontrar mais
explicações sobre o assunto no capitulo 7 Webster (2007)
Os estimadores x e p̂ têm boas propriedades e não são viciados, no entanto
é 2σ viciado, portanto não é adequado para estimação. Para eliminar esse
vício um estimador é definido como:
2 2
1
1 ( )
1
n
i
i
S x x
n =
= −
− ∑
2S é um estimador não viciado para estimar 2σ . Esse estimador recebe o
nome de variância amostral e será sempre denotado por 2S para distinguir
de outros estimadores denotados genericamente por 2σ .
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 5
Exemplo!
O número de faltas de funcionários de determinada empresa por ano foi
anotado para uma amostra de alguns funcionários escolhidos ao acaso.
Deseja-se saber qual é o número médio de faltas por funcionário em um ano.
Os dados obtidos são: 2, 2, 3, 1, 4, 5, 3, 4, 5, 6, 5, 3, 4, 3, 4, 2, 4, 3, 5, 2, 1, 6,
2, 3 e 4. A estimativa da média populacional é:
2 2 .......... 3 4 3,44
25
x + + + += =
Logo, o número médio de faltas por funcionário em cada ano é
aproximadamente 4.
A estimativa da variância amostral é:
2 2 2
2 (2 3,44) (2 3,44) ..... (4 3,44) 2,006
24
S − + − + + −= =
Antes de introduzirmos o conceito de intervalo de confiança vamos perceber
um conceito importante que é o Teorema Central do Limite.
Teorema Central do Limite
Suponha uma amostra aleatória simples de tamanho n é seleccionada de
uma população com média µ e variância 2σ (nota que o modelo da variável
aleatória não é especificado). Representando tal amostra por n variáveis
aleatórias independentes ( 1 2, ,..... nX X X ) e, representando a sua média por
x , temos que:
(0,1)
/
nx Z N
n
µ
σ
→∞− ⎯⎯⎯→
Em outras palavras, o teorema garante que, para um n grande, a distribuição
da média amostral, devidamente padronizada, comporta-se como um modelo
Normal com média 0 e variância 1. Se não se recorda muito bem, reveja o
material sobre distribuição normal da disciplina de Estatística Básica.
Pelo teorema, temos que quanto maior o tamanho da amostra, melhor é a
aproximação. Estudos de simulações mostram que, em muitos casos, os
valores de n próximos de 30 fornecem aproximações boas para situações
práticas.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 6
Uma aplicação importante está associada com a distribuição da proporção
amostral ˆ( )p . Lembra-se que definimos a proporção amostral como a
fracção de indivíduos com uma dada característica em uma amostra de
tamanho n. Se construirmos para o i-ésimo indivíduo uma variável aleatória
iY tal que:
podemos, então, escrever a proporção amostral como:
1
1
......ˆ
n
n n i
i
Y Y Y Yp Y
n n=
+ + +
= = =∑
A proporção amostral é a média de variáveis aleatórias convenientemente
definidas. Assumindo que a proporção de indivíduos com a característica na
população é p e que os indivíduos são seleccionados aleatoriamente, temos
que 1........., nY Y formam uma sequência de variáveis aleatórias do modelo
Bernoulli (visto no manual de Estatística Básica). Assim, a média e a variância
do modelo Bernoulli são dadas por p e (1 ) /p p n− , respectivamente. A partir
do Teorema Central do Limite, temos que:
ˆ
(0,1)
(1 )/
np p N
p p n
→∞− ⎯⎯⎯→
−
Vejamos, agora, a parte A, onde vai estudar a estimação intervalar, para
diversos casos. Logo em seguida, na parte B, irá aprender os vários cenários
de testes de hipóteses para média e proporção.
Parte A: Estimação por Intervalo
Os estimadores vistos até ao momento são pontuais, pois fornecem uma
estimativa numérica para o parâmetro de interesse. O método que a seguir
vamos estudar é denominado de estimação intervalar e inclui a estimativa
pontual e informações a respeito da sua variabilidade.
Examinaremos, a seguir, seguintes casos:
• 2σ conhecida;
• 2σ desconhecida e amostra grande;
• 2σ desconhecida e amostra pequena.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 7
1º Caso: 2σ conhecida
Quando a variância populacional 2σ é conhecida, e examina-se uma amostra
de tamanho n , vimos anteriormente que a média amostral tem uma
distribuição normal com a mesma média µ e variância 2σ / n . Para um valor
fixado, tal que 0 < α < 1 , podemos obter um valor zα/2 tal que:
/2 /2 /2( ) ( )P Z z P z z z aα α α< = − < < =
Recorde-se que no curso de EstatísticaBásica consideramos que a
distribuição Normal é simétrica; portanto, a área α deve ser igualmente
distribuída em torno de 0. Veja, na figura, a seguir:
(1-α ) é o coeficiente de confiança, e zα/2 é o valor de z que fornece uma área
de α/2 na extremidade superior a distribuição normal padrão; assim, temos o
intervalo:
/2 /2 /2 /2
Xz z X z X z
n n nα α α α
µ σ σµ
σ
−
− < < ⇒ − < < +
Assim o intervalo de confiança para µ, como o coeficiente de confiança 1-α é
dado por:
/2 /2( ,1 ) [ ; ]IC X z X zn nα α
σ σµ α− = − +
Interpretação do intervalo de confiança
Se tivermos várias amostras do mesmo tamanho, e para cada uma
calcularmos os correspondentes intervalos de confiança e o coeficiente de
confiança 1-α , esperamos que a proporção de intervalos que contenham o
valor de µ seja igual a 1- α .
Outro conceito importante é o do erro de estimação, o qual é fundamentado a
partir do intervalo de confiança e é dado por:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 8
/2E z nα
σ
=
A fórmula do erro, ou também chamada margem de erro, revela que há,
efectivamente, três determinantes do tamanho ou quantidade do erro:
• a confiança desejada, representada pelo valor de zα/2 ;
• a dispersão na população σ, ;
• o tamanho da amostra n .
Os factores no numerador têm um efeito directo no erro, ou seja, quanto
maior o coeficiente de confiança ou a dispersão da população, maior o erro. O
tamanho da amostra apresenta o efeito inverso na margem de erro, quanto
maior a amostra menor o erro.
Calcula-se o valor de zα/2 usando a Tabela Normal padronizada, que se
encontra no fim desta secção.
Observe que p (0 ≤ z ≤ 1,64)=0,45 , logo p (z>1,64)=0.05 ,pois p (-∞ ≤ z ≤ ∞ )
= 1e por simetria da distribuição p (z ≤0) = p (z ≥0)=0.5. A partir do valor de
z0.05 = 1,64 constrói-se um intervalo de 90% de confiança (α= 0,1).
Veja, a seguir, alguns exemplos.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 9
Exemplo 1
Um consultor obtêm uma amostra aleatória de tamanho n =16 de um conjunto
de contas a pagar. Sabe-se que o desvio padrão das contas a pagar é 57,00
Mt. A partir da amostra, observou-se que a média amostral foi x =250,00 Mt.
Construa um intervalo de 95% para o valor médio de crédito que o consultor
virá a pagar por cada conta.
IC (µ, 95%) = [ 250-zα/2
57
16
; 250 + 250-zα/2
57
16
] ⇒ [250-1,96
57
16
; 250
+1,96
57
16
]
Pela Tabela de distribuição Normal padronizada, ve-se que z0.025 = 1,96, pois
p (0 ≤z≤1,96) = 0.475 , logo p (z ≥1,96) = 0.025. Assim, o intervalo de
confiança para o valor médio do valor que o consultor irá pagar, com 95% de
confiança é [ 222,07;277,93].
2º Caso: 2σ desconhecida e amostra grande (n ≥ 30)
Na maioria das aplicações, a variância populacional (σ2) é desconhecida.
Quando isso acontece, o estimador não viciado 2S , pode ser usado para
estimar σ2. Nos casos em que a amostra é grande, n ≥ 30, , o teorema
central do limite fornece uma boa aproximação para a distribuição da média
amostral. Assim, o intervalo de confiança de (1-α) %, é representado da
forma:
/2 /2( ,1 ) [ ; ]IC X z X zn nα α
σ σµ α− = − +
Tal que 2S S= . Portanto, a construção do intervalo de confiança é
semelhante à que foi feita no 1º caso: a única diferença é que no lugar de σ ,
usasse o desvio padrão amostral S .
Exemplo 2
Para ilustrar essa situação, consideremos o seguinte exemplo: foi um estudo
de amostragem pela EMOSE . Suponha que, como parte de uma revisão
anual das apólices de seguro de vida, a EMOSE selecciona uma amostra
aleatória simples de 36 apólices de seguro de vida. As correspondentes
apólices de seguro de vida são revistas em termos de garantia de cobertura.
Para o estudo, um gerente solicitou uma estimativa do intervalo de confiança
de 90% da idade média para a população dos proprietários da apólice de
seguro de vida. A idade média da amostra é x = 39 anos. O desvio padrão
da amostra é S =7,77 . O valor de z0.025 é 1,645. Portanto, o intervalo de 90%
é dado por:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 10
[ 39,5 – 1,645
7,77
36
; 39,5 + 1,645
7,77
36
] ⇒ [39,5 -2,13;39,5 +2,13]
A margem de erro é 2,13 e a estimativa do intervalo de 90% da idade média
da população de proprietários de apólices de seguros é de 37,37 a 41,63.
3º Caso: 2σ desconhecida e amostra pequena (n < 30)
Se tivermos uma amostra pequena (n < 30) e quisermos construir um
intervalo de confiança, mas não conhecermos σ2 , podemos utilizar a
distribuição de t-Student, ou simplesmente, distribuição t. Esta é utilizada para
determinar valores críticos representados por tα/2 . Na tabela da distribuição t,
pode observar que nas linhas aparece o número de graus de liberdade, que é
dado por n-1 . Os graus de liberdade, ou gl, correspondem ao número de
valores que podem variar após terem sido impostas certas restrições a todos
os valores.
Algumas propriedades interessantes da distribuição t-Student
• é diferente conforme o tamanho da amostra, ou seja, ela
varia de acordo com graus de liberdade;
• apresenta a mesma forma geral simétrica (forma de sino) que a
distribuição Normal, mas com maior variabilidade, o que é esperado
em amostras pequenas, logo P(t ≥ 0) = 0.5 e P(t≤ 0) = 0.5;
• o desvio padrão da distribuição t varia com o tamanho da amostra,
mas é superior a 1;
• à medida em que aumenta o tamanho da amostra, a distribuição t
aproxima-se mais e mais da distribuição normal padronizada.
Observe na figura a seguir, que a medida em que se aumenta o número de
graus de liberdade, representado por “v ”, a distribuição t , assemelha-se mais
com a distribuição Normal padrão, também representada por N (0,1).
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 11
Podemos, agora, determinar os valores da a margem de erro e construir
intervalos de confiança:
/2, 1n
SE t
nα −
= tal que /2, 1ntα − é o valor de t que fornece a área de α/2 na
extremidade superior da distribuição t com n-1 graus de liberdade.
E o intervalo de (1-α)% de confiança é dado por
/2, 1 /2, 1n n
S SX E X E X t X t
n nα α
µ µ− −− < < + ⇒ − < < +
Ou o intervalo de confiança para µ, com coeficiente de confiança 1-α, pode
ser expresso por
/2, 1 /2, 1( ,1 ) [ ; ]n n
S SIC X t X z
n nα α
µ α − −− = − +
Exemplo 3
Voltando ao exemplo do número de faltas de funcionários os valores
estimados de X e S2 foram respectivamente 3,44 e 2,006, sendo
2 2,006 1,4163S S= = = . Um intervalo de 95% de confiança para o
número médio de faltas por funcionário será:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 12
Primeiro, vamos calcular t0,0025,24 , uma vez que a amostra tem tamanho n =
25 . Pela tabela da distribuição t, o valor crítico que deixa área de 2,5% acima
da curva, com 24 graus de liberdade é t0,0025,24 = 2,064. Veja que a tabela
anterior é uma parte da tabela t. Assim o intervalo de 95% de confiança para
a média é:
1,4163( ,95%) [3,44 2,064 ] [3,44 0.585] [2,855;4,025]
25
IC µ = − ⇒ ± ⇒
E a margem de erro é dada por 0,585.
Determinação do tamanho da amostra
Suponha que os dados ainda não foram colectados. Como sabemos quantos
elementos da população devem ser escolhidos? Suponha, por exemplo, que
queiramos estimar o salário médio de professores do ensino público do 1º
grau em Maputo. Quantos salários devemos incluir na nossa amostra?
O calculo do tamanho da amostra é um problema importante, porque
amostras desnecessariamente grandes acarretam desperdício de tempo e de
dinheiro; e amostras demasiadamente pequenas podem levar a resultados
não-confiáveis. Em muitos casos é possível determinar o tamanhomínimo de
uma amostra para estimar um determinado parâmetro. A fórmula para
determinar o tamanho da amostra é dada por:
2/2[ ]zn
E
α σ=
O tamanho da amostra deve ser um número inteiro; quando o resultado não é
inteiro, como regra, deve-se arredondar para o próximo numero.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 13
Com esta fórmula, pode-se determinar o tamanho da amostra necessária
para dar resultados precisos, com um grau de confiança e uma margem de
erro pré determinados. A fórmula deve ser usada quando conhecemos o valor
da σ e queremos determinar o tamanho da amostra necessário para
estabelecer, um nível de confiança de 1-α , e o valor de µ a menor que ±E. A
existência desta fórmula implica que o tamanho da amostra não depende do
tamanho da população.
Exemplo 4
Um consultor deseja calcular o salário médio para o primeiro ano de trabalho
de um bacharel recém formado do curso de Administração. Quantos valores
do salário devem ser obtidos, se o consultor deseja ter 95% de confiança em
que a média amostral esteja a menos de 3000,00 MT da verdadeira média
populacional? Suponha que sabemos através de um estudo anterior, que,
para estes salários, σ = 2050,00 Mt.
Queremos determinar n, dado que α = 0.05, E = 300, σ = 2050 . Aplicando a
fórmula:
n = 2
1,96.2050[ ] 179,38 180
300
= ≅
Portanto, devemos obter uma amostra de, pelo menos, 180 salários do
primeiro ano, seleccionados aleatoriamente. Com tal amostra, teremos 95%
de confiança em que a média amostral X difere em menos de 3000,00 MT
da média populacional µ.
Estimação da proporção populacional
Vimos, no início desta secção, que o melhor estimador para a proporção é p̂
(Webster,2007). O raciocínio para a construção do intervalo de confiança da
proporção é semelhante ao da média. O estimador usado para o desvio da
proporção é dado por:
ˆ ˆ(1 )p pσ = −
Portanto, a margem de erro para a proporção populacional e o intervalo de
confiança são dados, respectivamente, por:
/2 /2
ˆ ˆ ˆ ˆ(1 ) (1 )ˆ ˆ; ( ;(1 )%) [ ]p p p pE z IC p p z
n nα α
α− −= − = ±
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 14
Este é um intervalo de confiança de (1 )%α− . Recorde-se de como se
encontra o nível crítico /2zα , que precisamos na construção do intervalo.
Exemplo 5
Com o intuito de melhorar a qualidade dos serviços de um hospital, a
administração fez uma pesquisa para avaliar a satisfação dos funcionários.
Como o quadro era muito grande e fazer uma entrevista a cada funcionário
leva muito tempo e dinheiro, uma amostra aleatória de 2 funcionários por
sector foi extraída, totalizando 36 entrevistados. A última pergunta do
questionário era saber se o funcionário estava satisfeito com o emprego ou
não. Para não prejudicar o funcionário, o sigilo foi mantido de forma que o
entrevistado não pudesse ser identificado. Dos 36 inquiridos, 23 afirmaram
que estavam satisfeitos com o emprego. Dê uma estimativa de 95% de
confiança da proporção da satisfação dos funcionários do hospital.
A estimativa pontual de p é:
23ˆ
36
p = = 0.6389 ≈ 0.64
O intervalo de 95% de confiança é dado por:
0,64(1 0,64)[0,64 1,96 ] [0,64 0,157] [0, 483;0797]
36
−
± ⇒ ± ⇒
Com 95% de confiança, podemos dizer que a proporção de funcionários
satisfeitos está entre 0,483 e 0,797.
Determinação do tamanho da amostra
No caso de proporção populacional, o calculo do tamanho da amostra é feito
de forma similar à que foi feita para a média.
A partir da equação do erro dada acima, estima-se em função de :
2
/2
2
ˆ ˆ( ) (1 )z p pn
E
α −=
A proporção utilizada pode ser escolhida:
• a partir de um estudo piloto, calcula-se a proporção amostral
ˆ( )p p AB=
uuur
;
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 15
• usa-se p̂ =0.5, pois este é o valor que maximiza a variância de p ;
• usa-se o julgamento de especialista da área, que decide qual é o valor
mais provável de p ;
• usa-se a proporção da amostra, a partir de unidade similar.
Quando n não for inteiro, arredonda-se
Exemplo 6
A Entreposto deseja saber a proporção de clientes que fazem a revisão
mecânica nos seus mecânicos autorizados. O seu conselho directivo decide
que o estudo deve ter uma margem de erro de três pontos percentuais, a
percentagem de clientes que consultam os mecânicos quando apresentam
problemas mecânicos ou por cause de um outro serviço. Supondo que se
pretende um nível de confiança de 95% nos resultados, quantos motoristas
devem fazer parte da amostra?
a) Suponha que tenhamos uma estimativa p̂ com base num estudo anterior,
que mostrou que 18% dos motoristas consultavam os mecânicos.
b) Suponha que não tenhamos qualquer informação que possa sugerira um
valor de p .
Solução:
a) p̂ ao nível de 95% de confiança, α = 0,05 e zα/2 =1,96 .
A margem de erro é de três pontos percentuais, logo E = 0.03 :
2
2
1,96 (0,18)(0,82) 630,0224 631
0.03
n = = ≈
Devemos entrevistar pelo menos 631 motoristas seleccionados
aleatoriamente.
b) Similar a parte (a), utilizamos zα/2 =1,96 e E= 0.03 , mas sem qualquer
conhecimento prévio de p, temos que utilizar o valor que maximiza a
variância.
2 2
2
1,96 (0,5) 1067,1111 1068
0.03
n = = ≈
Para termos 95% de confiança de que nossa amostra está a menos de três
pontos percentuais da verdadeira percentagem de todos os clientes, devemos
fazer uma selecção aleatória e entrevistar 1068 motoristas. Comparando este
resultado com a amostra de 631 obtido na parte (a), podemos ver que, na
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 16
ausência de um estudo prévio, é necessária uma amostra maior para
obtermos os mesmos resultados que obteríamos se pudéssemos estimar o
valor de p.
Parte B: teste de hipóteses
Nesta parte do roteiro, estudaremos os testes de hipóteses (ou afirmações)
sobre parâmetros de uma população. Vejamos, inicialmente, três exemplos
de aplicação.
Exemplo 1
Uma indústria farmacêutica deseja testar um novo medicamento no combate
à dor de cabeça. A ideia é verificar se o novo medicamento, Sem dor, é mais
rápido para actuação no organismo de uma pessoa do que os analgésicos
comuns. Sabe-se que o tempo de alívio de dor dos últimos é 15 minutos.
Logo, a indústria deseja testar se o medicamento sem dor age no organismo
em menos de 15 minutos. Admite-se que o tempo de alívio do medicamento
no organismo segue uma distribuição normal.
Exemplo 2
O gerente de um hotel estabeleceu que a quantia média gasta por hóspedes
em um fim de semana é de 500,00 MT, ou menos. Um funcionário do sector
de contabilidade observou que as despesas totais dos hóspedes têm
aumentado nos últimos meses. O contabilista do hotel irá verificar se essa
afirmação é verdadeira ou não. Admite-se que o gasto dos hóspedes segue
uma distribuição normal.
Exemplo 3
A TDM afirma que o consumo mensal de ligações a longa distância foi 3
horas e 35 minutos por residência no último ano. Deseja-se avaliar se o
consumo por residência deste ano é o mesmo. Admitimos que o consumo
mensal de ligações a longa distância segue uma distribuição normal.
Existem testes de hipóteses para média e para proporção de uma população.
Uma suposição que precisa de ser feita é que os dados da população provêm
de uma distribuição normal onde a média ou proporção são desconhecidos e
a variância pode ser conhecida ou não. Vamos, agora, definir as
componentes de um teste de hipóteses:
A hipótese nula (denotada por Ho): é uma afirmação sobre o valor de um
parâmetro populacional (como a média ou proporção). Ela deve conter a
condição de igualdade e escrever como = ≤ ou ≥ . (Ao fazermos,
efectivamente, o teste, trabalhamos com a hipótese de que oparâmetro é
igual a um valor especificado.) Para a média, temos as três formas possíveis
para a hipótese nula:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 17
Ho:µ = algum valor;
Ho:µ ≥ algum valor;
Ho:µ ≤ algum valor.
a hipótese alternativa (denotada por Ha): é uma afirmação que complementa
(parte que não está em Ho) a hipótese nula. Esta pode ser descrita em uma
das três formas:
Ha:µ ≠ algum valor;
Ha:µ < algum valor;
Ha:µ > algum valor.
Nota sobre a indicação das suas hipóteses (Webster, 2007):
Se está a fazer uma pesquisa e deseja usar um teste de hipótese para
sustentar a sua afirmação, esta deve ser formulada de maneira que se torne
em hipótese alternativa, e não pode conter a condição de igualdade.
Para exemplo 1:
a hipótese nula é Ho: µ ≥ 15 minutos;
a alternativa é Ha: µ < 15 minutos.
Para exemplo 2:
a hipótese nula é Ho:µ ≤ 500,00 MT;
a alternativa é Ha:µ : > 500,00 MT.
Para exemplo 3:
a hipótese nula é Ho:µ =215 minutos (3 horas e 35 minutos);
a alternativa é Ha:µ ≠ : 215 minutos
Ao testarmos as hipóteses, podemos tomar duas decisões: rejeitar Ho ou
aceitar Ho. Estas podem estar correctas ou incorrectas, mesmo quando se faz
o do teste correctamente.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 18
Quando a decisão é incorrecta, dois tipos erros são podem acontecer:
1. erro tipo I: consiste em rejeitar a hipótese nula quando ela é
verdadeira
• no exemplo 1, seria dizer que o tempo de reacção do
medicamento Sem dor é menor que 15 minutos, quando, na
verdade, é igual ou superior a 15 minutos;
• no exemplo 2, seria dizer que o consumo dos hóspedes é
superior a 500,00 MT quando na verdade é igual ou inferior a
500,00 MT
• no exemplo 3, seria dizer que o consumo mensal de ligações
por residência é diferente de 3 horas e 35 minutos, quando, na
verdade, esse consumo é igual a 3 horas e 35 minutos.
A probabilidade de rejeitar Ho, quando ela é verdadeira, é chamada de nível
de significância (denotada por α ) e geralmente é determinada antes de se
realizar o teste.
2. erro tipo II: consiste em não rejeitar a hipótese nula quando ela é
falsa.
• no exemplo 1, seria dizer que o tempo de relação do novo
medicamento é igual ou superior a 15 minutos, quando na
verdade é inferior a 15 minutos;
• no exemplo 2, seria dizer que o consumo dos hóspedes é igual
ou inferior a 500,00 MT, quando, na verdade, é superior a
500,00 MT;
• no exemplo 3, seria dizer que o consumo mensal de ligações
por residência é igual a 3 horas e 35 minutos, quando, na
verdade ,é diferente de 3 horas e 35 minutos.
A probabilidade de não rejeitar Ho , quando ela é falsa, é representada pelo
símbolo β.
Observação: No teste de hipóteses, devemos escolher a probabilidade do
erro tipo I (α) , mas não seleccionamos a probabilidade do erro tipo II β . O
ideal seria se α =β=0 , mas isso não é possível; devemos controlar as
probabilidades de erro α e β. Pode-se mostrar, matematicamente, que , α, β e
o tamanho da amostra n estão todos interrelacionados, de forma que,
escolhidos quaisquer dois deles, o terceiro está automaticamente
determinado. Na prática, o comum é determinar os valores de α e n, de modo
que o valor de fica β determinado.
Além das definições anteriores, existem outras componentes que precisam de
ser definidas:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 19
estatística de teste: é um valor baseado nos dados amostrais para
tomar uma decisão sobre a rejeição da hipótese nula. No caso de teste para
média, ela é ( a decisão) formada pela média amostral e pelo desvio padrão.
Veremos, mais a frente, como se constrói a estatística de teste;
a região critica: é o conjunto de todos os valores da estatística de
teste que levam à rejeição da hipótese nula;
o valor crítico: é o valor, ou valores que separa(m) a região crítica
dos valores da estatística de teste que não levam à rejeição da hipótese nula.
Os valores críticos dependem da natureza da hipótese nula, da distribuição
amostral, e do nível de significância α .
Estatística de teste
A estatística de teste, é utilizada no teste de hipóteses, e é construída a partir
do Teorema Central do Limite. Para a média, é dada por:
0Xz
n
µ
σ
−
= , considerando que o valor de µ0 é o valor extremo dado pela
hipótese nula.
Também, podemos definir a estatística de teste para a proporção:
0
0 0
ˆ
(1 )
p pz
p p
n
−
=
−
, sendo que 0p é o valor extremo fornecido pela hipótese
nula.
Mais adiante, você entenderá melhor como se faz o teste para proporção.
Vamos concentrar-nos, primeiro no teste para a média.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 20
Tipos de testes: bilateral ou unilateral
As caudas de uma distribuição são as regiões extremas delimitadas pelos
valores críticos. A partir de H0, dá para saber qual é o tipo de teste. A cauda
corresponde à região crítica que contém os valores que rejeitam a H0. A
figura, a seguir, ilustra como se verificam os tipos de testes. No exemplo 1, o
teste é unilateral (esquerdo). No exemplo 2, o teste é unilateral (direito). No
exemplo 3,o teste é (bilateral). As expressões unilateral e bilateral, em alguns
livros, são denominadas unicaudal e bicaudal.
Observação: Quando o teste é unilateral, as hipóteses são definidas como:
• Ho : µ ≤ µ0 contra Ha : µ > µ0 para o teste unilateral direito ou
• Ho : µ ≥ µ0 contra Ha : µ < µ0
Contudo, alguns autores usam as mesmas hipóteses definidas de forma
diferente:
• Ho:µ = µ0 contra Ha : µ > µ0 para o teste unilateral direito ou
• Ho:µ = µ0 contra Ha : µ < µ0
A diferença está no sinal de igualdade para a hipótese nula no teste unilateral,
mas essa diferença de notação não altera a construção do teste.
Exemplo 4
Uma organização de defesa do consumidor afirma que os consumidores dos
postos de gasolina da Petromoc estão a ser prejudicados em virtude da
seguinte condição: quando o marcador indica 1litro, a quantidade média de
combustível fornecida é realmente inferior a 1 litro.
a) Expresse, de forma simbólica, a afirmação de que os postos da Petromoc
estão a prejudicar os consumidores.
A afirmação de que os consumidores estão a ser prejudicados é equivalente a
afirmar que a média é inferior a 1 litro, o que, em forma simbólica, expressa-
se como
µ < 1 litro.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 21
b) Identifique a hipótese nula Ha.
A afirmação original µ < 1 litro não contém a igualdade, conforme exigido pela
hipótese nula. A afirmação original é a hipótese alternativa; e a hipótese nula
é H0 µ ≥ 1.
c) Identifique a hipótese alternativa Ha .
A hipótese alternativa é Ha: µ < 1.
d) Identifique este teste como bilateral, unilateral direito ou unilateral
esquerdo.
Este teste é unilateral esquerdo, porque a hipótese nula é rejeitada se a
média amostral é significativamente inferior a 1 (está à esquerda de 1).
(Como uma dupla verificação, note que a hipótese alternativa µ < 1 contém o
sinal <, que aponta para a esquerda.)
e) Identifique o erro tipo I para este teste.
O erro tipo I (rejeição de uma hipótese nula verdadeira) consiste em rejeitar
H0 :µ ≥ 1 quando a média populacional é realmente igual ou superior a 1.
Trata-se de um erro sério, porque os postos da Petromoc serão acusados de
prejudicar os consumidores quando, na realidade, não há tal prejuízo.
f) Identifique o erro tipo II para este teste.
O erro tipo II (não rejeitar a hipótese nula falsa) consiste em não rejeitar H0 :µ
≥ 1 litro, quando a média populacional é realmente inferior a 1. Isto é,
concluímos que não há evidência suficientepara comprovar o prejuízo,
quando esse prejuízo está ocorrer.
Suponha que a conclusão seria rejeitar a hipótese nula. Enuncie a conclusão
em termos não-técnicos; lembre-se que deve lidar com a afirmação original.
Concluir que há evidências suficientes para apoiar a afirmação de que a
quantidade média de combustível fornecida é inferior a 1 litro.
g) Suponha que a conclusão seja não rejeitar a hipótese nula. Enuncie a
conclusão em termos não-técnicos; lembre-se que deve lidar com a
afirmação original; certifique-se.
Concluir que não há evidência suficiente para apoiar a afirmação de que a
quantidade média de combustível fornecida é inferior a 1 litro. Para
realizarmos os testes, temos que levar em consideração o tipo de teste
(bilateral ou unilateral), e se a variância dos dados é conhecida ou não. Se
esta for desconhecida, devemos observar se a amostra é grande (n > 30) ou
não. Isto é importante, porque a partir dessa análise é que as estatísticas de
teste e a região crítica são construídas.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 22
Vamos estudar todos os quatro casos:
Caso 1: Teste unilateral para 2σ conhecida ou amostra grande (n>30)
Quando se realiza um teste unilateral, a hipótese alternativa é Ha : µ < µ0
(valor especificado por H0) ou Ha: µ > µ0 , no caso dos testes unilaterais
esquerdo e direito, respectivamente. A partir de uma amostra dos dados,
calcula-se a estatística X . No caso em que a variância é conhecida, a
estatística de teste será:
0Xz
n
µ
σ
−
=
No caso em que a variância é desconhecida, mas a amostra é grande (n >
30) , utiliza-se o valor de S dos dados como uma estimativa de σ . Portanto,
a estatística de teste será:
0Xz
S n
µ−
=
Exemplo 5
O dono de um grande supermercado afirma que o gasto mensal de seu
estabelecimento com energia eléctrica é 40000 kW/h. O consultor contratado
pelo supermercado deseja avaliar se esta afirmação é verdadeira. após 36
dados referentes ao consumo dos meses anteriores terem sido colhidos, ele
observa que: X =420000 kW/h e S = 3500 kW/h. O teste será realizado
tendo em conta que a probabilidade do erro tipo I é 0,05. Suponha que o
consumo de energia do supermercado segue uma distribuição normal.
Hipóteses:
H0: µ = 40000 e Ha: µ ≠ 40000
Estatística de Teste:
Pelas observações, temos:
420000 40000 3,43
3500 36
z −= =
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 23
{ ,RC z= ∈ℜ tal que z<-1,96 ou z>1,96}
Decisão:
Como , 3,43 RC∈ decide-se rejeitar H0 , a 5% de significância.
Conclusão:
Há evidências de que o consumo de energia desse supermercado não é
40000 kW/h.
Caso 2: Teste unilateral para σ2 desconhecida e amostra pequena (n<30)
Nos casos vistos até ao momento, a amostra era grande e, portanto, era
possível utilizar o Teorema Central do Limite e usar a aproximação normal
para a estatística de teste. Contudo, não podemos utilizar esse teorema para
amostras pequenas. Para realizar testes com pequenas amostras, vamos
seguir o mesmo raciocínio que foi utilizado na estimação do intervalo. Ao
invés de utilizar a aproximação normal, vamos recorrer à distribuição de t -
Student. A estatística de teste, neste caso, é:
0Xt
S n
µ−
=
A região crítica é construída utilizando a distribuição t com n-1 graus de
liberdade. No caso em que a hipótese é unilateral, temos:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 24
Quando se observa o valor da estatística na região crítica, deve-se rejeitar H0
. Caso contrário, não se deve rejeitar H0. Podemos escrever:
• { ,RC t= ∈ℜ tal que t<-tα,n-1} para o teste unilateral esquerdo e
• { ,RC t= ∈ℜ tal que t>tα,n-1} para o teste unilateral direito
O valor crítico tα,n-1 é o valor de t da tabela t de Student , que fornece uma
área de α na extremidade superior da distribuição t ,com n-1 graus de
liberdade.
Voltando ao exemplo 2, o contador do hotel irá avaliar se a média de gastos
de hóspedes no fim de semana é superior a 500,00 MT. Para isso,
seleccionou aleatoriamente gastos de 22 hóspedes que estiveram no hotel
em fins de semana num determinado mês. Os dados observados (em
meticais) foram: 475, 612, 382, 520, 600, 580, 490, 615, 475, 530, 470, 700,
385, 580, 645, 430, 450, 555, 527, 410, 585, 620.
O teste será realizado considerando α = 0.01.
Hipóteses: (já foram mostradas)
H0: µ ≤ 500 meticais contra Ha: µ > 500 meticais.
Estatística de Teste:
Primeiramente, calculam-se os estimadores da média e desvio:
475 612........ 585 620 528,9
22
X + + += =
2 2(475 528,9) ...... (620 528,9) 88,0
21
S − + + −= =
A estatística de teste será:
528,9 500 1,54
88 / 22obs
t −= =
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 25
Região Crítica:
Pela tabela da distribuição t o valor crítico é t0,01;21= 2,518 .
A região crítica do teste é { ,RC t= ∈ℜ tal que t>2,158}
Decisão:
Como 1,54 < 2,158, decide-se pela não rejeição de H0 : µ ≤ 500 meticais.
Portanto, a 1% de significância, não há evidências de que o gasto dos
hóspedes seja superior a 500,00 MT.
Caso 4: Teste bilateral para σ2 desconhecida e amostra pequena (n < 30)
Seguindo o mesmo raciocínio do Caso 3, o teste bilateral também segue a
distribuição t de Student . A estatística de teste será:
0Xt
S n
µ−
=
A região crítica é construída utilizando a distribuição t com n -1 graus de
liberdade. No caso em que a hipótese é bilateral, temos:
Quando se observa o valor da estatística na região crítica, deve-se rejeitar H0
Caso contrário, não se deve rejeitar H0. Podemos escrever a região crítica no
teste bilateral { ,RC t= ∈ℜ tal que t <- tα/2, n-1 ou t > tα/2, n-1 }. O valor crítico tα/2, n-
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 26
1 é o valor de t da tabela t de Student que fornece uma área α/2 de na
extremidade, superior a distribuição t com n-1 graus de liberdade.
Exemplo 6
Um administrador da área de marketing deseja avaliar o preço de um produto
comestível no mercado. Para tal, ele selecciona aleatoriamente os registos do
produto em 16 lojas e obtêm o valor médio de X = 7,50 com um desvio
padrão de S =1,00.
Supõe-se que os salários da empresa sejam normalmente distribuídos.
Queremos testar a hipótese nula H0 : µ = 8,00 usando um nível de
significância de 10%.
Observe que a hipótese alternativa, nesse caso, é Ha : µ ≠ 8,00. Como o
desvio foi estimado a partir dos dados e a amostra é pequena, então
devemos utilizar a estatística t:
7,50 8,00 2
1,00 16obs
t −= = −
Região Crítica:
Pela tabela da distribuição t , o valor crítico é t0,05, 16= 1,753 Este é o valor de t
da tabela t de Student , que fornece uma área de 0,05 na extremidade
superior da distribuição t com 15 graus de liberdade.
A região crítica do teste é:
{ ,RC t= ∈ℜ tal que t < -1,753 ou t > 1,753}
Decisão:
Como 2< 1,753 decidimos rejeitar H0: µ = 8,00 à 10% de significância.
Portanto, há evidências de que o valor do produto não é 8,00 Mt.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 27
Valor p (nível descritivo)
Ao realizarmos um teste de hipóteses, partimos de um dado valor de α pré-
fixado, para construir a regra de decisão. Uma alternativa é deixar a cargo de
quem vai utilizar as conclusões do teste a escolha do valor para a
probabilidade α, que não precisará de ser fixada a priori (antes de realizar o
teste). A ideia consiste em estimar a probabilidade (usando a distribuição t ou
a normal padronizada) de se obter estimativas mais desfavoráveis ou
extremas do que fornecidas pela amostra (pelas estatísticas tobsou zobs )
quando a hipótese nula é verdadeira. Ou alternativamente é ter um valor p ,
denotado por α*. Isto funciona em todos os 4 casos vistos anteriormente.
Valores pequenos de α* evidenciam que a hipótese nula é falsa. Como a
amostra é uma ferramenta de inferência sobre a população, ela fornece uma
estimativa que teria a probabilidade muito pequena de acontecer, se H0 fosse
verdadeira.
O conceito do que é “pequeno” fica a cargo do responsável pelo teste, que
decide qual α usar para comparar com o valor obtido α* . Quando não é
definido o valor de α para se fazer a comparação, é recomendado usar o nível
0,05.
Caso unilateral:
Para amostras grandes ou variância conhecida, o valor p será H0 verdadeira,
que significa usar o valor extremo de H0:
• α* = P(z < zobsI H0 verdadeira) para H0:µ ≥ µ0 e Ha: µ < µ0
• α* = P(z > zobsI H0 verdadeira) para H0:µ ≤ µ0 e Ha: µ > µ0
E no caso de amostras pequenas será H0 verdadeira, que significa usar o
valor extremo de H0 :
• α* = P(t < tobsI H0 verdadeira) para H0:µ ≥ µ0 e Ha: µ < µ0
• α* = P(t > tobsI H0 verdadeira) para H0:µ ≤ µ0 e Ha: µ > µ0
Observação
Alguns valores de nível descritivo não estão acessíveis nas tabelas das
distribuições normal padronizada de t . Quando não há um software
disponível para fazer o cálculo, mas somente as tabelas, é possível fazer uma
aproximação para o valor p , especificando entre que valores ele se situa. No
Excel 2003, obtém-se o valor p na função DIST.NORMP, para a distribuição
normal padronizada e DISTT para a distribuição t . Veja, na ajuda do Excel,
que a função disponibiliza a distribuição acumulada até o ponto zobs ou tobs.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 28
Exemplos de ilustração
Voltando ao exemplo do medicamento Sem Dor, a estatística de teste foi zobs
= -1,85.
O valor p é:
Isso significa que a probabilidade de dizer que o tempo de relação do
medicamento é µ<15 minutos, quando na verdade é µ≥15 é 0,0322. O erro
que estaria a ser cometido seria pequeno. Por isso, é que se decide pela
rejeição de H0: µ<15
Voltando ao exemplo 2, o valor p é dado por: α* = P(t > 1,54I µ≤ 500) = 0,07.
Se o nível de significância adoptado fosse 0,05, decidiríamos não rejeitar H0,
e se fosse 0,1, decide-se rejeitar H0 . A decisão final será de acordo com a
vontade de quem realiza o teste. Ele irá avaliar se o erro é grande e ira decidir
se rejeita a H0 , ou se é tolerável, podendo rejeitar H0 .
Ao calcularmos o nível descritivo (valor p ), precisamos de considerar que
parte da região crítica esta associada aos valores de zobs e tobs que estão
muito distantes (para mais ou para menos) daquele previsto pela hipótese
nula. Dessa forma, o procedimento usual é multiplicar por dois a
probabilidade obtida em uma das caudas, de modo a preservar a ideia de
afastamento bilateral. Assim, ao testarmos H0:µ < µ0 contra Ha : µ≠µ0 , a
definição do valor p depende da relação entre X e µ0, que é o mesmo que
avaliar se zobs e tobs são maiores do que zero:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 29
1. se zobs < 0 para o caso de amostra grande ou variância conhecida, ou
tobs < 0 para o caso de amostra pequena e variância desconhecida,
• α* = 2 x P(z < zobsI H0 verdadeira);
• α* = 2 x P(t < tobsI H0 verdadeira) , respectivamente.
2. se zobs > 0para o caso de amostra grande ou variância conhecida, ou
tobs > 0 para o caso de amostra pequena e variância desconhecida,
• α* = 2 x P(z > zobsI H0 verdadeira);
• α* = 2 x P(t > tobsI H0 verdadeira) , respectivamente.
Vejamos, por exemplo, como é se encontra o valor p no caso em que zobs >0 e
tobs >0 são maiores do que zero.
Voltando ao exemplo do consumo de energia num supermercado, tínhamos
as hipóteses H0:µ = 40000 kW/h contra Ha : µ ≠ 40000 kW/h. Se formos tomar
a decisão a partir do valor p, temos que:
• α* = 2 x P(z > zobsI H0 verdadeira), porque zobs > 0;
• α* = 2 x P(z > 3,43I µ = 40000) < 0.01.
Como, neste caso, o valor p é muito pequeno, e decidimos rejeitar a H0 ,
levando à mesma conclusão que no procedimento do teste de hipóteses.
Exemplo 7
Uma fábrica de chocolates suspeita que embalagens de 450 gramas de um
certo tipo de chocolate em barra, estão abaixo do peso. Para verificar tal
afirmação, foram seleccionadas aleatoriamente 80 barras em vários lotes de
produção, obtendo-se uma média de peso de 447 gramas. Se admitirmos que
o peso das barras de chocolate segue o modelo Normal, com um desvio
padrão de 10 gramas, que conclusão pode ser tirada através do nível
descritivo?
• Ho : µ = 450 (peso médio, conforme previsto na embalagem)
• Ha : µ < 450 (peso médio, abaixo do previsto na embalagem)
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 30
O valor observado na amostra foi X = 447 e as suposições feitas sobre a
normalidade da variável peso implicam que 2( , / )X N nµ σ , ou seja,
( ,100 / 80)X N µ , padronizando, calculamos a estatística:
447 450 2,68
/ 10 80obs
Xz
n
µ
σ
− −
= = = −
α* = P(z <2,68I µ = 450) = 0.0037
Portanto, o valor p é de 0,37%, o que indica a probabilidade de que sugere
valores da estimativa mais desfavoráveis à hipótese nula. Note que o valor do
nível descritivo relaciona-se directamente com o nível de significância. Neste
exemplo, se tivéssemos fixado o nível de significância em qualquer valor,
igual ou superior a 0,37%, a conclusão seria a rejeição de H0 ,ao passo que
valores inferiores a 0,37% conduziriam à aceitação hipótese nula.
Teste para proporção
Vamos, agora, ilustrar como podemos testar uma afirmação sobre uma
proporção, probabilidade ou percentagem. O raciocínio é semelhante ao que
foi desenvolvido no teste para a média. Só que no caso da proporção, as
observações originam de um modelo Binomial, e de acordo com Webster
(2007), a distribuição amostral das proporções amostrais pode ser
aproximada por uma distribuição normal. As hipóteses no teste para
proporção são:
H0: p = p0 H0: p ≤ p0 H0: p ≥ p0
Ha: p ≠ p0 Ha: p > p0 Ha: p < p0
E a estatística de teste é:
0
0 0
ˆ
(1 )
p pz
p p
n
−
=
−
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 31
Tal que p̂ é a proporção observada na amostra e n é o número de
observações da amostra. Observe que o desvio utilizado no teste é
0 0(1 )p pσ = − fornecido pela hipótese nula, ele não é estimado pelos dados.
Por isso, a aproximação da estatística de teste é feita pela distribuição normal
padronizada. Assim ,a região crítica será:
Quando se observa o valor da estatística z na região crítica, deve-se rejeitar
H0 . Caso contrário, não se deve rejeitar H0 . Podemos escrever:
• { ,RC z= ∈ℜ tal que z < - zα} para o teste unilateral esquerdo
• { ,RC z= ∈ℜ tal que z > zα} para o teste unilateral direito
Quando se observa o valor da estatística z na região crítica, deve-se rejeitar
H0. Caso contrário, não se deve rejeitar H0 . Podemos escrever a região
crítica da forma:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 32
{ ,RC z= ∈ℜ tal que z < - zα/2 ou z > zα/2}
Critério do valor p no teste de proporção:
Seguindo o mesmo raciocínio que foi ilustrado para o valor p para o teste da
média.
• α* = P(z < zobsI H0 verdadeira) para H0:p ≥ p0 e Ha: p < p0
• α* = P(z > zobsI H0 verdadeira) para H0:p ≤ p0 e Ha: p > p0
Ao testarmos H0:p = p0 : contra Ha : p ≠ p0 , a definição do valor p depende
da relação entre p̂ e p0 , que é o mesmo que avaliar se zobs é maior ou
menor do que zero:
• Se zobs <0, α* = 2x P (z< zobs I H0 verdadeira)
• Se zobs > 0, α* = 2x P (z> zobs I H0 verdadeira)
Exemplo 8
O departamento de recursos humanosde uma grande multinacional,
preocupado com a qualidade de vida dos seus funcionários, deseja saber se
a proporção de fumadores na sua empresa é superior a 30%. Para tal, o
administrador responsável pelo estudo seleccionou aleatoriamente 40
funcionários, e verificou que 9 fumavam. Qual foi a conclusão do
administrador a um nível de significância de 5%?
A proporção de fumantes estimada é:
8ˆ 0,2
40
p = =
Região Crítica:
Como o teste é unilateral direito, a região crítica é dada por:
{ ,RC z= ∈ℜ tal que z > 1,64}, sendo que P (z>1,64) = 0,05
Estatística de teste:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 33
0,2 0,3 1,38
(0,3 0,7)
40
obsz x
−
= = −
Decisão:
Como 1,38 não pertence à região crítica, decide-se pela não rejeição de H0
com 5% de significância. Logo, há evidências de que a proporção de
fumantes não é superior a 30%.
Critério de decisão pelo valor p
O valor p é α* = P (z > -1,38 I p ≤ 0,3) = 0,916, comparando com o nível 0,05,
decide-se, não rejeitar de H0 : p ≤ 0,3.
Exemplo 9
A Mcel deseja saber se a proporção de consumidores que utilizam seu
serviço é de 50% da população da província de Maputo. Para isso, ela
seleccionou aleatoriamente 100 consumidores, dos quais 48 informaram que
utilizam seus serviços. Tire conclusões a 5% de significância.
A proporção amostral observada é:
48ˆ 0,48
100
p = =
Hipóteses:
H0: p = 0,5 e Ha: p ≠ p0
Estatística de teste:
0,48 0,5 0,40
(0,5 0,5)
100
obsz x
−
= =−
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 34
Região Crítica:
{ ,RC z= ∈ℜ tal que z <-1,96 ou z > 1,96 }
Como zobs = -0,40 > -1,96 e < 1,96, decidiu-se não rejeitar H0 ; isso significa
que não há evidência suficiente para rejeitar a afirmação de que 50% dos
consumidores utilizam o serviço da empresa da MCel.
Ao tomar a decisão usando o valor p , consideramos que o teste é bilateral e
zobs < 0, temos:
α* = 2 x P (z < -0,40 I p = 0,5) = 2 x 0,3446= 0,6892
Como o valor p supera o nível de significância de 0,05, não rejeitamos a
hipótese nula e, novamente, concluímos que não há evidência suficiente para
rejeitar a afirmação de que 50% dos consumidores utilizam os serviços da
Mcel.
Usar intervalos de confiança para tomada de Decisões
O intervalo de confiança pode ser utilizado para tomada de decisões no caso
de teste de hipóteses bilateral. Sejam as hipóteses H0: µ = µ0 contra Ha: µ ≠
µ0, a decisão tomada será:
• Rejeita-se H0 , se µ não pertence ao intervalo de confiança;
• Não se rejeita H0 , se µ pertence ao intervalo de confiança.
O nível de confiança (1-α) considerado no intervalo, em termos do teste de
hipóteses, será o nível de significância . A tomada de decisões ,por meio do
intervalo, serve de teste de média com variância conhecida e desconhecida
(amostra grande e pequena),e para o teste de proporção.
Para o Exemplo 2, da parte A, em que a EMOSE deseja testar se a idade
média dos proprietários de apólices de seguro de vida é 40 anos, com 10%
de significância. O teste é H0: µ = 40 ; contra Ha: µ ≠ 40 .
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 35
O intervalo de 90% construído foi [ 37,37;41,63], como µ = 40 pertence ao
intervalo, não se deve rejeitar H0. Portanto, a 10% de significância, há
evidências de que a idade média dos proprietários de apólices de seguro de
vida da EMOSE é 40 anos.
Para o Exemplo 3 ,da parte A, sobre o número de faltas de funcionários por
ano, deseja-se testar se o número médio de faltas é 2,5, com 5% de
significância. O teste é H0: µ = 2,5 ; contra Ha: µ ≠ 2,5
O intervalo de 95% de confiança para o número médio de faltas para cada
funcionário, por ano, construído foi [2,855; 4,025]; como µ = 2,5 não pertence
ao intervalo, deve-se rejeitar H0 . Portanto, a 5% de significância, há
evidências de que o número médio de faltas para cada funcionário, por ano,
não é 2,5.
Construção de intervalo de confiança e testes de hipóteses no Excel e no
Minitab
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 36
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 37
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 38
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 39
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 40
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 41
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 42
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 43
Leituras Obrigatórias
Webster Allen L. 2007 Estatística Aplicada a administração e Economia.
McGraw-Hill, São Paulo, Brasil.
Leia os capítulos , 7, 8 e 9
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 44
Actividades
Actividade 1
A facturação semanal de uma loja é uma variável normalmente distribuída. A
partir de uma amostra aleatória de n=24 semanas, observou-se que a
facturação média amostral observada foi 26200X = ,00 Mt . Com base em
pesquisas anteriores, assume-se que o desvio padrão seja σ=4800 . O
gerente da loja afirmou que a facturação semanal da loja é de, pelo menos
28000,00 Mt.
a) Teste esta afirmação ao nível de significância de 5%.
b) Teste esta afirmação ao nível de significância de 1%.
c) Considera-se uma importante discrepância, se a média do valor da
facturação semanal for 500,00 MT menor do que o valor hipotético. Escreva
qual o tamanho da amostra necessário, se fizer o teste a um nível de
significância de 5%
Actividade 2
A prefeitura de uma cidade, preocupada com o meio ambiente, está
interessada em saber a proporção de moradores que separam o lixo para
reciclagem, levando a locais de colecta selectiva. Assim, a pesquisa foi
elaborada de modo que foram seleccionadas aleatoriamente 200 pessoas, e
observou-se que somente 68 separavam o lixo reciclável. Com base nesses
dados, resolva as questões, a seguir:
a) estime a proporção de habitantes que fazem reciclagem do lixo doméstico;
b) construa um intervalo de 95% de confiança para a proporção de habitantes
que reciclam o lixo;
c) a prefeitura acredita que a proporção de reciclagem é de 40%, ou seja,
deseja-se;
testar H0 p=0,4 : contra Ha p ≠0,4 : indique o que você conclui dessa hipótese
a 5% de significância.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 45
UNIDADE TEMÁTICA 2
APLICAÇÕES DO TESTE QUI- QUADRADO EM TABELAS DE
CONTINGÊNCIA
Adaptado de Fernanda Karine Ruiz Colenghi
Objectivos
No final desta unidade você deverá ser capaz de:
• compreender a ideia de tabelas de contingência;
• aprender a realizar o teste Qui-Quadrado para variáveis
independentes e homogeneidade de populações;
• conhecer como os softwares Excel e Minitab realizam o teste Qui-
Quadrado;
• resolver exercícios voltados à área administrativa ou contabilística,
para praticar os conhecimentos adquiridos do conteúdo
Considerações Iniciais
Esta secção fundamenta-se em situações cujo objecto de estudo baseia-se
em tabelas de contingência. Vamos abordar os conceitos destas e entender
como o teste Qui-Quadrado é realizado, tanto para independênciade
variáveis, como para homogeneidade de populações. Tal abordagem será
direccionada de maneira bem simples. Com vários exemplos de aplicação,
acabará por entender claramente os conceitos apresentados e sentir-se-á
seguro ao fazer os exercícios. Vejamos, a seguir, três situações práticas.
Situação prática 1
Uma empresa especializada em pesquisa de mercado deseja verificar, se, em
Maputo, o estado civil está relacionado com o sexo. A empresa realizou uma
pesquisa com 200 homens e 200 mulheres. Os resultados obtidos foram:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 46
Situação prática 2
Um médico quer saber se o cancro no pulmão está relacionado com o uso do
tabaco. Ele realizou um ensaio clínico e obteve os resultados.
Situação prática 3
O governo está interessado em saber se a proporção de cidadãos a favor da
redução da maioridade penal é independente do salário. Foi realizada uma
entrevista com 100 pessoas de cada classe social e os resultados foram:
Esta secção apresentará procedimentos que solucionam este tipo de
problema. Estes testes são testes de hipóteses, chamados testes Qui-
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 47
Quadrados. Esse nome deve-se ao facto de que a estatística de teste possui
uma distribuição Qui-Quadrado. Veremos as suas propriedades na secção
Características da distribuição Qui-Quadrado.
Tipos de teste Qui-Quadrado
Quando desejamos avaliar se duas variáveis são independentes, podemos
usar o teste de independência. Quando queremos verificar se diferentes
populações apresentam proporções semelhantes de determinadas
características, usa-se o teste de homogeneidade.
Quando realizamos um teste de hipótese, fazemos suposições sobre a
distribuição da variável aleatória que estamos a examinar. Por exemplo, ao
realizarmos um teste para a média, supomos que os dados provêm de uma
distribuição normal. Para confirmar se os dados seguem uma distribuição
especifica, existe um teste, chamado teste de aderência , que faz tal
avaliação.
Esta secção irá lidar com os testes de independência e de homogeneidade.
Vamos estudar agora o teste de independência e, em seguida, o teste de
homogeneidade, mas, primeiro vamos fazer uma revisão e aprender alguns
conceitos que serão necessários para perceber o conteúdo a ser
desenvolvido nas próximas secções.
Conceitos iniciais
Recorde-se do conteúdo de Estatística Básica em que estudou os tipos de
variáveis. Uma das variáveis que utilizamos nas tabelas de contingência é
qualitativa (cujos valores representam atributos ou qualidades, tais como
grupo sanguíneo, sexo, estado civil, classe social, etc). Podemos usar
também variáveis quantitativas discretas (tais como número de filhos, número
de carros por família, etc) ou quantitativas contínuas desde que separadas
por grupos (por exemplo, a idade separada por grupos etários, entre 20 e 25,
entre 26 e 30, e assim por diante).
A Tabela de contingência é uma tabela de dupla entrada composta por duas
variáveis, sendo uma representada pelas linhas e a outra pelas colunas. Veja
a tabela, a seguir:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 48
Na qual:
• ,i jο representa a frequência observada para o i-ésimo nível da
variável linha e j-ésimo nível da variável coluna;
• o número total de níveis da variável linha é n, sendo i = 1,....,n;;
• o número total de níveis da variável coluna é m, sendo j= 1,....,m ;
• Li é a frequência total do i-ésimo nível da variável linha;
• Cj é a frequência total do j-ésimo nível da variável coluna;
• o total geral é dado pela soma dos totais das linhas (
1
n
j
i
L
=
∑ ) ou
dos totais das colunas (
1
m
j
j
C
=
∑ )
.Características da distribuição Qui-Quadrado ( 2χ ):
• Não é simétrica;
• Os seus valores sempre são maiores ou iguais a zero (nunca
negativos);
• Há uma distribuição para cada número de graus de liberdade, assim
como a distribuição t-Student, estudada na secção. A importância da
Inferência para decisões administrativas: intervalos de confiança e
testes de hipóteses. Veja a Figura 1.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 49
A figura apresenta a distribuição 2χ para determinados graus de liberdade e
níveis de significância especificados. Observe que a área à direita do valor
crítico é o nível de significância do teste.
Por exemplo, P( 213χ > 22,36)=0,05, ou seja, o valor crítico da
2χ com 13
graus de liberdade e 5% de significância é qc= 22,36 . Veja na Tabela, a
seguir, que é uma parte da tabela da distribuição Qui-Quadrado, e o valor
crítico é obtido pelos valores correspondentes dos graus de liberdade (na
linha) e do nível de significância (na coluna). Isso significa que o valor crítico,
apresentado na célula em destaque, é o correspondente a distribuição Qui-
Quadrado com 13 graus de liberdade e 5% de significância.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 50
Teste de independência
É um teste de hipótese utilizado para verificar se existe independência
estatística entre duas variáveis. De acordo com Webster (2007): A
independência implica que o conhecimento da categoria na qual se classifica
uma observação com respeito a uma variável não afecta a probabilidade de
estar em uma das diversas categorias da outra variável.
Para averiguar a veracidade da afirmação de independência, os dados
precisam de ser apresentados em tabelas de contingência. Assim, faz-se o
cálculo da estatística de teste que será utilizado na tomada da decisão. Este
teste pode ser escrito da seguinte forma:
H0 : As variáveis linha e coluna são independentes.
Ha : As variáveis linha e coluna não são independentes.
Para o exemplo 1, as hipóteses são:
H0 : As variáveis sexo e estado civil são independentes.
Ha : As variáveis sexo e estado civil não são independentes.
Sob a hipótese de que as variáveis são independentes, são feitos os cálculos
dos valores esperados supondo a independência:
,
Total da linha x total da coluna
g g
i j i j
i f
L C
e
Total eral total eral
×
= =
Para os dados do exemplo 1, a tabela de valores esperados é:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 51
A estatística de teste é dada por:
21
, ,2
1 1 ,
( )n n i j i j
i j i j
o e
Q
e= =
−
= ∑∑
Sob Ho, 2Q tem uma distribuição 2χ com (n -1) x (m -1) graus de liberdade. A
região crítica é dada por 2{ : }cRC Q Q q= > , sendo cq , determinado de
forma que: α = P(Q>qcI Ho verdadeira) . A área à direita de qc é o nível de
significância do teste. Para o exemplo 1, o número de graus de liberdade é (4-
1) x (2-1) = 3 , e o valor crítico a 5% de significância é qc = 7,815.
Para os dados do exemplo 1, a estatística de teste é:
2 2 2 2
2 (57 59) (102 93) (23 34,5) (9 13,5)..... 12,54
59 93 34,5 13,5
Q − − − −= + + + + =
Como 12,54 > 7,815, decide-se pela rejeição de Ho. Consequentemente, a
5% de significância, conclui-se que sexo e estado civil não são
independentes.
Vamos fazer a análise do exemplo 2, considerando o nível de significância de
1%. As hipóteses são:
H0 : o fumo não está relacionado com o cancro de pulmão.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 52
Ha : o fumo está relacionado com o cancro de pulmão.
A tabela de valores esperados é:
A estatística de teste é:
2 2 2 2
2 (22 6, 25) (28 43,75) (3 18,75) (147 131, 25) 60, 48
6, 25 43,75 18,75 131, 25
Q − − − −= + + + =
O valor crítico a 1% de significância, com 1 grau de liberdade é qc = 6,6635.Portanto,
2{ : 6,635}RC Q Q= > . Isso significa que
H0 deve ser rejeitada, conclui-se a 1% que o fumo está relacionado com o
cancro de pulmão.
Teste de Homogeneidade
De acordo com Webster (2007), o teste de homogeneidade “é utilizado
quando se testa a afirmação de que diferentes populações apresentam as
mesmas proporções em determinadas características”. Imagine que esteja
interessado em averiguar se diferentes perfis de clientes se comportam de
maneira semelhante para determinadas características, tais como o tipo de
atendimento que o cliente prefere, entre outras preferências. Outra situação
comum é a de um consultor que deseja comparar diferentes perfis dos
funcionários (com respeito a diferentes características) de uma grande
empresa. As hipóteses deste teste são:
Ho : As populações apresentam as mesmas proporções em determinadas
características.
Ha : As populações apresentam proporções diferentes em determinadas
características.
Observe que no exemplo 3 deseja-se testar:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 53
Ho : a proporção de cidadãos a favor da redução da maioridade penal não
depende do salário.
Ha: a proporção de cidadãos a favor da redução da maioridade penal
depende do salário.
Sob a hipótese nula, os valores esperados são os mesmos dos que foram
calculados no teste de independência:
, g g
i j i j
i f
L C totaldalinha totladacoluna
e
Total eral total eral
× ×
= =
Para o exemplo 3, a tabela de valores esperados é:
A estatística de teste comporta-se da mesma maneira da que foi observada
no teste de independência; lembre-se que:
21
, ,2
1 1 ,
( )n n i j i j
i j i j
o e
Q
e= =
−
= ∑ ∑
Sob Ho, 2Q tem uma distribuição 2χ com (n -1) x (m -1) graus de liberdade. E
a região crítica é dada por 2{ : }cRC Q Q q= > , sendo cq , determinado de
forma que: α = P(Q>qcI Ho verdadeira) . A área à direita de qc é o nível de
significância do teste. Para o exemplo 3, o número de graus de liberdade é (5-
1) x (2-1) = 4 , e o valor crítico a 1% de significância é qc =13,277.
Para os dados do exemplo 3, a estatística de teste é:
2 2 2 2
2 (86 60) (78 60) (64 60) (68 40)........ 91,66
60 60 60 40
Q − − − −= + + + + =
Como 91,66 é maior do que 13,27, decide-se pela rejeição de Ho. A 5%,
concluísse que a proporção de cidadãos a favor da redução da maioridade
penal depende da renda.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 54
Situação prática 4
A Universidade de Uberaba, no Brasil deseja saber se o desempenho
desportivo dos estudantes dos cursos de Administração, Economia e Ciências
Contábeis é o mesmo. Para isso, alguns alunos foram seleccionados e o seu
desempenho avaliado conforme a tabela a seguir:
Decide-se que o desempenho é semelhante a 1%. As hipóteses para o teste
são:
H0 : o desempenho desportivo dos alunos dos três cursos é o mesmo.
Ha : o desempenho desportivo dos alunos dos três cursos não é o mesmo.
A tabela de valores esperados será:
Sob Ho, 2Q tem uma distribuição 2χ com (3 -1) x (3 -1)=4 graus de liberdade.
E a região crítica é dada por 2{ : 13,277}RC Q Q= > , pois o valor crítico a 1%
de significância é qc =13,277, assim qc =13,277 como no exemplo 3.
2 2 2 2
2 (82 56,35) (43 45,08) (14 37,57) (18 22, 43)........ 60, 42
56,35 45,08 37,57 22, 43
Q − − − −= + + + + =
Como 60,42 é maior do que 13,27, decide-se rejeitar de H0:A 5% conclui-se
que o desempenho desportivo dos estudantes para os cursos pesquisados é
diferente.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 55
Importante:
a estatística de teste é calculada da mesma maneira para os testes de
independência e homogeneidade; o que difere, entre eles, é a formulação das
hipóteses.
Realização do Teste Qui-Quadrado utilizando o Minitab e Excel
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 56
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 57
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 58
Leituras obrigatórias
Webster Allen L. 2007 Estatística Aplicada a administração e Economia.
McGraw-Hill, São Paulo, Brasil
Leia o capítulo , 14
Actividades
Apresentamos algumas actividades programadas para que possamos reforçar
a construção dos conhecimentos adquiridos durante seus estudos. Leia o
material recomendado e faça as natividades propostas.
Actividade 1
A TDM quer averiguar se a proporção dos seus clientes que utilizam planos
pré-pagos e pós-pagos é a mesma para diferentes faixas etárias. As faixas
que não são apresentadas foram consideradas insignificantes para o estudo.
Dada a tabela, a seguir, qual é a decisão utilizando 2,5% de significância?
Actividade 2
Um consultor do BIM quer saber se o gasto com a manutenção de caixas de
ATM depende da taxa de uso dos mesmos. Os valores gastos foram
codificados nas seguintes colunas: pequeno, médio e grande e a taxa de uso
foi codificada como baixa, média e alta.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 59
Formule as hipóteses, o tipo de teste e conclua considerando um nível de
significância de 1%.
Actividade 3
Uma indústria farmacêutica quer verificar se o tempo de relação da dipirona
depende do número de gotas (quantidade) por dose. Veja a tabela, a seguir:
a) De que tipo são as variáveis e como elas estão a ser consideradas nesse
caso ?
b) Elabore e identifique o tipo de hipóteses para o teste.
c) Qual é sua conclusão a 10% de significância?
Actividade 4
A indústria automobilística utiliza os seguintes níveis de defeito: leve,
moderado e grave. Após a produção todos os carros são inspeccionados, e
se, apresentam algum defeito, são classificados conforme os níveis acima.
Três modelos de um tipo de carro estão para serem avaliados em uma
empresa de automóveis. A comparação será feita em termos do tipos de
defeitos para cada modelo de carro. Utilizando um lote de produção obteve-
se:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 60
a) Formule as hipóteses para o teste.
b) Após os cálculos, que conclusão se pode tirar a 5% e a 1% de
significância?
Actividade 5
A Mcel quer averiguar se o tipo de reclamação (1, 2, 3, 4, 5) está relacionado
com o horário da reclamação (turno do dia). Com base em seu banco de
dados, obteve-se a tabela:
a) Especifique o tipo de teste.
b) Formule as hipóteses.
c) Tome uma decisão a 1% de significância.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 61
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 62
UNIDADE TEMÁTICA 3
CORRELAÇÃO, REGRESSÃO LINEAR SIMPLES E MÚLTIPLA
Adaptado de Fernanda Karine Ruiz Colenghi
Objectivos
No final desta unidade você deverá ser capaz de:
• Aprender como é feito o cálculo do coeficiente de correlação linear
entre duas variáveis quantitativas.
• Realizar o teste de significância de correlação linear.
• Entender os conceitos e ideias inerentes em um modelo de regressão
linear simples.
• Visualizar modelos de regressão em situações administrativas e
contabilísticas.
• Ampliar os conceitos de regressão, através da regressão linear
múltipla.
• Analisar a qualidade de modelos de regressão.
• Avaliar quais as variáveis explicativas que são significativas em um
modelo de regressão.
• Ajustar modelosde regressão e avaliar sua qualidade utilizando o
Minitab.
Aspectos Iniciais
Anteriormente, estudamos métodos pontuais e intervalares para inferir a
respeito de uma variável. Nesta secção, vamos estudar a relação entre duas
ou mais variáveis, através do cálculo do coeficiente de correlação. Vamos,
também, estudar uma importante ferramenta estatística, muito utilizada no
mercado financeiro, contabilístico e organizacional, em diversas companhias.
Examinemos uma situação prática: uma seguradora do ramo automobilístico
acredita que o número de acidentes (mensal) está relacionado com a idade
(em anos) do condutor do veículo. Esta análise é importante, pois ao fazer-se
o cálculo do prémio que o cliente paga para ter o seu automóvel assegurado,
a idade pode influenciar neste valor. Parece intuitivo assumir que existe essa
relação?
• Mas, como podemos medir quanto é que a idade influencia na
quantidade de acidentes?
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 63
• Podemos modelar essa relação?
• E será que podemos prever o número de acidentes,
por mês, para determinada idade?
Recorde-se que, anteriormente, estudou a associação de variáveis
qualitativas ou quantitativas discretas. Agora, para medir a associação entre
variáveis quantitativas contínuas, ou entre quantitativas contínuas com
discretas, devemos usar o coeficiente de correlação linear. A maneira de
modelar uma equação que descreva o comportamento da associação entre
duas variáveis é dada pela regressão linear simples. Utilizando esta equação,
podemos fazer previsões para determinados valores.
Considere, agora, que, para além da idade dos motoristas, a empresa decidiu
medir as variáveis: horas diárias em que o carro fica fora da garagem,
quilometragem feita mensalmente, número de dias em que foi realizada a
última revisão. Concorda que agora temos mais informações que podem estar
relacionadas com o número de acidentes?
Quando usamos várias variáveis para modelar uma equação, em função de
variável de interesse, ou seja, a variável que está a ser avaliada, o método
que utilizamos é a regressão linear múltipla. Este roteiro apresentará tais
conceitos de uma maneira simples.
O conteúdo desta secção está organizado da seguinte maneira:
1) explicação e cálculo do coeficiente de correlação;
2) teste de correlação entre duas variáveis;
3) introdução à regressão linear simples;
4) regressão linear múltipla;
5) como proceder para calcular o coeficiente de correlação e modelar uma
regressão no Minitab;
6) exercícios voltados às áreas administrativas, contabilísticas e financeiras.
Coeficiente de Correlação de Pearson
Tentar explicar o comportamento de uma variável em função de outras é
muito importante na maioria das pesquisas quantitativas. Medir a associação
de duas ou mais variáveis também é interessante quando se pretende
melhorar a qualidade de produtos, uma vez que a melhoria de uma
característica de qualidade pode implicar a melhoria do comportamento das
outras.
Exemplo 1
Uma fabrica de montagem de peças de carro está interessada em verificar se
existe uma associação entre as variáveis X (peso da peça em Kg) e Y (preço
da peça em meticais). Os dados colhidos foram os seguintes:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 64
O gráfico no plano cartesiano que mostra as frequências em cada ponto é
chamado de gráfico de dispersão (ou scatter plot). Veja o gráfico de dispersão
deste exemplo.
Observe que, à medida que a variável X cresce, a variável Y também cresce.
Para medir o grau de associação destas variáveis, podemos usar o
Coeficiente de Correlação de Pearson. Este nome deve-se ao facto de que
Karl Pearson (1857 – 1936), foi o cientista que o estabeleceu.
Coeficiente de Correlação de Pearson (r), também conhecido como
coeficiente de correlação momento produto de Pearson e mede a relação
linear entre as variáveis X e Y em uma amostra.
O seu valor é dado pela fórmula:
22 2 2
( )/
( ) / ( ) /
i i i i
xy
i i i i
xy x y n
r
x x n y y n
−
=
− × −
∑ ∑ ∑
∑ ∑ ∑ ∑
Propriedades interessantes do coeficiente de correlação:
• Varia entre -1 e 1;
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 65
a) Correlação positiva perfeita rxy = 1 ;
b) Correlação linear positiva forte 0,5 < rxy <1;
c) Correlação negativa perfeita rxy = -1;
d) Correlação linear negativa forte -1 < rxy < - 0,5
• Quando rxy é um valor próximo a zero, podemos supor que não exista
correlação linear entre as variáveis.
• Quanto mais próximo o valor for de 1, significa que a associação entre
as variáveis é positiva, ou seja, na medida em que uma variável
aumenta, a outra também aumenta.
• Quanto mais próximo o valor for de -1,significa que a associação entre
as variáveis é negativa, ou seja, na medida em que uma variável
aumenta, a outra diminui.
O cálculo do coeficiente de correlação pode ser calculado usando a tabela, a
seguir:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 66
Logo temos:
2 2
119646 (297,4328)/12 12528 0,892
1320,25 149258,78671 (297) /12 1710224 (4328 )/12
xyr
−
= = =
×− × −
O coeficiente de correlação de Pearson é 0,892. Poderíamos assumir que a
correlação é positiva, pois este valor está próximo de 1.
Porém, estatisticamente falando, o que é próximo de 1, -1ou zero? Pois um
coeficiente de 0,5 pode ser próximo de 1 e próximo de 0. Pode ser que para si
0,5 é razoável para assumir correlação, enquanto que para outra pessoa,
pode ser que não exista!
Para responder a esta dúvida, que é verificar se a correlação entre as
variáveis é significativa ou não, precisamos adoptar um procedimento de
tomada de decisão. Este procedimento é um teste de hipótese. Como já está
habituado a teste de hipótese, o procedimento será simples. Vamos entendê-
lo, então.
Teste da significância da correlação
Se tivéssemos todas as observações da população, tanto da variável X, como
da variável Y, saberíamos qual seria o coeficiente de correlação verdadeiro
(denotado por ρ ). Mas, como não o conhecemos, utilizamos o coeficiente de
correlação amostral (r) para o estimar.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 67
Recorde que, no início do curso de Inferência, aprendeu que a média
amostral é usada para estimar a média verdadeira, ou seja, a populacional.
Aqui, a situação é semelhante, visto que, estamos a fazer um teste para a
significância da correlação. As hipóteses, então, são
H0 : ρ = 0 (não há correlação linear significativa) contra Ha : ρ ≠ 0 (existe
correlação linear significativa).
A estatística de teste que iremos utilizar é calculada da seguinte maneira:
21
2
rt
r
n
=
−
−
Esta estatística de teste tem uma distribuição t-Student. Com n-2 graus de
liberdade. Recorde-se que, no inicio deste curso, aprendemos como
encontrar os níveis críticos da distribuição t . A tabela da distribuição t está no
apêndice.
Este teste é bilateral – observe o sinal ≠ na hipótese alternativa.
Assim, a região crítica será
{ ,RC t= ∈ℜ tal que t <-tα/2, n-2 ou t >tα/2, n-2}
Webster (2007) ilustra outro método de calcular a estatística de teste para
testar a significância do coeficiente de correlação de Pearson. Este utiliza
uma tabela própria, pois a distribuição da estatística de teste não é
conhecida.
Para o Exemplo 1, a estatística de teste para a significância do coeficiente de
correlação linear é:
2
0,892 6,24
1 0,892
12 2
t = =
−
−
Considerando um nível de 5% de significância, o valor crítico da distribuição t
fornecido na tabela é 2,228, a região crítica é { ,RC t= ∈ℜ tal que t <-2,228
ou t >2,228}.Como 6,24 é maior do que 2,228, decide-se rejeitar H0 .
Portanto, a 5% de significância, podemos dizer que existe correlação linear
entre as variáveis X e Y. Além disso, podemos dizer que essa relação é
positiva, quando X aumenta, Y também aumenta.
Podemos tomar a decisão pelo critério do p valor. Quando determinamos o
nível de significância, podemos calcular o p valor.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 68
Ao observar um p valor superior ao nível de significância, decidimos pela não
rejeição de H0 .
Ao observar um p valor inferior ao nível de significância, decidimos rejeitar H0
.
Lembre-se do critério do valor p:
• Se tobs <0, α* = 2x P (tn-2< tobs I H0 verdadeira)
• Se tobs > 0, α* = 2x P (tn-2> zobs I H0 verdadeira)
Para o exemplo 1, α* = 2x P (t>6,624) ≈0,000, o que concorda com a decisão
tomada anteriormente.
Esta secção mostra a correlação entre duas variáveis. Caso esteja
interessado em estudar a correlação de mais de duas variáveis, sugerimos a
leitura do capítulo 11 e 12 – Regressão Múltipla e Correlação de Webster
(2007), indicado nas Leituras Obrigatórias.
Regressão linear simples
A ideia de se fazer um modelo de regressão linear é escrever uma equação
linear, uma recta, que represente a associação entre duas variáveis. O
objectivo principal é predizer o valor de uma variável conhecendo a outra,
utilizando a equação de recta que foi construída. A equação de regressão
linear é:
0 1y xβ β= +
Os parâmetros do modelo são β0 e β1 . Se tivéssemos toda a população,
estes valores seriam conhecidos. Mas em inferência, sempre temos que os
estimar a partir de uma amostra. Assim, o modelo de regressão ajustado é
dado por:
0 1ŷ b b x= +
Sendo que b0 e b1 são respectivamente os estimadores dos parâmetros β0 e
β1. Mais adiante, irá aprender como calcular esses parâmetros.
Em regressão, temos dois tipos de variáveis:
• Explicativa (independente): a variável x do modelo é aquela que se
conhece e é facilmente medida.
• Resposta (dependente): a variável y do modelo é a que se deseja
prever.
Importante: Quando fazemos um modelo de regressão linear, precisamos de
avaliar ou supor que algumas hipóteses são verdadeiras, e, sempre que
possível, verificar as suposições, que são:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 69
• estamos a lidar apenas com relações lineares, ou seja, a variável
explicativa e resposta, estão associadas linearmente;
• o modelo de regressão suposto é: 0 1y xβ β ε= + + , sendo ε o erro
aleatório do modelo.
• o erro ε num modelo de regressão é normalmente distribuído com
uma média zero e a variância constante, denotada por σ2. As variáveis
sao independentes e não existe nenhuma correlação entre elas
• a variável resposta y é uma variável aleatória;
• para cada valor de x, a variável resposta (σ2 ) segue uma distribuição
normal. E todas a variância de todas as variáveis sendo tem a mesma
variância .
Estimação de β0 e β1:
Vimos que os estimadores a serem utilizados são b0 e b1. Mas, qual é a
melhor escolha destes valores? Existem vários critérios de estimação destes
parâmetros. O mais conhecido e utilizado em todas as áreas de pesquisa é o
método dos mínimos quadrados. Possui este nome porque é o método que
minimiza a soma dos quadrados dos desvios entre os valores observados e
estimados da variável resposta para os dados amostrais. Utilizando derivadas
parciais, os estimadores de mínimos quadrados são dados por:
1 2
( ) /
( ) /
i i i i
i i
x y x y n
b
x x n
−
=
−
∑ ∑ ∑
∑ ∑
0 1b y b x= −
Estes são os estimadores que são usados na recta de regressão.
Os estimadores de mínimos quadrados para o Exemplo 1 são:
Logo, a recta de regressão ajustada é:
ˆ 126 9,49y x= +
Para uma observação de xi , assumindo o valor de 23 Kg, teríamos uma
estimativa para ˆiy de ˆ 126 9,49iy x= + = 344,27. O gráfico de dispersão das
variáveis X e Y, com a recta de regressão ajustada, podem ser vistos, a
seguir:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 70
Avaliação da qualidade de um modelo de regressão
Para adoptarmos determinado modelo, é necessário que este seja
válido e atenda às suposições estabelecidas anteriormente. A
maneira mais eficiente de avaliar a validade do modelo é pelo
coeficiente de determinação. Antes de enunciá-lo, precisamos de
tomar conhecimento de algumas informações.
Ao ajustar um modelo de regressão, a diferença entre o valor observado da
variável resposta yi, , e o valor estimado para partir do modelo ˆiy , para a i-
ésima observação é chamado de i-ésimo resíduo ˆ( )i iy y− . Se somarmos o
quadrado de todos os resíduos da amostra, teremos a Soma de Quadrados
dos Resíduos, denotada por SQRes:
2
1
1
ˆRe ( )
n
i i
i
SQ s y y−
−
= −∑
SQRes é uma medida de erro da estimativa do modelo de regressão. O valor
de SQRes para o ajuste do modelo de regressão no exemplo 1 é ,
aproximadamente, 30379,07, pois ˆiy foi aproximado até três casas decimais.
Veja, na tabela a seguir, como é feito o cálculo.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 71
A Soma de Quadrados Total é a soma dos quadrados dos desvios das
observações da variável resposta em relação à média da variável resposta
( )y . É parecida com a formula utilizada para calcular o desvio padrão de
uma variável (só que não esta associada a raiz quadrada e nem dividimos por
n-1 ), e é denotada por SQT:
SQT=
2
1
( )
n
i
i
y y
=
−∑
A SQT, para o Exemplo 1, é y =149258,7.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 72
A última quantidade que precisamos de saber é a Soma de Quadrados da
Regressão, denotada por SQReg. Esta mede o quanto os valores ajustados
pelo modelo de regressão ˆiy distanciam-se da média da amostra y . O seu
cálculo é feito através da soma dos quadrados dos desvios dos valores
ajustados e da média amostral, assim:
SQReg =
2
1
ˆ( )
n
i
i
y y
=
−∑
Se fizermos o cálculo da SQReg para o Exemplo 1, obtemos um valor
aproximado de 118876,8.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 73
A seguinte relação pode ser observada entre as somas de quadrados:
SQT = SQReg + SQRes
De acordo com Webster (2007), a SQReg pode ser definida como a porção
explicada da SQT, e a SQRes definida como a porção não explicada da SQT.
Lembre-se desta esta relação, pois é um resultado muito importante.
O Coeficiente de determinação mede a eficiência do modelo de regressão
ajustado, que é calculado pelo rácio entre a SQReg e a SQT. Este resultado
pode ser interpretado como a proporção da soma de quadrados que é
explicada pela equação de regressão ajustada.
R2 =
SQRes
SQT
O R2 esta sempre entre 0 e 1, quanto mais próximo de 1, melhor será o ajuste
do modelo. O R2 do Exemplo 1 é 118876,8/149258,7 = 0,796. Significa o valor
da variação de Y, explicado pela recta de regressão, que é 0,796 ou 79,6%.
Relação entre coeficiente de determinação e coeficiente de correlação
Webster (2007) mostram a seguinte relação entre os coeficientes de
determinação e de correlação:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 74
Quando sabemos qual é o coeficiente de determinação, podemos determinar
o coeficiente de correlação e vice-versa. Para tanto, é necessário saber o
sinal de b1
Verificação das suposições do modelo
Lembre-se de que, quando introduzimos o modelo de regressão, vimos que
devia estar associado a determinadas suposições. Para que o modelo seja
validado (aceite,),estas suposições precisam de ser verdadeiras. Após o
ajuste do modelo, devemos averiguar se as suposições foram satisfeitas; isso
é feito através de algumas medidas:
• verificação da normalidade dos resíduos;
• independência (não auto correlação) e aleatoriedade dos resíduos;
• Teste F, para verificar se o modelo de regressão é significativo, ou
seja, se β1 é significativo;
• Verificar se o coeficiente do modelo β1 é significativo quando
utilizamos o teste t-Student
Verificar a significância através de um teste estatístico para tomar uma
decisão. Portanto, vamos avaliar se o coeficiente angular da recta de
regressão, β1, do modelo é significativo estatisticamente, ou seja, se
realmente existe uma relação linear entre as variáveis X e Y.
Vamos examinar cada uma destas medidas.
Verificação da normalidade dos resíduos
Esta pode ser feita visualmente, através da construção de um histograma ou
boxplot dos resíduos, ou estatisticamente, utilizando o teste de normalidade
para os resíduos. A explicação de como é feito o teste de normalidade e o
histograma no Minitab será feita no final desta secção. Veja o histograma e o
teste de normalidade para os resíduos do Exemplo 1.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 75
Observe que o histograma dos resíduos é parecido com dados de uma
distribuição normal. Veja que ela possui uma simetria em torno da média
zero. Essa relação não é tão nítida, pois o número de observações é
pequeno, apenas 12. Para confirmar se os dados apresentam
distribuição normal, é realizado um teste de aderência.
Para perceber o teste de normalidade, é necessário considerar as
seguintes hipóteses:
• H0 : os dados possuem distribuição normal.
• Ha : os dados não possuem distribuição normal.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 76
Um teste é feito a partir de uma estatística de teste. O programa fornece o p
valor deste teste, e o analista toma a decisão a partir da comparação com o
nível de significância que especificou antes de realizar o teste. O critério de
decisão será:
• Se p valor nível de significância → não rejeite H0→ dados são
normais.
• Se p valor nível de significância → rejeite H0 →dados não são
normais.
Por exemplo, se considerarmos um nível de 5% de significância, para os
resíduos do Exemplo1, o p valor é 0,218, portanto não devemos rejeitar H0.
Isso significa que os resíduos possuem uma distribuição normal a um nível de
5% de significância.
Independência (não auto correlação) e aleatoriedade dos resíduos
Nesta etapa, vamos verificar se os resíduos são independentes, e como estes
possuem distribuição normal, significa dizer que não sao correlacionados, e
verificar se são aleatórios. O gráfico dos resíduos versus valores ajustados,
em inglês Residuals Versus the Fitted Values é construído de maneira que no
eixo das abcissas estão os valores ajustados para cada observação amostral
ˆiy e no eixo das ordenadas estão os resíduos. Este gráfico pode indicar se
existe ou não correlação entre os resíduos e verificar se os resíduos são
aleatórios
• Comportamentos que indicam a correlação: tendências crescentes ou
decrescentes;
• Comportamentos que indicam não aleatoriedade: aumento na
amplitude do resíduo, à medida que se aumenta o valor ajustado ou
diminuição na amplitude do resíduo, à medida em que se aumenta o
valor ajustado (indica que a variância não é constante);
comportamentos que caracterizam algum tipo de função conhecida
(cúbica, quadrática etc.).
• Comportamentos esperados: resíduos bem distribuídos ao redor de
zero, tanto para cima, como para baixo e amplitude constante em todo
o intervalo de valores ajustados.
Observe o gráfico dos resíduos versus valores ajustados para o modelo de
regressão ajustado para o Exemplo 1. Os resíduos estão bem comportados
ao redor de zero, porém existem duas observações com resíduos bem
elevados (100 e -100). Contudo, essa observação não prejudica a análise,
pois as discrepâncias não são tão significativas assim. Mais adiante, irá
aprender a fazer este gráfico no Minitab.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 77
(continua(
Teste F, para verificar se é β1 significativo
Possui este nome, Teste F, por basear na distribuição de probabilidade F.
Este teste é usado para testar a significância da regressão. As hipóteses do
teste são:
H0: β1 = 0 contra H0: β1 ≠ 0, o mesmo que dizer que:
H0 existe uma relação linear entre as variáveis explicativa e a resposta;
contra
Ha :não existe relação linear entre as variáveis explicativa e resposta.
Antes de calcularmos a estatística de teste, é necessário definir algumas
quantidades:
Quadrado Médio da Regressão: denotado por QMReg, é dado pela SQReg
dividido pelo número de graus de liberdade da regressão, que é representado
por p-1 , sendo p o número de parâmetros estimados no modelo de
regressão, que na regressão linear simples é 2 (β0 e β1) então neste caso o
número de graus de liberdade é 1.
QMReg=
SQReg
1p −
Quadrado Médio dos Resíduos: denotado por QMRes, é dado pela SQRes
dividido pelo número de graus de liberdade dos resíduos, que é dado por n-p ,
sendo p definido da mesma forma que em cima. Então, no modelo de
regressão linear simples o número de graus de liberdade é n-2.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 78
QMRes=
SQReg
n p−
Estatística de teste: é dada pelo rácio entre QMReg e QMRes.
F=
QMReg
QMRes
F possui uma distribuição F de Fisher com p-1 graus de liberdade (gl) no
numerador e n-p gl no denominador. Como estamos a lidar com uma
regressão linear simples, F possui uma distribuição F de Fisher com 1 gl no
numerador e n-2 gl no denominador. Os valores da tabela da distribuição F de
Fisher podem encontrar-se nos links, a seguir, para determinados níveis de
significância à direita da distribuição) e determinados valores de graus de
liberdade do numerador e denominador, de maneira que a região crítica é:
{RC f= ∈ℜ , tal que f > valor critico}
1-http://home.utad.pt/~emorais/mat/tab2.pdf
2-http://www.inescporto.pt/~hdc/f.pdf
Vamos considerar um nível de significância de 1% e fazer o teste F, para
testar a significância do modelo de regressão ajustado ao Modelo 1. Através
das equações que acabaram de ser apresentadas, temos
Utilizando uma tabela F, com 1% de significância, a região crítica da
distribuição F, com 1 gl no numerador e 10 gl no denominador é:
{RC f= ∈ℜ , tal que f > 10,044}
Como 39,13 > 10,044, decide-se rejeitar H0:β1 =0, o que significa que o
modelo de regressão é significativo a 1% de significância, o mesmo que dizer
que β1 ≠ 0.
Mas, atenção! Os softwares estatísticos fornecem para este teste a saída da
análise de variância, expressa como na tabela, a seguir.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 79
Com a estatística F em mão , fica fácil tomar a decisão. Os programas
também fornecem o p valor associado a esta estatística. O critério de decisão
permanece o mesmo do que vimos para o teste de normalidade.
Verificar se o coeficiente do modelo β1 é significativo, utilizando o teste t
Student
É um teste para verificar a significância do parâmetro β1 . Os dados da
amostra são usados para testar as hipóteses: H0 : β1 = 0 contra Ha : β1 ≠ 0
Para obter a estatística de teste que se caracteriza por uma distribuição t
Student , é preciso encontrar um estimador para a variância σ2 do modelo de
regressão. Diversos autores, dentre eles Webster (2007), mostram que um
estimador para σ2 é dado pelo QMRes (também chamado de erro quadrático
médio).
Portanto,
s2 = QMRes=
SQReg
n p−como na regressão linear p= 2 , o estimador se resume a s2 =
SQReg
2n −
. O erro
padrão da estimativa é a raiz quadrada de s2 .
s2= 2s = QMRes
Pode ser provado, Webster (2007), que b1 possui uma distribuição normal
com média β1 e variância σb1 = 2 2( )i ix x
n
σ
−∑ ∑ . Como não temos o
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 80
valor de σ , devemos usar s, assim:
σb1 é sb1 = 2 2( )i i
s
x x
n
−∑ ∑ . Só que a distribuição da
estatística de teste depende dos graus de liberdade que foram usados para
estimar σ , assim a estatística de teste possui uma distribuição t-Student com
n-p gl, sendo na regressão linear simples n-2 gl, tal que:
t= 1
b1
b
s
A região crítica do teste é {RC t= ∈ℜ , tal que t <-tα/2, n-2 ou t >tα/2, n-2} , sendo
α o nível de significância especificado. Os programas de estatística fornecem
a estatística de teste e o p valor correspondente que poderá ser usado como
critério de decisão (da mesma maneira que foi visto nos testes de
normalidade e F ).
Voltando ao Exemplo 1, temos:
s2= 2s = 3037,907 55,12=
sb1 =
2
55,12
8671 (297)
12
−
= 1,52; t= 9,49/1,52 = 6,24
Considerando 1% de significância, a região crítica do teste com 10 gl é dada
por:
{RC t= ∈ℜ , tal que t <- 3,169 ou t >3,169}
Como 6,24 > 3,169, toma-se por decisão rejeitar H0 . Significa que β1≠0, ou
seja, existe relação linear entre X e Y a 1% de significância.
Fique atento! Alguns livros, mostram o teste de significância para o intercepto
da recta de regressão, coeficiente β0 , que se baseia na distribuição t cujas
hipóteses são H0 : β0≠0 contra Ha : β0≠0. Os programas informáticos fornecem
esta estatística de teste. Mesmo sem ter o conhecimento da estatística de
teste, podemos tomar a decisão da significância β0 de através do p valor.
Um pouco mais sobre o modelo de regressão
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 81
a) Intervalo de confiança de parâmetros estimados
Além de se fazer um teste de hipótese para os parâmetros do modelo, o
intervalo de confiança para os parâmetros β0 e β1 podem ser obtidos. Webster
(2007) ilustra as seguintes relações:
• Intervalo de confiança para β0 com (1-α) % de confiança:
b0 – E< β0 < b0 + E, onde E= tα/2, n-2s
2
2
2
1
( )i
i
x
xn
x
n
+
− ∑∑
• Intervalo de confiança para β1 com (1-α) % de confiança:
b1 – E< β1 < b1 + E, onde E= tα/2, n-2s 2
2 ( )i
i
s
x
x
n
− ∑∑
Podemos decidir a respeito da significância de β0 e β1, pelo intervalo de
confiança. Se o valor zero não estiver no intervalo, pode-se concluir que o
parâmetro do modelo é significativo, com α% de significância.
Os intervalos de 95% de confiança para β0 e β1 do exemplo 1
Para β0: 125,81 – E < β0 < 125,81 + E
E= 2,228 x 55,12x
2
2
1 24,75
(297)12 8671
12
+
−
= 90,8
IC de 95% para β0
[125,81-90,8;125,81+90,8]=[35,01;216,61]
Como zero não pertence a este intervalo, pode-se concluir, a 5% de
significância, que β0 é significativo.
Para β1: 9,49-E< β1 < 9,49 +E, em que:
E = 2,228 x
2
55,12 3,38
(297)8671
12
=
−
IC de 95% para β1 : [9,49 – 3,38; 9,49 + 3,38].
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 82
Como zero não pertence a este intervalo, pode- se concluir, a 5% de
significância, que β1 é significativo.
b) Intervalo de confiança das previsões
Webster (2007) mostram que a distribuição da previsão yi possui uma
distribuição normal, contudo a estimativa s2 depende do número de graus de
liberdade, que é n-p (sendo este valor n-2 na regressão linear simples).
Portanto, a distribuição de um valor previsto yi, baseia-se na distribuição t
com n-2 gl. O intervalo de confiança para a previsão é construído de acordo
com a distribuição t e o desvio padrão é calculado utilizando a estimativa .
Esses autores mostram ainda que o intervalo de previsão com (1-α)% de
confiança para um valor individual de yi é:
[
2
/2,n 2 2 2
( )1ˆ 1
( ) /
i
i
i i
x xy t s
n x x nα −
−
± × × + +
−∑ ∑ ]
O intervalo de 95% de confiança para a previsão do início desta secção
manual é:
2
2
1 (23 24,75)344, 27 2, 228 55,12 1
12 8671 (297) /12
−
± × × + +
−
Regressão múltipla
Exemplo 2
Um engenheiro que trabalha com a redução de custos numa plantação deseja
investigar a variável quantidade de água consumida mensalmente, porque é a
maior responsável pelos gastos na plantação. Também, deseja avaliar quais
as possíveis variáveis que podem estar relacionadas com o consumo de
água. Ele registou 17 observações da quantidade do uso de água e outras
variáveis como a: temperatura média mensal (F), quantidade de produção
(MPounds), número de dias trabalhados na plantação no mês, número de
pessoas a trabalhar na plantação. A base de dados está a também disponível
em <http://www.statsci.org/data/general/water.txt>,.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 83
Agora, o nosso interesse é construir um modelo de regressão considerando
quatro variáveis explicativas. Neste contexto, surge o modelo de regressão
linear múltipla, que é caracterizado por várias variáveis explicativas, definido
assim:
Esta equação comporta-se de maneira semelhante ao modelo de regressão
linear simples; a diferença está no número de variáveis explicativas, que é
escolhida pelo pesquisador ao ajustar o modelo. O número de parâmetros
estimados no modelo é p = k + 1 (pois β0 também é estimado).
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 84
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 85
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 86
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 87
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 88
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 89
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 90
Leituras obrigatórias
Webster Allen L. 2007 Estatística Aplicada a administração e Economia.
McGraw-Hill, São Paulo, Brasil
Leia os capítulos , 11 e 12
Actividades
Apresentamos algumas natividades programadas para que possamos
reforçar os conhecimentos adquiridos durante os estudos. Leia o material
recomendado e faça as natividades propostas.
Actividade 1
Os dados fornecem a taxa de mortes por 100.000 habitantes causadas por
armas de fogo, na Austrália, de 1983 a 1997. Estes dados foram obtidos
através do Instituto Australiano de Criminalidade e estão disponíveis
<http://www.statsci.org/data/oz/fi rearms. html>. A coluna “Year” e “Rate”
(dados do site) correspondem, respectivamente, ao ano e à taxa de mortes.
a) Faça o gráfico de dispersão de ano versus taxa de mortes.
b) Calcule o coeficiente de correlação linear entre o ano e a taxa de mortes.
Veja se esta correlação é significativa a 1%.
Actividade 2
Utilizando os dados da Actividade 1, ajuste uma recta de regressão,
considerando o ano como variável explicativa e a taxa de mortes como
resposta. Verifique se o modelo é adequado usando os testes t e F. Avalie a
qualidade dos resíduos e estime, pontualmente, a taxa de mortes para o ano
de 2000.
Actividade 3
Os dados a seguir mostram o gasto mensal com publicidade e a receita de
vendas mensal da Coca-Cola para o ano de 2008 (multiplicado por 1000em
Meticais).
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 91
Ajuste uma recta de regressão linear simples através dos dados; veja se é
adequada, e faça uma previsão da receita de vendas, se a Coca-Cola gastar,
1200 meticais com publicidade. Construa um intervalo de 90% de confiança
para esta previsão.
Actividade 4
Um programa de qualidade para reduzir desperdício foi implementado no
primeiro dia do mês, na Coca-Cola. A companhia registrou os dados
referentes a lixo diário produzido (em toneladas) dos 8 primeiros dias após a
iniciativa do programa. Verifique se existe correlação linear significativa,
considerando um nível de 5%.
Actividade 5
A EDM quer estimar o custo de manutenção mensal (em meticais) de um
determinado transformador através do número de horas de uso (mensal).
Veja as informações do transformador nos últimos oito meses:
Obtenha o modelo de regressão pelo método de mínimos quadrados e
calcule o coeficiente de correlação linear entre horas de uso e o custo de
manutenção. Compare seus resultados com o ajuste do Minitab.
REFERÊNCIAS
Webster Allen L. 2007 Estatística Aplicada a administração e Economia.
McGraw-Hill, São Paulo, Brasil
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 92
CHAVE DE CORRECÇÃO DAS ACTIVIDADES
UNIDADE TEMÁTICA 1 – A IMPORTÂNCIA DA INFERÊNCIA PARA
DECISÕES ADMINISTRATIVAS: INTERVALOS DE CONFIANÇA E
TESTES DE HIPÓTESES
Actividade 1
Hipóteses do teste:
H0:µ≥28000 ( o facturamento da loja é pelo menos 28000,00 MT)
H0:µ<28000 ( o facturamento da loja é pelo menor 28000,00 MT)
Estatística de teste:
A estatística de teste será:
26200 28000 1,8374800
24
obst
−
= = −
a) Testando a afirmação a 5% de significância.
Pela tabela da distribuição t , o valor crítico é t0,05,23=1,714 . Como o teste é
unilateral esquerdo, a região crítica é dada por { ,RC t= ∈ℜ tal que t<- 1,714}:
. Logo, a 5% de significância, rejeitasse H0 e conclui-se que o facturamento
da loja é inferior a 28.000,00
b) Testando a afirmação a 1% de significância. Pela tabela da distribuição t, o
valor crítico é t0,01,23=2,50. De maneira semelhante à obtida pelo item (a), a
região crítica é { ,RC t= ∈ℜ tal que t<-2,50} dada por: . Logo, a 1% de
significância, não se rejeita H0, e concluísse que o facturamento da loja é de
pelo menos 28.000,00, ou seja, o gerente está correcto.
c) Observe que a margem de erro é E = 500 MT, como α = 0,05; z0,025 = 1,96.
Pela equação da determinação do tamanho da amostra, temos:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 93
21,96.4800 354,042 355
500
n ⎛ ⎞= = ≈⎜ ⎟
⎝ ⎠
Para atender às especificações, seriam necessárias 355 semanas de estudo
de facturamento. Esse grande tamanho de amostra, se deve ao fato de que o
desvio padrão é muito grande.
Actividade 2
a) A proporção observada de habitantes que fazem reciclagem do lixo é:
68ˆ 0,34
200
p = = habitantes reciclam o lixo doméstico.
b) O valor do coeficiente de confiança é z0,025 = 1,96 . Portanto, um intervalo
de 95% de confiança é dado por:
IC ( p̂ ; 95%) = 0,34(1 0,34)0,34 1,96 [0,275;0,405]
200
⎡ ⎤−
± =⎢ ⎥
⎣ ⎦
c) A partir do intervalo construído, observa que 0,4 pertence ao intervalo de
95% de confiança, portanto, a 5% de significância, decide-se pela não
rejeição de H0 . Isso significa que a proporção de reciclagem é de 40%.
UNIDADE TEMÁTICA 2 – APLICAÇÕES DO TESTE QUI-
QUADRADO EM TABELAS DE CONTINGÊNCIA
Actividade 1
As hipóteses do teste são:
H0 : a proporção de clientes pré-pago e pós-pagos é a mesma para todas as
faixas etárias.
Ha : a proporção de clientes pré-pago e pós-pagos é diferente para cada faixa
etária.
A tabela de valores esperados pode ser expressada por
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 94
Sob H0, 2Q tem uma distribuição 2χ com (7-1) x (2-1)= 6
2 2{ : 14,449}RC Q Q= > graus de liberdade. E a região crítica é dada por
pois o valor crítico a 2,5% de significância é: qc= 14,449.
2 2
2 (32 19,68) (54 42,32) (51 45,71).... 64,198
19,68 42,32 45,71
Q − − −= + + + =
Como 64,2 > 14,5, decide-se pela rejeição de H0 . A 2,5% concluísse que a
proporção de clientes pré-pago e pós-pagos é diferente para cada faixa
etária.
Actividade 2
As hipóteses são:
H0 : o gasto com manutenção de caixas electrónicos não depende de sua
taxa de uso.
H0 : o gasto com manutenção de caixas eletrônicos depende de sua taxa de
uso.
A tabela de valores esperados é:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 95
A estatística de teste é:
2 2 2
2 (22 10, 25) (12 15,04) (27 21,06).... 24, 278
10, 25 15,04 21,06
Q − − −= + + + =
O valor crítico a 1% de significância, com 4 graus de liberdade é qc= 13,277.
Portanto, 2 2{ : 13,277}RC Q Q= > . Isso significa que H0 deve ser rejeitada,
concluísse a 1% que o gasto com manutenção de caixas eletrônicos depende
de sua taxa de uso.
Actividade 3
a) A variável número de gotas é quantitativa discreta, pois não conseguimos
manualmente colocar 1 gota e meia, ou seja, os números de gotas são
inteiros. Contudo, para fazer esse tipo de teste a variável foi categorizada,
separada em níveis, portanto, nesse caso, a variável deve ser considerada
como qualitativa ordinal, já que existe uma ordenação no aumento do número
de gotas. Já a variável tempo de relação é quantitativa contínua, pois o tempo
corre continuamente, podemos observar 2 minutos e meio, 4,75 minutos e
assim por diante. Porém, o tempo também foi categorizado em níveis
crescentes, logo, o tempo de relação também deve ser considerado como
variável qualitativa ordinal
b) H0 : tempo de relação da dipirona não depende do número de gotas por
dose.
Ha : tempo de relação da dipirona depende do número de gotas por dose.
c) Para se ter uma posição é necessário realizar o teste. A seguir segue a
tabela de valores esperados:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 96
Sob H0 2Q , tem uma distribuição 2χ com (3-1) x(4-1)=6 graus de liberdade. E
a região crítica é dada por 2 2{ : 10,645}RC Q Q= > pois o valor crítico a 10%
de significância é qc.= 10,645
2 2 2
2 (6 20) (26 20) (8 20).... 34,8
20 20 20
Q − − −= + + + =
Como 34,8 >>10,645, decide-se pela rejeição de H0 . A 10% concluísse que o
tempo de relação da dipirona depende do número de gotas por dose.
Actividade 4
Ho : a proporção de defeitos leves, moderados e graves é a mesma para os
três tipos de automóveis.
Ha : a proporção de defeitos leves, moderados e graves é diferente para os
três tipos de automóveis.
Antes de calcularmos a estatística de teste, temos que achar a tabela de
valores esperados:
A estatística 2Q é:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 97
2 2 2
2 (12 8, 29) (14 12,02) (18 22,13).... 11,582
8, 29 12,02 22,13
Q − − −= + + + =
Sob H0 , tem uma distribuição 2χ com (3-1) x (3x1)= 4 graus de liberdade.
O valor crítico a 5% de significância, com 4 graus de liberdade é qc= 9,488 .
Portanto . 2 2{ : 9,488}RC Q Q= > .Como 11,582 > 9,488, H0 deve ser
rejeitada. Conclui-se a 5%, que a proporção de defeitos leves, moderados e
graves é diferente para os três tipos de automóveis
O valor crítico a 1% de significância, com 4 graus de liberdade é qc= 13,277 .
Portanto . 2 2{ : 13,277}RC Q Q= > . Como 11,582 < 13,277, H 0 não deve ser
rejeitada. Conclui-se a 1%, que a proporção de defeitos leves, moderados e
graves é a mesma para os três tipos de automóveis.Observação: dependendo do nível de significância adoptado, a decisão para
teste pode ser modificada, pois a estatística de teste está bem próxima do
valor crítico. Portanto, é necessário prestar muita atenção no momento de
olhar o valor crítico da tabela.
Actividade 5
Esse teste é o de independência de variáveis, pois se deseja ver se existe
alguma relação entre o tipo e o turno do dia em que foi feita a reclamação.
H0 : não existe relação entre o tipo e o turno do dia em que foi feita a
reclamação.
Ha : existe relação entre o tipo e o turno do dia em que foi feita a reclamação.
A tabela de valores esperados é:
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 98
Sob H0 2Q , tem uma distribuição 2χ com (4-1) x(5-1)=12 graus de liberdade.
E a região crítica é dada por 2 2{ : 26,217}RC Q Q= > pois o valor crítico a
10% de significância é qc.= 26,217
2 2 2
2 (8 10, 26) (9 9,06) (11 12,39).... 15,898
10, 26 9,06 12,39
Q − − −= + + + =
Como 15,9 < 26,217, decide-se por não rejeitar H0 . A 1% concluísse que não
existe relação entre o tipo e o turno do dia em que foi feita a reclamação.
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 99
UNIDADE TEMÁTICA 3 – APLICAÇÕES CORRELAÇÃO,
REGRESSÃO LINEAR SIMPLES E MÚLTIPLA
Actividade 1
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 100
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 101
Actividade 3
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 102
Gestão de Empresas – Estatística Aplicada II – Semestre 4
Escola Superior Aberta/A Politécnica – Ensino a Distância 103
Actividade 4
Actividade 5