Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Universidade Politécnica 
A POLITÉCNICA 
Escola Superior Aberta 
GUIA DE ESTUDO 
ESTATÍSTICA APLICADA II 
Curso de Gestão de Empresas 
(4º Semestre) 
Moçambique 
 
 
FICHA TÉCNICA 
 
 
 
 
 
Maputo, Julho de 2009 
 
© Série de Guias de Estudo para o Curso de Gestão de 
Empresas (Ensino a Distância). 
 
Todos os direitos reservados à Universidade de 
Uberaba/Universidade Politécnica 
 
Título: Guia de Estudo de Estatística Inferencial 
Edição: 1ª 
 
Organização e Edição 
Escola Superior Aberta (ESA) 
 
Adaptação 
Paulo Massinga (Conteúdo) 
Benedito Marime (Revisão Textual) 
 
 
 
 
UNIDADES TEMÁTICAS 
UNIDADE TEMÁTICA 1 ............................................................................... 1 
A importância da Inferência para decisões administrativas: intervalos de 
confiança e testes de hipóteses ................................................................... 1 
UNIDADE TEMÁTICA 2 ............................................................................. 45 
Aplicações do teste Qui- Quadrado em tabelas de contingência .............. 45 
UNIDADE TEMÁTICA 3 ............................................................................. 62 
Correlação, regressão linear simples e múltipla ....................................... 62 
CHAVE DE CORRECÇÃO DAS ACTIVIDADES ....................................... 92 
UNIDADE TEMÁTICA 1 – A IMPORTÂNCIA DA INFERÊNCIA PARA 
DECISÕES ADMINISTRATIVAS: INTERVALOS DE CONFIANÇA E 
TESTES DE HIPÓTESES ...................................................................... 92 
UNIDADE TEMÁTICA 2 – APLICAÇÕES DO TESTE QUI-QUADRADO 
EM TABELAS DE CONTINGÊNCIA ...................................................... 93 
UNIDADE TEMÁTICA 3 – APLICAÇÕES CORRELAÇÃO, 
REGRESSÃO LINEAR SIMPLES E MÚLTIPLA .................................... 99 
 
 
APRESENTAÇÃO 
Caro(a) estudante 
Está nas suas mãos o manual de estudo da disciplina de Estatística Aplicada 
II que integra a grelha curricular do Curso de Gestão de Empresas oferecido 
pela Universidade Politécnica, na modalidade de Educação a Distância. 
Este guia tem por finalidade orientar os seus estudos individuais neste 
primeiro semestre do curso. Ao estudar a disciplina de Estatística Aplicada II, 
você irá aprender a testar diferentes populações, identificar se as variáveis 
estão relacionadas e aprender a desenvolver modelos estatísticos. 
Este Guia de Estudo contempla textos introdutórios para situar: o assunto que 
será estudado; os objectivos específicos a serem alcançados, ao término de 
cada unidade temática; a indicação de diversas actividades que favorecem a 
compreensão dos textos lidos e a chave de correcção das actividades, que 
lhe permite verificar se você está a compreender o que está a estudar. Vai, 
também, encontrar no guia a indicação de leituras complementares, isto é, 
indicações de outros textos, livros e materiais relacionados ao tema em 
estudo, para ampliar as suas possibilidades de reflectir, investigar e dialogar 
sobre aspectos do seu interesse. Finalmente, encontrará em anexo a este 
guia três cadernos de actividades de avaliação à distância, que deverá 
realizar à medida que for estudando as diversas unidades temáticas desta 
disciplina e enviar para o secretariado da Escola para avaliação. 
Esta é a nossa proposta para o estudo de cada disciplina deste curso. Ao 
recebê-la, sinta-se como um actor que se apropria de um texto para 
expressar a sua inteligência, sensibilidade e emoção, pois você é também o(a) 
autor(a) no processo da sua formação em Gestão de Empresas. Os seus 
estudos individuais, a partir destes guias, nos conduzirão a muitos diálogos e 
a novos encontros. 
A equipa de professores que se dedicou à elaboração, adaptação e 
organização deste guia sente-se honrada em te-lo como interlocutor(a) em 
constantes diálogos motivados por um interesse comum: a educação de 
pessoas e a melhoria contínua da gestão de pessoas, base para o aumento 
da produtividade e da qualidade no sector empresarial no país. 
Seja muito bem-vindo(a) ao nosso convívio. 
A Equipa da ESA 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 1 
 
UNIDADE TEMÁTICA 1 
 
A IMPORTÂNCIA DA INFERÊNCIA PARA DECISÕES 
ADMINISTRATIVAS: INTERVALOS DE CONFIANÇA E TESTES 
DE HIPÓTESES 
 
Adaptado de Fernanda Karine Ruiz Colenghi 
Objectivos 
No final desta unidade você deverá ser capaz de: 
• Compreender conceitos e ideias de estimação pontual e intervalar 
para a média e proporção amostral, nas diferentes situações que 
serão vistas. 
• Calcular o tamanho da amostra necessário para atender 
especificações fixadas, tais como margem de erro e grau de 
confiança. 
• Entender os fundamentos básicos para a tomada de decisões dos 
diferentes cenários de testes de hipóteses. 
• Tomar decisão em testes de hipóteses pelo critério do valor p. 
• Aprender a realizar testes de hipótese para proporção populacional. 
• Tomar decisões a partir de intervalos de confiança. 
• Tomar conhecimento de como os softwares Excel e Minitab calculam 
intervalos de confiança e realizam testes de hipóteses. 
• Praticar os conhecimentos adquiridos no conteúdo estudado, através 
da resolução de exercícios voltados à sua área de actuação. 
Inferência: intervalos de confiança e testes de hipóteses 
Introdução à estatística inferencial 
A Estatística inferencial compreende as técnicas por meio das quais são 
tomadas decisões sobre uma população estatística, decisões estas baseadas 
unicamente na observação de uma amostra ou na elaboração de um juízo. 
Devido ao facto de tais decisões serem tomadas em condições de incerteza, 
requer-se, a estatística inferencial, e ao uso de conceitos de probabilidade, já 
vistos anteriormente (Webster, 2007), para reduzir-se o grau de incerteza. 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 2 
 
Para ilustrar as ideias apresentadas neste manual, pense como um 
Administrador ou um analista de marcas que precisa de estudar a proporção 
de consumidores da marca de sabão em pó OMO, em Maputo. 
Para tal, podemos: 
• seleccionar uma amostra de donas de casa e perguntar-lhes sobre a 
marca de sabão em pó que preferem. 
• usar a proporção das que preferem o sabão OMO como uma 
indicação para o valor da proporção em Maputo, como um todo. 
De acordo com o Instituto Nacional de Estatística, o número de famílias 
residentes em Maputo em 2006 era de 23.832. Considerando-se que exista 
uma dona de casa em cada família, então o número de donas de casa em 
Maputo é 23.832. Suponha que a amostra seleccionada de donas de casa 
seja de 1.000 consumidoras. Podemos escolher as 1.000 numa praça central 
da cidade, ou podemos escolher uma quantidade em cada um dos bairros da 
cidade até completar 1.000 entrevistadas. 
Uma forma simples de escolher é associar um número a cada uma das 
23.832 famílias, colocar todos esses números numa lista e escolher 
aleatoriamente 1000 números. As moradoras correspondentes aos números 
sorteados formariam a amostra. 
Suponha que realiza a escolha desta forma e um amigo seu repete o mesmo 
procedimento. Acha que as amostras escolhidas por si e por seu amigo serão 
as mesmas? É intuitivo assumir que não. 
Se realizarmos várias vezes uma amostragem descrita, provavelmente 
obteremos amostras compostas por consumidoras diferentes. A questão é: 
apesar de diferentes, podemos ter respostas próximas ou iguais nas varias 
amostras? 
A resposta é afirmativa e está relacionada às ideias desenvolvidas a seguir. 
Resumindo a discussão do parágrafo anterior, podemos dizer que devido à 
natureza aleatória geralmente associado a amostragem, não podemos 
garantir que repetições das amostras produzam sempre resultados idênticos. 
Assim, ao colhermos uma amostra, não podemos prever antecipadamente o 
seu resultado. Em outras palavras, todas as quantidadesassociadas à 
amostra terão um carácter aleatório e, portanto, devem ter tratamento 
probabilístico. 
Nesta secção, vamos formalizar alguns conceitos relacionados à estimação, 
com realce para a obtenção de informações a respeito de características de 
interesse na população. 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 3 
 
Logo em seguida, a secção será dividida em duas partes: A e B, conforme 
descrito, a seguir: 
• na parte A, serão abordados os diferentes cenários de intervalo de 
confiança para média, cálculo de tamanho de amostra e intervalo de 
confiança para proporção; 
• na parte B, os vários cenários de testes de hipóteses para a média e 
proporção e outros critérios de decisão baseados em intervalos de 
confiança e valor p . 
Os exemplos das partes A e B estão voltados para áreas administrativas e 
contabilísticas. Através deles, verá como a inferência estatística é uma 
ferramenta útil para estimação e tomada de decisões. Em seguida, aprenderá 
como se faz o intervalo de confiança e teste de hipóteses no Minitab e no 
Excel. Por fim terá actividades e exercícios a resolver para cimentar os 
conhecimentos aprendidos. 
Considerações iniciais 
Parâmetros, Estimadores e Estimativas 
Para formalizar as ideias apresentadas nesta secção, precisamos de definir 
parâmetros, estimadores e estimativas. 
Parâmetro 
Parâmetros são as quantidades de nosso interesse numa população e são 
desconhecidas na maioria das aplicações. Podem ser representadas por 
letras gregas, tais como θ , µ e ,σ entre outras. A média( µ ) e desvio 
padrão (σ ) são os parâmetros do nosso interesse . 
Estimador e estimativa 
Geralmente são representados por símbolos gregos com um acento 
circunflexo. 
Estimativas pontuais são os valores numéricos assumidos pelos símbolos, 
µ , σ que são as notações que vamos utilizar para a média e o desvio 
populacionais. Como o estimador, por exemplo , é uma função das variáveis 
aleatórias, a sua distribuição de probabilidade será a base de inferências 
sobre os parâmetros da população. Para que entenda melhor, vamos rever 
como se calcula a média e o desvio padrão,. 
Considere uma amostra de tamanho n retirada de uma população N e 
representada por um conjunto de variáveis aleatórias ( 1 2, ,..... nX X X ) . Os 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 4 
parâmetros média, variância e proporção de certa da população são 
representados por µ , σ e p, respectivamente. Os estimadores usuais são 
média, variância e a proporção amostral, que sao representados, 
respectivamente, por x , σ̂ e ρ̂ , temos: 
1 2
1
...... nn i
i
x x x xx
n n=
+ +
= =∑ 
2 2
1
1ˆ ( )
n
i
i
x x
n
σ
=
= −∑ 
n mero de itens com caracter stica na amostraˆ ú íp
n
= 
Cada um dos estimadores depende dos valores que estão na amostra 
aleatória . Este tipo de estimação é ( 1 2, ,..... nX X X ) chamado de estimação 
pontual. 
Vários sao os critérios utilizados por estatísticos e matemáticos para 
seleccionar estimadores apropriados para calcular, com base em dados da 
amostra, os parâmetros populacionais. Uma das características mais 
importantes de um estimador é que não seja viciado (não tendencioso). 
Um estimador não viciado é uma estatística amostral cujo valor esperado é 
igual ao parâmetro que está a ser estimado. Pode encontrar mais 
explicações sobre o assunto no capitulo 7 Webster (2007) 
Os estimadores x e p̂ têm boas propriedades e não são viciados, no entanto 
é 2σ viciado, portanto não é adequado para estimação. Para eliminar esse 
vício um estimador é definido como: 
2 2
1
1 ( )
1
n
i
i
S x x
n =
= −
− ∑ 
2S é um estimador não viciado para estimar 2σ . Esse estimador recebe o 
nome de variância amostral e será sempre denotado por 2S para distinguir 
de outros estimadores denotados genericamente por 2σ . 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 5 
 
Exemplo! 
O número de faltas de funcionários de determinada empresa por ano foi 
anotado para uma amostra de alguns funcionários escolhidos ao acaso. 
Deseja-se saber qual é o número médio de faltas por funcionário em um ano. 
Os dados obtidos são: 2, 2, 3, 1, 4, 5, 3, 4, 5, 6, 5, 3, 4, 3, 4, 2, 4, 3, 5, 2, 1, 6, 
2, 3 e 4. A estimativa da média populacional é: 
2 2 .......... 3 4 3,44
25
x + + + += = 
Logo, o número médio de faltas por funcionário em cada ano é 
aproximadamente 4. 
A estimativa da variância amostral é: 
2 2 2
2 (2 3,44) (2 3,44) ..... (4 3,44) 2,006
24
S − + − + + −= = 
Antes de introduzirmos o conceito de intervalo de confiança vamos perceber 
um conceito importante que é o Teorema Central do Limite. 
Teorema Central do Limite 
Suponha uma amostra aleatória simples de tamanho n é seleccionada de 
uma população com média µ e variância 2σ (nota que o modelo da variável 
aleatória não é especificado). Representando tal amostra por n variáveis 
aleatórias independentes ( 1 2, ,..... nX X X ) e, representando a sua média por 
x , temos que: 
(0,1)
/
nx Z N
n
µ
σ
→∞− ⎯⎯⎯→ 
Em outras palavras, o teorema garante que, para um n grande, a distribuição 
da média amostral, devidamente padronizada, comporta-se como um modelo 
Normal com média 0 e variância 1. Se não se recorda muito bem, reveja o 
material sobre distribuição normal da disciplina de Estatística Básica. 
Pelo teorema, temos que quanto maior o tamanho da amostra, melhor é a 
aproximação. Estudos de simulações mostram que, em muitos casos, os 
valores de n próximos de 30 fornecem aproximações boas para situações 
práticas. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 6 
Uma aplicação importante está associada com a distribuição da proporção 
amostral ˆ( )p . Lembra-se que definimos a proporção amostral como a 
fracção de indivíduos com uma dada característica em uma amostra de 
tamanho n. Se construirmos para o i-ésimo indivíduo uma variável aleatória 
iY tal que: 
 
podemos, então, escrever a proporção amostral como: 
1
1
......ˆ
n
n n i
i
Y Y Y Yp Y
n n=
+ + +
= = =∑ 
A proporção amostral é a média de variáveis aleatórias convenientemente 
definidas. Assumindo que a proporção de indivíduos com a característica na 
população é p e que os indivíduos são seleccionados aleatoriamente, temos 
que 1........., nY Y formam uma sequência de variáveis aleatórias do modelo 
Bernoulli (visto no manual de Estatística Básica). Assim, a média e a variância 
do modelo Bernoulli são dadas por p e (1 ) /p p n− , respectivamente. A partir 
do Teorema Central do Limite, temos que: 
ˆ
(0,1)
(1 )/
np p N
p p n
→∞− ⎯⎯⎯→
−
 
Vejamos, agora, a parte A, onde vai estudar a estimação intervalar, para 
diversos casos. Logo em seguida, na parte B, irá aprender os vários cenários 
de testes de hipóteses para média e proporção. 
Parte A: Estimação por Intervalo 
Os estimadores vistos até ao momento são pontuais, pois fornecem uma 
estimativa numérica para o parâmetro de interesse. O método que a seguir 
vamos estudar é denominado de estimação intervalar e inclui a estimativa 
pontual e informações a respeito da sua variabilidade. 
Examinaremos, a seguir, seguintes casos: 
• 2σ conhecida; 
• 2σ desconhecida e amostra grande; 
• 2σ desconhecida e amostra pequena. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 7 
1º Caso: 2σ conhecida 
Quando a variância populacional 2σ é conhecida, e examina-se uma amostra 
de tamanho n , vimos anteriormente que a média amostral tem uma 
distribuição normal com a mesma média µ e variância 2σ / n . Para um valor 
fixado, tal que 0 < α < 1 , podemos obter um valor zα/2 tal que: 
/2 /2 /2( ) ( )P Z z P z z z aα α α< = − < < = 
Recorde-se que no curso de EstatísticaBásica consideramos que a 
distribuição Normal é simétrica; portanto, a área α deve ser igualmente 
distribuída em torno de 0. Veja, na figura, a seguir: 
 
(1-α ) é o coeficiente de confiança, e zα/2 é o valor de z que fornece uma área 
de α/2 na extremidade superior a distribuição normal padrão; assim, temos o 
intervalo: 
/2 /2 /2 /2
Xz z X z X z
n n nα α α α
µ σ σµ
σ
−
− < < ⇒ − < < + 
Assim o intervalo de confiança para µ, como o coeficiente de confiança 1-α é 
dado por: 
/2 /2( ,1 ) [ ; ]IC X z X zn nα α
σ σµ α− = − + 
Interpretação do intervalo de confiança 
Se tivermos várias amostras do mesmo tamanho, e para cada uma 
calcularmos os correspondentes intervalos de confiança e o coeficiente de 
confiança 1-α , esperamos que a proporção de intervalos que contenham o 
valor de µ seja igual a 1- α . 
Outro conceito importante é o do erro de estimação, o qual é fundamentado a 
partir do intervalo de confiança e é dado por: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 8 
/2E z nα
σ
= 
A fórmula do erro, ou também chamada margem de erro, revela que há, 
efectivamente, três determinantes do tamanho ou quantidade do erro: 
• a confiança desejada, representada pelo valor de zα/2 ; 
• a dispersão na população σ, ; 
• o tamanho da amostra n . 
Os factores no numerador têm um efeito directo no erro, ou seja, quanto 
maior o coeficiente de confiança ou a dispersão da população, maior o erro. O 
tamanho da amostra apresenta o efeito inverso na margem de erro, quanto 
maior a amostra menor o erro. 
Calcula-se o valor de zα/2 usando a Tabela Normal padronizada, que se 
encontra no fim desta secção. 
 
 
Observe que p (0 ≤ z ≤ 1,64)=0,45 , logo p (z>1,64)=0.05 ,pois p (-∞ ≤ z ≤ ∞ ) 
= 1e por simetria da distribuição p (z ≤0) = p (z ≥0)=0.5. A partir do valor de 
z0.05 = 1,64 constrói-se um intervalo de 90% de confiança (α= 0,1). 
Veja, a seguir, alguns exemplos. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 9 
Exemplo 1 
Um consultor obtêm uma amostra aleatória de tamanho n =16 de um conjunto 
de contas a pagar. Sabe-se que o desvio padrão das contas a pagar é 57,00 
Mt. A partir da amostra, observou-se que a média amostral foi x =250,00 Mt. 
Construa um intervalo de 95% para o valor médio de crédito que o consultor 
virá a pagar por cada conta. 
IC (µ, 95%) = [ 250-zα/2 
57
16
; 250 + 250-zα/2 
57
16
] ⇒ [250-1,96 
57
16
; 250 
+1,96 
57
16
] 
Pela Tabela de distribuição Normal padronizada, ve-se que z0.025 = 1,96, pois 
p (0 ≤z≤1,96) = 0.475 , logo p (z ≥1,96) = 0.025. Assim, o intervalo de 
confiança para o valor médio do valor que o consultor irá pagar, com 95% de 
confiança é [ 222,07;277,93]. 
2º Caso: 2σ desconhecida e amostra grande (n ≥ 30) 
Na maioria das aplicações, a variância populacional (σ2) é desconhecida. 
Quando isso acontece, o estimador não viciado 2S , pode ser usado para 
estimar σ2. Nos casos em que a amostra é grande, n ≥ 30, , o teorema 
central do limite fornece uma boa aproximação para a distribuição da média 
amostral. Assim, o intervalo de confiança de (1-α) %, é representado da 
forma: 
/2 /2( ,1 ) [ ; ]IC X z X zn nα α
σ σµ α− = − + 
Tal que 2S S= . Portanto, a construção do intervalo de confiança é 
semelhante à que foi feita no 1º caso: a única diferença é que no lugar de σ , 
usasse o desvio padrão amostral S . 
Exemplo 2 
Para ilustrar essa situação, consideremos o seguinte exemplo: foi um estudo 
de amostragem pela EMOSE . Suponha que, como parte de uma revisão 
anual das apólices de seguro de vida, a EMOSE selecciona uma amostra 
aleatória simples de 36 apólices de seguro de vida. As correspondentes 
apólices de seguro de vida são revistas em termos de garantia de cobertura. 
Para o estudo, um gerente solicitou uma estimativa do intervalo de confiança 
de 90% da idade média para a população dos proprietários da apólice de 
seguro de vida. A idade média da amostra é x = 39 anos. O desvio padrão 
da amostra é S =7,77 . O valor de z0.025 é 1,645. Portanto, o intervalo de 90% 
é dado por: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 10 
[ 39,5 – 1,645
7,77
36
; 39,5 + 1,645 
7,77
36
] ⇒ [39,5 -2,13;39,5 +2,13] 
A margem de erro é 2,13 e a estimativa do intervalo de 90% da idade média 
da população de proprietários de apólices de seguros é de 37,37 a 41,63. 
3º Caso: 2σ desconhecida e amostra pequena (n < 30) 
Se tivermos uma amostra pequena (n < 30) e quisermos construir um 
intervalo de confiança, mas não conhecermos σ2 , podemos utilizar a 
distribuição de t-Student, ou simplesmente, distribuição t. Esta é utilizada para 
determinar valores críticos representados por tα/2 . Na tabela da distribuição t, 
pode observar que nas linhas aparece o número de graus de liberdade, que é 
dado por n-1 . Os graus de liberdade, ou gl, correspondem ao número de 
valores que podem variar após terem sido impostas certas restrições a todos 
os valores. 
Algumas propriedades interessantes da distribuição t-Student 
• é diferente conforme o tamanho da amostra, ou seja, ela 
varia de acordo com graus de liberdade; 
• apresenta a mesma forma geral simétrica (forma de sino) que a 
distribuição Normal, mas com maior variabilidade, o que é esperado 
em amostras pequenas, logo P(t ≥ 0) = 0.5 e P(t≤ 0) = 0.5; 
• o desvio padrão da distribuição t varia com o tamanho da amostra, 
mas é superior a 1; 
• à medida em que aumenta o tamanho da amostra, a distribuição t 
aproxima-se mais e mais da distribuição normal padronizada. 
Observe na figura a seguir, que a medida em que se aumenta o número de 
graus de liberdade, representado por “v ”, a distribuição t , assemelha-se mais 
com a distribuição Normal padrão, também representada por N (0,1). 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 11 
 
Podemos, agora, determinar os valores da a margem de erro e construir 
intervalos de confiança: 
/2, 1n
SE t
nα −
= tal que /2, 1ntα − é o valor de t que fornece a área de α/2 na 
extremidade superior da distribuição t com n-1 graus de liberdade. 
E o intervalo de (1-α)% de confiança é dado por 
/2, 1 /2, 1n n
S SX E X E X t X t
n nα α
µ µ− −− < < + ⇒ − < < + 
Ou o intervalo de confiança para µ, com coeficiente de confiança 1-α, pode 
ser expresso por 
/2, 1 /2, 1( ,1 ) [ ; ]n n
S SIC X t X z
n nα α
µ α − −− = − + 
Exemplo 3 
Voltando ao exemplo do número de faltas de funcionários os valores 
estimados de X e S2 foram respectivamente 3,44 e 2,006, sendo 
2 2,006 1,4163S S= = = . Um intervalo de 95% de confiança para o 
número médio de faltas por funcionário será: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 12 
 
Primeiro, vamos calcular t0,0025,24 , uma vez que a amostra tem tamanho n = 
25 . Pela tabela da distribuição t, o valor crítico que deixa área de 2,5% acima 
da curva, com 24 graus de liberdade é t0,0025,24 = 2,064. Veja que a tabela 
anterior é uma parte da tabela t. Assim o intervalo de 95% de confiança para 
a média é: 
1,4163( ,95%) [3,44 2,064 ] [3,44 0.585] [2,855;4,025]
25
IC µ = − ⇒ ± ⇒ 
E a margem de erro é dada por 0,585. 
 
Determinação do tamanho da amostra 
Suponha que os dados ainda não foram colectados. Como sabemos quantos 
elementos da população devem ser escolhidos? Suponha, por exemplo, que 
queiramos estimar o salário médio de professores do ensino público do 1º 
grau em Maputo. Quantos salários devemos incluir na nossa amostra? 
O calculo do tamanho da amostra é um problema importante, porque 
amostras desnecessariamente grandes acarretam desperdício de tempo e de 
dinheiro; e amostras demasiadamente pequenas podem levar a resultados 
não-confiáveis. Em muitos casos é possível determinar o tamanhomínimo de 
uma amostra para estimar um determinado parâmetro. A fórmula para 
determinar o tamanho da amostra é dada por: 
2/2[ ]zn
E
α σ= 
O tamanho da amostra deve ser um número inteiro; quando o resultado não é 
inteiro, como regra, deve-se arredondar para o próximo numero. 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 13 
 
Com esta fórmula, pode-se determinar o tamanho da amostra necessária 
para dar resultados precisos, com um grau de confiança e uma margem de 
erro pré determinados. A fórmula deve ser usada quando conhecemos o valor 
da σ e queremos determinar o tamanho da amostra necessário para 
estabelecer, um nível de confiança de 1-α , e o valor de µ a menor que ±E. A 
existência desta fórmula implica que o tamanho da amostra não depende do 
tamanho da população. 
Exemplo 4 
Um consultor deseja calcular o salário médio para o primeiro ano de trabalho 
de um bacharel recém formado do curso de Administração. Quantos valores 
do salário devem ser obtidos, se o consultor deseja ter 95% de confiança em 
que a média amostral esteja a menos de 3000,00 MT da verdadeira média 
populacional? Suponha que sabemos através de um estudo anterior, que, 
para estes salários, σ = 2050,00 Mt. 
Queremos determinar n, dado que α = 0.05, E = 300, σ = 2050 . Aplicando a 
fórmula: 
n = 2
1,96.2050[ ] 179,38 180
300
= ≅ 
Portanto, devemos obter uma amostra de, pelo menos, 180 salários do 
primeiro ano, seleccionados aleatoriamente. Com tal amostra, teremos 95% 
de confiança em que a média amostral X difere em menos de 3000,00 MT 
da média populacional µ. 
Estimação da proporção populacional 
Vimos, no início desta secção, que o melhor estimador para a proporção é p̂ 
(Webster,2007). O raciocínio para a construção do intervalo de confiança da 
proporção é semelhante ao da média. O estimador usado para o desvio da 
proporção é dado por: 
 ˆ ˆ(1 )p pσ = − 
Portanto, a margem de erro para a proporção populacional e o intervalo de 
confiança são dados, respectivamente, por: 
/2 /2
ˆ ˆ ˆ ˆ(1 ) (1 )ˆ ˆ; ( ;(1 )%) [ ]p p p pE z IC p p z
n nα α
α− −= − = ± 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 14 
 
Este é um intervalo de confiança de (1 )%α− . Recorde-se de como se 
encontra o nível crítico /2zα , que precisamos na construção do intervalo. 
Exemplo 5 
Com o intuito de melhorar a qualidade dos serviços de um hospital, a 
administração fez uma pesquisa para avaliar a satisfação dos funcionários. 
Como o quadro era muito grande e fazer uma entrevista a cada funcionário 
leva muito tempo e dinheiro, uma amostra aleatória de 2 funcionários por 
sector foi extraída, totalizando 36 entrevistados. A última pergunta do 
questionário era saber se o funcionário estava satisfeito com o emprego ou 
não. Para não prejudicar o funcionário, o sigilo foi mantido de forma que o 
entrevistado não pudesse ser identificado. Dos 36 inquiridos, 23 afirmaram 
que estavam satisfeitos com o emprego. Dê uma estimativa de 95% de 
confiança da proporção da satisfação dos funcionários do hospital. 
A estimativa pontual de p é: 
 
23ˆ
36
p = = 0.6389 ≈ 0.64 
O intervalo de 95% de confiança é dado por: 
0,64(1 0,64)[0,64 1,96 ] [0,64 0,157] [0, 483;0797]
36
−
± ⇒ ± ⇒ 
Com 95% de confiança, podemos dizer que a proporção de funcionários 
satisfeitos está entre 0,483 e 0,797. 
 
Determinação do tamanho da amostra 
No caso de proporção populacional, o calculo do tamanho da amostra é feito 
de forma similar à que foi feita para a média. 
A partir da equação do erro dada acima, estima-se em função de : 
2
/2
2
ˆ ˆ( ) (1 )z p pn
E
α −= 
A proporção utilizada pode ser escolhida: 
• a partir de um estudo piloto, calcula-se a proporção amostral 
ˆ( )p p AB=
uuur
 ; 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 15 
• usa-se p̂ =0.5, pois este é o valor que maximiza a variância de p ; 
• usa-se o julgamento de especialista da área, que decide qual é o valor 
mais provável de p ; 
• usa-se a proporção da amostra, a partir de unidade similar. 
Quando n não for inteiro, arredonda-se 
Exemplo 6 
A Entreposto deseja saber a proporção de clientes que fazem a revisão 
mecânica nos seus mecânicos autorizados. O seu conselho directivo decide 
que o estudo deve ter uma margem de erro de três pontos percentuais, a 
percentagem de clientes que consultam os mecânicos quando apresentam 
problemas mecânicos ou por cause de um outro serviço. Supondo que se 
pretende um nível de confiança de 95% nos resultados, quantos motoristas 
devem fazer parte da amostra? 
a) Suponha que tenhamos uma estimativa p̂ com base num estudo anterior, 
que mostrou que 18% dos motoristas consultavam os mecânicos. 
b) Suponha que não tenhamos qualquer informação que possa sugerira um 
valor de p . 
Solução: 
a) p̂ ao nível de 95% de confiança, α = 0,05 e zα/2 =1,96 . 
A margem de erro é de três pontos percentuais, logo E = 0.03 : 
2
2
1,96 (0,18)(0,82) 630,0224 631
0.03
n = = ≈ 
Devemos entrevistar pelo menos 631 motoristas seleccionados 
aleatoriamente. 
b) Similar a parte (a), utilizamos zα/2 =1,96 e E= 0.03 , mas sem qualquer 
conhecimento prévio de p, temos que utilizar o valor que maximiza a 
variância. 
2 2
2
1,96 (0,5) 1067,1111 1068
0.03
n = = ≈ 
Para termos 95% de confiança de que nossa amostra está a menos de três 
pontos percentuais da verdadeira percentagem de todos os clientes, devemos 
fazer uma selecção aleatória e entrevistar 1068 motoristas. Comparando este 
resultado com a amostra de 631 obtido na parte (a), podemos ver que, na 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 16 
ausência de um estudo prévio, é necessária uma amostra maior para 
obtermos os mesmos resultados que obteríamos se pudéssemos estimar o 
valor de p. 
Parte B: teste de hipóteses 
Nesta parte do roteiro, estudaremos os testes de hipóteses (ou afirmações) 
sobre parâmetros de uma população. Vejamos, inicialmente, três exemplos 
de aplicação. 
Exemplo 1 
Uma indústria farmacêutica deseja testar um novo medicamento no combate 
à dor de cabeça. A ideia é verificar se o novo medicamento, Sem dor, é mais 
rápido para actuação no organismo de uma pessoa do que os analgésicos 
comuns. Sabe-se que o tempo de alívio de dor dos últimos é 15 minutos. 
Logo, a indústria deseja testar se o medicamento sem dor age no organismo 
em menos de 15 minutos. Admite-se que o tempo de alívio do medicamento 
no organismo segue uma distribuição normal. 
Exemplo 2 
O gerente de um hotel estabeleceu que a quantia média gasta por hóspedes 
em um fim de semana é de 500,00 MT, ou menos. Um funcionário do sector 
de contabilidade observou que as despesas totais dos hóspedes têm 
aumentado nos últimos meses. O contabilista do hotel irá verificar se essa 
afirmação é verdadeira ou não. Admite-se que o gasto dos hóspedes segue 
uma distribuição normal. 
Exemplo 3 
A TDM afirma que o consumo mensal de ligações a longa distância foi 3 
horas e 35 minutos por residência no último ano. Deseja-se avaliar se o 
consumo por residência deste ano é o mesmo. Admitimos que o consumo 
mensal de ligações a longa distância segue uma distribuição normal. 
Existem testes de hipóteses para média e para proporção de uma população. 
Uma suposição que precisa de ser feita é que os dados da população provêm 
de uma distribuição normal onde a média ou proporção são desconhecidos e 
a variância pode ser conhecida ou não. Vamos, agora, definir as 
componentes de um teste de hipóteses: 
A hipótese nula (denotada por Ho): é uma afirmação sobre o valor de um 
parâmetro populacional (como a média ou proporção). Ela deve conter a 
condição de igualdade e escrever como = ≤ ou ≥ . (Ao fazermos, 
efectivamente, o teste, trabalhamos com a hipótese de que oparâmetro é 
igual a um valor especificado.) Para a média, temos as três formas possíveis 
para a hipótese nula: 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 17 
Ho:µ = algum valor; 
Ho:µ ≥ algum valor; 
Ho:µ ≤ algum valor. 
a hipótese alternativa (denotada por Ha): é uma afirmação que complementa 
(parte que não está em Ho) a hipótese nula. Esta pode ser descrita em uma 
das três formas: 
Ha:µ ≠ algum valor; 
Ha:µ < algum valor; 
Ha:µ > algum valor. 
Nota sobre a indicação das suas hipóteses (Webster, 2007): 
Se está a fazer uma pesquisa e deseja usar um teste de hipótese para 
sustentar a sua afirmação, esta deve ser formulada de maneira que se torne 
em hipótese alternativa, e não pode conter a condição de igualdade. 
Para exemplo 1: 
a hipótese nula é Ho: µ ≥ 15 minutos; 
a alternativa é Ha: µ < 15 minutos. 
Para exemplo 2: 
a hipótese nula é Ho:µ ≤ 500,00 MT; 
a alternativa é Ha:µ : > 500,00 MT. 
Para exemplo 3: 
a hipótese nula é Ho:µ =215 minutos (3 horas e 35 minutos); 
a alternativa é Ha:µ ≠ : 215 minutos 
Ao testarmos as hipóteses, podemos tomar duas decisões: rejeitar Ho ou 
aceitar Ho. Estas podem estar correctas ou incorrectas, mesmo quando se faz 
o do teste correctamente. 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 18 
 
Quando a decisão é incorrecta, dois tipos erros são podem acontecer: 
1. erro tipo I: consiste em rejeitar a hipótese nula quando ela é 
verdadeira 
• no exemplo 1, seria dizer que o tempo de reacção do 
medicamento Sem dor é menor que 15 minutos, quando, na 
verdade, é igual ou superior a 15 minutos; 
• no exemplo 2, seria dizer que o consumo dos hóspedes é 
superior a 500,00 MT quando na verdade é igual ou inferior a 
500,00 MT 
• no exemplo 3, seria dizer que o consumo mensal de ligações 
por residência é diferente de 3 horas e 35 minutos, quando, na 
verdade, esse consumo é igual a 3 horas e 35 minutos. 
A probabilidade de rejeitar Ho, quando ela é verdadeira, é chamada de nível 
de significância (denotada por α ) e geralmente é determinada antes de se 
realizar o teste. 
2. erro tipo II: consiste em não rejeitar a hipótese nula quando ela é 
falsa. 
• no exemplo 1, seria dizer que o tempo de relação do novo 
medicamento é igual ou superior a 15 minutos, quando na 
verdade é inferior a 15 minutos; 
• no exemplo 2, seria dizer que o consumo dos hóspedes é igual 
ou inferior a 500,00 MT, quando, na verdade, é superior a 
500,00 MT; 
• no exemplo 3, seria dizer que o consumo mensal de ligações 
por residência é igual a 3 horas e 35 minutos, quando, na 
verdade ,é diferente de 3 horas e 35 minutos. 
A probabilidade de não rejeitar Ho , quando ela é falsa, é representada pelo 
símbolo β. 
Observação: No teste de hipóteses, devemos escolher a probabilidade do 
erro tipo I (α) , mas não seleccionamos a probabilidade do erro tipo II β . O 
ideal seria se α =β=0 , mas isso não é possível; devemos controlar as 
probabilidades de erro α e β. Pode-se mostrar, matematicamente, que , α, β e 
o tamanho da amostra n estão todos interrelacionados, de forma que, 
escolhidos quaisquer dois deles, o terceiro está automaticamente 
determinado. Na prática, o comum é determinar os valores de α e n, de modo 
que o valor de fica β determinado. 
Além das definições anteriores, existem outras componentes que precisam de 
ser definidas: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 19 
 
 estatística de teste: é um valor baseado nos dados amostrais para 
tomar uma decisão sobre a rejeição da hipótese nula. No caso de teste para 
média, ela é ( a decisão) formada pela média amostral e pelo desvio padrão. 
Veremos, mais a frente, como se constrói a estatística de teste; 
a região critica: é o conjunto de todos os valores da estatística de 
teste que levam à rejeição da hipótese nula; 
 o valor crítico: é o valor, ou valores que separa(m) a região crítica 
dos valores da estatística de teste que não levam à rejeição da hipótese nula. 
Os valores críticos dependem da natureza da hipótese nula, da distribuição 
amostral, e do nível de significância α . 
 
Estatística de teste 
A estatística de teste, é utilizada no teste de hipóteses, e é construída a partir 
do Teorema Central do Limite. Para a média, é dada por: 
0Xz
n
µ
σ
−
= , considerando que o valor de µ0 é o valor extremo dado pela 
hipótese nula. 
Também, podemos definir a estatística de teste para a proporção: 
0
0 0
ˆ
(1 )
p pz
p p
n
−
=
−
, sendo que 0p é o valor extremo fornecido pela hipótese 
nula. 
Mais adiante, você entenderá melhor como se faz o teste para proporção. 
Vamos concentrar-nos, primeiro no teste para a média. 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 20 
 
Tipos de testes: bilateral ou unilateral 
As caudas de uma distribuição são as regiões extremas delimitadas pelos 
valores críticos. A partir de H0, dá para saber qual é o tipo de teste. A cauda 
corresponde à região crítica que contém os valores que rejeitam a H0. A 
figura, a seguir, ilustra como se verificam os tipos de testes. No exemplo 1, o 
teste é unilateral (esquerdo). No exemplo 2, o teste é unilateral (direito). No 
exemplo 3,o teste é (bilateral). As expressões unilateral e bilateral, em alguns 
livros, são denominadas unicaudal e bicaudal. 
 
Observação: Quando o teste é unilateral, as hipóteses são definidas como: 
• Ho : µ ≤ µ0 contra Ha : µ > µ0 para o teste unilateral direito ou 
• Ho : µ ≥ µ0 contra Ha : µ < µ0 
Contudo, alguns autores usam as mesmas hipóteses definidas de forma 
diferente: 
• Ho:µ = µ0 contra Ha : µ > µ0 para o teste unilateral direito ou 
• Ho:µ = µ0 contra Ha : µ < µ0 
A diferença está no sinal de igualdade para a hipótese nula no teste unilateral, 
mas essa diferença de notação não altera a construção do teste. 
Exemplo 4 
Uma organização de defesa do consumidor afirma que os consumidores dos 
postos de gasolina da Petromoc estão a ser prejudicados em virtude da 
seguinte condição: quando o marcador indica 1litro, a quantidade média de 
combustível fornecida é realmente inferior a 1 litro. 
a) Expresse, de forma simbólica, a afirmação de que os postos da Petromoc 
estão a prejudicar os consumidores. 
A afirmação de que os consumidores estão a ser prejudicados é equivalente a 
afirmar que a média é inferior a 1 litro, o que, em forma simbólica, expressa-
se como 
µ < 1 litro. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 21 
b) Identifique a hipótese nula Ha. 
A afirmação original µ < 1 litro não contém a igualdade, conforme exigido pela 
hipótese nula. A afirmação original é a hipótese alternativa; e a hipótese nula 
é H0 µ ≥ 1. 
c) Identifique a hipótese alternativa Ha . 
A hipótese alternativa é Ha: µ < 1. 
d) Identifique este teste como bilateral, unilateral direito ou unilateral 
esquerdo. 
Este teste é unilateral esquerdo, porque a hipótese nula é rejeitada se a 
média amostral é significativamente inferior a 1 (está à esquerda de 1). 
(Como uma dupla verificação, note que a hipótese alternativa µ < 1 contém o 
sinal <, que aponta para a esquerda.) 
e) Identifique o erro tipo I para este teste. 
O erro tipo I (rejeição de uma hipótese nula verdadeira) consiste em rejeitar 
H0 :µ ≥ 1 quando a média populacional é realmente igual ou superior a 1. 
Trata-se de um erro sério, porque os postos da Petromoc serão acusados de 
prejudicar os consumidores quando, na realidade, não há tal prejuízo. 
f) Identifique o erro tipo II para este teste. 
O erro tipo II (não rejeitar a hipótese nula falsa) consiste em não rejeitar H0 :µ 
≥ 1 litro, quando a média populacional é realmente inferior a 1. Isto é, 
concluímos que não há evidência suficientepara comprovar o prejuízo, 
quando esse prejuízo está ocorrer. 
Suponha que a conclusão seria rejeitar a hipótese nula. Enuncie a conclusão 
em termos não-técnicos; lembre-se que deve lidar com a afirmação original. 
Concluir que há evidências suficientes para apoiar a afirmação de que a 
quantidade média de combustível fornecida é inferior a 1 litro. 
g) Suponha que a conclusão seja não rejeitar a hipótese nula. Enuncie a 
conclusão em termos não-técnicos; lembre-se que deve lidar com a 
afirmação original; certifique-se. 
Concluir que não há evidência suficiente para apoiar a afirmação de que a 
quantidade média de combustível fornecida é inferior a 1 litro. Para 
realizarmos os testes, temos que levar em consideração o tipo de teste 
(bilateral ou unilateral), e se a variância dos dados é conhecida ou não. Se 
esta for desconhecida, devemos observar se a amostra é grande (n > 30) ou 
não. Isto é importante, porque a partir dessa análise é que as estatísticas de 
teste e a região crítica são construídas. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 22 
Vamos estudar todos os quatro casos: 
Caso 1: Teste unilateral para 2σ conhecida ou amostra grande (n>30) 
Quando se realiza um teste unilateral, a hipótese alternativa é Ha : µ < µ0 
(valor especificado por H0) ou Ha: µ > µ0 , no caso dos testes unilaterais 
esquerdo e direito, respectivamente. A partir de uma amostra dos dados, 
calcula-se a estatística X . No caso em que a variância é conhecida, a 
estatística de teste será: 
0Xz
n
µ
σ
−
= 
No caso em que a variância é desconhecida, mas a amostra é grande (n > 
30) , utiliza-se o valor de S dos dados como uma estimativa de σ . Portanto, 
a estatística de teste será: 
0Xz
S n
µ−
=
 
Exemplo 5 
O dono de um grande supermercado afirma que o gasto mensal de seu 
estabelecimento com energia eléctrica é 40000 kW/h. O consultor contratado 
pelo supermercado deseja avaliar se esta afirmação é verdadeira. após 36 
dados referentes ao consumo dos meses anteriores terem sido colhidos, ele 
observa que: X =420000 kW/h e S = 3500 kW/h. O teste será realizado 
tendo em conta que a probabilidade do erro tipo I é 0,05. Suponha que o 
consumo de energia do supermercado segue uma distribuição normal. 
Hipóteses: 
H0: µ = 40000 e Ha: µ ≠ 40000 
Estatística de Teste: 
Pelas observações, temos: 
420000 40000 3,43
3500 36
z −= = 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 23 
 
{ ,RC z= ∈ℜ tal que z<-1,96 ou z>1,96} 
Decisão: 
Como , 3,43 RC∈ decide-se rejeitar H0 , a 5% de significância. 
Conclusão: 
Há evidências de que o consumo de energia desse supermercado não é 
40000 kW/h. 
Caso 2: Teste unilateral para σ2 desconhecida e amostra pequena (n<30) 
Nos casos vistos até ao momento, a amostra era grande e, portanto, era 
possível utilizar o Teorema Central do Limite e usar a aproximação normal 
para a estatística de teste. Contudo, não podemos utilizar esse teorema para 
amostras pequenas. Para realizar testes com pequenas amostras, vamos 
seguir o mesmo raciocínio que foi utilizado na estimação do intervalo. Ao 
invés de utilizar a aproximação normal, vamos recorrer à distribuição de t -
Student. A estatística de teste, neste caso, é: 
0Xt
S n
µ−
= 
A região crítica é construída utilizando a distribuição t com n-1 graus de 
liberdade. No caso em que a hipótese é unilateral, temos: 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 24 
Quando se observa o valor da estatística na região crítica, deve-se rejeitar H0 
. Caso contrário, não se deve rejeitar H0. Podemos escrever: 
• { ,RC t= ∈ℜ tal que t<-tα,n-1} para o teste unilateral esquerdo e 
• { ,RC t= ∈ℜ tal que t>tα,n-1} para o teste unilateral direito 
O valor crítico tα,n-1 é o valor de t da tabela t de Student , que fornece uma 
área de α na extremidade superior da distribuição t ,com n-1 graus de 
liberdade. 
 
Voltando ao exemplo 2, o contador do hotel irá avaliar se a média de gastos 
de hóspedes no fim de semana é superior a 500,00 MT. Para isso, 
seleccionou aleatoriamente gastos de 22 hóspedes que estiveram no hotel 
em fins de semana num determinado mês. Os dados observados (em 
meticais) foram: 475, 612, 382, 520, 600, 580, 490, 615, 475, 530, 470, 700, 
385, 580, 645, 430, 450, 555, 527, 410, 585, 620. 
O teste será realizado considerando α = 0.01. 
Hipóteses: (já foram mostradas) 
H0: µ ≤ 500 meticais contra Ha: µ > 500 meticais. 
Estatística de Teste: 
Primeiramente, calculam-se os estimadores da média e desvio: 
475 612........ 585 620 528,9
22
X + + += = 
2 2(475 528,9) ...... (620 528,9) 88,0
21
S − + + −= = 
A estatística de teste será: 
528,9 500 1,54
88 / 22obs
t −= = 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 25 
Região Crítica: 
Pela tabela da distribuição t o valor crítico é t0,01;21= 2,518 . 
 
A região crítica do teste é { ,RC t= ∈ℜ tal que t>2,158} 
Decisão: 
Como 1,54 < 2,158, decide-se pela não rejeição de H0 : µ ≤ 500 meticais. 
Portanto, a 1% de significância, não há evidências de que o gasto dos 
hóspedes seja superior a 500,00 MT. 
Caso 4: Teste bilateral para σ2 desconhecida e amostra pequena (n < 30) 
Seguindo o mesmo raciocínio do Caso 3, o teste bilateral também segue a 
distribuição t de Student . A estatística de teste será: 
0Xt
S n
µ−
=
 
A região crítica é construída utilizando a distribuição t com n -1 graus de 
liberdade. No caso em que a hipótese é bilateral, temos: 
 
Quando se observa o valor da estatística na região crítica, deve-se rejeitar H0 
Caso contrário, não se deve rejeitar H0. Podemos escrever a região crítica no 
teste bilateral { ,RC t= ∈ℜ tal que t <- tα/2, n-1 ou t > tα/2, n-1 }. O valor crítico tα/2, n-
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 26 
1 é o valor de t da tabela t de Student que fornece uma área α/2 de na 
extremidade, superior a distribuição t com n-1 graus de liberdade. 
Exemplo 6 
Um administrador da área de marketing deseja avaliar o preço de um produto 
comestível no mercado. Para tal, ele selecciona aleatoriamente os registos do 
produto em 16 lojas e obtêm o valor médio de X = 7,50 com um desvio 
padrão de S =1,00. 
Supõe-se que os salários da empresa sejam normalmente distribuídos. 
Queremos testar a hipótese nula H0 : µ = 8,00 usando um nível de 
significância de 10%. 
Observe que a hipótese alternativa, nesse caso, é Ha : µ ≠ 8,00. Como o 
desvio foi estimado a partir dos dados e a amostra é pequena, então 
devemos utilizar a estatística t: 
7,50 8,00 2
1,00 16obs
t −= = −
 
Região Crítica: 
Pela tabela da distribuição t , o valor crítico é t0,05, 16= 1,753 Este é o valor de t 
da tabela t de Student , que fornece uma área de 0,05 na extremidade 
superior da distribuição t com 15 graus de liberdade. 
 
A região crítica do teste é: 
{ ,RC t= ∈ℜ tal que t < -1,753 ou t > 1,753} 
Decisão: 
Como 2< 1,753 decidimos rejeitar H0: µ = 8,00 à 10% de significância. 
Portanto, há evidências de que o valor do produto não é 8,00 Mt. 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 27 
 
Valor p (nível descritivo) 
Ao realizarmos um teste de hipóteses, partimos de um dado valor de α pré-
fixado, para construir a regra de decisão. Uma alternativa é deixar a cargo de 
quem vai utilizar as conclusões do teste a escolha do valor para a 
probabilidade α, que não precisará de ser fixada a priori (antes de realizar o 
teste). A ideia consiste em estimar a probabilidade (usando a distribuição t ou 
a normal padronizada) de se obter estimativas mais desfavoráveis ou 
extremas do que fornecidas pela amostra (pelas estatísticas tobsou zobs ) 
quando a hipótese nula é verdadeira. Ou alternativamente é ter um valor p , 
denotado por α*. Isto funciona em todos os 4 casos vistos anteriormente. 
Valores pequenos de α* evidenciam que a hipótese nula é falsa. Como a 
amostra é uma ferramenta de inferência sobre a população, ela fornece uma 
estimativa que teria a probabilidade muito pequena de acontecer, se H0 fosse 
verdadeira. 
O conceito do que é “pequeno” fica a cargo do responsável pelo teste, que 
decide qual α usar para comparar com o valor obtido α* . Quando não é 
definido o valor de α para se fazer a comparação, é recomendado usar o nível 
0,05. 
Caso unilateral: 
Para amostras grandes ou variância conhecida, o valor p será H0 verdadeira, 
que significa usar o valor extremo de H0: 
• α* = P(z < zobsI H0 verdadeira) para H0:µ ≥ µ0 e Ha: µ < µ0 
• α* = P(z > zobsI H0 verdadeira) para H0:µ ≤ µ0 e Ha: µ > µ0 
E no caso de amostras pequenas será H0 verdadeira, que significa usar o 
valor extremo de H0 : 
• α* = P(t < tobsI H0 verdadeira) para H0:µ ≥ µ0 e Ha: µ < µ0 
• α* = P(t > tobsI H0 verdadeira) para H0:µ ≤ µ0 e Ha: µ > µ0 
Observação 
Alguns valores de nível descritivo não estão acessíveis nas tabelas das 
distribuições normal padronizada de t . Quando não há um software 
disponível para fazer o cálculo, mas somente as tabelas, é possível fazer uma 
aproximação para o valor p , especificando entre que valores ele se situa. No 
Excel 2003, obtém-se o valor p na função DIST.NORMP, para a distribuição 
normal padronizada e DISTT para a distribuição t . Veja, na ajuda do Excel, 
que a função disponibiliza a distribuição acumulada até o ponto zobs ou tobs. 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 28 
 
Exemplos de ilustração 
Voltando ao exemplo do medicamento Sem Dor, a estatística de teste foi zobs 
= -1,85. 
O valor p é: 
 
Isso significa que a probabilidade de dizer que o tempo de relação do 
medicamento é µ<15 minutos, quando na verdade é µ≥15 é 0,0322. O erro 
que estaria a ser cometido seria pequeno. Por isso, é que se decide pela 
rejeição de H0: µ<15 
Voltando ao exemplo 2, o valor p é dado por: α* = P(t > 1,54I µ≤ 500) = 0,07. 
Se o nível de significância adoptado fosse 0,05, decidiríamos não rejeitar H0, 
e se fosse 0,1, decide-se rejeitar H0 . A decisão final será de acordo com a 
vontade de quem realiza o teste. Ele irá avaliar se o erro é grande e ira decidir 
se rejeita a H0 , ou se é tolerável, podendo rejeitar H0 . 
 
Ao calcularmos o nível descritivo (valor p ), precisamos de considerar que 
parte da região crítica esta associada aos valores de zobs e tobs que estão 
muito distantes (para mais ou para menos) daquele previsto pela hipótese 
nula. Dessa forma, o procedimento usual é multiplicar por dois a 
probabilidade obtida em uma das caudas, de modo a preservar a ideia de 
afastamento bilateral. Assim, ao testarmos H0:µ < µ0 contra Ha : µ≠µ0 , a 
definição do valor p depende da relação entre X e µ0, que é o mesmo que 
avaliar se zobs e tobs são maiores do que zero: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 29 
1. se zobs < 0 para o caso de amostra grande ou variância conhecida, ou 
tobs < 0 para o caso de amostra pequena e variância desconhecida, 
• α* = 2 x P(z < zobsI H0 verdadeira); 
• α* = 2 x P(t < tobsI H0 verdadeira) , respectivamente. 
2. se zobs > 0para o caso de amostra grande ou variância conhecida, ou 
tobs > 0 para o caso de amostra pequena e variância desconhecida, 
• α* = 2 x P(z > zobsI H0 verdadeira); 
• α* = 2 x P(t > tobsI H0 verdadeira) , respectivamente. 
Vejamos, por exemplo, como é se encontra o valor p no caso em que zobs >0 e 
tobs >0 são maiores do que zero. 
 
 
Voltando ao exemplo do consumo de energia num supermercado, tínhamos 
as hipóteses H0:µ = 40000 kW/h contra Ha : µ ≠ 40000 kW/h. Se formos tomar 
a decisão a partir do valor p, temos que: 
• α* = 2 x P(z > zobsI H0 verdadeira), porque zobs > 0; 
• α* = 2 x P(z > 3,43I µ = 40000) < 0.01. 
Como, neste caso, o valor p é muito pequeno, e decidimos rejeitar a H0 , 
levando à mesma conclusão que no procedimento do teste de hipóteses. 
Exemplo 7 
 Uma fábrica de chocolates suspeita que embalagens de 450 gramas de um 
certo tipo de chocolate em barra, estão abaixo do peso. Para verificar tal 
afirmação, foram seleccionadas aleatoriamente 80 barras em vários lotes de 
produção, obtendo-se uma média de peso de 447 gramas. Se admitirmos que 
o peso das barras de chocolate segue o modelo Normal, com um desvio 
padrão de 10 gramas, que conclusão pode ser tirada através do nível 
descritivo? 
• Ho : µ = 450 (peso médio, conforme previsto na embalagem) 
• Ha : µ < 450 (peso médio, abaixo do previsto na embalagem) 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 30 
O valor observado na amostra foi X = 447 e as suposições feitas sobre a 
normalidade da variável peso implicam que 2( , / )X N nµ σ , ou seja, 
( ,100 / 80)X N µ , padronizando, calculamos a estatística: 
447 450 2,68
/ 10 80obs
Xz
n
µ
σ
− −
= = = −
 
α* = P(z <2,68I µ = 450) = 0.0037 
Portanto, o valor p é de 0,37%, o que indica a probabilidade de que sugere 
valores da estimativa mais desfavoráveis à hipótese nula. Note que o valor do 
nível descritivo relaciona-se directamente com o nível de significância. Neste 
exemplo, se tivéssemos fixado o nível de significância em qualquer valor, 
igual ou superior a 0,37%, a conclusão seria a rejeição de H0 ,ao passo que 
valores inferiores a 0,37% conduziriam à aceitação hipótese nula. 
 
Teste para proporção 
Vamos, agora, ilustrar como podemos testar uma afirmação sobre uma 
proporção, probabilidade ou percentagem. O raciocínio é semelhante ao que 
foi desenvolvido no teste para a média. Só que no caso da proporção, as 
observações originam de um modelo Binomial, e de acordo com Webster 
(2007), a distribuição amostral das proporções amostrais pode ser 
aproximada por uma distribuição normal. As hipóteses no teste para 
proporção são: 
H0: p = p0 H0: p ≤ p0 H0: p ≥ p0 
Ha: p ≠ p0 Ha: p > p0 Ha: p < p0 
E a estatística de teste é: 
0
0 0
ˆ
(1 )
p pz
p p
n
−
=
− 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 31 
Tal que p̂ é a proporção observada na amostra e n é o número de 
observações da amostra. Observe que o desvio utilizado no teste é 
0 0(1 )p pσ = − fornecido pela hipótese nula, ele não é estimado pelos dados. 
Por isso, a aproximação da estatística de teste é feita pela distribuição normal 
padronizada. Assim ,a região crítica será: 
 
Quando se observa o valor da estatística z na região crítica, deve-se rejeitar 
H0 . Caso contrário, não se deve rejeitar H0 . Podemos escrever: 
• { ,RC z= ∈ℜ tal que z < - zα} para o teste unilateral esquerdo 
• { ,RC z= ∈ℜ tal que z > zα} para o teste unilateral direito 
 
Quando se observa o valor da estatística z na região crítica, deve-se rejeitar 
H0. Caso contrário, não se deve rejeitar H0 . Podemos escrever a região 
crítica da forma: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 32 
{ ,RC z= ∈ℜ tal que z < - zα/2 ou z > zα/2} 
Critério do valor p no teste de proporção: 
Seguindo o mesmo raciocínio que foi ilustrado para o valor p para o teste da 
média. 
• α* = P(z < zobsI H0 verdadeira) para H0:p ≥ p0 e Ha: p < p0 
• α* = P(z > zobsI H0 verdadeira) para H0:p ≤ p0 e Ha: p > p0 
Ao testarmos H0:p = p0 : contra Ha : p ≠ p0 , a definição do valor p depende 
da relação entre p̂ e p0 , que é o mesmo que avaliar se zobs é maior ou 
menor do que zero: 
• Se zobs <0, α* = 2x P (z< zobs I H0 verdadeira) 
• Se zobs > 0, α* = 2x P (z> zobs I H0 verdadeira) 
Exemplo 8 
O departamento de recursos humanosde uma grande multinacional, 
preocupado com a qualidade de vida dos seus funcionários, deseja saber se 
a proporção de fumadores na sua empresa é superior a 30%. Para tal, o 
administrador responsável pelo estudo seleccionou aleatoriamente 40 
funcionários, e verificou que 9 fumavam. Qual foi a conclusão do 
administrador a um nível de significância de 5%? 
A proporção de fumantes estimada é: 
8ˆ 0,2
40
p = = 
Região Crítica: 
Como o teste é unilateral direito, a região crítica é dada por: 
{ ,RC z= ∈ℜ tal que z > 1,64}, sendo que P (z>1,64) = 0,05 
 
Estatística de teste: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 33 
0,2 0,3 1,38
(0,3 0,7)
40
obsz x
−
= = −
 
Decisão: 
Como 1,38 não pertence à região crítica, decide-se pela não rejeição de H0 
com 5% de significância. Logo, há evidências de que a proporção de 
fumantes não é superior a 30%. 
Critério de decisão pelo valor p 
O valor p é α* = P (z > -1,38 I p ≤ 0,3) = 0,916, comparando com o nível 0,05, 
decide-se, não rejeitar de H0 : p ≤ 0,3. 
Exemplo 9 
A Mcel deseja saber se a proporção de consumidores que utilizam seu 
serviço é de 50% da população da província de Maputo. Para isso, ela 
seleccionou aleatoriamente 100 consumidores, dos quais 48 informaram que 
utilizam seus serviços. Tire conclusões a 5% de significância. 
A proporção amostral observada é: 
48ˆ 0,48
100
p = = 
Hipóteses: 
H0: p = 0,5 e Ha: p ≠ p0 
Estatística de teste: 
0,48 0,5 0,40
(0,5 0,5)
100
obsz x
−
= =−
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 34 
 
Região Crítica: 
{ ,RC z= ∈ℜ tal que z <-1,96 ou z > 1,96 } 
Como zobs = -0,40 > -1,96 e < 1,96, decidiu-se não rejeitar H0 ; isso significa 
que não há evidência suficiente para rejeitar a afirmação de que 50% dos 
consumidores utilizam o serviço da empresa da MCel. 
Ao tomar a decisão usando o valor p , consideramos que o teste é bilateral e 
zobs < 0, temos: 
α* = 2 x P (z < -0,40 I p = 0,5) = 2 x 0,3446= 0,6892 
Como o valor p supera o nível de significância de 0,05, não rejeitamos a 
hipótese nula e, novamente, concluímos que não há evidência suficiente para 
rejeitar a afirmação de que 50% dos consumidores utilizam os serviços da 
Mcel. 
Usar intervalos de confiança para tomada de Decisões 
O intervalo de confiança pode ser utilizado para tomada de decisões no caso 
de teste de hipóteses bilateral. Sejam as hipóteses H0: µ = µ0 contra Ha: µ ≠ 
µ0, a decisão tomada será: 
• Rejeita-se H0 , se µ não pertence ao intervalo de confiança; 
• Não se rejeita H0 , se µ pertence ao intervalo de confiança. 
O nível de confiança (1-α) considerado no intervalo, em termos do teste de 
hipóteses, será o nível de significância . A tomada de decisões ,por meio do 
intervalo, serve de teste de média com variância conhecida e desconhecida 
(amostra grande e pequena),e para o teste de proporção. 
Para o Exemplo 2, da parte A, em que a EMOSE deseja testar se a idade 
média dos proprietários de apólices de seguro de vida é 40 anos, com 10% 
de significância. O teste é H0: µ = 40 ; contra Ha: µ ≠ 40 . 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 35 
O intervalo de 90% construído foi [ 37,37;41,63], como µ = 40 pertence ao 
intervalo, não se deve rejeitar H0. Portanto, a 10% de significância, há 
evidências de que a idade média dos proprietários de apólices de seguro de 
vida da EMOSE é 40 anos. 
Para o Exemplo 3 ,da parte A, sobre o número de faltas de funcionários por 
ano, deseja-se testar se o número médio de faltas é 2,5, com 5% de 
significância. O teste é H0: µ = 2,5 ; contra Ha: µ ≠ 2,5 
O intervalo de 95% de confiança para o número médio de faltas para cada 
funcionário, por ano, construído foi [2,855; 4,025]; como µ = 2,5 não pertence 
ao intervalo, deve-se rejeitar H0 . Portanto, a 5% de significância, há 
evidências de que o número médio de faltas para cada funcionário, por ano, 
não é 2,5. 
Construção de intervalo de confiança e testes de hipóteses no Excel e no 
Minitab 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 36 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 37 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 38 
 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 39 
 
 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 40 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 41 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 42 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 43 
 
Leituras Obrigatórias 
Webster Allen L. 2007 Estatística Aplicada a administração e Economia. 
McGraw-Hill, São Paulo, Brasil. 
Leia os capítulos , 7, 8 e 9 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 44 
Actividades 
Actividade 1 
A facturação semanal de uma loja é uma variável normalmente distribuída. A 
partir de uma amostra aleatória de n=24 semanas, observou-se que a 
facturação média amostral observada foi 26200X = ,00 Mt . Com base em 
pesquisas anteriores, assume-se que o desvio padrão seja σ=4800 . O 
gerente da loja afirmou que a facturação semanal da loja é de, pelo menos 
28000,00 Mt. 
a) Teste esta afirmação ao nível de significância de 5%. 
b) Teste esta afirmação ao nível de significância de 1%. 
c) Considera-se uma importante discrepância, se a média do valor da 
facturação semanal for 500,00 MT menor do que o valor hipotético. Escreva 
qual o tamanho da amostra necessário, se fizer o teste a um nível de 
significância de 5% 
Actividade 2 
A prefeitura de uma cidade, preocupada com o meio ambiente, está 
interessada em saber a proporção de moradores que separam o lixo para 
reciclagem, levando a locais de colecta selectiva. Assim, a pesquisa foi 
elaborada de modo que foram seleccionadas aleatoriamente 200 pessoas, e 
observou-se que somente 68 separavam o lixo reciclável. Com base nesses 
dados, resolva as questões, a seguir: 
a) estime a proporção de habitantes que fazem reciclagem do lixo doméstico; 
b) construa um intervalo de 95% de confiança para a proporção de habitantes 
que reciclam o lixo; 
c) a prefeitura acredita que a proporção de reciclagem é de 40%, ou seja, 
deseja-se; 
testar H0 p=0,4 : contra Ha p ≠0,4 : indique o que você conclui dessa hipótese 
a 5% de significância. 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 45 
 
UNIDADE TEMÁTICA 2 
 
APLICAÇÕES DO TESTE QUI- QUADRADO EM TABELAS DE 
CONTINGÊNCIA 
 
Adaptado de Fernanda Karine Ruiz Colenghi 
Objectivos 
No final desta unidade você deverá ser capaz de: 
• compreender a ideia de tabelas de contingência; 
• aprender a realizar o teste Qui-Quadrado para variáveis 
independentes e homogeneidade de populações; 
• conhecer como os softwares Excel e Minitab realizam o teste Qui-
Quadrado; 
• resolver exercícios voltados à área administrativa ou contabilística, 
para praticar os conhecimentos adquiridos do conteúdo 
Considerações Iniciais 
Esta secção fundamenta-se em situações cujo objecto de estudo baseia-se 
em tabelas de contingência. Vamos abordar os conceitos destas e entender 
como o teste Qui-Quadrado é realizado, tanto para independênciade 
variáveis, como para homogeneidade de populações. Tal abordagem será 
direccionada de maneira bem simples. Com vários exemplos de aplicação, 
acabará por entender claramente os conceitos apresentados e sentir-se-á 
seguro ao fazer os exercícios. Vejamos, a seguir, três situações práticas. 
Situação prática 1 
Uma empresa especializada em pesquisa de mercado deseja verificar, se, em 
Maputo, o estado civil está relacionado com o sexo. A empresa realizou uma 
pesquisa com 200 homens e 200 mulheres. Os resultados obtidos foram: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 46 
 
Situação prática 2 
Um médico quer saber se o cancro no pulmão está relacionado com o uso do 
tabaco. Ele realizou um ensaio clínico e obteve os resultados. 
 
Situação prática 3 
O governo está interessado em saber se a proporção de cidadãos a favor da 
redução da maioridade penal é independente do salário. Foi realizada uma 
entrevista com 100 pessoas de cada classe social e os resultados foram: 
 
Esta secção apresentará procedimentos que solucionam este tipo de 
problema. Estes testes são testes de hipóteses, chamados testes Qui-
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 47 
Quadrados. Esse nome deve-se ao facto de que a estatística de teste possui 
uma distribuição Qui-Quadrado. Veremos as suas propriedades na secção 
Características da distribuição Qui-Quadrado. 
Tipos de teste Qui-Quadrado 
Quando desejamos avaliar se duas variáveis são independentes, podemos 
usar o teste de independência. Quando queremos verificar se diferentes 
populações apresentam proporções semelhantes de determinadas 
características, usa-se o teste de homogeneidade. 
Quando realizamos um teste de hipótese, fazemos suposições sobre a 
distribuição da variável aleatória que estamos a examinar. Por exemplo, ao 
realizarmos um teste para a média, supomos que os dados provêm de uma 
distribuição normal. Para confirmar se os dados seguem uma distribuição 
especifica, existe um teste, chamado teste de aderência , que faz tal 
avaliação. 
Esta secção irá lidar com os testes de independência e de homogeneidade. 
Vamos estudar agora o teste de independência e, em seguida, o teste de 
homogeneidade, mas, primeiro vamos fazer uma revisão e aprender alguns 
conceitos que serão necessários para perceber o conteúdo a ser 
desenvolvido nas próximas secções. 
Conceitos iniciais 
Recorde-se do conteúdo de Estatística Básica em que estudou os tipos de 
variáveis. Uma das variáveis que utilizamos nas tabelas de contingência é 
qualitativa (cujos valores representam atributos ou qualidades, tais como 
grupo sanguíneo, sexo, estado civil, classe social, etc). Podemos usar 
também variáveis quantitativas discretas (tais como número de filhos, número 
de carros por família, etc) ou quantitativas contínuas desde que separadas 
por grupos (por exemplo, a idade separada por grupos etários, entre 20 e 25, 
entre 26 e 30, e assim por diante). 
A Tabela de contingência é uma tabela de dupla entrada composta por duas 
variáveis, sendo uma representada pelas linhas e a outra pelas colunas. Veja 
a tabela, a seguir: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 48 
 
Na qual: 
• ,i jο representa a frequência observada para o i-ésimo nível da 
variável linha e j-ésimo nível da variável coluna; 
• o número total de níveis da variável linha é n, sendo i = 1,....,n;; 
• o número total de níveis da variável coluna é m, sendo j= 1,....,m ; 
• Li é a frequência total do i-ésimo nível da variável linha; 
• Cj é a frequência total do j-ésimo nível da variável coluna; 
• o total geral é dado pela soma dos totais das linhas (
1
n
j
i
L
=
∑ ) ou 
dos totais das colunas (
1
m
j
j
C
=
∑ ) 
.Características da distribuição Qui-Quadrado ( 2χ ): 
• Não é simétrica; 
• Os seus valores sempre são maiores ou iguais a zero (nunca 
negativos); 
• Há uma distribuição para cada número de graus de liberdade, assim 
como a distribuição t-Student, estudada na secção. A importância da 
Inferência para decisões administrativas: intervalos de confiança e 
testes de hipóteses. Veja a Figura 1. 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 49 
 
A figura apresenta a distribuição 2χ para determinados graus de liberdade e 
níveis de significância especificados. Observe que a área à direita do valor 
crítico é o nível de significância do teste. 
Por exemplo, P( 213χ > 22,36)=0,05, ou seja, o valor crítico da 
2χ com 13 
graus de liberdade e 5% de significância é qc= 22,36 . Veja na Tabela, a 
seguir, que é uma parte da tabela da distribuição Qui-Quadrado, e o valor 
crítico é obtido pelos valores correspondentes dos graus de liberdade (na 
linha) e do nível de significância (na coluna). Isso significa que o valor crítico, 
apresentado na célula em destaque, é o correspondente a distribuição Qui-
Quadrado com 13 graus de liberdade e 5% de significância. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 50 
 
Teste de independência 
É um teste de hipótese utilizado para verificar se existe independência 
estatística entre duas variáveis. De acordo com Webster (2007): A 
independência implica que o conhecimento da categoria na qual se classifica 
uma observação com respeito a uma variável não afecta a probabilidade de 
estar em uma das diversas categorias da outra variável. 
Para averiguar a veracidade da afirmação de independência, os dados 
precisam de ser apresentados em tabelas de contingência. Assim, faz-se o 
cálculo da estatística de teste que será utilizado na tomada da decisão. Este 
teste pode ser escrito da seguinte forma: 
H0 : As variáveis linha e coluna são independentes. 
Ha : As variáveis linha e coluna não são independentes. 
Para o exemplo 1, as hipóteses são: 
H0 : As variáveis sexo e estado civil são independentes. 
Ha : As variáveis sexo e estado civil não são independentes. 
Sob a hipótese de que as variáveis são independentes, são feitos os cálculos 
dos valores esperados supondo a independência: 
,
Total da linha x total da coluna
g g
i j i j
i f
L C
e
Total eral total eral
×
= = 
Para os dados do exemplo 1, a tabela de valores esperados é: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 51 
 
 
A estatística de teste é dada por: 
21
, ,2
1 1 ,
( )n n i j i j
i j i j
o e
Q
e= =
−
= ∑∑ 
Sob Ho, 2Q tem uma distribuição 2χ com (n -1) x (m -1) graus de liberdade. A 
região crítica é dada por 2{ : }cRC Q Q q= > , sendo cq , determinado de 
forma que: α = P(Q>qcI Ho verdadeira) . A área à direita de qc é o nível de 
significância do teste. Para o exemplo 1, o número de graus de liberdade é (4-
1) x (2-1) = 3 , e o valor crítico a 5% de significância é qc = 7,815. 
Para os dados do exemplo 1, a estatística de teste é: 
2 2 2 2
2 (57 59) (102 93) (23 34,5) (9 13,5)..... 12,54
59 93 34,5 13,5
Q − − − −= + + + + = 
Como 12,54 > 7,815, decide-se pela rejeição de Ho. Consequentemente, a 
5% de significância, conclui-se que sexo e estado civil não são 
independentes. 
Vamos fazer a análise do exemplo 2, considerando o nível de significância de 
1%. As hipóteses são: 
H0 : o fumo não está relacionado com o cancro de pulmão. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 52 
Ha : o fumo está relacionado com o cancro de pulmão. 
A tabela de valores esperados é: 
 
A estatística de teste é: 
2 2 2 2
2 (22 6, 25) (28 43,75) (3 18,75) (147 131, 25) 60, 48
6, 25 43,75 18,75 131, 25
Q − − − −= + + + = 
O valor crítico a 1% de significância, com 1 grau de liberdade é qc = 6,6635.Portanto, 
2{ : 6,635}RC Q Q= > . Isso significa que 
H0 deve ser rejeitada, conclui-se a 1% que o fumo está relacionado com o 
cancro de pulmão. 
Teste de Homogeneidade 
De acordo com Webster (2007), o teste de homogeneidade “é utilizado 
quando se testa a afirmação de que diferentes populações apresentam as 
mesmas proporções em determinadas características”. Imagine que esteja 
interessado em averiguar se diferentes perfis de clientes se comportam de 
maneira semelhante para determinadas características, tais como o tipo de 
atendimento que o cliente prefere, entre outras preferências. Outra situação 
comum é a de um consultor que deseja comparar diferentes perfis dos 
funcionários (com respeito a diferentes características) de uma grande 
empresa. As hipóteses deste teste são: 
Ho : As populações apresentam as mesmas proporções em determinadas 
características. 
Ha : As populações apresentam proporções diferentes em determinadas 
características. 
Observe que no exemplo 3 deseja-se testar: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 53 
Ho : a proporção de cidadãos a favor da redução da maioridade penal não 
depende do salário. 
Ha: a proporção de cidadãos a favor da redução da maioridade penal 
depende do salário. 
Sob a hipótese nula, os valores esperados são os mesmos dos que foram 
calculados no teste de independência: 
, g g
i j i j
i f
L C totaldalinha totladacoluna
e
Total eral total eral
× ×
= = 
Para o exemplo 3, a tabela de valores esperados é: 
 
A estatística de teste comporta-se da mesma maneira da que foi observada 
no teste de independência; lembre-se que: 
21
, ,2
1 1 ,
( )n n i j i j
i j i j
o e
Q
e= =
−
= ∑ ∑ 
Sob Ho, 2Q tem uma distribuição 2χ com (n -1) x (m -1) graus de liberdade. E 
a região crítica é dada por 2{ : }cRC Q Q q= > , sendo cq , determinado de 
forma que: α = P(Q>qcI Ho verdadeira) . A área à direita de qc é o nível de 
significância do teste. Para o exemplo 3, o número de graus de liberdade é (5-
1) x (2-1) = 4 , e o valor crítico a 1% de significância é qc =13,277. 
Para os dados do exemplo 3, a estatística de teste é: 
2 2 2 2
2 (86 60) (78 60) (64 60) (68 40)........ 91,66
60 60 60 40
Q − − − −= + + + + = 
Como 91,66 é maior do que 13,27, decide-se pela rejeição de Ho. A 5%, 
concluísse que a proporção de cidadãos a favor da redução da maioridade 
penal depende da renda. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 54 
Situação prática 4 
A Universidade de Uberaba, no Brasil deseja saber se o desempenho 
desportivo dos estudantes dos cursos de Administração, Economia e Ciências 
Contábeis é o mesmo. Para isso, alguns alunos foram seleccionados e o seu 
desempenho avaliado conforme a tabela a seguir: 
 
Decide-se que o desempenho é semelhante a 1%. As hipóteses para o teste 
são: 
H0 : o desempenho desportivo dos alunos dos três cursos é o mesmo. 
Ha : o desempenho desportivo dos alunos dos três cursos não é o mesmo. 
A tabela de valores esperados será: 
 
Sob Ho, 2Q tem uma distribuição 2χ com (3 -1) x (3 -1)=4 graus de liberdade. 
E a região crítica é dada por 2{ : 13,277}RC Q Q= > , pois o valor crítico a 1% 
de significância é qc =13,277, assim qc =13,277 como no exemplo 3. 
2 2 2 2
2 (82 56,35) (43 45,08) (14 37,57) (18 22, 43)........ 60, 42
56,35 45,08 37,57 22, 43
Q − − − −= + + + + =
Como 60,42 é maior do que 13,27, decide-se rejeitar de H0:A 5% conclui-se 
que o desempenho desportivo dos estudantes para os cursos pesquisados é 
diferente. 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 55 
 
Importante: 
a estatística de teste é calculada da mesma maneira para os testes de 
independência e homogeneidade; o que difere, entre eles, é a formulação das 
hipóteses. 
Realização do Teste Qui-Quadrado utilizando o Minitab e Excel 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 56 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 57 
 
 
 
 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 58 
Leituras obrigatórias 
Webster Allen L. 2007 Estatística Aplicada a administração e Economia. 
McGraw-Hill, São Paulo, Brasil 
Leia o capítulo , 14 
Actividades 
Apresentamos algumas actividades programadas para que possamos reforçar 
a construção dos conhecimentos adquiridos durante seus estudos. Leia o 
material recomendado e faça as natividades propostas. 
Actividade 1 
A TDM quer averiguar se a proporção dos seus clientes que utilizam planos 
pré-pagos e pós-pagos é a mesma para diferentes faixas etárias. As faixas 
que não são apresentadas foram consideradas insignificantes para o estudo. 
Dada a tabela, a seguir, qual é a decisão utilizando 2,5% de significância? 
 
Actividade 2 
Um consultor do BIM quer saber se o gasto com a manutenção de caixas de 
ATM depende da taxa de uso dos mesmos. Os valores gastos foram 
codificados nas seguintes colunas: pequeno, médio e grande e a taxa de uso 
foi codificada como baixa, média e alta. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 59 
 
Formule as hipóteses, o tipo de teste e conclua considerando um nível de 
significância de 1%. 
Actividade 3 
Uma indústria farmacêutica quer verificar se o tempo de relação da dipirona 
depende do número de gotas (quantidade) por dose. Veja a tabela, a seguir: 
 
a) De que tipo são as variáveis e como elas estão a ser consideradas nesse 
caso ? 
b) Elabore e identifique o tipo de hipóteses para o teste. 
c) Qual é sua conclusão a 10% de significância? 
Actividade 4 
A indústria automobilística utiliza os seguintes níveis de defeito: leve, 
moderado e grave. Após a produção todos os carros são inspeccionados, e 
se, apresentam algum defeito, são classificados conforme os níveis acima. 
Três modelos de um tipo de carro estão para serem avaliados em uma 
empresa de automóveis. A comparação será feita em termos do tipos de 
defeitos para cada modelo de carro. Utilizando um lote de produção obteve-
se: 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 60 
 
a) Formule as hipóteses para o teste. 
b) Após os cálculos, que conclusão se pode tirar a 5% e a 1% de 
significância? 
 
Actividade 5 
A Mcel quer averiguar se o tipo de reclamação (1, 2, 3, 4, 5) está relacionado 
com o horário da reclamação (turno do dia). Com base em seu banco de 
dados, obteve-se a tabela: 
 
a) Especifique o tipo de teste. 
b) Formule as hipóteses. 
c) Tome uma decisão a 1% de significância. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 61 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 62 
 
UNIDADE TEMÁTICA 3 
 
CORRELAÇÃO, REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 
 
Adaptado de Fernanda Karine Ruiz Colenghi 
Objectivos 
No final desta unidade você deverá ser capaz de: 
• Aprender como é feito o cálculo do coeficiente de correlação linear 
entre duas variáveis quantitativas. 
• Realizar o teste de significância de correlação linear. 
• Entender os conceitos e ideias inerentes em um modelo de regressão 
linear simples. 
• Visualizar modelos de regressão em situações administrativas e 
contabilísticas. 
• Ampliar os conceitos de regressão, através da regressão linear 
múltipla. 
• Analisar a qualidade de modelos de regressão. 
• Avaliar quais as variáveis explicativas que são significativas em um 
modelo de regressão. 
• Ajustar modelosde regressão e avaliar sua qualidade utilizando o 
Minitab. 
Aspectos Iniciais 
Anteriormente, estudamos métodos pontuais e intervalares para inferir a 
respeito de uma variável. Nesta secção, vamos estudar a relação entre duas 
ou mais variáveis, através do cálculo do coeficiente de correlação. Vamos, 
também, estudar uma importante ferramenta estatística, muito utilizada no 
mercado financeiro, contabilístico e organizacional, em diversas companhias. 
Examinemos uma situação prática: uma seguradora do ramo automobilístico 
acredita que o número de acidentes (mensal) está relacionado com a idade 
(em anos) do condutor do veículo. Esta análise é importante, pois ao fazer-se 
o cálculo do prémio que o cliente paga para ter o seu automóvel assegurado, 
a idade pode influenciar neste valor. Parece intuitivo assumir que existe essa 
relação? 
• Mas, como podemos medir quanto é que a idade influencia na 
quantidade de acidentes? 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 63 
 
 
• Podemos modelar essa relação? 
• E será que podemos prever o número de acidentes, 
por mês, para determinada idade? 
Recorde-se que, anteriormente, estudou a associação de variáveis 
qualitativas ou quantitativas discretas. Agora, para medir a associação entre 
variáveis quantitativas contínuas, ou entre quantitativas contínuas com 
discretas, devemos usar o coeficiente de correlação linear. A maneira de 
modelar uma equação que descreva o comportamento da associação entre 
duas variáveis é dada pela regressão linear simples. Utilizando esta equação, 
podemos fazer previsões para determinados valores. 
Considere, agora, que, para além da idade dos motoristas, a empresa decidiu 
medir as variáveis: horas diárias em que o carro fica fora da garagem, 
quilometragem feita mensalmente, número de dias em que foi realizada a 
última revisão. Concorda que agora temos mais informações que podem estar 
relacionadas com o número de acidentes? 
Quando usamos várias variáveis para modelar uma equação, em função de 
variável de interesse, ou seja, a variável que está a ser avaliada, o método 
que utilizamos é a regressão linear múltipla. Este roteiro apresentará tais 
conceitos de uma maneira simples. 
O conteúdo desta secção está organizado da seguinte maneira: 
1) explicação e cálculo do coeficiente de correlação; 
2) teste de correlação entre duas variáveis; 
3) introdução à regressão linear simples; 
4) regressão linear múltipla; 
5) como proceder para calcular o coeficiente de correlação e modelar uma 
regressão no Minitab; 
6) exercícios voltados às áreas administrativas, contabilísticas e financeiras. 
 
Coeficiente de Correlação de Pearson 
Tentar explicar o comportamento de uma variável em função de outras é 
muito importante na maioria das pesquisas quantitativas. Medir a associação 
de duas ou mais variáveis também é interessante quando se pretende 
melhorar a qualidade de produtos, uma vez que a melhoria de uma 
característica de qualidade pode implicar a melhoria do comportamento das 
outras. 
Exemplo 1 
Uma fabrica de montagem de peças de carro está interessada em verificar se 
existe uma associação entre as variáveis X (peso da peça em Kg) e Y (preço 
da peça em meticais). Os dados colhidos foram os seguintes: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 64 
 
O gráfico no plano cartesiano que mostra as frequências em cada ponto é 
chamado de gráfico de dispersão (ou scatter plot). Veja o gráfico de dispersão 
deste exemplo. 
 
Observe que, à medida que a variável X cresce, a variável Y também cresce. 
Para medir o grau de associação destas variáveis, podemos usar o 
Coeficiente de Correlação de Pearson. Este nome deve-se ao facto de que 
Karl Pearson (1857 – 1936), foi o cientista que o estabeleceu. 
Coeficiente de Correlação de Pearson (r), também conhecido como 
coeficiente de correlação momento produto de Pearson e mede a relação 
linear entre as variáveis X e Y em uma amostra. 
O seu valor é dado pela fórmula: 
22 2 2
( )/
( ) / ( ) /
i i i i
xy
i i i i
xy x y n
r
x x n y y n
−
=
− × −
∑ ∑ ∑
∑ ∑ ∑ ∑
 
Propriedades interessantes do coeficiente de correlação: 
• Varia entre -1 e 1; 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 65 
 
 
 
a) Correlação positiva perfeita rxy = 1 ; 
b) Correlação linear positiva forte 0,5 < rxy <1; 
c) Correlação negativa perfeita rxy = -1; 
d) Correlação linear negativa forte -1 < rxy < - 0,5 
• Quando rxy é um valor próximo a zero, podemos supor que não exista 
correlação linear entre as variáveis. 
• Quanto mais próximo o valor for de 1, significa que a associação entre 
as variáveis é positiva, ou seja, na medida em que uma variável 
aumenta, a outra também aumenta. 
• Quanto mais próximo o valor for de -1,significa que a associação entre 
as variáveis é negativa, ou seja, na medida em que uma variável 
aumenta, a outra diminui. 
O cálculo do coeficiente de correlação pode ser calculado usando a tabela, a 
seguir: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 66 
 
Logo temos: 
2 2
119646 (297,4328)/12 12528 0,892
1320,25 149258,78671 (297) /12 1710224 (4328 )/12
xyr
−
= = =
×− × −
 
O coeficiente de correlação de Pearson é 0,892. Poderíamos assumir que a 
correlação é positiva, pois este valor está próximo de 1. 
Porém, estatisticamente falando, o que é próximo de 1, -1ou zero? Pois um 
coeficiente de 0,5 pode ser próximo de 1 e próximo de 0. Pode ser que para si 
0,5 é razoável para assumir correlação, enquanto que para outra pessoa, 
pode ser que não exista! 
Para responder a esta dúvida, que é verificar se a correlação entre as 
variáveis é significativa ou não, precisamos adoptar um procedimento de 
tomada de decisão. Este procedimento é um teste de hipótese. Como já está 
habituado a teste de hipótese, o procedimento será simples. Vamos entendê-
lo, então. 
Teste da significância da correlação 
Se tivéssemos todas as observações da população, tanto da variável X, como 
da variável Y, saberíamos qual seria o coeficiente de correlação verdadeiro 
(denotado por ρ ). Mas, como não o conhecemos, utilizamos o coeficiente de 
correlação amostral (r) para o estimar. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 67 
Recorde que, no início do curso de Inferência, aprendeu que a média 
amostral é usada para estimar a média verdadeira, ou seja, a populacional. 
Aqui, a situação é semelhante, visto que, estamos a fazer um teste para a 
significância da correlação. As hipóteses, então, são 
H0 : ρ = 0 (não há correlação linear significativa) contra Ha : ρ ≠ 0 (existe 
correlação linear significativa). 
A estatística de teste que iremos utilizar é calculada da seguinte maneira: 
21
2
rt
r
n
=
−
−
 
Esta estatística de teste tem uma distribuição t-Student. Com n-2 graus de 
liberdade. Recorde-se que, no inicio deste curso, aprendemos como 
encontrar os níveis críticos da distribuição t . A tabela da distribuição t está no 
apêndice. 
Este teste é bilateral – observe o sinal ≠ na hipótese alternativa. 
Assim, a região crítica será 
{ ,RC t= ∈ℜ tal que t <-tα/2, n-2 ou t >tα/2, n-2} 
Webster (2007) ilustra outro método de calcular a estatística de teste para 
testar a significância do coeficiente de correlação de Pearson. Este utiliza 
uma tabela própria, pois a distribuição da estatística de teste não é 
conhecida. 
Para o Exemplo 1, a estatística de teste para a significância do coeficiente de 
correlação linear é: 
2
0,892 6,24
1 0,892
12 2
t = =
−
−
 
Considerando um nível de 5% de significância, o valor crítico da distribuição t 
fornecido na tabela é 2,228, a região crítica é { ,RC t= ∈ℜ tal que t <-2,228 
ou t >2,228}.Como 6,24 é maior do que 2,228, decide-se rejeitar H0 . 
Portanto, a 5% de significância, podemos dizer que existe correlação linear 
entre as variáveis X e Y. Além disso, podemos dizer que essa relação é 
positiva, quando X aumenta, Y também aumenta. 
Podemos tomar a decisão pelo critério do p valor. Quando determinamos o 
nível de significância, podemos calcular o p valor. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 68 
Ao observar um p valor superior ao nível de significância, decidimos pela não 
rejeição de H0 . 
Ao observar um p valor inferior ao nível de significância, decidimos rejeitar H0 
. 
Lembre-se do critério do valor p: 
• Se tobs <0, α* = 2x P (tn-2< tobs I H0 verdadeira) 
• Se tobs > 0, α* = 2x P (tn-2> zobs I H0 verdadeira) 
Para o exemplo 1, α* = 2x P (t>6,624) ≈0,000, o que concorda com a decisão 
tomada anteriormente. 
Esta secção mostra a correlação entre duas variáveis. Caso esteja 
interessado em estudar a correlação de mais de duas variáveis, sugerimos a 
leitura do capítulo 11 e 12 – Regressão Múltipla e Correlação de Webster 
(2007), indicado nas Leituras Obrigatórias. 
Regressão linear simples 
A ideia de se fazer um modelo de regressão linear é escrever uma equação 
linear, uma recta, que represente a associação entre duas variáveis. O 
objectivo principal é predizer o valor de uma variável conhecendo a outra, 
utilizando a equação de recta que foi construída. A equação de regressão 
linear é: 
0 1y xβ β= + 
Os parâmetros do modelo são β0 e β1 . Se tivéssemos toda a população, 
estes valores seriam conhecidos. Mas em inferência, sempre temos que os 
estimar a partir de uma amostra. Assim, o modelo de regressão ajustado é 
dado por: 
0 1ŷ b b x= + 
Sendo que b0 e b1 são respectivamente os estimadores dos parâmetros β0 e 
β1. Mais adiante, irá aprender como calcular esses parâmetros. 
Em regressão, temos dois tipos de variáveis: 
• Explicativa (independente): a variável x do modelo é aquela que se 
conhece e é facilmente medida. 
• Resposta (dependente): a variável y do modelo é a que se deseja 
prever. 
Importante: Quando fazemos um modelo de regressão linear, precisamos de 
avaliar ou supor que algumas hipóteses são verdadeiras, e, sempre que 
possível, verificar as suposições, que são: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 69 
• estamos a lidar apenas com relações lineares, ou seja, a variável 
explicativa e resposta, estão associadas linearmente; 
• o modelo de regressão suposto é: 0 1y xβ β ε= + + , sendo ε o erro 
aleatório do modelo. 
• o erro ε num modelo de regressão é normalmente distribuído com 
uma média zero e a variância constante, denotada por σ2. As variáveis 
sao independentes e não existe nenhuma correlação entre elas 
• a variável resposta y é uma variável aleatória; 
• para cada valor de x, a variável resposta (σ2 ) segue uma distribuição 
normal. E todas a variância de todas as variáveis sendo tem a mesma 
variância . 
Estimação de β0 e β1: 
Vimos que os estimadores a serem utilizados são b0 e b1. Mas, qual é a 
melhor escolha destes valores? Existem vários critérios de estimação destes 
parâmetros. O mais conhecido e utilizado em todas as áreas de pesquisa é o 
método dos mínimos quadrados. Possui este nome porque é o método que 
minimiza a soma dos quadrados dos desvios entre os valores observados e 
estimados da variável resposta para os dados amostrais. Utilizando derivadas 
parciais, os estimadores de mínimos quadrados são dados por: 
1 2
( ) /
( ) /
i i i i
i i
x y x y n
b
x x n
−
=
−
∑ ∑ ∑
∑ ∑ 
0 1b y b x= − 
Estes são os estimadores que são usados na recta de regressão. 
Os estimadores de mínimos quadrados para o Exemplo 1 são: 
 
Logo, a recta de regressão ajustada é: 
ˆ 126 9,49y x= + 
Para uma observação de xi , assumindo o valor de 23 Kg, teríamos uma 
estimativa para ˆiy de ˆ 126 9,49iy x= + = 344,27. O gráfico de dispersão das 
variáveis X e Y, com a recta de regressão ajustada, podem ser vistos, a 
seguir: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 70 
 
Avaliação da qualidade de um modelo de regressão 
Para adoptarmos determinado modelo, é necessário que este seja 
válido e atenda às suposições estabelecidas anteriormente. A 
maneira mais eficiente de avaliar a validade do modelo é pelo 
coeficiente de determinação. Antes de enunciá-lo, precisamos de 
tomar conhecimento de algumas informações. 
Ao ajustar um modelo de regressão, a diferença entre o valor observado da 
variável resposta yi, , e o valor estimado para partir do modelo ˆiy , para a i-
ésima observação é chamado de i-ésimo resíduo ˆ( )i iy y− . Se somarmos o 
quadrado de todos os resíduos da amostra, teremos a Soma de Quadrados 
dos Resíduos, denotada por SQRes: 
2
1
1
ˆRe ( )
n
i i
i
SQ s y y−
−
= −∑ 
SQRes é uma medida de erro da estimativa do modelo de regressão. O valor 
de SQRes para o ajuste do modelo de regressão no exemplo 1 é , 
aproximadamente, 30379,07, pois ˆiy foi aproximado até três casas decimais. 
Veja, na tabela a seguir, como é feito o cálculo. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 71 
 
A Soma de Quadrados Total é a soma dos quadrados dos desvios das 
observações da variável resposta em relação à média da variável resposta 
( )y . É parecida com a formula utilizada para calcular o desvio padrão de 
uma variável (só que não esta associada a raiz quadrada e nem dividimos por 
n-1 ), e é denotada por SQT: 
SQT=
2
1
( )
n
i
i
y y
=
−∑ 
A SQT, para o Exemplo 1, é y =149258,7. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 72 
 
A última quantidade que precisamos de saber é a Soma de Quadrados da 
Regressão, denotada por SQReg. Esta mede o quanto os valores ajustados 
pelo modelo de regressão ˆiy distanciam-se da média da amostra y . O seu 
cálculo é feito através da soma dos quadrados dos desvios dos valores 
ajustados e da média amostral, assim: 
SQReg = 
2
1
ˆ( )
n
i
i
y y
=
−∑ 
Se fizermos o cálculo da SQReg para o Exemplo 1, obtemos um valor 
aproximado de 118876,8. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 73 
 
A seguinte relação pode ser observada entre as somas de quadrados: 
SQT = SQReg + SQRes 
De acordo com Webster (2007), a SQReg pode ser definida como a porção 
explicada da SQT, e a SQRes definida como a porção não explicada da SQT. 
Lembre-se desta esta relação, pois é um resultado muito importante. 
O Coeficiente de determinação mede a eficiência do modelo de regressão 
ajustado, que é calculado pelo rácio entre a SQReg e a SQT. Este resultado 
pode ser interpretado como a proporção da soma de quadrados que é 
explicada pela equação de regressão ajustada. 
R2 = 
SQRes
SQT
 
O R2 esta sempre entre 0 e 1, quanto mais próximo de 1, melhor será o ajuste 
do modelo. O R2 do Exemplo 1 é 118876,8/149258,7 = 0,796. Significa o valor 
da variação de Y, explicado pela recta de regressão, que é 0,796 ou 79,6%. 
Relação entre coeficiente de determinação e coeficiente de correlação 
Webster (2007) mostram a seguinte relação entre os coeficientes de 
determinação e de correlação: 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 74 
Quando sabemos qual é o coeficiente de determinação, podemos determinar 
o coeficiente de correlação e vice-versa. Para tanto, é necessário saber o 
sinal de b1 
Verificação das suposições do modelo 
Lembre-se de que, quando introduzimos o modelo de regressão, vimos que 
devia estar associado a determinadas suposições. Para que o modelo seja 
validado (aceite,),estas suposições precisam de ser verdadeiras. Após o 
ajuste do modelo, devemos averiguar se as suposições foram satisfeitas; isso 
é feito através de algumas medidas: 
• verificação da normalidade dos resíduos; 
• independência (não auto correlação) e aleatoriedade dos resíduos; 
• Teste F, para verificar se o modelo de regressão é significativo, ou 
seja, se β1 é significativo; 
• Verificar se o coeficiente do modelo β1 é significativo quando 
utilizamos o teste t-Student 
Verificar a significância através de um teste estatístico para tomar uma 
decisão. Portanto, vamos avaliar se o coeficiente angular da recta de 
regressão, β1, do modelo é significativo estatisticamente, ou seja, se 
realmente existe uma relação linear entre as variáveis X e Y. 
Vamos examinar cada uma destas medidas. 
Verificação da normalidade dos resíduos 
Esta pode ser feita visualmente, através da construção de um histograma ou 
boxplot dos resíduos, ou estatisticamente, utilizando o teste de normalidade 
para os resíduos. A explicação de como é feito o teste de normalidade e o 
histograma no Minitab será feita no final desta secção. Veja o histograma e o 
teste de normalidade para os resíduos do Exemplo 1. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 75 
 
Observe que o histograma dos resíduos é parecido com dados de uma 
distribuição normal. Veja que ela possui uma simetria em torno da média 
zero. Essa relação não é tão nítida, pois o número de observações é 
pequeno, apenas 12. Para confirmar se os dados apresentam 
distribuição normal, é realizado um teste de aderência. 
Para perceber o teste de normalidade, é necessário considerar as 
seguintes hipóteses: 
• H0 : os dados possuem distribuição normal. 
• Ha : os dados não possuem distribuição normal. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 76 
Um teste é feito a partir de uma estatística de teste. O programa fornece o p 
valor deste teste, e o analista toma a decisão a partir da comparação com o 
nível de significância que especificou antes de realizar o teste. O critério de 
decisão será: 
• Se p valor nível de significância → não rejeite H0→ dados são 
normais. 
• Se p valor nível de significância → rejeite H0 →dados não são 
normais. 
Por exemplo, se considerarmos um nível de 5% de significância, para os 
resíduos do Exemplo1, o p valor é 0,218, portanto não devemos rejeitar H0. 
Isso significa que os resíduos possuem uma distribuição normal a um nível de 
5% de significância. 
Independência (não auto correlação) e aleatoriedade dos resíduos 
Nesta etapa, vamos verificar se os resíduos são independentes, e como estes 
possuem distribuição normal, significa dizer que não sao correlacionados, e 
verificar se são aleatórios. O gráfico dos resíduos versus valores ajustados, 
em inglês Residuals Versus the Fitted Values é construído de maneira que no 
eixo das abcissas estão os valores ajustados para cada observação amostral 
ˆiy e no eixo das ordenadas estão os resíduos. Este gráfico pode indicar se 
existe ou não correlação entre os resíduos e verificar se os resíduos são 
aleatórios 
• Comportamentos que indicam a correlação: tendências crescentes ou 
decrescentes; 
• Comportamentos que indicam não aleatoriedade: aumento na 
amplitude do resíduo, à medida que se aumenta o valor ajustado ou 
diminuição na amplitude do resíduo, à medida em que se aumenta o 
valor ajustado (indica que a variância não é constante); 
comportamentos que caracterizam algum tipo de função conhecida 
(cúbica, quadrática etc.). 
• Comportamentos esperados: resíduos bem distribuídos ao redor de 
zero, tanto para cima, como para baixo e amplitude constante em todo 
o intervalo de valores ajustados. 
Observe o gráfico dos resíduos versus valores ajustados para o modelo de 
regressão ajustado para o Exemplo 1. Os resíduos estão bem comportados 
ao redor de zero, porém existem duas observações com resíduos bem 
elevados (100 e -100). Contudo, essa observação não prejudica a análise, 
pois as discrepâncias não são tão significativas assim. Mais adiante, irá 
aprender a fazer este gráfico no Minitab. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 77 
(continua(
 
Teste F, para verificar se é β1 significativo 
Possui este nome, Teste F, por basear na distribuição de probabilidade F. 
Este teste é usado para testar a significância da regressão. As hipóteses do 
teste são: 
H0: β1 = 0 contra H0: β1 ≠ 0, o mesmo que dizer que: 
H0 existe uma relação linear entre as variáveis explicativa e a resposta; 
contra 
Ha :não existe relação linear entre as variáveis explicativa e resposta. 
Antes de calcularmos a estatística de teste, é necessário definir algumas 
quantidades: 
Quadrado Médio da Regressão: denotado por QMReg, é dado pela SQReg 
dividido pelo número de graus de liberdade da regressão, que é representado 
por p-1 , sendo p o número de parâmetros estimados no modelo de 
regressão, que na regressão linear simples é 2 (β0 e β1) então neste caso o 
número de graus de liberdade é 1. 
QMReg= 
SQReg
1p −
 
Quadrado Médio dos Resíduos: denotado por QMRes, é dado pela SQRes 
dividido pelo número de graus de liberdade dos resíduos, que é dado por n-p , 
sendo p definido da mesma forma que em cima. Então, no modelo de 
regressão linear simples o número de graus de liberdade é n-2. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 78 
QMRes= 
SQReg
n p−
 
Estatística de teste: é dada pelo rácio entre QMReg e QMRes. 
F= 
QMReg
QMRes
 
F possui uma distribuição F de Fisher com p-1 graus de liberdade (gl) no 
numerador e n-p gl no denominador. Como estamos a lidar com uma 
regressão linear simples, F possui uma distribuição F de Fisher com 1 gl no 
numerador e n-2 gl no denominador. Os valores da tabela da distribuição F de 
Fisher podem encontrar-se nos links, a seguir, para determinados níveis de 
significância à direita da distribuição) e determinados valores de graus de 
liberdade do numerador e denominador, de maneira que a região crítica é: 
{RC f= ∈ℜ , tal que f > valor critico} 
1-http://home.utad.pt/~emorais/mat/tab2.pdf 
2-http://www.inescporto.pt/~hdc/f.pdf 
Vamos considerar um nível de significância de 1% e fazer o teste F, para 
testar a significância do modelo de regressão ajustado ao Modelo 1. Através 
das equações que acabaram de ser apresentadas, temos 
 
Utilizando uma tabela F, com 1% de significância, a região crítica da 
distribuição F, com 1 gl no numerador e 10 gl no denominador é: 
{RC f= ∈ℜ , tal que f > 10,044} 
Como 39,13 > 10,044, decide-se rejeitar H0:β1 =0, o que significa que o 
modelo de regressão é significativo a 1% de significância, o mesmo que dizer 
que β1 ≠ 0. 
Mas, atenção! Os softwares estatísticos fornecem para este teste a saída da 
análise de variância, expressa como na tabela, a seguir. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 79 
 
Com a estatística F em mão , fica fácil tomar a decisão. Os programas 
também fornecem o p valor associado a esta estatística. O critério de decisão 
permanece o mesmo do que vimos para o teste de normalidade. 
Verificar se o coeficiente do modelo β1 é significativo, utilizando o teste t 
Student 
É um teste para verificar a significância do parâmetro β1 . Os dados da 
amostra são usados para testar as hipóteses: H0 : β1 = 0 contra Ha : β1 ≠ 0 
Para obter a estatística de teste que se caracteriza por uma distribuição t 
Student , é preciso encontrar um estimador para a variância σ2 do modelo de 
regressão. Diversos autores, dentre eles Webster (2007), mostram que um 
estimador para σ2 é dado pelo QMRes (também chamado de erro quadrático 
médio). 
Portanto, 
s2 = QMRes= 
SQReg
n p−como na regressão linear p= 2 , o estimador se resume a s2 = 
SQReg
2n −
. O erro 
padrão da estimativa é a raiz quadrada de s2 . 
s2= 2s = QMRes 
Pode ser provado, Webster (2007), que b1 possui uma distribuição normal 
com média β1 e variância σb1 = 2 2( )i ix x
n
σ
−∑ ∑ . Como não temos o 
 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 80 
 
valor de σ , devemos usar s, assim: 
 σb1 é sb1 = 2 2( )i i
s
x x
n
−∑ ∑ . Só que a distribuição da 
estatística de teste depende dos graus de liberdade que foram usados para 
estimar σ , assim a estatística de teste possui uma distribuição t-Student com 
n-p gl, sendo na regressão linear simples n-2 gl, tal que: 
t= 1
b1
b
s
 
A região crítica do teste é {RC t= ∈ℜ , tal que t <-tα/2, n-2 ou t >tα/2, n-2} , sendo 
α o nível de significância especificado. Os programas de estatística fornecem 
a estatística de teste e o p valor correspondente que poderá ser usado como 
critério de decisão (da mesma maneira que foi visto nos testes de 
normalidade e F ). 
Voltando ao Exemplo 1, temos: 
s2= 2s = 3037,907 55,12= 
sb1 = 
2
55,12
8671 (297)
12
−
= 1,52; t= 9,49/1,52 = 6,24 
Considerando 1% de significância, a região crítica do teste com 10 gl é dada 
por: 
{RC t= ∈ℜ , tal que t <- 3,169 ou t >3,169} 
Como 6,24 > 3,169, toma-se por decisão rejeitar H0 . Significa que β1≠0, ou 
seja, existe relação linear entre X e Y a 1% de significância. 
Fique atento! Alguns livros, mostram o teste de significância para o intercepto 
da recta de regressão, coeficiente β0 , que se baseia na distribuição t cujas 
hipóteses são H0 : β0≠0 contra Ha : β0≠0. Os programas informáticos fornecem 
esta estatística de teste. Mesmo sem ter o conhecimento da estatística de 
teste, podemos tomar a decisão da significância β0 de através do p valor. 
Um pouco mais sobre o modelo de regressão 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 81 
a) Intervalo de confiança de parâmetros estimados 
Além de se fazer um teste de hipótese para os parâmetros do modelo, o 
intervalo de confiança para os parâmetros β0 e β1 podem ser obtidos. Webster 
(2007) ilustra as seguintes relações: 
• Intervalo de confiança para β0 com (1-α) % de confiança: 
 b0 – E< β0 < b0 + E, onde E= tα/2, n-2s
2
2
2
1
( )i
i
x
xn
x
n
+
− ∑∑
 
• Intervalo de confiança para β1 com (1-α) % de confiança: 
 b1 – E< β1 < b1 + E, onde E= tα/2, n-2s 2
2 ( )i
i
s
x
x
n
− ∑∑
 
Podemos decidir a respeito da significância de β0 e β1, pelo intervalo de 
confiança. Se o valor zero não estiver no intervalo, pode-se concluir que o 
parâmetro do modelo é significativo, com α% de significância. 
Os intervalos de 95% de confiança para β0 e β1 do exemplo 1 
Para β0: 125,81 – E < β0 < 125,81 + E 
E= 2,228 x 55,12x 
2
2
1 24,75
(297)12 8671
12
+
−
 = 90,8 
IC de 95% para β0 
[125,81-90,8;125,81+90,8]=[35,01;216,61] 
Como zero não pertence a este intervalo, pode-se concluir, a 5% de 
significância, que β0 é significativo. 
Para β1: 9,49-E< β1 < 9,49 +E, em que: 
E = 2,228 x 
2
55,12 3,38
(297)8671
12
=
−
 
IC de 95% para β1 : [9,49 – 3,38; 9,49 + 3,38]. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 82 
Como zero não pertence a este intervalo, pode- se concluir, a 5% de 
significância, que β1 é significativo. 
b) Intervalo de confiança das previsões 
Webster (2007) mostram que a distribuição da previsão yi possui uma 
distribuição normal, contudo a estimativa s2 depende do número de graus de 
liberdade, que é n-p (sendo este valor n-2 na regressão linear simples). 
Portanto, a distribuição de um valor previsto yi, baseia-se na distribuição t 
com n-2 gl. O intervalo de confiança para a previsão é construído de acordo 
com a distribuição t e o desvio padrão é calculado utilizando a estimativa . 
Esses autores mostram ainda que o intervalo de previsão com (1-α)% de 
confiança para um valor individual de yi é: 
 [
2
/2,n 2 2 2
( )1ˆ 1
( ) /
i
i
i i
x xy t s
n x x nα −
−
± × × + +
−∑ ∑ ] 
O intervalo de 95% de confiança para a previsão do início desta secção 
manual é: 
2
2
1 (23 24,75)344, 27 2, 228 55,12 1
12 8671 (297) /12
−
± × × + +
−
 
Regressão múltipla 
Exemplo 2 
Um engenheiro que trabalha com a redução de custos numa plantação deseja 
investigar a variável quantidade de água consumida mensalmente, porque é a 
maior responsável pelos gastos na plantação. Também, deseja avaliar quais 
as possíveis variáveis que podem estar relacionadas com o consumo de 
água. Ele registou 17 observações da quantidade do uso de água e outras 
variáveis como a: temperatura média mensal (F), quantidade de produção 
(MPounds), número de dias trabalhados na plantação no mês, número de 
pessoas a trabalhar na plantação. A base de dados está a também disponível 
em <http://www.statsci.org/data/general/water.txt>,. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 83 
 
Agora, o nosso interesse é construir um modelo de regressão considerando 
quatro variáveis explicativas. Neste contexto, surge o modelo de regressão 
linear múltipla, que é caracterizado por várias variáveis explicativas, definido 
assim: 
 
Esta equação comporta-se de maneira semelhante ao modelo de regressão 
linear simples; a diferença está no número de variáveis explicativas, que é 
escolhida pelo pesquisador ao ajustar o modelo. O número de parâmetros 
estimados no modelo é p = k + 1 (pois β0 também é estimado). 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 84 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 85 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 86 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 87 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 88 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 89 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 90 
Leituras obrigatórias 
Webster Allen L. 2007 Estatística Aplicada a administração e Economia. 
McGraw-Hill, São Paulo, Brasil 
Leia os capítulos , 11 e 12 
Actividades 
Apresentamos algumas natividades programadas para que possamos 
reforçar os conhecimentos adquiridos durante os estudos. Leia o material 
recomendado e faça as natividades propostas. 
Actividade 1 
Os dados fornecem a taxa de mortes por 100.000 habitantes causadas por 
armas de fogo, na Austrália, de 1983 a 1997. Estes dados foram obtidos 
através do Instituto Australiano de Criminalidade e estão disponíveis 
<http://www.statsci.org/data/oz/fi rearms. html>. A coluna “Year” e “Rate” 
(dados do site) correspondem, respectivamente, ao ano e à taxa de mortes. 
a) Faça o gráfico de dispersão de ano versus taxa de mortes. 
b) Calcule o coeficiente de correlação linear entre o ano e a taxa de mortes. 
Veja se esta correlação é significativa a 1%. 
 
Actividade 2 
Utilizando os dados da Actividade 1, ajuste uma recta de regressão, 
considerando o ano como variável explicativa e a taxa de mortes como 
resposta. Verifique se o modelo é adequado usando os testes t e F. Avalie a 
qualidade dos resíduos e estime, pontualmente, a taxa de mortes para o ano 
de 2000. 
Actividade 3 
Os dados a seguir mostram o gasto mensal com publicidade e a receita de 
vendas mensal da Coca-Cola para o ano de 2008 (multiplicado por 1000em 
Meticais). 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 91 
 
Ajuste uma recta de regressão linear simples através dos dados; veja se é 
adequada, e faça uma previsão da receita de vendas, se a Coca-Cola gastar, 
1200 meticais com publicidade. Construa um intervalo de 90% de confiança 
para esta previsão. 
Actividade 4 
Um programa de qualidade para reduzir desperdício foi implementado no 
primeiro dia do mês, na Coca-Cola. A companhia registrou os dados 
referentes a lixo diário produzido (em toneladas) dos 8 primeiros dias após a 
iniciativa do programa. Verifique se existe correlação linear significativa, 
considerando um nível de 5%. 
 
Actividade 5 
A EDM quer estimar o custo de manutenção mensal (em meticais) de um 
determinado transformador através do número de horas de uso (mensal). 
Veja as informações do transformador nos últimos oito meses: 
 
Obtenha o modelo de regressão pelo método de mínimos quadrados e 
calcule o coeficiente de correlação linear entre horas de uso e o custo de 
manutenção. Compare seus resultados com o ajuste do Minitab. 
REFERÊNCIAS 
Webster Allen L. 2007 Estatística Aplicada a administração e Economia. 
McGraw-Hill, São Paulo, Brasil 
 
 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 92 
 
CHAVE DE CORRECÇÃO DAS ACTIVIDADES 
 
UNIDADE TEMÁTICA 1 – A IMPORTÂNCIA DA INFERÊNCIA PARA 
DECISÕES ADMINISTRATIVAS: INTERVALOS DE CONFIANÇA E 
TESTES DE HIPÓTESES 
Actividade 1 
Hipóteses do teste: 
H0:µ≥28000 ( o facturamento da loja é pelo menos 28000,00 MT) 
H0:µ<28000 ( o facturamento da loja é pelo menor 28000,00 MT) 
Estatística de teste: 
A estatística de teste será: 
26200 28000 1,8374800
24
obst
−
= = − 
a) Testando a afirmação a 5% de significância. 
Pela tabela da distribuição t , o valor crítico é t0,05,23=1,714 . Como o teste é 
unilateral esquerdo, a região crítica é dada por { ,RC t= ∈ℜ tal que t<- 1,714}: 
. Logo, a 5% de significância, rejeitasse H0 e conclui-se que o facturamento 
da loja é inferior a 28.000,00 
b) Testando a afirmação a 1% de significância. Pela tabela da distribuição t, o 
valor crítico é t0,01,23=2,50. De maneira semelhante à obtida pelo item (a), a 
região crítica é { ,RC t= ∈ℜ tal que t<-2,50} dada por: . Logo, a 1% de 
significância, não se rejeita H0, e concluísse que o facturamento da loja é de 
pelo menos 28.000,00, ou seja, o gerente está correcto. 
c) Observe que a margem de erro é E = 500 MT, como α = 0,05; z0,025 = 1,96. 
Pela equação da determinação do tamanho da amostra, temos: 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 93 
21,96.4800 354,042 355
500
n ⎛ ⎞= = ≈⎜ ⎟
⎝ ⎠
 
Para atender às especificações, seriam necessárias 355 semanas de estudo 
de facturamento. Esse grande tamanho de amostra, se deve ao fato de que o 
desvio padrão é muito grande. 
Actividade 2 
a) A proporção observada de habitantes que fazem reciclagem do lixo é: 
68ˆ 0,34
200
p = = habitantes reciclam o lixo doméstico. 
b) O valor do coeficiente de confiança é z0,025 = 1,96 . Portanto, um intervalo 
de 95% de confiança é dado por: 
IC ( p̂ ; 95%) = 0,34(1 0,34)0,34 1,96 [0,275;0,405]
200
⎡ ⎤−
± =⎢ ⎥
⎣ ⎦
 
c) A partir do intervalo construído, observa que 0,4 pertence ao intervalo de 
95% de confiança, portanto, a 5% de significância, decide-se pela não 
rejeição de H0 . Isso significa que a proporção de reciclagem é de 40%. 
 
UNIDADE TEMÁTICA 2 – APLICAÇÕES DO TESTE QUI-
QUADRADO EM TABELAS DE CONTINGÊNCIA 
Actividade 1 
As hipóteses do teste são: 
H0 : a proporção de clientes pré-pago e pós-pagos é a mesma para todas as 
faixas etárias. 
Ha : a proporção de clientes pré-pago e pós-pagos é diferente para cada faixa 
etária. 
A tabela de valores esperados pode ser expressada por 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 94 
 
Sob H0, 2Q tem uma distribuição 2χ com (7-1) x (2-1)= 6 
2 2{ : 14,449}RC Q Q= > graus de liberdade. E a região crítica é dada por 
pois o valor crítico a 2,5% de significância é: qc= 14,449. 
2 2
2 (32 19,68) (54 42,32) (51 45,71).... 64,198
19,68 42,32 45,71
Q − − −= + + + = 
Como 64,2 > 14,5, decide-se pela rejeição de H0 . A 2,5% concluísse que a 
proporção de clientes pré-pago e pós-pagos é diferente para cada faixa 
etária. 
Actividade 2 
As hipóteses são: 
H0 : o gasto com manutenção de caixas electrónicos não depende de sua 
taxa de uso. 
H0 : o gasto com manutenção de caixas eletrônicos depende de sua taxa de 
uso. 
A tabela de valores esperados é: 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 95 
 
A estatística de teste é: 
2 2 2
2 (22 10, 25) (12 15,04) (27 21,06).... 24, 278
10, 25 15,04 21,06
Q − − −= + + + = 
O valor crítico a 1% de significância, com 4 graus de liberdade é qc= 13,277. 
Portanto, 2 2{ : 13,277}RC Q Q= > . Isso significa que H0 deve ser rejeitada, 
concluísse a 1% que o gasto com manutenção de caixas eletrônicos depende 
de sua taxa de uso. 
 
Actividade 3 
a) A variável número de gotas é quantitativa discreta, pois não conseguimos 
manualmente colocar 1 gota e meia, ou seja, os números de gotas são 
inteiros. Contudo, para fazer esse tipo de teste a variável foi categorizada, 
separada em níveis, portanto, nesse caso, a variável deve ser considerada 
como qualitativa ordinal, já que existe uma ordenação no aumento do número 
de gotas. Já a variável tempo de relação é quantitativa contínua, pois o tempo 
corre continuamente, podemos observar 2 minutos e meio, 4,75 minutos e 
assim por diante. Porém, o tempo também foi categorizado em níveis 
crescentes, logo, o tempo de relação também deve ser considerado como 
variável qualitativa ordinal 
b) H0 : tempo de relação da dipirona não depende do número de gotas por 
dose. 
Ha : tempo de relação da dipirona depende do número de gotas por dose. 
c) Para se ter uma posição é necessário realizar o teste. A seguir segue a 
tabela de valores esperados: 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 96 
 
Sob H0 2Q , tem uma distribuição 2χ com (3-1) x(4-1)=6 graus de liberdade. E 
a região crítica é dada por 2 2{ : 10,645}RC Q Q= > pois o valor crítico a 10% 
de significância é qc.= 10,645 
2 2 2
2 (6 20) (26 20) (8 20).... 34,8
20 20 20
Q − − −= + + + = 
Como 34,8 >>10,645, decide-se pela rejeição de H0 . A 10% concluísse que o 
tempo de relação da dipirona depende do número de gotas por dose. 
 
Actividade 4 
Ho : a proporção de defeitos leves, moderados e graves é a mesma para os 
três tipos de automóveis. 
Ha : a proporção de defeitos leves, moderados e graves é diferente para os 
três tipos de automóveis. 
Antes de calcularmos a estatística de teste, temos que achar a tabela de 
valores esperados: 
 
A estatística 2Q é: 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 97 
2 2 2
2 (12 8, 29) (14 12,02) (18 22,13).... 11,582
8, 29 12,02 22,13
Q − − −= + + + = 
Sob H0 , tem uma distribuição 2χ com (3-1) x (3x1)= 4 graus de liberdade. 
O valor crítico a 5% de significância, com 4 graus de liberdade é qc= 9,488 . 
Portanto . 2 2{ : 9,488}RC Q Q= > .Como 11,582 > 9,488, H0 deve ser 
rejeitada. Conclui-se a 5%, que a proporção de defeitos leves, moderados e 
graves é diferente para os três tipos de automóveis 
O valor crítico a 1% de significância, com 4 graus de liberdade é qc= 13,277 . 
Portanto . 2 2{ : 13,277}RC Q Q= > . Como 11,582 < 13,277, H 0 não deve ser 
rejeitada. Conclui-se a 1%, que a proporção de defeitos leves, moderados e 
graves é a mesma para os três tipos de automóveis.Observação: dependendo do nível de significância adoptado, a decisão para 
teste pode ser modificada, pois a estatística de teste está bem próxima do 
valor crítico. Portanto, é necessário prestar muita atenção no momento de 
olhar o valor crítico da tabela. 
Actividade 5 
Esse teste é o de independência de variáveis, pois se deseja ver se existe 
alguma relação entre o tipo e o turno do dia em que foi feita a reclamação. 
H0 : não existe relação entre o tipo e o turno do dia em que foi feita a 
reclamação. 
Ha : existe relação entre o tipo e o turno do dia em que foi feita a reclamação. 
A tabela de valores esperados é: 
 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 98 
Sob H0 2Q , tem uma distribuição 2χ com (4-1) x(5-1)=12 graus de liberdade. 
E a região crítica é dada por 2 2{ : 26,217}RC Q Q= > pois o valor crítico a 
10% de significância é qc.= 26,217 
2 2 2
2 (8 10, 26) (9 9,06) (11 12,39).... 15,898
10, 26 9,06 12,39
Q − − −= + + + = 
Como 15,9 < 26,217, decide-se por não rejeitar H0 . A 1% concluísse que não 
existe relação entre o tipo e o turno do dia em que foi feita a reclamação. 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 99 
UNIDADE TEMÁTICA 3 – APLICAÇÕES CORRELAÇÃO, 
REGRESSÃO LINEAR SIMPLES E MÚLTIPLA 
Actividade 1 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 100
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 101
 
Actividade 3 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 102
 
 
 
 
 
Gestão de Empresas – Estatística Aplicada II – Semestre 4 
 
Escola Superior Aberta/A Politécnica – Ensino a Distância 103
 
Actividade 4 
 
Actividade 5

Mais conteúdos dessa disciplina