Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

ESTUDOS DE CASOS 
 
CURSO DE INTRODUÇÃO À 
ESTATÍSTICA ECONÔMICA E 
APLICADA 
 
 
 
 
 
 
 
 
Prof. Henrique Dantas Neder 
Instituto de Economia - Universidade Federal de Uberlândia 
 
Julho de 2000 
 
 
 
 
 
 
 
Estudo de Caso 1 
 
 Uma regra básica de decisão para os investidores nos mercados 
financeiros é “diversificar”, ou seja distribuir os seus recursos a um conjunto de 
ações que provavelmente se comportarão diferentemente em resposta a várias 
condições de mercado. O risco para o investidor é reduzido porque, sob um dado 
conjunto de circunstâncias, algumas ações (ou ativos) no portfolio subirão 
enquanto outras cairão. Como podemos determinar quais ações são similares e 
quais não são para o propósito de diversificação ? 
 Os dados apresentados são preços de ações de Janeiro de 1988 a Outubro 
de 1991, para dez companhias. Por exemplo, duas ações podem ser consideradas 
similares se elas mantém aproximadamente o mesmo nível, variam em um grau 
similar ou tendem a mover-se para baixo e para cima de uma forma relacionada 
em um período relevante de tempo. Uma análise inicial pode usar algumas 
técnicas gráficas para examinar estes aspectos dos dados. 
 Construa histogramas para estas séries de preços. 
 Que informação é perdida na conversão dos dados em histogramas ? O 
que se ganha com isto ? 
 
Gráficos em Séries de Tempo 
 
 Outro instrumento simples para comparar séries de preços ao longo do 
tempo é um gráfico em série temporal. Plote os preços para cada uma das 10 
companhias. Quais são as vantagens de utilizar a mesma escala para todas as 
séries? Quais são as desvantagens? Observe a forma geral das séries. 
 Você pode agrupar as companhias de acordo com estas formas? Estas 
formas podem ser consideradas uma resposta para a questão colocada acima 
referente a similaridade ou deveríamos também considerar o nível das séries. Ou 
seja, dados dois gráficos com aproximadamente a mesma forma, poderíamos 
considerá-los como similares mesmo que um tivesse como média cerca de 20 
dólares e o outro cerca de 65 dólares ? E a respeito da variabilidade? Como 
podemos considerar a variabilidade destes gráficos? 
 
Estatísticas Descritivas 
 
 Pode ser útil ter um ou dois números que sintetizem as características 
relevantes do comportamento das ações. A média e a variância são duas 
estatísticas descritivas freqüentemente usadas para sumariar os dados. Calcule as 
médias dos preços das ações. Localize as médias nos histogramas. Isto significa 
que a companhia com maior média é melhor investimento do que a companhia 
com menor média? 
 Apenas observando os histogramas, qual companhia tem os preços de 
suas ações mais variável? O que a variabilidade significa no contexto dos preços 
de ações? Duas possíveis medidas de variabilidade são a variância e o desvio 
interquartílico. calcule-os para cada companhia. 
 Qual é melhor medida de variabilidade, pensando a variabilidade como 
risco? Chega-se a mesma conclusão utilizando as duas medidas para as 
companhias? 
(dados em anexo na planilha PRECO.WKS) 
 ESTUDO DE CASO 2 
 
Suicídio 
 
 Tópicos Abordados: 
 
1.Cálculo de Probabilidades Condicionais 
2.Psicologia 
 O suicídio tem sido o tema de um número crescente de estudos nos anos 
recentes e os psicólogos tentam entender as razões das pessoas decidirem 
acabar com suas vidas. Duas questões em tais estudos referem-se ao sexo da 
pessoa que comete o suicídio e o método escolhido para fazê-lo. 
 1. As mulheres cometem suicídio a uma taxa mais elevada do que os 
homens, ou é o contrário que ocorre? 
 2. Existem diferenças por sexo no método usado? 
 Vejamos. Segue-se uma tabela de contingência de 2 por 4 que classifica 
os suicídios nos EUA em 1983 por sexo e método (“enforcamento” também inclui 
estrangulamento e sufocação). Por exemplo, dos 28.295 suicídios nos EUA 
naquele ano, 13.959 foram de homens utilizando revolveres. 
 
 Revolver Envenenamento Enforcamento Outros Total 
Homens 13959 3148 3222 1457 21786 
Mulheres 2641 2469 709 690 6509 
Total 16600 5617 3931 2147 28295 
 
 Qual é a probabilidade de que uma pessoa escolhida aleatoriamente (ao 
acaso) entre estas 28.295 vítimas de suicídio seja homem? E qual é a 
probabilidade de que seja mulher? 
 Dado que os números de homens e de mulheres no país são 
aproximadamente iguais, em que isto implica na taxa de suicídio entre homens 
comparada com a de mulheres? Dê uma resposta numérica explícita (por 
exemplo, “Mulheres cometem suicídio com cinco vezes mais probabilidade do que 
homens,” se isto é correto). 
 Explique em uma sentença ou duas o que estas probabilidades dizem 
acerca das diferenças, se houverem, entre homens e mulheres no método 
escolhido de suicídio. 
 Considere as seguintes probabilidades condicionais para uma pessoa 
escolhida aleatoriamente a partir destas 28.295 pessoas. Algumas já estão 
calculadas. 
 1.P( revolver dado homem ) = ... 
 2.P( revolver dado mulher ) = 40.6% 
 3.P( envenenamento dado homem ) = 14.4% 
 4.P( envenenamento dado mulher ) = ... 
 5.P( enforcamento dado homem ) = 14.8% 
 6.P( enforcamento dado mulher ) = ... 
 7.P( outros dado homem ) = ... 
 8.P( outros dado mulher ) = 10.6% 
 
Solução 
 
P(homem) = 21786/28295 = 0,77 e P(mulher) = 6509/28295 = 1 - 0,77 = 0,23. 
Dado que os números de homens e de mulheres são aproximadamente iguais no 
país, isto significa que os homens são muito mais prováveis de cometer suicídio 
do que as mulheres - de fato, 0,77/0,23 é mais do que 3,3 vezes mais provável. 
 
Interlúdio técnico: efetivamente os valores 77 % e 23 % são probabilidades 
condicionais, porque eles são calculados em relação a pessoas que cometem 
suicídio: 
 
P(homem dado suicídio)=(21786 sobre os 28295 suicídios) = 77%, P(homem dado 
suicídio)= 23%, 
similarmente. O que realmente queremos, entretanto, não é P( homem dado 
suicídio) e P(mulher dado suicídio) mas P(suicídio dado homem) e P(suicídio dado 
mulher), porque queremos comparar a taxa de suicídio entre os homens com 
aquela entre as mulheres. Você pode usara definição de probabilidade condicional 
para mostrar como estas coisas são relacionadas, como segue: 
 
 
 1.P(suicídio dado homem) = P(suicídio e homem )/P(homem) 
 2.P(suicídio dado mulher) = P(suicídio e mulher)/P(mulher) 
 
Portanto, P(suicídio dado homem)/P(suicídio dado mulher)= [P(suicídio e 
homem)/P(homem)]/[P(suicídio e mulher)/P(mulher)]. 
 
Mas P(homem) e P(mulher) são aproximadamente idênticos e iguais a 50% cada, 
portanto P(suicídio dado homem)/P(suicídio dado mulher)= P(suicídio e 
mulher)/P(suicídio e mulher) 
 
Agora, 
 
 1.P(homem dado suicídio)=P(suicídio e homem)/P(suicídio) 
 2.P(mulher dado suicídio) = P(suicídio e mulher)/P(suicídio) 
 
Portanto, P(homem dado suicídio)/P(mulher dado suicídio)= [P(suicídio e 
homem)/P(suicídio)]/[P(suicídio e mulher)/P(suicídio)]= 
P(suicídio e homem)/P(suicídio e mulher). 
 
Portanto neste caso especial, já que o número de homens e mulheres são 
aproximadamente iguais, temos que P(suicídio dado homem)/P(suicídio dado 
mulher)= P(homem dado suicídio)/P(mulher dado suicídio). 
 
Em outras palavras, a relação das taxas de suicídio para homens e mulheres pode 
ser calculada como (21786/28295)/(6509/28295)= 77 %/23 % = 3,3, como acima. 
Usualmente P(A dado B) e P(B dado A) conduzem a duas questões bem 
diferentes. 
 
ESTUDO DE CASO 3: 
 
Tópicos Referidos 
 1.Cálculo e interpretação de probabilidades 
 2.Medicina 
 
O teste ELISA foi aprovado pelo governo dos EUA em meados da década de 1980 
para a verificação da presença do vírus da AIDS no sangue doado. O teste opera 
através da detecção de anticorpos, substâncias que o corpo produz quando o 
virus está presente, mas ele comete alguns erros. O teste ELISA foi projetado de 
formaque quando uma dada amostra de sangue está de fato contaminada com 
AIDS, o teste dá um resultado positivo (ou seja, o teste ELISA registra que na sua 
opinião esta amostra de sangue tem AIDS) 99 % das vezes, ao passo que quando 
a amostra que está sendo testada não está contaminada com o vírus o teste 
ELISA anunciará um resultado negativo 94 % das vezes. A prevalência de AIDS 
na população de pessoas que doam sangue é cerca de 1 %. Suponha que alguém 
doe sangue e que o teste ELISA forneça um resultado positivo. Mostre que a 
probabilidade da pessoa efetivamente ter AIDS dado este resultado positivo é de 
somente cerca de 14 %! Isto significa que os projetistas do teste ELISA são 
estúpidos, ou erros como este são inevitáveis? Explique brevemente. A seguinte 
sugestão pode ser útil. 
Preencha a tabela 2 X 2 abaixo para um conjunto imaginário de 10.000 
amostras de sangue, usando os três fatos numéricos do parágrafo anterior. 
Comece com o dado de 1 % e continue a preencher a tabela explicando as 
passagens. 
 A pessoa tem AIDS A pessoa não tem AIDS 
O teste ELISA é positivo 
O teste ELISA é negativo 
 
Resposta: 
Primeiramente, se 1 % das amostras de sangue são realmente de pessoas 
com AIDS, então você pode colocar 1 % de 10.000 = 100 o total marginal na 
primeira coluna e teremos 10.000 - 100 = 9.900 amostras de sangue que não tem 
AIDS como o total marginal na segunda coluna. Em segundo lugar, se 99 % das 
pessoas com AIDS serão corretamente classificadas pelo teste ELISA, 99 das 100 
amostras na primeira coluna cairão na primeira linha naquela coluna, deixando 
100 - 99 = 1 na segunda linha naquela coluna. Em seguida, se 94 % das 9900 
pessoas que não tem AIDS serão corretamente informadas de que não estão 
infectadas pelo ELISA, estimo que seriam 0,94 * 9900 = 9306 amostras de sangue 
na segunda linha da segunda coluna, deixando 9900 - 9307 = 693 para a primeira 
linha daquela coluna. Finalmente, portanto, os totais marginais nas linhas são 99 + 
594 = 693 e 1 + 9306 = 9307 
Finamente, estando a tabela completa, podemos calcular a probabilidade 
condicional que queremos: P(uma pessoa tem AIDS dado que o ELISA é positivo) 
= 99/693 = 14 %. Em outras palavras, somente cerca de 14 % dos resultados 
positivos do ELISA efetivamente estão infectados. Isto parece ser um dado 
desapontadoramente baixo considerando os números de performance (99 % e 94 
%) bons do ELISA. Portanto, é importante dedicar um momento para ver porque. 
 A pessoa tem AIDS A pessoa não tem AIDS 
O teste ELISA é positivo 99 591 693 
O teste ELISA é negativo 1 9306 9307 
 100 9900 10000 
Há uma variedade de pontos que podem ser observados em uma 
explanação: 
Algebricamente, uma fração é pequena quando seu numerador é pequeno 
e/ou seu denominador é grande, e ambas as coisas acontecem aqui. O numerador 
(99) é pequeno devido a incidência de AIDS ser baixa - desde que somente 1 % 
das amostras de sangue estarão de fato contaminadas, o numerador poderia ser 
no máximo 100. E o denominador (693) é grande porque o valor 591 é também 
bastante grande, o que por sua vez ocorre devido a taxa de sucesso de 94 % do 
ELISA entre as pessoas que não têm AIDS. 
As células na diagonal da tabela 2 x 2 acima são valores de sucesso para o 
ELISA; a outra diagonal mostra os erros do teste. Verifique o forte desequilíbrio 
nas células da diagonal secundária: 1 contra 591. O teste ELISA foi evidentemente 
projetado para ter horror a cometer um dos dois possíveis erros que ele pode 
cometer, ou seja comunicar a pessoas que tem AIDS que elas não têm (falsos 
negativos, como eles são chamados), o que faz sentido já que o ponto é retirar 
sangue contaminado do sistema de doação de sangue. Mas é inevitável que ao 
tentar arduamente não cometer este tipo de erro o ELISA tem que cometer um 
grande número do outro tipo de erro, ou seja, comunicar às pessoas que não têm 
AIDS que elas têm. Na prática pessoas cujo resultado é positivo com ELISA são 
submetidas a um segundo teste (chamado Western blot) que é mais caro mas é 
mais preciso, e aquelas pessoas são somente declaradas como tendo AIDS se 
ambos os testes resultam positivos. Portanto, a resposta é não: os projetistas do 
ELISA não são estúpidos; se falsos negativos são realmente resultados ruins e a 
sua prevalência é baixa, os falsos positivos são inevitáveis. 
ESTUDO DE CASO 4 
 
Fumar: grande risco para mulheres 
Tópicos Referidos 
 1.Cálculo e interpretação de probabilidades 
 2.Medicina 
 
Fumantes mulheres tem duas vezes risco de câncer pulmonar se elas fumam o 
mesmo número de cigarros que homens, um novo estudo descobriu. O estudo 
registrado na Revista Americana de Epidemiologia, é um dos primeiros a revelar 
que o fumo afeta homens e mulheres diferentemente. Encontrou que mulheres 
mais jovens eram sete vezes mais prováveis de adquirir câncer que mulheres não 
fumantes mas tem cinco vezes mais risco que homens não fumantes. 
Os investigadores converteram os dados em "maços-anos" , com cada ano 
equivalente a 7305 cigarros, ou um média de um maço por dia. Mulheres que 
fumaram mais que 30 maços-anos tiveram 27 vezes mais risco de adquirir câncer 
pulmonar que mulheres não fumantes. Mas os homens que fumaram o mesmo 
número de anos eram 11 vezes mais prováveis de desenvolver câncer que os 
homens não fumantes. Para 60 maços-anos e mais, as mulheres correram um 
risco de câncer que foi 82 vezes mais alto do que se elas não fumassem, e os 
homens correram um risco 23 vezes mais alto. 
Os investigadores da Universidade de Yale , da Universidade de Toronto-Canadá 
e da Fundação de Tratamento do Cancer de Ontario, entrevistaram 442 mulheres 
e 403 homens com câncer pulmonar para o estudo. Os fumantes foram escolhidos 
a partir dos dados de 410 mulheres saudáveis e 362 homens saudáveis de cerca 
da mesma idade. Os membros familiares e cônjuges dos fumantes também eram 
cuidadosamente entrevistados para estabelecer detalhes da história de cada 
pessoa fumante e do número de cigarros que elas fumavam. 
Estudo conduzido pelo Dr. Harvey Risch, professor associado de epidemiologia e 
saúde pública na Escola de Medicina de Yale afirmou que a maioria dos fumantes 
fumam em média um maço por dia e fumam cerca de 40 anos. Mas apesar do 
resultados, Dr. Risch escreveu no New York Times que ele não pôde estabelecer 
quaisquer razões de que as mulheres eram mais suscetíveis a câncer pulmonar 
que os homens. 
O Conselho Anti-câncer Vitoriano de Epidemiologia encabeçado pelo Dr. Graham 
Giles disse ontem que os resultados da pesquisa tornam vital que as mulheres - 
especialmente 
mulheres jovens - deixem de fumar. Ele disse que muito pouca pesquisa tinha sido 
feita sobre a diferença no hábito de fumar de acordo com os sexos porque a 
maioria das mulheres não fumaram por tanto tempo como os homens. 
 
DISCUSSÃO: 
 
Dois tipos de questões podem ser levantadas a partir desse artigo. Em primeiro 
lugar há a questão geral referente a coleta dos dados, relatando-a e explicando-a. 
É um caso interessante de um estudo retrospectivo porque começa com pessoas 
que têm câncer pulmonar (provavelmente de idade de 55 ou mais desde que a 
maioria têm fumado aproximadamente 40 anos). A segunda questão é a 
representação de probabilidades. Não está claro totalmente como estas poderiam 
ser calculadas da informação sobre as pessoas no estudo. Usando uma 
abordagem de freqüência para probabilidade, pode-se concluir que desde que os 
pesquisadores partiram de pessoas com câncer pulmonar (442 mulheres e 403 
homens), as probabilidades que podem ser obtidas são: 
 
Pr (fumar | câncer pulmonar) NÃO Pr (câncer pulmonar | fumar). 
[Aqui Pr (A | B) é a probabilidade de evento A acontecer dada a ocorrência de 
eventoB.] 
 
Talvez a luz dos comentários sobre pessoas saudáveis os pesquisadores 
poderiam calcular 
 
 Pr (fumar | saudável). 
 
Porém, esta não está diretamente relacionados às probabilidades dadas no artigo. 
 
A mistura com " pessoas saudáveis " de cerca da mesma idade é de interesse 
porque não diz se elas eram os fumantes ou não. De sentenças anteriores no 
artigo, poderia se supor que elas eram não-fumantes. Isto poderia ser importante 
para a interpretação dos resultados. A mistura de aspectos é importante para um 
estudo como iste mas claro que não responde por outros fatores (genéticos ou 
sociais) por que as pessoas poderiam escolher fumar ou desenvolver uma 
propensão para câncer pulmonar. Uma pergunta adicional surge sobre a base 
para as conclusões para mulheres "mais jovens" dadas no começo do artigo, 
 
 Pr (Câncer | mulher que fumou 30 pacotes-anos) = 27 Pr (Câncer | mulher 
não fumante) 
 e 
 Pr (câncer | homem que fumou 30 pacotes-anos) = 11 Pr (Câncer | homem 
não fumante) 
 
Após a discussão poderia ser de interesse olhar o relatório de pesquisa original na 
Revista Americana de Epidemeologia. 
 
ESTUDO DE CASO 5 
 
Subterrâneo de Londres 
 
Tópicos Abordados: 
 
1. Modelos de Probabilidade e Aproximações para 
 a Distribuição Normal 
2. Teorema do Limite Central 
3. Engenharia 
 
 Há um grande número de diferentes linhas subterrâneas em Londres, 
algumas das quais correm paralelas sob as mesmas ruas. Os construtores dos 
subterrâneos o arranjaram sobrepondo os túneis subterrâneos de cada linha uns 
sobre os outros, algumas vezes em duas ou três vias. Em muitas estações 
subterrâneas. Em muitas estações subterrâneas, para alcançar os túneis mais 
profundos você deve descer uma longa escada rolante. Por exemplo, na estação 
Pimlico, a escada rolante que desce até o mais profundo túnel é semelhante a 
uma “stairway” com 96 etapas. Durante o período de “rush” qualquer simples 
etapa de escada rolante tem duas pessoas lado a lado, de forma que a escada 
rolante tem que ser projetada para carregar 192 pessoas sem sobre carga. A 
população das vias subterrâneas nos períodos de “rush” é quase que 
exclusivamente composta de homens e mulheres adultos, que pesam em média 
150 libras-peso com um desvio padrão de cerca de 28 libras-peso. 
 
 Se o engenheiros que planejaram e projetaram a estação Pimlico 
projetaram a escada rolante para carregar 29.700 libras-peso sem ruptura, que 
proporção do tempo quando ela está completamente lotada com 192 pessoas 
haveria sobrecarga? ( Expresse sua resposta na forma “cerca de 1 em cada k 
viagens inteiramente carregadas”). 
 
 Dado que os períodos de pico de tráfego pela manhã e no final da tarde 
duram cerca de uma hora e meia e o movimento na escada rolante é de tal forma 
como se ocorresse uma nova viagem com 192 novas pessoas a cerca de cada 
minuto durante este período, você considera esta taxa de falha como 
aceitavelmente baixa? 
 
(Sugestão: a esta taxa qual seria a freqüência aproximada de sobrecarga?) 
 
Se os engenheiros quisessem que a escada rolante falhasse somente cerca de 
uma vez em cada 10.000 viagens (o que significaria sobrecarga cerca de uma vez 
em cada 110 dias), para que peso a escada deveria ser projetada para suportar? 
(Seja explícito com referência ao seu modelo de probabilidade: em outras 
palavras, seja claro acerca da estrutura de população e amostra envolvida e 
comente brevemente sobre todas as hipóteses que você estabeleceu e se você 
considerou-as razoáveis. 
 
Solução 
 
Estamos querendo saber a probabilidade de que 192 passageiros aleatoriamente 
escolhidos sobrecarreguem a escada rolante. A população é conceitual: todos os 
passageiros de Londres que costumam usar a estação Pimlico no período de rush. 
Podemos considerar o tamanho N da população como praticamente infinito. A 
variável de interesse é o peso das pessoas. A média populacional é 150 libras; o 
desvio padrão populacional é 28 libras; e o histograma populacional tem 
provavelmente uma longa cauda direita (porque voc6e não pode sobreviver como 
um adulto com um peso menor do que 80 libras ou alguma coisa assim mas você 
pode ir muito longe na cauda direita sem morrer imediatamente). Nós estamos 
pensando no peso total de 192 passageiros na escada rolante, no período de rush 
quando existe aglomeração, como sendo a soma de 192 extrações independentes 
e identicamente distribuídas - iid (ou AAS; isto não importa quando N é infinito) da 
população, de forma que a amostra são as 192 pessoas assim escolhidas, n = 
192, e a estatística amostral de interesse é a soma S de todas as 192 extrações. 
Em termos de S a probabilidade que queremos é P(S > 29700 libras). Para 
calcular esta probabilidade temos que preencher um conjunto de dados 
imaginários, imaginando repetidamente que tomamos 192 extrações IID 
(independentes e identicamente distribuídas) da população e calculamos sua 
soma. A primeira vez o resultado pode ser 29400 libras; na próxima vez 28600 
libras; e assim por diante. Uma maneira de calcular P(S > 29700) é considerar a 
média e o desvio padrão do conjunto de dados imaginário, aproximar o histograma 
das somas pela distribuição normal, e calcular a área a área sob a curva normal a 
direita de 29700. A média tendencial das somas neste conjunto de dados 
imaginário é o valor esperado da soma, E(S)= 192*150 lb = 28800 lb. O desvio 
padrão tendencial das somas deste conjunto de dados imaginário é o erro padrão 
da soma, SE (S) =28*192 = 388 lb; em outras palavras, a variável aleatória soma 
tem média 28800 lb e desvio padrão 388 lb. 
 
O histograma tendencial (quando um número muito grande de extrações IID 
de 192 pessoas ocorre neste experimento imaginário) seguiria proximamente a 
curva normal pelo Teorema do Limite Central, porque 192 é um número grande de 
extrações e o histograma populacional provavelmente não era tão distanciado da 
curva normal. Assim, P(S> 29700) pode ser decentemente aproximado pela 
conversão de 29700 a unidades padronizadas pela curva normal, ou seja (29700-
28800)/388 = 2,32 , e verificando a área a direita de 2,32 sob a curva normal 
padronizada, que é cerca de 1 % ou 1 em 100. Em outras palavras, se eles 
projetassem a escada rolante para sustentar 29700 lb, ela atingiria sua resistência 
máxima cerca de uma vez a cada 100 viagens totalmente carregadas. 1% parece 
ser um número bem pequeno, mas não é pequeno o bastante: Com 90 viagens 
inteiramente carregadas de um minuto nos horários de rush da manhã e do final 
de tarde combinados, a escada rolante não funcionará cerca de uma vez a cada 
1,1 dias, o que é muito freqüente. 
 
 Suponha que eles somente quisessem que ela não funcionasse uma vez a 
cada 10000 viagens inteiramente carregadas. Isto seria equivalente a perguntar o 
número de libras x tal que P(S > x) = 0,0001. A posição na curva normal 
padronizada com 0,0001 como área a direita é cerca de de 3,72, e trabalhando em 
sentido inverso de (x - 28800)/388 = 3,72, obtemos cerca de 30240 lb. Isto é muito 
interessante: para abaixar a taxa de falha de 1 em 100 para 1 em 10000 eles 
somente tem que aumentar a tolerância de carga de cerca de 540 lb, de 29700 
para 30240. A razão é que 2,32 já é bastante distanciada na cauda direita da 
curva normal e a curva aproxima-se de zero muito rapidamente a partir daquele 
ponto - você não tem que ir muito longe para fazer com que a área a direita do 
ponto caia bastante. 
 
Nota técnica: estamos provavelmente confiando muito no comportamento exato 
da curva normal e na forma de sua cauda direita ao fazer estes cálculos - um 
trabalho de engenharia cuidadoso seria baseado não na curva normal mas em 
simulações feitas a partir da distribuição efetiva de pesos dos passageiros nas 
horas de rush. 
 
 
ESTUDO DE CASO 6 
 
Trialof the Pyx 
 
Tópicos Abordados: 
 
1. Modelos de Probabilidade e Aproximações para 
 a Distribuição Normal 
2. Teorema do Limite Central 
3. História Econômica 
 
Trial of the Pyx 
 
Desde o princípio do século 13, as moedas cunhadas pelo Royal MInt na 
Inglaterra tinham o seu conteudo de metal avaliado em uma base amostral, 
através de uma cerimônia chamada "Trial of the Pix". Em 1799, por exemplo, o 
procedimento era do seguinte modo. Cem moedas de ouro chamadas guinels 
eram escolhidas ao acaso de todas as moedas produzidas naquele ano, 
colocadas no "Pyx" (uma caixa de cerimonial), e pesadas. Permitia-se ao Mestre 
do "Pix", que era responsável pela qualidade das moedas, uma margem de erro, 
chamada "remédio" que era fixada de acordo com as tolerâncias dos processos de 
fabricação da época. 
 
Supunha-se que um guinel em 1799 pesava 128 gramas (há 360 gramas em uma 
onça), de forma que 100 guinels no "Pix"pesariam cerca de 12800 gramas. O 
"remédio" por esses dias era 1/400 da quantidade esperada, ou 32 gramas. Se o 
peso efetivo das moedas no "Pyx" diferisse de seu valor esperado por mais que o 
"remédio" tanto para mais como para menos, o Mestre do "Pix" ficava exposto a 
sérias penalidades. O governo britânico tinha um interesse em que as moedas não 
pesassem muito, mas o Mestre do "Pix" tinha um incentivo para faze-las pesar 
menos que o padrão, porque isto lhe permitiram obter a diferença (contanto que 
ele não fosse pego pelo "Trial of the Pyx"). 
 
 
Se o Mestre da "Pyx" é honesto e fabrica guinels que pesam exatamente128 
gramas em média, com um desvio padrão de 1 grama, qual é a chance que ele 
sobreviverá ao "Trial of thePyx"? Para responder a esta pergunta, primeiramente 
construa um modelo de probabilidade, sendo explícito quanto a população e a 
amostra. 
 
Se ao invés ele faz com que as guinés pesem somente 127,7 grãos em média 
(com o mesmo desvio padrão de 1 grama), qual é agora a probabilidade de que 
ele sobreviverá ao "Trial"? Se ele sobrevive, quanto ouro pode esperar ele 
embolsar em um ano comum no qual ele produz 100000 guinels? Ele perde ou 
ganha quanto? Mostre todo o seu desenvolvimento (mas você não precisa 
reconstruir o modelo explicitamente). 
 
DISCUSSÃO 
 
A população de interesse são todas as moedas cunhadas em 1799, com média 
igual a 128 gramas e um desvio padrão de 1 grama. Desta população uma 
amostra aleatória simples de 100 moedas foi selecionada para o "Trial of the Pyx". 
Seja S a soma dos pesos das 100 moedas na amostra. O valor esperado da 
soma, E(S), é 100 vezes a média da população: 12800 gr. O erro padrão (SE) é 
determinado pelo desvio padrão vezes a raiz quadrada do tamanho da amostra: 
1*10 = 10 grama. Devido ao Teorema de Limite Central, o histograma de longo 
prazo (imaginando-se um número infinito de tentativas no mesmo ano) de S é 
normal, centrado em 12800 gramas com desvio padrão igual a 100 (a raiz 
quadrada do erro padrão SE). O Mestre do "Pix" só sobrevive ao "Trial ofo the 
Pyx" se o peso total S das 100 moedas na amostra pesa entre (12800-32 e 
12800+32) gramas. Precisamos calcular P(sobreviver)=P(12768 <S <12832). 
Padronize subtraindo a média (12800) de todas as três quantidades dentro da 
probabilidade e dividindo pelo erro padrão. Usando Z = (S - E(S)) /SE faz com que 
esta probabilidade se iguale a P((12768-12800)/10 <Z <(12832-12800)/10) = P(-
3,2 <Z <3,2) que é aproximadamente 99.9%. 
 
Então, se o Mestre do "Pix" é honrado ele está virtualmente certo de que irá 
sobreviver ao "Trial" 
 
 
Estudo de Caso 7: 
 
Dados de temperatura 
 
Tópicos Abordados: 
 
 1.Inferência 
 2.Meteorologia 
 
 Em 1975, a temperatura máxima diária média no aeroporto de São 
Francisco era 63,7 graus (Fahrenheit), com um desvio padrão de 8 graus. Este 
valor de temperatura média foi pouco baixo quando comparado com a história 
recente: através da década passada a média correspondente foi de 65,1 graus. 
Alguém pode admirar-se se esta diferença é significativa. 
 
 A maquinaria padrão de teste de significância tanto funciona ou falha em 
uma dada situação, e quando ela falha isto pode ocorrer por uma de duas razões: 
conceitual (a idéia global de teste de significância neste caso não faz sentido), ou 
técnico (a idéia é correta o bastante, mas as hipóteses técnicas subjacentes aos 
testes usuais não se sustentam). 
 
 Se é legítimo fazer um teste para a resposta a questão acima, faça-o, 
descrevendo todas as suas hipóteses; se não, explique porque não, e distinga se 
a falha neste caso é conceitual ou técnica (ou ambas). 
 
 
 
Solução: 
 
Há dificuldades com a tentativa de fazer inferência neste problema, qualquer que 
seja o aspecto abordado. No lado conceitual, qual é a população a partir da qual 
estas 365 temperaturas podem ser pensadas como IID ou amostra aleatória 
simples? Se a população que você está interessado é 1975 em São Francisco, 
temos todos os dados; não há incerteza quanto a temperatura média desta 
população. Se, ao contrário, a população é algum período de tempo mais amplo 
em São Francisco, então nós não temos necessariamente uma amostra 
representativa das temperaturas ao longo de todo o período de tempo - tudo que 
nós temos é uma amostra escolhida em apenas um ponto do tempo, 1975. o que 
ocorreria se houvesse um aquecimento ou resfriamento gradual, por exemplo, no 
decorrer de um período de anos? Nós não somo capazes de prever isto. Se, ao 
invés disso, a população é 1975 em alguma região mais ampla do que São 
Francisco, novamente não temos necessariamente uma amostra representativa da 
temperatura através de toda a região - tudo que temos é uma escolhida em um 
lugar, São Francisco. 
 
É muito difícil inventar ou imaginar uma população da qual estes números podem 
plausivelmente ser considerados como uma IID ou amostra aleatória simples. 
 
Mesmo se você considerar que as coisas estão conceitualmente corretas, há um 
grande problema técnico aqui. 365 extrações IID de uma população de 
temperaturas não mostraria a tendência sazonal que você vê nos dados 
fornecidos como o problema - o gráfico mostra um padrão de altos e baixos no 
decorrer do tempo, ao passo que extrações IID dos dados pareceriam flutuações 
aleatórias ao redor de uma temperatura média subjacente. A inferência utilizando 
a maquinaria usual de amostragem aleatória simples não é apropriada aqui. 
 
ESTUDO DE CASO 8) 
 
Tópicos Referidos 
 
 1.Amostragem 
 2.Demografia 
 
A revista Times publicou no final da década de 1950 que “em média um ex-
estudante da Universidade de Yale, turma de 1924, tinha uma renda de $ 25.111 
por ano,” o que seria equivalente hoje a cerca de $ 150.000 ( o sexismo na 
sentença não estava na afirmação da Times mas nas políticas de admissão da 
Universidade de Yale na década de 1920: somente homens eram admitidos 
naqueles dias). A estimativa da Times baseou-se em respostas recebidas de uma 
pesquisa amostral feita por questionários e endereçada àqueles membros da 
turma de 1924 da Universidade de Yale cujos endereços eram conhecidos no final 
da década de 1950 pela administração da universidade. 
 
Qual é a população? O método utilizado na seleção da amostra produz 
provavelmente representatividade? Existem possíveis fontes de viés no 
procedimento amostral? Baseado nisto, você diria que a estimativa da Times é 
provavelmente muito alta, muito baixa, ou aproximadamente correta? 
 
Explique brevemente. 
 
Resposta: 
 
A população são todos os estudantes que se graduaram em 1924 ainda 
vivos na época da pesquisa (o final da década de 1950). O método amostral 
provavelmente não produziu representatividade: não houvetentativa de escolher 
as pessoas aleatoriamente (as pessoas tanto estavam como não estavam na lista 
de endereços mantida pela universidade, e elas tanto optaram por responder 
como não responder se contatadas a partir daquela lista), e existem boas razões 
(veja abaixo) para esperar que as pessoas amostradas e não amostradas diferem 
substancialmente em renda 
 
Você pode considerar qualquer uma das três espécies de viés - viés de 
seleção, devido ao fato de que a lista de endereços era composta de pessoas que 
permaneceram em contato com a Yale todos aqueles anos, e tais pessoas eram 
muito provavelmente diferentes em renda daquelas que não tiveram que manter 
contato como a universidade (Porque a universidade mantinha seus nomes? 
Talvez porque eles eram fiéis doadores para algum fundo); viés de não resposta, 
porque as pessoas que responderam e aquelas que não responderam o 
questionário muito provavelmente diferem em renda, se as questões são sobre 
renda (você enviaria o questionário de volta se não estivesse orgulhoso de como 
está indo?), e viés de resposta, devido a que qualquer que seja a pessoa que 
encaminhou a pesquisa poderia ter tido um interesse pessoal em fazer com que 
aquelas pessoas parecessem prósperas e poderia ter formulado a questão de 
uma forma que encorajassem-nas a exagerar a sua renda (esta terceira fonte de 
viés parece menos plausível do que as outras duas, mas ainda é possível). No 
mínimo as duas primeiras fontes de viés podem ter influído proeminentemente na 
estimativa de $ 25.111. Dadas as direções dos vieses, parece muito provável que 
a estimativa da Times foi substancialmente muito elevada. 
 
 
ESTUDO DE CASO 9 
 
Nielsen 
 
TÓPICOS REFERIDOS: 
 
 1.Pesquisas Amostrais 
 2.Negócios 
 
As companhias nos EUA gastam centenas de milhões de dólares por ano com 
propagandas de seus produtos na televisão, rádio e nos jornais e há naturalmente 
muito interesse em saber se a mensagem está atingindo o público certo. Duas 
pesquisas foram conduzidas alguns anos atrás para medir o efeito de uma 
campanha publicitária para o detergente Tide. Em uma pesquisa, entrevistadores 
perguntaram às donas de casa se elas usavam Tide. Posteriormente, os 
entrevistadores pediram para efetivamente ir na lavanderia e ver que detergente 
estava sendo usado. Você esperaria que as duas pesquisas chegariam as 
mesmas conclusões? A que espécies de vieses pode cada pesquisa estar 
suscetível ? Explique brevemente. 
 
Solução: 
 
Não esperaríamos que os dois métodos conduzam a respostas similares - 
esperaríamos a taxa aparente de uso de Tide como sendo maior quando os 
entrevistadores perguntaram se a pessoa usou Tide do que quando elas 
efetivamente solicitaram ver a caixa de Tide na lavanderia. Perguntar às pessoas 
se elas usam um produto provavelmente conduz a uma resposta viesada - se você 
diz “Olá, senhora ou senhor, você usa blah? ”as pessoas tenderão a responder 
sim mesmo se elas não usam blah, por que as pessoas têm uma tendência natural 
a se acomodar ou agradar alguém e a resposta agradável a questão acima é sim. 
 Pedir permissão para ir a lavanderia e ver que tipo de detergente está 
sendo usada provavelmente conduzirá a uma elevada taxa de não resposta, o que 
também abre a possibilidade de grandes vieses. 
 
 
 
ESTUDO DE CASO 10: 
 
A organização Nielsen a taxa de shows de TV pelo seguinte método. Eles 
escolheram um painel de residências com aparelhos de TV e ligaram um medidor 
em cada aparelho. O medidor registrou os períodos nos quais o aparelho estava 
ligado e em que canal. No fim de cada mes, os medidores eram lidos e o pessoal 
da Nielson calculou o número total de horas gastas pelos membros do painel 
assistindo cada programa de TV. As taxas da Nielsen foram baseadas neste total. 
O painel foi raramente alterado. A distribuição dos recursos para propaganda para 
as redes de televisão foi (e ainda é) baseada em grande parte em taxas desse 
tipo. Utilizando a linguagem da amostragem, discuta brevemente se esta é uma 
boa maneira de estimar os hábitos de assistir televisão nacionalmente e sugira 
uma forma melhor se ocorrer a você 
 
 
ESTUDO DE CASO 11: 
Esqueletos 
 
Tópicos Referidos 
 
 1.Comparando duas Médias de Amostra 
 2.Antropologia 
 
Uma antropóloga física levou amostras de esqueletos em locais de duas 
diferentes tribos pré-históricas norte americanas. Ela quer determinar se há uma 
diferença entre as alturas de esqueletos de fêmeas nas tribos, porque isto dará 
informação indireta preciosa sobre hábitos dietéticos das duas culturas. As 
amostras representam tudo dos esqueletos que ela poderia achar nos dois locais 
e que ela poderia identificar confiantemente como fêmea e da qual era possível 
calcular a altura com bastante precisão. 
 
Os dados: 
 
Tribo N Média SD 
1 25 59,4 polegadas 1,8 polegadas 
2 27 61,3 polegadas 2,4 polegadas 
Monte um modelo para estes dados sob a suposição (para o momento) que 
estas são amostras aleatórias simples das populações de interesse, e use o 
modelo para achar um intervalo de 95% de confiança para a diferença em altura 
comum entre fêmeas nas duas populações tribais e um teste de significância para 
a hipótese que esta diferença é zero. 
O que conclui você? Você pensa que é razoável assumir que os esqueletos 
que ela adquiriu com seu método de amostragem pode ser considerada uma 
amostragem aleatória simples (AAS) das populações de todas as fêmeas nas 
duas tribos? 
Se não, quais seriam os efeitos em termos de quaisquer vieses nas 
inferências que ela estabeleceu com seu método amostral. 
 
Explique brevemente. 
 
Solução: 
 
A antropóloga tem a seguinte hipótese que ela gostaria de testar: não há 
nenhuma diferença entre as duas tribos em termos de alturas (hipótese nula). 
 
A diferença observada é Y = 59.4 - 61.3 = -1.9 polegadas. O erro padrão de 
Y é determinado pela fórmula seguinte 
27
4,2
25
8,1 22 [(1.8^2)/25 + (2.4^2)/27]^(1/2). Assim, a estatística z para as 
duas amostras é z = (diferença observada - diferença esperada) / (SE para a 
diferença) = -1.9 / .5856=-3.2 
 
Em outra palavras, a diferença entre as alturas da tribo 1 e tribo 2 é 
aproximadamente 3,2 SE abaixo do valor esperado sob a hipótese nula. 
Conseqüentemente, nós rejeitamos a hipótese nula e aceitamos a hipótese 
alternativa de que a diferença é real. 
 
Observações: 
 1.O teste assume amostras aleatórias simples que não são o caso aqui. 
 2.A amostra é grande o bastante. Assim, devido ao Teorema do Limite 
Central, o histograma de probabilidade para cada média de amostra e por 
conseguinte da diferença delas segue a curva normal. 
 
Portanto, a solução do problema assume amostras aleatória simples que 
não são o caso neste problema. A antropóloga selecionou amostras convenientes 
com viés de seleção presente. Assim, as médias de ambas as amostras são 
viesadas e o valor provável pelo qual as estimativas amostrais viesadas diferem 
da verdadeira nas duas populações é determinado pela 
fórmula
]padrao [ 22 erroviés
 
 
O erro padrão de ambos as médias subestima a resposta correta. A 
resposta correta é difícil de avaliar na ausência de qualquer informação relativa ao 
componente de viés. 
 
Porém, desde que foram juntadas ambas as amostras do mesmo modo que 
os vieses embutidos em cada uma delas se cancelam em grande parte fora e 
assim a inferência feita relativa a diferença entre elas é provavelmente altamente 
precisa,enquanto cada uma individualmente não o é. 
 
 
 
 
ESTUDO DE CASO 12 
 
 
CAMPANHA NACIONAL PARA O PROGRESSO EDUCACIONAL 
 
Tópicos Abordados: 
 
 
 1.Estimação de Proporções 
 2.Educação 
 
 Para monitorar mudanças na qualidade da educação oferecida pelas 
escolas primária e secundárias nos EUA uma iniciativa denominada Campanha 
Nacional para o Progresso Educacional (NAEP) administra testes anuais em uma 
variedade de questões utilizando amostras aleatórias de estudantes. 
Efetivamente, utiliza-se amostragem estratificada ao invés de amostragem 
aleatória simples, mas o seu método é aproximadamente equivalente a tomar 
Amostra Aleatória Simples (AAS) de cerca de 950 estudantes da população de 
todos os estudantes dos EUA em um dado grau de um dado ano. 
 Em 1975, o NAEP aplicou um teste de matemática para adolescentes de 17 
anos. Um dos itens do teste era: 
 
Faça a seguinte adição: 1/2 + 1/3 = .... 
 
617 dos 950 estudantes conheciam a resposta certa, 5/6 (a resposta errada mais 
freqüente foi 2/5). 
 
Estime p, a porcentagem de todos os estudantes de 17 anos nos EUA que sabem 
a resposta certa e construa um intervalo de confiança de 95 % para p. 
 
Se eles querem ter 95 % de certeza de que a porcentagem nacional esteja dentro 
de um intervalo de 2 pontos percentuais, quantos estudantes deve conter a 
amostra? 
 
 
Solução: 
 
Seja p a porcentagem dos estudantes de 17 anos nos EUA que sabem a resposta 
certa. Uma estimativa de p é dada por 617/950 = 0,65 ou 65 %, a partir da amostra 
aleatória simples (AAS). 
 
A estimativa da variância é dada por s2(p) = (estimativa de p)*(1-estimativa de 
p)/n. Assim, o erro padrão da estimativa de p é SE(p) = 0,015. Já que estamos 
tratando de uma amostra grande (n* p estimado > 5 e n*(1 - p estimado) > 5) a 
partir do Teorema do Limite Central temos que p tem distribuição 
aproximadamente normal com média = 0,65 e variância = 0,000225. Portanto, um 
intervalo de confiança de 95 % é dado por (0,65 - 1,96*0,015 ; 0,65 + 1,96*0,015) 
= (0,619;0,679). 
 
Se eles querem ter 95 % de certeza de que a porcentagem nacional tenha um erro 
de no máximo 2 %, teriam que calcular: 
 
 
P( | p- p estimado| <= .02)=.95 ou padronizando 
 
P([ | p- p estimado| / SE(p) ] <= a )=.95 
 
onde a=0,02/SE(p). Mas a=1.96, que implica que (0,02)/[(p estimado)*(1- p 
estimado)]/n=1.96. Resolvendo esta última equação para n e usando o valor 
estimado p = 0,65 obtemos n = 2185. 
 
ESTUDO DE CASO 12: 
Desconto em Preços 
 Tópicos abordados 
 
 1.Compação de duas Médias amostrais 
 2. Teste de Hipóteses 
 3.Administração 
 
 
 
Lojas comerciais introduzem freqüentemente uma nova mercadoria a um baixo 
preço especial para induzir as pessoas a comprá-la. Mas em meados doas anos 
60 um proeminente psicólogo predisse no longo prazo esta prática reduziria 
efetivamente as vendas. 
Com a cooperação de uma cadeia de desconto (eu penso que era o mercado K), 
uma experiência foi executada em 1968 para testar esta teoria. Um amostra 
representantiva de 120 lojas foi escolhida, e as lojas foram organizadas em 60 
pares, emparelhadas de acordo com características como volume de vendas e 
localização. Estas lojas não anunciaram (nao faziam propaganda) , e exibiam sua 
mercadoria de modo semelhante. Um tipo novo de biscoito foi introduzido em 
todas as 120 lojas. Dentro de cada par de lojas, uma era escolhida ao acaso para 
introduzir os 
biscoitos ao baixo preço especial de 49 centavos por caixa, com o preço 
aumentando a 69 centavos depois de duas semanas,; a outra loja no par 
introduziu os biscoitos ao preço regular de 69 centavos por caixa. As vendas totais 
dos biscoitos foi calculada para cada loja durante seis semanas a partir do 
momento em que eles foram introduzidos; os resultados são apresentados abaixo. 
 
Número do Par Vendas 
Descontadas 
Vendas Padrão Diferença 
(Descontadas – 
Padrão) 
1 
2 
..... 
..... 
60 
851 
903 
.... 
.... 
787 
916 
1004 
.... 
.... 
699 
-65 
-101 
.... 
.... 
+88 
Média 
Desvio Padrão 
854 
58 
923 
157 
-69 
150 
 
Esta evidência apóia ou refuta a teoria do psicólogo? 
 
 Qual é a razão de emparelhar as lojas do modo que foi feito? 
 
 Explique brevemente. 
 
 Discussão 
A teoria do psicólogo sugere que nós não devêssemos esperar nenhuma 
diferença em média entre vendas descontadas e vendas padrão.Esta é a hipótese 
nula que nós queremos testar. 
 
A diferença observada das duas médias é Y=-69. O erro padrão de Y é 
determinado por SE(Y)=150/(60(1/2)) =19,36. A estatísticas z amostral é z = 
(diferença observada - diferença esperada) / (SE da diferença) = -69/19,36 = -
3,563. 
 
Em outras palavras, a diferença entre as vendas descontadas e vendas padrão é 
aproximadamente 3,5 SE abaixo do valor esperado sob a hipótese nula. 
Conseqüentemente, rejeitamos a hipótese nula e aceitamos a hipótese alternativa 
que a diferença é real. 
 
Observações: 
 
 1.The teste assume amostras aleatórias simples que é o caso aqui. 
 2. A amostra é grande o bastante de forma que devido ao Teorema de Limite 
Central o histograma de probabilidade para cada média amostral e 
consequentemente da diferença delas segue a curva normal. 
 
O emparelhando das lojas de acordo com volume de vendas, localização etc nos 
permite comparar coisas semelhantes e elimina do procedimento de teste fatores 
que podem potencialmente confundi-lo. 
 
 
 
 
ESTUDO DE CASO 13 
Tópicos Referidos 
 1. Teste de Hipóteses de proporções 
 2. Justiça 
 
Em 1969, o famoso pediatra Dr. Benjamim Spock foi julgado perante um juiz 
chamado Ford no tribunal Federal de Boston. Ele foi acusado de conspiração para 
violar a Lei de Serviço Militar (além do seu trabalho sobre desenvolvimento de 
crianças ele era ativo em protestos anti-guerra nos anos sessenta). Um advogado 
que escreveu sobre o caso naquele mesmo ano na Revista Jurídica de Chicago 
Lei Revisão disse sobre o caso, "De todos os acusado a tais tentativas, Dr. Spock 
que tinha dado sábios e bem-vindos conselho sobre gravidez para milhões de 
mães, gostaria de ter mulheres no seu juri " 
 
O júri foi escolhido de um painel de 350 pessoas selecionado pelos funcionários 
do tribunal e sob a supervisão do juiz Ford. Este conjunto de 350 pessoas incluía 
só 102 mulheres, embora 53% dos jurados elegíveis no distrito fossem do sexo 
feminino. Na próxima fase de seleção dos jurados para ouvir o caso, o Juiz Ford 
escolheu 100 jurados potenciais a partir destas 350 pessoas. Suas escolhas 
incluíram só 9 mulheres. 
Se 350 pessoas são escolhidas de todos os jurados elegíveis no distrito, qual é a 
probabilidade de que a amostra incluirá 102 mulheres ou menos? 
Se 100 pessoas são escolhidas ao acaso sem substituição de um grupo de 
pessoas que consiste em 102 mulheres e 248 homens, qual é a chance de que a 
amostra incluirá 9 mulheres ou menos? (Sugestão: lembra-se do fator de 
correção, se pertinente.) 
O que conclui você sobre a imparcialidade do Juiz Ford no processo de seleção? 
Explique brevemente. 
 
DISCUSSÃO 
 
A população de interesse são todos os jurados elegíveis, com 53% deles sendo 
mulheres. A hipótese nula é que o Juiz Ford é do gênero neutro, enquanto a 
alternativa é que ele é parcial contra mulheres. Da população de interesse (onde o 
número de pessoas é grande) uma amostra aleatória simples (AAS) (sob a 
hipótese nula) de n=350 pessoas é selecionada pelos funcionários do tribunal que 
passa a ser a nova população de interesse. A proporção calculadade mulheres na 
amostra é 102/350 = 0,291 ou aproximadamente 29%. A proporção esperada de 
mulheres na amostra é p=53%, com um erro padrão dado por 
%7,2
350
47,053,0)1(
s estimado) ( p
n
pp
pSE
 O histograma de longo prazo 
da proporção estimada se a hipótese nula é verdadeira é normal, centrado em 
53% com variância igual a 0,0272. Calculamos o valor de z e obtemos um valor de 
(29-53)/2,7=-8,9%, com um P-value associado de aproximadamente 0%. Então, é 
altamente improvável que seriam selecionadas 102 ou menos mulheres por 
casualidade em uma população de 350 pessoas. 
 
A população de interesse e as hipóteses nula e alternativa permanecem as 
mesmas. Desta população um AAS (sob a hipótese nula) de 100 pessoas é 
selecionada pelo Juiz Ford. A proporção de mulheres na população é 29%, 
enquanto a proporção estimada na amostra é 9%, com um erro padrão associado 
igual a 
% 8,3
100
71,029,0
846,0
. O número 0,846 é o fator de correção de 
população finita 
1100
100350
1n
nN = 0,846. O histograma de longo prazo da 
proporção estimada se a hipótese nula é verdadeira é normal, centrado em 29% 
com variância igual a .0382. Calculamos o valor de z e obtemos um valor de (9-
29)/3,8=-5,2, com um p-value associado de aproximadamente 0%. Então, é 
altamente improvável que seriam selecionadas 9 ou menos mulheres em uma 
amostra de 100 pessoas por casualidade. 
 
Conclusão: Há forte evidência de que o Juiz Ford discriminou contra as mulheres 
na seleção do júri do Dr. Spock. 
 
 
 
ESTUDOS DE CASOS DIVERSOS 
 
ESTUDO DE CASO 14 
 
 
Tópicos Abordados: 
 
1. Regressão Múltipla 
 
2. Recursos Hídricos 
 
 
 A oferta de água no Sul da Califórnia em anos futuros pode ser previsto a 
partir dos dados a seguir apresentados? Um fator que afeta a disponibilidade é a 
precipitação pluvial. Se a precipitação pluvial puder ser predita, engenheiros, 
planejadores e “policy makers” podem executar suas funções mais eficientemente. 
Modelos de regressão múltipla tem sido usados neste interesse. O seguinte 
conjunto de dados contem 43 anos de medidas de precipitação (em polegadas) 
tomadas em seis locais no Vale Owens chamadas APMAM (Lago Mammoth), 
APSAB (Lago Sabrina), APSLAKE (Lago Sul), OPBPC (Riacho Gree), OPRC 
(Riacho da Rocha) e OPSLAKE e o volume de precipitação (medido em acre-pés) 
em um lugar perto de Bishop, Califórnia (com nome da variável BSAAM). 
 
A precipitação pode prever o volume de água disponível? Há certamente uma boa 
razão para assim pensar. A principal fonte da disponibilidade de água é a 
precipitação, embora haja alguma defasagem de tempo relacionada a estação. 
 
 
1. Tente selecionar um conjunto de “importantes” variáveis explicativas. 
2. Há fortes relações lineares entre as variáveis explicativas, surgindo o fenômeno 
da multicolinearidade. 
3. Alguns modelos de regressão contem “outliers” (valores fora de padrão). 
Remova-os e examine novamente o modelo. 
4. Já que estamos lidando com dados ordenados no tempo verifique a presença 
de autocorrelação. 
 
DADOS EM ANEXO: arquivo DADOS.XLS 
 
Estudo de Caso 7: 
 
Este exemplo foi obtido de um estudo cujo objetivo é o de projetar o consumo de 
arroz, milho, feijão, soja e trigo para o período 1992-95, em nível nacional e 
estimar os percentuais de participação estadual e regional neste consumo, a partir 
de séries históricas existentes e de recente pesquisa de orçamentos familiares do 
IBGE. A metodologia adotada para a projeção a nível nacional considera o 
consumo de grão como função do crescimento da população e da renda. Estas 
variáveis foram usadas nas seguintes equações: 
 D C P
C C e r
P P p
it it t
it i it
t
t
t
.
( )
( )
0
0
1
1
 
 
onde: 
 
Dit = demanda interna do produto i no ano t 
Cit = consumo per capita do produto i no ano t 
Pt = população residente projetada no ano t 
Ci0 = consumo per capita do produto i no ano-base 
eit = elasticidade-renda da demanda interna do produto i no ano t 
r = taxa anual de crescimento da renda per capita 
P0 = população residente no ano-base 
p = taxa anual de crescimento da população 
 
 
A elasticidade-renda da demanda (eit) foram obtidas de funções demanda 
ajustadas para cada produto, expressas por: 
 
Cit = f(Rt) 
 
onde: 
 
Cit = consumo interno per capita do produto i no ano t 
 
Rit = renda interna bruta per capita em Cr$ de 1980 no ano t 
 
 
 
 
 
 
 
Devem ser tentados, para ajuste de curvas, as seguintes funções: 
 
C R
C log R +
C = + / R +
log C = + R +
 C = + / R +log 
onde é um termo estocástico com distribuição normal com média 0 e desvio 
padrão desconhecido. 
 
ANO POPULAÇAO RENDA INTERNA 
BRUTA 
RENDA INTERNA 
BRUTA 
 (1000 hab.) (Cr$ 1.000.000 de 1980) PER CAPITA 
 (CR$ DE 1980) 
1970 93139 5575 59,86 
1971 95631 6154 64,35 
1972 98190 6945 70,73 
1973 100818 8002 79,37 
1974 103516 8459 81,72 
1975 106286 8876 83,51 
1976 109130 9870 90,44 
1977 112050 10523 93,91 
1978 115049 10900 94,74 
1979 118127 11542 97,71 
1980 121286 12402 102,25 
1981 124068 11651 93,91 
1982 126898 11721 92,37 
1983 129766 11280 86,93 
1984 132659 11909 89,77 
1985 135564 12897 95,14 
1986 138493 14170 102,32 
1987 141452 14474 102,32 
1988 144428 14596 101,06 
1989 147404 15092 102,39 
1990 150368 14488 96,35 
 
CONSUMO APARENTE PER CAPITA (KG/HAB/ANO) 
Ano arroz feijão milho trigo soja 
 
1970 80,57 23,75 136,91 39,77 4,26 
1971 68,88 28,13 134,41 39,2 7,46 
1972 79,78 27,21 149,93 25,36 7,09 
1973 71,13 22,28 140,32 48,4 13,71 
1974 65,34 21,62 146,5 50,69 19,91 
1975 73,81 21,06 142,86 34,63 19,02 
1976 89,56 17,34 152,7 40,92 20,52 
1977 80,2 20,76 156,18 41,38 28,01 
1978 *63,39 20,84 130,63 61,23 29,1 
1979 70,98 *19,28 149,81 55,33 35,28 
1980 71,73 18,28 166,36 61,49 42,01 
1981 72,54 19,46 177,28 53,1 36,74 
1982 71,71 19,38 162,41 47,83 39,08 
1983 70,51 16 149,97 49,14 39,98 
1984 69,35 20,53 150,43 *51,5 36,93 
1985 71,26 17,54 169,34 47,98 38,52 
1986 73,94 17,33 156,6 56,26 46,61 
1987 70,7 16,26 186,28 55,89 43,09 
1988 72,7 18 175,31 46,68 41,34 
1989 73,27 17,64 177,34 49,42 45,93 
1990 73,15 16,02 164,93 49,45 44,05 
 
 Nota: para o arroz, feijão e trigo, entre 1970 e o ano indicado pelos 
asteriscos, o consumo foi estimado fazendo-se: produção + importação - 
exportação; para os anos seguintes e para os demais produtos, a estimativa foi 
obtida fazendo-se: estoque no início do período + produção no período + 
importação - exportação - estoque no final do período. 
 
 
Estudo de Caso 15: 
 
 Deseja-se obter previsões de curto prazo para a série dos preços do café 
utilizando modelos simples de médias móveis e de alisamento exponencial. 
Verifique qual dos dois métodos gera os menores erros, de acordo com o critério 
do erro médio quadrático mínimo. (Dados em anexo - Planilha CAFEEXP.XLS) 
 
 
Estudo de Caso 16: 
 
 Produtividade significa eficiência na produção. Ela é medida em termos da 
relação produção-insumos (“output-input”). Se essa relação aumenta - ou seja, se 
mais unidades de produto são produzidas com as mesmas unidades de insumo - a 
produtividade aumenta. A mensuração das mudanças na produção é uma questão 
relativamente simples. Se apenas um produto existe, mudanças na produção são 
meramente as mudanças no número de unidades produzidas. Se consideramos 
um agregado de produtos, mudanças na produção podem ser medidas por um 
“índice de produção”. As medidas das mudanças na quantidade insumida, 
entretanto, apresenta muitos problemas complicados: os insumos são utilizados 
em grande variedade - diferentes tipos de trabalho, muitos tipos de matérias-
primas, investimentos em máquinase equipamentos, habilidades administrativas, 
e assim por diante. Possivelmente, um índice de algum tipo poderia ser construído 
para medir as mudanças no agregado de fatores de produção, mas pesos 
apropriados para tal índice são extremamente difíceis e mesmo fisicamente 
impossíveis em alguns casos. Na prática, portanto, um índice de produtividade é 
usualmente construído tendo como base um único insumo que é considerado 
como o mais importante fator de produção. O insumo escolhido é geralmente o 
trabalho, desde que na média, a folha salarial consiste em cerca de dois terços do 
total de custos de produção em muitos tipos de operações. Além disto, dados 
sobre trabalho são mais disponíveis e unidades de trabalho - usualmente homens-
hora - podem ser definidas e interpretadas mais precisamente que outros tipos de 
dados sobre insumos. 
 A produtividade do trabalho pode se definida como homens-hora por 
unidade de produto ou como unidades de produto por homem-hora. A construção 
de um índice de produtividade, usando homens-hora por unidade de produto e 
quantidades no ano base como pesos, pode ser obtida pela seguinte fórmula: 
E
r q
r q
b
ni i
i
k
i i
i
k
0
1
0 0
1
 
onde 
r
i0
 e 
r
ni
referem-se a homens-hora por unidade de produto na base e no 
período n, respectivamente. 
 No caso de produtos agrícolas poderíamos calcular um índice de 
produtividade tendo como base o fator de produção terra. O município de Araguari 
produz três produtos: soja, milho e café. Construa um índice de produtividade 
conjunta para este município. 
 
 milho soja café 
ano quantidade area quantidade area quantidade area 
1988 14400 7200 20400 10200 18480 17500 
1989 17000 8500 19200 8000 10587 17645 
1990 15300 8500 11880 9000 19800 22000 
1991 14000 7000 15840 7200 19800 22000 
1992 7500 16500 17280 7200 21516 16300 
1993 27300 7800 19440 8100 41520 17300 
1994 28000 8000 8500 20400 43250 17300 
1995 28000 8000 24000 10000 40500 15000 
1996 24500 7000 27000 15000 36000 12000 
 
 
 
ESTUDO DE CASO 17 
 
 Uma associação de banqueiros tenta construir um modelo de regressão 
múltipla para orientar os bancos na sua seleção de localização para a construção 
de suas agências. Os economistas da associação , depois de consideráveis 
discussões, finalmente decidiram que o modelo seria construído com as seguintes 
variáveis: 
y = demanda total de depósitos em milhões de dólares, 
X2 = mediana da renda familiar anual em milhares de dólares na área, 
X3 = número de empresas em centenas na área, 
X4 = número de famílias em milhares na área, 
X5 = mediana do valor das unidades residenciais em milhares de dólares na área. 
 Uma amostra aleatória simples de 20 áreas em operação corrente através 
do país é selecionada e os dados para o ano do mais recente censo foram 
coletados e registrados na tabela abaixo. 
 
y x2 x3 x4 x5 
50 25 8 10 59 
45 25 5 9 59 
75 30 9 14 65 
50 30 5 11 63 
40 27 4 12 55 
95 35 7 18 65 
40 26 6 11 52 
65 31 12 12 60 
120 35 14 16 58 
35 24 4 9 67 
35 26 5 8 55 
25 20 5 8 42 
75 29 7 18 48 
80 33 13 15 71 
65 30 9 13 61 
75 32 16 10 64 
65 30 10 16 68 
45 28 7 15 55 
55 26 5 18 53 
50 27 4 18 50 
 
 
ESTUDO DE CASO 18 
 
Um modelo de regressão exponencial, freqüentemente chamado de modelo de 
crescimento simples, é ajustado para uma série temporal e é escrito como: 
 y AeBx 
onde y é um valor individual da variável dependente Y (
y
 é o valor estimado a 
partir do modelo para a variável Y), x é a variável explicativa, que é 
freqüentemente o tempo, e é a base dos logaritmos naturais (neperiano). Com a 
transformação logarítmica (ou seja, tomando logaritmos de ambos os lados da 
equação) transformamos a equação original em equação linear: 
ln  y = ln A + Bx
 
Ajustou-se um modelo de regressão exponencial ao dados de população dos 
EUA, de 1850 a 1900, com X em unidades de décadas e estimou-se a seguinte 
equação: 
ln  lny a + bx = 3,236 + 0,0223x
 
o que é equivalente a: 
 ,, , , , ,y e e e ex x x3 236 0 0223 3 236 0 0223 0 022325 43 
 
 
o que significa que a taxa de crescimento por década estimada é: 
 
e0,0223 = 1,0225 (2,25 % por década) 
 
 Este modelo tem muita aplicação prática quando, por exemplo, queremos 
projetar a produção agrícola de uma determinada área. Considerando como 
variável independente o tempo estime um modelo de crescimento linear para a 
produção dos produtos soja, arroz e milho. Estime também modelos de 
crescimento simples, conforme especificação feita anteriormente, assim como 
outros modelos não lineares tais como função polinomial de segundo grau, função 
potência e função recíproca. Avalie e escolha o melhor modelo ajustado. Verifique 
também se existe autocorrelação nos resíduos procedendo ao teste Durbin-
Watson. Com base nos melhores modelos obtenha projeções da produção para os 
próximos três anos. É possível também especificar modelos com defasagens 
tendo como variável explicativa, além do tempo que representa o movimento de 
tendência da série, os preços. A hipótese subjacente é a de que os preços no 
período anterior atuam como causa das decisões de produção dos agricultores 
nos anos seguintes. Estime estes modelos com defasagens e verifique se eleva-
se o poder explicativo em relação aos modelos anteriores. Discuta os resultados. 
Os dados de produção e de preços estão disponíveis em arquivos anexos 
(arquivos PRODUCAO.XLS e PRECO2.XLS). Os preços a serem utilizados nos 
modelos devem ser “precos reais” ou seja, preços deflacionados utilizando-se um 
índice de inflação. Para a deflação sugerimos a utilização do IGP-Di da FGV que 
está disponível no arquivo IGP.XLS e obtenha preços médios anuais reais para os 
períodos de safra dos produtos. 
 
ESTUDO DE CASO 19 
 
Consideremos as seguintes séries temporais - Índice de Produto Industrial do 
Brasil, janeiro de 1969 a julho de 1980, com N = 139 observações e Consumo de 
Energia Elétrica no Estado do Espírito Santo. Baseado em um modelo de 
decomposição de série temporal estime a componente sazonal determinística e 
calcule projeções para um período de 5 meses a frente. 
 
(dados em anexo - arquivo SERIES.XLS) 
 
ESTUDO DE CASO 20 
 
Nome da história: Realização Educacional 
Nome do Arquivo de Dados: Educação por Idade 
Métodos: Tabela de Contingência, Teste Qui-Quadrado 
Resumo: O conjunto de dados contem valores de freqüências que podem 
ser usadas para construir uma tabela de dupla entrada da realização educacional 
por idade. Solicita-se aos estudantes calcular totais de linhas e de colunas e 
porcentagens. Estes resultados serão usados para responder questões tais como 
“qual categoria de idade tem a maior porcentagem de graduados no colégio?” 
(idades 35-44) e “que percentual de todos os americanos acima de 25 anos nunca 
foram ao colégio? (65 %). O teste qui-quadrado é apropriado para determinar se a 
categoria de idade e a realização educacional são independentes. 
Diagramas de barra fornecem uma representação gráfica apropriada dos 
dados. Por exemplo, um diagrama de barras comparando a porcentagem de 
pessoas em cada grupo etário que completaram o colégio mostra que pessoas 
mais jovens são mais prováveis de concluir o colégio do que pessoas mais velhas. 
 
DADOS: 
 
Referencia : Moore, David S., and George P. McCabe (1989). Introduction 
to the Practice of Statistics. Fonte Original: World Almanac and Book of Facts, 
1986 
Descrição: Realização Educacional dos americanos por categorias de Idade 
em 1984. As freqüências são apresentadas em milhares. Os dados foram 
coletados pelo US Bureau of the Census. Americanos com idade menor do que 25 
anos não estão incluídos porque muitos não completaramsua educação. 
Número de Casos: 20 
Nomes das Variáveis: 
1. Educação: Nível de educação alcançado 
2. Grupo Etário 
3. Freqüência : 1000 americanos nesta categoria de educação e idade. 
 
 25-34 35-44 45-54 55-64 >64 
Não completaram o 
colégio 
5416 503
0 
 
577
7 
 
760
6 
13746 
 
Completaram o colégio 16431 
 
185
5 
 
943
5 
 
879
5 
7558 
No colégio 1-3 anos 855
5 
 
557
6 
 
312
4 
 
252
4 
 
2503 
No colégio 4 ou mais 
anos 
977
1 
 
759
6 
 
390
4 
 
310
9 
 
2483 
 
Dados em Anexo: arquivo Dados.XLS 
 
 
ESTUDO DE CASO 21: 
 
Nome da história: Plano de Dieta com Alimentos Ricos em Fibra 
Métodos: Tabela de Contingência, Teste Qui-Quadrado 
Resumo: Um fabricante considerou a produção de biscoitos ricos em um 
certo tipo de fibra comestível como um apoio dietético. As pessoas consumiriam 
alguns biscoitos antes de uma refeição, enchendo seus estômagos de forma que 
elas sentiriam menos fome e comeriam menos. Um laboratório estudou se as 
pessoas realmente comem menos desta forma. Mulheres com peso excessivo 
comem os biscoitos com distintos tipos de fibra (fibra de farelo, fibra de goma, 
ambas e um biscoito de controle) e permitiu-se que comessem o quanto 
desejassem a partir de um menu preparado. A quantidade de comida que 
comeram e o seu peso foram monitorados, enquanto efeito colateral foi registrado. 
Infelizmente, algumas pessoas desenvolveram inchação e indisposição estomacal 
a partir de alguns destes biscoitos de fibra. Uma tabela de contingência de 
“Biscoito” versus “Indisposição” mostra a relação entre os quatro tipos distintos de 
biscoitos e quatro níveis de severidade na indisposição registrada pelas pessoas. 
Um teste Qui-Quadrado pode ser usado para testar se problemas 
estomacais são independentes do biscoito (o tipo de fibra ingerido). Os resíduos 
da tabela de contingência ajudam a identificar as células onde a violação da 
hipótese nula é maior. 
 
Dados: 
Referência: Estes dados são distribuídos com um software, Data Desk. 
Data Description, Inc. (1993). Data Desk¨.Ithaca, NY: Data Description, Inc. 
Número de casos: 12 
Nomes das Variáveis: 
 
 1.Biscoito: Tipo de Fibra no Biscoito 
 2.Dieta: Uma de quatro dietas (tipo de biscoito) 
 3.Pessoa: Uma identificação de cada uma das 12 pessoas 
 4.Digestão: Calorias Digeridas. Diferença entre calorias ingeridas e 
calorias que foram eliminadas pelo sistema. 
 5.Estado: Grau de inchação e indisposição registrado pelas pessoas 
 
Dados em anexo - arquivo DADOS.XLS: 
 
 
ESTUDO DE CASO 22 
 
Nome da História: Álcool e Tabaco 
Métodos: Correlação, VarIável Dummy, Outlier, Regressão, Diagrama de 
Dispersão 
Resumo: Dados do governo britânico de gastos de domicílios podem ser usados 
para examinar a relação entre gastos domiciliares com fumo e bebidas alcoolicas. 
Um diagrama de dispersão de gastos com álcool versus gastos com fumo em 11 
regiões da Grã Bretanha mostra um relação linear positiva com a Irlanda do Norte 
como um outlier. A influência da Irlanda do Norte é ilustrada pelo fato de que a 
correlação entre os gastos com alcool e fumo salta de 0,224 para 0,784 quando a 
Irlanda do Norte é eliminada do conjunto de dados. 
Este conjunto de dados pode ser usado para ilustrar o efeito de uma 
simples observação nos resultados de regressão. Em uma regressão simples do 
gasto com alcool sobre gasto com fumo, o gasto com fumo não aparece como 
preditor significativo do gasto com alcool. Entretanto, incluindo uma variável 
dummy que toma o valor 1 para Irlanda do Norte e 0 para todas as outras regiões 
resulta em coeficientes significativos tanto para o gasto com fumo como para a 
variável dummy e um elevado R2 . 
 
 
ESTUDO DE CASO 23: 
 
Nome de história: Votando no Presidente 
Tópicos de história: Governo 
Métodos: Variável Dummy, Regressão, Scatterplot, 
Resumo: O conjunto de dados “Votos" contém o porcentual de votos populares 
que foi obtido candidatos presidenciais Democráticos nas eleições de 1980 e 
1984. Ambos os candidatos, Jimmy Carter em 1980 e Walter Mondale em 1984, 
foram derrotados pelo republicano Ronald Reagan. (Em 1980 o candidato 
independente, John Anderson, obteve 6.7% dos votos nacionais). Muitos estados 
têm persistido nas tradições políticas. Assim nós esperamos comportamento 
semelhante em duas eleições sucessivas. Um scatterplot mostra uma relação 
linear positiva forte e empresta apoio a esta hipótese. Um agrupamento de 
estados votou pesadamente no Partido Democrata em 1980 mas não em 1984. 
Um olhar mais íntimo aos dados revela que todos os estados neste agrupamento 
são estados meridionais. Criando uma variável dummy para estados meridionais e 
inclusive esta variável em uma regressão dos percentuais de 1984 em relação 
aos percentuais de1980 melhora significativamente o modelo. 
 
ESTUDO DE CASO 24: 
 
NOME: Porcentagem ajustada de Gordura de Corpos para Medidas Corporais 
 Simples 
TIPO: Amostra 
TAMANHO: 252 observações, 19 variáveis, 
 
 
RESUMO DESCRITIVO: 
Porcentagem de gordura de corpo, idade, peso, altura, e dez medidas de 
circunferência do corpo (por exemplo, abdômen) são registradas para 252 
homens. A gordura de corpo, uma medida de saúde, é estimada por uma técnica 
de pesagem. Ajustando a gordura de corpo para as outras medidas usando 
regressão múltipla fornece um modo conveniente de calcular a gordura de corpo 
para homens usando só uma balança e uma fita métrica. 
 
FONTE: 
Os dados foram fornecidos generosamente pelo Dr. Garth Fisher, Centro 
de Pesquisa de Desempenho Humano, Brigham Young University, Provo, Utah, 
84602, que deu para permissão distribuir os dados livremente e os usar para 
propósitos não-comerciais. Referência para os dados é feita em Penrose, et al. 
(1985). 
 
DESCRIÇÕES VARIÁVEIS: 
Colunas 
 3 - 5 Número de caso 
 10 - 13 porcentagem de gordura de corpo calculada a partir da equação de 
Brozek, 
 457/Densidade - 414.2 
 18 - 21 gordura de corpo em percentual que usa a equação de Siri, 
 495/Density - 450 
 24 - 29 densidade (gm/cm^3) 
 36 - 37 idade (anos) 
 40 - 45 peso (lbs) 
 49 - 53 altura (polegadas) 
 58 - 61 índice de adiposidade = Weight/Height^2 (kg/m^2) 
 65 - 69 gordura Peso Livre 
 = (1 - fração de gordura de corpo) * Peso, 
 usando a fórmula de Brozek (lbs) 
 74 - 77 circunferência de pescoço (cm) 
 81 - 85 circunferência de tórax (cm) 
 89 - 93 circunferência de abdômen (cm) " ao umbigo 
 e nivela com a crista " de iliac 
 97 - 101 circunferência de quadril (cm) 
106 - 109 circunferência de coxa (cm) 
114 - 117 circunferência de joelho (cm) 
122 - 125 circunferência de tornozelo (cm) 
130 - 133 circunferência de bíceps estendida (cm) 
138 - 141 circunferência de antebraço (cm) 
146 - 149 circunferência de pulso (cm) " distal para o 
 styloid processa " 
 
NOTAS ESPECIAIS: 
Os dados são como recebidos do Dr. Fisher. Porém, note que há alguns 
erros. As densidades de corpo para casos 48, 76, e 96, por exemplo, parecem 
ter um dígito errado como pode ser visto do dois valores de porcentagem gordura 
do corpo. Também note a presença de um homem (caso 42) com mais de 200 
libras em peso que é menos de 3 pés alto (a altura deve ser presumivelmente 
69.5 polegadas, não 29.5 polegadas)! As porcentagens de gordura estimadas são 
truncadas para zero quando negativas(caso 182). 
 
NOTAS PEDAGÓGICAS: 
Estes dados podem ser usados para mostrar a utilidade da regressão 
múltipla e praticar construção de modelo. 
Pode ser achada informação adicional sobre estes dados no artigo " Data 
sets and Stories" "Ajustando Porcentagem de Gordura de Corpo para Medidas 
de Corpo Simples" no Journal of Statístics Education_ (Johnson 1996). 
 
 
 ESTUDO DE CASO 25 
 
Nome da história: Força de trabalho policial e Crime 
Tópicos abordados: Ciência Social 
Métodos: Regressão, Outlier, Variável Dummy 
 
Resumo: Este arquivo de dados contem mudanças percentuais nos efetivos e 
alterações no número semanal de roubos sazonalmente ajustados para 25 
delegacias na cidade de Nova Iorque de um período base de 27 semanas em 
1966 para um período experimental de 58 semanas no final de 1966 e 1967. 
Durante o período experimental o efetivo policial alocado a Delegacia 20 
aumentou em cerca de 40 %. A delegacia 20 cobre o Sul e Oeste do Central Park, 
estendendo-se até o Rio Hudson. Se uma regressão simples da mudança na taxa 
criminal sobre a mudança no efetivo policial designado for realizada, a delegacia 
20 exercerá influência indevida na regressão. Por outro lado, indexando a 
delegacia 20 com uma variável dummy e executando a regressão da taxa criminal 
sobre dois regressores taxa de mudança nos efetivos policiais e a variável dummy 
fornece uma forma de estimar os efeitos do experimento de mudança nos efetivos 
policiais sob certas importantes hipóteses.

Mais conteúdos dessa disciplina