Prévia do material em texto
Material didático – Profa. Dra. Adriana Barbosa Santos LISTA DE EXERCÍCIOS – Análise Exploratória de Dados 1. Responda os itens abaixo, considerando valores entre 0 e 10, permitindo-se repetições. (a) escolha quatro números que tenham o menor desvio padrão possível; (b) escolha quatro números que tenham o maior desvio padrão possível; (c) Há mais de uma escolha para (a) ou (b)? 2. A média e o desvio padrão medem o centro e a dispersão mas não representam uma descrição completa de uma distribuição. Calcule a média e o desvio padrão para os dois conjuntos de dados a seguir e faça um gráfico de ramo e folhas de cada um e comente sobre a forma da distribuição. Dados A 9,14 8,14 8,74 8,77 9,26 8,1 6,13 3,1 9,13 7,26 4,74 Dados B 6,58 5,76 7,71 8,84 8,47 7,04 5,25 5,56 7,91 6,89 12,5 3. Sabe-se por análises repetidas diversas vezes que certo componente utilizado na composição do alimento TF14 que a quantidade média de nitrogênio deve ser de 1,81g% com desvio padrão de 0,025g%. A empresa A precisa selecionar um técnico de laboratório para aumentar sua equipe. Um teste prático para avaliar o desempenho de dois novos candidatos foi realizado utilizando o alimento TF14. Os dados obtidos após 16 análises feitas pelos candidatos estão na tabela abaixo, onde os técnicos estão identificados com as letras A e B. A 1,79 1,75 1,80 1,83 1,79 1,88 1,85 1,79 1,78 1,80 1,92 1,77 1,81 1,79 1,80 1,80 B 1,85 1,86 1,80 1,83 1,80 1,92 1,88 1,84 1,84 1,86 1,92 1,85 1,86 1,85 1,84 1,83 Como a decisão do teste prático depende entre outros pontos da análise estatística dos dados acima, qual decisão poderia ser tomada nesse caso? Elabore um breve parecer sobre os resultados de sua análise. 4. O Departamento de Controle de Qualidade de uma empresa do setor alimentício está diante de um problema envolvendo a embalagem das balas (a embalagem que reveste a bala) que acabaram de ser empacotadas. Espera-se que o número médio de balas mal embaladas num pacote de 200g seja igual a 2. Para verificar se algum fator interferiu na mudança deste parâmetro, foram selecionados 250 pacotes de balas para verificação. A tabela abaixo fornece dados relativos ao número de balas por pacote cuja embalagem está fora da conformidade. O que você diria ao Gerente de Qualidade sobre a situação em que se encontra o processo de embalagem de balas? Em sua opinião os pacotes estão sendo produzidos com a quantidade esperada de balas mal embaladas? Faça uma representação gráfica que possa sustentar sua conclusão. Balas com Defeito Quantidade de pacotes 0 06 1 20 2 65 3 88 4 43 5 16 6 8 7 3 8 1 Total 250 5. Um pesquisador de educação cria um índice de interesse acadêmico e obtém notas para uma população de 350 alunos da faculdade. O Box-plot mostrado abaixo resume os resultados relativos à população. Passados 2 meses, ele seleciona ao acaso 15 estudantes e determina que a média amostral é de 53,5. Tal resultado o levou a se questionar sobre quanto boa era essa estimativa e se a média populacional teria aumentado após 2 meses. Para avaliar sua suspeita, o pesquisador efetuou um teste de hipóteses com nível de significância de 0,10. Responda: (a) Que resultados o pesquisador pode ter obtido na análise? Obs.: Considere que se os dados seguem uma distribuição normal a amplitude equivale a 6 vezes o desvio padrão. (b) Você diria que este é um experimento ou um estudo observacional? Identifique a variável resposta e a unidade amostral (ou experimental). 50 35 100 65 0 Material didático – Profa. Dra. Adriana Barbosa Santos 6. A seguir são listados dois conjuntos de dados que se supõe serem as alturas (em cm) de homens adultos escolhidos aleatoriamente. Um conjunto consiste de alturas obtidas efetivamente de um conjunto aleatório de homens adultos, mas o outro conjunto consiste em números "fabricados". Examinando as duas tabelas de freqüências , identifique o conjunto que lhe parece ser o falso e justifique suas conclusões. A. 175 182,5 175 180 177,5 182,5 177,5 167,5 170 180 167,5 180 177,5 182,5 180 175 180 170 177,5 177,5 177,5 182,5 172,5 182,5 177,5 165 192,5 167,5 B. 175 182,5 175 180 177,5 165 185 190 170 187,5 167,5 170 177,5 192,5 165 172,5 180 167,5 192,5 187,5 165 190 190 192,5 182,5 185 172,5 167,5 7. A tabela abaixo mostra a distribuição da ingestão de vitamina A entre 14 estudantes que preencheram um questionário alimentar em sala de aula. A ingestão total é a combinação da ingestão a partir de itens individuais de alimentos e de pílulas vitamínicas. As unidades estão em UI/100 (UI = Unidades Internacionais). Distribuição da Ingestão de Vitamina A entre 14 Estudantes (Dados Fictícios) Número do Estudante Ingestão (UI/100) Número do Estudante Ingestão (UI/100) 1 31,1 8 48,1 2 21,5 9 24,4 3 74,7 10 13,4 4 95,5 11 37,1 5 19,4 12 21,3 6 64,8 13 78,5 7 108,7 14 17,7 (a) Elabore um resumo estatístico dos dados; (b) Examine a distribuição 8. Estudando-se a distribuição das idades dos funcionários de duas repartições públicas, obtiveram-se algumas medidas que estão no quadro abaixo. Esboce o histograma alisado das duas distribuições, indicando nele as medidas descritas no quadro. Comente as principais diferenças entre os dois histogramas. Repartição Mínimo Q1 Md X Q3 Máximo S A 18 27 33 33 39 48 5 B 18 23 32 33 42 48 10 9. Suponha que a variável X tenha a distribuição como na figura abaixo. Você acha que a média é uma boa medida de posição? E a mediana? Justifique. Esboce um box plot para a variável X, associado a distribuição apresentada na figura. 10. Um estudo pretende verificar se o problema da desnutrição em adultos medida pelo peso, em quilos, em uma região agrícola (denotada região A), é maior do que em uma região industrial (Região B). Para tanto, uma amostra foi tomada em cada região, fornecendo a tabela de freqüência a seguir: Região A Região B Peso Freqüência Peso Freqüência <40 8 <50 10 [40; 50) 25 [50; 60) 34 [50; 60) 28 [60; 70) 109 [60; 70) 12 [70; 80) 111 ≥70 9 ≥80 55 Total 82 Total 319 a) Os dados apresentados sugerem que o grau de desnutrição é diferente nas duas regiões? Material didático – Profa. Dra. Adriana Barbosa Santos b) Construa, a partir dos dados das tabelas, um histograma para cada região. Faça uma suposição conveniente para as faixas não delimitadas. c) Com base nos histogramas apresentados em (b), obtenha as medidas necessárias e construa um box-plot, uma para cada região. Com base nessa representação gráfica e em outras estatísticas descritivas, rediscuta o item (a). 11. Um granjeiro está interessado em fazer um estudo sobre melhoramento genético visando o aumento de peso. Para isso, usou frangos tratados com dois tipos de ração R1 e R2. Os frangos alimentados com R1 propiciaram a obtenção dos seguintes dados relativos aos pesos (em gramas) Peso frequência [960; 980) 06 [980; 1000) 16 [1000; 1020) 28 [1020; 1040) 26 [1040; 1060) 16 [1060; 1080) 08 Para os frangos alimentados com R2, os dados obtidos foram os seguintes: 970 983 985 990 990 995 1000 1006 1008 1012 1015 1015 1018 1018 1020 1023 1025 1030 1033 1035 1035 1038 1050 1055 1055 1055 1058 1065 1075 1078. Faça uma análise estatística para comparar os dois tipos de ração e indique qual delas deveria ser usado pelo granjeiro para atingir seu objetivo. Use estatísticas descritivas e gráficos em sua análise. 12. Responda os itens abaixo: (a) Qual a vantagem de agrupar dados? Há alguma desvantagem? (b) Defina dados contínuos, discretos, nominais e ordinais. (c) Quais são as principais razões para se fazer um estudo por amostragem? (d) Para ser útil e ter mais validade numa análise estatística, qual propriedade deve ter uma amostra probabilística? 13. Uma máquina produz bastões metálicos usados em um sistema de suspensão de automóveis. Uma amostra aleatória de 15 bastõesé selecionada, sendo o diâmetro medido. Os dados resultantes são mostrados a seguir. 8,24 8,23 8,20 8,21 8,20 8,28 8,23 8,26 8,24 8,25 8,19 8,25 8,26 8,23 8,24 Verifique a suposição de normalidade para o diâmetro dos bastões 14. Um estudo pretende avaliar o efeito da obesidade na pressão sanguínea. Para tanto, foram avaliados os pesos para 8 indivíduos e construída a variável X representando a razão entre os pesos real e ideal. Estudos indicam que um modelo de regressão linear simples é adequado para essa situação. Os dados obtidos foram: Individuo 1 2 3 4 5 6 7 8 Razão 1,23 1,42 1,35 1,67 1,65 1,56 1,44 1,58 Pressão sistólica 129 130 133 139 136 134 135 135 a) O que você diria sobre a correlação entre a Razão e a Pressão sistólica? b) Qual a pressão sistólica esperada para indivíduos com peso real/peso ideal igual a 1,25? c) Você concorda que um modelo de regressão linear pode ser adequado para essa situação? 15. Numa faculdade foram obtidos dados referentes aos carros de estudantes, de professores e funcionários. Os resultados estão apresentados na tabela abaixo. O que você pode concluir a respeito das idades dos carros, comparando os dois seguimentos populacionais. Use gráficos ilustrativos para reforçar seus argumentos. Idade 0-2 3-5 6-8 9-11 12-14 15-17 18-20 21-23 Estudantes 23 33 63 68 19 10 1 0 Prof. e Func. 30 47 36 30 8 0 0 1 16. Os dados da tabela a seguir referem-se ao distrito de Kigezi, Uganda, para os anos de 1959 e 1960. Material didático – Profa. Dra. Adriana Barbosa Santos Mês Índice Pluviométrico (polegadas) Temperatura Média (F) Umidade Relativa Média às 9:00hs (%) JAN 1,45 72,1 78 FEV 1,44 72,5 78 MAR 2,69 72,1 78 ABR 5,15 72,6 77 MAI 7,46 73,3 79 JUN 0,73 73,2 85 JUL 0,51 72,8 72 AGO 5,17 71,9 78 SET 4,20 71,4 78 OUT 4,08 71,7 78 NOV 6,68 71,6 78 DEZ 2,77 71,6 79 (a) Calcule, para cada série de medidas, a média, a amplitude total, o desvio padrão e o coeficiente de variação. (b) Qual série apresenta relativamente a maior variação e qual a menor? 17. Um psicólogo industrial deu a um empregado dois testes diferentes para medir o grau de satisfação no emprego. Qual resultado é melhor: um escore de 57 no primeiro teste, que teve média de 72 e desvio padrão 20, ou um escore de 450 no segundo teste, que teve média de 500 e desvio padrão 80? Explique.