Prévia do material em texto
2a edição | Nead - UPE 2013 Dados Internacionais de Catalogação-na-Publicação (CIP) Núcleo de Educação à Distância - Universidade de Pernambuco - Recife Santos, Ernani Martins dos Biologia: Bioestatística /Ernani Martins dos Santos. – Recife: UPE/NEAD, 2011. 44 p. 1. Bioestatística 2. Estatística 3. Educação à Distância I. Universidade de Pernambuco, Núcleo de Educação à Distância II. Título CDD – 17ed. – 310 Claudia Henriques – CRB4/1600 BFOP-103/2011 S237b UNIVERSIDADE DE PERNAMBUCO - UPE Reitor Prof. Carlos Fernando de Araújo Calado Vice-Reitor Prof. Rivaldo Mendes de Albuquerque Pró-Reitor Administrativo Prof. Maria Rozangela Ferreira Silva Pró-Reitor de Planejamento Prof. Béda Barkokébas Jr. Pró-Reitor de Graduação Profa. Izabel Christina de Avelar Silva Pró-Reitora de Pós-Graduação e Pesquisa Profa. Viviane Colares Soares de Andrade Amorim Pró-Reitor de Desenvolvimento Institucional e Extensão Prof. Rivaldo Mendes de Albuquerque NEAD - NÚCLEO DE ESTUDO EM EDUCAÇÃO A DISTÂNCIA Coordenador Geral Prof. Renato Medeiros de Moraes Coordenador Adjunto Prof. Walmir Soares da Silva Júnior Assessora da Coordenação Geral Profa. Waldete Arantes Coordenação de Curso Prof. José Souza Barros Coordenação Pedagógica Profa. Maria Vitória Ribas de Oliveira Lima Coordenação de Revisão Gramatical Profa. Angela Maria Borges Cavalcanti Profa. Eveline Mendes Costa Lopes Profa. Geruza Viana da Silva Gerente de Projetos Profa. Patrícia Lídia do Couto Soares Lopes Administração do Ambiente José Alexandro Viana Fonseca Coordenação de Design e Produção Prof. Marcos Leite Equipe de Design Anita Sousa/ Gabriela Castro/Renata Moraes/ Rodrigo Sotero Coordenação de Suporte Afonso Bione/ Wilma Sali Prof. José Lopes Ferreira Júnior/ Valquíria de Oliveira Leal Edição 2013 Impresso no Brasil Av. Agamenon Magalhães, s/n - Santo Amaro Recife / PE - CEP. 50103-010 Fone: (81) 3183.3691 - Fax: (81) 3183.3664 c a p ít u lo 1 5 Bioestatística oBJetiVos esPecíFicos • Compreender a natureza do trabalho esta- tístico e sua origem como forma de apro- priar-se da linguagem estatística; • Compreender os conceitos fundamentais da estatística, as fases do trabalho estatís- tico e as aplicações/apurações de dados da estatística em fatos vitais, como forma de desenvolver a capacidade de utilizar a ma- temática na interpretação e intervenção do real. a signiFicância e a aBrangência da estatística Os métodos estatísticos são usados hoje, em quase todos os campos de investigação cientí- fica, já que eles capacitam-nos para responder a um vasto número de questões, tais como as listadas abaixo: • Como os cientistas avaliam a validade de novas teorias? • Como os pesquisadores médicos testam a eficiência de novas drogas? • Como os demógrafos prevêem o tama- nho da população do mundo em qualquer tempo futuro? prof. Ernani Martins dos Santos | carga horária: 10 horas c a p ít u lo 1 6 • Como pode um economista verificar se a mudança atual no Índice de Preços ao Consumidor é a continuação de uma ten- dência secular ou simplesmente um desvio aleatório? • Como é possível para alguém predizer o resultado de uma eleição, entrevistando, apenas, algumas centenas de eleitores? Estes são poucos exemplos nos quais à aplica- ção da estatística é necessária. Podemos presu- mir que a matemática é uma das rainhas das ciências porque ela fornece a estrutura teórica a quase todas as outras ciências. Se você já fez um curso básico de física, já está familiarizado com algumas das leis matemáticas que gover- nam temas tão diversificados, como gravida- de, energia, luz, eletricidade, etc mas também devemos considerar o fato de que as teorias matemáticas estão sendo desenvolvidas todos os dias, em muitas áreas, por estatísticos teó- ricos - pessoas treinadas em teoria estatística e probabilidade. Para citar alguns poucos casos ilustrativos, elas são desenvolvidas para teoria a dos vôos espaciais em física; para teorias do conhecimento do comportamento animal e hu- mano em psicologia; para teorias da migração e dos diferenciais de raça em sociologia; para teorias de epidemias em saúde pública, etc. De fato, a estatística tornou-se uma ferramen- ta cotidiana para todos os tipos de profissio- nais que entram em contato com dados quan- titativos ou tiram conclusões a partir destes. o que é estatística? A estatística é tão antiga quanto o homem, pois a necessidade de enumerar as coisas sur- giu com ele. Nascida como simples compilação de núme- ros, a estatística tem evoluído até nossos dias de forma surpreendente, configurando-se como uma ferramenta de apoio para quase todos os campos da atividade humana, assu- mindo o status de ciência apenas no início do século passado. A noção de “Estatística” foi originalmente de- rivada da mesma raiz da palavra “Estado”, já que se constituiu como a função tradicional de governos centrais no sentido de armazenar registros da população, nascimentos e mortes, produção das lavouras, taxas e muitas outras espécies de informação e atividades. A conta- gem e a mensuração dessas quantidades ge- ram todos os tipos de dados numéricos que são úteis para o desenvolvimento de muitos ti- pos de funções governamentais e formulação de políticas públicas. Dados numéricos são, de fato, uma parte da Estatística, mas são apenas a matéria-prima que precisa ser transformada pelos “métodos estatísticos” para posterior análise. A Estatís- tica, como um método científico, refere-se ao projeto de experimentos e à descrição e à interpretação de observações que são feitas. Do ponto de vista moderno, a Estatística é fre- qüentemente definida como um método de tomada de decisão em face da aleatoriedade dos fenômenos. Em uma mais vasta perspec- tiva, o escopo da estatística pode ser pensado em termos de três áreas diferentes de estudos: (1) a Estatística Descritiva; (2) A Estatística In- dutiva e (3) A Teoria da Decisão Estatística. estatística descritiVa A Estatística Descritiva refere-se ao corpo de métodos desenvolvidos para coletar, organizar, apresentar e descrever dados numéricos. Essa área da Estatística refere-se às seguintes tarefas: • Encontrar um método apropriado de co- letar dados numéricos eficiente e acurada- mente para um dado problema. • Determinar um formato eficiente, tal como uma apresentação tabular, para a organi- zação dos dados de uma forma sistemática e ordenada, de maneira que a informação fornecida pelos dados possa ser observada com grande facilidade e precisão. • Apresentar dados numéricos, sejam orga- nizados ou, sejam de forma que as caracte- rísticas e o comportamento dos dados clara e facilmente revelados. Tais apresentações são feitas por meio de métodos gráficos. • Sumarizar ou descrever cada característica ou propriedade dos dados por um simples c a p ít u lo 1 7 número, tal como uma média, uma por- centagem ou alguma outra medida apro- priada, é calculada a partir dos dados, por meio de uma fórmula derivada, a partir de algum princípio válido. estatística indutiVa A Estatística Indutiva, que é também freqüen- temente chamada de inferência estatística ou estatística inferencial, em contraste com a es- tatística descritiva, é essencialmente analítica em sua natureza. Consiste de um conjunto de princípios ou teoremas que nos permitem generalizar acerca de alguma característica de uma “população” a partir das características observadas de uma “amostra”. Se uma me- dida descritiva é calculada a partir dos dados da população ela é chamada de parâmetro populacional ou, simplesmente, parâmetro; se é calculada a partir dos dados da amostra, é chamada de estatística amostral ou, simples- mente, estatística. Considerando esses concei- tos, podemos definir estatística indutiva como o processo de generalizar acerca do valor de um parâmetro a partir do valor de uma estatís- tica. Existem dois procedimentosde inferência distintos, mas relacionados: estimação e teste de hipóteses. Estimação é o processo de usar o valor de uma estatística amostral, para esti- mar o valor de um parâmetro que é desconhe- cido, mas é uma constante. Como exemplo, suponhamos que temos uma população de 100.000 bolas de gude em um saco as quais são idênticas exceto pela cor e que não pode- mos vê-las, embora saibamos que uma parte delas é branca, e o restante, preto. Suponha que desejamos ter uma idéia da proporção de, digamos, bolas brancas nessa população. Ima- gine que, para conseguir isso, selecionamos 1.000 bolas aleatoriamente do saco e verifica- mos que 350 são brancas. Isso significa que nossa proporção amostral de bolas brancas é 35 %. A partir disso, concluímos que a propor- ção populacional de bolas brancas é também 35 %. Fazendo isso, nós realizamos o que é chamado de estatística pontual. Mas afirmar que a proporção de bolas bran- cas em toda a população é exatamente igual à proporção daquela amostra particular é como dar um tiro no escuro: o valor da proporção amostral é um resultado aleatório e depende de cada amostra de 1.000 bolas escolhidas da população. Pode ser que por uma grande casu- alidade, o resultado daquela amostra que es- colhemos coincida exatamente com o valor da proporção de bolas brancas em toda a popu- lação. Mas as chances de que isso não ocorra são muito grandes. Uma forma de contornar- mos esse problema é afirmarmos que as chan- ces são de 95 em 100 (ou de 95 %) e de que o intervalo formado pela proporção amostral acrescida e diminuída de três pontos percentu- ais contenha o verdadeiro valor da proporção populacional desconhecido. Ou seja, construí- mos um intervalo com limites 35 + 0,03 x 35 = 36,05 e 35 - 0,03 x 35 = 33,95 e afirmamos (com base em algum princípio obtido a par- tir da teoria estatística) que as chances são de 95 em 100 de que o verdadeiro valor da pro- porção populacional esteja localizado dentro desse intervalo. Quando uma afirmativa dessa natureza é feita, estamos realizando o que se chama de estimativa por intervalo. Quanto ao segundo procedimento da estatís- tica inferencial, deixaremos para comentá-lo, quando for abordado em sua íntegra. E o ter- ceiro campo de estudos da Estatística, a Teo- ria da Decisão Estatística, não será discutido neste trabalho, voltado especificamente para abordagens em bioestatística. Por falar em bioestatística, temos que, nas áreas médicas e biológicas, coletam-se dados de pessoas, de animais experimentais e de fenômenos físicos e químicos, interessando aos pesquisadores dessas áreas dados sobre mortalidade infantil, eficiência de medicamentos, incidência de do- enças, causas de morte etc. e, para isso, utili- zamos a bioestatística, ou seja, a aplicação da estatística nas áreas de ciências biológicas e ciências da saúde. conceitos Fundamentais em estatística e Bioestatística Como toda ciência, a estatística e/ou a bio- estatística tem sua linguagem própria. E esta linguagem deve ser absorvida pelo estudante como forma de melhorar a compreensão e as habilidades necessárias ao desenvolvimento da aprendizagem dessa disciplina. Esses conceitos fundamentais referem-se à parte da estatística descritiva. c a p ít u lo 1 8 procedimento: Como 900/50 = 18, escolhe- mos por sorteio casual um número de 01 a 18 (inclusive), o qual indicaria o primeiro elemen- to sorteado para a amostra; os demais elemen- tos seriam periodicamente considerados de 18 em 18. Assim, se o número sorteado fosse o quatro, tomaríamos, pelo lado direito da rua, o 4º prédio, o 22º, o 40º etc., até voltarmos ao início da rua, pelo lado esquerdo. Amostra estratificada - composta de elementos provenientes de todos os estratos (subgrupos) da população, utilizada sempre que a popu- lação estiver dividida em subgrupos ou estra- tos, uma vez que a variável em estudo pode apresentar um comportamento diferente de estrato para estrato. Exemplo: voltemos para o exemplo de uma amostra representativa de 10% para a pesquisa da estatura de noventa alunos de uma escola. Supondo que 54 sejam meninos e 36 sejam meninas, vamos obter a amostra proporcional estratificada. São, por- tanto, dois estratos (sexo masculino e sexo fe- minino) e desejamos uma amostra de 10% da população. Logo, temos: População: conjunto de elementos que têm, em comum, determinada característica. As po- pulações podem ser finitas, como o conjunto de alunos de uma escola em determinado ano, ou infinitas, como o número de vezes que se pode jogar um dado. Amostra: subconjunto finito de uma popula- ção. O número de elementos de uma amostra é menor que o da população. Por ser uma amostra parte de uma população, é fundamental que ela seja representativa, pois as conclusões dessas amostras serão, também, da população. Para seleção de uma amostra, existe uma técnica denominada de amostra- gem, que, mediante ela, é possível garantir o acaso na escola e assegurar à amostra a repre- sentatividade da população. Técnicas de amostragem: procedimento que será adotado para escolher os elementos que irão compor uma amostra. Amostra casual simples (aleatória simples; ran- dômica; acidental) - por esse tipo de amostra- gem, todos os elementos da população têm igual possibilidade de serem selecionados para constituir a amostra. Os elementos são retira- dos ao acaso da população, através de sorteio. Exemplo: Vamos obter uma amostra represen- tativa de 10% para a pesquisa da estatura de noventa alunos de uma escola: a) Numeramos os alunos de 01 a 90. b) Escrevemos os números de 01 a 90 em pedaços iguais de um mesmo papel, colo- cando-os dentro de uma caixa. Agitamos sempre a caixa para misturar bem os peda- ços de papel e retiramos, um a um, nove números que formarão a mostra (neste caso, 10% da população). Amostra sistemática - ocorre quando os ele- mentos da amostra são selecionados por um critério preestabelecido pelo pesquisador. Essa estratégia normalmente é usada, quando os elementos já se acham ordenados de alguma forma. Exemplo: suponhamos uma rua, con- tendo novecentos prédios, dos quais deseja- mos obter uma amostra formada de cinqüenta prédios. Podemos, neste caso, usar o seguinte OBSERVAÇÃO: Percebam que os valores deci- mais foram arredondados. De acordo com a resolução 886/66 da Fundação IBGE, o arre- dondamento é feito da seguinte maneira: • Quando o primeiro algarismo a ser aban- donado é 0, 1, 2, 3 ou 4, fica inalterado o último algarismo a permanecer. Por exem- plo, 78,24 passa a 78,2. • Quando o primeiro algarismo a ser aban- donado é 6, 7, 8 ou 9, aumenta-se em uma unidade o algarismo a permanecer. Por exemplo, 42,87 passa a 42,9. Amostra de conveniência - elementos reunidos simplesmente, porque dispunha deles, sem nenhum critério específico. SEXO POPULAÇÃO 10% AMOSTRA Masculino 54 10x54/100 = 5,4 5 Feminino 36 10x36/100 = 3,6 4 TOTAL 90 10x90/100 = 9,0 9 c a p ít u lo 1 9 Variáveis - característica ou propriedade que será estudada ou observada na população. As variáveis podem ser de dois tipos: 1. quantitativas - quando exprimem conta- gens, ou seja, quando os valores tomados são numéricos. Exemplos: idade, altura, temperatura, massa, número de filhos, nú- mero de irmãos etc. Podem ser classifica- das em: 1.1 discretas - variáveis, cujos valores po- dem ser ordenados, de modo que, entre dois valores consecutivos, não pode existir nenhum outro, ou seja, essas variáveis só podem assumir valores pertencentes a um conjunto enumerável de elementos. Exem- plos: gols de um jogo de futebol, idade em anos etc. 1.2 Contínuas - variáveis que podem as- sumir qualquer valor num certo intervalo. Exemplos: idade de uma pessoa em ano, meses e dias ao longo de dois anos, tempo que um atleta leva para correr 100 metros, peso de um indivíduo etc 2. qualitativas - quando exprimem um atri- buto ou qualidade. Neste caso, os valores tomados não são numéricos. Exemplos:sexo, cor da pele, cor dos olhos, nacionali- dade etc. eXercício 1. De que maneira a estatística ajuda a resol- ver certos problemas práticos? Justifique sua resposta com um exemplo. 2. Suponha que você seja chamado para pre- ver a média das notas dos alunos de Ensi- no Médio de sua escola, da primeira série, da disciplina biologia. Que variáveis você julga serem necessárias? Justifique-as. 3. Uma pesquisa médica visa obter uma esti- mativa do tempo de vida de um paciente após este ter sido acometido de um tipo específico de câncer e submetido a um re- gime particular de radioterapia. Identifique a população que interessa. É possível per- ceber algum problema para amostrar essa população? 4. Para você, o que é coletar dados? 5. Cite três atividades em que um biólogo faz uso da estatística. 6. Classifique as variáveis em qualitativas ou quantitativas (contínuas ou descontínuas): a) População: alunos de uma escola Variável: cor dos cabelos b) População: casais residentes em uma cidade Variável: número de filhos c) População: estação meteorológica de uma cidade Variável: precipitação pluviométrica duran- te um ano d) População: propriedades agrícolas do Brasil Variável: produção de algodão e) População: ratos para estudo num la- boratório Variável: sexo dos animais 7. Uma escola de Ensino Fundamental abri- ga 124 alunos. Obtenha uma amostra re- presentativa, correspondendo a 15% da população. Explique como você faria para selecionar os indivíduos da amostra dentro da população. 8. O diretor de uma escola, na qual estão matriculados 280 meninos e 320 meni- nas, desejoso de conhecer as condições de vida extra-escolar de seus alunos e não dispondo de tempo para entrevistar todas as famílias, resolveu fazer um le- vantamento, por amostragem, em 10% dessa clientela. Obtenha, para esse di- retor, os elementos componentes da amostra. c a p ít u lo 1 10 9. Os prontuários dos pacientes de um hospi- tal estão organizados em um arquivo, por ordem alfabética. Qual é a maneira mais rápida e eficiente de amostrar 1/3 do total dos prontuários? 10. Um pesquisador tem dez gaiolas, cada uma contedo seis ratos. Como o pesqui- sador pode selecionar dez ratos para sua amostra? Sites nos quais o aluno pode buscar textos complementares, exercícios e aprofundar o es- tudo dos temas abordados • http://www.hsr.com.br/bio02.html Esse site do Centro Virtual de Epidemiolo- gia Clínica do Hospital São Rafael é interes- sante para o estudante se familiarizar com os termos da bioestatística, sob o ponto de vista da Bioestatística Clínica. • http://www.ufpa.br/dicas/biome/bioni.htm Nesse material da Universidade Federal do Pará, o estudante encontra dicas e notas interessantes para todo estudo da bioesta- tística, tendo, inclusive, abordagem sobre o tema deste capítulo. • http://www.ai.com.br/pessoal/indices/2A3. HTM Nesse site da Faculdade de Ciências Eco- nômicas de Vitória, é possível rever os con- ceitos estudados neste capítulo e realizar outros exercícios propostos pelo próprio site. • http://www.unb.br/ib/cfs/cg/Apostila%20I/ introducao.doc Esse material da UNB é um curso de Bio- estatística com linguagem voltada para a área de Saúde e Biometria. Contém tópicos desde os conceitos básicos até os conte- údos mais avançados, incluindo exemplo e citando bibliografias importantes. Inte- ressante para os estudantes que querem aprofundar seus conhecimentos. reFerência MILONE, G. e ANGELINI, F. Estatística Geral. SP: Atlas, 1993. Este livro é dirigido, em sua especificidade, à Estatística. O seu forte é uma linguagem clara dos conceitos trabalhados em Estatística. CRESPO, A. A. Estatística Fácil. 17ª. Edição. SP: Saraiva, 1999. Apesar de técnico, este livro trabalha uma lin- guagem bem didática para todos aqueles que necessitam ter domínio no trabalho com a Es- tatística. Apresenta exemplos e exercícios bem interessantes. VIEIRA, S. M. Introdução à Bioestatística. 3ª. Edição. SP: Campus, 1998. Um livro de linguagem clara e acessível, dedi- cado aos alunos e profissionais que se iniciam na aprendizagem da Estatística. O texto, de grande flexibilidade, inclui, em alguns capítu- los, exercícios e exemplos de aplicação. c a p ít u lo 2 11 coleta e organização de dados oBJetiVos esPecíFicos • Conhecer os elementos constituintes de uma tabela; • Interpretar e construir tabelas estatísticas; • Compreender o gráfico como uma forma de linguagem matemática necessária ao estudo estatístico; • Entender o gráfico como uma das formas de melhor visualizar os dados construídos e tabelados numa pesquisa. introdução Após um planejamento cuidadoso e a determi- nação da população e/ou amostra a ser estu- dada com suas variáveis, damos início à coleta dos dados numéricos necessários a sua des- crição. Esta coleta pode ser direta ou indireta. A coleta é direta, quando feita sobre elementos informativos de registro obrigatório (nascimen- to, casamento, óbitos, elementos pertinentes ao prontuário dos alunos de uma escola, etc.) ou, ainda, quando os dados são coletados pelo próprio pesquisador, através de inquéri- tos e questionários, como é o caso das notas de uma avaliação, do censo demográfico, etc. A coleta é indireta, quando é inferida de ele- mentos conhecidos (coleta direta) e/ou do conhecimento de outros fenômenos rela- prof. Ernani Martins dos Santos | carga horária: 10 horas c a p ít u lo 2 12 cionados com o fenômeno estudado. Como exemplo, podemos citar as pesquisas sobre mortalidade infantil, realizadas através de da- dos colhidos por uma coleta direta. Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem as- sumir, para que tenhamos uma visão global da variação dessa ou dessas variáveis. Isso ela consegue, inicialmente, apresentando esses valores em tabelas e gráficos, que irão nos for- necer rápidas e seguras informações a respeito das variáveis em estudo, permitindo-nos deter- minações administrativas e pedagógicas mais coerentes e científicas. aPresentação de dados em taBelas A tabela é um quadro, que resume um conjun- to de observações. As tabelas são compostas por: título; cabeça- lho; corpo; colunas indicadoras e fonte. • Título - explica o que a tabela contém ou simplesmente indica o assunto da tabela. • Cabeçalho - especifica o que cada coluna contém. • Corpo - são os dados contidos nas linhas e colunas da tabela. • Colunas indicadoras - especificam os con- teúdos das linhas. • Fonte - mostra de onde foram recolhidos os dados para organizar a tabela. Aparece, sempre, no rodapé da tabela. Exemplo: Casos registra- dos de intoxi- cação humana, segundo a cau- sa determinan- te. Brasil, 1993 Na tabela anterior, tivemos: TÍTULO Casos registrados de intoxicação humana, se- gundo a causa determinante. Brasil, 1993. CABEÇALHO COLUNA INDICADORA CORPO FONTE Fonte: MS/FIOCRUZ/SINITOX Toda tabela deve ser delimitada por traços ho- rizontais. Podem ser feitos traços verticais ape- nas para separar as colunas, e não para delimi- tar a tabela. O cabeçalho é separado do corpo por um traço horizontal. Exemplo: Casos registra- dos de intoxi- cação humana, segundo a cau- sa determinan- te. Brasil, 1993. Causa Frequência Acidente 29.601 Abuso 2.604 Suicídio 7.965 Profissional 3.735 Outras 1.959 Ignorada 1.103 Fonte: MS/FIOCRUZ/SINITOX 29.601 2.604 7.965 3.735 1.959 1.103 Acidente Abuso Suicídio Profissional Outras Ignorada Causa Frequência Causa Frequência Acidente 29.601 Abuso 2.604 Suicídio 7.965 Profissional 3.735 Outras 1.959 Ignorada 1.103 Fonte: MS/FIOCRUZ/SINITOX c a p ít u lo 2 13 As tabelas podem conter fontes e notas. A fonte indica a entidade do pesquisador ou dos pesquisadores que publicaram ou forneceram os dados. As notas devem esclarecer aspectos relevantes dos levantamentos dos dados ou da apuração. Exemplo:Nascidos vivos registrados, segundo o ano de registro. As tabelas podem apresentar, além das frequ- ências, as frequências relativas ao total. Para obter a frequência relativa de uma dada catego- ria, divide-se a frequência dessa categoria pela soma das frequências. O resultado, que multi- plicado por 100, é uma percentagem. O total da coluna é escrito entre dois traços horizontais. Exemplo: Casos registrados de intoxicação humana, se- gundo a causa determinante. Brasil, 1993. As tabelas de contingência podem apresentar frequências relativas além de frequências. Nes- se caso, as frequências relativas dão estimati- vas de risco, isto é, dão estimativas da proba- bilidade do dano. Exemplo: Recém-nascidos, segundo a época do ataque de rubéola na gestante e a condição de normal ou defeituoso. Causa Frequência Frequência Relativa (%) Acidente 29.601 63,29 Abuso 2.604 5,69 Suicídio 7.965 16,37 Profissional 3.735 8,15 Outras 1.959 4,2 Ignorada 1.103 2,3 Total 45.974 100 Fonte: MS/FIOCRUZ/SINITOX Ano de Registro Frequência 1984 2.559.038 1985 2.619.604 1986 2.779.253 Fonte: IBGE (1988). Nota: Nascimentos ocorri- dos no ano de registro Ano de Registro Sexo TotalMasculino Feminino 1984 1.307.758 1.251.280 2.559.038 1985 1.339.059 1.280.545 2.619.604 1986 1.418.050 1.351.203 2.779.253 Fonte: IBGE (1988). Nota: Nascimentos ocorridos no ano de registro Época de Ataque Condição Total Frequência RelativaNormal Defeituoso Até o 3o mês de Gestação 36 14 50 28% Depois do 3o mês de Gestação 51 3 54 5,60% Fonte: HILL (1958) taBela de contigência Este tipo de tabela é utilizado para represen- tar elementos de uma amostra ou população, classificados de acordo com dois fatores. Sen- do assim, uma tabela de dupla entrada, cada uma representando um dos fatores. Exemplo: Nascidos vivos registrados, segundo o ano de registro e o sexo. eXercício 1. De acordo com o IBGE (1988), a distribui- ção dos suicídios ocorridos no Brasil em 1986, segundo a causa atribuída, foi a se- guinte: 263 por alcoolismo, 198 por difi- culdade financeira, 700 por doença men- tal, 189 por outro tipo de doença, 416 por desilusão amorosa e 217 por outras causas. Apresente essa distribuição em tabelas. 2. De acordo com o IBGE (1988), em 1986, ocorreram, em acidentes de trânsito, 27.306 casos de vítimas fatais, assim distri- buídos: 11.712 pedestres, 7.116 passagei- ros e 8.478 condutores. Faça uma tabela para representar esses dados. Apresente, também, as frequências relativas e o total. 3. Em 1988, foi publicado pelo IBGE que os estabelecimentos de saúde no Brasil, no ano de 1985, eram distribuídos por es- pécies, da seguinte forma: 1002 hospitais públicos e 5132 particulares; 150 pronto- -socorros públicos e 156 particulares; poli- clínicas no total de 1531 e 6136 respecti- c a p ít u lo 2 14 vamente públicas e particulares; e outros (inclui postos de saúde, centros de saúde e unidades mistas), sendo 14393 públicos e 472 particulares. Represente essas informações em uma tabela. aPresentação de dados em gráFicos Existem normas nacionais para a construção de gráficos ditados pela fundação IBGE. Assim, todo gráfico deve apresentar título e escala. O título deve ser colocado tanto acima quanto abaixo do gráfico. As escalas devem crescer da esquerda para a direita e de baixo para cima. As legendas explicativas devem ser colocadas, de preferência, à direita do gráfico. A seguir, apresentaremos os gráficos mais comuns nas apresentações em bioestatísitca. gráFico de Barras Utilizado para apresentar variáveis qualitativas ou ordinais. Para fazer um gráfico de barras, pri- meiro se traça o sistema de eixos cartesianos, depois se colocam, no eixo das abscissas, as cate- gorias da variável em estudo. Em seguida, constroem-se barras retangulares, com base no eixo das abscissas e altura igual à frequência ou a frequência relativa da respectiva categoria. As barras devem ser desenhadas para ficar evidente que a variável é qualitativa ou ordinal. Exemplo: Internações em estabelecimentos de saúde, por espécie de clínica no Brasil - 1992. Observação: Atualmente os gráficos de barra também podem ser feitos na horizontal, mantendo-se o nome de gráfico de barras. Espécie Clínica Frequência Frequência Relativa (%) Médica 6.457.923 32,51 Ginecológia e Obstetrícia 3.918.308 119,73 Cirúrgia 3.031.075 15,26 Pediatria 2.943.393 14,82 Outras 3.513.186 17,69 Fonte: IBGE, Diretoria de Pesquisa, Pesquisa de Assistência Médico-Sanitária. Internações em estabelecimentos de saúde, por espécie de clínica no Brasil - 1992 c a p ít u lo 2 15 gráFico de setores O gráfico de setores também é usado para apresentar variáveis qualitativas ou ordinais. Para fazer um gráfico de setores, a princípio, traça-se uma circunferência que possui uma divisão angular in- terna de 360º. Essa circunferência representa o total, ou seja, 100%. Dentro dessa circunferência, devem ser representadas as categorias da variável em estudo. Para isso, toma-se a frequência re- lativa a cada categoria e calcula-se o ângulo central da seguinte maneira: se 100% correspondem a 360º, uma categoria com frequência relativa de f%terá um ângulo central x, tal que: Observação: ao se por rótulos de identificação em quadro, não se faz necessário repeti-los no gráfico. eXercício 1. Faça um gráfico de barras e um gráfico de setores para apresentar os dados da tabela seguinte: Suicidas, segundo o sexo, Brasil, 1986. 100 360o F Xo Esse procedimento se repete para cada uma das categorias da variável em estudo. Para fazer o gráfico de setores, marcam-se, na circunferência, os ângulos calculados, separando-os com o traçado dos raios. Exemplo: Internações em estabelecimentos de saúde, por espécie de clínica no Brasil - 1992. c a p ít u lo 2 16 2. Procure em jornais e revistas especializa- das, dois exemplos de cada um dos gráfi- cos estudados. Em seguida, faça uma ta- bela a partir dos gráficos, apresentando os dados estatísticos nela presentes. Sites nos quais o aluno pode buscar textos complementares, exercícios e aprofundar o es- tudo dos temas abordados • http://www.del.ufms.br/tutoriais/excel7/ apresentacao.htm#sumario Esse site do Departamento de Engenharia Elétrica da Universidade Federal do Mato- grosso do Sul contém um curso completo sobre Excel. Nele, os alunos podem aliar os conceitos estatísticos de tabelas e gráficos à prática da informática, construindo pla- nilhas e gráficos a partir do computador. • http://www.ufpa.br/dicas/biome/bioni.htm Nesse material da Universidade Federal do Pará, o estudante encontra dicas e notas interessantes para todo estudo da bioes- tatística, contendo inclusive abordagem sobre o tema deste capítulo. • http://www.ai.com.br/pessoal/indices/2A3. HTM Esse site contém material completo para um curso de estatística. Conceitos, exem- plos, exercícios, biblioteca virtual da área, inclusive glossário dos temas abordados e calculadora on-line. Bastante interessante para o estudante se aprofundar e exercitar o tema deste capítulo. reFerência MILONE, G. e ANGELINI, F. Estatística Geral. SP: Atlas, 1993. Este livro é dirigido, em sua especificidade, à Estatística. O seu forte é uma linguagem clara dos conceitos trabalhados em Estatística. CRESPO, A. A. Estatística Fácil. 17ª. Edição. SP: Saraiva, 1999. Apesar de técnico, este livro trabalha uma lin- guagem bem didática para todos aqueles que necessitam ter domínio no trabalho com a Es- tatística. Tem exemplos exercícios bem interes- santes. VIEIRA, S. M. Introdução à Bioestatística. 3ª. Edição. SP: Campus, 1998. Um livro de linguagem clara e acessível, dedi- cado aos alunos e profissionais que se iniciam na aprendizagem da Estatística. O texto, de grande flexibilidade, inclui em alguns capítulos exercícios e exemplos de aplicação. DORIA FILHO, U. Introdução à Bioestatística para Simples Mortais. 1ª. Edição. SP: Negócio Editora, 1999.O livro oferece aos estudantes e profissio- nais de saúde uma excelente oportunidade de aprender estatística por meio de exemplos práticos. Sexo Freqüência Percentual Masculino 3562 74,93 Feminino 1192 25,07 Fonte: IBGE (1988) c a p ít u lo 3 17 Percentagens, índices, coeFicientes e taXas oBJetiVos esPecíFicos • Compreender o significado de percenta- gem; • Entender o significado de dados relativos; • Conhecer a utilidade na construção de nú- meros-índices, coeficientes e taxas. introdução Os dados estatísticos resultantes da coleta di- reta da fonte, sem outra manipulação se não a contagem ou medida, são chamados da- dos absolutos. A leitura dos dados absolutos é sempre enfadonha e inexpressiva; embora esses dados traduzam um resultado exato e fiel, não tem a virtude de ressaltar de imediato as suas conclusões numéricas. Daí o uso im- prescindível que faz a estatística dos dados relativos. Dados esses, que são resultados de comparação por quociente (razões) que se estabelecem entre dados absolutos e tem por finalidade realçar ou facilitar as comparações entre quantidades. Traduzem-se os dados re- lativos, em geral, por meio de percentagens, índices, coeficientes e taxas. 1. Percentagens São razões que consistem em considerar um total qualquer igual a 100% e, através de uma prof. Ernani Martins dos Santos | carga horária: 10 horas c a p ít u lo 3 18 regra de três, estabelecer qualquer relação com as parcelas que compõem o total assim: ToTal - 100% Parcela - X% O que nos leva a: percentagem = parcela 100 Total Onde o x na regra de três está representado na equação logo a seguir pela palavra percen- tagem. Isto significa que o valor de x, encon- trado na regra de três, expressa um valor na forma de percentagem (daí a multiplicação por 100% que tem o significado de total). Por exemplo, encontrando-se x = 32 se expressa esse valor na forma de percentagem 32%. eXercício 3.1 1. Em 1995 o Banco do Brasil (BB) renego- ciou a dívida de R$ 7,1 bilhões dos agricul- tores, que foi dividida em parcelas a serem pagas até o final de cada ano. O valor da primeira parcela era R$ 700 milhões, mas somente metade foi pago; da segunda parcela (totalizando R$ 1,1 bilhão) vencida em 1997 somente foi pago 26% do devi- do. Em 1997 o lucro líquido do BB foi de R$ 646,4 milhões. Quantas vezes a dívida restante dos agricultores no início de 1998 vale o lucro líquido do BB em 1997? 2. Uma empresa agropecuária desenvolveu uma mistura, composta de fécula de ba- tata e farinha, para substituir a farinha de trigo comum. O preço da mistura é 10% inferior ao da farinha de trigo comum. Uma padaria fabrica e vende 5.000 pães por dia. Admitindo-se que o kg da farinha comum custa R$ 1,00 e que com 1kg de farinha ou da nova mistura a padaria fabri- ca 50 pães, determine: a) a economia, em reais, obtida em um dia, se a padaria usar a mistura em vez da farinha de trigo comum; b) o número inteiro máximo de quilos da nova mistura que poderiam ser compra- dos com a economia obtida em um dia e, com esse número de quilos, quantos pães a mais poderiam ser fabricados por dia. 3. No mês de agosto, Pedro observou que o valor da sua conta de energia elétrica foi de 50% superior ao valor da sua conta de água. Em setembro, tanto o consumo de energia elétrica, quanto o de água, na re- sidência de Pedro, foram iguais aos con- sumos do mês de agosto. Porém, como as tarifas de água é energia elétrica foram re- ajustadas em 10% e 20%, respectivamen- te, Pedro desembolsou R$ 20,00 a mais do que em agosto para quitar as duas contas. Quanto Pedro pagou de energia elétrica no mês de setembro? 4. No mês de janeiro de determinado ano, uma categoria profissional tem direito a um aumento salarial de 75%. Como a categoria já havia recebido uma antecipa- ção de 25% em novembro, qual deve ser a porcentagem de acréscimo adicional do salário para compensar a antecipação con- cedida? 5. Um comerciante compra uma peça de te- cido de 50m. Se ele vender 20m com um lucro de 50%, outros 20m com um lucro de 30% e os restantes pelo preço de custo, calcule seu percentual de lucro na venda da peça. 6. Sabendo-se que o Índice Geral de Preços ( IGP ) de junho de 2002 foi de 1,74% e no mês de julho do mesmo ano foi de 2,05%, qual o percentual de aumento de um mês para o outro? Um outro fato também importante, é que as percentagens podem ser utilizadas de inúme- ras formas, segundo a circunstância que quei- ramos estudar. Vejamos dois casos: Primeiro: Quando quisermos analisar a estru- tura de um fato, deveremos ratear as porcen- tagens entre os itens que compõem esse fato. c a p ít u lo 3 19 Calculemos as percentagens dos alunos de cada nível de ensino: Ensino Fundamental 19286 x 100 = 90,96 21201 Isto nos leva a 91,0% Ensino Médio 1681 x 100 = 7,92 21201 Isto nos leva a 7,9% Ensino Superior 234 x 100 = 1,10 21201 Isto nos leva a 1,10% Observe a soma: 91,0% + 7,9% + 1,1% = 100% Com esses dados podemos formar uma nova coluna na série em estudo: Consideremos a série: Vamos agora fazer uma interpretação dos da- dos obtidos nesta nova coluna. Esses valores nos dizem que, cada 100 alunos da cidade Z, 91 estão matriculados no Ensino Fundamen- tal, 8, aproximadamente, no Ensino Médio e 1 no Ensino Superior. Com isto, podemos ob- servar que o emprego da percentagem é de grande valia quando é nosso intuito destacar a participação da parte no todo. Este estudo comparativo pode ser muito útil na análise de dados numa série estatística, como podemos ver a seguir. Consideremos, agora, a série: Matrículados nas Intituições de Ensino da Cidade Z ano 2000 Categorias Número de Alunos (Dados Absolutos) Ensino Fundamental 19286 Ensino Médio 1681 Ensino Superior 234 Total 21201 Fonte: Dados Fictícios Matrículados nas Intituições de Ensino da Cidade Z ano 2000 Categorias Número de Alunos % (Dados Absolutos) Ensino Fundamental 19286 91,0 Ensino Médio 1681 7,9 Ensino Superior 234 1,1 Total 21201 100 Fonte: Dados Fictícios Categorias Número de Alunos Cidade Z Cidade T Ensino Fundamental 19286 38660 Ensino Médio 1681 3399 Ensino Superior 234 424 Total 21201 42483 Fonte: Dados Fictícios Matrículas nas Instituições de Ensino das cidades Z e T no ano 2000 Categorias Cidade Z Cidade T No de Alunos % No de Alunos % Ensino Fundamental 19286 91,0 38660 91,0 Ensino Médio 1681 7,9 3399 8,0 Ensino Superior 234 1,1 424 1,0 Total 21201 100 42483 100 Fonte: Dados Fictícios Qual das cidades tem, comparativamente, maior número de alunos em cada nível de ensino? Como o número total de alunos é diferente nas duas cidades, não é fácil concluir a respei- to usando os dados absolutos. Porém, usando as percentagens, tal tarefa apresenta-se como a forma ideal para a resposta ao questiona- mento. Para tal, vamos acrescentar na tabela anterior as colunas correspondentes às percen- tagens, relativa a cada nível de ensino, para cada cidade. c a p ít u lo 3 20 Base - 100% Valores - X% Com isto: Apenas as duas primeiras colunas fazem parte do enunciado percentagem = Valores X 100 Base A análise. A resposta com os dados brutos não seria tão bem posta, como a que se apresen- ta com os dados relativos. Pois, num primeiro olhar poderíamos fazer um julgamento errô- neo do fato, uma vez que a cidade T, aos olhos dos dados brutos, apresenta mais estudantes em todos os níveis de ensino, se comparada com a cidade Z. Mas, quando vamos dar uma olhada nos dados relativos, isto nos permite dizer que, comparativamente, contam, prati- camente, com a mesma taxa de estudante em cada nível de ensino. Ou, com o mesmo nú- mero de estudantes para cada deles tomados como referência 100. E, poderíamos informar que, para cada 100 estudantes, as cidades Z e T apresentamas mesmas taxas para os três níveis de ensino. Observação: Do mesmo modo que tomamos 100 para a base de comparação, também podemos to- mar outro número qualquer, como por exem- plo, 1 ou 1000 (base decimal). Segundo: Quando quisermos estudar a dinâ- mica de um fato, ou seja, acompanhar a evolu- ção de um fato ao longo do tempo, deveremos estabelecer um período seja ano, mês, dia etc. -, uma produção, uma renda etc. como sendo a base, considerando-a como 100%. Base FiXa Vejamos os cálculos: Ano 95 3200 X100 = 100% 3200 Ano 96 3600 X100 = 112,5% 3200 Ano 97 3360 X100 = 105,0% 3200 eXercício 3.2 1. Faça (continue) os cálculos para os anos: 1998; 1999; 2000 e 2001. Comentários: Os valores dessa nova coluna mostram como evoluíram a produção em termos percentuais em relação ao ano1995 (base escolhida). Por exemplo: • De 1995 para 1996 a produção cresceu 12,5%. • De 1995 para 1997 a produção cresceu 5,0%. • De 1995 para 1998 a produção também cresceu 5,0%. • De 1995 para 1999 a produção foi a mes- ma, ou seja, não evoluiu. • De 1995 para 2000 a produção decresceu em -12,5%. • De 1995 para 2001 a produção cresceu 7,5% Base móVel Este caso difere do anterior, pois a base se mo- difica para cada dado. Onde, cada novo dado sempre será relacionado com o dado anterior. Vejamos, o exemplo a seguir: Exemplo: Produção em toneladas da Metalúr- gica “ABC” Base Móvel. Anos Produção (t) Ano-base 1995 (%) Variação Porcentual com Relação à Base (%) 95 96 97 98 99 00 01 3200 3600 3360 3360 3200 2800 3440 100,0 112,5 105,0 105,0 100,0 87,0 107,5 - + 12,5 + 5,0 + 5,0 0,0 - 12,5 + 7,5 ( ) ( ) ( ) ( ) c a p ít u lo 3 21 De forma similar ao caso da base fixa, temos: Base - 100% Valores - X% Com isto: percentagem = Valores X 100 Base Vejamos os cálculos: 95 Não existe dado anterior, por tanto esse percentual é inexistente. 96 3600 X 100 = 112,5% 3200 97 3360 X 100 = 93,3% 3200 eXercício 3.3 1. Faça (continue) os cálculos para os anos: 1998; 1999; 2000 e 2001. Comentários: Os valores dessa nova coluna mostram como evoluem a produção de um ano para o outro. Por exemplo: • De 1995 para 1996 tivemos um acréscimo na produção de 12,5% • De 1996 para 1997 a produção decaiu em -6,7%. • De 1997 para 1998 não houve alteração na produção. • De 1998 para 1999 a produção decaiu em -4,8% Anos Produção (t) Base Móvel (%) Variações % com Relação à Base 95 96 97 98 99 00 01 3200 3600 3360 3360 3200 2800 3440 - 112,5 93,3 100,0 95,2 87,5 122,9 - + 12,5 - 6,7 0,0 - 4,8 - 12,5 + 22,9 • De 1999 para 2000 a produção também decaiu em -12,5% • De 2000 para 2001 a produção evoluiu em 22,9%. 2. índices “Em termos gerais, um número-índice pode ser concebido como uma medida estatística destinada a comparar, através de uma expres- são quantitativa global, grupos de variáveis relacionadas e com diferentes graus de im- portância. Através dele obtém-se um quadro resumido das mudanças ocorridas em áreas afins (TOLEDO e OVALLE, 1985, p. 311)”. Este resumo dá uma visão geral do referido tema, que aqui será exposto apenas através das ex- pressões quantitativas para um exercício de configuração deste conteúdo. Uma definição deste tema é dizer que, índices são razões entre duas grandezas tais que uma não inclui a outra (grandezas independentes). São exemplos de índices: • ÍNDICE CEFÁLICO IC DT X 100 DL Onde: IC = Índice Cefálico DT = Diâmetro Transverso do Crânio DL = Diâmetro Longitudinal do Crânio • QUOCIENTE INTELECTUAL QI IM X 100 IC Onde: QI = Quociente Intelectual IM = Idade Metal IC = Idade Cronológica • DENSIDADE DEMOGRÁFICA DD PT X 100 ST ( ) ( ) ( ) ( ) ( ) ( ) c a p ít u lo 3 22 Onde: DD = Densidade Demográfica PT = População Total ST = Superfície Total índices econômicos • PRODUÇÃO PER CAPITA PPC VP P Onde: PPC = Produção “Per Capita” Vp = Valor da Produção P = População • CONSUMO PER CAPITA CPC CB P Onde: CPC = Consumo “Per Capita” CB = Consumo do Bem P = População • RENDA PER CAPITA RDPC Rd P Onde: RDPC = Renda “Per Capita” Rd = Renda P = População • RECEITA PER CAPITA RCPC Rc P Onde: RCPC = Receita “Per Capita” Rc = Receita P = População Exemplo: Uma instituição beneficente possuía em 1993 a quantia de $ 200.000 diários para atender a 4000 pessoas. Em 1996 a receita da instituição é de $ 800.000 para atender a 8000 pessoas. Calcular a receita per capita da instituição e ve- rificar se sua situação por atendido melhorou ou piorou, considerando que no período de 93 a 96 houve um acréscimo de 120% (isto é uma suposição!) no custo de vida. Logo: 1993 Receita Per Capita = 200000 = 50 4000 1996 Receita Per Capita = 800000 = 100 8000 Porém: Houve um acréscimo de 120% aumento de um fator de 220 (120 +100). Daí: Para manter o mesmo padrão a instituição ne- cessitaria de: 100 - 30 220 - X Resolvendo: X = 110 a instituição piorou, pois necessitaria de $10 a mais do que é hoje (1996) a sua ren- da per capita. 3. coeFicientes É a comparação entre duas grandezas em que uma está contida na outra. São exemplos de coeficientes: • COEFICIENTE DE NATALIDADE CN = NN PT Onde: CN = Coeficiente de Natalidade NN = Número de Nascimento PT = População Total • COEFICIENTE DE MORTALIDADE CM = NO PT Onde: CM = Coeficiente de Mortalidade NO = Número de Óbitos PT = População Total ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) c a p ít u lo 3 23 coeFicientes educacionais • COEFICIENTE DE EVASÃO ESCOLAR CEE = NE NIM Onde: CEE = Coeficiente de Evasão Escolar NE= Número de Alunos Evadidos NIM = Número Inicial de Matrícula • COEFICIENTE DE APROVAÇÃO ESCOLAR CAE = NA NFM Onde: CAE = Coeficiente de Aprovação Escolar NA= Número de Alunos Aprovados NFM = Número Final de Matrícula • COEFICIENTE DE RECUPERAÇÃO ESCOLAR CRE = NR NAR Onde: CRE = Coeficiente de Recuperação Escolar NR= Número de Alunos Recuperados NAR = Número de Alunos em Recuperação 4. taXas É a mesma coisa que coeficiente, apenas apre- sentando-se multiplicada por uma potência de 10 (dez) (10, 100, 1000 etc...) para tornar o resultado mais inteligível, uma vez que sempre especificamos os dados em formas relativas. Desse modo temos a expressão: Taxa = Coeficiente X 10n com n = 1, 2, 3, ... Exemplos de taxas: • TAXA DE MORTALIDADE - TM TM = CM X 10 3 (ver o CM na parte de Coeficientes) • TAXA DE NATALIDADE - TN TN = CN X 10 3 (ver o CN na parte de Coeficientes) • TAXA DE EVASÃO ESCOLAR - TEE TEE = CEE X 10 2 (ver o CEE na parte de Coeficientes) • TAXA DE MORBIDADE - TMB Calculada para cada doença em particular, aqui a tuberculose. Numa determinada cida- de, relativa a um certo período (meses, ano, decênio, etc) Y. Temos: TMB = CMB X 10 3 Onde: CMB = n Pn Sendo: CMB = Coeficiente de Morbidade n = número de acometidos por tuberculose no município X, no ano Y PN = População do município X, no ano Y. • TAXA DE ACIDENTES DE TRABALHO Neste caso, ela se divide em duas partes: I. Frequência da Taxa de Acidentes de Traba- lho; II. Gravidade da Taxa de Acidentes de Trabalho. Vejamos a primeira: Onde: TfAT = CEE X 10 2 CfAT = Nac NOH Sendo: CfAT = Coeficiente de Frequência dos Acidentes de Trabalho Nac = Número deAcidentes NOH = Número de Operários Hora Vejamos a segunda: TgAT = C g at X 10 6 Onde: CgAT = NHPA NOH Sendo: CgAT = Coeficiente da Gravidade dos Acidentes de Trabalho ( ) ( ) ( ) c a p ít u lo 3 24 NHPA = Número de Horas Perdidas em razão dos Acidentes NOH = Número de Operários Hora Convém salientar que o n° de horas perdidas por acidente se conhece tendo em conta, além das horas que o acidentado deixou de traba- lhar, a utilização de uma tabela específica que proporciona uma equivalência entre os tipos de incapacidade e o número de horas debi- tadas à empresa em virtude do acidente. Por exemplo: perda de uma mão equivale a 3000 horas perdidas, surdez em um ouvido equivale a 600 horas perdidas, etc. eXercícios resolVidos 1. Calcular a taxa frequência e de gravidade em uma empresa em que, operando com 50 operários, trabalhando 500 horas cada um, ocorreram 5 acidentes com uma per- da de 200 horas. TfAT = 5 x 10 6 = 200 50 x 500 O que significa que nesta empresa a, em cada 1000000 de operários-hora, ocorre- ram 200 acidentes. TgAT = 200 X 10 6 = 8000 50x500 O que significa que, nesta empresa, em cada 1000000 de operários-hora, 8000 horas são perdidas em virtude de acidentes. 2. A cidade X apresentou 12793 matrículas nas séries iniciais, no início do semestre 2000 e, 10347 no fim do ano 2000. A ci- dade Y apresentou os seguintes números: 8349 no início de 2000 e 6649 matrícu- las no final de 2000. Qual e a cidade que apresentou mais evasão escolar? Cidade X Como: TFF = CEE X 10 2 mas: CEE = NE NIM onde: NE = Número de Alunos Evadidos Logo: NE = 12793 - 10347 = 2446 e que NIM = 12793 com isto CEE = 0,191 Daí: TEE = 0,191 x 10 2 = 0,191 x 100 = 19,1% Cidade Y Como: TEE = CEE X 10 2 mas: CEE = NE NIM onde: NE = Número de Alunos Evadidos Logo: NF = 8349 - 6649 = 1700 e que NIM = 8349 com isto CEE = 0,204 Daí: TEE = 0,204 x 10 2 = 0,204 x 100 = 20,4% Conclusão: a cidade que apresentou a maior evasão escolar foi a cidade Y. Obser- ve que o valor do coeficiente já diz esta realidade, porém, a informação em termos percentuais dá uma realidade maior ao fato, um vez que podemos compreendê-lo na formação de um todo (100%). 3. Em uma cidade cuja população é 520000 habitantes, o números de óbitos registrados é de 80080. Calcular a taxa de mortalidade. Resolução: Temos: Números de Óbitos: NO = 80080 e que a População Total: PT = 520000 Como: CM = NO PT logo: CM = 80080 = 0,154 520000 Mas: TM = CM x 10 3 logo: TM=0,154x10 3=0,154x1000=154% c a p ít u lo 3 25 Ou seja: Tivemos 154 óbitos para cada 1000 habi- tantes. eXercício 3.4 1. Considere a série estatística: a) Complete-a com uma coluna de taxas percentuais. b) Como se distribuem as receitas em re- lação ao total? c) Qual o desenvolvimento das receitas de um mês para o outro? d) Qual o desenvolvimento das receitas em relação ao mês de janeiro? 3. Um professor preencheu um quadro, en- viado pela D.E, com os seguintes dados: Séries Alunos Matriculados % 1a 546 2a 328 3a 280 4a 120 Total 1274 Fonte: Dados Fictícios Meses Valor (US$ milhões) % janeiro 33,3 fevereiro 54,1 março 44,5 abril 52,9 Total 184,8 Fonte: Dados Fictícios Calcule: a) A taxa de evasão, por classe; b) A taxa de evasão total; c) A taxa de aprovação, por classe; d) A taxa de aprovação geral; e) A taxa de recuperação, por classe; f) A taxa de recuperação geral: g) A taxa de reprovação na recuperação geral; h) A taxa de aprovação, sem recuperação; i) A taxa de retidos, sem recuperação. 4. Cosiderando que em uma região temos os seguintes dados: População = 1784327 habitantes Superfície = 137420 Km2 Nascimentos em 1 ano = 42327 nascidos vivos Mortes em 1 ano = 16230 óbitos Calcular: a) Coeficiente de natalidade e taxa de na- talidade (por 1.000 hab.) b) Coeficiente de mortalidade e taxa de mortalidade (por 10.000 hab.) c) Índice de densidade demográfica. 5. Uma cidade de 320000 habitantes apre- senta uma taxa de natalidade de 3,2% ao ano e uma taxa de mortalidade de 27% ao ano. Calcular o aumento da população em um ano. 6. Uma entidade assistencial em 1998 aten- dia 500 internos com uma verba de R$ 200.000,00. Em 2003, os internos au- mentaram em 20%, enquanto que a verba aumentou 50%. Sabendo-se que o custo Série e Turma 1OB 1OC 1OE 1OF Total No de Alunos 30/03 49 49 47 47 192 No de Alunos 30/11 44 42 35 40 161 Promovidos sem recuperação 35 42 27 33 137 Retidos sem recuperação 03 00 00 06 09 Em recuperação 06 00 08 01 15 Recuperados 05 00 03 00 08 Não recuperados 01 00 05 01 07 Total Geral Promovidos 40 42 30 33 145 retidos 04 00 05 07 16 Complete-a, determinado as percentagens com uma casa decimal e fazendo a com- pensação (arredondamento), se necessá- rio. Exemplos: a) 32,4823% fica 32,5; b) 12,237% fica 12,2%; c) 6,971% fica 7,0%; d) 8,3452% fica 8,3%. 2. Considere a tabela abaixo: Evolução das receitas do Café industrializa- do de Janeiro até Abril do ano de 2002 c a p ít u lo 3 26 de vida, pela desvalorização da moeda, aumentous em 40% no mesmo período, indaga-se se a situação financeira da enti- dade, por interno atendido, melhorou ou piorou? 7. Em uma empresa que possui 250 operá- rios, trabalhando durante 60 dias de 8 ho- ras cada um, verificaram-se 32 acidentes de trabalho, ocasionando uma perda de 146 horas. Calcular a taxa de frequência e de gravidade de acidente do trabalho. reFerência CRESPO, Antônio Arnot. Estatística Fácil. 17a edição, São PAulo, SP; Ed. Saraiva, 1999. MARTINS, G. A., Dornaire, D. Princípio de Es- tatística. 4a edição. São PAulo, SP; Ed. Atlas, 1990. NAZARETH, Helenalda. Curso Básico de Estatís- tica. 12a edição. São Paulo, SP; Ed. Ática, 2000. SPIEGEL, MR. Estatística. 2a edição. São PAulo, SP; Ed. Mcgranw Hill, 1985. c a p ít u lo 4 27 distriBuição de Frequência oBJetiVos esPecíFicos • Conhecer os elementos constituintes de uma tabela de frequência; • Interpretar e construir tabelas de frequência; • Compreender e construir o gráfico de fre- quência (histograma e gráfico de frequên- cia acumulada); • Entender o gráfico como uma das formas de melhor interpretar os dados tabelados numa pesquisa em que a frequência é relevante. introdução A análise estatística se inicia quando um con- junto de dados torna-se disponível de acordo com a definição do problema da pesquisa. Um conjunto de dados, seja de uma população ou de uma amostra, contém, muitas vezes, um número muito grande de valores. Além disso, esses valores, na sua forma bruta, encontram- se muito desorganizados. Eles variam de um valor para outro, sem qualquer ordem ou pa- drão. Os dados precisam, então, ser organiza- dos e apresentados em uma forma sistemática e seqüencial por meio de uma tabela ou gráfi- co. Quando fazemos isso, as propriedades dos dados tornam-se mais aparentes e tornamo- nos capazes de determinar os métodos esta- tísticos mais apropriados para serem aplicados no seu estudo. prof. Ernani Martins dos Santos | carga horária: 10 horas c a p ít u lo 4 28 Suponhamos o seguinte conjunto de dados: Podemos também calcular as frequências acu- muladas. Nesse caso, existem as frequências absolutas acumuladas e as frequências relati- vas acumuladas.1 14 12 13 11 12 13 16 14 14 15 17 14 11 13 14 15 13 12 14 13 14 13 15 16 12 12 Para montarmos uma distribuição de frequ- ências desses dados, verificamos quais são os valores não repetidos que existem e, em uma primeira coluna de uma tabela, colocamos es- ses valores e, na segunda coluna, o número de repetições de cada um desses valores.Para o exemplo acima, a distribuição de frequências será: Variável Frequência 11 2 12 5 13 6 14 7 15 3 16 2 17 1 A frequência de uma observação é o número de repetições dessa observação no conjunto de observações. A distribuição de frequência é uma função formada por pares de valores, sendo que o primeiro é o valor da observação (ou valor da variável) e o segundo, o número de repetições desse valor. 1. Frequências relatiVas e acumuladas Para o exemplo acima, também podemos cal- cular a frequência relativa referente a cada va- lor observado da variável. A frequência relativa é o valor da frequência absoluta dividido pelo número total de observações. Variável Frequência absoluta Frequência relativa 11 2 2/26 = 0,0769 12 5 5/26 = 0,1923 13 6 6/26 = 0,2308 14 7 7/26 = 0,2692 15 3 3/26 = 0,1154 16 2 2/26 = 0,0769 17 1 1/26 = 0,0385 TOTAL 26 1,0000 1 Observe que os valores da última coluna (frequência relativa acumulada) podem ser calculados de duas maneiras. Na primeira, tal como é feito na tabela a seguir, dividimos o valor da frequência absoluta acumulada pelo total de observações. Na segunda maneira, acumulamos o valor da frequência relativa. Este último método pode levar a acúmulos de erros, de forma que o último valor de frequência relativa acumulado se distancie consideravelmente de 1. Variável Frequência absoluta Frequência relativa Frequência absoluta acumulada Frequência relativa acumulada 11 2 2/26 = 0,0769 2 2/26 = 0,0769 12 5 5/26 = 0,1923 7 7/26 = 0,2692 13 6 6/26 = 0,2308 13 13/26 = 0,5000 14 7 7/26 = 0,2692 20 20/26 = 0,7692 15 3 3/26 = 0,1154 23 23/26 = 0,8846 16 2 2/26 = 0,0769 25 25/26 = 0,9615 17 1 1/26 = 0,0385 26 26/26 = 1,0000 TOTAL 26 1,0000 2. Histogramas Histograma é uma representação gráfica de uma tabela de distribuição de frequências. Desenhamos um par de eixos cartesianos, e, no eixo horizontal (abscissas) colocamos os va- lores da variável em estudo e no eixo vertical (ordenadas), colocamos os valores das frequ- ências. O histograma tanto pode ser represen- tado para as frequências absolutas como para as frequências relativas. No caso do exemplo anterior, o histograma seria: c a p ít u lo 4 29 Histograma de frequência acumulada (ou ogiva) é a representação gráfica do comportamento da frequência acumulada. Na figura abaixo, a ogiva é mostrada em sobreposição ao histograma. 3. taBulação de Frequência e Histograma Para VariáVeis contínuas Até agora, vimos como são calculadas as fre- quências (relativas e acumuladas) para variá- veis quantitativas discretas. Nesse caso, a ta- bulação dos resultados é mais simples. Mas, quando tratamos de variáveis quantitativas contínuas, os valores observados devem ser ta- bulados em intervalos de classes. Para a deter- minação dessas classes, não existe uma regra pré-estabelecida, sendo necessário um pouco de tentativa e erro para a solução mais ade- quada. Suponhamos que as safras agrícolas de um determinado produto, em uma determina- da região, sejam dadas pela tabela a seguir: Ano Safra (1000 t) Ano Safra (1000 t) 1 280 10 365 2 305 11 280 3 320 12 375 4 330 13 380 5 310 14 400 6 340 15 371 7 310 16 390 8 340 17 400 9 369 18 370 Devem ser seguidos alguns passos para a tabu- lação de frequências de dados que se referem a uma variável quantitativa contínua, como é o caso do nosso exemplo. c a p ít u lo 4 30 1. Definir o número de classes. O número de classes não deve ser muito baixo nem mui- to alto. Um número de classes pequeno gera amplitudes de classes grandes, o que pode causar distorções na visualização do histograma. Um número de classes grande gera amplitude de classes muito reduzidas. Foram definidas regras práticas para a de- terminação do número de classes, sendo que este deve variar entre 5 e 20 (5 para um número muito reduzido de observa- ções e 20 para um número muito elevado). Se n representa o número de observações (na amostra ou na população, conforme for o caso), o número aproximado de clas- ses pode ser calculado por Número de Classes = , arredondando os resultados. No caso do exemplo anterior, temos n = e podemos adotar um número de 5 classes que será razoável. 2. Calcular a amplitude das classes. Essa será obtida, conhecendo-se o número de clas- ses e amplitude total dos dados. A am- plitude total dos dados é o resultado da subtração valor máximo - valor mínimo da série de dados. A amplitude de classe será: do limite de classe, deve-se estabelecer um critério de inclusão. Para evitar esse tipo de dificuldade, normalmente se estabelece que o limite superior de cada classe é aber- to (e conseqüentemente, o limite inferior de cada classe é fechado), ou seja, cada intervalo de classe não inclui o valor de seu limite superior, com exceção da última classe. 4. Tabular os dados por classe de frequência. A partir da listagem de dados, seleciona-se para cada um deles qual é a sua classe de frequência e acumula-se o total de frequ- ência de cada classe. De acordo com nosso exemplo, teremos: Classe Limite Inferior Limite Superior 1 280 310 2 310 340 3 340 370 4 370 400 5 400 430 3. Preparar a tabela de seleção com os limites de cada classe. Na tabela abaixo, apresen- tamos para os dados do nosso exemplo os limites inferior e superior de cada uma das 5 classes de frequência. Classe Frequência Absoluta Simples Frequência Relativa Simples 280 - 310 3 0,12 (12 %) 310 - 340 4 0,16 (16 %) 340 - 370 6 0,24 (24 %) 370 - 400 7 0,28 (28 %) 400 - 430 5 0,20 (20%) Total 25 1,00 (100 %) Veremos adiante, quando discutirmos as medi- das de posição (medidas de tendência central) e de dispersão, que, quando agrupamos dados numéricos em intervalos de classe, ocorre per- da de informação, o que leva a resultados não tão precisos que aqueles que seriam obtidos a partir dos dados originais sem agrupamento. eXercícios 1. Conhecidas as notas de 50 candidatos após uma avaliação para concurso de Pro- fessor na área de Biologia: 84 68 33 52 47 73 68 61 73 77 74 71 81 91 65 55 57 35 85 88 59 80 41 50 53 65 76 85 73 60 67 41 78 56 94 35 45 55 64 74 65 94 66 48 39 69 89 98 42 54 Obtenha a distribuição de frequência, ten- do 30 para limite inferior da primeira clas- se e 10 para intervalo de classe. Amplitude de classe = Valor Máximo - Valor Mínimo número de classes Em geral, o valor do resultado é também arredondado para um número inteiro mais adequado. No nosso exemplo, temos: Amplitude de classe = 430 - 280 = 30 5 Observa-se, na tabela acima, que o limite superior de cada classe coincide com o li- mite inferior da classe seguinte. Prevendo- se que pode ocorrer que o valor de uma observação seja exatamente igual ao valor c a p ít u lo 4 31 2. ARAÚJO e HOSSNE, ao pesquisarem a pres- são arterial, em milímetros de mercúrio, de cães adultos anestesiados e após laparato- mia, encontraram os seguintes dados: 130; 107,5; 135; 100; 134,5; 121,5; 107,5; 105; 125; 130; 145; 158,5; 135; 140; 120; 100; 135; 125; 110; 102; 121,5; 111,5; 107,5; 127,5; 104,5; 102,5; 119,5; 107,5; 99; 120; 90,5; 101,5; 90,5; 115,5; 113; 116; 143; 104,5; 102,5; 107,5; 125,5; 93; 82,5; 115; 136; 101,5; 124; 117,5; 103,5. De posse desses dados, construa uma ta- bela de distribuição de frequência. 3. Faça um histograma e um polígono de fre- quências para apresentar as informações da tabela seguinte. • http://www.unb.br/ib/cfs/cg/Apostila%20I/ introducao.doc Esse material da UNB é um curso de Bio- estatística com linguagem voltada para a área de Saúde e Biometria. Contém tópicos desde os conceitos básicos até os conte- údos mais avançados, incluindo exemplo e citações de bibliografia importantes. In- teressante para os estudantes que preten- dem aprofundar seus conhecimentos. reFerência MILONE,G. e ANGELINI, F. Estatística Geral. SP: Atlas, 1993. Este livro é dirigido, em sua especificidade à Estatística. O seu forte é uma linguagem clara dos conceitos trabalhados em Estatística. CRESPO, A. A. Estatística Fácil. 17ª. Edição. SP: Saraiva, 1999. Apesar de técnico, este livro trabalha uma lin- guagem bem didática para todos aqueles que necessitam de domínio no trabalho com a Es- tatística. Apresenta exemplos e exercícios bem interessantes. VIEIRA, S. Introdução à Bioestatística. 3ª. Edi- ção. SP: Campus, 1980. Um livro que pode ser consultado por você no estudo deste capítulo e durante o referido curso. Cães adultos anestesiados e após laparotomia, segundo a pressão arterial, em milímetros de mercúrio. Classe Ponto médio Frequência 80 |--- 90 85 1 90 |---100 95 4 100 |---110 105 16 110 |---120 115 8 120 |---130 125 9 130 |---140 135 7 140 |---150 145 3 150 |---160 155 1 Sites nos quais o aluno pode buscar textos complementares, exercícios e aprofundar o es- tudo dos temas abordados. • http://www.ufpa.br/dicas/biome/bioni.htm Nesse material da Universidade Federal do Pará, o estudante encontra dicas e notas interessantes para todo estudo da bioes- tatística, contendo inclusive, abordagem sobre o tema deste capítulo. • http://www.ai.com.br/pessoal/indices/2A3. HTM Esse site contém material completo para um curso de estatística. Conceitos, exem- plos, exercícios, biblioteca virtual da área, inclusive glossário dos temas abordados e calculadora on-line. Bastante interessante para o estudante se aprofundar e exercitar o tema deste capítulo. c a p ít u lo 5 33 medidas de tendência central e medidas de disPersão oBJetiVos esPecíFicos • Compreender o significado de medidas de posição ou de tendência central; • Trabalhar estas medidas de posição em situações-problema; • Conhecer a utilidade, vantagens e desvan- tagens dessas medidas; • Definir o objetivo das medidas de dispersão; • Explicar o que são medidas de dispersão e como elas podem ser usadas; • Identificar as vantagens importantes de cada medida de dispersão. introdução Em estatística, é comum analisarmos as ten- dências que uma pesquisa revela. Para isso, realizamos algumas medidas estatísticas. Quando temos um conjunto de dados, pode- mos identificar alguns de seus elementos, cuja tendência é se posicionar em torno de valores centrais desse conjunto. Por meio desses ele- mentos, podemos analisar e interpretar dados. Cada um desses elementos apresenta vanta- gens e desvantagens, e a escolha de um ou de outro vai depender do conjunto de dados e dos fins desejados. prof. Ernani Martins dos Santos | carga horária: 20 horas c a p ít u lo 5 34 As medidas de tendência central mais utiliza- das são a moda, a mediana e a média (aritmé- tica e ponderada). moda (mo) Moda de um conjunto de valores é o elemento que ocorre mais freqüentemente, dentro des- se conjunto. A moda pode ser calculada para qualquer tipo de variável. Sua função é possi- bilitar a percepção de uma forte tendência, de uma preferência ou de uma rejeição evidente. Exemplo: Em uma pesquisa para se saber o tipo sangüí- neo de uma certa população, obtiveram-se os seguintes dados: 547 tipo O; 441 tipo A; 123 tipo B; e 25 tipo AB. Neste caso, a moda é o tipo O. mediana (me) Mediana de um conjunto finito de valores, dis- postos em ordem crescente ou decrescente de grandeza, é o valor central, se o conjunto tiver um número ímpar de elementos ou a média aritmética dos dois valores centrais, se o con- junto tiver um número par de elementos. Exemplos: 1ª situação (número de termos ímpar) - Ao pes- quisar o desenvolvimento da altura em atletas que praticam basquetebol, encontramos as se- guintes medidas em centímetros: 2,07 ; 2,01; 1,85; 1,85; 1,98; 1,95; 1,98; 2,07; 2,07; 2,10; 2,13; 2,01; 2,18; 1,98; 2,07. Para encontrarmos a mediana, colocamos em ordem crescente ou decrescente e tomamos o termo central. 1,85 1,85 1,95 1,98 1,98 1,98 2,01 2,01 2,07 2,07 2,07 2,07 2,10 2,13 2,18 Neste caso, a mediana é 2,01. 2ª situação (número de termos par) - Ao pes- quisar o desenvolvimento da altura em atletas que praticam basquetebol, encontramos as se- guintes medidas em centímetros: 2,07 ; 2,01; 1,85; 1,85; 1,98; 1,95; 1,98; 2,07; 2,07; 2,10; 2,13; 2,01; 2,18; 1,98; 2,07; 2,04. Para encontrarmos a mediana, colocamos em ordem crescente ou decrescente e tomamos os termos centrais, obtendo a média aritmética deles. 1,85 1,85 1,95 1,98 1,98 1,98 2,01 2,01 2,04 2,07 2,07 2,07 2,07 2,10 2,13 2,18 Neste caso, a mediana é 2,01 + 2,04 = 2,025 2 A mediana pode ser calculada para variáveis qualitativas ordenáveis e para variáveis quan- titativas. Uma das funções mais importantes da mediana é auxiliar a entender a razão pela qual a média sofre variações acentuadas. Isso porque uma discrepância na mediana interfere na média, fazendo com que ela aumente ou diminua muito. média aritmética ( X ) A média pode ser calculada apenas, se a va- riável envolvida na pesquisa for quantitativa. Utilizamos a média para observar o valor em torno do qual os dados se distribuem. Ela é tanto mais representativa quanto menor for a variação dos dados. Para obtermos a média aritmética de um con- junto de dados numéricos, dividimos o so- matório de todos os termos e dividimos pelo quantitativo dos termos. Exemplo: Em determinada pesquisa com ratos machos da raça Wistar, foi verificado o peso deles em gramas ao 30º dia de nascido, obtendo os se- guintes valores: 50; 62; 70; 86; 60; 64; 66; 77; 58; 55; 82; e 74. Assim, para obtermos a mé- dia aritmética, procedemos da seguinte forma: X=50+62+70+86+60+64+66+77+58+55+82+74= 804=67 12 12 Observação: A média aritmética é usada como medida de tendência central, ou seja, como forma de, por meio de um único número, dar uma idéia das características de determinado grupo de números. No entanto, é importante ressaltar que, em algumas situações, a presen- ça de um valor bem maior ou bem menor que as demais faz com que a média aritmética não c a p ít u lo 5 35 consiga traçar o perfil correto do grupo. Con- sideremos, por exemplo, um grupo de pessoas com idades 2, 3, 2, 1, 2 e 50 anos. A média de idade, que é 10 anos, não demonstra as ca- racterísticas desse grupo em termos de idade. média aritmética Ponderada Essa média é utilizada para representar classes, como é o caso da distribuição de frequência. Tal média é obtida através do somatório dos produtos de cada termo pelas referidas frequ- ências e dividido pelo total da frequência. Exemplo: 107,5; 125,5; 93; 82,5; 115; 136; 101,5; 124; 117,5; 103,5. Determine a moda, a mediana e a média aritmética da pressão arterial, com os da- dos citados acima. 2. Determine a média aritmética ponderada das pressões arteriais, em milímetros de mercúrio, representados na tabela a seguir. Nascidos vivos, segundo o peso ao nascer, em quilogramas Classe Ponto médio Frequência 1,5 |--- 2,0 1,75 3 2,0 |---2,5 2,25 16 2,5 |---3,0 2,75 31 3,0 |---3,5 3,25 34 3,5 |---4,0 3,75 11 4,0 |---4,5 4,25 4 4,5 |---5,0 4,75 1 O número de nascidos vivos em nossa amostra é n = 3 + 16 + 31 + 34 + 11 + 4 + 1 = 100 Para obter a média dos pesos ao nascer dos nascidos vivos da amostra, multiplica-se o ponto médio de cada classe pela respectiva frequência, somam-se os produtos e divide-se a soma por n. Então a média é: Cães adultos anestesiados e após laparotomia, segun- do a pressão arterial, em milímetros de mercúrio. Classe Ponto médio Frequência 80 |--- 90 85 1 90 |---100 95 4 100 |---110 105 16 110 |---120 115 8 120 |---130 125 9 130 |---140 135 7 140 |---150 145 3 150 |---160 155 1 3. As notas de um candidato,em seis pro- vas de um concurso, foram: 8,4; 9,1; 7,2; 6,8; 8,7; e 7,2. Determine: A nota média, a nota mediana e a nota modal. medidas de disPersão Para uma amostra As medidas de tendência centrais, vistas ante- riormente, são a abscissa do ponto em torno do qual os dados se distribuem, sendo mais apropriadas quanto menor for a dispersão dos dados, em que a dispersão é o des- locamento de dados em relação às médias. Para compreendermos melhor o que é dis- persão, imagine quatro cobaias humanas em pesquisa para teste de quatro substâncias de emagrecimento, levando-se em consideração o emagrecimento mensal por quilograma e a média de emagrecimento mensal. Cobaia Emagrecimento mensal Média mensal A 5 5 5 5 5 5 B 5 3 5 6 6 5 C 10 5 5 5 0 5 D 10 10 5 0 0 5 X =1,75 x 3+2,25 x 16+2,75 x 31+3,25 x 34+3,75 x 11+4,25 x 4+4,75 x 1=300=3 100 100 eXercícios 1. ARAÚJO e HOSSNE, ao pesquisarem a pressão arterial, em milímetros de mercú- rio, de cães adultos anestesiados e após laparatomia, encontraram os seguin- tes dados: 130; 107,5; 135; 100; 134,5; 121,5; 107,5; 105; 125; 130; 145; 158,5; 135; 140; 120; 100; 135; 125; 110; 102; 121,5; 111,5; 107,5; 127,5; 104,5; 102,5; 119,5; 107,5; 99; 120; 90,5; 101,5; 90,5; 115,5; 113; 116; 143; 104,5; 102,5; c a p ít u lo 5 36 Todos tiveram média de emagrecimento men- sal de 5 kg, mas a dispersão em torno da mé- dia não é a mesma para todas as cobaias. A tabela anterior nos mostra que: a) O emagrecimento da cobaia A não possui variação mensal (dispersão nula). b) A dispersão mensal de emagrecimento da cobaia B é menor que da cobaia C. c) O processo de emagrecimento da cobaia D possui uma maior variação que todas as outras. Para observarmos esse processo, utilizamos as seguintes medidas de dispersão: amplitude, variância e desvio-padrão. amPlitude Amplitude é a diferença entre o maior e o me- nor dado observado. Amplitude da cobaia A: 5 – 5 = 0 Amplitude da cobaia B: 6 – 3 = 3 Amplitude da cobaia C: 10 – 0 = 10 Amplitude da cobaia D: 10 – 0 = 10 A amplitude não mede bem a dispersão dos dados, porque em seu cálculo, se utilizam, apenas, os extremos (valores) dos dados e não, todos os dados. Variância Os dados de uma amostra se distribuem em torno da média. Então o grau de dispersão de um conjunto de dados pode ser medido pelo desvio em relação à média, sendo esse desvio a diferença entre cada dado e a média do conjunto. Como cada dado possui um desvio em relação à média, para termos o grau de dispersão de uma amostra, é preciso observar todos os des- vios. O conjunto desses desvios mostra o grau de dispersão dos dados em torno da média. Exemplo: Considerando os dados da cobaia B, temos: Média = 5 + 3 + 5 + 6 + 6 = 25 = 5 5 5 Os desvios são os seguintes: 5 – 5 = 0 3 – 5 = - 2 5 – 5 = 0 6 – 5 = 1 6 – 5 = 1 Qualquer que seja o conjunto de dados, a soma dos desvios é sempre igual a zero, por- que os valores positivos e negativos se anulam. Então, para medir a dispersão dos dados em torna da média, os estatísticos usam a soma dos quadrados dos desvios. Para medir a dispersão dos dados em torno da média, usa-se, então, a variância, que leva em consideração o tamanho da amostra. A variân- cia que é representada por s2 pode ser defini- da pela fórmula: ∑ x2 - ∑ (x)2 S2 = n n – 1 Tomemos como exemplo os dados da cobaia B. 131 - ( 25 )2 s2 = 5 5 - 1 131- 625 s2 = 5 4 Cálculo da soma de quadrados dos desvios Dados (x) Desvios (x – x) Quadrado dos desvios (x – x)2 5 0 0 3 -2 4 5 0 0 6 1 1 6 1 1 x=5 ∑(x – x) = 0 ∑(x – x)2 = 6 c a p ít u lo 5 37 s2 = 131 - 125 4 s2 = 6 = 1,5 4 desVio-Padrão Como medida de dispersão, a variância tem a desvantagem de apresentar unidade de medi- da igual ao quadrado da unidade de medida dos dados. Por esse motivo, surgiu o desvio- padrão, definido como a raiz quadrada da va- riância, com sinal positivo, representado por s. Como exemplo, podemos tomar os dados da cobaia B. S = √ 1,5 S ~ 1,224 coeFiciente de Variação O coeficiente de variação é a razão entre o des- vio-padrão e a média. O resultado é multiplica- do por 100, para que o coeficiente de variação seja dado em porcentagem. Levando em con- sideração o exemplo da cobaia B, teremos: CV = s x 100 x CV = 1,224 x 100 5 CV = 0,2248 x 100 CV = 22,48 % eXercícios 1. O comitê de esportes de uma cidade ne- cessita selecionar uma equipe para uma competição. O coordenador tem dúvidas sobre o atleta que deve representar a ci- dade nos 400 metros rasos. Ele resolveu analisar as marcas de dois atletas nas últi- mas competições e organizou as informa- ções com os tempos dados em décimos de segundos: Atleta A : 464; 467; 469; 474; 476 Atleta B: 467; 469; 472; 473 a) Calcule a média e a mediana das mar- cas de cada atleta. A partir desses dados, que conselhos você daria ao coordenador para a escolha de um deles? b) Qual dos atletas tem maior chance de conseguir uma boa marca na competição? c) A média é suficiente para apreciar as diferenças entre os atletas? d) Qual a diferença entre a melhor e a pior marca do atleta A? E do atleta B? e) A amplitude das marcas de cada um pode auxiliar a tomada de decisão do co- ordenador? Por quê? 2. Considere as notas de quatro alunos em quatro testes, sabendo que 20 é a nota máxima em cada teste: Aluno T1 T2 T3 T4 A 10 10 10 10 B 8 12 8 12 C 0 8 12 20 D 0 0 20 20 a) Calcule a média que cada um deles obteve. b) Calcule a amplitude, a variância e o des- vio-padrão das notas de cada um deles. c) Comparando os valores obtidos, o que você conclui? 3. Numa turma de 18 estudantes, os acertos de cada uma das 8 alunas em um teste de Biologia foram os seguintes: 2 6 10 10 14 16 18 20 a) Calcule a média e o desvio-padrão dessa distribuição; b) A nota dos 10 alunos dessa turma na mesma prova constitui uma distribuição com a mesma média e com desvio-padrão 2. Que comparação pode-se fazer entre as duas distribuições? c a p ít u lo 5 38 4. Ao pesquisar os “pesos” de seus alunos de 5ª série, um professor obteve os seguintes resultados: 38 40 45 42 45 40 43 38 45 45 40 41 41 38 46 32 48 46 42 43 44 50 38 40 a) Organize esses dados numa tabela de classes de amplitude 4 kg. b) Qual é a média e a variância dessa dis- tribuição? c) Qual é o desvio-padrão? correlação Freqüentemente procura-se verificar se existe relação entre duas ou mais variáveis. O peso pode estar relacionado com a idade das pes- soas; o consumo das famílias pode estar re- lacionado com sua renda, as vendas de uma empresa, e os gastos promocionais podem relacionar-se bem como a demanda de um de- terminado produto e seu preço. A verificação da existência e do grau de relação entre variá- veis é objeto do estudo da correlação. Uma vez caracterizada, procura-se descrever uma relação sob forma matemática, através de uma função. A estimativa dos parâmetros des- sa função matemática é o objeto da regressão. correlação linear Se um sistema de coordenadas retangulares mostra a localização dos pontos (x,y) e se, to- dos os pontos desse diagrama parecem cair nas proximidades de uma reta, tem-se uma correlação denominada linear. Pelo fato de possuirmos uma correlação linear, temos, então, uma função de 1º grau do tipo Y = aX + b, onde X é a variável independen- te, e Y, a variável dependente, sendo uma cor- relação positiva, quando Y tendea aumentar, quando o X cresce, e negativa, quando Y ten- de a diminuir, quando X aumenta. diagramas de disPersão Comprimento Peso Comprimento Peso 104 23,5 98 15 107 22,7 95 14,9 103 21,1 92 15,1 105 21,5 104 22,2 100 17 94 13,6 104 28,5 99 16,1 108 19 98 18 91 14,5 98 16 102 19 104 20 99 19,5 100 18,3 Correlação linear positiva Correlação linear negativa Nenhuma correlação Exemplos: 1. Comprimento em centímetros e peso, em quilograma, de cães. c a p ít u lo 5 39 Representação em diagrama de dispersão. coeFiciente de correlação Existe uma medida para o grau de correlação entre duas variáveis. O instrumento de medi- da, no caso da correlação linear, é dado pelo coeficiente de Pearson, que se representa por r e é definido pela fórmula: 2. Consumo individual diário de proteína de origem animal, em gramas, e coeficiente de natali- dade, em 10 países. País Consumo individual diário de proteínas Coeficiente de natalidade Formosa 4,7 45,6 Malásia 7,5 39,7 Índia 8,7 33 Japão 9,7 27 Iugoslávia 11,2 25,9 Grécia 15,2 23,5 Itália 15,2 23,4 Bulgária 16,8 22,2 Alemanha 37,3 20 Irlanda 46,7 19,1 ∑xy - (∑x) (∑y) r = n ∑x2 - (∑x)2 ∑y2 – (∑y)2 √ n n c a p ít u lo 5 40 Exemplos: 1. Calcular o coeficiente de correlação dos dados da tabela seguinte: Peso úmido Peso seco 6,7 2 7,7 2,2 6,5 2 7,4 2,2 6,1 1,9 7,4 2,3 X Y 1 7 2 4 3 4 4 3 5 1 X Y X.2 Y2 X.Y 1 1 1 1 1 2 2 4 4 4 3 4 9 19 12 4 5 16 25 20 5 8 25 64 40 15 20 55 110 77 X Y X.2 Y2 X.Y 1 7 1 49 7 2 4 4 16 8 3 4 9 16 12 4 3 16 9 12 5 1 25 1 5 15 19 55 91 44 Neste caso, temos uma correlação positiva, pois, ao aumentar o valor de X, Y tende a au- mentar. Assim, para a utilização da fórmula, fazem-se necessários os seguintes cálculos in- termediários: ∑xy - (∑x) (∑y) 77 - (15) (20) r = n = 5 ∑x2 - (∑x)2 ∑y2 - (∑y)2 55 - (15)2 110 - (20)2 √ n n √ 5 5 77 - 300 r = 5 = 77 - 60 55 - 225 110 - 400 √ 55 - 45 110 - 80 √ 5 5 r = 77 - 60 = 17 = 0,98 √ 10 30 √ 300 2. Dada a tabela ao lado, calcular o coeficien- te de correlação entre as variáveis X e Y. ∑xy - (∑x) (∑y) 44 - (15) (19) r = n = 5 ∑x2 - (∑x)2 ∑y2 - (∑y)2 55 - (15)2 91 - (19)2 √ n n √ 5 5 44 - 285 r = 5 = 44 - 57 55 - 225 91 - 361 √ (55 - 45) (91 - 72,5) √ 5 5 r = 44 - 57 = - 13 = - 0,95 √ 10 . 18,5 √ 185 O coeficiente de correlação varia entre –1 e +1, inclusive, isto é, -1 ≤ r ≤ +1. Se r as- sume o valor 1, diz-se que as duas variáveis têm correlação perfeita positiva e, se assume o valor de –1, diz-se que as duas variáveis têm correlação perfeita negativa. Se r assume o valor zero, não existe correlação entre as duas variáveis (a correlação é nula). eXercícios 1. Com os dados da tabela abaixo, que repre- senta o peso úmido e o peso seco, em gra- mas, de lóbulos hepáticos de ratos, calcule o coeficiente de correlação entre os dois pesos. X Y 1 1 2 2 3 4 4 5 5 8 Neste caso, temos uma correlação negativa, pois, ao aumentar o valor de X, Y tende a di- minuir. Assim, para a utilização da fórmula, fazem-se necessários os seguintes cálculos intermediários: 2. Calcule o coeficiente de correlação para os dados apresentados na tabela seguinte: Idade gestacional, em semanas, e peso ao nascer, em quilogramas de recém-nascidos. c a p ít u lo 5 41 3. Monte um diagrama de dispersão para as tabelas das questões anteriores. Idade gestacional Peso ao nascer 28 1,25 32 1,25 35 1,75 38 2,25 39 3,25 41 3,25 42 4,25 Idade Peso médio 3 14,6 4 16,3 5 17,8 6 19,8 7 21,6 8 23,8 9 26,3 10 28,4 11 30,9 12 34,2 13 38,7 14 43,4 15 49,7 16 52,7 17 57,3 18 58,1 19 59,4 regressão gráFico de linHas É possível observar a variação de uma variável em função da outra através do gráfico de linhas. Para fazer o gráfico de linhas, primeiro se traça o sistema de eixos cartesianos. Depois se represen- ta a variável explanatória no eixo das abscissas e a variável dependente no eixo das ordenadas. Finalmente, considerando a ordem crescente de X, unem-se os pontos por segmentos de retas. Exemplo: Peso médio, em quilogramas, de indivíduos de sexo masculino, segundo idade, no Dis- trito Federal c a p ít u lo 5 42 Quantidade de procaína hidrolisada, em 10 moles/litro, no plasma humano, em função do tempo decorrido após sua administração. reta de regressão Para expor a idéia de regressão, utilizaremos um exemplo apresentado na tabela seguinte, que trata da quantidade de procaína hidrolisada, em 10 moles/litro, no plasma humano, em função do tempo decorrido após sua administração. Perceba que os pontos estão praticamente so- bre uma reta. Logo, esta correlação pode ser descrita através de uma reta, que, em estatísti- ca, recebe o nome de reta de regressão. Para ajustar uma regressão linear simples (isto é, a equação da reta), é preciso obter os co- eficientes angular e linear da reta, sendo a reta determinada por uma função de primeiro grau, do tipo Y = aX + b, onde a é o coefi- ciente angular, e b, o coeficiente linear. O coeficiente angular – que dá a inclinação da reta – é obtido através da fórmula: Tempo (minutos) Quantidade hidrolisada 2 3,5 3 5,7 5 9,9 8 16,3 10 19,3 12 25,7 14 28,2 15 32,6 ∑xy - (∑x) (∑y) a = n ∑x2 (∑x)2 n O coeficiente linear – que é a ordenada do ponto onde a reta corta o eixo das ordenadas – é obtido através da fórmula: b = y – ax onde y e x são as médias de Y e X, respectiva- mente. Tomemos como exemplo o caso da quantida- de de procaína hidrolisada, em 10 moles/litro, no plasma humano, em função do tempo de- corrido após sua administração. c a p ít u lo 5 43 Cálculos intermediários para obtenção de a e b. Tempo (minutos) Quantidade hidrolisada 2 3,5 3 5,7 5 9,9 8 16,3 10 19,3 12 25,7 14 28,2 15 32,6 x Y xy x.x 2 3,5 70 4 3 5,7 17,1 9 5 9,9 49,5 25 8 16,3 130,4 64 10 19,3 193 100 12 25,7 308,4 144 14 28,2 394,8 196 15 32,6 498 225 69 141,2 1589,2 767 Os dois pares de valores (X=5 e Y=9,82) e (X=15 e Y = 31,42) permitem traçar a reta de regressão da correlação entre x e y. Tal reta permite calcular os valores de Y para quais- quer valores de X dentro do intervalo estuda- do, mesmo que esses valores não entrem na amostra. Aplicando a fórmula, obtém-se: ∑xy-(∑x)(∑y) 1589,2- 69 .141,2 1589,2- 9742,8 a = n = 8 = 8 ∑x2 - (∑x)2 767 - (69)2 767 - 4761 n 8 8 a = 1589,2 - 1217,85 = 371,35 = 2,16 767 - 595 171,85 b = 141,2 - 2,16 . 69 = - 0,98 8 8 Passando a ter a seguinte equação da reta: Y = 2,16X – 0,98 Para traçar uma reta de regressão, é preciso dar valores arbitrários para X e depois calcular os valores de Y, por exemplo: Para X = 5, temos: Y = 2,16 . 5 – 0,98 Y = 10,80 – 0,98 Y = 9,82 Para X = 15, temos: Y = 2,16 . 15 – 0,98 Y = 32,4 – 0,98Y = 31,42 eXercícios 1. Pesquise a altura e o peso de dez pesso- as da sua convivência. Monte uma tabela para o peso e outra para a altura dessas pessoas a partir de suas idades. 2. A partir da utilização da fórmula posta aci- ma, descubra a equação da reta de regres- são dos dados pesquisados. 3. Monte o gráfico de linha para cada equa- ção montada. Sites nos quais o aluno pode buscar textos complementares, exercícios e aprofundar o es- tudo dos temas abordados. • http://ltodi.est.ips.pt/sardinha/siteBIOEST/ index.htm Neste material, da Escola Superior de Saú- de, o estudante encontra dicas e notas in- teressantes para o estudo da bioestatística, com apontamentos, exercícios, indicação c a p ít u lo 5 44 de bibliografia, sugestões de avaliações e trabalhos práticos, contendo, inclusive, abordagem sobre o tema deste capítulo. • http://www.ai.com.br/pessoal/indices/2A3. HTM Este site contém material completo para todo um curso de estatística. Conceitos, exemplos, exercícios, biblioteca virtual da área, inclusive glossário dos temas abor- dados e calculadora on-line. Bastante inte- ressante para o estudante se aprofundar e exercitar o tema deste capítulo. • http://www.unb.br/ib/cfs/cg/Apostila%20I/ introducao.doc Este material da UNB é um curso de Bio- estatística, com linguagem voltada para a área de Saúde e Biometria. Contém tópicos desde os conceitos básicos até os conteú- dos mais avançados, incluindo exemplo e citando bibliografias importantes. Interes- sante para os estudantes que pretendem aprofundar seus conhecimentos. reFerências IEZZI, G. et al. Fundamentos da Matemática. Vol. 11. SP: Atual, 2004 . Este é um livro técnico, porém traz boas di- cas e exercícios para os temas abordados neste capítulo. Muito bom para os estudantes apro- fundarem seus conhecimentos. CRESPO, A. A. Estatística Fácil. 17ª. Edição. SP: Saraiva, 1999. Apesar de técnico, este livro trabalha uma lin- guagem bem didática para todos aqueles que necessitam de domínio no trabalho com a Es- tatística. Apresenta exemplos e exercícios bem interessantes. VIEIRA, S. Introdução à Bioestatística. 3ª. Edi- ção. SP: Campus, 1980. Um livro que pode ser consultado por você no estudo deste capítulo e durante o referido curso. PEREIRA, W. Estatística: Conceitos Básicos. 2ª. Edição. SP: MC Graw Hill, 1990. Esta obra ajuda o estudante a compreender melhor os conceitos abordados neste capítulo bem como se exercitar um pouco mais.