Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

<p>Universidade Regional Integrada do</p><p>Alto Uruguai e das Missões</p><p>Campus de Erechim</p><p>AAppoossttiillaa ddee EEssttaattííssttiiccaa</p><p>AApplliiccaaddaa àà CCoommppuuttaaççããoo</p><p>Versão 2008</p><p>Claodomir Antonio Martinazzo</p><p>Conteúdo Programático</p><p>1. Aspectos básicos da estatística (Pg. 03)</p><p>A estatística e a Informática</p><p>População e amostra</p><p>Estatística indutiva e descritiva</p><p>Variáveis (contínuas e discretas)</p><p>Arredondamento de dados</p><p>Softwares estatísticos</p><p>2. Séries Estatísticas....................... (Pg. 10)</p><p>Conceito</p><p>Classificação</p><p>Representação gráfica e aplicações</p><p>Distribuição de freqüências ................ (Pg 22)</p><p>Elementos principais</p><p>Organização de distribuição de freqüências</p><p>Representação gráfica: histograma, polígono</p><p>de freqüências, ogiva</p><p>3. Medidas de Tendência Central .... (Pg 25)</p><p>Conceito e aplicações</p><p>Média aritmética simples</p><p>Média aritmética ponderada</p><p>Média aritmética de dados agrupados em</p><p>classes</p><p>Mediana</p><p>Moda</p><p>4. Medida de Variação ou Dispersão(Pg 31)</p><p>Conceitos</p><p>Desvio médio</p><p>Variância ou quadrado médio</p><p>Desvio padrão</p><p>Coeficiente de Variação</p><p>5. Probabilidade............................... (Pg 41)</p><p>Adição de probabilidades</p><p>Multiplicação de probabilidades</p><p>6. Distribuição de Probabilidades .. ( Pg 53)</p><p>Distribuição binomial ......................... ( Pg 55)</p><p>Distribuição de Poisson ..................... ( Pg 56)</p><p>Distribuição uniforme ......................... ( Pg 58)</p><p>Distribuição Normal............................ ( Pg 60)</p><p>7. Técnicas de Amostragem ........... ( Pg 72)</p><p>Definições</p><p>Vantagens e desvantagens em relação ao</p><p>censo</p><p>Tipos de amostras</p><p>Parâmetros e estimativas</p><p>Erros comuns de amostragem</p><p>Determinação do tamanho da amostra</p><p>8. Inferência Estatística ….………… ( Pg 87)</p><p>Teoria da Estimação</p><p>Estimativas pontuais e intervalares</p><p>Propriedades dos estimadores</p><p>Estimação da média</p><p>Estimação da proporção</p><p>9. Teoria da Decisão .......…….…… ( Pg 100)</p><p>Teste para média</p><p>Teste para diferença entre médias</p><p>Teste de normalidade (Kolmogorov – Smir-</p><p>nov)</p><p>10. Correlação Linear ......…… ( Pg 116)</p><p>Coeficiente de correlação</p><p>Coeficiente de determinação</p><p>Regressão Linear</p><p>Equação de regressão</p><p>BIBLIOGRAFIA:</p><p>BERQUO, E. S. Bioestatística. São Paulo:</p><p>EPU, 1981.</p><p>BUNCHAFT, Guenia, KELLNER, Sheilah.</p><p>Estatística sem Mistérios. Petrópolis: Vozes,</p><p>Vol. II1, 1998.</p><p>BUSSAB, Wilton O. e MORETTIN, Pedro A.</p><p>Estatística Básica. 4. ed. Ed. Atual. São Pau-</p><p>lo: 1987.</p><p>CALLEGARI-JACQUES, S. M. Bioestatítica –</p><p>Princípios e Aplicações. ArtMed Editora. Porto</p><p>Alegre 2003.</p><p>CENTENO, A. J. Curso de Estatística Aplica-</p><p>da a Biologia. Goiânia: Ed. Da UFG, 1982.</p><p>GUIMARÃES, Rui Campos, CABRAL, J. A. S.</p><p>Estatística. Portugal: Mc Grow Hill, 1998.</p><p>LEVINE, David M. Estatística: Teoria e Apli-</p><p>cações com EXCEL. Ed. LTC. Rio de Janeiro:</p><p>1998.</p><p>SOUNIS, E. Bioestatística. 3 ed. Rio de Janei-</p><p>ro: Atheneu, 1985.</p><p>VIEIRA, Sonia. Introdução à Bioestatística. 5.</p><p>ed. Rio de Janeiro: Ed.Campus, 1998.</p><p>AVALIAÇÃO:</p><p>� Duas provas escritas, individuais, sem</p><p>consulta. Peso de cada prova: 5.</p><p>� Um trabalho programado (linguagem a</p><p>escolher) com peso 6.</p><p>� Um trabalho de gráficos com peso 4.</p><p>� Média = soma das quatro notas divi-</p><p>dido por 2.</p><p>Estatística Aplicada à Computação</p><p>3</p><p>Noções Elementares</p><p>1.0 Resumo histórico: 1</p><p>Todas as ciências têm suas raízes na histó-</p><p>ria do homem.</p><p>A Matemática, que é considerada “a ciên-</p><p>cia que une à clareza do raciocínio a síntese da</p><p>linguagem”, originou-se do convívio social, das</p><p>trocas, da contagem, com caráter prático, utilitário,</p><p>empírico.</p><p>A Estatística, ramo da Matemática Aplica-</p><p>da, teve origem semelhante.</p><p>Desde a Antigüidade, vários povos já re-</p><p>gistravam o número de habitantes, de nascimentos,</p><p>de óbitos, faziam estimativas das riquezas indivi-</p><p>dual e social, distribuíam eqüitativamente terras ao</p><p>povo, cobravam impostos e realizavam inquéritos</p><p>quantitativos por processos que, hoje, chamaría-</p><p>mos de “estatísticas”.</p><p>Na Idade Média colhiam-se informações,</p><p>geralmente com finalidades tributárias ou bélicas.</p><p>A partir do século XVI começaram a surgir</p><p>as primeiras análises sistemáticas de fatos sociais,</p><p>como batizados, casamentos, funerais, originando</p><p>as primeiras tábuas e tabelas e os primeiros núme-</p><p>ros relativos.</p><p>No século XVIII o estudo de tais fatos foi</p><p>adquirindo, aos poucos, feição verdadeiramente</p><p>científica. Godofredo Achenwall batizou a nova</p><p>ciência (ou método) com o nome de Estatística,</p><p>determinando o seu objetivo e suas relações com as</p><p>ciências.</p><p>As tabelas tornaram-se mais completas,</p><p>surgiram as representações gráficas e o cálculo das</p><p>probabilidades, e a Estatística deixou de ser sim-</p><p>ples catalogação de dados numéricos coletivos para</p><p>se tornar o estudo de como chegar a conclusões</p><p>sobre o todo (população), partindo da observa-</p><p>ção de partes desse todo (amostras).</p><p>Atualmente, o público leigo (leitor de jor-</p><p>nais e revistas) posiciona-se em dois extremos</p><p>divergentes e igualmente errôneos quanto à valida-</p><p>de das conclusões estatísticas: ou crê em sua infa-</p><p>libilidade ou afirma que elas nada provam. Os que</p><p>assim pensam ignoram os objetivos, o campo e o</p><p>rigor do método estatístico; ignoram a Estatística,</p><p>quer teórica quer prática, ou a conhecem muito</p><p>superficialmente.</p><p>Na era da energia nuclear, os estudos esta-</p><p>tísticos têm avançado rapidamente e, com seus</p><p>1 Baseado no livro Estatística Fácil de Antônio Arnot</p><p>Crespo.</p><p>processos e técnicas, têm contribuído para organi-</p><p>zação dos negócios e recursos do mundo moderno.</p><p>A evolução da Estatística seguiu os seguin-</p><p>tes períodos: 2</p><p>1º. REGISTRO DE FATOS: Registros de</p><p>interesse estatal, com finalidade guerreira ou soci-</p><p>al. (Estatística Administrativa).</p><p>2º. PREPARAÇÃO DAS TEORIAS: In-</p><p>vestigação dos fenômenos coletivos.</p><p>3º. APRIMORAMENTO TÉCNICO-</p><p>CIENTÍFICO: Aparecimento e desenvolvimento</p><p>de novas teorias, intercâmbio de idéias, ampliação</p><p>constante do uso da Estatística.</p><p>Para um maior aprofundamento sobre a</p><p>história da Estatística consulte o livro: AZEVEDO,</p><p>A. G., CAMPOS, P. H. B. Estatística Básica, 5.</p><p>ed. Rio de Janeiro, São Paulo: LTC, 1987.</p><p>1.1 Método</p><p>É um conjunto de meios dispostos conve-</p><p>nientemente para se chegar a um fim que se deseja.</p><p>Método científico:</p><p>Desde a Antigüidade o homem fez desco-</p><p>bertas que o levaram a desenvolver muitos dos</p><p>conhecimentos que hoje temos. Naquela época não</p><p>se aplicavam métodos, as descobertas eram feitas</p><p>por acaso ou necessidades práticas.</p><p>Atualmente, quase todo o acréscimo de</p><p>conhecimento se dá por aplicações de métodos de</p><p>observação e estudo. Mesmo que muito desse co-</p><p>nhecimento tenha sido adquirido por acaso, o seu</p><p>desenvolvimento se deu com base em métodos</p><p>muito bem estudados e caracterizados. Esses mé-</p><p>todos são chamados de métodos científicos.</p><p>Método experimental:</p><p>Este método consiste em manter constante</p><p>todas as causas (fatores), menos uma, e variar esta</p><p>causa de modo que o pesquisador possa descobrir</p><p>seus efeitos, caso existam.</p><p>É o método preferido no estuda da Física,</p><p>da Química etc.</p><p>2 AZEVEDO, A. G., CAMPOS, P. H. B. Estatística</p><p>Básica, 5. ed. Rio de Janeiro, São Paulo: LTC, 1987.</p><p>Estatística Aplicada à Computação</p><p>4</p><p>Método estatístico:</p><p>O método estatístico, diante da impossibi-</p><p>lidade de manter as causas constantes (em fenô-</p><p>menos sociais, por exemplo), admite todas as cau-</p><p>sas presentes variando-as, registrando essas varia-</p><p>ções e procurando determinar, no resultado final,</p><p>que influências cabem a cada uma delas.</p><p>1.2 Estatística</p><p>O objetivo da Estatística é estudar conjun-</p><p>tos para tirar parâmetros, que possibilitarão deci-</p><p>sões. Parâmetro é um elemento numérico usado</p><p>para caracterizar todo o conjunto. Assim, por e-</p><p>xemplo:</p><p>Um aluno presta várias</p><p>tabelados:</p><p>X 16 22 25 33 47 58 62</p><p>Fi 2 4 8 6 4 3 2</p><p>3.2. Moda (Mo)</p><p>Denominamos moda o valor que ocorre</p><p>com maior freqüência em uma série de valores.</p><p>Desse modo, o salário modal dos empre-</p><p>gados de uma indústria é o salário mais comum,</p><p>isto é, o salário recebido pelo maior número de</p><p>empregados dessa indústria.</p><p>Estatística Aplicada à Computação</p><p>28</p><p>3.2.1. Dados não-agrupados.</p><p>Quando lidamos com valores não-</p><p>agrupados, a moda é facilmente reconhecida: bas-</p><p>ta, de acordo com a definição, procurar o valor que</p><p>mais se repete. A série de dados:</p><p>7, 8, 9, 10, 10, 10, 11, 12, 13, 15</p><p>tem moda igual a 10.</p><p>Podemos, entretanto, encontrar séries nas</p><p>quais não exista valor modal, isto é, nas quais ne-</p><p>nhum valor apareça mais vezes que outros. É o</p><p>caso da série:</p><p>3, 5, 8, 10, 12, 13,</p><p>que não apresenta moda (amodal).</p><p>Em outros casos, ao contrário, pode haver</p><p>dois ou mais valores de concentração. Dizemos,</p><p>então, que a série tem dois ou mais valores mo-</p><p>dais. Na série:</p><p>2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9</p><p>temos duas modas: 4 e 7 (bimodal).</p><p>3.2.1. Dados Agrupados sem intervalo de</p><p>classe</p><p>Uma vez agrupados os dados, é possível</p><p>determinar imediatamente a moda: basta fixar o</p><p>valor da variável de maior freqüência. Na distribu-</p><p>ição a seguir à freqüência máxima (12) correspon-</p><p>de o valor 3 da variável.</p><p>Nº de meninos Fi</p><p>0 2</p><p>1 6</p><p>2 10</p><p>3 12</p><p>4 4</p><p>Σ =</p><p>34</p><p>Logo: Mo = 3</p><p>EMPREGO DA MODA</p><p>A moda é utilizada:</p><p>a) quando desejamos obter uma medida rápida e</p><p>aproximada de posição;</p><p>b) quando a medida de posição deve ser o valor</p><p>mais típico da distribuição.</p><p>3.3. Mediana</p><p>A mediana é outra medida de posição</p><p>definida como o número que se encontra no centro</p><p>de uma série de números, estando estes dispostos</p><p>segundo uma ordem. Em outras palavras, a media-</p><p>na de um conjunto de valores, ordenados segundo</p><p>uma ordem de grandeza, é o valor situado de tal</p><p>forma no conjunto que o separa em dois subcon-</p><p>juntos de mesmo número de elementos.</p><p>3.3.1. Mediana com Dados Não-Agrupados</p><p>Dada uma série de valores, como por</p><p>exemplo:</p><p>5, 13, 10, 2, 18, 15, 6, 16, 9,</p><p>de acordo com a definição de mediana, o primeiro</p><p>passo a ser dado é o da ordenação (crescente ou</p><p>decrescente) dos valores:</p><p>2, 5, 6, 9, 10, 13, 15, 16, 18</p><p>O valor central é o valor mediano. Por-</p><p>tanto Md = 10.</p><p>Se o número de elementos for par usa-</p><p>se a média aritmética dos termos da ordem</p><p>(n/2) e ((n/2) + 1).</p><p>2, 6, 7, 10, 12, 13, 18, 21</p><p>para n = 8 temos: 8/2 = 4 e (8+1)/2 = 5.</p><p>Logo, a mediana é a média aritmética do 4º e 5º</p><p>termos da série, isto é:</p><p>EMPREGO DA MEDIANA</p><p>Empregamos a mediana quando:</p><p>- desejamos obter o ponto que divide a distribuição</p><p>em partes iguais;</p><p>- há valores extremos que afetam de uma maneira</p><p>acentuada a média;</p><p>- a variável em estudo é salário.</p><p>11</p><p>2</p><p>22</p><p>2</p><p>1210</p><p>==</p><p>+</p><p>=Md</p><p>Estatística Aplicada à Computação</p><p>29</p><p>Relações entre Média,</p><p>Mediana e Moda</p><p>A média, por seu emprego mais gene-</p><p>ralizado, por sua maior divulgação, pela faci-</p><p>lidade de cálculo, tem levado ”vantagem” so-</p><p>bre as outras medidas de posição e ainda por-</p><p>que outras medidas usuais, que serão estuda-</p><p>das oportunamente, foram definidas a partir da</p><p>média aritmética.</p><p>Média, mediana e moda não se repe-</p><p>lem; complementam-se.</p><p>Sabemos que a média aritmética ”e-</p><p>quilibra” todos os resultados, isto é, quem a</p><p>calcula para uma série de notas de uma prova,</p><p>passa a admitir que cada aluno tenha tirado a</p><p>mesma nota igual à média.</p><p>Vimos que a moda é o valor mais</p><p>freqüente, aquele que se repete maior número</p><p>de vezes.</p><p>Entendemos que a mediana é o valor</p><p>que divide o conjunto ordenado em dois sub-</p><p>conjuntos com o mesmo número de elementos</p><p>cada um.</p><p>Quem confronta uma nota isolada de</p><p>um aluno com a nota mediana da prova apli-</p><p>cada, dirá a qual dos dois subconjuntos per-</p><p>tence essa nota, se entre 50% das notas dos</p><p>melhores alunos ou se entre os outros 50%.</p><p>Assim, a nota mediana tem maior expressão</p><p>para o confronto do que a nota média.</p><p>Um salário mediano é também mais signifi-</p><p>cativo para tais confrontos do que o salário médio.</p><p>Outro significativo parâmetro é a</p><p>idade mediana da vida humana, ou seja, aque-</p><p>la idade na qual metade do grupo sob observa-</p><p>ção ainda vive.</p><p>Fixemos, uma vez mais, os conceitos</p><p>de média, mediana e moda, observando as</p><p>seguintes notas obtidas por 10 alunos:</p><p>10,8,6,3,3, 5,3,4, 1, 7.</p><p>A média aritmética é</p><p>Todas as notas foram, somadas, sem</p><p>necessidade de ordenação. A média 5 é o pa-</p><p>râmetro que irá interpretar aquele conjunto, o</p><p>que fará ”nivelando” todos os alunos, pois</p><p>admitirá que cada aluno tenha tirado nota 5.</p><p>A moda é 3, por ser o valor mais fre-</p><p>qüente, aquele que apareceu maior número de</p><p>vezes. Diz esse parâmetro que a nota 3 foi</p><p>moda na prova, foi a nota mais comum, mais</p><p>vulgar (no sentido de ocorrer mais vezes).</p><p>A nota mediana, obtida após a orde-</p><p>nação do conjunto, é 5,4</p><p>2</p><p>54</p><p>=</p><p>+ ; ela significa a</p><p>bipartição do conjunto, de modo que a nota 5,</p><p>por exemplo, pertence ao subconjunto com</p><p>50% das notas mais elevadas, enquanto a nota</p><p>3 foi obtida por um aluno que está entre os</p><p>50% com as mais baixas notas.</p><p>Pelo exposto, constatamos a impossi-</p><p>bilidade de relacionar analiticamente as prin-</p><p>cipais medidas de posição (média, moda e</p><p>mediana).</p><p>Para curvas de freqüência unimodal mo-</p><p>deradamente desviadas (assimétricas), vigora a</p><p>relação empírica</p><p>Média – Moda = 3(Média – Media)</p><p>Nas figuras abaixo, aparecem as posições</p><p>relativas da média, da mediana e da moda para</p><p>curvas de freqüência desviadas para a direita e</p><p>para a esquerda, respectivamente. Para curvas</p><p>simétricas, a média, a moda e a mediana são todas</p><p>coincidentes.</p><p>3.4 – PERCENTIS.</p><p>Os percentis dividem os dados em 100</p><p>intervalos iguais. No caso podemos ter 99 percen-</p><p>tis. Por exemplo: O percentil 30 separa os dados</p><p>em duas partes. 30% deles abaixo do percentil 30 e</p><p>70 % acima do percentil 30.</p><p>Para fazermos o cálculo do percentil</p><p>usaremos uma função do BROFFICE com a se-</p><p>5</p><p>10</p><p>71435336810</p><p>=</p><p>+++++++++</p><p>=X</p><p>Estatística Aplicada à Computação</p><p>30</p><p>guinte notação: =PERCENTIL (matriz de dados;</p><p>número do percentil dividido por 100). Veja Ma-</p><p>nual do BROFFICE.</p><p>3.5 – QUARTIS</p><p>Os quartis dividem os dados em quatro</p><p>partes iguais. Podemos ter 3 quartis. Os quartis 1,</p><p>2 e 3.</p><p>Para fazermos o cálculo do percentil</p><p>usaremos uma função do BROFFICE com a se-</p><p>guinte notação: =QUARTIL (matriz de dados;</p><p>número do quartil). Veja Manual do BROFFICE.</p><p>ANÁLISE EXPLORATÓRIA DE DADOS</p><p>REGRA DOS CINCO ITENS</p><p>Já estudamos a apresentação de caule e</p><p>folha como uma técnica de análise exploratória de</p><p>dados. Vamos agora estudar a análise exploratória</p><p>de dados considerando as regras de cinco itens e a</p><p>plotagem de retângulos (BOX-PLOTS).</p><p>Em uma regra de cinco itens, os seguin-</p><p>tes cinco números são usados para sintetizar os</p><p>dados:</p><p>1. O menor valor</p><p>2. Primeiro Quartil (Q1)</p><p>3. Mediana</p><p>4. Terceiro Quartil (Q3)</p><p>5. O maior valor</p><p>O meio mais fácil de desenvolver a regra</p><p>de cinco itens é primeiro colocar os dados na or-</p><p>dem ascendente. Então é fácil identificar o menor</p><p>valor, os três quartis e o maior valor. Os salários</p><p>iniciais mensais mostrados a seguir para uma a-</p><p>mostra de 12 graduados da escola de Administra-</p><p>ção.</p><p>Plotagem de retângulos – BOX-PLOTS</p><p>A plotagem de retângulos é um sumário</p><p>gráfico dos dados que está baseado em uma regra</p><p>de cinco itens. A chave para desenvolver uma</p><p>plotagem de retângulos é o cálculo da mediana e</p><p>dos quartis Q1 e Q3. A amplitude interquartil, AIQ</p><p>= Q3 – Q1, é também usada. A construção deste</p><p>gráfico pode ser feito nas planilhas eletrônicas</p><p>EXCEL e BROFFICE. Veja o manual disponível</p><p>na internet ou na Central de Fotocópias. O impor-</p><p>tante é ter em mãos os seguintes dados: Q1, Q3,</p><p>Mediana, menor valor e maior valor.</p><p>Para calcular o menor valor e o maior va-</p><p>lor é necessário</p><p>calcular a Amplitude Interquartil.</p><p>AIQ = Q3 – Q1 = 2825 – 2210 = 135.</p><p>O menor valor será = Q1 – (1,5*AIQ) =</p><p>2365 – 1,5.135 = 2162,5 e o maior valor será = Q3</p><p>+ (1,5*AIQ) = 2500 + 1,5*135 = 2702,5. Os dados</p><p>fora destes limites são considerados pontos fora da</p><p>curva.</p><p>As linhas tracejadas são chamadas costele-</p><p>tas.</p><p>O gráfico a seguir foi feito no EXCEL.</p><p>2000</p><p>2100</p><p>2200</p><p>2300</p><p>2400</p><p>2500</p><p>2600</p><p>2700</p><p>2800</p><p>2900</p><p>S</p><p>al</p><p>ár</p><p>io</p><p>s</p><p>in</p><p>ic</p><p>ia</p><p>is</p><p>OBSERVAÇÃO: Não é possível colocar no gráfi-</p><p>co os pontos fora da curva (outliers). Somente os</p><p>softwares estatísticos podem inserir os outliers.</p><p>EXERCÍCIOS</p><p>1 – Determinar a média e a mediana dos conjuntos</p><p>de números:</p><p>a) 5, 4, 8, 7, 2, 9;</p><p>b) 18.3, 20.6, 19.3, 22.4, 20.2, 18.8, 19.7, 20.0</p><p>2 – Os tempos de reação de um indivíduo a deter-</p><p>minados estímulos foram medidos por um psico-</p><p>logista como sendo 0,53; 0,46; 0,50; 0,49; 0,52;</p><p>0,53; 0,44 e 0,55 segundos, respectivamente. De-</p><p>terminar o tempo médio e mediano de reação do</p><p>indivíduo a esses estímulos.</p><p>3 – A tabela mostra a distribuição, em toneladas,</p><p>das cargas máximas suportadas por certos cabos</p><p>fabricados por uma companhia. Determinar: a) a</p><p>média das cargas máximas; b) a mediana das car-</p><p>gas máximas dos cabos.</p><p>Estatística Aplicada à Computação</p><p>31</p><p>Carga</p><p>máxima (t)</p><p>Número</p><p>de cabos</p><p>(Fi)</p><p>Xi Fac fi</p><p>9,3 9,7 2</p><p>9,8 10,2 5</p><p>10,3 10,7 12</p><p>10,8 11,2 17</p><p>11,3 11,7 14</p><p>11,8 12,2 6</p><p>12,3 12,7 3</p><p>12,8 13,2 1</p><p>Total</p><p>4 – Determinar o tempo modal de reação do Pro-</p><p>blema 2.</p><p>5 – Determinar a moda das cargas máximas dos</p><p>cabos do problema 3.</p><p>6 – Calcule o número médio de dentes cariados,</p><p>para cada sexo, a partir dos dados apresentados na</p><p>Tabela a seguir:</p><p>Sexo Nº de</p><p>dentes</p><p>cariados</p><p>Mascu-</p><p>lino</p><p>Femin-</p><p>ino</p><p>0 16 13</p><p>1 2 5</p><p>2 3 3</p><p>3 2 2</p><p>4 2 2</p><p>Fonte: MOREIRA et alli (1985)</p><p>RESPOSTAS</p><p>1) (a) Média = 5,8, mediana = 6,0; (b) Média =</p><p>19,91, mediana = 19,85;</p><p>2) Média = 0,50 segundo; mediana = 0,51 segun-</p><p>dos.</p><p>3) Média = 11,09 t.</p><p>Mediana = 11.06 t.</p><p>4) Moda = 0.53 segundo.</p><p>5) Moda = 11,05 t.</p><p>4.0. Medidas de Variabilidade</p><p>No último capítulo, aprendemos a calcu-</p><p>lar e entender convenientemente as medidas de</p><p>posição, de tendência central ou promédios de uma</p><p>série, onde destacamos a média aritmética (ele-</p><p>mento ”ponto de equilíbrio” ou de ”uniformiza-</p><p>ção” da série), a mediana (elemento do meio da</p><p>série ordenada) e a moda (elemento mais freqüente</p><p>da série). Essas medidas, embora sejam da maior</p><p>importância para avaliarmos a tendência central</p><p>revelada por um número bem razoável de séries,</p><p>absolutamente nada nos informa sobre a dispersão</p><p>ou variabilidade desses elementos. Vejamos os</p><p>seguintes exemplos:</p><p>1. Sejam quatro grupos distintos de alunos, com as</p><p>seguintes notas:</p><p>Grupo A – 7, 5, 6, 9 e 8;</p><p>Grupo B – 9, 10, 4, 1, 8 e 10;</p><p>Grupo C – 5, 7, 7, 7,7, 7, 7, 7, 7 e 9;</p><p>Grupo D – 7, 7, 7 e 7.</p><p>Como representante de cada um dos gru-</p><p>pos, podemos calcular a sua média aritmética ou</p><p>elemento ”ponto de equilíbrio”, que, no caso, é a</p><p>mesma para todos os grupos (AA = AB = AC = AD</p><p>= 7,0), embora eles sejam constituídos de elemen-</p><p>tos distintos.</p><p>Um detalhe que também merece a nossa</p><p>atenção consiste no fato de que em cada grupo, as</p><p>notas se distribuem de maneira diferente em rela-</p><p>ção à média aritmética. Podemos inclusive consta-</p><p>tar que o grupo mais homogêneo é, sem a menor</p><p>dúvida, o grupo D, onde todos os seus elementos</p><p>são iguais entre si.</p><p>Temos, no entanto, dificuldades de defi-</p><p>nir entre os grupos A e B qual deles é o mais ho-</p><p>mogêneo, nos baseando apenas na visualização das</p><p>suas respectivas notas.</p><p>2. Para um torneio de tiro ao alvo a realizar-se</p><p>proximamente, quatro candidatos se apresentam ao</p><p>preenchimento de uma única vaga a representante</p><p>dos seus companheiros. Assim, todos dispondo de</p><p>idênticas condições (mesmas arma, munição, dis-</p><p>tância de tiro etc.), eles são submetidos a um teste</p><p>preliminar cujos resultados são apresentados a</p><p>seguir de um modo esquemático, por seus alvos</p><p>respectivos.</p><p>Qual dos candidatos deve ser o escolhido</p><p>para melhor representar o grupo?</p><p>Estatística Aplicada à Computação</p><p>32</p><p>O candidato mais ”eficiente”, em princi-</p><p>pio, deve corresponder àquele que tiver a maior</p><p>mé-</p><p>dia de pontos por tiro, o que nos conduz ao candi-</p><p>dato D, que obteve uma média de 15/5 = 3 pon-</p><p>tos/tiro. Entretanto, verifica-se com uma simples</p><p>inspeção dos alvos mostrados que o (”vesguinho”)</p><p>candidato C tem alguma chance de se constituir</p><p>em um bom representante, mesmo com média de 0</p><p>pontos/tiro, após corrigirmos defeitos de sua visão,</p><p>uma vez que ele mostrou ter uma pontaria muito</p><p>”certeira”(!).</p><p>Pelos exemplos mostrados acima, vemos</p><p>a necessidade de medidas complementares, visan-</p><p>do a uma melhor análise da dispersão ou variabili-</p><p>dade dos resultados numéricos. Entre essas medi-</p><p>das, merecem especial atenção as seguintes:</p><p>Amplitude ou intervalo total (It)</p><p>Desvio médio (dm )</p><p>Desvio padrão (σσσσ ou s)</p><p>Variância (σσσσ2 ou s2)</p><p>Coeficiente de Variação (V)</p><p>Intervalo semiquartílico (Iq )</p><p>Todas as medidas citadas têm um mesmo</p><p>objetivo principal, ou seja, a quantificação da dis-</p><p>persão ou homogeneidade dos elementos das sé-</p><p>ries, permitindo dessa forma a comparação entre</p><p>as mesmas no que a isso diz respeito. A série mais</p><p>homogênea de todas é aquela cujos elementos são</p><p>todos iguais entre si, o que nos leva à nulidade de</p><p>todas as medidas de dispersão citadas acima. Ob-</p><p>servamos dessa forma que, tão homogênea quanto</p><p>a equipe de futebol que vence todas as partidas que</p><p>disputa, é a equipe que perde também todas as</p><p>suas partidas. Podemos, em princípio, afirmar que,</p><p>entre duas ou mais séries, a mais homogênea (ou</p><p>menos dispersa) é aquela que apresenta a menor</p><p>medida de dispersão, medida essa escolhida con-</p><p>venientemente.</p><p>Para concluirmos qual a melhor medida</p><p>de dispersão a ser usada, devemos detalhar a sua</p><p>apresentação, o que faremos a seguir.</p><p>4.1. Amplitude ou Intervalo Total</p><p>É a diferença entre os elementos extre-</p><p>mos (máximo e mínimo) da série, ou seja:</p><p>It = Xmáx. - Xmín</p><p>onde:</p><p>Xmáx. = maior elemento da série;</p><p>Xmín. = menor elemento da série.</p><p>A fórmula acima é de uso geral, poden-</p><p>do ser aplicada para os casos de dados apresenta-</p><p>dos isolados, repetidos com freqüência ou grupa-</p><p>dos em classes de freqüência. Nesse último caso</p><p>(dados grupados em classes) devemos recordar</p><p>que, como substituímos cada classe por seu ponto</p><p>médio respectivo, os elementos extremos da série</p><p>correspondem aos pontos médios da última e da</p><p>primeira classe.</p><p>EXEMPLOS</p><p>1. Consideremos novamente os quatro grupos de</p><p>alunos (apresentados no início deste capítulo) cu-</p><p>jas notas repetimos a seguir:</p><p>Grupo A – 7, 5, 6, 9 e 8;</p><p>Grupo B – 9, 10, 4, 1, 8 e 10;</p><p>Grupo C – 5, 7, 7, 7,7, 7, 7, 7, 7 e 9;</p><p>Grupo D – 7, 7, 7 e 7.</p><p>Com base na amplitude ou intervalo to-</p><p>tal, informar (justificando) qual é o mais homogê-</p><p>neo:</p><p>Estatística Aplicada à Computação</p><p>33</p><p>2. Com base no intervalo ou amplitude total, e-</p><p>numerar os grupos de alunos relativos ao exemplo</p><p>anterior em ordem crescente de homogeneidade,</p><p>justificando a solução apresentada.</p><p>Solução: Listar os grupos de alunos do menos</p><p>homogêneo para o mais homogêneo consiste em</p><p>enumerá-los do mais disperso (ou menos homogê-</p><p>neo) para o menos disperso (ou mais homogêneo),</p><p>dispersão essa quantificada pelo intervalo total (já</p><p>calculado no exemplo anterior). Assim, temos:</p><p>Grupo B, Grupos A e C (empatados) e Grupo D.</p><p>Comentário: Vimos acima que os gru-</p><p>pos A e C são considerados igualmente homogê-</p><p>neos por terem o mesmo intervalo total. No entan-</p><p>to, um simples exame visual das notas respectivas</p><p>nos leva a concluir que certamente o grupo C é o</p><p>mais homogêneo, uma vez que dá para perceber</p><p>que os seus elementos estão mais próximos entre</p><p>si que os elementos</p><p>do grupo A.</p><p>O que de fato ocorre é que, infelizmente,</p><p>o intervalo total não é uma medida capaz de quan-</p><p>tificar de modo eficiente a dispersão de uma série,</p><p>uma vez que no seu cálculo interferem apenas os</p><p>elementos extremos (máximo e mínimo) da série,</p><p>não avaliando o comportamento dos demais ele-</p><p>mentos.</p><p>Utilizamos, assim, o intervalo total ape-</p><p>nas para ter uma primeira notícia sobre a dispersão</p><p>da série, visando quase que somente a identificar o</p><p>campo de variação dos seus elementos.</p><p>4.2. Desvio Médio</p><p>É a média aritmética dos desvios absolu-</p><p>tos dos elementos da série, tomados em relação à</p><p>sua média aritmética.</p><p>Assim, temos para o caso de dados apre-</p><p>sentados:</p><p>Isolados:</p><p>XXd</p><p>N</p><p>d</p><p>dm −==</p><p>∑ ;</p><p>||</p><p>Repetidos com freqüência:</p><p>XXd</p><p>Fi</p><p>Fid</p><p>dm −==</p><p>∑</p><p>∑ ;</p><p>.||</p><p>Grupados em classes de freqüência:</p><p>XXid</p><p>Fi</p><p>Fid</p><p>dm −==</p><p>∑</p><p>∑ ;</p><p>||</p><p>Onde X é a média aritmética e N é o</p><p>número de elementos da série.</p><p>EXERCÍCIOS</p><p>1) Calcular o desvio médio das séries A, B e C:</p><p>A) 6; 17; 9; 9; 3; 13; 9 e 1.</p><p>B)</p><p>X Nº DE ELEMENTOS (Fi)</p><p>16 7</p><p>22 12</p><p>25 16</p><p>33 3</p><p>47 2</p><p>TOTAL 40</p><p>C)</p><p>Classes (X) Nº de Elementos (F)</p><p>02 ├ 06 10</p><p>06 ├ 10 20</p><p>10 ├ 14 30</p><p>14 ├ 18 15</p><p>18 ├ 22 5</p><p>Total 80</p><p>Com base no cálculo do desvio médio,</p><p>pede-se listá-las em ordem crescente de homoge-</p><p>neidade.</p><p>COMENTÁRIO</p><p>Muito embora o desvio médio seja bem</p><p>mais eficiente que a amplitude ou intervalo total</p><p>para quantificar a dispersão de uma série (todos os</p><p>elementos da série participam do cálculo), não</p><p>vemos conveniência prática em trabalharmos com</p><p>os desvios absolutos, nem simplicidade na obten-</p><p>ção dos elementos das planilhas correspondentes.</p><p>Assim, vejamos com bastante carinho e</p><p>atenção a próxima medida de dispersão.</p><p>Estatística Aplicada à Computação</p><p>34</p><p>4.3. Variância</p><p>Como vimos, a amplitude total é instável,</p><p>por se deixar influenciar pelos valores extremos,</p><p>que são, na sua maioria, devidos ao acaso.</p><p>A variância e o desvio padrão são medi-</p><p>das que fogem a essa falha, pois levam em consi-</p><p>deração a totalidade dos valores da variável em</p><p>estudo, o que faz delas índices de variabilidade</p><p>bastante estáveis e, por isso mesmo, os mais ge-</p><p>ralmente empregados.</p><p>A variância baseia-se nos desvios em</p><p>torno da média aritmética, porém determinando a</p><p>média aritmética dos quadrados dos desvios4. As-</p><p>sim, representando a variância por σ2, temos:</p><p>( )</p><p>n</p><p>XX</p><p>n</p><p>i</p><p>i∑</p><p>=</p><p>−</p><p>= 1</p><p>2</p><p>2σ</p><p>ou</p><p>( )</p><p>n</p><p>n</p><p>X</p><p>X</p><p>2</p><p>2</p><p>2</p><p>∑</p><p>∑ −</p><p>=σ</p><p>NOTA : Quando nosso interesse não se restringe a</p><p>descrição dos dados, mas, partindo da amostra,</p><p>visamos tirar inferências válidas para a respectiva</p><p>população, convém efetuar uma modificação, que</p><p>consiste em usar o divisor n – 1 em lugar de n.</p><p>Podemos, ainda, com o intuito de conservar a de-</p><p>finição, calcular a variância usando o divisor n e,</p><p>em seguida, multiplicar o resultado por n / n – 1.</p><p>Como são dados amostrais usa-se a letra</p><p>“s” para indicar variância.</p><p>1</p><p>)(</p><p>1</p><p>2</p><p>2</p><p>−</p><p>−</p><p>=</p><p>∑</p><p>=</p><p>n</p><p>XX</p><p>s</p><p>n</p><p>i</p><p>i</p><p>ou</p><p>4 Lembremos que Σ d, = Σ (xi – X ) = 0.</p><p>Sendo a variância calculada a partir dos</p><p>quadrados dos desvios, ela é um número em uni-</p><p>dade quadrada em relação a variável em questão, o</p><p>que, sob o ponto de vista prático, é um inconveni-</p><p>ente.</p><p>4.4. Desvio Padrão</p><p>Por isso mesmo, imaginou-se uma nova</p><p>medida que tem utilidade e interpretação práticas,</p><p>denominada desvio padrão, definida como a raiz</p><p>quadrada da variância e representada por s:</p><p>2ss =</p><p>Assim:</p><p>(1)</p><p>)( 2</p><p>n</p><p>XX</p><p>s i∑ −</p><p>=</p><p>NOTA :</p><p>• Tanto o desvio padrão como as variâncias são</p><p>usadas como medidas de dispersão ou variabilida-</p><p>de. O uso de uma ou de outra dependerá da finali-</p><p>dade que se tenha em vista. A variância é uma</p><p>medida que tem pouca utilidade como estatística</p><p>descritiva, porém é extremamente importante na</p><p>inferência estatística e em combinações de amos-</p><p>tras.</p><p>Se bem que a fórmula dada para o cálcu-</p><p>lo do desvio seja a que torna mais fácil a sua com-</p><p>preensão, ela não é uma boa fórmula para fins de</p><p>computação, pois, em geral, a média aritmética</p><p>( X ) é um número fracionário, o que torna pouco</p><p>prático o cálculo das quantidades (xi – X )2. Po-</p><p>demos simplificar os cálculos fazendo uso da</p><p>igualdade:</p><p>( )</p><p>( )</p><p>∑</p><p>∑</p><p>∑ −=−</p><p>n</p><p>X</p><p>XXX i</p><p>ii</p><p>2</p><p>22</p><p>que pode ser escrita do seguinte modo:</p><p>( )</p><p>1</p><p>2</p><p>2</p><p>−</p><p>−</p><p>=</p><p>∑</p><p>∑</p><p>n</p><p>n</p><p>X</p><p>X</p><p>s</p><p>i</p><p>i</p><p>(2)</p><p>Não apenas este método é usualmente</p><p>mais prático, como também mais preciso. Quando</p><p>a média não é exata e tem de ser arredondada, cada</p><p>desvio fica afetado ligeiramente do erro, devido a</p><p>1</p><p>)( 2</p><p>2</p><p>2</p><p>−</p><p>−</p><p>=</p><p>∑</p><p>∑</p><p>n</p><p>n</p><p>X</p><p>X</p><p>s</p><p>i</p><p>i</p><p>Estatística Aplicada à Computação</p><p>35</p><p>Xi Xi</p><p>2</p><p>40 1600</p><p>45 2025</p><p>48 2304</p><p>52 2704</p><p>54 2916</p><p>62 3844</p><p>70 4900</p><p>esse arredondamento. O mesmo acontece com os</p><p>quadrados, podendo os resultados do cálculo ser</p><p>menos exatos do que quando a fórmula (2) é usa-</p><p>da.</p><p>Se o desvio padrão a ser calculado é o</p><p>populacional a equação deve ser escrita da seguin-</p><p>te forma:</p><p>( )</p><p>n</p><p>n</p><p>X</p><p>X i</p><p>i∑</p><p>∑</p><p>−</p><p>=</p><p>2</p><p>2</p><p>σ</p><p>Se estivermos trabalhando com dados</p><p>agrupados em intervalo de classe devemos usar as</p><p>seguintes equações:</p><p>22 ..</p><p></p><p></p><p></p><p></p><p></p><p></p><p></p><p></p><p>−=</p><p>∑∑</p><p>N</p><p>XiFi</p><p>N</p><p>XiFi</p><p>σ</p><p>Onde N = ΣFi.</p><p>O desvio padrão goza de algumas pro-</p><p>priedades, dentre as quais destacamos:</p><p>1ª) Somando-se (ou subtraindo-se) uma constante</p><p>a (de) todos os valores de uma variável, o desvio</p><p>padrão não se altera:</p><p>yi = x ± c � sy = sx</p><p>2ª) Multiplicando-se todos os valores de uma vari-</p><p>ável por uma constante (diferente de zero), o des-</p><p>vio padrão fica multiplicado por essa constante:</p><p>yi = c X xi � sy = c X sx</p><p>Essas propriedades nos permitem intro-</p><p>duzir, no cálculo do desvio padrão, simplificações</p><p>úteis, como veremos mais adiante.</p><p>SIMBOLOGIA</p><p>A representação da variância é feita pela</p><p>letra “s” ou pela letra grega “σ” (sigma minúscu-</p><p>lo).</p><p>Quando os dados representam a popula-</p><p>ção usa-se a letra grega “σ” e quando os dados</p><p>representam uma amostra usa-se a letra “s”</p><p>CONVERSÃO</p><p>Para converter o desvio padrão da amos-</p><p>tra para desvio padrão da população pode-se utili-</p><p>zar a seguinte regra ou equação de conversão:</p><p>xx s</p><p>n</p><p>n</p><p>.</p><p>1−</p><p>=σ</p><p>ou</p><p>n</p><p>n</p><p>s x</p><p>x</p><p>1−</p><p>=</p><p>σ</p><p>EXERCÍCIOS</p><p>1) Tomemos, como exemplo, o conjunto de valo-</p><p>res da variável x:</p><p>40, 45, 48, 52, 54, 62, 70</p><p>Calcule a variância e o desvio padrão da</p><p>população e da amostra.</p><p>2) Considerando os dados da tabela a seguir,</p><p>calcule a variância e o desvio padrão da popu-</p><p>lação e da amostra.</p><p>xi Fi Fi.xi Fi.xi</p><p>2</p><p>0 2</p><p>1 6</p><p>2 12</p><p>3 7</p><p>4 3</p><p>Σ=30 Σ=63 Σ=165</p><p>3) Considerando os dados da tabela a seguir,</p><p>calcule a variância e o desvio padrão da popu-</p><p>lação e da amostra.</p><p>Estatística Aplicada à Computação</p><p>36</p><p>i Estaturas (cm) Fi xi Fi.xi Fi.xi</p><p>2</p><p>1 150 ├ 154 4</p><p>2 154 ├ 158 9</p><p>3 158 ├ 162 11</p><p>4 162 ├ 166 8</p><p>5 166 ├ 170 5</p><p>6 170 ├ 174 3</p><p>Σ= 40</p><p>4) Dada as distribuições amostrais, calcular a mé-</p><p>dia, a moda, a mediana e a variância e o desvio</p><p>padrão.</p><p>CLASSES Fi Xi Xi.Fi Xi2.Fi</p><p>02 ├ 04 2 3</p><p>04 ├ 06 4</p><p>06 ├ 08 7</p><p>08 ├ 10 4</p><p>10 ├ 12 3</p><p>Σ 20</p><p>ERRO PADRÃO DA MÉDIA</p><p>A média aritmética de uma determinada</p><p>amostra consolida a média de todos os valores da</p><p>amostra. Uma população pode consistir em resul-</p><p>tados individuais que podem assumir um extenso</p><p>intervalo de valores desde extremamente pequenos</p><p>até extremamente grandes. No entanto, se um va-</p><p>lor extremo cair na amostra, mesmo que ele vá ter</p><p>um efeito sobre a média aritmética, tal efeito será</p><p>reduzido, uma vez que a média está sendo calcula-</p><p>da juntamente com todos os outros valores da a-</p><p>mostra. À medida que cresce o tamanho da amos-</p><p>tra, o efeito de um simples valor extremo vai-se</p><p>tornando menor, uma vez que a média está sendo</p><p>calculada</p><p>com mais observações.</p><p>Este valor é expresso estatisticamente no</p><p>valor do desvio padrão da média aritmética da</p><p>amostra. Esta é a medida de variabilidade da mé-</p><p>dia aritmética de amostra para amostra é chamada</p><p>de erro padrão da média aritmética, s.</p><p>O erro padrão da média aritmética Xs , é</p><p>igual ao desvio padrão da amostra s dividido pela</p><p>raiz quadrada do tamanho da amostra n.</p><p>n</p><p>s</p><p>s</p><p>X</p><p>=</p><p>O erro padrão da média aritmética Xσ ,</p><p>é igual ao desvio padrão da população σ dividido</p><p>pela raiz quadrada do tamanho da amostra n.</p><p>n</p><p>X</p><p>σ</p><p>σ =</p><p>4.5. Coeficiente de Variação</p><p>Até o momento estudamos somente me-</p><p>didas absolutas de dispersão, cujas unidades, exce-</p><p>ção feita à variância, são as mesmas usadas para</p><p>aferir os elementos da série. Admitamos por e-</p><p>xemplo ser do nosso interesse comparar entre si,</p><p>tendo em vista a homogeneidade, as séries relacio-</p><p>nadas a seguir, juntamente com suas médias arit-</p><p>méticas e seus desvios padrões:</p><p>Série Média</p><p>Aritmética</p><p>Desvio padrão (σ</p><p>ou S)</p><p>A (t) 80,8 t 10,0 t</p><p>B (cm) 450,0 cm 10,0 cm</p><p>C (ºC) 32,6 ºC 4,2 ºC</p><p>D (ºC) 30,0 ºC 2,6 ºC</p><p>E (t) 8 200,0 t 700,0 t</p><p>Questionemos:</p><p>– qual série é mais homogênea: a série A ou a</p><p>série B?</p><p>– Solução: Embora possa parecer a alguns menos</p><p>atentos que ambas as séries sejam igualmente ho-</p><p>mogêneas por possuírem o mesmo desvio padrão,</p><p>isso não é correto, pois não há como compararmos</p><p>o desvio padrão da série A (σ = 10,0 t) com o da</p><p>série B (σ = 10,0 cm), uma vez que estamos traba-</p><p>lhando com unidades diferentes (toneladas e cen-</p><p>tímetros);</p><p>– qual é mais homogênea: a série C ou a série D?</p><p>– Solução. Comodamente podemos afirmar que a</p><p>série D é mais homogênea que a série C, uma vez</p><p>que aquela tem o menor desvio padrão (σ = 2,6</p><p>ºC). Para ambas as séries temos a mesma unidade</p><p>de medida (graus centígrados) e também mesma</p><p>ordem de grandeza de seus elementos (que nos</p><p>levaram a médias aritméticas próximas, 32,6 ºC e</p><p>30,0 ºC) ;</p><p>Estatística Aplicada à Computação</p><p>37</p><p>– qual é mais homogênea: a série A ou a série E?</p><p>- Solução: Adotando o desvio padrão como base de</p><p>nossos estudos a respeito, somos levados a afirmar</p><p>que a série A é mais homogênea que a série E,</p><p>pois possui o menor desvio padrão e estamos tra-</p><p>balhando com a mesma unidade de medida (tone-</p><p>ladas). Entretanto, ao observarmos as médias arit-</p><p>méticas das séries em questão, vemos uma enorme</p><p>diferenciação de suas ordens de grandeza, 80,8 t e</p><p>8 200,0 t, diferenças essas que se estendem aos</p><p>elementos das séries respectivas e que desvirtuam</p><p>e não recomendam o uso de uma medida de dis-</p><p>persão absoluta como o desvio padrão. Sentimos</p><p>assim a necessidade de usarmos uma medida de</p><p>dispersão relativa para resolvermos problemas</p><p>desse tipo.</p><p>O desvio padrão tem duas característi-</p><p>cas importantes:</p><p>Considera que os desvios se distribuem</p><p>homogeneamente ao redor do valor da média.</p><p>É uma medida absoluta.</p><p>Nas operações financeiras, o investidor</p><p>tenta estabelecer um valor médio de rentabilidade.</p><p>Os desvios entre o valor médio e os possíveis valo-</p><p>res das rentabilidades que formam esse valor mé-</p><p>dio estabelecem o risco da operação5; e o desvio</p><p>padrão dos desvios das rentabilidades mede o risco</p><p>da operação, Isso é geralmente verdadeiro nas</p><p>séries formadas com um grande número de obser-</p><p>vações; entretanto, existem casos onde não é as-</p><p>sim. Na realidade, a preocupação do investidor é</p><p>com os desvios negativos, que correspondem as</p><p>possíveis rentabilidades com valores menores que</p><p>o valor da média. Os desvios positivos, que corres-</p><p>pondem aos valores maiores que a média, consti-</p><p>tuem um prêmio adicional, um retorno além da</p><p>expectativa. Alguns autores têm argumentado que</p><p>enquanto os desvios ao redor da média podem ser</p><p>favoravelmente recebidos pelos homens de negó-</p><p>cios, são os riscos provenientes dos desvios nega-</p><p>tivos que realmente são incluídos no processo</p><p>decisório, dando origem ao conceito de semivari-</p><p>ância, que considera apenas a soma dos quadrados</p><p>dos desvios negativos.</p><p>A característica de o desvio padrão ser</p><p>uma medida absoluta não permite comparar as</p><p>medidas de dispersão de duas ou mais séries de</p><p>5 Atividade conhecida como gerenciamento de risco.</p><p>Uma vez identificado, o risco deve ser medido. As</p><p>técnicas de gerenciamento de risco podem ser aplicadas</p><p>em qualquer atividade.</p><p>observações. Nesse caso, e definimos uma medida</p><p>denominada como coeficiente de variação (CV).</p><p>Finalmente, apresentamos o COEFICI-</p><p>ENTE DE VARIAÇÃO (CV) que é uma medida</p><p>de dispersão relativa (dada em %), que mede a</p><p>variação percentual do desvio padrão relativamen-</p><p>te a média aritmética, ou seja:</p><p>0 para;</p><p>.100</p><p>≠= X</p><p>X</p><p>CV</p><p>σ</p><p>onde: X é a média aritmética e σ é o desvio</p><p>padrão.</p><p>Vamos então calcular o coeficiente de</p><p>variação para cada uma das séries do exemplo</p><p>acima:</p><p>– série A: V = 100 X 10,0/80,8 = 12,37 ≅ 12,4%</p><p>– série B : V = 100 X 10,0/450,0 = 2,22 ≅ 2,2%</p><p>– série C : V = 100 X 4,2/32,6 = 12,88 ≅ 12,9%</p><p>– série D: V = 100 X 2,6/30,0 = 8,66 ≅ 8,7%</p><p>– série E: V = 100 X 700,0/8 200,0 = 8,53 ≅ 8%</p><p>Podemos, assim, por possuir o menor</p><p>coeficiente de variação, afirmar que :</p><p>– a série B é mais homogênea que a série A;</p><p>– a série D é mais homogênea que a série C;</p><p>– a série E é mais homogênea que a série A.</p><p>Listando agora as séries em questão em</p><p>ordem crescente de homogeneidade ou decrescente</p><p>de dispersão, quantificada pela medida mais con-</p><p>veniente no caso, que é o coeficiente de variação,</p><p>temos:</p><p>Série C, série A, série D, série E e série B</p><p>Conforme acabamos de ver, além de ter o</p><p>seu uso recomendado para a análise da dispersão</p><p>de séries heterogêneas (unidades de medidas dife-</p><p>rentes: metros, toneladas, litros etc.), o coeficiente</p><p>de variação serve ainda para compararmos séries</p><p>que apresentam ordens de grandeza diferenciadas</p><p>dos seus elementos (unidades, dezenas etc.). Como</p><p>desvantagens, podemos citar a impossibilidade de</p><p>usarmos o coeficiente de variação para séries com</p><p>médias aritméticas nulas e sua inconveniência de</p><p>uso (como toda percentagem que se preza) no caso</p><p>de termos séries com médias aritméticas muito</p><p>”pequenas” (ou próximas de zero) que, ao sofre-</p><p>rem uma reduzida alteração, normalmente provo-</p><p>cam grandes variações no coeficiente de variação.</p><p>Estatística Aplicada à Computação</p><p>38</p><p>EXERCÍCIOS</p><p>1) Considere as séries relacionadas a seguir:</p><p>Série Nº de ele-</p><p>mentos</p><p>(N)</p><p>Média Arit-</p><p>mética</p><p>(A)</p><p>Desvio</p><p>Padrão</p><p>(σ)</p><p>A (kg) 100 15 000,0 kg 1000,0 kg</p><p>B (m) 100 300,0 m 30,0 m</p><p>C (t) 400 25,0 t 8,0 t</p><p>D (cm) 500 120,0 cm 5,0 cm</p><p>E (m) 100 58,0 m 4,0 m</p><p>F (l) 200 80,0 l 8,0 l</p><p>G (l) 300 40,0 l 6,0 l</p><p>Escreva, com as devidas justificativas,</p><p>qual dos conjuntos de séries relacionados a seguir</p><p>é o mais homogêneo:</p><p>a) Conjunto formado pelas séries A e C;</p><p>b) Conjunto formado pelas séries B, D e E;</p><p>c) Conjunto formado pelas séries F e G.</p><p>2 - Sabendo que um conjunto de dados apresenta</p><p>para média aritmética e para desvio padrão, res-</p><p>pectivamente, 18,3 e 1,47, calcule o coeficiente de</p><p>variação.</p><p>3 - Em um exame final de Matemática, o grau</p><p>médio de um grupo de 150 alunos foi 7,8 e o des-</p><p>vio padrão, 0,80. Em Estatística, entretanto, o grau</p><p>médio final foi 7,3 e o desvio padrão, 0,76. Em</p><p>que disciplina foi maior a dispersão?</p><p>4 - Medidas as estaturas de 1.017 indivíduos, obti-</p><p>vemos X = 162,2 cm e σ = 8,01 cm. O peso mé-</p><p>dio desses mesmos indivíduos é 52 kg, com um</p><p>desvio padrão de 2,3 kg. Esses indivíduos apresen-</p><p>tam maior variabilidade em estatura ou em peso?</p><p>5 - Um grupo de 85 moças tem estatura média de</p><p>160,6 cm, com um desvio padrão igual a 5,97 cm.</p><p>Outro grupo de 125 moças tem uma estatura média</p><p>de 161,9 cm, sendo o desvio padrão igual a 6,01</p><p>cm. Qual é o coeficiente de variação de cada um</p><p>dos grupos? Qual o grupo mais homogêneo?</p><p>6 - Um grupo de cem estudantes tem uma estatura</p><p>média de 163,8 cm, com um coeficiente de</p><p>varia-</p><p>ção de 3,3%. Qual o desvio padrão desse grupo?</p><p>7 - Uma distribuição apresenta as seguintes estatís-</p><p>ticas: s = 1,5 e CV = 2,9%. Determine a média da</p><p>distribuição.</p><p>8 – As rentabilidades dos últimos 6 meses das</p><p>carteiras de investimento A e B estão apresentadas</p><p>na tabela seguinte. Pede-se determinar qual das</p><p>duas carteiras tem maior dispersão, aplicando o</p><p>coeficiente de variação e concluir, portanto, qual a</p><p>aplicação mais segura, com menor risco.</p><p>A B</p><p>5% 6%</p><p>9% 7%</p><p>15% 9%</p><p>12% 7%</p><p>9% 6%</p><p>6% 8%</p><p>Solução: Primeiro calcule a média, depois os des-</p><p>vios padrões das duas séries de rentabilidades.</p><p>Depois, calcule o coeficiente de variação de cada</p><p>série e registre na tabela a seguir.</p><p>A B</p><p>X</p><p>σ (pop.)</p><p>S (amo.)</p><p>CV pop.</p><p>CV amo.</p><p>SIGNIFICADO PRÁTICO DO DESVIO PA-</p><p>DRÃO</p><p>Inúmeros fenômenos quantificados por su-</p><p>as séries respectivas revelam uma baixa freqüência</p><p>para os elementos pequenos da série; a medida que</p><p>seus elementos crescem em magnitude, aumentam</p><p>as freqüências a eles correspondentes até que esses</p><p>elementos atinjam um determinado valor, decain-</p><p>do em seguida essas freqüências com o aumento</p><p>de grandeza dos elementos da série. As séries se</p><p>comportam então segundo uma distribuição em</p><p>forma de sino, conhecida como distribuição nor-</p><p>mal que será estudada mais adiante.</p><p>Vemos assim tratar-se de uma distribui-</p><p>ção simétrica, com perfeita identidade de suas</p><p>principais medidas de posição ou de tendência</p><p>central, isto é: o elemento “ponto de equilíbrio” ou</p><p>média aritmética, o elemento mais freqüente ou</p><p>moda e o elemento do meio da série ordenada.</p><p>Para distribuições deste tipo, sabe-se que:</p><p>Estatística Aplicada à Computação</p><p>39</p><p>a) o intervalo definido pelos pontos</p><p>σ−X e σ+X contém aproximadamente</p><p>68% dos elementos da série;</p><p>b) o intervalo definidos pelos pontos</p><p>σ2−X e σ2+X contém aproximadamente</p><p>95% dos elementos da série;</p><p>c) o intervalo definido pelos pontos</p><p>σ3−X e σ3+X contém aproximadamente</p><p>100% dos elementos da série.</p><p>Para séries que não se comportam como</p><p>as descritas anteriormente, o matemático russo</p><p>TCHEBYSHEFF nos mostra que: para uma série</p><p>qualquer, a percentagem dos seus elementos situ-</p><p>ados em um intervalo definido pelos pontos</p><p>σkX − e σkX + , será, no mínimo igual a (1 –</p><p>1/k2), sendo k um número maior ou igual a 1 (um),</p><p>X , a média aritmética, e σ, o desvio padrão dos</p><p>elementos da série. Esquematicamente, temos:</p><p>Para k = 1 o percentual é zero, portanto sem</p><p>significado prático.</p><p>Para k = 2 o percentual é 75,0%</p><p>Para k = 3 o percentual é 88,9 %.</p><p>EXERCÍCIOS</p><p>1. Julgue os itens seguintes, relativos a Estatística:</p><p>( ) Por Estatística Descritiva entende-se um</p><p>conjunto de ferramentas, tais como gráficos e tabe-</p><p>las, cujo objetivo é apresentar, de forma resumida,</p><p>um conjunto de observações.</p><p>( ) Quando aplicada em uma população de</p><p>pessoas formada pelo mesmo número de homens e</p><p>mulheres, uma amostra aleatória simples também</p><p>apresenta o mesmo número de homens e de mu-</p><p>lheres.</p><p>( ) Se x1, x2, ......, xn representa um conjunto</p><p>de alturas, medidas em metros, então a variância</p><p>dessas alturas é medida em metros quadrados. Para</p><p>obter-se uma medida de dispersão na mesma uni-</p><p>dade de medida das alturas originais, é usual con-</p><p>siderar então o desvio padrão.</p><p>2. Se você comprar uma bateria para substituir a</p><p>do seu carro, qual das seguintes você prefereria:</p><p>a) Uma que venha de uma população com σ = 1</p><p>mês e µ = 28 meses</p><p>b) Uma que venha de uma população com σ = 1</p><p>ano e µ = 29 meses</p><p>Suponha que ambas têm praticamente o mesmo</p><p>preço. JUSTIFIQUE sua resposta.</p><p>3. Os tempos de espera de clientes (em minutos)</p><p>nos caixas eletrônicos do Banco ABC, onde todos</p><p>os clientes formam uma fila única, e no Banco</p><p>XYZ onde os clientes formam filas separadas para</p><p>cada uma das caixas, estão mostrados abaixo.</p><p>Banco ABC: 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7</p><p>Banco XYZ: 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3</p><p>10,0</p><p>Estatística Aplicada à Computação</p><p>40</p><p>Se você tivesse que ir diariamente a um banco, por</p><p>motivos profissionais (ou seja, sua agenda é cheia</p><p>e você vive apressado), qual dos dois você preferi-</p><p>ria? JUSTIFIQUE sua resposta.</p><p>4. A seguir temos os tempos de atendimento (em</p><p>minutos) para compra de pacotes aéreos nacionais,</p><p>idênticos, para Costa do Sauípe, para duas empre-</p><p>sas de turismo concorrentes.</p><p>Empresa A:</p><p>13 14 13 11 37</p><p>19 14 15 8 10</p><p>18 15 16 39 16</p><p>Empresa B:</p><p>26 01 17 18 15</p><p>19 17 16 21 16</p><p>16 16 14 01 26</p><p>a) analise separadamente os dados das empresas A</p><p>e B;</p><p>b) faça uma análise comparativa entre os tempos</p><p>de atendimento das empresas. Qual delas lhe pa-</p><p>rece mais eficiente? Justifique estatisticamente!</p><p>5. (Questão do Concurso para Auditor Fiscal da</p><p>Receita Federal do Brasil - 2005) – De posse dos</p><p>resultados de produtividade alcançados por fun-</p><p>cionários de determinada área da empresa em que</p><p>trabalha, o Gerente de Recursos Humanos decidiu</p><p>empregar a seguinte estratégia: aqueles funcioná-</p><p>rios com rendimento inferior a dois desvios pa-</p><p>drões abaixo da média (limite inferior – LI) deve-</p><p>rão passar por treinamento específico para melho-</p><p>rar seus desempenhos; aqueles funcionários com</p><p>rendimento superior a dois desvios padrões acima</p><p>da média (Limite Superior – LS) serão promovidos</p><p>a líderes de equipe.</p><p>Indicador Freqüência</p><p>00 |- 02 10</p><p>02 |- 04 20</p><p>04 |- 06 240</p><p>06 |- 08 410</p><p>08 |- 10 120</p><p>Total 800</p><p>Assinale a opção que apresenta os limites LI e</p><p>LS a serem utilizados pelo Gerente de Recursos</p><p>Humanos.</p><p>a) LI = 4,0 e LS = 9,0</p><p>b) LI = 3,6 e LS = 9,4</p><p>c) LI = 3,0 e LS = 9,8</p><p>d) LI = 3,2 e LS = 9,4</p><p>e) LI = 3,4 e LS = 9,6</p><p>6. (Questão do Concurso para Auditor Fiscal da</p><p>Receita Federal do Brasil - 2005) – Em uma de-</p><p>terminada semana uma empresa recebeu as seguin-</p><p>tes quantidades de pedidos para os produtos A e B:</p><p>Produto A 39 33 25 30 41 36 37</p><p>Produto B 50 52 47 49 54 40 43</p><p>Assinale a opção que apresente os coeficientes</p><p>de variação dos dois produtos:</p><p>a) CVA = 15,1% e CVB = 12,3%</p><p>b) CVA = 16,1% e CVB = 10,3%</p><p>c) CVA = 16,1% e CVB = 12,3%</p><p>d) CVA = 15,1% e CVB = 10,3%</p><p>e) CVA = 16,1% e CVB = 15,1%</p><p>Estatística Aplicada à Computação</p><p>41</p><p>5.0. PROBABILIDADE</p><p>Embora o cálculo das probabilidades</p><p>pertença ao campo da Matemática, sua inclusão</p><p>neste livro se justifica pelo fato de a maioria dos</p><p>fenômenos de que trata a Estatística ser de nature-</p><p>za aleatória ou probabilística. Conseqüentemente,</p><p>o conhecimento dos aspectos fundamentais do</p><p>cálculo de probabilidades é uma necessidade es-</p><p>sencial para o estudo da Estatística Indutiva ou</p><p>Inferencial. Procuramos resumir aqui os conheci-</p><p>mentos que julgamos necessários para termos um</p><p>ponto de apoio em nossos primeiros passos no</p><p>caminho da Estatística Inferencial. Esses passos</p><p>serão apresentados no capítulo seguinte, que trata</p><p>da conceituação de variável aleatória e das duas</p><p>principais distribuições de probabilidades de vari-</p><p>áveis discretas e contínuas.</p><p>5.1.a. Experimento Aleatório.</p><p>Em quase tudo, em maior ou menor grau,</p><p>vislumbramos o acaso. Assim, da afirmação ”é</p><p>provável que o meu time ganhe a partida de hoje”</p><p>pode resultar: a. que, apesar do favoritismo, ele</p><p>perca; b. que, como pensamos, ele ganhe; c. que</p><p>empate. Como vimos, o resultado final depende do</p><p>acaso. Fenômenos como esse, são chamados fe-</p><p>nômenos aleatórios ou experimentos aleatórios.</p><p>Experimentos ou fenômenos aleatórios</p><p>são aqueles que, mesmo repetidos várias vezes sob</p><p>condições semelhantes, apresentam resultados</p><p>imprevisíveis.</p><p>5.1.b. Espaço Amostral</p><p>A cada experimento correspondem, em</p><p>geral, vários resultados possíveis. Assim, ao lan-</p><p>çarmos uma moeda, há dois resultados possíveis:</p><p>ocorrer cara ou ocorrer coroa. Já ao lançarmos um</p><p>dado há seis resultados possíveis: 1, 2, 3, 4, 5 ou 6.</p><p>Ao conjunto desses resultados</p><p>possíveis</p><p>damos o nome de espaço amostral ou conjunto</p><p>universo, representado por S.</p><p>Os dois experimentos citados anterior-</p><p>mente têm os seguintes espaços amostrais:</p><p>– lançamento de uma moeda: S = (Ca, Co);</p><p>– lançamento de um dado: S = (1, 2, 3, 4, 5, 6).</p><p>Do mesmo modo, como em dois lança-</p><p>mentos sucessivos de uma moeda podemos obter</p><p>cara nos dois lançamentos, ou cara no primeiro e</p><p>coroa no segundo, ou coroa no primeiro e cara no</p><p>segundo, ou coroa nos dois lançamentos, o espaço</p><p>amostral é:</p><p>S = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co,</p><p>Co)}.</p><p>Cada um dos elementos de S que cor-</p><p>responde a um resultado recebe o nome de pon-</p><p>to amostral. Assim:</p><p>2 ∈ S ⇒ 2 é um ponto amostral</p><p>de S.</p><p>5.1.c. Eventos</p><p>Chamamos de evento qualquer sub-</p><p>conjunto do espaço amostral S de um experi-</p><p>mento aleatório.</p><p>Assim, qualquer que seja E, se E ⊂ S (E</p><p>está contido em S), então E é um evento de S.</p><p>Se E = S, E é chamado evento certo. Se</p><p>E ⊂⊂⊂⊂ S e E é um conjunto unitário, E é chamado</p><p>evento elementar.</p><p>Se E = Ø , E é chamado evento impossível.</p><p>No lançamento de um dado, onde S = {1,</p><p>2, 3, 4, 5, 6}, temos:</p><p>A = (2, 4, 6) ⊂ S; logo, A é um evento de</p><p>S.</p><p>Estatística Aplicada à Computação</p><p>42</p><p>B = { l, 2, 3, 4, 5, 6} ⊂ S; logo, B é um</p><p>evento certo de S (B = S).</p><p>C = {4} ⊂ S; logo, C é um evento ele-</p><p>mentar de S.</p><p>D = Ø ⊂ S; logo, D é um evento impos-</p><p>sível de S.</p><p>Um evento é sempre definido por uma</p><p>sentença. Assim, os eventos acima podem ser de-</p><p>finidos pelas sentenças:</p><p>”Obter um número par na face superior.”</p><p>”Obter um número menor ou igual a 6 na face</p><p>superior.”</p><p>”Obter o número 4 na face superior.”</p><p>”Obter um número maior que 6 na face superior.”</p><p>5.2. Probabilidade:</p><p>As decisões nos negócios são freqüente-</p><p>mente baseados na análise de incertezas tais como</p><p>as seguintes:</p><p>a) Quais são as chances de as vendas decrescerem</p><p>se aumentarmos os preços?</p><p>b) Qual a plausibilidade de um novo método de</p><p>montagem aumentar a produtividade?</p><p>c) Qual a probabilidade de o projeto terminar no</p><p>prazo?</p><p>d) Quais são as chances de um novo investimento</p><p>ser lucrativo?</p><p>A probabilidade é uma medida numérica</p><p>da plausibilidade de que um evento ocorrerá. As-</p><p>sim, as probabilidades podem ser usadas como</p><p>medidas do grau de incerteza associado aos quatro</p><p>eventos previamente listados. Se as probabilidades</p><p>estiverem disponíveis, poderemos determinar a</p><p>plausibilidade de cada evento ocorrer.</p><p>Os valores da probabilidade são sempre</p><p>atribuídos numa escala de 0 a 1. A probabilidade</p><p>próxima de zero indica um evento improvável de</p><p>ocorrer; uma probabilidade próxima de 1 indica</p><p>um evento quase certo.</p><p>5.2.1. Definição clássica ou “a priori”</p><p>Se um evento pode ocorrer de h maneiras</p><p>diferentes, em um total de n maneiras possíveis</p><p>(todas igualmente prováveis), então a probabilida-</p><p>de do evento é h/n.</p><p>Suponha-se que desejemos determinar a</p><p>probabilidade do aparecimento de 1 cara em uma</p><p>jogada de uma moeda. Como há dois resultados</p><p>igualmente prováveis, a saber, “cara” e “coroa”</p><p>(admite-se que a moeda não se detenha sobre seu</p><p>bordo), e como só há uma maneira de aparecer</p><p>“cara”, dizemos que a probabilidade do evento</p><p>“cara” na jogada de uma moeda é ½. Natural-</p><p>mente, para que tal conclusão seja válida, é preci-</p><p>so que a moeda seja “honesta”, ou “não-viciada”.</p><p>Dado um experimento aleatório, sendo S</p><p>o seu espaço amostral, vamos admitir que todos os</p><p>elementos de S tenham a mesma chance de acon-</p><p>tecer, ou seja, que S é um conjunto equiprovável.</p><p>Chamamos de probabilidade de um</p><p>evento A(A ⊂ S) o número real P(A), tal que:</p><p>onde:</p><p>n(A) é o número de elementos de A;</p><p>n(S) é o número de elementos de S.</p><p>Exemplos:</p><p>Considerando o lançamento de uma moeda e o</p><p>evento A ”obter cara”, temos:</p><p>S = (Ca, Co) ⇒ n(S) =2</p><p>A = (Ca} ⇒ n(A) = 1</p><p>Logo:</p><p>O resultado acima nos permite afirmar</p><p>que, ao lançarmos uma moeda equilibrada, temos</p><p>50% de chance de que apareça cara na face superi-</p><p>or.</p><p>Considerando o lançamento de um dado, vamos</p><p>calcular:</p><p>- a probabilidade do evento A ”obter um</p><p>número par na face superior”.</p><p>)(</p><p>)(</p><p>)(</p><p>Sn</p><p>An</p><p>AP =</p><p>2</p><p>1</p><p>)( =AP</p><p>Estatística Aplicada à Computação</p><p>43</p><p>Temos:</p><p>S = {1, 2, 3, 4, 5, 6} ⇒ n(S) = 6</p><p>B = {2, 4, 6} ⇒ n(B) = 3</p><p>Logo:</p><p>2</p><p>1</p><p>6</p><p>3</p><p>)( ==BP</p><p>- a probabilidade do evento B ”obter um</p><p>número menor ou igual a 6 na face superior”.</p><p>Temos:</p><p>S = {1, 2, 3, 4, 5, 6} ⇒ n(S) =6</p><p>B = {1, 2, 3, 4, 5, 6} ⇒ n(B) = 6</p><p>Logo:</p><p>1</p><p>6</p><p>6</p><p>)( ==BP</p><p>- a probabilidade do evento C ”obter um</p><p>número 4 na face superior”.</p><p>Temos:</p><p>S = {1,2,3,4,5,6} ⇒ n(S) =6</p><p>B = {4} ⇒ n(B) = 1</p><p>Logo:</p><p>6</p><p>1</p><p>)( =BP</p><p>- a probabilidade do evento D ”obter um</p><p>número maior que 6 na face superior”.</p><p>Temos:</p><p>S = {1,2,3,4,5,6} ⇒ n(S)=6</p><p>B = ∅ ⇒ n(B) = 0</p><p>Logo:</p><p>6</p><p>0</p><p>)( =BP</p><p>Considerando o jogo de cartas (52 cartas):</p><p>Um baralho de 52 cartas tem quatro nai-</p><p>pes: copas, espadas, paus, ouros. Cada naipe tem</p><p>13 cartas sendo três figuras. Doze figuras no total.</p><p>Veja a figura abaixo.</p><p>- a probabilidade do evento C(sair uma</p><p>figura na retirada de uma carta)</p><p>Temos:</p><p>S = { 52 cartas} ⇒ n(S) = 52</p><p>C = 12 ⇒ n(C) = 12</p><p>Logo</p><p>13</p><p>3</p><p>26</p><p>6</p><p>52</p><p>12</p><p>)( ===CP</p><p>Considerando um jogo de futebol ou basquete-</p><p>bol ou handebol:</p><p>Qualquer um desses jogos acima tem três</p><p>resultados possíveis:</p><p>S = {Vencer, perder, empatar}.</p><p>Estatística Aplicada à Computação</p><p>44</p><p>- a probabilidade de um time vencer é:</p><p>S = {Vencer, perder, empatar}.</p><p>D = {Vencer}</p><p>Temos:</p><p>3</p><p>1</p><p>)( =DP</p><p>Pelos exemplos que acabamos de ver,</p><p>podemos concluir que, sendo n(S) = n:</p><p>a. a probabilidade do evento certo é igual a l:</p><p>P(S} = 1</p><p>a probabilidade do evento impossível é igual a</p><p>zero:</p><p>P(∅) = 0</p><p>c. a probabilidade de um evento E qualquer (E ⊂</p><p>S) é um número real P(E), tal que:</p><p>0 ≤ P(E) ≤ 1</p><p>d. a probabilidade de um evento elementar E</p><p>qualquer é, lembrando que n(E) = 1:</p><p>n</p><p>EP</p><p>1</p><p>)( =</p><p>5.2.2. Processo da freqüência, ou “a posteriori”.</p><p>Se após n repetições de um experimento</p><p>(n suficientemente grande), se observam h ocor-</p><p>rências de determinado evento, então a probabili-</p><p>dade do evento é h/n. Essa probabilidade é chama-</p><p>da também probabilidade empírica.</p><p>Se jogarmos uma moeda 1000 vezes e</p><p>aparece 532 vezes, estimamos a possibilidade de</p><p>“cara” em 532/100 = 0,532.</p><p>5.2.3. Definição axiomática</p><p>Suponhamos um espaço amostral S. Se S</p><p>é discreto, todos os subconjuntos correspondem a</p><p>eventos, e reciprocamente. Mas se S é contínuo,</p><p>apenas determinado subconjuntos (chamados men-</p><p>suráveis) é que representam eventos. A cada even-</p><p>to A na classe C de eventos associamos um núme-</p><p>ro real P(A), isto é, P é uma função real definida</p><p>em C. P é então uma função de probabilidade, e</p><p>P(A) é a probabilidade do evento A, desde que</p><p>sejam satisfeitos os seguintes axiomas:</p><p>Axioma 1. Para todo evento A da classe C</p><p>P(A) ≥ 0</p><p>Axioma 2. Para o evento certo S da classe C</p><p>P(S) = 1</p><p>Axioma 3. Para um número qualquer de eventos</p><p>mutuamente excludentes A1, A2 da classe C</p><p>...)()(...)( 2121 ++=∪∪ APAPAAP</p><p>Em particular, quando temos apenas dois</p><p>eventos mutuamente excludentes A1, A2,</p><p>)()()( 2121 APAPAAP +=∪</p><p>5.7. Regras de Contagem, Combinações e</p><p>Permutações.</p><p>A possibilidade de determinar e con-</p><p>tar os resultados experimentais é uma etapa</p><p>necessária na atribuição de probabilidades.</p><p>Vamos discutir agora três regras de cálculo</p><p>que são úteis.</p><p>5.7.1. Experimentos de Múltipla Etapa. O</p><p>Princípio da Multiplicação. Considere o ex-</p><p>perimento de jogar duas moedas. Quantos</p><p>resultados experimentais são possíveis para</p><p>este experimento? Se usarmos C para coroa e</p><p>K para cara, (K, K) indica resultado experi-</p><p>mental com cara na primeira moeda e cara na</p><p>segunda moeda. Podemos escrever, então, o</p><p>espaço amostral (S) para este experimento de</p><p>arremesso de moedas como</p><p>segue:</p><p>S = {(K,K), (K, C), (C, K), (C, C)}</p><p>A regra de contagem para experimen-</p><p>tos de múltipla etapa torna possível determinar</p><p>o número de resultados experimentais sem</p><p>listá-los.</p><p>A regra é: C = Nn, ou seja, o número</p><p>de resultados (C) para n lançamentos de um</p><p>experimento aleatório com N resultados pos-</p><p>síveis em um evento (por exemplo, no lança-</p><p>mento de uma moeda, N = 2, pois existem</p><p>dois resultados possíveis, cara e coroa.</p><p>Para dois lançamentos, C = 2² = 4;</p><p>para três lançamentos, C = 2³ = 8; e assim por</p><p>diante.</p><p>Estatística Aplicada à Computação</p><p>45</p><p>Um diagrama de árvore pode mostrar</p><p>a configuração dos resultados:</p><p>Para o lançamento de dois dados, C = 6²</p><p>= 36 resultados possíveis. Veja no esquema a se-</p><p>guir.</p><p>EXERCÍCIO</p><p>Calcule o número de maneiras diferentes</p><p>de responder um teste com 20 questões do tipo V</p><p>ou F.</p><p>5.7.2. Combinações. Uma segunda regra de con-</p><p>tagem, que é frequentemente útil, permite-nos</p><p>contar o número de resultados experimentais</p><p>quando n objetos estão para ser selecionados a</p><p>partir de um conjunto de N objetos. Ela é chamada</p><p>regra de contagem para combinações. Na combi-</p><p>nação a ordem não interessa.</p><p>O número de combinações de N objetos</p><p>que são tomados n de cada vez é</p><p>( )</p><p>)!(!</p><p>!</p><p>nNn</p><p>N</p><p>C N</p><p>n</p><p>N</p><p>n</p><p>−</p><p>==</p><p>Onde:</p><p>N!=N(N-1).N(N-2)...(2).(1)</p><p>n!=n(n-1).n(n-2)...(2).(1)</p><p>0! = 1</p><p>A notação ! significa fatorial, 5 fatorial é</p><p>5! = 5.4.3.2.1 = 120. Por definição 0! = 1.</p><p>Por exemplo, quantas combinações de 2</p><p>peças são possíveis se dentro de uma caixa exis-</p><p>tem 5 peças para serem inspecionados a fim de</p><p>verificar a relação de defeitos?</p><p>( ) 10</p><p>12</p><p>120</p><p>1.2.3.1.2</p><p>1.2.3.4.5</p><p>)!25(!2</p><p>!55</p><p>2</p><p>5</p><p>2 ===</p><p>−</p><p>==C</p><p>5.7.3. Arranjos ou Permutações. Uma terceira</p><p>regra de contagem que algumas vezes é útil é a</p><p>regra de contagem para arranjos ou permutações.</p><p>Ela permite calcular o número de resultados expe-</p><p>rimentais quando n objetos estão para ser selecio-</p><p>nados a partir de um conjunto de N objetos onde a</p><p>ordem de seleção é importante. Os mesmos n</p><p>objetos selecionados em uma ordem diferente são</p><p>considerados um resultado experimental diferente.</p><p>Na permutação, cada agrupamento deve ser dife-</p><p>rente do outro.</p><p>O número de permutações (Arranjos) de</p><p>N objetos tomados n de cada vez é dado por</p><p>( ) =</p><p>−</p><p>==</p><p>)!(</p><p>!</p><p>!</p><p>nN</p><p>N</p><p>nP N</p><p>n</p><p>N</p><p>n</p><p>A regra de contagem para permutações</p><p>está estritamente relacionada com aquela para</p><p>combinações; no entanto, um experimento terá</p><p>mais permutações do que combinações para o</p><p>mesmo número de objetos. Isso porque para cada</p><p>seleção de n objetos existem n! diferentes modos</p><p>de ordená-los.</p><p>Como exemplo, considere novamente o</p><p>processo de controle de qualidade no qual um ins-</p><p>petor seleciona duas de cinco peças para inspecio-</p><p>nar defeitos. Quantas permutações podem ser sele-</p><p>cionadas? A regra de contagem mostra que para N</p><p>= 5 e n = 2, temos</p><p>( ) 20</p><p>1.2.3</p><p>1.2.3.4.5</p><p>)!25(</p><p>!5</p><p>!2 5</p><p>2</p><p>5</p><p>2 ==</p><p>−</p><p>==A</p><p>Observe, no esquema, que o número de</p><p>resultados possíveis é 25, mas 5 deles tem os dois</p><p>valores iguais, sendo, portanto, desconsiderados,</p><p>Estatística Aplicada à Computação</p><p>46</p><p>pois no caso das peças, você não poderia pegar,</p><p>por exemplo, duas peças E, pois só existe uma.</p><p>Ocasionalmente deparamos com uma</p><p>situação em que alguns dos itens são idênticos, ou</p><p>indistinguíveis entre si (Permutações). Imagine</p><p>duas moedas de 10 centavos e três moedas de 25</p><p>centavos (DDVVV). A troca de moedas de vinte</p><p>centavos entre si não modifica a permutação. Veri-</p><p>ficamos que há três permutações das moedas de</p><p>vinte centavos e duas permutações das moedas de</p><p>dez centavos. Além disso, há 2!(3!) permutações</p><p>quando se consideram em conjunto os dois tipos</p><p>de moeda. Tais permutações devem ser removidas</p><p>do número total de permutações, para se obter o</p><p>número de permutações com repetição (ou distin-</p><p>guíveis). Isto se consegue dividindo-se o número</p><p>total de permutações n! pelo número das que se</p><p>perdem pelo fato de não serem distinguíveis entre</p><p>si. Neste caso teremos:</p><p>10</p><p>)!3(!2</p><p>!5</p><p>==P</p><p>Em geral, o número de permutações dis-</p><p>tintas com n itens, dos quais n1 são indistinguíveis</p><p>de um tipo, n2 de outro tipo, etc., é</p><p>))...(!)(!(</p><p>!</p><p>21</p><p>,..., 21</p><p>k</p><p>nnn</p><p>n nnn</p><p>n</p><p>P k =</p><p>Onde n = n1 + n2 + ... + nk.</p><p>Exercícios</p><p>1) Uma pequena empresa quer formar um</p><p>time de futebol e 15 funcionários se inscreve-</p><p>ram, dizendo que aceitam jogar em qualquer</p><p>posição. De quantas formas é possível esco-</p><p>lher os 11 jogadores do time?</p><p>R: de 15 operários, 11 serão escolhidos e a ordem de escolha</p><p>não importa, pois queremos escolher apenas os jogadores</p><p>sem determinar as posições em campo. Temos, então, as</p><p>características de uma combinação de 15 pessoas (n = 15)</p><p>para formar grupos de 11 (p = 11).</p><p>2) Em um hospital há apenas 5 leitos disponí-</p><p>veis na emergência. Dez acidentados de um</p><p>ônibus chegam e é preciso escolher 5 para</p><p>ocupar os leitos. Os outros ficariam em ma-</p><p>cas, no corredor do hospital. De quantas for-</p><p>mas poderíamos escolher 5 pessoas que</p><p>ficariam nos leitos?</p><p>R: Na realidade, os responsáveis pela emergência estudariam</p><p>cada caso e escolheriam os mais graves, mas imagine que</p><p>todos tenham a mesma gravidade. Nesse caso, há duas coisas</p><p>a observar: de 10 pessoas, 5 serão escolhidas e a ordem em</p><p>que a escolha é feita não importa. Trata-se, então, de uma</p><p>combinação onde:</p><p>n = 10 (número de .objetos. disponíveis)</p><p>p = 5 (número de .objetos. a serem escolhidos)</p><p>3) Os 15 funcionários da empresa decidem</p><p>escolher uma comissão de 3 membros para</p><p>reivindicar apoio financeiro da diretoria ao</p><p>novo time de futebol. Beto começou a pensar</p><p>em todas as comissões possíveis em que ele</p><p>pudesse ser um dos membros, e nas quais</p><p>Edu não estivesse. Em quantas comissões</p><p>Beto poderia pensar?</p><p>R: Como Edu não pode participar de nenhuma das comissões</p><p>pensadas por Beto, podemos retirá-lo do problema. Temos,</p><p>então, 14 funcionários para formar comissões de 3. Como um</p><p>dos membros sempre é o Beto, precisamos descobrir os outros</p><p>dois membros que devem ser escolhidos dentre 13 pessoas</p><p>(Beto já foi .escolhido.).</p><p>4) Entre os 12 acionistas de uma empresa,</p><p>serão escolhidos 1 para presidente, para vi-</p><p>ce-presidente e 2 tesoureiros. Sabendo que</p><p>há 4 candidatos para os cargos de presidente</p><p>e vice-presidente, e 5 candidatos a tesourei-</p><p>ros, responda: de quantas formas os cargos</p><p>poderão ser preenchidos?</p><p>5) Uma emissora de TV tem 15 comerciais</p><p>para serem igualmente distribuídos nos 5</p><p>intervalos de um filme. Se em cada intervalo</p><p>forem exibidos 3 comerciais diferentes, de</p><p>quantas formas pode-se escolher os comer-</p><p>ciais que serão passados em cada intervalo?</p><p>6) Se há 7 cavalos em um páreo, quantos arranjos</p><p>há, considerando 1º, 2º e 3º lugares? Ou seja,</p><p>quantos são os arranjos possíveis de n objetos to-</p><p>mados x de cada vez?</p><p>7) Quantas permutações distintas de 3 letras po-</p><p>demos formar com as letras RRRRUUUN</p><p>Estatística Aplicada à Computação</p><p>47</p><p>5.8. EVENTOS COMPLEMENTARES</p><p>Sabemos que um evento pode ocorrer ou</p><p>não. Sendo p a probabilidade de que ele ocorra</p><p>(sucesso) e q a probabilidade de que ele não ocorra</p><p>(insucesso), para um mesmo evento existe sempre</p><p>a relação:</p><p>p + q = 1 ⇒ q = 1 – p</p><p>Assim, se a probabilidade de se realizar</p><p>um evento é 5</p><p>1=P , a probabilidade de que ele</p><p>não ocorra é:</p><p>5</p><p>4</p><p>5</p><p>1</p><p>1 =−=⇒−= qpq</p><p>Sabemos que a probabilidade de tirar o 4</p><p>no lançamento de um dado é 6</p><p>1=P . Logo, a</p><p>probabilidade de não tirar o 4 no lançamento de</p><p>um dado é:</p><p>6</p><p>5</p><p>6</p><p>1</p><p>1 =−=q</p><p>5.9. PROBABILIDADE CONDICIONAL</p><p>O problema da interseção entre eventos</p><p>não mutuamente exclusivos requer o emprego da</p><p>probabilidade condicional, expressa matematica-</p><p>mente assim:</p><p>)( ABP ou probabilidade de ocorrer o</p><p>evento B desde que (dado que) tenha ocorrido o</p><p>evento A. A probabilidade condicional é utilizada</p><p>para determinar a ocorrência de um evento quando</p><p>este é afetado por outra condição.</p><p>Por</p><p>exemplo, no caso da retirada de um</p><p>rei no jogo de cartas, considerando-se um total de</p><p>52 cartas, sendo 13 de cada naipe:</p><p>221</p><p>1</p><p>663</p><p>3</p><p>51</p><p>3</p><p>13</p><p>1</p><p>)Reº2º1()|(</p><p>0588,0</p><p>51</p><p>3</p><p>)Reº2()|(</p><p>13</p><p>1</p><p>52</p><p>4</p><p>)Reº1()(</p><p>====∩</p><p>===</p><p>===</p><p>xiePABAP</p><p>iPABP</p><p>iPAP</p><p>A probabilidade de retirar um rei, tendo</p><p>sido previamente retirado um rei, é assim determi-</p><p>nada:</p><p>que é o mesmo valor determinado inici-</p><p>almente (p/2º Rei)=0,0588.</p><p>MAIS UM EXEMPLO:</p><p>Consideremos 250 alunos que cursam o</p><p>primeiro ciclo de uma faculdade. Desses alunos</p><p>100 são homens (H) e 150 são mulheres (M), 110</p><p>cursam física (F) e 140 cursam química (Q). A</p><p>distribuição dos alunos é a seguinte:</p><p>Disciplina F Q Total</p><p>Sexo</p><p>H 40 60 100</p><p>M 70 80 150</p><p>Total 110 140 250</p><p>Um aluno é sorteado ao acaso. Qual a</p><p>probabilidade de que esteja cursando química,</p><p>dado que é mulher?</p><p>Pelo quadro percebemos que esta proba-</p><p>bilidade é 150</p><p>80 e representamos:</p><p>150</p><p>80</p><p>)/( =MQP (Probabilidade de que</p><p>o aluno curse química, condicionado ao fato de ser</p><p>mulher).</p><p>Observamos, porém, que:</p><p>150</p><p>80</p><p>250</p><p>150</p><p>250</p><p>80</p><p>)/( ==MQP</p><p>Logo</p><p>)(</p><p>)(</p><p>)/(</p><p>MP</p><p>QMP</p><p>MQP</p><p>∩</p><p>=</p><p>Sejam A ⊂ Ω e B ⊂ Ω. Definimos Pro-</p><p>babilidade Condicional de A dado que B ocorre</p><p>(A/B) como segue:</p><p>0588,0</p><p>13</p><p>1</p><p>221</p><p>1</p><p>)Reº1Reº2(</p><p>)(</p><p>)|(</p><p>)|(</p><p>==</p><p>∩</p><p>=</p><p>iiP</p><p>AP</p><p>ABAP</p><p>BAP</p><p>Estatística Aplicada à Computação</p><p>48</p><p>0 P(B) se ,</p><p>)(</p><p>)(</p><p>)|( ≠</p><p>∩</p><p>=</p><p>BP</p><p>BAP</p><p>BAP</p><p>Também:</p><p>0 P(A) se ,</p><p>)(</p><p>)(</p><p>)|( ≠</p><p>∩</p><p>=</p><p>AP</p><p>ABP</p><p>ABP</p><p>EXERCÍCIO</p><p>Duas bolas vão ser retiradas da urna que contém 2</p><p>bolas brancas, 3 pretas e 4 verdes. Qual a prob-</p><p>abilidade de que ambas:</p><p>a. sejam verdes?</p><p>b. Sejam da mesma cor?</p><p>5.10. EVENTOS DEPENDENTES E INDE-</p><p>PENDENTES</p><p>A utilização da probabilidade condicio-</p><p>nal P(B|A) está intimamente relacionada ao con-</p><p>ceito de eventos dependentes e independentes. De</p><p>um modo geral, dizemos que dois eventos são</p><p>independentes quando a ocorrência de um não tem</p><p>o menor efeito na probabilidade de ocorrência do</p><p>outro. Dando um exemplo do nosso cotidiano, se</p><p>um casal tem três filhos do sexo masculino e dese-</p><p>ja que o próximo seja do sexo feminino, a ocor-</p><p>rência anterior de três filhos do sexo masculino</p><p>influi na probabilidade de que, na quarta gestação,</p><p>a criança seja do sexo feminino? Evidentemente</p><p>não, pois a chance de nascer uma menina continua</p><p>sendo p = ½, independentemente do sexo dos fi-</p><p>lhos que nasceram anteriormente.</p><p>Consideremos mais um exemplo de pro-</p><p>babilidade condicional relacionando-o aos eventos</p><p>dependentes e independentes. Seja um experimen-</p><p>to de lançar dois dados: A é o evento em que, no</p><p>primeiro dado, aparece um número par, e B o e-</p><p>vento em que a soma dos pontos de ambos os da-</p><p>dos é quatro.</p><p>A = {2, 4, 6} B = {1,3; 2,2; 3,1}</p><p>O espaço amostral do evento A abrange</p><p>três elementos: dois, quatro e seis; como o total de</p><p>possibilidade é seis, temos P (A) =3/6=1/2 . Em</p><p>relação ao evento B, o espaço amostral compreen-</p><p>de os seguintes elementos: 1,3; 2,2; 3,1, cada soma</p><p>totalizando quatro. Cada dado tem seis números. A</p><p>combinação dos seis números dois a dois, pois</p><p>trata-se de dois dados, leva a trinta e seis resulta-</p><p>dos. Como são três elementos em 36 combinações</p><p>possíveis, teremos para o evento B: P(B) =</p><p>3/36=1/12.</p><p>Examinemos agora a probabilidade con-</p><p>dicional para essa situação. Os eventos são depen-</p><p>dentes, pois desejamos saber a probabilidade de</p><p>uma soma de quatro pontos dos dois dados, sendo</p><p>que no primeiro ocorreu um número par. Tradu-</p><p>zindo esta frase para a linguagem da probabilidade</p><p>condicional teremos:</p><p>P(B I A)= 1/36.</p><p>Então, ao fazermos 36 lançamentos de</p><p>dois dados, apenas o elemento (2,2) atende aos</p><p>critérios referidos nos eventos A e B. Temos, co-</p><p>mo regra geral, que para eventos dependentes, P</p><p>(B) ≠ P (B / A); isto quer dizer que o fato de um</p><p>evento influir no outro afeta a probabilidade de</p><p>ocorrência desse outro. Neste caso constatamos</p><p>que realmente</p><p>36</p><p>1</p><p>)(</p><p>12</p><p>1</p><p>)( =≠= ABPBP</p><p>No exemplo a seguir, ilustraremos o</p><p>assunto utilizando uma mesma situação em que</p><p>podem ocorrer eventos dependentes ou indepen-</p><p>dentes: é o caso do jogo de cartas, que se presta</p><p>aos dois tipos de ocorrências. Vejamos a primeira</p><p>possibilidade, relativa a retirada sucessiva de duas</p><p>cartas de um baralho, sem que a primeira seja nele</p><p>reposta. Seja A o evento em que a primeira carta é</p><p>um rei e B o evento em que a segunda carta é um</p><p>ás. Os eventos são dependentes, pois a retirada de</p><p>uma carta diminui o total de cartas de 52 para 51.</p><p>Temos, então, como probabilidade de retirar em</p><p>primeiro lugar um rei P (A) = 4/52, pois existem</p><p>52 quatro reis no baralho. Já na segunda retirada,</p><p>contamos com um total de 51 cartas e quatro ases,</p><p>então P (B / A) = 4/51. Observamos aí que a se-</p><p>gunda retirada de carta sofreu efeito da primeira.</p><p>Convém ainda destacar que, neste exemplo, P (A)</p><p>= 4/52 e P (B / A) = 4/51, o que confirma matema-</p><p>ticamente a dependência dos eventos.</p><p>O que ocorreria se a primeira carta reti-</p><p>rada, o rei, fosse recolocada no baralho, que volta-</p><p>ria a ter 52 cartas?</p><p>Neste caso, teríamos dois eventos inde-</p><p>pendentes, pois a retirada da primeira carta não</p><p>influi na probabilidade de retirada da segunda.</p><p>Obteríamos, então:</p><p>52</p><p>4</p><p>P(B)</p><p>52</p><p>4</p><p>)( ==AP</p><p>Estatística Aplicada à Computação</p><p>49</p><p>Neste contexto, as probabilidades de</p><p>retirada de um rei e logo após de um ás são equi-</p><p>valentes.</p><p>5.11. REGRAS DE MULTIPLICAÇÃO (TEO-</p><p>REMA DO PRODUTO)</p><p>A interseção de dois eventos A e B de</p><p>um espaço amostral é designada por P (A ∩ B). A</p><p>ocorrência conjunta de A e B implica na observa-</p><p>ção apenas dos elementos comuns aos dois even-</p><p>tos. Para determinar matematicamente esta inter-</p><p>seção, utilizamos a regra de multiplicação, que</p><p>difere conforme os eventos sejam dependentes ou</p><p>independentes.</p><p>Para eventos independentes, a regra é a</p><p>seguinte:</p><p>P (A ∩ B) = P (A) x P (B)</p><p>A probabilidade de que ocorra um evento</p><p>e o outro – ênfase na conjunção E – é obtida pelo</p><p>produto das probabilidades dos dois eventos. Ve-</p><p>jamos um exemplo: suponhamos que, ao lançar</p><p>dois dados, queremos que no primeiro apareça o</p><p>número 6 (A) e no segundo o número 4 (B). Os</p><p>dois eventos são independentes? Sim, pois a ocor-</p><p>rência de um não influi na ocorrência do outro.</p><p>Como resolver então o problema?</p><p>Em primeiro lugar, temos que P (A) =</p><p>1/6, pois existe uma única face dentre as seis exis-</p><p>tentes que pode apresentar o número seis.</p><p>P(B)=1/6, por razões similares. Aplicando a fór-</p><p>mula acima teremos:</p><p>36</p><p>1</p><p>6</p><p>1</p><p>.</p><p>6</p><p>1</p><p>)( ==∩ BAP</p><p>Assim, a probabilidade de que no lança-</p><p>mento de dois dados seja retirado um seis e um</p><p>quatro, no primeiro e no segundo dado, respecti-</p><p>vamente, é de</p><p>36</p><p>1</p><p>.</p><p>Examinemos agora um exemplo da regra</p><p>de multiplicação para eventos dependentes. Estes,</p><p>como já foi mencionado, requerem a utilização da</p><p>probabilidade condicional. Como um evento influi</p><p>na probabilidade do outro, o segundo elemento da</p><p>fórmula para o produto é modificado, ficando as-</p><p>sim:</p><p>P (A ∩ B ) = P (A) x P (B | A)</p><p>A situação é a seguinte: ao se retirar duas</p><p>cartas de um baralho, sem reposição, queremos</p><p>que uma e outra sejam ás. Estes eventos são inde-</p><p>pendentes? Não, pois há uma diminuição no total</p><p>de cartas (de 52 para 51) e no total de ases (de</p><p>quatro para três). Neste caso, a retirada da primeira</p><p>carta influi na probabilidade da segunda. Apli-</p><p>cando a fórmula, teríamos:</p><p>221</p><p>1</p><p>2652</p><p>12</p><p>51</p><p>3</p><p>.</p><p>52</p><p>4</p><p>B)P(A</p><p>ás) um menos e carta uma (menos</p><p>51</p><p>3</p><p>)(</p><p>52</p><p>4</p><p>)(</p><p>===∩</p><p>=</p><p>=</p><p>ABP</p><p>AP</p><p>Na mesma situação de jogo de cartas,</p><p>desde que haja reposição (o que caracteriza os</p><p>eventos independentes), se queremos obter um ás</p><p>(A) e um rei (B), a determinação de sua probabili-</p><p>dade conjunta se simplificada. Voltando-se a utili-</p><p>zar a primeira fórmula de produto, temos:</p><p>169</p><p>1</p><p>2704</p><p>16</p><p>52</p><p>4</p><p>.</p><p>52</p><p>4</p><p>)(</p><p>52</p><p>4</p><p>)(</p><p>52</p><p>4</p><p>)(</p><p>===∩</p><p>=</p><p>=</p><p>BAP</p><p>BP</p><p>AP</p><p>5.12. REUNIÃO</p><p>DE EVENTOS (TEOREMA</p><p>DA SOMA)</p><p>Até agora nos preocupamos em aprender</p><p>a determinar a probabilidade de ocorrência conjun-</p><p>ta de dois eventos, expressa como probabilida-</p><p>de de A e B – P(A B). Examinemos, agora, ou-</p><p>tro ângulo a ser considerado: a ocorrência de um</p><p>evento ou outro ou ambos. Consideremos o se-</p><p>guinte exemplo: estamos fazendo uma primeira</p><p>entrevista com um paciente e suspeitamos de que</p><p>ele possa ter problemas na área familiar ou social;</p><p>isto não quer dizer que ambas as áreas não possam</p><p>estar comprometidas. Então, o paciente pode ter</p><p>dificuldades na área familiar ou social ou em am-</p><p>bas. Este exemplo ilustra, com bastante clareza, a</p><p>diferença entre interseção - multiplicação de even-</p><p>tos e reunião - adição de eventos. Enquanto no</p><p>primeiro caso lidamos com pelo menos dois even-</p><p>tos, em que nosso único interesse é o que há de</p><p>comum entre eles – expresso por um E – no se-</p><p>gundo focalizamos apenas um evento, propondo</p><p>Estatística Aplicada à Computação</p><p>50</p><p>várias alternativas possíveis – o que é caracteriza-</p><p>do pela expressão OU. A expressão P (A ou B) é</p><p>formulada matematicamente assim: P (A ∪ B).</p><p>Da mesma forma que para a multiplica-</p><p>ção de probabilidades a adição também apresenta</p><p>duas estratégias, relacionadas ao fato de os eventos</p><p>serem ou não mutuamente exclusivos. O uso da</p><p>palavra OU tem então dois sentidos diferentes,</p><p>sendo freqüente que tenhamos de adivinhar a qual</p><p>delas nos referimos. Se Joaquim diz: ”Vou levar</p><p>Patrícia ou Lúcia ao baile de sábado”, presumimos</p><p>que levará uma ou outra, mas não ambas. Nesse</p><p>contexto, os eventos são mutuamente exclusivos e</p><p>o uso do OU é denominado ”ou exclusivo”, pois</p><p>fica excluída a possibilidade de ambos os eventos</p><p>ocorrerem simultaneamente.</p><p>Já quando um professor diz aos seus</p><p>alunos: ”Darei um MB (muito bom) a todos os que</p><p>obtiverem notas superiores a 89 nas provas men-</p><p>sais ou a todos cuja nota seja superior a 94 no e-</p><p>xame final”, qual o significado de sua afirmação?</p><p>O aluno que obtiver ambas as notas superiores a</p><p>esses valores mínimos ficará excluído do MB? O</p><p>aluno só ganhará um MB se obtiver nota superior a</p><p>89 nas provas mensais ou nota superior a 94 no</p><p>exame final? Neste caso, configura-se o ”ou inclu-</p><p>sivo”, pois os eventos não são mutuamente exclu-</p><p>sivos. O aluno pode ter nota superior a 89 nas pro-</p><p>vas mensais ou superior a 94 no exame final ou</p><p>ambos.</p><p>Estando claras as duas situações-eventos</p><p>mutuamente exclusivos ou não –, como aplicar a</p><p>elas as regras de adição ou reunião de eventos?</p><p>Ao retirarmos uma carta de um baralho,</p><p>os eventos rei (A) e ás (B) são mutuamente exclu-</p><p>sivos, pois não podem ocorrer simultaneamente.</p><p>Neste caso, a probabilidade de tirar um rei ou um</p><p>ás é a seguinte:</p><p>13</p><p>2</p><p>52</p><p>8</p><p>52</p><p>4</p><p>52</p><p>4</p><p>)()()(</p><p>==+=</p><p>+=∪ BPAPBAP</p><p>A regra de adição para dois eventos mu-</p><p>tuamente exclusivos é, portanto, a seguinte:</p><p>P (A ∪ B) = P (A) + P (B)</p><p>Examinemos outro problema relativo a</p><p>cartas, em que se solicita a retirada dos eventos rei</p><p>(A) e naipe de espadas (B) num conjunto de dois</p><p>baralhos (como é o caso do jogo de buraco, sem os</p><p>coringas). Neste caso, surge um fator complicador,</p><p>que é o seguinte: como rei e naipe de espadas não</p><p>são mutuamente exclusivos, o espaço amostral de</p><p>ambos apresenta uma região de interseção repre-</p><p>sentada pelos dois reis de espadas. Observe a in-</p><p>terseção entre eventos não mutuamente exclusivos</p><p>na ilustração abaixo:</p><p>No nosso exemplo, a zona hachurada</p><p>compreende os dois reis de espadas, elementos</p><p>comuns a A e a B. Como P (A) + P (B) inclui a</p><p>probabilidade de ocorrência de certos elementos –</p><p>apresentados na região hachurada – duas vezes,</p><p>esta expressão matemática corresponde a probabi-</p><p>lidade de retirar: rei ou espadas ou dois reis de</p><p>espadas. Então, quando se trata da adição de dois</p><p>eventos não mutuamente exclusivos, precisamos</p><p>introduzir um fator de correção, retirando-se o</p><p>elemento comum aos dois eventos, e que apareceu</p><p>duas vezes. Empregamos então a fórmula:</p><p>P (A ∪ B) = P (A) + P (B) - P (A ∩ B)</p><p>Como temos</p><p>104</p><p>8</p><p>)( =AP (oito reis em</p><p>104 cartas),</p><p>104</p><p>26</p><p>)( =BP (26 cartas do naipe de</p><p>espadas em dois baralhos) e existem dois reis de</p><p>espadas, excluiremos a carta contada em dobro;</p><p>esta corresponde a</p><p>52</p><p>1</p><p>)( =∩ BAP .</p><p>Teríamos assim:</p><p>30769,0</p><p>52</p><p>1</p><p>104</p><p>26</p><p>104</p><p>8</p><p>espadas) de reiou espadasou (rei )(</p><p>52</p><p>1</p><p>B)P(A</p><p>104</p><p>26</p><p>P(B)</p><p>104</p><p>8</p><p>)(</p><p>=−+</p><p>==∪</p><p>=∩==</p><p>PBAP</p><p>AP</p><p>Observemos que a fórmula acima só se</p><p>refere a eventos não mutuamente exclusivos, em</p><p>que A ∩ B ≠ O, havendo elementos comuns aos</p><p>dois conjuntos. Quando ocorrer o oposto, A ∩ B =</p><p>0, utilizaremos a primeira fórmula para a adição de</p><p>eventos: P (A ∪ B) = P (A) + P (B)</p><p>Examinemos mais alguns exemplos da</p><p>adição de eventos, quando estes não são mutua-</p><p>mente exclusivos.</p><p>Um pesquisador pretende verificar qual a</p><p>probabilidade de uma pessoa de mais de 21 anos,</p><p>Estatística Aplicada à Computação</p><p>51</p><p>moradora de certa localidade, possuir casa própria</p><p>(A) ou carro próprio (B). No levantamento por ele</p><p>realizado, constatou que P (A) = 0,4 e P (B) = 0,8.</p><p>Se ele desejar saber a probabilidade de as pessoas</p><p>terem casa própria ou carro, pode ser que utilize a</p><p>primeira regra de adição, somando: P (A) + P (B)</p><p>= 0,4+ 0,8 = 1,2.</p><p>Este resultado é logicamente impossível,</p><p>visto que a probabilidade de um evento varia de 0</p><p>a 1. Onde o pesquisador errou? Ao se esquecer de</p><p>que algumas pessoas podem possuir casa própria e</p><p>carro, não sendo os eventos mutuamente exclusi-</p><p>vos (essas pessoas serão contadas duas vezes).</p><p>Para fazer o cálculo adequado, o pesquisador teria</p><p>que utilizar a segunda fórmula para adição de pro-</p><p>babilidades. Falta a ele, porém, o conhecimento do</p><p>elemento P (A ∩ B).</p><p>Então, para aplicá-la, teria duas opções:</p><p>ou verificar P (A ∩ B) numa tabela de probabili-</p><p>dade conjunta ou substituir diretamente na fórmu-</p><p>la. Neste último caso, considerando que os eventos</p><p>não estão condicionados, P (A ∩ B) é determinada</p><p>aplicando-se a P (A) x P (B) = 0,4 x 0,8 = 0,32.</p><p>Substituindo na fórmula da adição, teremos: P (A</p><p>∩ B) = 0,4 + 0,8 – 0,32 = 0,88.</p><p>Numa situação-problema como a que se</p><p>segue, estes novos conhecimentos nos são muito</p><p>úteis. Digamos que a Urna I contém duas bolas</p><p>vermelhas e uma branca e a Urna II duas bolas</p><p>vermelhas e duas brancas.</p><p>I = {V, V, A}.</p><p>II = {V,V, B, B}.</p><p>Retirando uma bola de cada uma, qual a</p><p>probabilidade de se obter pelo menos uma bola</p><p>vermelha?</p><p>Este problema insere-se na situação de</p><p>que ou é retirada uma bola vermelha da Urna I ou</p><p>uma bola vermelha da Urna II ou de ambas. Te-</p><p>mos, então, um problema de reunião de eventos,</p><p>em que estes não são mutuamente exclusivos. A</p><p>fórmula a ser empregada é, então:</p><p>P (A ∪ B) = P (A) + P (B) – P (A ∩ B)</p><p>Vamos então resolvê-lo?</p><p>Temos que P (A) de retirar uma bola</p><p>vermelha da Urna I é de</p><p>3</p><p>2</p><p>. Já a P (B), de retirar</p><p>uma bola vermelha da Urna II, é</p><p>2</p><p>1</p><p>4</p><p>2</p><p>= . Como</p><p>calcular P (A ∩ B)?</p><p>Os eventos são dependentes, então P (B |</p><p>A) de retirarmos uma segunda bola vermelha após</p><p>a retirada da primeira é</p><p>2</p><p>1</p><p>6</p><p>3</p><p>= , pois restam três</p><p>bolas num total de seis (das sete restaram seis).</p><p>Assim, P (A ∩ B) = P (A) x P (B I A) =</p><p>3</p><p>1</p><p>.</p><p>Substituindo na fórmula apropriada, te-</p><p>mos:</p><p>6</p><p>5</p><p>3</p><p>1</p><p>2</p><p>1</p><p>3</p><p>2</p><p>)( =−+=∪ BAP</p><p>EXERCÍCIOS</p><p>1) Qual a probabilidade de sair o ás de ouros</p><p>quando retiramos uma carta de um baralho de 52</p><p>cartas?</p><p>2) Qual a probabilidade de sair um rei quando</p><p>retiramos uma carta de um baralho de 52 cartas?</p><p>3) Em um lote de 12 peças, 4 são defeituosas.</p><p>Sendo retirada uma peça, calcule:</p><p>a. a probabilidade de essa peça ser defeituosa.</p><p>b. a probabilidade de essa peça não ser defei-</p><p>tuosa.</p><p>4) No lançamento de dois dados, calcule a proba-</p><p>bilidade de se obter soma igual a 5.</p><p>5) De dois baralhos de 52 cartas retiram-se, si-</p><p>multaneamente, uma carta do primeiro baralho e</p><p>uma carta do segundo. Qual a probabilidade</p><p>de a</p><p>carta do primeiro baralho ser um rei e a do segun-</p><p>do ser o 5 de paus?</p><p>6) Uma urna A contém: 3 bolas brancas, 4 pretas,</p><p>2 verdes; uma urna B contém: 5 bolas brancas, 2</p><p>pretas, 1 verde; uma urna C contém: 2 bolas bran-</p><p>cas, 3 pretas, 4 verdes. Uma bola é retirada de cada</p><p>urna. Qual é a probabilidade de as três bolas reti-</p><p>radas da primeira, segunda e terceira urnas serem,</p><p>respectivamente, branca, preta e verde?</p><p>7) De um baralho de 52 cartas retiram-se, ao</p><p>acaso, duas cartas sem reposição. Qual é a proba-</p><p>bilidade de a primeira carta ser o ás de paus e a</p><p>segunda ser o rei de paus?</p><p>8) Qual a probabilidade de sair uma figura quan-</p><p>do retiramos uma carta de um baralho de 52 car-</p><p>tas?</p><p>Estatística Aplicada à Computação</p><p>52</p><p>9) Qual a probabilidade de sair uma carta de</p><p>copas ou de ouros quando retiramos uma carta de</p><p>um baralho de 52 cartas?</p><p>10) No lançamento de um dado, qual a probabili-</p><p>dade de se obter um número não-inferior a 5?</p><p>11) São dados dois baralhos de 52 cartas. Tira-</p><p>mos, ao mesmo tempo, uma carta do primeiro</p><p>baralho e uma carta do segundo. Qual é a probabi-</p><p>lidade de tirarmos uma dama e um rei, não neces-</p><p>sariamente nessa ordem?</p><p>12) Dois dados são lançados conjuntamente. De-</p><p>termine a probabilidade de a soma ser 10 ou maior</p><p>que 10.</p><p>13) Determine a probabilidade de cada evento:</p><p>a. Um número par aparece no lançamento de um</p><p>dado.</p><p>b. Uma figura aparece ao se extrair uma carta de</p><p>um baralho de 52 cartas.</p><p>c. Uma carta de ouros aparece ao se extrair uma</p><p>carta de um baralho de 52 cartas.</p><p>d. Uma só coroa aparece no lançamento de três</p><p>moedas.</p><p>14) Dois dados são lançados simultaneamente.</p><p>Determine a probabilidade de:</p><p>a. a soma ser menor que 4;</p><p>b. a soma ser 9;</p><p>c. o primeiro resultado ser maior que o segundo;</p><p>d. a soma ser menor ou igual a 5.</p><p>15) Uma moeda é lançada duas vezes. Calcule a</p><p>probabilidade de:</p><p>a. não ocorrer cara nenhuma vez;</p><p>b. obter-se cara na primeira ou na segunda joga-</p><p>da.</p><p>16) Um inteiro entre 3 e 11 será escolhido ao aca-</p><p>so.</p><p>a. Qual é a probabilidade de que este número</p><p>seja ímpar?</p><p>b. Qual é a probabilidade de que este número</p><p>seja ímpar e divisível por 3?</p><p>17) Uma carta é retirada ao acaso de um baralho</p><p>de 52 cartas. Qual a probabilidade de que a carta</p><p>retirada seja uma dama ou uma carta de copas?</p><p>18) No lançamento de dois dados, qual é a proba-</p><p>bilidade de se obter um par de pontos iguais?</p><p>19) No lançamento de um dado, qual é a probabi-</p><p>lidade de sair o número 6 ou um número ímpar?</p><p>20) Um casal planeja ter três filhos. Determine a</p><p>probabilidade de nascerem:</p><p>a. três homens; b) dois homens e uma mulher.</p><p>21) Considere a experiência que consiste em</p><p>pesquisar famílias com três crianças, em relação</p><p>ao sexo das mesmas, segundo a ordem de nasci-</p><p>mento. Enumerar os eventos:</p><p>a. ocorrência de dois filhos do sexo masculino;</p><p>b. ocorrência de pelo menos um filho do sexo</p><p>masculino;</p><p>c. ocorrência de no máximo duas crianças do</p><p>sexo feminino.</p><p>22) Considere o caso de uma pequena fábrica de</p><p>montagem com 50 empregados. Espera-se que</p><p>cada trabalhador complete as atribuições do</p><p>trabalho no horário e de tal modo que o produto</p><p>montado passe numa inspeção final. Em certas</p><p>ocasiões, alguns dos trabalhadores não tem êxito</p><p>em satisfazer os padrões de desempenho,</p><p>completando o trabalho mais tarde e/ou montando</p><p>produtos com defeito. No fim de um período de</p><p>avalição de desempenho, o gerente descobriu que</p><p>5 dos 50 trabalhadores tinham completado o</p><p>trabalho mais tarde, que 6 dos 50 trabalhadores</p><p>tinham montado ptodutos com defeito, e que 2 dos</p><p>50 trabalhadores tinham tanto completado o</p><p>trabalho mais tarde como montado produtos</p><p>defeituosos. Qual a probabilidade de um</p><p>trabalhador da empresa ser considerado de</p><p>desempenho fraco?</p><p>23) Levantamento de benefícios para 254</p><p>executivos coorporativos mostrou que 155</p><p>executivos foram agraciados com telefones</p><p>móveis, 152 foram agraciados com títulos de</p><p>membros de clubes e 110 foram agraciados, como</p><p>previlégios associados à sua posição, tanto com</p><p>telefones móveis como com títulos de membros de</p><p>clube.</p><p>a) Seja M um evento de se ter um telefone móvel e</p><p>C o evento de se ter um título de membro de clube.</p><p>Encontre as seguintes probabilidades: P(M), P(C)</p><p>e P(M∩C).</p><p>b)Use as probabilidaddes do item (a) para calcular</p><p>a probabilidade de que um executivo coorporativo</p><p>tenha pelo menos um dos dois privilégios.</p><p>c)Qual é a probabilidade de que um executivo</p><p>coorporativo não tenha qualquer destes</p><p>privilégios?</p><p>Estatística Aplicada à Computação</p><p>53</p><p>6.0 - DISTRIBUIÇÕES DE PROBABILIDADE</p><p>O objetivo deste capítulo é apresentar</p><p>modelos teóricos de distribuição de probabili-</p><p>dade, aos quais um experimento aleatório es-</p><p>tudado possa ser adaptado, o que permitirá a</p><p>solução de grande número de problemas práti-</p><p>cos.</p><p>Suponhamos um espaço amostral S e</p><p>que a cada ponto amostral seja atribuído um</p><p>número. Fica, então, definida uma função</p><p>chamada variável aleatória indicada por uma</p><p>letra maiúscula, sendo seus valores indicados</p><p>por letras minúsculas.</p><p>Assim, se o espaço amostral relativo ao</p><p>”lançamento simultâneo de duas moedas” é S =</p><p>{(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)} e se X</p><p>representa ”o número de caras” que aparecem, a</p><p>cada ponto amostral podemos associar um número</p><p>para X, de acordo com a tabela a seguir:</p><p>PONTO AMOSTRAL X</p><p>(Ca, Ca) 2</p><p>(Ca, Co) 1</p><p>(Co, Ca) 1</p><p>(Co, Co) 0</p><p>Pode-se, então, escrever:</p><p>NÚMERO DE</p><p>ACIDENTES PROBABILIDADES</p><p>0 0,73</p><p>1 0,17</p><p>2 0,07</p><p>3 0,03</p><p>Σ = 1,00</p><p>Essa tabela é denominada distribuição de</p><p>probabilidade.</p><p>Seja X uma variável aleatória que pode</p><p>assumir os valores x1, x2, x3,...,xn. A cada valor xi</p><p>correspondem pontos do espaço amostral. Asso-</p><p>cia-se, então, a cada valor xi a probabilidade pi de</p><p>ocorrência de tais pontos no espaço amostral.</p><p>Assim, tem-se:</p><p>Σpi=1</p><p>Os valores x1, x2,...,xn e seus correspon-</p><p>dentes p1, p2, ..., pn definem uma distribuição de</p><p>probabilidade.</p><p>Assim, voltando à tabela do início do capí-</p><p>tulo, tem-se:</p><p>PONTO</p><p>AMOSTRAL</p><p>X P(x)</p><p>(Ca, Ca) 2 ½ X ½ = ¼</p><p>(Ca, Co) 1 ½ X ½ = ¼ ¼ + ¼ = 2/4</p><p>(Co, Ca) 1 ½ X ½ = ¼</p><p>(Co, Co) 0 ½ X ½ = ¼</p><p>Ao definir a distribuição de probabilidade,</p><p>estabelece-se uma correspondência unívoca entre</p><p>os valores da variável aleatória X e os valores da</p><p>variável P. Esta correspondência define uma fun-</p><p>ção; os valores xi (i = 1, 2, ..., n) formam o domí-</p><p>nio da função e os valores pi (i = 1, 2, 3, ..., n), o</p><p>seu conjunto imagem.</p><p>Essa função, assim definida, é deno-</p><p>minada função probabilidade e representada</p><p>por:</p><p>f(x) = P(X = xi)</p><p>A função P(X = xi) determina a distribui-</p><p>ção de probabilidade da variável aleatória X.</p><p>Assim, ao lançarmos um dado, a variável</p><p>aleatória X, definida por ”pontos de um dado”,</p><p>pode tomar os valores 1, 2, 3, ..., 6.</p><p>Como a cada um destes valores está asso-</p><p>ciada uma e uma só probabilidade de realização e</p><p>Σ P(xi) = 1, fica definida uma função de probabili-</p><p>dade, da qual resulta a seguinte distribuição de</p><p>probabilidade:</p><p>X P(X)</p><p>1 1/6</p><p>2 1/6</p><p>3 1/6</p><p>4 1/6</p><p>5 1/6</p><p>6 1/6</p><p>ΣP(X) = 1</p><p>Estatística Aplicada à Computação</p><p>54</p><p>6.1. DISTRIBUIÇÕES DISCRETAS DE</p><p>PROBABILIDADE</p><p>Uma variável aleatória é uma descrição</p><p>numérica do resultado de um experimento.</p><p>Uma variável que só pode assumir valores perten-</p><p>centes a um conjunto enumerável recebe o nome</p><p>de variável discreta.</p><p>Assim, o número de alunos de uma escola</p><p>pode assumir qualquer um dos valores do conjunto</p><p>N={1,2,3, .., 58, ..}, mas nunca valores como 2,5</p><p>ou 3,78 ou 4,235 etc. Logo, é uma variável dis-</p><p>creta.</p><p>De um modo geral as contagens ou enu-</p><p>merações dão origem a variáveis discretas.</p><p>A distribuição de probabilidade para uma</p><p>variável aleatória descreve como as probabilidades</p><p>estão distribuídas sobre os valores da variável</p><p>aleatória. Para uma variável discreta x, a distribui-</p><p>ção de probabilidade é definida por uma</p><p>provas de uma</p><p>determinada disciplina, conseguindo, ao término</p><p>do ano, um conjunto de notas; tais notas formam os</p><p>elementos do conjunto. Serão substituídos por um</p><p>único elemento, por um parâmetro que, no caso, é</p><p>a média aritmética, e que possibilitará anunciar a</p><p>todos os interessados se o aluno obteve ou não</p><p>habilitação nessa disciplina.</p><p>Ao conjunto de pessoas, de escolas, de</p><p>notas, de leitos de um hospital etc., que constitui o</p><p>todo para permitir o cálculo do parâmetro, é dado o</p><p>título de universo. O universo é, assim, o conjunto</p><p>constituído por todos os elementos; tais elementos</p><p>são reunidos em subconjuntos denominados popu-</p><p>lações. Assim:</p><p>- o conjunto de escolas de 1º e 2 º graus do</p><p>Rio Grande do Sul é um universo que contém po-</p><p>pulações de escolas urbanas, de escolas com uma</p><p>só sala de aula, de escolas agrícolas etc.</p><p>População é, pois, um total de objetos ou</p><p>de pessoas que apresentam as mesmas característi-</p><p>cas dentro de um mesmo universo.</p><p>Normalmente não é possível inferir con-</p><p>clusões pesquisando uma população inteira, como</p><p>por exemplo, todos os eleitores de um país. É ne-</p><p>cessário definir certa parcela da população para</p><p>fazer a pesquisa e a partir dessa parcela que cha-</p><p>maremos de amostra poderemos tirar uma conclu-</p><p>são para tendência de todo o eleitorado.</p><p>Estatística é ciência, quando estuda popu-</p><p>lações; é método, quando serve de instrumento a</p><p>uma outra ciência. É também arte, ciência-método</p><p>e método-ciência, segundo vários tratadistas:</p><p>- “Conjunto de processos que têm por</p><p>objeto a observação, a classificação formal e a</p><p>análise dos fenômenos coletivos ou de massa e, por</p><p>fim, a indução das leis a que tais fenômenos obe-</p><p>decem globalmente.” (Milton da Silva Rodrigues.)</p><p>• “A Estatística é parte da Matemática Apli-</p><p>cada que se ocupa em obter conclusões a partir de</p><p>dados observados.” (Ruy Aguiar da Silva Leme.)</p><p>• “A Estatística é uma parte da Matemática</p><p>Aplicada que fornece métodos para a coleta, orga-</p><p>nização, descrição, análise e interpretação de dados</p><p>e para a utilização dos mesmos na tomada de deci-</p><p>sões.</p><p>• “ Em uma palavra, se a Economia sabe</p><p>indicar como produzir, a Estatística pode dizer</p><p>quanto produzir. Aquela ensina a movimentar a</p><p>máquina econômica das nações, esta regula a velo-</p><p>cidade conveniente.”</p><p>• E muitos outros conceitos...</p><p>A coleta, a organização e a descrição dos dados</p><p>estão a cargo da Estatística Descritiva, enquanto a</p><p>análise e a interpretação desses dados ficam a</p><p>cargo da Estatística Indutiva ou Inferencial.</p><p>Em geral, as pessoas, quando se referem ao</p><p>termo estatística, o fazem no sentido da organiza-</p><p>ção e descrição dos dados (Estatística do Ministé-</p><p>rio da Educação, estatística dos acidentes de trafe-</p><p>go etc.), desconhecendo que o aspecto essencial</p><p>da Estatística é o de proporcionar métodos infe-</p><p>renciais, que permitam conclusões que trans-</p><p>cendam os dados obtidos inicialmente.</p><p>IMPORTANTE</p><p>O papel da Estatística na pesquisa ci-</p><p>entífica é contribuir com o investiga-</p><p>dor na formulação das hipóteses esta-</p><p>tísticas e fixação das regras de deci-</p><p>são, no fornecimento de técnicas pa-</p><p>ra um eficiente delineamento de pes-</p><p>quisa, na colheita, tabulação e análi-</p><p>se dos dados (estatística descritiva) e</p><p>em fornecer testes de hipóteses a se-</p><p>rem realizados de tal modo que a in-</p><p>certeza da inferência possa ser ex-</p><p>pressa em um nível probabilístico pré-</p><p>fixado (inferência estatística).</p><p>Estatística Aplicada à Computação</p><p>5</p><p>1.3 – Fases do Método Estatístico</p><p>Antes de realizarmos qualquer trabalho</p><p>estatístico, devemos realizar um planejamento</p><p>sobre o assunto escolhido, a fim de que o tra-</p><p>balho saia perfeito.</p><p>1º - DEFINIÇÃO DO PROBLEMA: Saber</p><p>exatamente aquilo que se pretende pesquisar é</p><p>o mesmo que definir corretamente o problema.</p><p>2º - PLANEJAMENTO: Como levantar in-</p><p>formações? Que dados deverão ser obtidos?</p><p>Qual levantamento a ser utilizado? Censitário?</p><p>Por amostragem? E o cronograma de ativida-</p><p>des? Os custos envolvidos? Etc.</p><p>3º - COLETA DE DADOS: Fase operacional.</p><p>É o registro sistemático de dados, com um</p><p>objetivo determinado.</p><p>Dados primários: quando são publicados pela</p><p>própria pessoa ou organização que os haja</p><p>recolhido. Ex: tabelas do censo demográfico</p><p>do IBGE.</p><p>Dados secundários: quando são publicados pro</p><p>outra organização. Ex: quando determinado</p><p>jornal publica estatísticas referentes ao censo</p><p>demográfico extraídas do IBGE.</p><p>OBS: É mais seguro trabalhar com fontes pri-</p><p>márias. O uso da fonte secundária traz o gran-</p><p>de risco de erros de transcrição.</p><p>Coleta Direta: quando é obtida diretamente da</p><p>fonte. Ex: Empresa que realiza uma pesquisa</p><p>para saber a preferência dos consumidores pela</p><p>sua marca.</p><p>A coleta direta pode ser: contínua (registros de</p><p>nascimento, óbitos, casamentos, etc.),</p><p>periódica (recenseamento demográfico, censo</p><p>industrial) e ocasional (registro de casos de</p><p>dengue). Coleta Indireta: É feita por deduções a partir</p><p>dos elementos conseguidos pela coleta direta,</p><p>por analogia, por avaliação, indícios ou pro-</p><p>porcionalidade.</p><p>4º - APURAÇÃO DOS DADOS: Resumo</p><p>dos dados através de sua contagem e agrupa-</p><p>mento. É a condensação e tabulação de dados.</p><p>5º - APRESENTAÇÃO DOS DADOS: Há</p><p>duas formas de apresentação, que não se ex-</p><p>cluem mutuamente. A apresentação tabular, ou</p><p>seja, é uma apresentação numérica dos dados</p><p>em linhas e colunas distribuídas de modo or-</p><p>denado, segundo regras práticas fixadas pelo</p><p>Conselho Nacional de Estatística. A apresenta-</p><p>ção gráfica dos dados numéricos constitui uma</p><p>apresentação geométrica permitindo uma visão</p><p>rápida e clara do fenômeno.</p><p>6º - ANÁLISE E INTERPRETAÇÃO DOS</p><p>DADOS: A última fase do trabalho estatístico</p><p>é a mais importante e delicada. Está ligada</p><p>essencialmente ao cálculo de medidas e coefi-</p><p>cientes, cuja finalidade principal é descrever o</p><p>fenômeno (estatística descritiva). Na estatística</p><p>indutiva a interpretação dos dados se funda-</p><p>menta na teoria da probabilidade.</p><p>1.4 Variável</p><p>É qualquer quantidade ou característica que pode assumir diferentes valores numéricos. Por e-</p><p>xemplo, um questionário de uma pesquisa contém as seguintes perguntas:</p><p>Pergunta Variável</p><p>Qual a sua idade?</p><p>Qual o número de pessoas de sua família?</p><p>Qual a renda familiar?</p><p>Qual é o seu estado civil?</p><p>Você tem emprego fixo?</p><p>Qual o tempo de trabalho na empresa?</p><p>- Idade</p><p>- Tamanho da família</p><p>- Renda familiar</p><p>- Estado civil</p><p>- Emprego</p><p>- Tempo de trabalho.</p><p>Estatística Aplicada à Computação</p><p>6</p><p>Classificação das Variáveis</p><p>Ao se fazer um estudo estatístico de um determinado fato ou grupo, tem-se que considerar o tipo</p><p>da variável. Pode-se ter variáveis qualitativas ou quantitativas.</p><p>As variáveis qualitativas (ou atributos) são as que descrevem os atributos de um indivíduo, tais</p><p>como: sexo, estado civil, grau de instrução, etc. Já as variáveis quantitativas são as provenientes de uma</p><p>contagem ou mensuração, tais como: idade, salário, peso, etc.</p><p>As variáveis qualitativas e as quantitativas dividem-se em dois tipos:</p><p>Variáveis Tipos Descrição Exemplos</p><p>Nominal</p><p>Não existe nenhuma ordenação.</p><p>O valor numérico associado</p><p>com a categoria não tem signifi-</p><p>cado real.</p><p>Para dados na escala nominal, o</p><p>interesse é na quantidade ou na</p><p>proporção de cada categoria. Os</p><p>métodos estatísticos não são</p><p>aplicados neste caso, ou seja,</p><p>não se pode calcular médias,</p><p>variâncias, etc.</p><p>Cor dos olhos, sexo,</p><p>estado civil, religião.</p><p>Por exemplo:</p><p>1 – Sexo Masculino; 2</p><p>– Sexo feminino. O 1 e</p><p>o 2 não tem significa-</p><p>do.</p><p>Qualitativas</p><p>ou</p><p>Categóricas</p><p>Ordinal</p><p>Obedece a certa ordenação. As</p><p>características são ordenadas (de</p><p>maneira crescente ou decrescen-</p><p>te) em situações para as quais a</p><p>posição associada é importante.</p><p>As operações aritméticas possí-</p><p>veis são: a contagem e a compa-</p><p>ração</p><p>Grau de instrução;</p><p>classe social; Faixa</p><p>etária. Outros exem-</p><p>plos:</p><p>a) O conceito de um</p><p>estudante em uma dis-</p><p>ciplina da PG pode ser</p><p>ótimo (4), bom (3),</p><p>regular (2), ruim (1);</p><p>b) Presença de albu-</p><p>mina</p><p>função de</p><p>probabilidade, denotada por f(x). A função de pro-</p><p>babilidade fornece a probabilidade para cada um</p><p>dos valores da variável aleatória.</p><p>O exemplo desenvolvido acima, o do nú-</p><p>mero de acidentes, é um caso de distribuição dis-</p><p>creta de probabilidade.</p><p>A distribuição de probabilidades discreta</p><p>pode ser representada graficamente, como na figu-</p><p>ra a seguir (Fig. 7.1).</p><p>Fig. 7.1.</p><p>Valor Esperado e Variância</p><p>O valor esperado, ou média, de uma variá-</p><p>vel aleatória é a medida da posição central para a</p><p>variável aleatória.</p><p>∑== )()( xxfxE µ</p><p>Tanto a notação E(x) como µ podem ser</p><p>usadas para denotar o valor esperado de uma vari-</p><p>ável aleatória.</p><p>Enquanto o valor esperado fornece o valor</p><p>médio para a variável aleatória, freqüentemente</p><p>necessita-se de uma medida de variabilidade, ou</p><p>de dispersão. Para isso pode-se utilizar a variância.</p><p>)()()(</p><p>22 xfxxVar ∑ −== µσ</p><p>6.1.1. Distribuição Binomial</p><p>Foi descoberta por James Bernoulli no</p><p>final do século XVII.</p><p>Vamos, neste item, considerar experimen-</p><p>tos que satisfaçam as seguintes condições:</p><p>a. O experimento deve ser repetido, nas</p><p>mesmas condições, um número finito de vezes (n).</p><p>b. As provas repetidas devem ser indepen-</p><p>dentes, isto é, o resultado de uma não deve afetar</p><p>os resultados das sucessivas.</p><p>c. Em cada prova deve aparecer um dos dois</p><p>possíveis resultados: sucesso e insucesso.</p><p>d. No decorrer do experimento, a probabili-</p><p>dade p do sucesso e a probabilidade q (q = 1 – p)</p><p>do insucesso manter-se-ão constantes.</p><p>Resolveremos problemas do tipo: deter-</p><p>minar a probabilidade de se obterem k sucessos</p><p>em n tentativas. O experimento ”obtenção de caras</p><p>em cinco lançamentos sucessivos e independentes</p><p>de uma moeda” satisfaz essas condições. Sabe-se</p><p>que, quando da realização de um experimento</p><p>qualquer em uma única tentativa, se a probabilida-</p><p>de de realização de um evento (sucesso) é p, a</p><p>probabilidade de não-realização desse mesmo</p><p>evento (insucesso) é 1 – p = q.</p><p>Suponha-se, agora, que realizemos a</p><p>mesma prova n vezes sucessivas e independentes.</p><p>A probabilidade de que um evento se realize k</p><p>vezes nas provas é dada pela função:</p><p>xnx</p><p>n</p><p>x</p><p>qpkXPXf −</p><p></p><p></p><p></p><p></p><p></p><p></p><p>=== )()( (6.1)</p><p>na qual:</p><p>P(X = x) é a probabilidade de que o even-</p><p>to se realize x vezes em n provas;</p><p>p é a probabilidade de que o evento se</p><p>realize em uma só prova – sucesso;</p><p>q é a probabilidade de que o evento não se</p><p>realize no decurso dessa prova – insucesso;</p><p>Estatística Aplicada à Computação</p><p>55</p><p></p><p></p><p></p><p></p><p></p><p> n</p><p>x</p><p>é o coeficiente binomial de n sobre x,</p><p>igual a</p><p>)!(!</p><p>!</p><p>xnx</p><p>n</p><p>−</p><p>Essa função, denominada lei binomial,</p><p>define a distribuição binomial.</p><p>xnxqp</p><p>xnx</p><p>n</p><p>kXPXf −</p><p>−</p><p>===</p><p>)!(!</p><p>!</p><p>)()(</p><p>A distribuição binomial constitui o modelo</p><p>matemático que fundamenta alguns procedimentos</p><p>empregados na Inferência Estatística: a Prova Bi-</p><p>nomial e o Teste dos Sinais.</p><p>EXERCÍCIOS</p><p>1. Uma moeda é lançada 5 vezes seguidas e in-</p><p>dependentes. Calcule a probabilidade de serem</p><p>obtidas 3 caras nessas 5 provas.</p><p>2. Dois times de futebol, A e B, jogam entre si 6</p><p>vezes. Encontre a probabilidade de o time A ga-</p><p>nhar 4 jogos.</p><p>3. Determine a probabilidade de obtermos exa-</p><p>tamente 3 caras em 6 lances de uma moeda.</p><p>4. Jogando-se um dado três vezes, determine a</p><p>probabilidade de se obter um múltiplo de 3 duas</p><p>vezes.</p><p>5. Dois times de futebol, A e B, jogam entre si 6</p><p>vezes. Encontre a probabilidade de o time A:</p><p>a. ganhar dois ou três jogos;</p><p>b. ganhar pelo menos 5 jogos;</p><p>6. O Almanaque Americano de Trabalho e</p><p>Salários, 1994-95, revelou que 25% dos</p><p>contadores estão empregados na contabilidade</p><p>pública. Considere que esta porcentagem se aplica</p><p>a um grupo de 15 graduados de faculdade que</p><p>acabaram de entrar na profissão de contador. Qual</p><p>é a probabilidade de que pelo menos três deles</p><p>serão empregados na contabilidade pública?</p><p>7. Quando uma máquina nova está funcionando</p><p>adequadamente, somente 3% dos itens produzidos</p><p>apresentam defeitos. Considere que aleatoriamente</p><p>selecionemos duas peças produzidas na máquina e</p><p>que estamos interessados no número de peças</p><p>defeituosas encontradas.</p><p>a. Descreva as condições sob as quais essa</p><p>situação seria um experimento binomial.</p><p>b. Desenhe um diagrama de árvore similar à</p><p>Figura 7.3, ilustrando este problema como um</p><p>experimento de dois ensaios.</p><p>c. Quantos resultados experimentais resultam</p><p>em exatamente um defeito sendo encontrado?</p><p>d. Calcule as probabilidades associadas com não</p><p>encontrar defeitos, encontrar exatamente um</p><p>defeito e encontrar dois defeitos.</p><p>8. Cinco por cento dos motoristas de caminhões</p><p>americanos são mulheres (Resumo Estatístico dos</p><p>Estados Unidos, 1997). Suponha que 10</p><p>motoristas de caminhões são selecionados</p><p>aleatoriamente para serem entrevistados sobre a</p><p>qualidade das condições de trabalho.</p><p>a. A seleção dos 10 motoristas é um</p><p>experimento binomial? Explique.</p><p>b. Qual é a probabilidade de que dois dos</p><p>motoristas sejam mulheres?</p><p>c. Qual é a probabilidade de que nenhum seja</p><p>mulher?</p><p>d. Qual é a probabilidade de que pelo menos um</p><p>será uma mulher?</p><p>9. Os sistemas de detecção de radar e de mísseis</p><p>militares são concebidos para prevenir um país</p><p>contra ataques inimigos. Uma questão de</p><p>confiabilidade é se um sistema de detecção será</p><p>capaz de identificar um ataque e emitir um aviso.</p><p>Considere que um determinado sistema de</p><p>detecção tenha uma probabilidade de 0,90 de</p><p>detectar um ataque de míssil. Use a distribuição</p><p>binomial de probabilidade para responder às</p><p>seguintes questões:</p><p>a. Qual é a probabilidade de que um sistema de</p><p>detecção simples detectará um ataque?</p><p>b. Se dois sistemas de detecção são instalados</p><p>na mesma área e operam independentemente, qual</p><p>é a probabilidade de que pelo menos um dos</p><p>sistemas detectará o ataque?</p><p>c. Se três sistemas são instalados, qual é a</p><p>probabilidade de que pelo menos um dos sistemas</p><p>detectará o ataque?</p><p>6.1.2. DISTRIBUIÇÃO DE POISSON</p><p>Nesta seção considera-se uma variável</p><p>aleatória discreta que é freqüentemente útil para</p><p>Estatística Aplicada à Computação</p><p>56</p><p>estimar o número de ocorrências sobre um</p><p>intervalo de tempo ou de espaço específicos. Por</p><p>exemplo, a variável aleatória de interesse pode ser</p><p>o número de chegada a um lava-carros em uma</p><p>hora, o número de reparos necessários em 10 km</p><p>de uma auto-estrada ou o número de vazamentos</p><p>em 100 milhas de uma tubulação. Se as seguintes</p><p>duas propriedades são satisfeitas, o número de</p><p>ocorrências é uma variável aleatória descrita pela</p><p>função de probabilidade de Poisson.</p><p>Propriedades do Experimento de Poisson</p><p>1. A probabilidade de uma ocorrência é a mesma</p><p>para quaisquer dois intervalos de igual</p><p>comprimento.</p><p>2. A ocorrência ou não-ocorrência em qualquer</p><p>intervalo é independente da ocorrência ou não-</p><p>ocorrência em qualquer outro intervalo.</p><p>A função de probabilidade de Poisson é dada pela</p><p>fórmula:</p><p>!</p><p>)(</p><p>x</p><p>e</p><p>xf</p><p>x µµ −</p><p>= (6.3)</p><p>onde</p><p>f(x) a probabilidade de x ocorrências em</p><p>um intervalo</p><p>µ = valor esperado ou número médio</p><p>de ocorrências em um intervalo</p><p>e = 2,71828</p><p>Antes de considerarmos um exemplo específico</p><p>para ver como a distribuição de Poisson pode ser</p><p>aplicada, note que o número de ocorrências, x, não</p><p>tem um limite superior. Ela é uma variável</p><p>aleatória discreta que pode assumir uma infinita</p><p>seqüência de valores (x = 0, 1, 2, ...). A variável</p><p>aleatória de Poisson não tem um limite superior.</p><p>Um Exemplo Envolvendo Intervalos de Tempo</p><p>Suponha que estamos interessados no número de</p><p>chegadas a uma caixa automática (tipo drivethru)</p><p>de um banco durante um período de 15 minutos</p><p>nas manhãs de fins de semana. Se pudermos</p><p>considerar que a probabilidade de um carro chegar</p><p>é a mesma para quaisquer dois períodos de tempo</p><p>de igual comprimento, e que a chegada ou não-</p><p>chegada de um carro em qualquer período de</p><p>tempo seja independente da chegada ou não-</p><p>chegada de outro em qualquer outro período</p><p>de</p><p>tempo, a função de probabilidade de Poisson é</p><p>aplicável. Suponha que essas hipóteses são</p><p>satisfeitas e uma análise dos dados históricos</p><p>mostra que o número médio de carros que chegam</p><p>no período de 15 minutos é 10; então a seguinte</p><p>função de probabilidade se aplica.</p><p>!</p><p>10</p><p>)(</p><p>10</p><p>x</p><p>e</p><p>xf</p><p>x −</p><p>=</p><p>A variável aleatória aqui é x = o número de carros</p><p>que chegam em qualquer período de 15 minutos.</p><p>Se a administração queria saber a probabilidade de</p><p>exatamente cinco chegadas em 15 minutos,</p><p>ajustaríamos x = 5 e assim obteríamos</p><p>Probabilidade de exatamente 5 chegadas em 15</p><p>minutos</p><p>!5</p><p>10</p><p>)(</p><p>105 −</p><p>==</p><p>e</p><p>xf</p><p>Embora essa probabilidade tenha sido</p><p>determinada calculando-se a função de</p><p>probabilidade com µ =10 e x = 5, é freqüentemente</p><p>mais fácil referir-se às tabelas para a distribuição</p><p>de Poisson. Estas tabelas fornecem probabilidades</p><p>para valores específicos de x e µ. Veja a tabela</p><p>parcial da distribuição de Poisson. Note que para</p><p>usar a tabela de probabilidades de Poisson,</p><p>necessitamos apenas conhecer os valores de x e de</p><p>µ. Da tabela de Poisson vemos que a probabilidade</p><p>de cinco chegadas em um período de 15 minutos é</p><p>encontrada locando-se o valor na linha da tabela</p><p>correspondente a x = 5 e na coluna da tabela</p><p>correspondente a µ = 10. Dai, obtém-se f(5) =</p><p>0,0378.</p><p>Nosso exemplo implica calcular a</p><p>probabilidade de cinco chegadas em um período</p><p>de 15 minutos, mas outros períodos de tempo</p><p>podem ser usados. Suponha que se deseje calcular</p><p>a probabilidade de uma chegada em um período de</p><p>três minutos, Como 10 é o número esperado de</p><p>chegadas em um período de 15 minutos, tem-se os</p><p>que 10/15 = 2/3 é o número esperado de chegadas</p><p>em um período de um minuto e que (2/3).(3</p><p>minutos) = 2 é o número esperado de chegadas em</p><p>um período de três minutos. Assim, a</p><p>probabilidade de x chegadas em um período de</p><p>tempo de três minutos com µ = 2 é dada pela</p><p>seguinte função de probabilidade de Poisson.</p><p>Estatística Aplicada à Computação</p><p>57</p><p>!</p><p>2</p><p>)(</p><p>2</p><p>x</p><p>e</p><p>xf</p><p>x −</p><p>=</p><p>Para encontrar a probabilidade de uma</p><p>chegada em um período de três minutos, pode-se</p><p>usar a anterior ou calcular a probabilidade</p><p>diretamente.</p><p>Probabilidade de exatamente 1 chegada</p><p>em 3 minutos = 2707,0</p><p>!1</p><p>21</p><p>)(</p><p>2</p><p>==</p><p>−e</p><p>xf</p><p>Um Exemplo Envolvendo Intervalos de</p><p>Comprimento ou de Distância</p><p>Vamos ilustrar uma aplicação não</p><p>envolvendo intervalos de tempo na qual a</p><p>distribuição de probabilidade de Poisson é útil.</p><p>Suponha que estamos preocupados com a</p><p>ocorrência de grandes defeitos em uma auto-</p><p>estrada um mês depois do recapeamento. Vamos</p><p>considerar que a probabilidade de um defeito é a</p><p>mesma para qualquer dois intervalos de auto-</p><p>estrada de igual comprimento, e que a ocorrência</p><p>ou não-ocorrência de um defeito em qualquer</p><p>intervalo é independente da ocorrência ou não-</p><p>ocorrência de um defeito em qualquer outro</p><p>intervalo. Assim, a distribuição de probabilidade</p><p>de Poisson pode ser aplicada.</p><p>Suponha que soubemos que os grandes</p><p>defeitos ocorrem um mês depois do recapeamento</p><p>à taxa média de dois por quilômetro. Vamos</p><p>encontrar a probabilidade da não-ocorrência de</p><p>grandes defeitos em uma determinada seção de</p><p>três quilômetros de uma auto-estrada. Como</p><p>estamos interessados em um intervalo com um</p><p>comprimento de três quilômetros, µ = (2</p><p>defeitos/quilômetro)(3 quilômetros) = 6 representa</p><p>o número esperado de grandes defeitos na seção de</p><p>três quilômetros da auto-estrada. Usando-se a</p><p>fórmula 6.3 ou a tabela de Poisson, vemos que a</p><p>probabilidade de não-ocorrência de grandes</p><p>defeitos é de 0,0025. Assim, é improvável que</p><p>grandes defeitos não venham a ocorrer na seção de</p><p>três quilômetros. De fato, este exemplo indica uma</p><p>probabilidade de 1 - 0,0025 = 0,9975 de pelo</p><p>menos um grande defeito ocorrer em uma seção de</p><p>auto-estrada,</p><p>EXERCÍCIOS</p><p>1 - Qual a probabilidade de haver três erros em</p><p>quatro páginas selecionadas? (referente ao pro-</p><p>blema-exemplo).(0,2240)</p><p>2 – A probabilidade de um indivíduo infectado</p><p>com o vírus da AIDS desenvolver a doença au-</p><p>menta com o tempo. Após dois anos de contágio,</p><p>esta probabilidade é de 0,03. Numa amostra de</p><p>100 pessoas contaminadas, qual a probabilidade</p><p>de desenvolverem a doença:</p><p>a) Exatamente três pessoas; (0,2240)</p><p>b) Mais do que dois indivíduos. (0,5767)</p><p>3 – A probabilidade de uma mulher de 36 anos</p><p>gerar um filho com Síndrome de Down é de 0,7%.</p><p>Em um grupo de 200 mulheres dessa faixa de</p><p>idade qual a probabilidade de conceberem um</p><p>filho com Síndrome de Down:</p><p>a) Exatamente cinco mulheres; ( 0,011)</p><p>4 – Na revista Veja, editada em 15 de fevereiro de</p><p>1989 (Edição 1067), são expostos alguns dados a</p><p>respeito de acidentes automobilísticos. Um dado</p><p>surpreendente, fornecido pelo hospital dos Defei-</p><p>tos da Face de São Paulo, é que nele dão entrada,</p><p>diariamente, uma média de nove vítimas desses</p><p>acidentes. Elas são portadoras de queimaduras,</p><p>ferimentos no rosto e fraturas provocadas pelo</p><p>impacto da cabeça contra o painel do veículo. Em</p><p>função destes dados, pede-se determinar a probabi-</p><p>lidade de que, em um dia selecionado aleatoria-</p><p>mente:</p><p>a) Sejam internados exatamente 15 pacientes;</p><p>(0,0194)</p><p>b) Sejam internados pelo menos 15 pacientes; (</p><p>0,0010)</p><p>Não dê entrada nesse hospital qualquer vítima de</p><p>acidente automobilístico. (0,0001)</p><p>6.2. DISTRIBUIÇÕES CONTÍNUAS DE</p><p>PROBABILIDADE</p><p>No item precedente, discuti-se as variáveis</p><p>aleatórias discretas e suas distribuições de</p><p>probabilidade. Este capítulo será voltado ao estudo</p><p>das variáveis aleatórias contínuas.</p><p>Especificamente, discutiremos duas distribuições</p><p>contínuas de probabilidade: a uniforme e a normal.</p><p>Uma diferença fundamental separa as</p><p>variáveis aleatórias discretas e as contínuas em</p><p>termos das probabilidades do cálculo. Para uma</p><p>Estatística Aplicada à Computação</p><p>58</p><p>variável aleatória discreta, a função de</p><p>probabilidade f(x) fornece a probabilidade de que a</p><p>variável aleatória assuma um valor particular. Com</p><p>as variáveis aleatórias contínuas a contraparte da</p><p>função de probabilidade é a função de densidade</p><p>da probabilidade, também denotada por f(x). A</p><p>diferença é que a função de densidade da</p><p>probabilidade não fornece diretamente</p><p>probabilidades. Contudo, a área sob o gráfico de</p><p>f(x) que corresponde a um dado intervalo fornece a</p><p>probabilidade de que a variável aleatória contínua</p><p>x assuma um valor no intervalo. Assim, quando</p><p>calculamos as probabilidades para as variáveis</p><p>aleatórias contínuas, estamos calculando a</p><p>probabilidade de que a variável aleatória assuma</p><p>qualquer valor em um intervalo.</p><p>Uma das implicações da definição de</p><p>probabilidade para as variáveis aleatórias</p><p>contínuas é que a probabilidade de qualquer valor</p><p>particular da variável aleatória é zero, porque a</p><p>área sob o gráfico de f(x) em qualquer ponto em</p><p>particular é zero.</p><p>A maior parte deste capítulo é dedicada</p><p>para descrever e ilustrar as aplicações da</p><p>distribuição normal de probabilidade. A</p><p>distribuição normal de probabilidade é de</p><p>fundamental importância: ela é usada</p><p>extensivamente na inferência estatística.</p><p>6.2.1. DISTRIBUIÇÃO UNIFORME DE</p><p>PROBABILIDADE</p><p>Considere a variável aleatória x, que representa o</p><p>tempo de vôo de um aeroplano viajando de</p><p>Chicago até Nova York. Suponha que o tempo de</p><p>vôo pode ser qualquer valor no intervalo de 120</p><p>até 140 minutos. Como a variável aleatória x pode</p><p>assumir qualquer valor no intervalo, x é uma</p><p>variável aleatória contínua em vez de discreta.</p><p>Vamos assumir que suficientes dados de vôo reais</p><p>estão disponíveis para concluir que a</p><p>probabilidade de um tempo de vôo dentro de</p><p>qualquer intervalo de um minuto é a mesma que a</p><p>probabilidade de um tempo de vôo dentro de</p><p>qualquer outro intervalo de um minuto de 120 até</p><p>140 minutos. Com todos os intervalos de um</p><p>minuto sendo igualmente prováveis, diz-se que a</p><p>variável aleatória x tem uma distribuição uniforme</p><p>de probabilidade. A função de densidade da</p><p>probabilidade, que define a distribuição uniforme</p><p>de probabilidade</p><p>para a variável aleatória do</p><p>tempo de vôo, é</p><p></p><p></p><p></p><p> ≤≤</p><p>=</p><p>lugaroutroqualquerem</p><p>xpara</p><p>xf</p><p>0</p><p>14012020</p><p>1</p><p>)(</p><p>A Figura 7.2.1. é um gráfico desta função de</p><p>densidade de probabilidade. Em geral, a função de</p><p>densidade uniforme de probabilidade para uma</p><p>variável aleatória x é encontrada usando-se a</p><p>seguinte fórmula.</p><p>Função de Densidade Uniforme de Probabili-</p><p>dade</p><p></p><p></p><p></p><p></p><p>≤≤</p><p>−=</p><p>lugaroutroqualquerem</p><p>bxapara</p><p>abxf</p><p>0</p><p>1</p><p>)( (6.4)</p><p>No exemplo do tempo de vôo, a = 120 e b</p><p>= 140.</p><p>Fig. 6.2.1 Função de densidade uniforme da</p><p>probabilidade para o tempo de vôo.</p><p>Como citado na introdução, para uma</p><p>variável aleatória contínua, consideramos a</p><p>probabilidade somente em termos da</p><p>plausibilidade de que uma variável aleatória tenha</p><p>um valor dentro do intervalo especificado. No</p><p>exemplo do tempo de vôo, uma questão da</p><p>probabilidade aceitável é: Qual é a probabilidade</p><p>de que o tempo de vôo esteja entre 120 e 130</p><p>minutos? Isto é, qual é P(120 ≤ x ≤ 130)? Como o</p><p>tempo de vôo precisa estar entre 120 e 140</p><p>minutos e porque a probabilidade está descrita</p><p>como sendo uniforme nesse intervalo, sentimo-nos</p><p>confortáveis em dizer que P(120 ≤ x ≤ 130) =</p><p>0,50. Na subseção seguinte mostramos que esta</p><p>probabilidade pode ser calculada como a área de</p><p>120 até 130 sob o gráfico de f(x)</p><p>Estatística Aplicada à Computação</p><p>59</p><p>Fig. 6.2.2 A área fornece a probabilidade dos</p><p>tempos de vôo entre 120 e 130 minutos.</p><p>Duas diferenças principais sobressaem</p><p>entre o tratamento de variáveis aleatórias</p><p>contínuas e o tratamento de suas contrapartes</p><p>discretas.</p><p>1. Não falamos mais sobre a probabilida-</p><p>de de variáveis aleatórias assumirem um valor</p><p>particular. Em vez disso, falamos sobre a pro-</p><p>babilidade da variável aleatória assumir um</p><p>valor dentro de um dado intervalo.</p><p>2. A probabilidade de a variável aleatória</p><p>assumir um valor dentro de um dado intervalo</p><p>de x1 até é definida como sendo a área sob o</p><p>gráfico da função de densidade da probabili-</p><p>dade entre x1 e x2. isso indica que a probabili-</p><p>dade de uma variável aleatória contínua assu-</p><p>mir qualquer particular valor é exatamente</p><p>zero, porque a área sob o gráfico de f(x) em</p><p>um ponto simples é zero.</p><p>O cálculo do valor esperado e da</p><p>variância para uma variável aleatória contínua é</p><p>análogo àquele para uma variável aleatória</p><p>discreta. No entanto, como o procedimento de</p><p>cálculo envolve cálculo integral, deixamos a</p><p>derivação das fórmulas apropriadas para textos</p><p>mais avançados.</p><p>Para a distribuição uniforme de</p><p>probabilidade introduzida nesta seção, as fórmulas</p><p>para o valor esperado e para a variância são</p><p>2</p><p>)(</p><p>ba</p><p>xE</p><p>+</p><p>=</p><p>12</p><p>)(</p><p>)(</p><p>2ba</p><p>xVar</p><p>+</p><p>=</p><p>Nessas fórmulas, a é o menor valor e b é o</p><p>maior valor que a variável aleatória pode assumir.</p><p>Aplicando essas fórmulas à distribuição uniforme</p><p>de probabilidade para o tempo de vôo de Chicago</p><p>até Nova York, obtemos:</p><p>130</p><p>2</p><p>)140120(</p><p>)( =</p><p>+</p><p>=xE</p><p>33,33</p><p>12</p><p>)120140(</p><p>)(</p><p>2</p><p>=</p><p>+</p><p>=xE</p><p>O desvio-padrão dos tempos de vôo</p><p>pode ser encontrado tomando-se a raiz quadrada</p><p>da variância. Assim, σ = 5,77 minutos.</p><p>NOTAS E COMENTÁRIOS</p><p>1. Para uma variável aleatória contínua a</p><p>probabilidade de qualquer valor particular é zero,</p><p>o que fornece P(a ≤ x ≤ b) = P(a</p><p>de probabilidade. A letra z é comumente</p><p>Estatística Aplicada à Computação</p><p>62</p><p>usada para designar essa particular variável aleatória normal. A Figura 6.2.8 é o gráfico da distribuição</p><p>normal-padrão de probabilidade. Ela tem a mesma aparência geral das outras distribuições normais,</p><p>porém com as propriedades especiais de µ = 0 e σ = 1.</p><p>Como ocorre com as outras variáveis aleatórias contínuas, os cálculos de probabilidade com qualquer</p><p>distribuição normal de probabilidade são feitos calculando-se as áreas sob o gráfico da função de</p><p>densidade de probabilidade. Assim, para se encontrar a probabilidade de que uma variável aleatória</p><p>normal esteja dentro de qualquer intervalo específico, precisamos calcular a área sob a curva normal</p><p>naquele intervalo. Para a distribuição normal-padrão de probabilidade, a área sob a curva normal foi</p><p>calculada e está disponível em tabelas que podem ser usadas nos cálculos de probabilidades. A Tabela A,</p><p>no Apêndice A, disponível no final deste livro.</p><p>Fig. 6.2.7 Áreas sob a curva para qualquer distribuição normal de probabilidade</p><p>Para ver como a tabela de áreas sob a curva para a distribuição normal de probabilidade (Tabela</p><p>A) pode ser usada para encontrar probabilidades, vamos considerar alguns exemplos. Mais tarde veremos</p><p>como essa mesma tabela pode ser usada para calcular probabilidades para qualquer distribuição normal.</p><p>Para começar, vamos ver como podemos calcular a probabilidade de que o valor de z para a variável</p><p>aleatória normal-padrão estará entre 0,00 e 1,00; isto é, P(0,00 ≤ z ≤ 1,00). A região sombreada no</p><p>gráfico seguinte mostra essa área ou probabilidade.</p><p>Fig. 6.2.8 A distribuição normal-padrão de probabilidade.</p><p>Estatística Aplicada à Computação</p><p>63</p><p>Fig. 6.2.9.</p><p>As entradas na Tabela A fornecem a área sob a curva normal-padrão entre a média, z = 0, e um</p><p>valor específico de z (veja o gráfico no topo da tabela). Nesse caso, estamos interessados na área entre z =</p><p>0 e z = 1,00. Assim, precisamos encontrar na tabela a entrada correspondente a z = 1,00. Primeiro encon-</p><p>tra-se 1,0 na coluna à esquerda da tabela e então encontramos 0,00 na linha superior. Olhando-se o corpo</p><p>da tabela, vemos que a linha 1,0 e a coluna 0,00 se interceptam no valor de 0,3413. Encontramos a proba-</p><p>bilidade desejada: P(0,00 ≤ z ≤ 1,00) = 0,3413. Uma porção da Tabela A mostrando essas etapas é apre-</p><p>sentada a seguir.</p><p>Usando a mesma abordagem, podemos encontrar P(0,00 ≤ z ≤ 1,25). Locando-se primeiro a</p><p>linha 1,2 e então se movendo através da tabela até a coluna 0,05 encontramos P(0,00 ≤ z ≤ 1,25) =</p><p>0,3944.</p><p>Como outro exemplo do uso da tabela de áreas para a distribuição normal-padrão calcula-se a</p><p>probabilidade de se obter um valor de z = -1,00 e z = 1,00: isto é, P(-1,00 ≤ z ≤ 1,00).</p><p>Note que já usamos a Tabela A para mostrar que a probabilidade de um valor de z entre z = 0,00 e</p><p>z = 1,00 é 0,3413 e lembre-se de que a distribuição normal de probabilidade é simétrica. Assim, a</p><p>probabilidade de um valor de z entre z = 0,00 e z = -1,00 é a mesma que a probabilidade de um valor de z</p><p>entre z = 0,00 e z = +1,00. Portanto, a probabilidade de valor de z entre z = -1,00 e z = +1,00 é</p><p>P(-1,00 ≤ z ≤ 0,00) + P(0,00≤ z ≤ 1,00) = 0,3413 + 0,3413 = 0,6826</p><p>Essa área é mostrada graficamente na figura seguinte</p><p>Estatística Aplicada à Computação</p><p>64</p><p>Fig. 6.2.10</p><p>De maneira similar, podemos usar os valores na Tabela A para mostrar que a probabilidade de um</p><p>valor z entre -2,00 e +2,00 é 0,4772 + 0,4772 = 0,9544 e que a probabilidade de um valor z entre -3,00 e</p><p>+3,00 é 0,4986 + 0,4986 = -0,9972. Como sabemos que a probabilidade total ou área total sob a curva</p><p>para qualquer variável aleatória contínua precisa ser 1,0000, a probabilidade 0,9972 nos diz que o valor</p><p>de z quase sempre estará entre -3,00 e +3,00.</p><p>A seguir, calculamos a probabilidade de se obter um valor de z de pelo menos 1,58; isto é, P(z ≥</p><p>1,58). Primeiro, usamos a linha z = 1,5 e a coluna 0,08 da Tabela A para encontrar que P(0,00 ≤ z ≤ 1,58)</p><p>= 0,4429. Agora, como a distribuição normal de probabilidade é simétrica e a área total sob a curva se</p><p>iguala a 1, nós sabemos que 50% da área precisa estar acima da média (i.é, z = 0) e 50% da área precisa</p><p>estar abaixo da média. Se 0,4429 é a área entre a média e z = 1,58, então a área ou probabilidade</p><p>correspondendo a z ≥1,58 precisa ser 0,5000 - 0,4429 = 0,0571. Essa probabilidade está na figura que</p><p>segue.</p><p>Como outro exemplo, considere a probabilidade de que a variável aleatória z assuma um valor de -0,50 ou</p><p>maior; isto é, P(z ≥ -0,50).</p><p>Fig. 6.2.11</p><p>Para fazer essa comparação, notamos que a probabilidade que estamos procurando pode ser</p><p>escrita como a soma de duas probabilidades: P(z ≥ -0,50) = P(-0,50 ≤ z ≤ 0,00) + P(z ≥ 0,00). Vimos</p><p>previamente que P(z ≥ 0,00) = 0,50. Também sabemos que desde que a distribuição normal seja</p><p>simétrica, P(-0,50 ≤ z ≤ 0,00) = P(0,00 ≤ z ≤ 0,50). Voltamos à Tabela A, encontramos que P(0,00 ≤ z ≤</p><p>Estatística Aplicada à Computação</p><p>65</p><p>0,50) = 0,1915. Em conseqüência, P(z ≥ -0,50) = 0,1915 + 0,5000 = 0,6915. Figura 6.2.12 a seguir mostra</p><p>essa área.</p><p>Fig. 6.2.12</p><p>A seguir, calculamos a probabilidade de se obter um valor de z entre 1,00 e 1,58; isto é, P(1,00 ≤</p><p>z ≤ 1,58). De nossos exemplos anteriores, sabemos que há uma probabilidade de 0,3413</p><p>de um valor de z entre z = 0,00 e z = 1,00 e que há uma probabilidade de 0,4429 de um valor de</p><p>z entre z = 0,00 e z =1,58. Portanto, precisa haver uma probabilidade de 0,4429 - 0,3413 = 0,1016 de um</p><p>valor dez entre z = 1,00 e z = 1,58, Assim, P(1,00 ≤ z ≤ 1,58) = 0,1016. Essa situação é mostrada</p><p>graficamente na figura 6.2.13 que segue.</p><p>Fig. 6.2.13</p><p>Como exemplo final, vamos encontrar um valor de z tal que a probabilidade de se obter um maior</p><p>valor de z é somente 0,10. A figura 6.2.14 mostra graficamente essa situação.</p><p>Fig. 6.2.14</p><p>Estatística Aplicada à Computação</p><p>66</p><p>Este problema é o inverso dos exemplos precedentes. Anteriormente, especificávamos o valor</p><p>de z de interesse e então encontrávamos a probabilidade ou área correspondente. Neste exemplo, estamos</p><p>fornecendo a probabilidade ou área e pedimos para encontrar o valor de z correspondente. Para fazer isso,</p><p>usamos de modo diferente a tabela de áreas para a distribuição normal-padrão de probabilidade.</p><p>Lembre-se de que o corpo da Tabela A fornece a área sob a curva entre a média e um valor determinado</p><p>de z. Demos a informação de que a área no extremo superior da curva é 0,10. Por isso, precisamos</p><p>determinar quanto da área está entre a média e o valor de interesse de z. Como sabemos que 0,5000 da</p><p>área está acima da média, 0,5000 - 0,1000 = 0,4000 precisa estar sob a curva entre a média e o valor</p><p>desejado de z. Varrendo o corpo da tabela, encontramos 0,3997 como o valor da probabilidade mais</p><p>próximo de 0,4000. A seção da tabela que fornece esse resultado vem a seguir.</p><p>Lendo-se o valor de z a partir da coluna mais à esquerda e da linha do topo da tabela,</p><p>encontramos que o valor correspondente dez é 1,28. Assim, uma área de aproximadamente 0,4000</p><p>(realmente 0,3997) estará entre a média e z = 1,28.6 Em termos da questão original, há uma probabilidade</p><p>aproximada de 0,10 de um valor de z maior que 1,28.</p><p>Os exemplos ilustram que a tabela de áreas para a distribuição normal-padrão de probabilidade pode ser</p><p>usada para se encontrar as probabilidades associadas a valores da variável aleatória normal-padrão z. Dois</p><p>tipos de questões podem ser colocadas. O primeiro tipo especifica um valor ou valores para z e nos pede</p><p>para usarmos a tabela para determinar as áreas correspondentes ou probabilidades. O segundo tipo</p><p>fornece uma área ou probabilidade e nos pede para usarmos a tabela para determinar os valores</p><p>correspondentes de z. Assim, precisamos de flexibilidade para usar a tabela normal-padrão de</p><p>probabilidade para responder à questão de probabilidade desejada. Na maioria</p><p>dos casos, esboçar um</p><p>gráfico da distribuição normal-padrão de probabilidade e sombrear a área apropriada ou probabilidade</p><p>ajuda a visualizar a situação e auxilia na determinação da resposta correta.</p><p>Calculando Probabilidades para Qualquer Distribuição Normal de Probabilidade</p><p>A razão para se discutir tão extensivamente a distribuição normal-padrão é que as probabilidades para</p><p>todas as distribuições normais são calculadas usando-se a distribuição normal-padrão. Isto é, quando</p><p>temos uma distribuição normal com qualquer média µ e qualquer desvio-padrão σ, respondemos questões</p><p>de probabilidade sobre a distribuição primeiramente convertendo-a para a distribuição normal-padrão.</p><p>Então, podemos usar a Tabela A e os valores apropriados de z para encontrar as probabilidades desejadas.</p><p>A fórmula usada para converter qualquer variável aleatória normal x com média µ e desvio-padrão σ para</p><p>a distribuição normal-padrão vem a seguir.</p><p>6 Poderíamos usar interpolação no corpo da tabela para obter uma melhor aproximação dos valores de z que</p><p>correspondem a uma área de 0,4000. Fazer isso e fornecer uma posição decimal a mais para precisão produziria um</p><p>valor de z de 1,282. No entanto, na maioria das situações práticas, uma precisão suficiente é obtida simplesmente</p><p>usando-se os valores da tabela mais próximos da probabilidade desejada.</p><p>Estatística Aplicada à Computação</p><p>67</p><p>Convertendo à Distribuição Normal-Padrão</p><p>σ</p><p>µ−</p><p>=</p><p>x</p><p>z (6.6)</p><p>Um valor de x igual à sua média µ resulta em z = (x -µ)/σ = 0. Assim, vemos que um valor de x igual à</p><p>sua média σ, corresponde a um valor de z em sua média 0. Suponha agora que x é um desvio-padrão</p><p>acima de sua média; isto é, x = µ + σ. Aplicando a fórmula (6.6), vemos que o valor correspondente de z é</p><p>z = [(µ + σ) - µ]/σ = σ / σ = 1. Assim, um valor que é um desvio-padrão acima de sua média resulta em z</p><p>= 1. Em outras palavras, podemos interpretar z como o número de desvios-padrões que a variável</p><p>aleatória padrão x está de sua média µ.</p><p>Para ver como essa conversão nos possibilita calcular as probabilidades para qualquer</p><p>distribuição normal, suponha que temos uma distribuição normal com µ = 10 e σ = 2. Qual é a</p><p>probabilidade de que uma variável aleatória x esteja entre 10 e 14? Usando a fórmula (6.6) vemos que</p><p>para x = 10, z = (x - µ)/ σ = (10 - 10)/2 = 0 e que para x = 14, z = (14 - 10)/2 = 4/2 = 2. Assim, a resposta</p><p>para a nossa questão sobre a probabilidade de x estar entre 10 e 14 é dada pela probabilidade equivalente</p><p>de que z esteja entre 0 e 2 para a distribuição normal-padrão. Em outras palavras, a probabilidade que</p><p>estamos procurando é a probabilidade de que a variável aleatória x esteja entre sua média e dois desvios-</p><p>padrões acima da média. Usando z = 2,00 e a Tabela A, vemos que a probabilidade é 0,4772. Por isso, a</p><p>probabilidade de que x esteja entre 10 e 14 é 0,4772.</p><p>O Problema da Companhia Grear Tire</p><p>Voltamos agora a uma aplicação da distribuição de probabilidade normal. Suponha que a Companhia</p><p>Grear Tire acabou de desenvolver um novo pneu radial cintado em aço que será vendido com desconto</p><p>através de uma cadeia nacional de lojas. Como o pneu é um novo produto, os gerentes da Grear acreditam</p><p>que a garantia de quilometragem oferecida com o pneu será um fator importante na aceitação do produto.</p><p>Antes de concluírem a política de garantia de quilometragem, os gerentes da Grear desejam informações</p><p>de probabilidade sobre o número de quilômetros em que os pneus se gastarão.</p><p>A partir de testes reais com os pneus em auto-estrada, o grupo de engenharia da Grear estimou a</p><p>quilometragem média do pneu em µ = 36.500 quilômetros e o desvio-padrão em σ = 5.000. Além disso,</p><p>os dados coletados indicam que a distribuição normal é uma hipótese razoável. Qual a porcentagem dos</p><p>pneus que apresenta expectativa de durar mais que 40.000 quilômetros? Em outras palavras, qual é a</p><p>probabilidade de que a quilometragem dos pneus excederá 40.000? Pode-se responder a essa questão</p><p>encontrando-se a área da região sombreada na Figura 6.2.15.</p><p>Em x = 40.000, temos</p><p>70,0</p><p>5000</p><p>3500</p><p>5000</p><p>3650040000</p><p>==</p><p>−</p><p>=</p><p>−</p><p>=</p><p>σ</p><p>µx</p><p>z</p><p>Vamos nos referir agora à parte inferior da Figura 7.2.15. Vemos que um valor de x = 40.000 na</p><p>distribuição normal da Grear Tire corresponde a um valor de z = 0,70 na distribuição normal-padrão.</p><p>Usando a Tabela A, vemos que a área entre a média e z = 0,70 é 0,2580. Voltando novamente à figura</p><p>7.2.15, vemos que a área entre x = 36.500 e x = 40.000 na distribuição normal da Grear Tire também é</p><p>0,2580. Assim, 0,5000 - 0,2580 = 0,2420 é a probabilidade de que x excederá 40.000. Podemos concluir</p><p>que cerca de 24,2% dos pneus excederá 40.000 na quilometragem.</p><p>Vamos agora assumir que a Grear está considerando uma garantia que fornecerá um desconto na</p><p>substituição dos pneus se os originais não excederem a quilometragem declarada na garantia. Qual</p><p>deveria ser a quilometragem de garantia se a Grear não quer mais do que 10% dos pneus qualificados</p><p>elegíveis para a garantia de desconto? Essa questão é interpretada graficamente na Figura 6.2.16.</p><p>Estatística Aplicada à Computação</p><p>68</p><p>De acordo com a Figura 6.2.16, 40% da área precisa estar entre a média e a quilometragem de garantia</p><p>desconhecida. Procuramos 0,4000 no corpo da Tabela A e vemos que essa área está aproximadamente em</p><p>1,28 desvios-padrões abaixo da média. Isto é, z = -1,28 é o valor da variável aleatória normal-padrão que</p><p>corresponde à desejada garantia de quilometragem na distribuição normal da Grear Tire. Para encontrar a</p><p>quilometragem x correspondendo a z = -1,28, temos</p><p>σµ</p><p>σµ</p><p>σ</p><p>µ</p><p>28,1</p><p>28,1</p><p>28,1</p><p>−=</p><p>−=−</p><p>−=</p><p>−</p><p>=</p><p>x</p><p>x</p><p>x</p><p>z</p><p>Fig. 6.2.15.</p><p>Fig. 6.2.16</p><p>Estatística Aplicada à Computação</p><p>69</p><p>Assim, uma garantia de 30.100 quilômetros satisfará as exigências de que aproximadamente</p><p>10% dos pneus serão qualificados para a garantia. Talvez, com esta informação, a empresa possa</p><p>estabelecer sua garantia de quilometragem em 30.000 quilômetros.</p><p>Novamente, constatamos o importante papel que as distribuições de probabilidade</p><p>desempenham ao fornecer informações ao tomador de decisão. A saber, uma vez que a distribuição de</p><p>probabilidade tenha sido estabelecida para uma aplicação em particular, ela pode ser usada rápida e</p><p>facilmente para obter a informação de probabilidade sobre o problema. A probabilidade não faz</p><p>diretamente uma recomendação de decisão, mas fornece informações que auxiliam o tomador de decisão</p><p>a melhor entender os riscos e incertezas associados ao problema e, finalmente, essas informações podem</p><p>auxiliá-lo a tomar uma boa decisão.</p><p>EXERCÍCIOS</p><p>1 - Usando a Figura 7.2.7 como guia, esboce uma</p><p>curva normal para uma variável aleatória x que</p><p>tem uma média de µ = 100 e um desvio-padrão de</p><p>σ = 10. Rotule o eixo horizontal com valores de</p><p>70, 80, 90, 100, 110, 120 e 130.</p><p>2 - Uma variável aleatória está distribuída</p><p>normalmente com uma média de µ= 50 e um</p><p>desvio-padrão de σ = 5.</p><p>a. Esboce uma curva normal para a função</p><p>de densidade da probabilidade. Rotule o eixo</p><p>horizontal com os valores de 35, 40, 45, 50, 55, 60</p><p>e 65. A Figura 7.2.7 mostra que a curva normal</p><p>quase toca o eixo horizontal em três desvios-</p><p>padrões abaixo e em três desvios-padrões acima da</p><p>média (neste caso em 35 e 65).</p><p>b. Qual é a probabilidade de a variável</p><p>aleatória assumir um valor entre 45 e 55?</p><p>c. Qual é a probabilidade de a variável</p><p>aleatória assumir um valor entre 40 e 60?</p><p>3 - Dado que z é uma variável aleatória normal-</p><p>padrão, esboce a curva normal-padrão. Rotule o</p><p>eixo horizontal nos valores -3, -2, -1, 0, 1, 2 e 3.</p><p>Então, use a tabela de distribuição normal-padrão</p><p>de probabilidades para calcular as seguintes</p><p>probabilidades.</p><p>a. P(0 ≤ z ≤ 1).</p><p>b. P(0 ≤ z ≤ 1,5).</p><p>c. P(0 ≤ z ≤ 2).</p><p>d. P(0 ≤ z ≤ 2,5).</p><p>e. P(-2,5 ≤ z ≤ 0).</p><p>f. P(-2,5 ≤ z ≤ 2,5).</p><p>4 – Sendo Z uma</p><p>variável com distribuição normal</p><p>reduzida, calcule:</p><p>a. P(0 ≤ Z ≤ 1,44); {0,4251}</p><p>b. P( – 0,85 ≤ Z ≤ 0); {0,3023}</p><p>c. P( – 1,48 ≤ Z ≤ 2,05); {0,9104}</p><p>d. P(0,72 ≤ Z ≤ 1,89); {0,2064}</p><p>e. P(Z ≥ -2,03); {0,9788}</p><p>f. P(Z ≥ 1,08); {0,1401}</p><p>g. P(Z ≤ -0,66); {0,2546}</p><p>h. P(Z ≤ 0,60). {0,7258}</p><p>5 – Os salários semanais dos operários industriais</p><p>são distribuídos normalmente, em torno da média</p><p>de R$500, com desvio padrão de R$40. Calcule a</p><p>probabilidade de um operário ter um salário sema-</p><p>nal situado entre R$490 e R$520. {29.02%}</p><p>6 – Um teste padronizado de escolaridade tem</p><p>distribuição normal com média 100 e desvio pa-</p><p>drão 10. Determine a probabilidade de um indiví-</p><p>duo submetido ao teste ter nota:</p><p>a. maior que 120; {0,0228}</p><p>b. maior que 80; {0,9772}</p><p>c. entre 85 e 115; {0,8664}</p><p>d. maior que 100. {0,5}</p><p>7 – Os pesos de 600 estudantes são normalmente</p><p>distribuídos com média 65,3 kg e desvio padrão</p><p>5,5 kg. Determine o número de estudantes que</p><p>pesam:</p><p>entre 60 e 70 kg; {0.6338} b. mais que 63,2</p><p>kg; {0.6480} c. menos que 68 kg. {0.6879}</p><p>8 – A duração de um certo componente eletrônico</p><p>tem média de 850 dias e desvio padrão de 40 dias.</p><p>Sabendo que a duração é normalmente distribuída,</p><p>calcule a probabilidade de esse componente durar:</p><p>a. entre 700 e 1.000 dias; {0,9998}</p><p>b. mais de 800 dias; {0,8944}</p><p>c. menos de 750 dias. {0,0062}</p><p>9 – O volume de comercialização na Bolsa de</p><p>Valores de Nova York tem crescido nos últimos</p><p>anos. Para as duas primeiras semanas de janeiro de</p><p>1998, o volume médio diário foi de 646 milhões</p><p>Estatística Aplicada à Computação</p><p>70</p><p>de ações (Barron’s, janeiro de 1998). A</p><p>distribuição de probabilidade do volume diário é</p><p>aproximadamente normal com um desvio-padrão</p><p>de cerca de 100 milhões de ações.</p><p>a. Qual é a probabilidade de que o volume de</p><p>comercialização será menor do que 400 milhões de</p><p>ações?</p><p>b. Durante que porcentagem de tempo o</p><p>volume de comercialização excedeu 800 milhões</p><p>de ações?</p><p>10 – Mensa é a sociedade internacional de</p><p>indivíduos de alto QI. Para fazer parte da Mensa,</p><p>uma pessoa precisa ter um QI de 132 ou mais</p><p>(USA Today, 13 de fevereiro de 1992). Se as</p><p>contagens de QI são distribuídas normalmente</p><p>com uma média de 100 e um desvio-padrão de 15,</p><p>que porcentagem da população se qualifica para</p><p>membro da Mensa?</p><p>11 – Os motoristas que são membros do Sindicato</p><p>dos Motoristas de Carretas ganham uma média de</p><p>US$17 por hora (U.S. News & World Report, 11</p><p>de abril de 1994). Considere que os dados</p><p>disponíveis indicam que os salários são</p><p>distribuídos normalmente com um desvio-padrão</p><p>de US$ 2,25,</p><p>a. Qual é a probabilidade de que os salários</p><p>estejam entre US$ 15,00 e US$ 20,00 por hora?</p><p>b. Qual é o salário-hora, que a partir dele,</p><p>ganham os 15% dos motoristas mais bem pagos do</p><p>Sindicato?</p><p>c. Qual é a probabilidade de que os salários</p><p>sejam menores do que US$ 12,00 por hora?</p><p>12. O tempo necessário para se completar um</p><p>exame final em um curso de faculdade particular é</p><p>distribuído normalmente com uma média de 80</p><p>minutos e um desvio-padrão de 10 minutos.</p><p>Responda às seguintes questões.</p><p>a. Qual é a probabilidade de se completar o</p><p>exame em uma hora ou menos?</p><p>b. Qual é a probabilidade de que um</p><p>estudante completará o exame em mais de 60</p><p>minutos porém em menos de 75 minutos?</p><p>c. Considere que a classe tenha 60 estudantes</p><p>e que o período de exame seja de 90 minutos de</p><p>duração. Quantos estudantes você espera serão</p><p>incapazes de completar o exame no tempo</p><p>determinado?</p><p>13. A idade média para uma pessoa se casar pela</p><p>primeira vez é 26 anos (U.S. News & World Re-</p><p>port, 6 de junho de 1994). Considere que as idades</p><p>para os primeiros casamentos tenham uma</p><p>distribuição normal com um desvio-padrão de</p><p>quatro anos.</p><p>a. Qual é a probabilidade de que uma pessoa</p><p>que se casa pela primeira vez tenha menos de 23</p><p>anos?</p><p>b. Qual é a probabilidade de que uma pessoa</p><p>que se casa pela primeira vez esteja na casa dos</p><p>vinte anos?</p><p>c. Qual a idade que a partir da mesma casam</p><p>pela primeira vez 90% das pessoas (americanas)?</p><p>14. O preço médio do bilhete para um jogo</p><p>principal da Liga de Baseball foi US$ 11,98 em</p><p>1998 (USA Today, 11 de novembro de 1998).</p><p>Adicionando o custo de alimentação, de estaciona-</p><p>mento e de souvenirs, o custo médio para uma</p><p>família de quatro pessoas assistir ao jogo foi de</p><p>aproximadamente US$ 110,00. Considere que a</p><p>distribuição normal se aplica a este caso e que o</p><p>desvio-padrão seja de US$ 20,00.</p><p>a. Qual é a probabilidade de que o custo</p><p>excederá US$ 100,00?</p><p>b. Qual é a probabilidade de que uma família</p><p>gastará US$ 90,00 ou menos?</p><p>c. Qual é a probabilidade de que uma família</p><p>gastará entre US$ 80,00 e US$ 130,00?</p><p>15. Uma fábrica de carros sabe que os motores de</p><p>sua fabricação têm duração normal com média de</p><p>150000 km e desvio padrão de 5000 km. Qual a</p><p>probabilidade de que umcarro, escolhido ao acaso,</p><p>dos fabricados por essa firma,tenha um motor</p><p>dure:</p><p>a) Menos de 170000 km? (0,999968)</p><p>b) Entre 140000 km e 165000 km? (0,9759)</p><p>c) Se a fábrica substitui o motor que apresenta</p><p>duração inferior à garantia, qual deve ser a esta</p><p>garantia para que a percentagem de motores</p><p>substituídos seja inferior a 0,2%? (135650)</p><p>16. Um levantamento indica que, a cada ida ao</p><p>supermercado, um comprador gasta uma média de</p><p>µ = 45 minutos, com um desvio padrão σ = 12</p><p>minutos. O período gasto no supermercado é nor-</p><p>malmente distribuído e representado pela variável</p><p>X. Um comprador entra no supermercado. (a)</p><p>Obtenha a probabilidade de que o comprador fique</p><p>no supermercado por cada um dos intervalos de</p><p>tempo enumerados a seguir. (b) Se 200 comprado-</p><p>res entram no supermercado, quantos você espera</p><p>que estejam em seu interior durante cada um dos</p><p>intervalos de tempo dados abaixo?</p><p>(1) Entre 24 e 54 minutos</p><p>(2) Mais do que 39 minutos.</p><p>(3) Entre 45 minutos e 68 minutos.</p><p>Estatística Aplicada à Computação</p><p>71</p><p>17 - Suponha que você é gerente de um banco</p><p>onde os montantes diários de depósitos e de retira-</p><p>das são dados por variáveis aleatórias independen-</p><p>tes com distribuições normais. Para os depósitos, a</p><p>média é de R$ 12.000,00 e o desvio padrão é R$</p><p>4.000,00; para as retiradas, a média é R$</p><p>10.000,00 e o desvio padrão R$ 5.000,00. Calcule</p><p>a probabilidade de cada um dos eventos abaixo em</p><p>um determinado dia:</p><p>a) Depósitos superiores a R$ 13.000,00.</p><p>b) Retiradas superiores a R$ 13.000,00.</p><p>Qual seria o valor de retirada de modo que</p><p>exista apenas 10% de chance de haver uma</p><p>retirada</p><p>Estatística Aplicada à Computação</p><p>72</p><p>7.0 NOÇÕES DE AMOSTRAGEM</p><p>Um dos principais problemas apresentados na estatística é o de se fazer afirmações</p><p>sobre os parâmetros populacionais (geralmente desconhecidos), como por exemplo, saber qual</p><p>o tempo necessário para o organismo humano degradar certo composto químico, qual a produ-</p><p>ção total de grãos de um país num determinado ano, qual a altura média da população brasilei-</p><p>ra, afirmar se um novo composto é carcinogênico ou não. E para respondermos a estas ques-</p><p>tões, muitas das vezes, temos que lançar mão do processo de amostragem, que consiste em</p><p>estudar apenas uma fração da população (a amostra) e a partir desta fazer inferências sobre a</p><p>população. Inicialmente vamos estudar alguns conceitos preliminares.</p><p>7.1 – Conceitos de Amostragem</p><p>a) Inferência Estatística - é o processo de obter informações sobre uma população a partir</p><p>de resultados observados na Amostra.</p><p>b) População (N): Conjunto formado por indivíduos ou objetos que têm pelo menos uma</p><p>característica (variável) em comum. Também chamado de Universo. Pode ser finita ou infinita.</p><p>População Finita - apresenta um número limitado de observações.</p><p>Ex.: Alunos da URI – Campus de Erechim.</p><p>População Infinita – apresenta um número ilimitado de observações</p><p>(está normalmente associada a processos).</p><p>Ex.: Bebidas engarrafadas</p><p>na linha de produção. Os astros existentes no universo</p><p>Observação: Uma população pode, mediante processos operacionais, ser transformada em</p><p>população infinita, pois a mesma depende do tamanho da amostra.</p><p>considerando f</p><p>n</p><p>N</p><p>se f</p><p>se f</p><p>=</p><p>≤</p><p>></p><p></p><p></p><p></p><p>5% (Pop. Infinita)</p><p>5% (Pop. Finita)</p><p>Ex.: Para N = 1000, n1 = 100 � f</p><p>n</p><p>N1</p><p>1= = 10% � População Finita</p><p>Ex.: Para N = 1000, n1 = 10 � f</p><p>n</p><p>N2</p><p>2= = 1% � População Infinita.</p><p>c) Amostra (n): Fração representativa de elementos de uma população;</p><p>d) Pesquisa Estatística: É qualquer informação retirada de uma população ou amos-</p><p>tra, podendo ser um Censo ou uma Amostragem.</p><p>e) Censo: É a coleta exaustiva de informações das "N" unidades populacionais.</p><p>f) Amostragem: É o processo de retirada de informações dos "n" elementos amostrais, na</p><p>qual deve seguir um método adequado (tipos de amostragem).</p><p>g) Parâmetro (θ ): é a medida usada para descrever uma característica numérica popula-</p><p>cional. Por exemplo, a média (µ), a variância (σ2), a proporção (p) e o coeficiente de correlação</p><p>(ρ).</p><p>h) Estatísticas ou Estimadores (θ̂ ): são características numéricas determinadas na amos-</p><p>tra. Por exemplo, a média amostral ( X ), a variância amostral ( 2s ), a proporção amostral ( p̂ ) e</p><p>o coeficiente de correlação amostral (r).</p><p>Estatística Aplicada à Computação</p><p>73</p><p>i) Estimativa (θ̂ o): é o valor numérico determinado pelo estimador.</p><p>j) Erro Amostral (εεεε): é a diferença entre o valor do estimador e valor do parâmetro.</p><p>θθε −= ˆ .</p><p>O valor do estimador varia em cada uma das Nn amostras de tamanho n, tiradas da população.</p><p>Logo, o estimador é uma variável aleatória e, como tal, podemos determinar a E(θ̂ ), VAR(θ̂ )</p><p>isto é, a esperança matemática de θ̂ e sua variância.</p><p>Pode-se desmembrar o erro amostral em duas partes:</p><p>[ ] ( )[ ]θθθθε −+−= ˆ)ˆ(ˆ EE</p><p>1 2</p><p>1: parte casual 2: viés ou desvio</p><p>O viés7 pode aparecer na seleção da amostra, na coleta dos dados ou na estimação</p><p>dos parâmetros.</p><p>Viés da Seleção: A amostragem pode ser probabilística ou não probabilística. A a-</p><p>mostragem probabilística é o processo de seleção de uma amostra no qual cada unidade a-</p><p>mostral da população tem probabilidade diferente de zero e conhecida de pertencer à amostra.</p><p>Na amostragem não probabilística, a probabilidade de seleção é desconhecida para</p><p>alguns ou todos os elementos da população, podendo alguns destes elementos ter probabili-</p><p>dade nula de pertencer à amostra, como por exemplo, em amostras intencionais, a esmo ou de</p><p>voluntários.</p><p>O melhor modo de evitar o viés de seleção é o uso do sorteio, seja ele manual ou por</p><p>meio de uma tabela de números aleatórios, ou então, pela geração de números aleatórios por</p><p>computador.</p><p>A amostragem probabilística é isenta de viés de seleção.</p><p>Viés na Coleta de Dados: Pode ocorrer principalmente quando se substitui a unidade</p><p>de amostragem ou quando há falta de respostas.</p><p>Viés de estimação: Este tipo de vício pode ser controlado fazendo-se amostragens</p><p>probabilísticas.</p><p>7.2 – Plano de Amostragem</p><p>1o) Definir os Objetivos da Pesquisa.</p><p>2o) População a ser Amostrada</p><p>- Parâmetros a ser Estimados (Objetivos).</p><p>3o) Definição da Unidade Amostral.</p><p>- Seleção dos Elementos que farão parte da amostra.</p><p>4o) Forma de seleção dos elementos da população.</p><p>7 Distorção ou tendenciosidade associada a procedimento estatístico.</p><p>Estatística Aplicada à Computação</p><p>74</p><p>- Tipo de Am</p><p>Estratificada</p><p>ostragem</p><p>Aleatoria Simples</p><p>Sistematica</p><p>por Conglomerados</p><p></p><p></p><p></p><p></p><p></p><p></p><p></p><p>5o) Tamanho da Amostra</p><p>Ex.: Moradores de uma Cidade (população alvo)</p><p>Objetivo: Tipo de Residência</p><p></p><p></p><p></p><p></p><p></p><p></p><p></p><p></p><p></p><p></p><p>pisos maisou</p><p>pisos dois</p><p>piso um</p><p>trêsemprestada</p><p>alugada</p><p>própria</p><p>Unidade Amostral: Domicílios (residências)</p><p>Elementos da População: Família por domicílio</p><p>Tipo de Amostragem:</p><p></p><p></p><p></p><p></p><p></p><p>asistemátic</p><p>adaestratific</p><p>simplesaleatória</p><p>O aspecto essencial da Estatística Inferencial é que, a partir da análise dos resultados</p><p>em uma amostra, permite a generalização dos dados para a população. Mas, enquanto a popu-</p><p>lação é estável, as amostras variam, não constituindo uma réplica em miniatura da população.</p><p>De tal constatação decorre o fato de que a Estatística lnferencial é essencialmente incerta, pois</p><p>há sempre a possibilidade de se tomar a decisão errada, uma vez que os resultados da amos-</p><p>tra são parcialmente fortuitos. A Estatística Inferencial, devido a seus resultados incertos, a-</p><p>póia-se na Teoria das Probabilidades.</p><p>Por que privilegiar a incerteza, a possibilidade de erro implícitos na seleção e análise de</p><p>dados de uma amostra, quando poderíamos estudar toda a população e ter convicção acerca</p><p>de nossos achados?</p><p>Razões para a utilização de amostras</p><p>Quando estudamos todos os elementos de uma população, estamos realizando o que</p><p>denominamos censo. O IBGE, por exemplo, realiza periodicamente (de dez em dez anos) o</p><p>censo relativo a inúmeras características do Brasil; obtém dados a respeito da saúde, ensino,</p><p>habitação, produção vegetal e animal, prestação de serviços, etc., em todo o território nacional,</p><p>pesquisando todos os elementos da população. O censo, porém, nem sempre pode ou deve</p><p>ser utilizado, devido à impossibilidade de estudar a população, por apresentar pouca precisão e</p><p>em razão de seu custo econômico.</p><p>O estudo completo da população também é inviável quando se trata de população muito</p><p>grande ou mesmo infinita. Se quisermos estudar as características de todos os que decidiram</p><p>estudar Biologia, teremos uma população infinita: estamos interessados em todos os alunos</p><p>dos cursos de Biologia, os que já se formaram os que estão estudando agora e os que ainda</p><p>farão o curso. Como não sabemos quais os que ainda farão o curso, temos uma população</p><p>infinita e, portanto, inacessível. Mesmo que delimitemos a população a ser estudada a todos os</p><p>alunos que estão fazendo o curso de Biologia no mundo, teremos um número tão grande de</p><p>alunos que, novamente, será impossível estudá-los.</p><p>Estatística Aplicada à Computação</p><p>75</p><p>Finalmente, pode ser impraticável investigar toda a população em determinados proce-</p><p>dimentos de controle de qualidade. Por exemplo, se quisermos verificar a qualidade de uma</p><p>marca de fósforos, necessitaremos riscá-los a fim de verificar o seu funcionamento. Se inspe-</p><p>cionarmos toda a população de fósforos, riscando-os, acabaremos com a população, pois o</p><p>processo de aferição da qualidade do fósforo o destrói. Novamente, o estudo da população</p><p>toma-se impraticável.</p><p>O custo e a precisão da pesquisa também são levados em conta, ao se planejar o estu-</p><p>do. Evidentemente, estudar uma amostra no lugar da população diminui o custo, pois o tempo</p><p>dispendido é inferior, o número de pesquisadores necessários para a coleta de dados em cam-</p><p>po é menor, a quantidade de material é menor, etc. Em compensação, os pesquisadores po-</p><p>dem ser selecionados, treinados e supervisionados de forma mais cuidadosa, de modo a obte-</p><p>rem, igualmente, dados de forma mais cuidadosa e aprofundada. Por isso, a precisão, o custo</p><p>da pesquisa e o tipo de informação que se pretende obter são interdependentes. Prefere-se,</p><p>assim, geralmente, estudar a amostra e não a população.</p><p>Representatividade da amostra</p><p>Para que as conclusões da teoria de amostragem sejam válidas, as amostras devem</p><p>ser escolhidas de modo a serem representativas da população. Isso significa que a amostra</p><p>deve possuir as mesmas características básicas da população, no que diz respeito a (s) variá-</p><p>vel (eis) que desejamos estudar. Plano de amostragem deve ser formulado para garantir a re-</p><p>presentatividade.</p><p>7.3 – Operação de amostragem</p><p>7.3.1 – Definição de população</p><p>O primeiro passo na determinação de uma amostra</p><p>é a definição da população a ser</p><p>estudada. A população é constituída por todos os elementos que o pesquisador deseja investi-</p><p>gar e é determinada pelos objetivos particulares da investigação.</p><p>Para que se determine a população, muitas decisões devem ser tomadas, de modo a delimi-</p><p>tá-la o melhor possível. Por exemplo, se queremos comparar o desenvolvimento cognitivo e</p><p>emocional de crianças que freqüentam creche em regime de externato e crianças que são cui-</p><p>dadas, sobretudo por suas mães, devemos responder as seguintes perguntas:</p><p>a) A freqüência a creche ocorre em tempo integral ou parcial?</p><p>b) Qual a faixa etária mais apropriada ao estudo?</p><p>c) A idade de ingresso na creche é uma variável a ser levada em conta?</p><p>d) Que variáveis familiares devem ser controladas?</p><p>e) Devem ser incluídos todos os tipos de creche, ou seja, assistencial, empresarial e particular?</p><p>Na pesquisa mencionada (Penna et alii, 1988), definiu-se a população como sendo</p><p>composta de crianças de 6 a 24 meses, que eram o primeiro ou o segundo filho de pais entre</p><p>18 e 35 anos, de lares intactos e de nível socioeconômico médio. As crianças que freqüenta-</p><p>vam creche o faziam em tempo integral, permanecendo pelo menos nove horas diárias na cre-</p><p>che; suas mães exerciam atividade profissional fora do lar. Foram incluídas no estudo crianças</p><p>que freqüentavam creches assistenciais, empresariais e particulares.</p><p>7.3.2 – Definição das variáveis em estudo</p><p>Ainda na pesquisa sobre creche, já mencionada, os pesquisadores pretendiam verificar</p><p>se o fato de freqüentar creche ou não, influiria no desenvolvimento cognitivo e emocional de</p><p>crianças ente 6 e 24 meses. A freqüência à creche ou não é uma variável objetiva, bastante</p><p>fácil de ser avaliada pela simples observação. Características como o desenvolvimento cogniti-</p><p>vo e o emocional necessitam ser bem definidas, para que possam ser avaliadas com precisão.</p><p>Verificamos, assim, que a definição clara das variáveis a serem estudadas é indispensável para</p><p>que possam ser avaliadas, viabilizando a pesquisa.</p><p>Estatística Aplicada à Computação</p><p>76</p><p>7.3.3 – Escolha da unidade de amostragem</p><p>A unidade de amostragem não é constituída necessariamente, nas ciências do compor-</p><p>tamento, por indivíduos. Pode se referir a grupos maiores, tais como creches, escolas, hospi-</p><p>tais, ou ainda maiores, como sociedades.</p><p>Cabe aqui distinguir entre unidade de amostragem, unidade de listagem e unidade de</p><p>observação. As unidades de amostragem podem conter uma ou mais unidades elementares,</p><p>constituindo a base do processo seletivo. As unidades de listagem dizem respeito ao sistema</p><p>de referência ou cadastro utilizado. Finalmente, as unidades de observação são aquelas por</p><p>meio das quais obtemos as informações relevantes.</p><p>Seja, por exemplo, a execução de uma pesquisa domiciliar. As unidades de listagem</p><p>são, obviamente, os endereços domiciliares incluídos na lista ou cadastro a nossa disposição.</p><p>As unidades de amostragem poderiam ser as famílias (observando-se que duas ou mais famí-</p><p>lias podem residir no mesmo endereço) e os chefes de família seriam os informantes, isto é, as</p><p>unidades de observação.</p><p>7.3.4 – Escolha do método de seleção da amostra</p><p>Conforme veremos com mais detalhe no último tópico deste capítulo, existem dois tipos</p><p>de método para a seleção de amostras: métodos probabilísticos e métodos não-probabilísticos.</p><p>Em linhas gerais, os métodos probabilísticos são aqueles em que se conhece a probabilidade</p><p>de cada elemento da população ser incluído na amostra. Note-se bem que o termo probabilísti-</p><p>co se aplica a amostra escolhida de forma aleatória. Por envolver o sorteio, a seleção indepen-</p><p>de do pesquisador e elimina-se a possível tendenciosidade do mesmo.</p><p>Quando empregamos os métodos não-probabilísticos, não temos conhecimento da pro-</p><p>babilidade de escolha de determinado elemento da amostra. Nesse caso, a seleção não utiliza</p><p>o sorteio, o que acarreta a sua subjetividade e a influência do pesquisador sobre que elemen-</p><p>tos da população farão parte da amostra.</p><p>7.3.5 – Determinação do tamanho da amostra</p><p>O tamanho da amostra deve ser determinado antes de se sair em campo para coletar</p><p>os dados. Quando pretendemos utilizar um método de seleção da amostra probabilístico, reali-</p><p>zamos um estudo-piloto, que nos permite estimar algumas dentre as estatísticas da população.</p><p>Então, por meio de procedimentos estatísticos adequados, que serão aqui apresentados, de-</p><p>terminamos o tamanho ideal da amostra a ser investigada. No caso de um método de seleção</p><p>da amostra não-probabilístico, não temos como calcular o tamanho desejável da amostra, que</p><p>é estimado de forma subjetiva e grosseira.</p><p>7.3.6 – Seleção da amostra e estimativa das características da população</p><p>A seleção da amostra consiste na escolha propriamente dita dos elementos da amostra,</p><p>que poderá ocorrer ou não de forma probabilística. Após a coleta dos dados, eles são generali-</p><p>zados para a(s) população(ões), utilizando-se métodos que serão discutidos e explorados futu-</p><p>ramente.</p><p>7.4 – Métodos de seleção de amostras</p><p>7.4.1 – Métodos probabilísticos</p><p>O fato de a aleatoriedade interferir em algum estágio da seleção da amostra tem algu-</p><p>mas implicações importantes. A principal é que as leis da probabilidade matemática regem o</p><p>modelo de distribuição amostral, ou seja, a distribuição de todas as amostras de determinado</p><p>Estatística Aplicada à Computação</p><p>77</p><p>tamanho possíveis de serem extraídas da população. Temos que todos os métodos de seleção</p><p>da amostra apresentam algum modelo de distribuição amostral; esse modelo, porém, só pode</p><p>ser conhecido e determinado pelas leis matemáticas de probabilidade, aplicáveis apenas a</p><p>amostras probabilísticas. Assim, a distribuição amostral das médias aritméticas e das propor-</p><p>ções, desde que obtida de forma probabilística, tende ao modelo da distribuição normal, desde</p><p>que a amostra seja grande (maior que 30); quando a amostra é pequena (menor que 30)8, a</p><p>distribuição amostral das médias aritméticas e das proporções segue o modelo da distribuição t</p><p>de Student. À medida que o tamanho da amostra aumenta, a distribuição t tende a distribuição</p><p>normal; como as tabelas que lhes correspondem se superpõem, na prática utilizamos apenas o</p><p>modelo da distribuição t de Student.</p><p>Outras conseqüências da aleatoriedade são:</p><p>1) a possibilidade de estimarmos os erros de amostragem, ou seja, a diferença entre o valor</p><p>na amostra e na população;</p><p>2) a viabilidade de se determinar o tamanho desejável da amostra na população a ser investi-</p><p>gada.</p><p>7.4.1.1 – Amostragem casual ou aleatória simples</p><p>Este tipo de amostragem é equivalente a um sorteio lotérico. Na prática, a amostragem</p><p>casual ou aleatória simples pode ser realizada numerando-se a população de 1 a n e sorte-</p><p>ando-se, a seguir, por meio de um dispositivo aleatório qualquer, k números dessa seqüência,</p><p>os quais corresponderão aos elementos pertencentes a amostra.</p><p>Exemplo:</p><p>Vamos obter uma amostra representativa para a pesquisa da estatura de noventa alu-</p><p>nos de uma escola:</p><p>a. Numeramos os alunos de 01 a 90.</p><p>b. Escrevemos os números, de 01 a 90, em pedaços iguais de um mesmo papel, colocando-os</p><p>dentro de uma caixa. Agitamos sempre a caixa para misturar bem os pedaços de papel e reti-</p><p>ramos, um a um, nove números que formarão a amostra. Neste caso, 10% da população.</p><p>Quando o número de elementos da amostra é grande, esse tipo de sorteio torna-se mui-</p><p>to trabalhoso. A fim de facilitá-lo, foi elaborada uma tabela – Tabela de Números Aleatórios –,</p><p>que pode ser encontrada nos livros de Estatística Básica ou confeccionada em computador</p><p>utilizando o EXCEL. Em uma célula do Excel digite a função a seguir.</p><p>=INT(ALEATÓRIO()*100). Ela vai gerar um número aleatório entre 0 a 100. Se quiser entre 0 e</p><p>1000, substitua o 100 por 1000, e assim por diante. A função INT converte o número aleatório</p><p>para INTeiro. Para recalcular clicar F9.</p><p>No OpenOffice ou BROffice a função é: =ALEATÓRIOENTRE(0;100).</p><p>Gera um valor</p><p>entre 0 e 100. Você pode definir o intervalo que quiser. Para recalcular use: Shift + Ctrl + F9.</p><p>Para obtermos os elementos da amostra usando a tabela, sorteamos um algarismo</p><p>qualquer da mesma, a partir do qual iremos considerar números de dois, três ou mais algaris-</p><p>mos, conforme nossa necessidade. Os números assim obtidos irão indicar os elementos da</p><p>amostra.</p><p>A leitura da tabela pode ser feita horizontalmente (da direita para a esquerda ou vice-</p><p>versa), verticalmente (de cima para baixo ou vice-versa), diagonalmente (no sentido ascenden-</p><p>te ou descendente) ou formando o desenho de uma letra qualquer. A opção, porém, deve ser</p><p>feita antes de iniciado o processo.</p><p>Medindo as alturas dos alunos correspondentes aos números sorteados, obteremos</p><p>uma amostra das estaturas dos noventa alunos.</p><p>7.4.1.2 – Amostragem proporcional estratificada</p><p>8 Existem divergências quanto a este critério: alguns autores consideram como limite 50, outros 100, para definir se a amostra é pequena ou grande.</p><p>Estatística Aplicada à Computação</p><p>78</p><p>Muitas vezes a população se divide em subpopulações – estratos.</p><p>Como é provável que a variável em estudo apresente, de estrato em estrato, um com-</p><p>portamento heterogêneo e, dentro de cada estrato, um comportamento homogêneo, convém</p><p>que o sorteio dos elementos da amostra leve em consideração tais estratos. É exatamente isso</p><p>que fazemos quando empregamos a amostragem proporcional estratificada, que, além de</p><p>considerar a existência dos estratos, obtém os elementos da amostra proporcional ao número</p><p>de elementos dos mesmos.</p><p>Exemplo:</p><p>Supondo, no exemplo anterior, que, dos noventa alunos, 54 sejam meninos e 36 sejam</p><p>meninas, vamos obter a amostra proporcional estratificada.</p><p>São, portanto, dois estratos (sexo masculino e sexo feminino) e queremos uma amostra</p><p>de 10% da população. Logo, temos:</p><p>SEXO POPULAÇÃO 10% AMOSTRA</p><p>M</p><p>F</p><p>54</p><p>36</p><p>4,5</p><p>100</p><p>5410</p><p>=</p><p>X</p><p>6,3</p><p>100</p><p>3610</p><p>=</p><p>X</p><p>5</p><p>4</p><p>Total 90</p><p>0,9</p><p>100</p><p>9010</p><p>=</p><p>X</p><p>9</p><p>7.4.1.3 – Amostragem sistemática</p><p>Quando os elementos da população já se acham ordenados, não há necessidade de</p><p>construir o sistema de referência. São exemplos os prontuários médicos de um hospital, os</p><p>prédios de uma rua, as linhas de produção etc. Nestes casos, a seleção dos elementos que</p><p>constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. A esse tipo de</p><p>amostragem denominamos sistemática.</p><p>Assim, no caso de uma linha de produção, podemos, a cada dez itens produzidos, reti-</p><p>rar um para pertencer a uma amostra da produção diária, Neste caso, estaríamos fixando o</p><p>tamanho da amostra em 10% da população.</p><p>Exemplo:</p><p>Suponhamos uma rua contendo novecentos prédios, dos quais desejamos obter uma</p><p>amostra formada de cinqüenta prédios. Podemos, neste caso, usar o seguinte procedimento:</p><p>como 18</p><p>50</p><p>900</p><p>= , escolhemos por sorteio casual um número de 1 a 18 (inclusive), o qual indica-</p><p>ria o primeiro elemento sorteado para a amostra; os demais elementos seriam periodicamente</p><p>considerados de 18 em 18. Assim, se o número sorteado fosse o 4, tomaríamos, pelo lado di-</p><p>reito da rua, o 4º prédio, o 22º, o 40º etc., até voltarmos ao início da rua, pelo lado esquerdo.</p><p>OBSERVAÇÃO: Estes são apenas alguns tipos de amostragem. Na Estatística II serão</p><p>vistos profundamente todos os tipos e como calcular o tamanho da amostra.</p><p>Vantagens da amostragem sistemática em relação a AAS:</p><p>• Facilidade do processo de seleção dos elementos. O sorteio de um elemento do rol determi-</p><p>na os (n - 1) outros da amostra.</p><p>Estatística Aplicada à Computação</p><p>79</p><p>• Precisão maior. A população fica estratificada em k estratos de n unidades. De cada estrato</p><p>um elemento participa da amostra.</p><p>• A amostra sistemática se distribui mais uniformemente na população, dando uma melhor</p><p>representatividade.</p><p>• A supervisão do processo de seleção e coleta dos dados é imediata. Controla-se facilmente</p><p>os erros.</p><p>• É possível de ser conduzida quando o tamanho da população é desconhecido. Numa rua</p><p>central de uma cidade pode-se entrevistar sempre a 10ª pessoa que até completar a amostra</p><p>de n entrevistados.</p><p>7.4.1.4 – Amostragem por conglomerados</p><p>Recomendada quando a população é muito dispersa, tornando impraticável a organiza-</p><p>ção de um rol com todos os elementos. Neste caso, a população é dividida em sub-populações</p><p>ou conglomerados. Alguns conglomerados são sorteados para compor a amostra. Dentro dos</p><p>conglomerados sorteados torna-se mais fácil organizar o rol completo de todos os elementos.</p><p>De acordo com a tomada dos elementos dentro de cada conglomerado selecionado,</p><p>tem-se:</p><p>a) Conglomerado em estágio único: são levantadas todas as unidades dos conglomera-</p><p>dos selecionados.</p><p>b) Conglomerado em dois estágios: dos quarteirões selecionados são sorteadas algu-</p><p>mas casas, entrevistando todas as pessoas das casas.</p><p>Conglomerado em três estágios: das casas selecionadas são sorteadas algumas pes-</p><p>soas para serem entrevistadas.</p><p>O processo pode evoluir para mais estágios ainda.</p><p>7.4.2 – Tipos de amostragem não probabilística</p><p>7.4.2.1 – Inacessibilidade a toda a população: quando a amostra é retirada na parte</p><p>da população que nos é acessível. Surge aqui uma distinção entre população objeto e popula-</p><p>ção amostrada. A população objeto é aquela que temos em mente ao realizar o trabalho esta-</p><p>tístico. Apenas uma parte dessa população, porém, está acessível para que dele retiremos a</p><p>amostra. Essa parte é a população amostrada.</p><p>Ex. Controle de qualidade numa linha de produção de cigarros. Só tem-se acesso aos</p><p>cigarros que já estão prontos, embora os que ainda serão produzidos fazem parte da popula-</p><p>ção de cigarros produzidos por aquela linha produção.</p><p>7.4.2.1 – Amostragem a esmo ou sem norma: é a amostragem em que o amostrador</p><p>para simplificar o processo procura ser aleatório, sem realizar propriamente o sorteio, usando</p><p>algum dispositivo aleatório.</p><p>Ex. Amostrar 80 frangos num galpão com 3000 frangos, amostrar peixes em um lago,</p><p>pessoas em uma praia, etc.</p><p>7.4.2.1 – População formada por material contínuo: nesse caso é impossível realizar</p><p>amostragem probabilística, devido à impraticabilidade de um sorteio rigoroso.</p><p>Processo utilizado para se amostrar líquidos, gases ou sólidos. Homogeniza-se o mate-</p><p>rial a ser amostrado e em seguida colhe-se a amostra.</p><p>7.4.2.1 – Amostragem intencional: é aquela em que o amostrador deliberadamente</p><p>escolhe certos elementos para pertencer à amostra, por julgar tais elementos bem representa-</p><p>tivos da população.</p><p>Ex.: Pesquisa de mercado para lançar uma nova marca de leite longa vida tipo A O</p><p>pesquisador selecionará indivíduos com poder aquisitivo médio/alto, que são os principais con-</p><p>Estatística Aplicada à Computação</p><p>80</p><p>sumidores deste produto (público alvo), embora toda a população independentemente do poder</p><p>aquisitivo possa ser consumidora deste produto.</p><p>7.4.3 – Outros Tópicos de Amostragem</p><p>7.4.3.1 – Amostragem para atributos raros</p><p>Este tipo de amostragem é utilizado quando a proporção p na população com o atributo</p><p>a ser estudado é pequena.</p><p>Idéia: Neste método não se fixa o n antes da seleção. Ao contrário, a amostrarem é feita</p><p>até que um determinado número de unidades que possui a determinada característica rara te-</p><p>nha sido selecionado.</p><p>Deve-se prefixar o número de sucessos m e n será o tamanho da amostra necessária</p><p>para obter m sucessos; p será a proporção de indivíduos com a característica rara na popula-</p><p>ção; N é o tamanho da população.</p><p>7.5 – Distribuições Amostrais</p><p>Uma distribuição de Probabilidade Amostral indica até que ponto uma estatística a-</p><p>mostral tende a variar devido às variações casuais na amostragem aleatória.</p><p>Considerando todas as possíveis amostras de tamanho "n" de uma população, para</p><p>cada amostra poderemos calcular a sua média, variância, proporção, etc.</p><p>Média ⇒ Distribuição Amostral</p><p>das Médias</p><p>Variância ⇒ Distribuição Amostral das Variâncias</p><p>Proporção ⇒ Distribuição Amostral das Proporções</p><p>Amostragem "COM" e "SEM" reposição</p><p>Seja "N" o número de elementos de uma população, e seja "n" o número de elementos</p><p>de uma amostra, então:</p><p>Se o processo de retirada dos elementos for COM reposição (pop. infinita (f ≤ 5%) ), o</p><p>número de amostras possíveis será:</p><p>Número de amostras = Nn</p><p>Se o processo de retirada de elementos for SEM reposição (pop. finita (f > 5%) ), o</p><p>número de amostras possíveis será:</p><p>Número de amostras = ( )!n-N !n</p><p>!N</p><p>C n,N =</p><p>Ex.: Supondo N = 8 e n = 4</p><p>Com reposição: no de amostras = N n = 8 40964 =</p><p>Sem reposição: no de amostras =</p><p>( )</p><p>C</p><p>N</p><p>nN n,</p><p>!</p><p>! !</p><p>=</p><p>N - n</p><p>= C8 4</p><p>8</p><p>4</p><p>70,</p><p>!</p><p>! !</p><p>= =</p><p>4</p><p>Ex.: Processo de Amostragem Aleatória Simples (Distribuição Amostral das Mé-</p><p>dias) (com reposição)</p><p>Estatística Aplicada à Computação</p><p>81</p><p>N = { 1, 2, 3, 4} n = 2 no de amostras = N n = 4 162 =</p><p>{ } { } { } { }</p><p>{ } { } { } { }</p><p>{ } { } { } { }</p><p>{ } { } { } { }</p><p>11 1 2 1 3 1 4</p><p>2 1 2 2 2 3 2 4</p><p>31 3 2 3 3 3 4</p><p>4 1 4 2 4 3 4 4</p><p>, , , ,</p><p>, , , ,</p><p>, , , ,</p><p>, , , ,</p><p>- (sem reposição)</p><p>N = { 1, 2, 3, 4} n = 2 no de amostras = C4 2</p><p>4</p><p>2</p><p>6,</p><p>!</p><p>! !</p><p>= =</p><p>2</p><p>{ } { } { }</p><p>{ } { } { }4,34,23,2</p><p>4,13,12,1</p><p>Para ilustrar melhor as estatísticas amostrais usaremos o processo com reposição.</p><p>{ } { } { } { }</p><p>{ } { } { } { }</p><p>{ } { } { } { }</p><p>{ } { } { } { }</p><p>11 1 0 1 2 15 1 3 2 0 1 4 2 5</p><p>2 1 15 2 2 2 0 2 3 2 5 2 4 3 0</p><p>31 2 0 3 2 2 5 3 3 3 0 3 4 3 5</p><p>4 1 2 5 4 2 3 0 4 3 3 5 4 4 4 0</p><p>, , , , , , , ,</p><p>, , , , , , , ,</p><p>, , , , , , , ,</p><p>, , , , , , , ,</p><p>⇒ = ⇒ = ⇒ = ⇒ =</p><p>⇒ = ⇒ = ⇒ = ⇒ =</p><p>⇒ = ⇒ = ⇒ = ⇒ =</p><p>⇒ = ⇒ = ⇒ = ⇒ =</p><p>x x x x</p><p>x x x x</p><p>x x x x</p><p>x x x x</p><p>Representações de uma Distribuição A-</p><p>mostral</p><p>- Tabela</p><p>xi P(X = xi )</p><p>1,0 1/16</p><p>1,5 2/16</p><p>2,0 3/16</p><p>2,5 4/16</p><p>3,0 3/16</p><p>3,5 2/16</p><p>4,0 1/16</p><p>Σ 16/16</p><p>- Gráfico</p><p>Estatísticas Amostrais</p><p>- Esperança Matemática9</p><p>9 ESPERANÇA MATEMÁTICA</p><p>Se p é a probabilidade de uma pessoa receber uma quantia S, a espe-</p><p>rança matemática, ou simplesmente esperança, é definida po pS.</p><p>Exemplo: Se a probabilidade de um homem ganhar um prêmio de</p><p>R$1000,00 é de 1/5, sua esperança é de 1/5 . (R$1000,00) =</p><p>R$200,00.</p><p>O conceito de esperança é facilmente estendido. Se X representa uma</p><p>variável aleatória discreta que pode assumir os valores X1, X2,..., Xk,</p><p>com as probabilidades de p1, p2, ..., pk, respectivamente, sendo p1 +</p><p>p2 +...+ pk = 1, a esperança matemática de X, ou simplesmente sua</p><p>esperança, representada por E(X), é definida por:</p><p>Estatística Aplicada à Computação</p><p>82</p><p>( ) ( )µ x E x xi</p><p>i</p><p>n</p><p>= = = =</p><p>=</p><p>∑ P(X = xi ) ,</p><p>40</p><p>16</p><p>2 5</p><p>1</p><p>-Variância</p><p>ou ( ) ( )VAR x E x E x= −2 2[ ( )]</p><p>onde ( ) ( )E x2 = ∑ x P X = xi</p><p>2</p><p>i</p><p>i=1</p><p>n</p><p>7.5.1 – Distribuição Amostral das médias</p><p>Se a variável aleatória "x" segue uma</p><p>distribuição normal:</p><p>( )x ~ N (x); (x)µ σ2</p><p>onde z</p><p>x x</p><p>x</p><p>=</p><p>− µ</p><p>σ</p><p>( )</p><p>( )</p><p>µ µ( )x = (a média amostral é</p><p>igual à média populacional)</p><p>e σ</p><p>σ</p><p>( )</p><p>( )</p><p>x</p><p>x</p><p>n</p><p>= (Desvio Padrão</p><p>Amostral)</p><p>Caso COM reposição (pop. In-</p><p>finita)</p><p>x N x</p><p>x</p><p>n</p><p>~ ( );</p><p>( )</p><p>µ</p><p>σ</p><p>2</p><p></p><p></p><p></p><p></p><p></p><p>∑ ∑</p><p>=</p><p>==+++=</p><p>K</p><p>i</p><p>iiKK XpXpXpXpXpXE</p><p>1</p><p>2211 ....)(</p><p>Se as probabilidades pi forem substituídas, nessa expres-</p><p>são, pelas freqüências relativas fi/N, em que N = fi, a esperança</p><p>reduzir-se-á a (fX)/N, que é a média aritmética X de uma amostra</p><p>de tamanho N, na qual X1, X2, ... , Xk aparecem com essas freqüên-</p><p>cias relativas. Quando N tornar-se cada vez maior, a freqüência</p><p>relativa fi /N aproximar-se-á da probabilidade pi. Por isso, é-se con-</p><p>duzido a interpretar E(X) como representação da média da população</p><p>a qual a amostra foi extraída. Se for representada por m a média da</p><p>amostra, a da população poderá ser indicada pela letra grega corres-</p><p>pondente, µ (mi).</p><p>A esperança pode também ser definida para variáveis</p><p>aleatórias contínuas, mas essa definição requer o uso de cálculo</p><p>infinitesimal.</p><p>Caso SEM reposição (pop. finita)</p><p>Quando a amostra for > 5% da popu-</p><p>lação</p><p>n</p><p>N</p><p></p><p></p><p></p><p></p><p></p><p> devemos usar um fator de corre-</p><p>ção.</p><p>x N x</p><p>x</p><p>n</p><p>~ ( );</p><p>( )</p><p>µ</p><p>σ</p><p>N - n</p><p>N -1</p><p>2</p><p></p><p></p><p></p><p></p><p> , onde</p><p>N - n</p><p>N -1</p><p>é o fator de correção.</p><p>Ex1.: Uma população muito grande tem média 20,0</p><p>e desvio padrão 1,4 . Extrai-se uma amostra</p><p>de 49 observações. Responda:</p><p>a) Qual a média da distribuição a-</p><p>mostral?</p><p>b) Qual o desvio padrão da distribui-</p><p>ção amostral?</p><p>c) Qual a porcentagem das possíveis médias</p><p>que diferiram por mais de 0,2 da média popu-</p><p>lacional ?</p><p>Ex2.: Um processo de encher garrafas de coca-</p><p>cola dá em média 10% mal cheias com des-</p><p>vio padrão de 30%. Extraída uma amostra de</p><p>225 garrafas de uma seqüência de produção</p><p>de 625, qual a probabilidade amostral das</p><p>garrafas mal cheias estar entre 9% e 12%.</p><p>Obs.: O exemplo n o 2 pode ser re-</p><p>solvido usando a distribuição amostral das</p><p>proporções, onde p = proporção populacional,</p><p>p= média da distribuição amostral das pro-</p><p>porções. Logo temos:</p><p>7.5.2 – Distribuição Amostral das</p><p>Proporções</p><p>p p</p><p>p p</p><p>n</p><p>= =</p><p>−</p><p>e .</p><p>N - n</p><p>N -1pσ</p><p>( )1</p><p>,</p><p>onde</p><p>N - n</p><p>N -1</p><p>é usado para população finita.</p><p>Ex.: Uma máquina de recobrir cere-</p><p>jas com chocolate é regulada para produzir</p><p>Estatística Aplicada à Computação</p><p>83</p><p>um revestimento de (3% em relação ao volu-</p><p>me da cereja). Se o processo segue uma</p><p>distribuição normal, qual a probabilidade de</p><p>extrair uma amostra de 25 cerejas de um lote</p><p>de 169 e encontrar uma média amostral su-</p><p>perior a 3,4%. R = 0,44828.</p><p>EXERCÍCIOS</p><p>1 - Uma fábrica de baterias alega que eu arti-</p><p>go de primeira categoria tem uma vida média</p><p>de 50 meses, e desvio padrão de 4 meses.</p><p>a) Que porcentagem de uma amostra de 36</p><p>observações acusaria vida média no intervalo</p><p>de um mês em torno da média?</p><p>b) Qual será a resposta para uma amostra de</p><p>64 observações?</p><p>c) Qual seria o percentual das médias amos-</p><p>trais inferior a 49,8 meses com n =100?</p><p>2 - Um varejista compra copos diretamente</p><p>da fábrica em grandes lotes. Os copos são</p><p>embrulhados individualmente. Periodicamen-</p><p>te o varejista inspeciona os lotes para deter-</p><p>minar a proporção dos quebrados ou lasca-</p><p>dos. Se um grande lote contém 10% de que-</p><p>brados (lascados) qual a probabilidade do</p><p>varejista obter numa amostra de 100 copos</p><p>17% ou mais defeituosos?</p><p>3 - Deve-se extrair uma amostra de 36 obser-</p><p>vações de uma máquina de cunhar moedas</p><p>comemorativas. A espessura média das mo-</p><p>edas é de 0,2 cm, com desvio padrão de 0,01</p><p>cm.</p><p>a) Que percentagem de médias amostrais</p><p>estará no intervalo ± 0,004 em torno da mé-</p><p>dia? R = 0.98316</p><p>b) Qual a probabilidade de obter uma média</p><p>amostral que se afaste por mais de 0,005 cm</p><p>da média do processo? R = 0.00164</p><p>4 - Suponha que uma pesquisa recente tenha</p><p>revelado que 60% de uma população de adul-</p><p>tos do sexo masculino consista de não-</p><p>fumantes. Tomada uma amostra de 10 pes-</p><p>soas de uma população muito grande, que</p><p>percentagem esperamos nos intervalos abai-</p><p>xo:</p><p>a) de 50% a 65% b) maior que 53%</p><p>c) de 65% a 80% d) menos de 40% ou d)</p><p>mais de 70%</p><p>7.6 – Determinação do tamanho da amos-</p><p>tra e do erro de amostragem</p><p>Os pesquisadores de todo o mundo,</p><p>na realização de pesquisas científicas, em</p><p>qualquer setor da atividade humana, utilizam</p><p>as técnicas de amostragem no planejamento</p><p>de seus trabalhos, não só pela impraticabili-</p><p>dade de poderem observar, numericamente,</p><p>em sua totalidade determinada população em</p><p>estudo, como devido ao aspecto econômico</p><p>dessas investigações, conduzidos com um</p><p>menor custo operacional, dentro de um me-</p><p>nor tempo, além de possibilitar maior precisão</p><p>nos respectivos resultados, ao contrário, do</p><p>que ocorre com os trabalhos realizados pelo</p><p>processo censitário (COCHRAN, 1965;</p><p>CRUZ, 1978).</p><p>A</p><p>na urina, indica-</p><p>da por: 0, +, ++,</p><p>+++.</p><p>Discretas Dados oriundos de contagem.</p><p>Número de funcioná-</p><p>rios; número acidentes</p><p>de trabalho ocorrido</p><p>durante um mês.</p><p>Quantitativas</p><p>Contínuas Dados oriundos de medição.</p><p>Medidas de altura e</p><p>peso; idade.</p><p>CUIDADO:</p><p>Para a variável peso de um lutador de boxe,</p><p>se for anotado o peso marcado na balança, a</p><p>variável é quantitativa contínua, se o peso</p><p>for classificado segundo as categorias do</p><p>boxe, a variável é qualitativa ordinal.</p><p>A cada fenômeno corresponde um número de</p><p>resultados possíveis. Assim, por exemplo:</p><p>- para o fenômeno "sexo" são dois os</p><p>resultados possíveis: sexo masculino e sexo</p><p>feminino;</p><p>- para o fenômeno "número de filhos"</p><p>há um número de resultados possíveis expres-</p><p>sos através dos números naturais;</p><p>0, 1, 2, 3, 4, ... , n;</p><p>Estatística Aplicada à Computação</p><p>7</p><p>De um modo geral as medidas dão ori-</p><p>gem a variáveis contínuas e as contagens ou</p><p>enumerações, a variáveis discretas.</p><p>Designamos as variáveis por letras</p><p>latinas, em geral, as últimas: x, y, z.</p><p>EXERCÍCIOS</p><p>1)Classifique as variáveis:</p><p>A. Universo: alunos de uma escola</p><p>Variável: cor dos cabelos ...........................</p><p>B. Universo: casais residentes em uma cidade.</p><p>Variável: número de filhos .........................</p><p>C. Universo: as jogadas de um dado.</p><p>Variável: o ponto obtido na jogada .............</p><p>D. Universo: peças produzidas por certa má-</p><p>quina.</p><p>Variável: diâmetro externo .........................</p><p>E. Universo: alunos de uma cidade.</p><p>Variável: cor dos olhos. ................................</p><p>F. Universo: estação meteorológica de uma</p><p>cidade.</p><p>V.: precipitação pluviométrica, durante um</p><p>ano. ...................................................................</p><p>G. Universo: Bolsa de valores de São Paulo.</p><p>Variável: número de ações negociadas. .......</p><p>H. Universo: pregos produzidos por uma má-</p><p>quina.</p><p>V.: comprimento. .........................................</p><p>I. Universo: Lutadores de BOXE.</p><p>Variável: Peso de um lutador de boxe me-</p><p>dido na balança .................................................</p><p>J. Universo: casais residentes em uma cidade</p><p>Variável: sexo dos filhos. ............................</p><p>K. Universo: propriedades agrícolas do Brasil</p><p>Variável: produção de algodão ....................</p><p>L. Universo: bibliotecas da cidade de São Pau-</p><p>lo.</p><p>Variável: número de volumes. ......................</p><p>M. Universo: aparelhos produzidos em uma</p><p>linha de montagem.</p><p>Variável: número de defeitos por unidade.</p><p>...........................................................................</p><p>N. Universo: indústrias de uma cidade.</p><p>Variável: índice de liquidez ........................</p><p>O. Universo: Lutadores de BOXE.</p><p>Variável: Peso de um lutador de boxe em</p><p>categoria ...........................................................</p><p>1.5 – Arredondamento de Dados – Norma</p><p>ABNT NBR 5891/Dez. 1977</p><p>REGRAS:</p><p>1ª) Quando o algarismo imediatamente</p><p>seguinte ao último algarismo a ser conservado</p><p>for inferior a 5, o último algarismo a ser con-</p><p>servado permanecerá sem modificação..</p><p>Ex: 7,348 (para décimos)� 7,3</p><p>2ª) Quando o algarismo imediatamente</p><p>seguinte ao último algarismo a ser conservado</p><p>for superior a 5, ou, sendo 5, for seguido de no</p><p>mínimo um algarismo diferente de zero, o úl-</p><p>timo algarismo a ser conservado deverá ser</p><p>aumentado de uma unidade.</p><p>Ex: 1,2734 (para décimos) �1,3</p><p>3ª) Quando o primeiro algarismo após</p><p>aquele que vamos arredondar for 5, seguido</p><p>apenas de zeros, conservamos o algarismo se</p><p>ele for par ou aumentamos numa unidade se</p><p>ele for ímpar, desprezando os seguintes.</p><p>Ex.: 6,250 (para décimos) � 6,2</p><p>6,350 (para décimos) � 6,4</p><p>OBS: Se o 5 for seguido de outros al-</p><p>garismos dos quais, pelo menos um é diferente</p><p>de zero, aumentamos uma unidade no algaris-</p><p>mo e desprezamos os seguintes.</p><p>Ex: 8,3502 (para décimos) � 8,4</p><p>8,4523 (para décimos) � 8,5</p><p>4ª) Quando, ao arredondarmos uma</p><p>série de parcelas, a soma ficar alterada, deve-</p><p>mos fazer um novo arredondamento (por falta</p><p>ou excesso), na maior parcela do conjunto, de</p><p>modo que a soma fique inalterada.</p><p>Ex: 17,4% + 18,4% + 12,3% + 29,7%</p><p>+ 22,2% = 100%</p><p>Arredondando para inteiro temos:</p><p>17% + 18% + 12% + 30% + 22% = 99% �</p><p>faltando 1%</p><p>Ficamos com:</p><p>17% + 18% + 12% + 31% + 22% =</p><p>100%</p><p>Estatística Aplicada à Computação</p><p>8</p><p>3)Arredonde os seguintes valores para uma e</p><p>duas casas decimais:</p><p>a) 42,8745 = =</p><p>b) 25,088678 = =</p><p>c) 53,99357 = =</p><p>d) 76,25000002 = =</p><p>e) 25,6550156 = =</p><p>f) 24,75450 = =</p><p>g) 24,65050 = =</p><p>h) 45,45006 = =</p><p>i) 25,34545 = =</p><p>j) 38,9919 = =</p><p>K) 12, 45507 = =</p><p>l) 49,9198 = =</p><p>m) 4,550000 = =</p><p>1.6 – POPULAÇÃO E AMOSTRA</p><p>Ao conjunto de entes portadores de,</p><p>pelo menos, uma característica comum deno-</p><p>minamos população estatística ou universo</p><p>estatístico.</p><p>Assim, os estudantes, por exemplo,</p><p>constituem uma população, pois apresentam</p><p>pelo menos uma característica comum: são os</p><p>que estudam. Como em qualquer estudo esta-</p><p>tístico temos em mente pesquisar uma ou mais</p><p>características dos elementos de alguma popu-</p><p>lação, esta característica deve estar perfeita-</p><p>mente definida. E isto se dá quando, conside-</p><p>rado um elemento qualquer, podemos afirmar,</p><p>sem ambigüidade, se esse elemento pertence</p><p>ou não a população. É necessário, pois, existir</p><p>um critério de constituição da população, váli-</p><p>do para qualquer pessoa, no tempo ou no espa-</p><p>ço.</p><p>Por isso, quando pretendemos fazer</p><p>uma pesquisa entre os alunos das escolas de 1º</p><p>grau, precisamos definir quais são os alunos</p><p>que formam o universo: os que atualmente</p><p>ocupam as carteiras das escolas, ou devemos</p><p>incluir também os que já passaram pela esco-</p><p>la? É claro que a solução do problema vai de-</p><p>pender de cada caso em particular. Na maioria</p><p>das vezes, por impossibilidade ou inviabilida-</p><p>de econômica ou temporal, limitamos as ob-</p><p>servações referentes a uma determinada pes-</p><p>quisa a apenas uma parte da população. A essa</p><p>parte proveniente da população em estudo de-</p><p>nominamos amostra.</p><p>Uma amostra é um subconjunto finito</p><p>de uma população.</p><p>Como vimos no capítulo anterior, a</p><p>Estatística Indutiva tem por objetivo tirar con-</p><p>clusões sobre as populações, com base em</p><p>resultados verificados em amostras retiradas</p><p>dessa população.</p><p>Mas, para as inferências serem corre-</p><p>tas, é necessário garantir que a amostra seja</p><p>representativa da população, isto é, a amostra</p><p>deve possuir as mesmas características básicas</p><p>da população, no que diz respeito ao fenômeno</p><p>que desejamos pesquisar. É preciso, pois, que</p><p>a amostra ou as amostras que vão ser usadas</p><p>sejam obtidas por processos adequados.</p><p>Há casos, como o de pesquisas sociais,</p><p>econômicas e de opinião, em que os problemas</p><p>de amostragem são de extrema complexidade.</p><p>Mas existem também casos em que os proble-</p><p>mas de amostragem são bem mais fáceis. Co-</p><p>mo exemplo, podemos citar a retirada de a-</p><p>mostras para controle de qualidade dos produ-</p><p>tos ou materiais de determinada indústria.</p><p>Amostragem</p><p>Existe uma técnica especial – amos-</p><p>tragem – para recolher amostras, que garante,</p><p>tanto quanto possível, o acaso na escolha.</p><p>Dessa forma, cada elemento da popula-</p><p>ção passa a ter a mesma chance de ser escolhi-</p><p>do, o que garante a amostra o caráter de repre-</p><p>sentatividade, e isto é muito importante, pois,</p><p>como vimos, nossas conclusões relativas a</p><p>população vão estar baseadas nos resultados</p><p>obtidos nas amostras dessa população. Em</p><p>capítulo posterior estudaremos algumas técni-</p><p>cas de amostragem.</p><p>LISTA EXERCÍCIOS COMPLEMENTA-</p><p>RES</p><p>1. Defina estatística e dê dois exemplos em</p><p>que a estatística é útil.</p><p>2. Em que duas grandes áreas a ciência Estatís-</p><p>tica pode ser dividida? Descreva</p><p>técnica da amostragem, a despeito</p><p>de sua larga utilização, ainda necessita de</p><p>alguma didática mais adequada aos pesqui-</p><p>sadores iniciantes.</p><p>Na teoria da amostragem, são consi-</p><p>deradas duas dimensões:</p><p>1a) Dimensionamento da Amostra;</p><p>2a) Composição da Amostra.</p><p>7.6.1 – Procedimentos para deter-</p><p>minar o tamanho da amostra</p><p>1o) Analisar o questionário, ou roteiro da en-</p><p>trevista e escolher uma variável que julgue</p><p>mais importante para o estudo. Se possível</p><p>mais do que uma;</p><p>2o) Verificar o nível de mensuração da variá-</p><p>vel: nominal, ordinal ou intervalar;</p><p>3o) Considerar o tamanho da população: infi-</p><p>nita ou finita;</p><p>4o) Se a variável escolhida for:</p><p>Estatística Aplicada à Computação</p><p>84</p><p>7.6.1.1 – Intervalar10 e a população consi-</p><p>derada infinita, você poderá determinar o</p><p>tamanho da amostra pela fórmula:</p><p>2</p><p>.</p><p></p><p></p><p></p><p></p><p></p><p></p><p>=</p><p>ε</p><p>σZ</p><p>n</p><p>onde: Z = abscissa da curva normal padrão,</p><p>fixado um nível de confiança (1- )α</p><p>Z = 1,65 → (1 - α) = 90%</p><p>Z = 1,96 → (1 - α) = 95%</p><p>Z = 2,0 → (1 - α) = 95.5%</p><p>Z = 2,57 → (1 - α) = 99%</p><p>Geralmente usa-se Z = 2</p><p>σ = desvio padrão da população, expresso na</p><p>unidade variável, onde poderá ser determina-</p><p>do por:</p><p>• Especificações Técnicas</p><p>• Resgatar o valor de estudos</p><p>semelhantes</p><p>• Fazer conjeturas sobre possí-</p><p>veis valores</p><p>ε = erro amostral, expresso na unidade</p><p>da variável. O erro amostral é a máxima dife-</p><p>rença que o investigador admite suportar en-</p><p>tre µ e x , isto é: εµ</p><p>de 5000 envelopes de sementes de to-</p><p>mate. Ele pretende verificar o índice de ger-</p><p>Estatística Aplicada à Computação</p><p>86</p><p>minação dessas sementes, tendo como in-</p><p>formação do produtor que o lote é uniforme.</p><p>Que tipo de amostragem é indicada para este</p><p>estudo? Descreva como se procederia a a-</p><p>mostragem</p><p>10) Uma população é composta por 2960</p><p>elementos que estão ordenados. Se devesse</p><p>ser retirada uma amostra sistemática de 20</p><p>elementos desta população, como você pro-</p><p>cederia?</p><p>11) Numa sala de aula temos 36 homens e</p><p>28 mulheres. Faça uma amostragem estratifi-</p><p>cada proporcional de tamanho 16 conside-</p><p>rando o sexo como variável estratificadora.</p><p>Quantos de cada sexo serão analisados?</p><p>12) Uma loja, por onde passam centenas de</p><p>clientes diariamente, quer saber a porcenta-</p><p>gem de clientes satisfeitos com o atendimen-</p><p>to nos caixas. O erro amostral tolerado pela</p><p>empresa é de 5%. Determine o número de</p><p>pessoas que devem ser entrevistadas. (R =</p><p>385)</p><p>13) Suponhamos, no caso acima, que você</p><p>tenha realizado as entrevistas e obtido a por-</p><p>centagem de 46% de insatisfação. Isso signi-</p><p>fica dizer que a maioria dos clientes se consi-</p><p>deram satisfeita com o atendimento nos cai-</p><p>xas? Justifique.</p><p>14) Você deseja calcular o número médio de</p><p>frases em anúncios em revistas. Quantos</p><p>anúncios devem ser incluídos na amostra se</p><p>você quer ter 95% de confiança de que a mé-</p><p>dia amostral esteja dentro do intervalo de</p><p>uma sentença da média populacional. O</p><p>desvio padrão é de 5,0 e o erro admitido é 1.</p><p>(R = 97)</p><p>15) Analise as situações descritas abaixo e</p><p>decida se a pesquisa deve ser feita por amos-</p><p>tragem ou por censo, justificando sua respos-</p><p>ta.</p><p>a) Numa linha de produção de empacotamen-</p><p>to de café, observar o peso especificado.</p><p>b) Em uma sala de aula composta por 40</p><p>alunos, analisar suas idades.</p><p>c) Observar se a água de uma lagoa está</p><p>contaminada.</p><p>d) Verificar a carga horária diária de trabalho</p><p>dos funcionários da cozinha de um restauran-</p><p>te</p><p>e) Num lote de cabos de aço, verificar a resis-</p><p>tência dos mesmos à tração.</p><p>Estatística Aplicada à Computação</p><p>87</p><p>8.0 INFERÊNCIA ESTATÍSTICA</p><p>Estatística Aplicada à Computação</p><p>88</p><p>Estatística Aplicada à Computação</p><p>89</p><p>Estatística Aplicada à Computação</p><p>90</p><p>Estatística Aplicada à Computação</p><p>91</p><p>Estatística Aplicada à Computação</p><p>92</p><p>Estatística Aplicada à Computação</p><p>93</p><p>Estatística Aplicada à Computação</p><p>94</p><p>Estatística Aplicada à Computação</p><p>95</p><p>Estatística Aplicada à Computação</p><p>96</p><p>Estatística Aplicada à Computação</p><p>97</p><p>Estatística Aplicada à Computação</p><p>98</p><p>Estatística Aplicada à Computação</p><p>99</p><p>20. Ex.: Uma máquina produz rolamentos que apresentam desvio padrão de 0,042 po-</p><p>legadas em seu diâmetro. Desejando-se conhecer o diâmetro médio dos rolamentos</p><p>produzidos por esta máquina, extraiu-se uma amostra de 100 rolamentos, observando-</p><p>se uma média igual a 0,824 polegadas: Obter o intervalo com 0; 90 de confiança para o</p><p>verdadeiro diâmetro médio dos rolamentos.</p><p>21. As empresas A e B produzem tubos para esgoto com as variâncias em seus diâme-</p><p>tros iguais a 8 mm2 e 10 mm2, respectivamente. Uma amostra de 48 tubos da empresa</p><p>A apresentou diâmetro médio igual a 40 mm, e uma amostra de 36 tubos da empresa B</p><p>apresentou diâmetro médio de 42 mm. Verifique, por meio de um intervalo de confiança</p><p>com 0,95 de probabilidade, se existe diferença entre os diâmetros médios dos tubos</p><p>das marcas A e B.</p><p>Estatística Aplicada à Computação</p><p>100</p><p>9.0 TESTE DE HIPÓTESES</p><p>Estatística Aplicada à Computação</p><p>101</p><p>Estatística Aplicada à Computação</p><p>102</p><p>Estatística Aplicada à Computação</p><p>103</p><p>Estatística Aplicada à Computação</p><p>104</p><p>Estatística Aplicada à Computação</p><p>105</p><p>Estatística Aplicada à Computação</p><p>106</p><p>Estatística Aplicada à Computação</p><p>107</p><p>Estatística Aplicada à Computação</p><p>108</p><p>Estatística Aplicada à Computação</p><p>109</p><p>Estatística Aplicada à Computação</p><p>110</p><p>Estatística Aplicada à Computação</p><p>111</p><p>Estatística Aplicada à Computação</p><p>112</p><p>Estatística Aplicada à Computação</p><p>113</p><p>Estatística Aplicada à Computação</p><p>114</p><p>Estatística Aplicada à Computação</p><p>115</p><p>11. Os dados a seguir referem-se ao peso de mulheres adultas antes e depois de se internarem por 15 dias</p><p>em um Spa. O folder do Spa garante a perda de 3 Kg em 15 dias. Com base nesta amostra o que pode ser</p><p>afirmado quanto a veracidade da propaganda?</p><p>Indv. 1 2 3 4 5 6 7 8 9 10</p><p>Antes 70 62 61 69 70 67 71 67 63 64</p><p>Depois 66 59 57 65 66 65 69 61 60 63</p><p>12. Acredita-se que entre os crimes cometidos por jovens com menos de 21 anos de idade haja uma maior</p><p>proporção de crimes violentos, quando comparados aos cometidos por maiores de 21 anos. De 2750 pri-</p><p>sões, aleatoriamente selecionada de criminosos com 21 anos ou mais, 4,55% envolviam crimes violentos.</p><p>De 2200 prisões de criminosos com menos de 21 anos, 4,55% envolviam crimes violentos. Com base</p><p>nestes resultados verifique a veracidade da hipótese postulada.</p><p>Estatística Aplicada à Computação</p><p>116</p><p>10.0 CORRELAÇÃO E REGRESSÃO LINE-</p><p>AR SIMPLES</p><p>Avaliar se existe associação entre</p><p>duas características quantitativas é objetivo</p><p>de muitos estudos em biologia e ciências da</p><p>saúde. Um ecologista pode estar interessado</p><p>em saber, por exemplo, se há associação</p><p>entre a quantidade de chumbo medida na</p><p>água e o volume de dejetos despejados em</p><p>determinado rio; um médico pode querer ava-</p><p>liar se a pressão arterial está relacionada à</p><p>idade das pessoas. Quando se pode demons-</p><p>trar que existe associação entre duas variá-</p><p>veis quantitativas, isto é, quando se constata</p><p>que elas variam juntas, diz-se que as variá-</p><p>veis estão correlacionadas.</p><p>Exemplo 1. Um professor deseja saber se</p><p>existe correlação entre o tempo dedicado ao</p><p>estudo e o desempenho dos alunos em de-</p><p>terminada disciplina. Sorteados 8 estudantes</p><p>dessa disciplina, são obtidas, por exemplo, as</p><p>informações constantes da Tabela 10.1, onde</p><p>x representa o número de horas de estudo, e</p><p>y, a nota obtida em uma prova, para cada</p><p>aluno. Fica difícil concluir alguma coisa ob-</p><p>servando diretamente os dados na tabela,</p><p>pois há grande variação nos resultados. Por</p><p>isso, o primeiro passo é tentar organizá-los</p><p>em um gráfico, para melhor visualizar as rela-</p><p>ções entre as variáveis.</p><p>10.1 DIAGRAMA DE DISPERSÃO</p><p>Para se avaliar a correlação entre caracterís-</p><p>ticas quantitativas, inicialmente os dados são</p><p>representados em um gráfico cartesiano de</p><p>pontos, denominado diagrama de pontos ou</p><p>diagrama de dispersão. Cada ponto do gráfi-</p><p>co corresponde a um aluno e é marcado se-</p><p>gundo seu valor para x e para y. A Figura</p><p>10.1. apresenta esse gráfico para os dados</p><p>do Exemplo 1.</p><p>Analisando a Figura 10.1, pode-se observar</p><p>que os alunos que estudaram durante mais</p><p>tempo tendem a ter notas mais altas e os que</p><p>dedicaram menos horas ao estudo, a ter um</p><p>desempenho pior na prova. No entanto, po-</p><p>dem-se observar exceções (como o aluno D),</p><p>o que indica que, embora pareça existir uma</p><p>associação entre horas de estudo e nota, ela</p><p>não é uma relação perfeita.</p><p>Tabela 10.1 Número de horas de estudo e</p><p>nota obtida por 8 alunos em uma prova (da-</p><p>dos fictícios)</p><p>Aluno x (horas) y (nota)</p><p>a 8 10</p><p>b 7 8</p><p>c 6 4</p><p>d 3 8</p><p>e 3 6</p><p>f 6 9</p><p>g 5 7</p><p>h 2 4</p><p>Fig. 10.1 Diagrama de dispersão correspon-</p><p>dente ao número de horas de estudo e nota</p><p>obtida por 8 alunos em uma prova.</p><p>COEFICIENTE DE CORRELAÇÃO PRODU-</p><p>TO-MOMENTO (r)</p><p>Uma outra maneira de se avaliar a</p><p>correlação é usar um coeficiente, que tem a</p><p>vantagem de ser um número puro, isto é,</p><p>independente da unidade de medida das va-</p><p>riáveis. Isto interessa bastante, pois se pode</p><p>ter duas unidades de medida diferentes para</p><p>as variáveis (como nota e horas), o que difi-</p><p>cultaria a interpretação da associação. O coe-</p><p>ficiente de correlação produto-momento (r) é</p><p>uma medida da intensidade de associação</p><p>existente entre duas variáveis quantitativas, e</p><p>sua fórmula de cálculo foi proposta por Karl</p><p>Pearson em 1896. Por essa razão, é também</p><p>denominado coeficiente de correlação de</p><p>Pearson. Por ter sido o primeiro a ser pro-</p><p>posto (vários outros foram criados depois),</p><p>muitas vezes r recebe simplesmente nome de</p><p>“coeficiente de correlação”.</p><p>Estatística Aplicada à Computação</p><p>117</p><p>10.2 VARIAÇÃO NO COEFICIENTE DE</p><p>CORRELAÇÃO</p><p>O coeficiente de correlação pode vari-</p><p>ar entre – 1 e +1. Valores negativos de r indi-</p><p>cam uma correlação do tipo inversa, isto é,</p><p>quando x aumenta, y em média diminui (ou</p><p>vice-versa). Valores positivos para r ocorrem</p><p>quando a correlação é direta, isto é, x e y</p><p>variam no mesmo sentido. As taxas sangüí-</p><p>neas de insulina e glicose apresentam corre-</p><p>lação negativa; já a taxa do hormônio gluca-</p><p>gônio tem correlação positiva com a glicemia.</p><p>O valor máximo (tanto r = + 1 como r =</p><p>-1) é obtido quando todos os pontos do dia-</p><p>grama estão em uma linha reta inclinada (Fi-</p><p>gura 10.2 a,b). Por outro lado, quando não</p><p>existe correlação entre x ey, os pontos se</p><p>distribuem em nuvens circulares (Figura 10.2</p><p>c). Associações de grau intermediário (r entre</p><p>0 e 1) apresentam-se como nuvens inclina-</p><p>das, de forma elíptica (Figura 10.2 d,e), sen-</p><p>do mais estreitas quanto maior for a correla-</p><p>ção (Figura 10.2 d). Se, no entanto, a nuvem</p><p>elíptica for paralela a um dos eixos do gráfico,</p><p>a correlação é nula (Figura 10.2 f).</p><p>Quando os pontos formam uma nu-</p><p>vem cujo eixo principal é uma curva (Figura</p><p>10.2 g, h), o valor de r não mede corretamen-</p><p>te a associação entre as variáveis. Isto ocorre</p><p>porque a técnica para calcular esse coeficien-</p><p>te supõe que os pontos do gráfico formam</p><p>nuvens elípticas, cujo eixo principal é uma</p><p>reta. A solução, nesses casos, pode ser a</p><p>aplicação de uma transformação, por exem-</p><p>plo, a logarítmica, a uma ou ambas as variá-</p><p>veis, ou então usar diretamente um coeficien-</p><p>te de correlação não-paramétrico, como o</p><p>coeficiente de Spearman.</p><p>10.3 CÁLCULO DO COEFICIENTE DE</p><p>CORRELAÇÃO EM UMA AMOSTRA</p><p>A fórmula para se obter o coeficiente</p><p>de correlação de Pearson em uma amostra é</p><p>yx</p><p>xy</p><p>ss</p><p>r</p><p>×</p><p>=</p><p>cov</p><p>, onde</p><p>( )( ) 1/cov −−−=∑ nyyxxxy</p><p>Realizando algumas simplificações nesta</p><p>fórmula, resulta</p><p>( )( )</p><p>( ) ( )∑</p><p>∑</p><p>−×−</p><p>−−</p><p>=</p><p>22 yyxx</p><p>yyxx</p><p>r</p><p>O numerador do coeficiente de corre-</p><p>lação é chamado de soma dos produtos xy e</p><p>é representado abreviadamente por SPxy, e</p><p>os elementos que estão dentro da raiz qua-</p><p>drada são as somas de quadrados de x e y</p><p>(SQx e SQy), respectivamente. Tais denomi-</p><p>nações estão associadas às operações arit-</p><p>Fig. 10.2 Diagramas de dispersão, com os valores de r correspondentes.</p><p>Estatística Aplicada à Computação</p><p>118</p><p>méticas necessárias para obtenção dessas</p><p>quantidades. Assim, pode-se também</p><p>escrever que</p><p>yx</p><p>xy</p><p>SQSQ</p><p>SP</p><p>r</p><p>×</p><p>=</p><p>A fórmula a seguir é uma alternativa</p><p>mais conveniente para se calcular r, pois, já</p><p>que não envolve o cálculo de desvios para x</p><p>e y, exige um número menor de operações</p><p>aritméticas.</p><p>( )( )</p><p>( ) ( )</p><p></p><p></p><p></p><p></p><p></p><p></p><p></p><p></p><p>−</p><p></p><p></p><p></p><p></p><p></p><p></p><p></p><p></p><p>−</p><p>−</p><p>=</p><p>∑</p><p>∑</p><p>∑</p><p>∑</p><p>∑∑</p><p>∑</p><p>n</p><p>y</p><p>y</p><p>n</p><p>x</p><p>x</p><p>n</p><p>yx</p><p>xy</p><p>r</p><p>2</p><p>2</p><p>2</p><p>2</p><p>A fórmula alternativa foi usada para</p><p>obtenção do coeficiente de correlação para</p><p>os dados do Exemplo 1. Os cálculos interme-</p><p>diários estão apresentados na Tabela 10.2, e</p><p>o coeficiente obtido foi</p><p>( )( )</p><p>58,0</p><p>98,32</p><p>19</p><p>8/564268/40232</p><p>8/)56*40(299</p><p>22</p><p>==</p><p>−−</p><p>−</p><p>=r</p><p>Note que o coeficiente de correlação (r</p><p>= 0,58) não é acompanhado de qualquer uni-</p><p>dade de medida.</p><p>Tabela 10.2 Quantidades necessárias para o</p><p>cálculo do coeficiente de correlação para os</p><p>dados da Tabela 10.1</p><p>Aluno x (horas) y (nota) x² y² xy</p><p>a 8 10 64 100 80</p><p>b 7 8 49 64 56</p><p>c 6 4 36 16 24</p><p>d 3 8 9 64 24</p><p>e 3 6 9 36 18</p><p>f 6 9 36 81 54</p><p>g 5 7 25 49 35</p><p>h 2 4 4 16 8</p><p>10.4 AVALIAÇÃO QUALITATIVA DE r</p><p>QUANTO À INTENSIDADE</p><p>Uma vez determinada a existência de</p><p>correlação na população, pode-se avaliá-la</p><p>qualitativamente quanto à intensidade, usan-</p><p>do-se o critério apresentado na Tabela 10.3.</p><p>Tabela 10.3 Avaliação qualitativa do grau de</p><p>correlação entre duas variáveis</p><p>Exemplo 2. A concentração sérica de várias</p><p>proteínas foi determinada no sangue de cava-</p><p>los puro-sangue manga-larga. Parte dos da-</p><p>dos está apresentada na Tabela 10.4.</p><p>Deseja-se saber se a quantidade de</p><p>albumina está relacionada com o nível de</p><p>alfa-globulinas 1 e 2 e com a concentração de</p><p>beta-globulinas 1 e 2.</p><p>Os gráficos de dispersão que relacio-</p><p>nam essas variáveis entre si estão apresen-</p><p>tados na Figura 10.4. Calculando-se o coefi-</p><p>ciente de correlação de Pearson entre níveis</p><p>de albumina e níveis de alfa-globulinas ob-</p><p>tém-se r = - 0,437 (gl = 21). O |tcalc| é 2,237,</p><p>maior do que t0,05;21 = 2,080, então a correla-</p><p>ção é estatisticamente significativa para a</p><p>0,05. Pode-se observar pela tabela t que o</p><p>valor- associado ao tcalc é 0,02 O,20). A conclusão, portanto,</p><p>deve ser que não há evidências suficientes</p><p>para se afirmar que existe correlação entre</p><p>níveis de albumina e</p><p>níveis de beta-</p><p>globulinas nesses ani-</p><p>mais.</p><p>10.5 COEFICIENTE</p><p>DE DETERMINAÇÃO</p><p>O coeficiente de de-</p><p>terminação é o quadra-</p><p>do do coeficiente de</p><p>correlação e informa</p><p>que fração da variabili-</p><p>dade de uma caracte-</p><p>rística é explicada esta-</p><p>tisticamente pela outra variável.</p><p>Para os dados de albumina e alfa-</p><p>globulinas, o coeficiente de determinação é</p><p>r2 = (0,439)2 = 0,1927.</p><p>Isso significa que 19% da variação</p><p>observada no nível sérico de albumina em</p><p>cavalos manga-larga são “explicados” pelo</p><p>fato de que a quantidade de alfa-globulinas</p><p>também varia entre os indivíduos (e vice-</p><p>versa).</p><p>Figura 10.5 Diagramas de dispersão para variá-</p><p>veis contínuas: casos em que o coeficiente de</p><p>correlação r deve ser usado com cautela.</p><p>Estatística Aplicada à Computação</p><p>120</p><p>Exemplo 3. Em um estudo realizado</p><p>em 111 indígenas do sexo masculino, perten-</p><p>centes à tribo Caingangue do Rio Grande do</p><p>Sul (Saizano e colaboradores, 1980), a corre-</p><p>lação entre o peso e a estatura foi r = 0,58 (t</p><p>= 7,43; gl = 109; P</p><p>a variável x quanto a y têm</p><p>distribuição normal.</p><p>(2) A variação dos valores de x para</p><p>cada valor fixo de y é sempre a mesma, isto</p><p>é, o valor de 2</p><p>xσ é o mesmo nos vários níveis</p><p>de y (homocedasticidade). No exemplo do</p><p>tempo de estudo e nota na prova, isto equiva-</p><p>leria a dizer que, embora a nota esperada (a</p><p>média) seja diferente para cada tempo de</p><p>estudo, o grau de variação em torno dos dife-</p><p>rentes valores esperados é o mesmo.</p><p>(3) Da mesma forma, a variação dos</p><p>valores de y ( 2</p><p>yσ ) é a mesma para todos os</p><p>valores de x.</p><p>Se os dados satisfazem tais pressu-</p><p>posições, o coeficiente de correlação de Pe-</p><p>arson é o instrumento mais adequado para</p><p>medir a associação entre x e y; se não satis-</p><p>fazem, não há nenhuma garantia de que esta</p><p>seja a medida mais correta da correlação. Daí</p><p>a importância de se examinar o gráfico de</p><p>dispersão dos pontos antes de se efetuar</p><p>uma análise desta natureza. Se as pressupo-</p><p>sições são satisfeitas, a nuvem de pontos</p><p>apresenta a forma de uma elipse.</p><p>A Figura 10.5 ilustra duas situações</p><p>nas quais se deve usar com cautela o coefici-</p><p>ente de correlação de Pearson. No caso da</p><p>Figura 10.5.a, o valor de r calculado para os</p><p>dados é 0,84. No entanto, tal valor é altamen-</p><p>te influenciado pelos dois pontos que se en-</p><p>contram à direita, afastados dos demais: reti-</p><p>rando-os do cálculo, o valor de r diminui para</p><p>0,46. O problema consiste em aceitar que</p><p>dois pontos apenas sejam os responsáveis</p><p>por um aumento tão grande na medida da</p><p>associação. A Figura 10.4.b, por outro lado,</p><p>mostra que o coeficiente de correlação obtido</p><p>não pode ser testado corretamente da forma</p><p>mostrada acima, uma vez que a nuvem de</p><p>pontos indica que está sendo violada a pres-</p><p>suposição de homocedasticidade. Situações</p><p>como estas podem, às vezes, ser resolvidas</p><p>por meio de uma transformação (logarítmica</p><p>ou de outro tipo) nos dados representados</p><p>em um ou ambos os eixos do diagrama.</p><p>Não é demais lembrar que o coeficien-</p><p>te de correlação mede uma associação, não</p><p>uma relação de causa e efeito. Assim, se a</p><p>correlação observada entre os níveis de al-</p><p>bumina e alfa-globulinas no sangue de eqüi-</p><p>nos manga-larga é r = - 0,44, isto não quer</p><p>dizer que a quantidade de albumina no san-</p><p>gue determina a de alfaglobulinas, ou vice-</p><p>versa, mas apenas que os teores dessas pro-</p><p>teínas estão variando juntos. Deve-se sempre</p><p>considerar a possibilidade de que haja outros</p><p>fatores determinando os níveis tanto de uma</p><p>quanto da outra variável.</p><p>Finalmente, se a amostra for suficien-</p><p>temente grande (por exemplo, n = 900),</p><p>mesmo um coeficiente de correlação muito</p><p>baixo (como r = 0,15) pode ser estatistica-</p><p>mente muito significativo (t = 4,55, P</p><p>(y) são</p><p>observados para indivíduos da mesma idade</p><p>(x). Assim sendo, os pontos obtidos por um</p><p>experimentador dificilmente se colocam exa-</p><p>tamente em uma linha, embora se possa ob-</p><p>servar muitas vezes que os dados tendem a</p><p>um alinhamento. Os “desalinhametos” são</p><p>interpretados como desvios, ao acaso, do</p><p>comportamento geral do fenômeno. E por</p><p>esta razão que se pensa em ajustar uma li-</p><p>nha reta a pontos que não estão perfeitamen-</p><p>te alinhados: a reta vai representar o compor-</p><p>tamento médio dos valores de y à medida</p><p>que x aumenta de valor. O modelo matemáti-</p><p>co proposto, neste caso, é y = a + bx + E,</p><p>onde E representa a diferença entre o valor</p><p>observado e o esperado, segundo a reta, de</p><p>y.</p><p>A linha reta representa o comporta-</p><p>mento de valores de y médios esperados</p><p>para distintos valores de x, isto é, a reta re-</p><p>presenta uma média que se modifica à medi-</p><p>da que os valores de x aumentam. No caso</p><p>do Exemplo 1, para x = 2 existe um conjunto</p><p>de valores possíveis de escore de dano que</p><p>podem ser obtidos quando a concentração do</p><p>poluente S é 2 µg/L, sendo que a média des-</p><p>ses escores está sobre a linha verdadeira.</p><p>Quando a concentração é 3 µg/L (x = 3), há</p><p>um outro conjunto observável de valores de</p><p>dano, cuja média é um pouco maior do que a</p><p>anterior e também está sobre a reta, e assim</p><p>sucessivamente. Em cada uma destas “sub-</p><p>populações”, os valores de y variam ao redor</p><p>da média deste grupo, como se pode ver na</p><p>Figura 11.3. Uma pressuposição importante</p><p>para o teste estatístico da regressão é a de</p><p>que esta variação é a mesma nas várias sub-</p><p>populações (homocedasticidade), conforme</p><p>será visto mais adiante.</p><p>FIGURA 11.2 Reta que ilustra a equação y =</p><p>10 - 2x. A tabela mostra valores escolhidos</p><p>de x e os de y correspondentes segundo esta</p><p>equação.</p><p>Estatística Aplicada à Computação</p><p>123</p><p>A linha que se pretende usar para re-</p><p>presentar o fenômeno parte dos dados expe-</p><p>rimentais, que constituem um conjunto de</p><p>pontos mais ou menos desalinhados. Pode-</p><p>se pensar, em um primeiro momento, em</p><p>traçá-la à mão livre, buscando a reta que</p><p>passa à menor distância de todos os pontos.</p><p>Dependendo da amostra, no entanto, um de-</p><p>senho desse tipo vai estar sujeito a um grau</p><p>maior ou menor de erro de julgamento sobre</p><p>qual é a linha que melhor se ajusta aos da-</p><p>dos. Na próxima seção, será apresentado um</p><p>método analítico para a obtenção da “melhor”</p><p>reta.</p><p>Por outro lado, uma vez desenhada a</p><p>reta, deseja-se muitas vezes fazer previsões</p><p>para y a partir de valores conhecidos de x. O</p><p>processo gráfico consiste em escolher um</p><p>valor de x, levantar uma perpendicular até a</p><p>reta e, a partir dela, desenhar uma linha hori-</p><p>zontal até o eixo y, buscando nele o valor</p><p>esperado para y. Tais previsões estão sujei-</p><p>tas a erro, pois são feitas visualmente, com</p><p>base no gráfico. Se, no entanto, for possível</p><p>definir a equação que representa a reta, po-</p><p>de-se obter uma melhor estimativa para y,</p><p>pois a equação fornece previsões indepen-</p><p>dentes de julgamento gráfico. Esta equação</p><p>pode ser obtida e se denomina equação de</p><p>regressão. No caso da regressão linear sim-</p><p>ples, a equação de regressão é uma reta de</p><p>regressão.</p><p>10.9.3 Obtenção da reta de regressão</p><p>A reta de regressão verdadeira seria</p><p>obtida se fossem conhecidos os valores de x</p><p>e y para todos os indivíduos da população.</p><p>Nesse caso, seriam conhecidas a altura ver-</p><p>dadeira da reta (o coeficiente linear a) e a</p><p>inclinação verdadeira da reta (o coeficiente de</p><p>regressão b).</p><p>No entanto, o mais comum é estudar a</p><p>regressão entre x e y utilizando uma amostra</p><p>da população de pontos. São calculados,</p><p>então, a e b, que são as estimativas dos pa-</p><p>râmetros A e B. Esses valores são obtidos</p><p>pelo Método dos Mínimos Quadrados, assim</p><p>chamado porque garante que a reta obtida é</p><p>aquela para a qual se tem as menores dis-</p><p>tâncias (ao quadrado) entre os valores obser-</p><p>vados (y) e a própria reta1.</p><p>FIGURA 11.3 Representação do modelo de</p><p>regressão linear, mostrando a distribuição de</p><p>y ao redor da linha de regressão para quatro</p><p>valores seleciona dos de x. Note que as me-</p><p>dras de y estão sobre a linha reta e que a</p><p>variação é a mesma nas quatro subpopula-</p><p>ções.</p><p>O coeficiente b é calculado da seguin-</p><p>te maneira:</p><p>( )( )</p><p>( )∑</p><p>∑</p><p>−</p><p>−−</p><p>==</p><p>2xx</p><p>yyxx</p><p>SQ</p><p>SP</p><p>b</p><p>x</p><p>xy ou</p><p>( )</p><p>n</p><p>x</p><p>x</p><p>n</p><p>yx</p><p>xy</p><p>SQ</p><p>SP</p><p>b</p><p>x</p><p>xy</p><p>2</p><p>2 ∑</p><p>∑</p><p>∑∑</p><p>∑</p><p>−</p><p>−</p><p>==</p><p>enquanto o coeficiente linear a é obtido por</p><p>xbya −=</p><p>onde xey são as médias para y e x, res-</p><p>pectivamente.</p><p>A reta estimada de regressão é</p><p>bxay −=</p><p>)</p><p>sendo y</p><p>)</p><p>o valor estimado (ou esperado) de y</p><p>para cada valor de x.</p><p>A Tabela 11.2 apresenta os cálculos neces-</p><p>sários para estimar a reta de regressão que</p><p>descreve o aumento no escore de dano eco-</p><p>lógico conforme a quantidade de substância</p><p>S presente na água do riacho R.</p><p>O valor de b para estes dados é:</p><p>Estatística Aplicada à Computação</p><p>124</p><p>( )</p><p>71,1</p><p>5,17</p><p>30</p><p>)6/21(91</p><p>6/)4821(198</p><p>22</p><p>2</p><p>==</p><p>−</p><p>×−</p><p>=</p><p>−</p><p>−</p><p>=</p><p>∑</p><p>∑</p><p>∑∑</p><p>∑</p><p>n</p><p>x</p><p>x</p><p>n</p><p>yx</p><p>xy</p><p>b</p><p>enquanto que o valor de a é:</p><p>0,2)5,3(71,18)6/21(71,1()6/48( =−=−=−= xbya</p><p>Verificou-se, então, que b = 1,71</p><p>graus de dano µg/L, isto é, para cada acrés-</p><p>cimo positivo de um (1) µg/L na concentração</p><p>de S parece haver um aumento de 1,7 no</p><p>índice de dano ecológico. Por outro lado, o</p><p>escore de dano esperado quando a concen-</p><p>tração for zero é igual a 2,02.</p><p>A reta de regressão estimada para</p><p>os dados da Tabela 11.2 é:</p><p>xy 7,102,2 −=</p><p>)</p><p>sendo y</p><p>)</p><p>o valor estimado (ou esperado) de</p><p>dano para cada valor de concentração de S.</p><p>TABELA 11.2 Determinação das quantidades</p><p>necessárias para obtenção dos coeficientes</p><p>da reta de regressão para o escore de dano,</p><p>conforme a concentração do poluente S</p><p>X</p><p>( µ g/L)</p><p>Y (da-</p><p>no)</p><p>XY X² Y² Y</p><p>)</p><p>1 3 3 1 9 3,72</p><p>2 6 12 4 36 5,43</p><p>3 7 21 9 49 7,14</p><p>4 10 40 16 100 8,86</p><p>5 10 50 25 100 10,57</p><p>6 12 72 36 144 12,28</p><p>21 48 198 91 438 48,00</p><p>10.9.4 Utilidades da reta de regressão</p><p>A reta de regressão permite:</p><p>(1) Representar a dependência de uma</p><p>variável quantitativa em relação à outra por</p><p>meio de uma equação simples.</p><p>(2) Prever valores para a variável de-</p><p>pendente y de acordo com valores determi-</p><p>nados (inclusive não-observados) da variável</p><p>independente x. Isto é permitido dentro da</p><p>faixa de valores estudados para x. Também é</p><p>permitido para valores de x menores ou maio-</p><p>res do que os usados no estudo, desde que</p><p>não haja uma distância muito grande entre o</p><p>valor selecionado e o primeiro (ou o último)</p><p>valor de x estudado.</p><p>10.9.5 Requisitos ao uso da regressão li-</p><p>near</p><p>Certas exigências devem ser satisfei-</p><p>tas para se realizarem inferências válidas</p><p>sobre o coeficiente de regressão linear; em-</p><p>bora isso não seja necessário para calcular a</p><p>e b. Estas exigências são:</p><p>(1) A variável y deve ter distribuição</p><p>normal ou aproximadamente normal.13</p><p>(2) A variação de y deve ser a mesma</p><p>em cada valor de x (homocedasticidade; Fi-</p><p>gura 11.3). Se não houver homocedasticida-</p><p>de, será necessário transformar os dados.</p><p>(3) Os pontos no gráfico devem apre-</p><p>sentar uma tendência linear. Caso contrário,</p><p>a equação que melhor representará o fenô-</p><p>meno não será uma reta, mas outra linha</p><p>qualquer. Se os pontos se apresentarem em</p><p>curva, pode-se tentar transformar os dados</p><p>de forma a obter uma reta, ou ajustar uma</p><p>curva, o que não é difícil com os modernos</p><p>programas para computadores.</p><p>(4) Os valores de y foram obtidos ao</p><p>acaso da população e são independentes uns</p><p>dos outros.</p><p>(5) A variável x foi medida sem erro.</p><p>Satisfazer esta exigência, na prática, é muito</p><p>difícil. Por isso, o que se faz é pressupor que</p><p>os erros ocorridos ao se medir x são despre-</p><p>zíveis ou, pelo menos, menores dos que os</p><p>que estão associados à mensuração de y.</p><p>Violações das três primeiras pressu-</p><p>posições podem ser contornadas pelo uso de</p><p>uma transformação dos dados. Já problemas</p><p>relacionados com as exigências 4 e 5 são</p><p>mais difíceis de resolver.</p><p>13 Esta</p><p>exigência não é necessária para x, ao</p><p>contrário do que é exigido na análise de</p><p>correlação entre x e y, quando ambas as</p><p>variáveis devem ter distribuição normal.</p><p>Estatística Aplicada à Computação</p><p>125</p><p>10.9.6 ANÁLISE DE RESÍDUOS</p><p>Um teste para a validade das pressu-</p><p>posições para a regressão pode ser feito do</p><p>seguinte modo:</p><p>(1) Calculam-se os resíduos para cada</p><p>valor de y. Os resíduos representam a dife-</p><p>rença entre aquilo que foi realmente observa-</p><p>do e o que foi predito pelo modelo de regres-</p><p>são, isto é,:</p><p>Resíduo = ε = (y - y</p><p>)</p><p>)</p><p>(2) Desenha-se um gráfico no qual os</p><p>resíduos são colocados no eixo vertical e os</p><p>valores esperados de y ( y</p><p>)</p><p>), no horizontal.</p><p>Os pontos devem ficar distribuídos de</p><p>forma equilibrada acima e abaixo de uma</p><p>linha imaginária paralela ao eixo x na altura</p><p>do resíduo zero, formando uma faixa aproxi-</p><p>madamente retangular. A violação do pressu-</p><p>posto 2 (homocedasticidade) produz faixas</p><p>em forma de cone, enquanto violações do</p><p>pressuposto 1 (linearidade) produz faixas</p><p>curvas (Figura 11.6).</p><p>FIGURA 11.6 Teste gráfico da validade das pres-</p><p>suposições em uma análise de regressão linear;</p><p>no eixo vertical, estão os resíduos e no horizontal,</p><p>os valores de y preditos pela reta. Os gráficos</p><p>sugerem que: (a) não existe homocedasticidade;</p><p>(b) a reta não é a equação mais adequada para</p><p>descrever o fenômeno.</p><p>Exemplo 2. Maria Liége Bazaneila de Olivei-</p><p>ra (1994) estudou fatores que podem influen-</p><p>ciar os níveis de pressão arterial sistólica</p><p>(PAS) medidos 12 a 24 horas após o nasci-</p><p>mento, em recém-nascidos normais de Porto</p><p>Alegre. O tamanho amostral foi 28 e as medi-</p><p>das foram tomadas quando a criança estava</p><p>acordada. Entre diferentes variáveis conside-</p><p>radas, foi examinada a pressão arterial da</p><p>mãe.</p><p>A Figura 11.7 mostra o gráfico de dis-</p><p>persão de pontos relativos às medidas de</p><p>PAS em mães e filhos. A forma da nuvem</p><p>sugere a existência de dependência da pres-</p><p>são arterial dos filhos em relação à de suas</p><p>mães. Os dados foram analisados por um</p><p>programa de computador e a equação de</p><p>regressão ajustada aos dados foi</p><p>PAS filho = 54,2 + 0,148 x (PAS mãe).</p><p>Figura 11.7 pressão arterial sistólica (mmHg) em</p><p>recém-nascidos com 12 a 24 horas de vida e suas</p><p>mães.</p><p>O EPb foi 0,066 e no teste de signifi-</p><p>cância da regressão obteve-se tcalc = 2,254 (gl</p><p>= 26; P = 0,033). Conclui-se que a pressão</p><p>arterial sistólica em recém nascidos com 12 a</p><p>24 horas de vida, medida quando estão acor-</p><p>dados, depende da pressão arterial da mãe,</p><p>esperando-se um aumento médio de 0,148</p><p>na PAS do filho para cada mmHg a mais na</p><p>PAS da mãe. Em outras palavras, o grupo de</p><p>mães que tem, em média, pressão arterial 10</p><p>mmHg mais alta do que as outras tem filhos</p><p>com valores de PAS em média 1,5 mmHg</p><p>mais altos também.</p><p>A validade desta análise deve ser veri-</p><p>ficada pela observação dos resíduos, que</p><p>Estatística Aplicada à Computação</p><p>126</p><p>estão apresentados no gráfico da Figura 11.8.</p><p>A distribuição dos resíduos está bem equili-</p><p>brada acima e abaixo da linha corresponden-</p><p>te ao resíduo zero com uma exceção, o que</p><p>confirma que o modelo escolhido é razoável</p><p>para os dados em estudo.</p><p>FIGURA 11.8 Gráfico dos resíduos relativos ao</p><p>ajuste de uma reta de regressão aos dados de</p><p>pressão arterial em recém-nascidos e suas mães.</p><p>Neste gráfico, observa-se presença de</p><p>um resíduo discrepante, com valor aproxima-</p><p>do de (-9). Esse resíduo corresponde a uma</p><p>observação atípica (outlier). Observações</p><p>deste tipo podem alterar muito os resultados</p><p>das análises, podendo ser decorrentes de</p><p>(1) erro de leitura ou anotação dos da-</p><p>dos;</p><p>(2) erro na execução do experimento ou</p><p>obtenção da medida;</p><p>(3) problemas não-controláveis na exe-</p><p>cução do experimento;</p><p>(4) características inerentes à variável.</p><p>Nenhuma observação atípica deve ser</p><p>retirada da amostra sem um exame cuidado-</p><p>so da causa desse resultado. A retirada justi-</p><p>fica-se nos casos (1) a (3), mas se este dado</p><p>estiver representando uma característica pró-</p><p>pria da variável (4), sua eliminação determi-</p><p>nará uma avaliação distorcida do fenômeno.</p><p>EXERCÍCIOS</p><p>1 – A partir dos dados da Tabela E1: a) traçar</p><p>o diagrama de dispersão; b) calcular o coefi-</p><p>ciente de correlação; c) calcular o coeficiente</p><p>de determinação; d) calcular o coeficiente de</p><p>regressão linear; e) determinar a equação de</p><p>previsão ( bXaY +=ˆ )</p><p>Tabela E1 Números de clientes e vendas</p><p>semanais, para uma amostra de 20 empresas</p><p>de serviços de remessa de carga.</p><p>Loja Clientes Vendas</p><p>1 907 11,20</p><p>2 926 11,05</p><p>3 506 6,84</p><p>4 741 9,21</p><p>5 789 9,42</p><p>6 889 10,08</p><p>7 874 9,45</p><p>8 510 6,73</p><p>9 529 7,24</p><p>10 420 6,12</p><p>11 679 7,63</p><p>12 872 9,43</p><p>13 924 9,46</p><p>14 607 7,64</p><p>15 452 6,92</p><p>16 729 8,95</p><p>17 794 9,33</p><p>18 844 10,23</p><p>19 1010 11,77</p><p>20 621 7,41</p><p>2 – A partir dos dados da Tabela E2: a) traçar</p><p>o diagrama de dispersão; b) calcular o coefi-</p><p>ciente de correlação; c) calcular o coeficiente</p><p>de determinação; d) calcular o coeficiente de</p><p>regressão linear; e) determinar a equação de</p><p>previsão ( bXaY +=ˆ )</p><p>Tabela E2 Seleção de pontos de lojas</p><p>Loja Tamanho Vendas</p><p>1 1726 3681</p><p>2 1642 3895</p><p>3 2816 6653</p><p>4 5555 9543</p><p>5 1292 3418</p><p>6 2208 5563</p><p>7 1313 3660</p><p>8 1102 2694</p><p>9 3151 5468</p><p>10 1516 2898</p><p>11 5161 10674</p><p>12 4567 7585</p><p>13 5841 11760</p><p>14 3008 4085</p><p>Estatística Aplicada à Computação</p><p>127</p><p>Áreas da curva normal entre 0 e ±±±± z.</p><p>Distribuição Normal Padronizada</p><p>Área subentendida pela curva normal padrão</p><p>compreendidas entre a média ( X ) e um determinado</p><p>valor Z.</p><p>Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09</p><p>0,0 0,00000 0,00399 0,00798 0,01197 0,01595 0,01994 0,02392 0,02790 0,03188 0,03586</p><p>0,1 0,03983 0,04380 0,04776 0,05172 0,05567 0,05962 0,06356 0,06749 0,07142 0,07535</p><p>0,2 0,07926 0,08317 0,08706 0,09095 0,09483 0,09871 0,10257 0,10642 0,11026 0,11409</p><p>0,3 0,11791 0,12172 0,12552 0,12930 0,13307 0,13683 0,14058 0,14431 0,14803 0,15173</p><p>0,4 0,15542 0,15910 0,16276 0,16640 0,17003 0,17364 0,17724 0,18082 0,18439 0,18793</p><p>0,5 0,19146 0,19497 0,19847 0,20194 0,20540 0,20884 0,21226 0,21566 0,21904 0,22240</p><p>0,6 0,22575 0,22907 0,23237 0,23565 0,23891 0,24215 0,24537 0,24857 0,25175 0,25490</p><p>0,7 0,25804 0,26115 0,26424 0,26730 0,27035 0,27337 0,27637 0,27935 0,28230 0,28524</p><p>0,8 0,28814 0,29103 0,29389 0,29673 0,29955 0,30234 0,30511 0,30785 0,31057 0,31327</p><p>0,9 0,31594 0,31859 0,32121 0,32381 0,32639 0,32894 0,33147 0,33398 0,33646 0,33891</p><p>1,0 0,34134 0,34375 0,34614 0,34849 0,35083 0,35314 0,35543 0,35769 0,35993 0,36214</p><p>1,1 0,36433 0,36650 0,36864 0,37076 0,37286 0,37493 0,37698 0,37900 0,38100 0,38298</p><p>1,2 0,38493 0,38686 0,38877 0,39065 0,39251 0,39435 0,39617 0,39796 0,39973 0,40147</p><p>1,3 0,40320 0,40490 0,40658 0,40824 0,40988 0,41149 0,41308 0,41466 0,41621 0,41774</p><p>1,4 0,41924 0,42073 0,42220 0,42364 0,42507 0,42647 0,42785 0,42922 0,43056 0,43189</p><p>1,5 0,43319 0,43448 0,43574 0,43699 0,43822 0,43943 0,44062 0,44179 0,44295 0,44408</p><p>1,6 0,44520 0,44630 0,44738 0,44845 0,44950 0,45053 0,45154 0,45254 0,45352 0,45449</p><p>1,7 0,45543 0,45637 0,45728 0,45818 0,45907 0,45994 0,46080 0,46164 0,46246 0,46327</p><p>1,8 0,46407 0,46485 0,46562 0,46638 0,46712 0,46784 0,46856 0,46926 0,46995 0,47062</p><p>1,9 0,47128 0,47193 0,47257 0,47320 0,47381 0,47441 0,47500 0,47558 0,47615 0,47670</p><p>2,0 0,47725 0,47778 0,47831 0,47882 0,47932 0,47982 0,48030 0,48077 0,48124 0,48169</p><p>2,1 0,48214 0,48257 0,48300 0,48341 0,48382 0,48422 0,48461 0,48500 0,48537 0,48574</p><p>2,2 0,48610 0,48645 0,48679 0,48713 0,48745 0,48778 0,48809 0,48840 0,48870 0,48899</p><p>2,3 0,48928 0,48956 0,48983 0,49010 0,49036 0,49061 0,49086 0,49111 0,49134 0,49158</p><p>2,4 0,49180 0,49202 0,49224 0,49245 0,49266 0,49286 0,49305 0,49324 0,49343 0,49361</p><p>2,5 0,49379 0,49396 0,49413 0,49430 0,49446 0,49461 0,49477 0,49492 0,49506 0,49520</p><p>2,6 0,49534 0,49547 0,49560 0,49573 0,49585 0,49598 0,49609 0,49621 0,49632 0,49643</p><p>2,7 0,49653 0,49664 0,49674 0,49683 0,49693 0,49702 0,49711 0,49720 0,49728 0,49736</p><p>2,8 0,49744 0,49752 0,49760</p><p>0,49767 0,49774 0,49781 0,49788 0,49795 0,49801 0,49807</p><p>2,9 0,49813 0,49819 0,49825 0,49831 0,49836 0,49841 0,49846 0,49851 0,49856 0,49861</p><p>3,0 0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49896 0,49900</p><p>3,1 0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,49929</p><p>3,2 0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,49950</p><p>3,3 0,49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 0,49964 0,49965</p><p>3,4 0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,49976</p><p>3,5 0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983</p><p>3,6 0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989</p><p>3,7 0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992</p><p>3,8 0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995</p><p>3,9 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997</p><p>Tabela gerada pela função =DIST.NORMP($A2+B$1)-0,5 do EXCEL. No disquete Arquivo Tabela Z</p><p>padronizada.</p><p>Estatística Aplicada à Computação</p><p>128</p><p>Tabela t-Student</p><p>Para um determinado número de graus de liberdade, os dados representam o</p><p>valor crítico de t correspondente a uma determinada da cauda superior, (α)</p><p>Bicaudal 0,500 0,200 0,100 0,050 0,020 0,010</p><p>gl / α Unicaudal 0,250 0,100 0,050 0,025 0,010 0,005</p><p>1 1,0000 3,0777 6,3137 12,7062 31,8210 63,6559</p><p>2 0,8165 1,8856 2,9200 4,3027 6,9645 9,9250</p><p>3 0,7649 1,6377 2,3534 3,1824 4,5407 5,8408</p><p>4 0,7407 1,5332 2,1318 2,7765 3,7469 4,6041</p><p>5 0,7267 1,4759 2,0150 2,5706 3,3649 4,0321</p><p>6 0,7176 1,4398 1,9432 2,4469 3,1427 3,7074</p><p>7 0,7111 1,4149 1,8946 2,3646 2,9979 3,4995</p><p>8 0,7064 1,3968 1,8595 2,3060 2,8965 3,3554</p><p>9 0,7027 1,3830 1,8331 2,2622 2,8214 3,2498</p><p>10 0,6998 1,3722 1,8125 2,2281 2,7638 3,1693</p><p>11 0,6974 1,3634 1,7959 2,2010 2,7181 3,1058</p><p>12 0,6955 1,3562 1,7823 2,1788 2,6810 3,0545</p><p>13 0,6938 1,3502 1,7709 2,1604 2,6503 3,0123</p><p>14 0,6924 1,3450 1,7613 2,1448 2,6245 2,9768</p><p>15 0,6912 1,3406 1,7531 2,1315 2,6025 2,9467</p><p>16 0,6901 1,3368 1,7459 2,1199 2,5835 2,9208</p><p>17 0,6892 1,3334 1,7396 2,1098 2,5669 2,8982</p><p>18 0,6884 1,3304 1,7341 2,1009 2,5524 2,8784</p><p>19 0,6876 1,3277 1,7291 2,0930 2,5395 2,8609</p><p>20 0,6870 1,3253 1,7247 2,0860 2,5280 2,8453</p><p>21 0,6864 1,3232 1,7207 2,0796 2,5176 2,8314</p><p>22 0,6858 1,3212 1,7171 2,0739 2,5083 2,8188</p><p>23 0,6853 1,3195 1,7139 2,0687 2,4999 2,8073</p><p>24 0,6848 1,3178 1,7109 2,0639 2,4922 2,7970</p><p>25 0,6844 1,3163 1,7081 2,0595 2,4851 2,7874</p><p>26 0,6840 1,3150 1,7056 2,0555 2,4786 2,7787</p><p>27 0,6837 1,3137 1,7033 2,0518 2,4727 2,7707</p><p>28 0,6834 1,3125 1,7011 2,0484 2,4671 2,7633</p><p>29 0,6830 1,3114 1,6991 2,0452 2,4620 2,7564</p><p>30 0,6828 1,3104 1,6973 2,0423 2,4573 2,7500</p><p>31 0,6825 1,3095 1,6955 2,0395 2,4528 2,7440</p><p>32 0,6822 1,3086 1,6939 2,0369 2,4487 2,7385</p><p>33 0,6820 1,3077 1,6924 2,0345 2,4448 2,7333</p><p>34 0,6818 1,3070 1,6909 2,0322 2,4411 2,7284</p><p>35 0,6816 1,3062 1,6896 2,0301 2,4377 2,7238</p><p>36 0,6814 1,3055 1,6883 2,0281 2,4345 2,7195</p><p>37 0,6812 1,3049 1,6871 2,0262 2,4314 2,7154</p><p>38 0,6810 1,3042 1,6860 2,0244 2,4286 2,7116</p><p>39 0,6808 1,3036 1,6849 2,0227 2,4258 2,7079</p><p>40 0,6807 1,3031 1,6839 2,0211 2,4233 2,7045</p><p>41 0,6805 1,3025 1,6829 2,0195 2,4208 2,7012</p><p>42 0,6804 1,3020 1,6820 2,0181 2,4185 2,6981</p><p>43 0,6802 1,3016 1,6811 2,0167 2,4163 2,6951</p><p>44 0,6801 1,3011 1,6802 2,0154 2,4141 2,6923</p><p>45 0,6800 1,3007 1,6794 2,0141 2,4121 2,6896</p><p>Estatística Aplicada à Computação</p><p>129</p><p>46 0,6799 1,3002 1,6787 2,0129 2,4102 2,6870</p><p>47 0,6797 1,2998 1,6779 2,0117 2,4083 2,6846</p><p>48 0,6796 1,2994 1,6772 2,0106 2,4066 2,6822</p><p>49 0,6795 1,2991 1,6766 2,0096 2,4049 2,6800</p><p>50 0,6794 1,2987 1,6759 2,0086 2,4033 2,6778</p><p>51 0,6793 1,2984 1,6753 2,0076 2,4017 2,6757</p><p>52 0,6792 1,2980 1,6747 2,0066 2,4002 2,6737</p><p>53 0,6791 1,2977 1,6741 2,0057 2,3988 2,6718</p><p>54 0,6791 1,2974 1,6736 2,0049 2,3974 2,6700</p><p>55 0,6790 1,2971 1,6730 2,0040 2,3961 2,6682</p><p>56 0,6789 1,2969 1,6725 2,0032 2,3948 2,6665</p><p>57 0,6788 1,2966 1,6720 2,0025 2,3936 2,6649</p><p>58 0,6787 1,2963 1,6716 2,0017 2,3924 2,6633</p><p>59 0,6787 1,2961 1,6711 2,0010 2,3912 2,6618</p><p>60 0,6786 1,2958 1,6706 2,0003 2,3901 2,6603</p><p>61 0,6785 1,2956 1,6702 1,9996 2,3890 2,6589</p><p>62 0,6785 1,2954 1,6698 1,9990 2,3880 2,6575</p><p>63 0,6784 1,2951 1,6694 1,9983 2,3870 2,6561</p><p>64 0,6783 1,2949 1,6690 1,9977 2,3860 2,6549</p><p>65 0,6783 1,2947 1,6686 1,9971 2,3851 2,6536</p><p>66 0,6782 1,2945 1,6683 1,9966 2,3842 2,6524</p><p>67 0,6782 1,2943 1,6679 1,9960 2,3833 2,6512</p><p>68 0,6781 1,2941 1,6676 1,9955 2,3824 2,6501</p><p>69 0,6781 1,2939 1,6672 1,9949 2,3816 2,6490</p><p>70 0,6780 1,2938 1,6669 1,9944 2,3808 2,6479</p><p>71 0,6780 1,2936 1,6666 1,9939 2,3800 2,6469</p><p>72 0,6779 1,2934 1,6663 1,9935 2,3793 2,6458</p><p>73 0,6779 1,2933 1,6660 1,9930 2,3785 2,6449</p><p>74 0,6778 1,2931 1,6657 1,9925 2,3778 2,6439</p><p>75 0,6778 1,2929 1,6654 1,9921 2,3771 2,6430</p><p>76 0,6777 1,2928 1,6652 1,9917 2,3764 2,6421</p><p>77 0,6777 1,2926 1,6649 1,9913 2,3758 2,6412</p><p>78 0,6776 1,2925 1,6646 1,9908 2,3751 2,6403</p><p>79 0,6776 1,2924 1,6644 1,9905 2,3745 2,6395</p><p>80 0,6776 1,2922 1,6641 1,9901 2,3739 2,6387</p><p>81 0,6775 1,2921 1,6639 1,9897 2,3733 2,6379</p><p>82 0,6775 1,2920 1,6636 1,9893 2,3727 2,6371</p><p>83 0,6775 1,2918 1,6634 1,9890 2,3721 2,6364</p><p>84 0,6774 1,2917 1,6632 1,9886 2,3716 2,6356</p><p>85 0,6774 1,2916 1,6630 1,9883 2,3710 2,6349</p><p>86 0,6774 1,2915 1,6628 1,9879 2,3705 2,6342</p><p>87 0,6773 1,2914 1,6626 1,9876 2,3700 2,6335</p><p>88 0,6773 1,2912 1,6624 1,9873 2,3695 2,6329</p><p>89 0,6773 1,2911 1,6622 1,9870 2,3690 2,6322</p><p>90 0,6772 1,2910 1,6620 1,9867 2,3685 2,6316</p><p>Esta tabela foi montada usando a instrução do EXCEL, INVT(2*α;gl).</p><p>sucintamente</p><p>do que trata cada uma destas áreas.</p><p>Estatística Aplicada à Computação</p><p>9</p><p>3. Cite pelo menos uma situação em que os</p><p>dados são coletados através de:</p><p>a) levantamentos contínuos</p><p>b) levantamentos periódicos.</p><p>c) levantamentos ocasionais</p><p>4. Defina:</p><p>a) população b) amostra c) censo d) amostra-</p><p>gem</p><p>5. Para ser útil, que características deve ter</p><p>uma amostra?</p><p>5. Em uma pesquisa realizada em uma escola,</p><p>identificou-se os seguintes indicadores</p><p>(1) idade</p><p>(2) anos de estudo</p><p>(3) ano de escolaridade</p><p>(4) renda</p><p>(5) sexo</p><p>(6) local de estudo</p><p>(7) conceito obtido na última prova de biolo-</p><p>gia</p><p>(8) Quantidade de livros que possui</p><p>a) Das variáveis acima, quais são as quantitati-</p><p>vas e quais são as qualitativas?</p><p>b) Das variáveis quantitativas, diga quais são</p><p>discretas?</p><p>4. Foi encomendado um estudo para avaliação</p><p>de uma entidade de ensino superior. Para isso,</p><p>aplicou-se um questionário e obtiveram-se</p><p>respostas de 110 alunos.</p><p>Indique:</p><p>a) a variável em estudo;</p><p>c) a população em estudo;</p><p>b) a amostra escolhida;</p><p>Estatística Aplicada à Computação</p><p>10</p><p>2.0. Séries Estatísticas</p><p>2.1. Quadro3</p><p>Um projeto de pesquisa pressupõe um planejamento detalhado do que deve ser feito com os dados</p><p>coletados. Todas as etapas do processo de pesquisa são efetuadas visando à análise dos dados, por meio</p><p>do qual serão tiradas conclusões, feitas recomendações e tomadas decisões. Inicialmente os dados dos</p><p>questionários ou de qualquer outra forma de coleta devem ser organizados em Quadros, em que são lista-</p><p>das as informações obtidas para cada sujeito. O quadro é completamente fechado e não se propõe a re-</p><p>sumir os dados. É classificado como ilustração de acordo com a ABNT (2002) NBR 14724. De acordo</p><p>com a norma, a identificação deve ser feita na parte inferior precedida da palavra Figura, seguida do nú-</p><p>mero de ordem no texto, em algarismos arábicos, título ou legenda respectiva e da fonte, quando necessá-</p><p>rio. De acordo com o livro Trabalhos Acadêmicos da Edifapes – da Concepção à Apresentação, no lugar</p><p>de Figura escreve-se Quadro. Este livro propõe-se a unificar a formatação dos trabalhos em nível de URI-</p><p>Campus de Erechim. Deve ser seguido na apresentação de trabalhos internos.</p><p>Sujeito Sexo Idade Estado Civil Nível de Instrução Quem toma a</p><p>medida</p><p>Qual a medida tomada</p><p>1 F 28 C Superior Mulher Pílula</p><p>2 M 29 S 2º grau Mulher Tabela</p><p>3 f 36 S Superior mulher Ligadura</p><p>...*</p><p>47 F 42 C Superior Mulher Ligadura</p><p>48 F 30 C 2º grau Mulher Ligadura</p><p>49 F 46 C 1º grau Mulher Ligadura</p><p>50 F 29 C 2º grau mulher Pílula</p><p>Figura 2.1. Características de estudante da Universidade Santa Úrsula que utilizam</p><p>Métodos Anticoncepcionais.</p><p>Fonte: BUNCHAFT & KELLNER, Estatística sem Mistérios, Ed. Vozes, Petrópolis: 1997, pág. 31 –34.</p><p>* Foi feito um corte no Quadro. O quadro completo pode ser encontrado na fonte acima.</p><p>A descrição a seguir é válida para qualquer ilustração (ABNT (2002) NBR 14724) adaptada por</p><p>Trabalhos Acadêmicos da Edifapes – da Concepção à Apresentação(2005).</p><p>Elas devem:</p><p>a) ser inseridas no texto, se possível o mais perto do trecho a que se referem;</p><p>b) a chamada da ilustração, no texto, será feita pela indicação da palavra correspondente ao tipo</p><p>de ilustração (Figura, Quadro, Fotografia, Mapa, etc.), seguida do respectivo número. Por exemplo: ... o</p><p>Quadro 1 mostra ...</p><p>c) ter numeração arábica seqüencial ao longo do texto. O número pode ser precedido pelo núme-</p><p>ro do capítulo. Exemplo: Quadro 2.1. Significa: quadro 1 do capítulo 2;</p><p>d) ter um título ou legenda explicativa de forma breve e clara. As legendas devem ser digitadas</p><p>em fonte menor (fonte 10);</p><p>e) ser separadas do texto por dois espaços de 1,5;</p><p>f) após a ilustração, o texto deve iniciar a dois espaços de 1,5 abaixo da legenda;</p><p>2.2. Tabelas</p><p>Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem</p><p>assumir, para que tenhamos uma visão global da variação desta ou destas variáveis. E isso ela</p><p>3 Para maiores informações consulte BUNCHAFT & KELLNER, Estatística sem Mistérios, Ed. Vozes, Petrópolis:</p><p>1997, pg. 31 –34.</p><p>Estatística Aplicada à Computação</p><p>11</p><p>consegue, inicialmente, apresentando esses valores em tabelas e gráficos, que irão nos fornecer</p><p>rápidas e seguras informações a respeito das variáveis em estudo, permitindo-nos determinações</p><p>administrativas e pedagógicas mais coerentes e científicas.</p><p>Tabela é um quadro que resume um conjunto de observações.</p><p>Uma tabela compõe-se de:</p><p>a. corpo – conjunto de linhas e colunas que contém informações sobre a variável em estudo;</p><p>b. cabeçalho – parte superior da tabela que especifica o conteúdo das colunas;</p><p>c. coluna indicadora – parte da tabela que especifica o conteúdo das linhas;</p><p>d. linhas – retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que se inscrevem</p><p>nos seus cruzamentos com as colunas;</p><p>e. casa ou célula – espaço destinado a um só número;</p><p>f. título – conjunto de informações, as mais completas possíveis, respondendo as perguntas: O que?,</p><p>Quando?, Onde?, localizado no topo da tabela.</p><p>g.</p><p>Tabela 2.1 – Produção de café. Brasil – 1991-1995.  Título</p><p>CONSIDERAÇÕES:</p><p>• O título da tabela deve indicar a natureza e a</p><p>abrangência geográfica e/ou temporal dos dados.</p><p>É colocado na parte superior, precedido da palavra</p><p>Tabela e de seu número de ordem seguido de tra-</p><p>vessão. O tamanho a fonte é 12;</p><p>• As tabelas são numeradas consecutivamente e</p><p>independentemente das ilustrações, em algarismos</p><p>arábicos. A numeração pode ser subordinada ou</p><p>não a capítulos ou seções de um documento;</p><p>• A tabela não deve ser fechada lateralmente</p><p>(sem fios laterais);</p><p>• Não há obrigatoriedade de linha (fio) vertical</p><p>entre as colunas, mas esta pode ser utilizada desde</p><p>que seja necessário, o que ocorre quando a tabela</p><p>apresenta muita informação (muitas colunas e/ou</p><p>muitas linhas);</p><p>• Não devem ser utilizados traços (fios) horizon-</p><p>tais separando as linhas com exceção do cabeçalho</p><p>e da última linha;</p><p>• As linhas pontilhadas facilitam a leitura, mas</p><p>não são obrigatórias;</p><p>• Convém colocar a informação referente ao</p><p>total em primeiro lugar, por se tratar em geral do</p><p>dado mais importante;</p><p>• Nenhuma célula deve ficar em branco; a au-</p><p>sência do dado é expressa por um traço (-) e a falta</p><p>de conhecimento deste (dado ignorado) é expressa</p><p>por três pontos (...);</p><p>• Quando há dúvida quanto a um fato numérico,</p><p>pode-se ainda segui-lo de um ponto de interroga-</p><p>ção (?).</p><p>• Notas e chamadas são utilizadas para clari-</p><p>ficar os dados. As notas fornecem informações</p><p>de natureza geral, destinadas a explicitar ou a</p><p>esclarecer o conteúdo da tabela ou a indicar a</p><p>metodologia adotada no levantamento de da-</p><p>dos, enquanto as chamadas se referem a in-</p><p>formações específicas. Ambas são colocadas</p><p>no rodapé da tabela, abaixo da fonte, sendo as</p><p>notas listadas assim: 1, 2, 3 etc, e as chamadas</p><p>(1), (2), (3) etc. Seu emprego deve ser evitado</p><p>ao máximo, dado que contrariam o princípio</p><p>de síntese proposto na elaboração de tabelas e</p><p>gráficos; quando absolutamente necessárias</p><p>devem ser redigidas de maneira muito concisa,</p><p>Estatística Aplicada à Computação</p><p>12</p><p>indicando claramente os dados da tabela a que</p><p>se referem.</p><p>• A fonte da tabela deve ser citada após o fio</p><p>ou linha de fechamento da mesma. Recomen-</p><p>da-se a citação da fonte quando reproduzidas</p><p>de outros documentos. A prévia autorização</p><p>do autor se faz necessária, não sendo mencio-</p><p>nada na mesma. Quando os dados apresenta-</p><p>dos na tabela foram levantados pelo autor do</p><p>trabalho por meio de uma pesquisa de cam-</p><p>po(questionários, formulários, entrevistas),</p><p>pode-se utilizar como fonte as expressões o</p><p>autor ou pesquisa de campo;</p><p>• As tabelas devem estar centralizadas em</p><p>relação às margens esquerda e direita;</p><p>• Quando as dimensões da tabela forem</p><p>maiores do</p><p>que a folha A4, a impressão pode-</p><p>rá ser feita em folha A3, para ser dobrada pos-</p><p>teriormente, ou reduzida mediante fotocópia.</p><p>• O tamanho da fonte dos dados numéricos</p><p>da tabela é 10.</p><p>• Devem ser inseridas o mais próximo pos-</p><p>sível do trecho a que se referem; se a tabela</p><p>não couber em uma folha, deve ser continuada</p><p>na folha seguinte e, nesse caso, não é delimi-</p><p>tado por traço horizontal na parte inferior,</p><p>sendo o título e o cabeçalhos repetidos na fo-</p><p>lha seguinte.</p><p>• Quando uma tabela, por excessiva altura,</p><p>tiver de ocupar mais de uma página, não deve</p><p>ser delimitada na parte inferior, repetindo-se o</p><p>cabeçalho na página seguinte. Neste caso, de-</p><p>ve-se usar no alto do cabeçalho ou dentro da</p><p>coluna indicadora a designação Continua ou</p><p>Conclusão, conforme o caso;</p><p>A Tabela 2.2 resume os dados citados no</p><p>exemplo do Quadro 2.1.</p><p>Tabela 2.2 - Utilização de medida anticoncepcio-</p><p>nal de acordo com o estado civil – USU – 1995</p><p>Estado Civil</p><p>Medida</p><p>Total</p><p>Solteiro Casado</p><p>Total 50 31 19</p><p>Pílula .................... 18 12 6</p><p>Tabela .................. 10 9 1</p><p>Ligadura ............... 10 2 8</p><p>Coito Interrompido 5 5 -</p><p>Diu ....................... 3 - 3</p><p>Preservativo ......... 3 3 -</p><p>Diafragma ............ 1 - 1</p><p>Fonte: WILMER, C., CASTELLO, G. & DE FA-</p><p>RIAS, A.</p><p>De acordo com o livro Trabalhos Científi-</p><p>cos, editado pela EDIFAPES, guia para os traba-</p><p>lhos na URI – Campus de Erechim, quando você</p><p>insere uma tabela num texto deve fazê-lo como no</p><p>exemplo a seguir:</p><p>“O site do IBGE apresenta dados sobre o</p><p>crescimento da produção industrial no Brasil entre</p><p>2003 e 2004. Esse crescimento pode ser visto da</p><p>Tabela 2.3.”</p><p>Tabela 2.3. Taxas anuais de crescimento da</p><p>produção industrial por categoria de uso -</p><p>2003-2004</p><p>Produção Industrial 2003 2004</p><p>Indústria Geral 0 8,3</p><p>Bens de Capital 2,2 19,7</p><p>Bens Intermediários 2 7,4</p><p>Bens de Consumo (-)2,7 7,3</p><p>Bens de Consumo Durável 3 21,8</p><p>Bens de Consumo Não Durável (-)3,9 4</p><p>Fonte: IBGE, Diretoria de pesquisas, Coordenação de</p><p>Indústria. Pesquisa Industrial Mensal.</p><p>Conforme varie um dos elementos da sé-</p><p>rie, podemos classificá-la em histórica, geográfica</p><p>e específica.</p><p>2.3 – Classificação das Séries Estatísticas</p><p>As séries estatísticas ou tabelas são</p><p>classificadas de acordo com o conteúdo apre-</p><p>sentado. Utiliza-se como base de classificação,</p><p>a coluna indicadora.</p><p>Estatística Aplicada à Computação</p><p>13</p><p>2.3.1 – Séries históricas, cronológicas, tem-</p><p>porais ou marchas.</p><p>Descrevem os valores da variável,</p><p>em determinado local, discriminados se-</p><p>gundo intervalos de tempo variáveis. E-</p><p>xemplo:</p><p>Tabela 2.4 – Preço do acém no varejo</p><p>– São Paulo – 1989-1992</p><p>Anos Preço médio (US$)</p><p>1989 2,24</p><p>1990 2,73</p><p>1991 2,12</p><p>1992 1,89</p><p>Fonte: APA.</p><p>2.3.2 – Séries geográficas, espaciais, territo-</p><p>riais ou de localização.</p><p>Descrevem os valores da variável, em</p><p>determinado instante, discriminados segundo regi-</p><p>ões. Exemplo:</p><p>Tabela 2.5 – Duração média dos estudos</p><p>superiores - 1994</p><p>Países Número médio de anos</p><p>Itália 7,5</p><p>Alemanha 7,0</p><p>França 7,0</p><p>Holanda 5,9</p><p>Inglaterra Menos de 4</p><p>FONTE: Revista Veja.</p><p>2.3.3 – Séries específicas ou categóricas</p><p>Descrevem os valores da variável, em</p><p>determinado tempo e local, discriminados se-</p><p>gundo especificações ou categorias. Exemplo:</p><p>Tabela 2.6 – Rebanhos brasileiros – 2003</p><p>Espécies Quantidade (1000 cabeças)</p><p>Bovinos 195 551 576</p><p>Eqüinos 5 828 376</p><p>Muares 1 345 389</p><p>Caprinos 9 581 653</p><p>Asinino 1 208 660</p><p>Suínos 32 304 905</p><p>Ovinos 14 556 484</p><p>Aves 927 303 306</p><p>Fonte: IBGE, Levantamento Sistemático da Produ-</p><p>ção Agrícola - dezembro de 2004</p><p>2.3.4 – Séries Conjugadas – Tabela de Du-</p><p>pla Entrada</p><p>Muitas vezes temos necessidade de apre-</p><p>sentar, em uma única tabela, a variação de valores</p><p>de mais de uma variável, isto é, fazer uma conju-</p><p>gação de duas ou mais séries.</p><p>Conjugando duas séries em uma única</p><p>tabela, obtemos uma tabela de dupla entrada. Em</p><p>uma tabela desse tipo ficam criadas duas ordens de</p><p>classificação: uma horizontal (linha) e uma verti-</p><p>cal (coluna).</p><p>Os gráficos podem ser de barras múltiplas</p><p>ou colunas múltiplas (justapostas ou sobrepostas).</p><p>Tabela 2.7 – Balança comercial do Brasil.</p><p>1989 – 1993.</p><p>Valor (Us$ 1 000 000) Especifica-</p><p>ções 1989 1990 1991 1992 1993</p><p>Exportação 34383 31414 31620 35793 38783</p><p>Importação 18263 20661 21041 20554 25711</p><p>Fonte: Ministério da Fazenda</p><p>A conjugação, no exemplo dado, foi série</p><p>geográfica-série histórica, que dá origem à série</p><p>geográfico-histórica.</p><p>Podem existir, se bem que mais raramente,</p><p>pela dificuldade de representação, séries compos-</p><p>tas de três ou mais entradas.</p><p>2.3.5 – Distribuição de Freqüência</p><p>Por se tratar de um conceito estatístico de</p><p>suma importância, terá tratamento especial, em</p><p>separado. Exemplo:</p><p>Tabela 2.8 – Duração da prova de Estatística II da</p><p>turma COMEX 2004 – URI – Cam-</p><p>pus de Erechim – 2005.</p><p>Duração (minutos) Nº de alunos</p><p>40 ├ 47 15</p><p>47 ├ 54 9</p><p>54 ├ 61 11</p><p>61 ├ 68 4</p><p>68 ├ 75 9</p><p>75 ├ 82 9</p><p>82 ├ 89 3</p><p>Total 60</p><p>Fonte: o autor.</p><p>Estatística Aplicada à Computação</p><p>14</p><p>EXERCÍCIOS</p><p>1) Classifique as séries:</p><p>A) Tabela 2.9 – Produção de borracha natural –</p><p>1991-93</p><p>Anos Quantidade (ton)</p><p>1991 29.543</p><p>1992 30.712</p><p>1993 40.663</p><p>Fonte: IBGE.</p><p>B) Tabela 2.10 – Avicultura brasileira – 1992.</p><p>Espécies Número (1000 cabeças)</p><p>Galinhas 204.160</p><p>Galos, frangos,</p><p>frangas e pintos</p><p>435.465</p><p>Codornas 2.488</p><p>Fonte: IBGE.</p><p>C) Tabela 2.11 – Vacinação contra a poliomielite</p><p>1993.</p><p>Regiões Quantidade</p><p>Norte 211.209</p><p>Nordeste 631.040</p><p>Sudeste 1.119.708</p><p>Sul 418.785</p><p>Centro-Oeste 185.823</p><p>Fonte: Ministério da Saúde.</p><p>D) Tabela 2.12 – Aquecimento de um motor de</p><p>avião de marca X.</p><p>Tempo (min) Temperatura (ºC)</p><p>0 20</p><p>1 27</p><p>2 34</p><p>3 41</p><p>4 49</p><p>5 56</p><p>6 63</p><p>Fonte: Dados Fictícios.</p><p>E) Tabela 2.13 – Produção brasileira de aço bruto</p><p>1991-93</p><p>Quantidade (1000 t) Processos</p><p>1991 1992 1993</p><p>Oxigênio básico 17.934 18.849 19.698</p><p>Forno elétrico 4.274 4.637 5.065</p><p>EOF 409 448 444</p><p>Fonte: Instituto Brasileiro de Siderurgia.</p><p>2) Verificou-se, em 1993, o seguinte movimento</p><p>de importação de mercadorias: 14.839.804 t,</p><p>oriundas da Arábia Saudita, no valor de</p><p>US$1.469.104.000; 10.547.889 t, dos Estados</p><p>Unidos, no valor de US$6.034.946.000; e</p><p>561.024 t, do Japão, no valor de</p><p>US$1.518.843.000. Confeccione a série cor-</p><p>respondente e classifique-a, sabendo que os</p><p>dados acima foram fornecidos pelo Ministério</p><p>da Fazenda.</p><p>2.3.6 - Dados Absolutos e Dados Relativos</p><p>Os dados estatísticos resultantes da coleta</p><p>direta da fonte, sem outra manipulação senão a</p><p>contagem ou medida, são chamados dados abso-</p><p>lutos.</p><p>A leitura dos dados absolutos é sempre</p><p>enfadonha e inexpressiva; embora esses dados</p><p>traduzam um resultado exato e fiel, não tem a vir-</p><p>tude de ressaltar de imediato as suas conclusões</p><p>numéricas. Daí o uso imprescindível que faz a</p><p>Estatística dos dados relativos.</p><p>Dados relativos são o resultado de com-</p><p>parações por quociente (razões) que se estabele-</p><p>cem entre dados absolutos e tem por finalidade</p><p>realçar ou facilitar as comparações entre quantida-</p><p>des.</p><p>Traduzem-se os dados relativos, em geral,</p><p>por meio de percentagens, índices, coeficientes e</p><p>taxas.</p><p>Consideremos a série:</p><p>Tabela 2.14 – Matrículas nas escolas da cidade A</p><p>1995</p><p>Cate-</p><p>gorias</p><p>Número de</p><p>alunos</p><p>Por 1 %</p><p>1º GRAU 19.286</p><p>2º GRAU 1.681</p><p>3º GRAU 234</p><p>TOTAL 21.201 1,0000 100,00</p><p>Fonte: Dados fictícios.</p><p>Considere o próximo exemplo:</p><p>Tabela 2.15 – Matrículas nas escolas da cidade A</p><p>e B – 1995</p><p>Cidade A Cidade B Categorias</p><p>Nº alunos % Nº alunos %</p><p>1º Grau 19.286 38.660</p><p>2º Grau 1.681 3.399</p><p>3º Grau 234 424</p><p>Total 21.201 100,0 42.483 100,0</p><p>Dados Fictícios</p><p>Estatística Aplicada à Computação</p><p>15</p><p>Qual das cidades tem, comparativa-</p><p>mente, maior número de alunos em cada grau?</p><p>OBSERVAÇÃO:</p><p>Do mesmo modo que</p><p>tomamos 100 para base de comparação, tam-</p><p>bém podemos tomar outro número qualquer,</p><p>entre os quais destacamos o número 1. É claro</p><p>que, supondo o total igual a 1, os dados relati-</p><p>vos das parcelas serão todos menores que 1.</p><p>Em geral quando usamos 100 para ba-</p><p>se, os dados são arredondados até a primeira</p><p>casa decimal; e quando tomamos 1 por base,</p><p>são arredondados até a terceira casa decimal.</p><p>EXERCÍCIOS</p><p>1) Complete a tabela abaixo:</p><p>Tabela 2.16 – Alunos matriculados em escolas</p><p>fictícias – 1995.</p><p>Dados relativos Escolas Nº De</p><p>alunos Por 1 Por 100</p><p>A 175 0,098 9,8</p><p>B 222</p><p>C 202</p><p>D 362</p><p>E 280</p><p>F 540</p><p>TOTAL 1781 1,000 100,0</p><p>Dados fictícios.</p><p>2) Uma escola apresentava, no final do ano, o</p><p>seguinte quadro:</p><p>Tabela 2.17 – Matrículas na escola XYZ – 1999.</p><p>Matrículas SÉRIES</p><p>Março Novembro %</p><p>1ª 480 475</p><p>2ª 458 456</p><p>3ª 436 430</p><p>4ª 420 420</p><p>Total 1794 1781</p><p>Fonte: Dados fictícios</p><p>a) Calcule a taxa de evasão por série.</p><p>b) Calcule a taxa de evasão da escola.</p><p>2.4 - Representação Gráfica</p><p>Com palavras, números ou desenhos</p><p>podem-se mostrar às pessoas interessadas o</p><p>resultado da pesquisa, antes mesmo de apli-</p><p>carem-se sobre os dados as operações mate-</p><p>máticas, que permitirão a interpretação final</p><p>por parte da equipe encarregada do levanta-</p><p>mento estatístico.</p><p>A exposição por palavras é dita descri-</p><p>tiva, a numérica é também conhecida como</p><p>tabular e, finalmente, os desenhos constituem</p><p>a exposição gráfica.</p><p>Um relatório final reúne, quase sem-</p><p>pre, as três modalidades de exposição, apre-</p><p>sentando: gráficos, para ilustrar ou acentuar</p><p>determinados itens: tabelas, para resumir a</p><p>massa de dados observados no período de ati-</p><p>vidades; e palavras, para orientar a leitura,</p><p>comentar as tabelas analisar os gráficos e con-</p><p>cluir o relatório.</p><p>Muitos gráficos, os mais comuns, são</p><p>construídos seguindo o sistema de coordena-</p><p>das cartesianas, enquanto outros obedecem ao</p><p>sistema de coordenadas polares.</p><p>O sistema de coordenadas cartesianas</p><p>pede o traçado de dois eixos (orientados).</p><p>A moldura de um gráfico é retangular.</p><p>“Para que um retângulo seja har-</p><p>monioso é necessário que a altura seja o</p><p>segmento áureo da base”, o que equivale a</p><p>dizer:</p><p>- altura : largura :: 0,618 : 1.</p><p>O segmento áureo representa a medida ide-</p><p>al dos olhos ao queixo no rosto bem con-</p><p>formado, sendo a distância da testa ao</p><p>queixo igual à unidade, segundo afirmavam</p><p>desde longa data aqueles que buscaram as</p><p>medidas ideais no corpo humano.</p><p>Regra prática: A altura deve ser um número</p><p>inteiro entre 60% e 70% da largura.</p><p>Estatística Aplicada à Computação</p><p>16</p><p>2.4.1 – Gráfico em Linha ou em Curva</p><p>Este tipo de gráfico representa a série</p><p>histórica, exclusivamente. Requer, entretanto,</p><p>que tal série apresente um número significati-</p><p>vo de informações (5 ou mais), ou melhor,</p><p>para 5 ou número menor de ocorrências um</p><p>outro gráfico deve ser construído, o gráfico de</p><p>colunas.</p><p>Vejamos a construção do gráfico em</p><p>curvas, representativo da seguinte série tempo-</p><p>ral:</p><p>Exemplo:</p><p>Tabela 2.18 – Taxa de analfabetismo no Brasil –</p><p>pessoas com 15 anos ou mais –</p><p>1998-2003.</p><p>Anos Taxa de Analfabetismo (%)</p><p>1998 13,8</p><p>1999 13,3</p><p>2000 12,9</p><p>2001 12,4</p><p>2002 11,8</p><p>2003 11,6</p><p>Fonte: IBGE, Pesquisa Nacional por Amostra</p><p>de Domicílios 1998/2003.</p><p>10,5</p><p>11,0</p><p>11,5</p><p>12,0</p><p>12,5</p><p>13,0</p><p>13,5</p><p>14,0</p><p>1998 1999 2000 2001 2002 2003</p><p>Anos</p><p>T</p><p>a</p><p>x</p><p>a</p><p>d</p><p>e</p><p>A</p><p>n</p><p>a</p><p>lf</p><p>a</p><p>b</p><p>e</p><p>ti</p><p>sm</p><p>o</p><p>(</p><p>%</p><p>)</p><p>Figura 2.2 – Taxa de analfabetismo entre bra-</p><p>sileiros de 15 ou mais anos –</p><p>1998-2003.</p><p>Fonte: IBGE, Pesquisa Nacional por Amostra</p><p>de Domicílios 1998/2003.</p><p>EXERCÍCIOS</p><p>1) Trace o gráfico da seguinte série histórica:</p><p>Tabela 2.19 – Comércio Exterior – Brasil –</p><p>1984-1993.</p><p>Quantidade (1000 t) Anos</p><p>Exportação Importação</p><p>1984 141.737 53.988</p><p>1985 146.351 48.870</p><p>1986 133.832 60.597</p><p>1987 142.378 61.975</p><p>1988 169.666 58.085</p><p>1989 177.033 57.293</p><p>1990 168.095 57.184</p><p>1991 165.974 63.278</p><p>1992 167.295 68.059</p><p>1993 182.561 77.813</p><p>Fonte: Min. Indústria, Comércio e Tu-</p><p>rismo.</p><p>2.4.2. Gráfico em Colunas ou em Barras</p><p>É a representação de uma série por</p><p>meio de retângulos, dispostos verticalmente</p><p>(em colunas) ou horizontalmente (em barras).</p><p>Quando em colunas, os retângulos têm a</p><p>mesma base e as alturas são proporcionais aos</p><p>respectivos dados. Quando em barras, os re-</p><p>tângulos têm a mesma altura e os comprimen-</p><p>tos são proporcionais aos respectivos dados.</p><p>Assim estamos assegurando a proporcionali-</p><p>dade entre as áreas dos retângulos e os dados</p><p>estatísticos.</p><p>É um tipo de gráfico recomendado</p><p>para analisar as informações absolutas de sé-</p><p>ries geográficas, especificativas e ainda algu-</p><p>mas séries temporais (estas, com cinco ou me-</p><p>nos datas)</p><p>Quando somos forçados a dispor as</p><p>colunas horizontalmente (a largura da coluna é</p><p>insuficiente para conter a designação da mes-</p><p>ma), temos o chamado gráfico em barras, que</p><p>inicialmente é planejado como sendo o gráfico</p><p>em colunas. A fim de facilitar o planejamento</p><p>e a construção do gráfico, recomendamos:</p><p>Sempre que possível, exceção feita às</p><p>séries temporais onde sempre prevalece a or-</p><p>dem cronológica, ordenar as colunas de modo</p><p>decrescente, da esquerda para a direita; conse-</p><p>Estatística Aplicada à Computação</p><p>17</p><p>qüentemente, as barras, se for o caso, também</p><p>ficam ordenadas de modo decrescente, porém</p><p>de cima para baixo;</p><p>O gráfico de Barras é mais alto do que</p><p>largo. Na seqüência temos um exemplo de</p><p>gráfico de colunas e um gráfico de barras.</p><p>Exemplo de gráfico de colunas:</p><p>Tabela 2.20 – BRASIL – Quantidade Importada</p><p>no Comércio Exterior – 1979-83</p><p>ANOS Quantidade (1000 t )</p><p>1979 75328</p><p>1980 71855</p><p>1981 64066</p><p>1982 60718</p><p>1983 55056</p><p>Fontes: Banco do Brasil e Ministério da Fazenda.</p><p>0</p><p>10000</p><p>20000</p><p>30000</p><p>40000</p><p>50000</p><p>60000</p><p>70000</p><p>80000</p><p>1979 1980 1981 1982 1983</p><p>Anos</p><p>Q</p><p>u</p><p>an</p><p>ti</p><p>d</p><p>ad</p><p>e</p><p>(1</p><p>00</p><p>0</p><p>t)</p><p>Figura 2.3 – BRASIL – Quantidade Importa-</p><p>da no</p><p>Comércio Exterior – 1979-83.</p><p>Fontes: Banco do Brasil e Ministério da Fazenda.</p><p>Exemplo de gráfico de colunas. Trace o gráfi-</p><p>co da seguinte série geográfica:</p><p>Tabela 2.21 – Casos registrados de intoxica-</p><p>ção humana, segundo a causa determinante.</p><p>Brasil, 1993.</p><p>Causa Freqüên-</p><p>cia</p><p>Ignorada 1103</p><p>Outras 1959</p><p>Abuso 2604</p><p>Profissional 3735</p><p>Suicídio 7965</p><p>Acidente 29601</p><p>Fonte: Vieira, S.,</p><p>1980.</p><p>0 10000 20000 30000 40000</p><p>Ignorada</p><p>Outras</p><p>Abuso</p><p>Profissional</p><p>Suicídio</p><p>Acidente</p><p>C</p><p>au</p><p>sa</p><p>Freqüência</p><p>Figura 2.4 Casos registrados de intoxicação</p><p>humana, segundo a causa determinante. Brasil,</p><p>1993. Fonte: Vieira, S., 1980.</p><p>2.4.3 – Gráfico em colunas ou Barras</p><p>múltiplas</p><p>Este tipo é geralmente empregado</p><p>quando queremos representar, simultaneamente,</p><p>dois ou mais fenômenos estudados com o propósi-</p><p>to de comparação.</p><p>Abaixo podemos observar uma tabela de</p><p>dupla entrada representada graficamente de duas</p><p>maneiras.</p><p>Tabela 2.22 – Proporção da população por</p><p>sexo, grandes grupos de idade.</p><p>Percentual (%) Por Sexo</p><p>1980 1990 1996 2000</p><p>Mulheres 50,31 50,63 50,69 50,78</p><p>Homens 49,68 49,36 49,3 49,22</p><p>Fonte: IBGE, Censo Demográfico 1980, 1991 e 2000</p><p>e</p><p>Contagem da População 1996.</p><p>���� Colunas sobrepostas. As colunas maiores</p><p>devem ficar atrás. Estes gráficos foram feitos no</p><p>Excel. No OpenOffice ou StarOffice ou BROffice</p><p>a coluna maior fica atrás, mas à direita da tabela</p><p>menor.</p><p>Estatística Aplicada à Computação</p><p>18</p><p>48,0</p><p>48,5</p><p>49,0</p><p>49,5</p><p>50,0</p><p>50,5</p><p>51,0</p><p>1980 1990 1996 2000</p><p>Anos</p><p>P</p><p>e</p><p>rc</p><p>e</p><p>n</p><p>tu</p><p>a</p><p>l</p><p>Mulheres</p><p>Homens</p><p>Figura 2.4 – Proporção da população por se-</p><p>xo, grandes grupos de idade. Fonte: IBGE,</p><p>Censo Demográfico 1980, 1991 e 2000 e</p><p>Contagem da População 1996.</p><p>���� Colunas justapostas.</p><p>48,0</p><p>48,5</p><p>49,0</p><p>49,5</p><p>50,0</p><p>50,5</p><p>51,0</p><p>1980 1990 1996 2000</p><p>Anos</p><p>P</p><p>e</p><p>rc</p><p>e</p><p>n</p><p>tu</p><p>a</p><p>l</p><p>Mulheres</p><p>Homens</p><p>Figura 2.5 – População total e proporção da</p><p>população por</p><p>sexo, grandes grupos de idade e</p><p>situação de domicílio. Fonte: IBGE, Censo</p><p>Demográfico 1980, 1991 e 2000 e Contagem</p><p>da População 1996.</p><p>EXERCÍCIO</p><p>1) Trace o gráfico da seguinte série histórico-</p><p>específica:</p><p>Tabela 2.23 – Produto Interno Bruto Brasilei-</p><p>ro.</p><p>Taxa Acum. Ao longo do ano</p><p>(%)</p><p>Tri-</p><p>mestre/Ano</p><p>Ag-</p><p>ropecuária</p><p>Ind-</p><p>ústria</p><p>Ser-</p><p>viços</p><p>1° - 2004 5,8 5,5 2,4</p><p>2° - 2004 5,9 5,9 2,8</p><p>3° - 2004 5,9 6,3 3,2</p><p>4° - 2004 5,3 6,2 3,3</p><p>1° - 2005 4,2 3,1 2,0</p><p>Fonte: FONTE: IBGE, Departamento de Contas Nacionais -</p><p>DECNA.</p><p>2.4.4. Gráfico em Setores ou Pizza</p><p>Até agora todos os gráficos apresenta-</p><p>dos foram traçados de acordo com o sistema</p><p>baseado nas coordenadas cartesianas. No en-</p><p>tanto, temos ainda o sistema de coordenadas</p><p>polares, onde cada ponto do plano é marcado</p><p>em função de duas coordenadas, uma linear</p><p>(raio vetor) e outra angular (ângulo polar).</p><p>O gráfico em setores tem finalidade de</p><p>analisar as informações percentuais de séries</p><p>geográficas ou especificativas, com ”poucas”</p><p>ocorrências (para que ele não se apresente</p><p>confuso, dificultando a sua interpretação). A</p><p>escolha do gráfico em retângulos ou em seto-</p><p>res é opcional.</p><p>Para uniformizar o traçado de um grá-</p><p>fico em setores, visando o melhor efeito esté-</p><p>tico, recomendamos, a título de sugestão:</p><p>– iniciar o ponto de origem de marcação dos</p><p>setores, no ponto correspondente às 12 ho-</p><p>ras do relógio (ou o norte da bússola) ;</p><p>– marcar os setores, sempre que possível, de</p><p>modo decrescente e no sentido horário;</p><p>– indicar as percentagens de cada setor no</p><p>interior do mesmo;</p><p>– evitar, quando possível, o uso de conven-</p><p>ções, para simplificar o gráfico.</p><p>Tomemos como exemplo a série geo-</p><p>gráfica sobre áreas das Grandes Regiões do</p><p>Brasil, onde fornecemos as informações per-</p><p>centuais (indispensáveis no caso).</p><p>Tabela 2.24 - Áreas das grandes regiões bra-</p><p>sileiras – 1983.</p><p>Regiões %</p><p>Norte 42,0</p><p>Centro Oeste 22,1</p><p>Nordeste 18,2</p><p>Sudeste 10,9</p><p>Sul 6,8</p><p>Brasil 100,0</p><p>Fonte: Anuário Estatístico do Brasil.</p><p>Estatística Aplicada à Computação</p><p>19</p><p>42,0%</p><p>22,1%</p><p>18,2%</p><p>10,9%</p><p>6,8%</p><p>Norte</p><p>Centro Oeste</p><p>Nordeste</p><p>Sudeste</p><p>Sul</p><p>Figura 2.6 – Áreas das grandes regiões brasi-</p><p>leiras – 1983.</p><p>Fonte: Anuário Estatístico do Brasil.</p><p>Além de ordenação de modo decres-</p><p>cente, escolhida para os setores, a marcação</p><p>dos mesmos seguindo a ordem geográfica</p><p>indicada na série também pode ser adotada.</p><p>EXERCÍCIOS</p><p>1) Trace o gráfico correspondente à seguinte</p><p>série:</p><p>Tabela 2.25 – BRASIL – População recense-</p><p>ada, segundo as Grandes Re-</p><p>giões - 1980</p><p>Grandes</p><p>Regiões</p><p>População recenseada</p><p>(1 000 hab)</p><p>Norte 6.025.914</p><p>Nordeste 25.412.887</p><p>Sudeste 52.556.212</p><p>Sul 19.379.229</p><p>Centro-Oeste 7.738.842</p><p>Fonte: IBGE.</p><p>2.4.5. Gráfico em Vetores</p><p>É o gráfico ideal para representar sé-</p><p>ries temporais cíclicas, isto é, séries temporais</p><p>que apresentam em seu desenvolvimento de-</p><p>terminada periodicidade, como, por exemplo,</p><p>a variação da precipitação pluviométrica ao</p><p>longo do ano ou da temperatura ao longo do</p><p>dia, a arrecadação da Zona Azul durante a</p><p>semana, o consumo de energia elétrica durante</p><p>o mês ou o ano, o número de passageiros de</p><p>uma linha de ônibus ao longo da semana etc.</p><p>O gráfico polar faz uso do sistema de</p><p>coordenadas polares. Usando o Excel o nome</p><p>é RADAR e o traçado do gráfico é interno à</p><p>circunferência. Exemplo:</p><p>Tabela 2.26 – Precipitação pluviométrica –</p><p>Recife – 1993</p><p>MESES Quantidade (mm)</p><p>Janeiro 49,6</p><p>Fevereiro 93,1</p><p>Março 63,6</p><p>Abril 135,3</p><p>Maio 214,7</p><p>Junho 277,9</p><p>Julho 183,6</p><p>Agosto 161,3</p><p>Setembro 49,2</p><p>Outubro 40,8</p><p>Novembro 28,6</p><p>Dezembro 33,3</p><p>Fonte: Ministério da Agricultura</p><p>0</p><p>100</p><p>200</p><p>300</p><p>Janeiro</p><p>Fevereiro</p><p>Março</p><p>Abril</p><p>Maio</p><p>Junho</p><p>Julho</p><p>Agosto</p><p>Setembro</p><p>Outubro</p><p>Novembro</p><p>Dezembro</p><p>Figura 2.7 – Precipitação pluviométrica –</p><p>Recife</p><p>– 1993</p><p>Fonte: Ministério da Agricultura.</p><p>2.4.6. Cartograma</p><p>O cartograma é a representação sobre</p><p>uma carta geográfica.</p><p>Este gráfico é empregado quando o</p><p>objetivo é o de figurar os dados estatísticos</p><p>diretamente relacionados com áreas geográfi-</p><p>cas ou políticas. Distinguimos duas aplica-</p><p>ções:</p><p>- Representar dados absolutos (população) –</p><p>neste caso lançamos mão, em geral, dos pon-</p><p>tos, em número proporcional aos dados.</p><p>a. Representar dados relativos (densidade) –</p><p>neste caso lançamos mão, em geral, de ha-</p><p>churas ou cores.</p><p>Estatística Aplicada à Computação</p><p>20</p><p>EXEMPLO:</p><p>Dada a série:</p><p>Tabela 2.27 – População projetada da Região</p><p>Sul do Brasil – 1994.</p><p>Estados Popula-</p><p>ção</p><p>Área (</p><p>Km2)</p><p>Densi-</p><p>dade</p><p>Paraná 8.651.100 199.324 43.4</p><p>Santa Ca-</p><p>tarina</p><p>4.767.800 95.318 50.0</p><p>Rio G. do</p><p>Sul</p><p>9.475.900 280.674 33.8</p><p>Fonte: IBGE.</p><p>Obtemos os seguintes cartogramas:</p><p>Figura 2.8 – População projetada da Região</p><p>Sul do Brasil – 1994.</p><p>OBSERVAÇÃO:</p><p>Quando os números absolutos a serem</p><p>representados forem muito grandes, no lugar</p><p>de pontos podemos empregar hachuras.</p><p>2.4.7. Pictograma</p><p>O pictograma constitui um dos proces-</p><p>sos gráficos que melhor fala ao público, pela</p><p>sua forma ao mesmo tempo atraente e sugesti-</p><p>va. A representação gráfica consta de figuras.</p><p>Na confecção de gráficos pictóricos</p><p>temos que utilizar muita criatividade, procu-</p><p>rando obter uma otimização na união da arte</p><p>com a técnica. Não é utilizado em trabalhos</p><p>científicos. Seu principal uso está em revistas</p><p>voltadas ao público em geral.</p><p>Fonte: http://www.geocities.com/pcrsilva_99/2A5.HTM</p><p>OBSERVAÇÃO:</p><p>Existem livros específicos que tratam</p><p>de gráficos. Nós vimos os principais e mais</p><p>utilizados.</p><p>Os gráficos têm sido classificados de</p><p>modo variável, mas os especialistas no assunto</p><p>não discordam a respeito de:</p><p>- Diagrama. Toda e qualquer representação</p><p>gráfica. Ela tem sido a palavra que engloba os</p><p>gráficos que acabamos de ver, que na verdade,</p><p>são gráficos lineares e gráficos de áreas, bem</p><p>mais numerosos e variados;</p><p>- Estereograma. Gráfico representado por</p><p>sólidos (três dimensões);</p><p>- Cartograma. Representação gráfica no ma-</p><p>pa;</p><p>- Pictogramas Representações por figuras</p><p>simbólicas;</p><p>- Gráficos de organização conhecidos tam-</p><p>bém como os organogramas das empresas.</p><p>Estatística Aplicada à Computação</p><p>21</p><p>Recomendações práticas sobre</p><p>alguns diagramas</p><p>1. Gráfico em curvas. É um gráfico apropri-</p><p>ado para as séries temporais. É traçado normal-</p><p>mente quando são dadas cinco ou mais datas.</p><p>2. Gráfico em colunas ou barras. É traçado</p><p>para as séries especificativas e geográficas e, ain-</p><p>da, para as séries temporais com cinco e menos</p><p>datas. O espaço entre colunas ou barras não deve</p><p>ser exagerado. Assim, recomendamos para a largu-</p><p>ra reservada a cada espaço entre colunas ou barras</p><p>um comprimento que varie de 1/3 a 2/3 do com-</p><p>primento escolhido para a largura de cada coluna</p><p>ou barra. Sempre que possível, quando não houver</p><p>uma outra ordem a ser imposta, como na série</p><p>temporal, por exemplo, as colunas deverão ser</p><p>ordenadas de modo decrescente, da esquerda para</p><p>a direita. Conseqüentemente, as barras ficarão</p><p>também ordenadas de modo decrescente, de cima</p><p>para baixo. O gráfico em barras deve ser planejado</p><p>como se fosse em colunas e, quase sempre, ele é</p><p>traçado quando a largura reservada para a coluna é</p><p>insuficiente para a designação da ocorrência que a</p><p>mesma representa.</p><p>3. Gráficos: histograma, polígono de fre-</p><p>qüência e ogiva de Galton. São gráficos caracte-</p><p>rísticos das distribuições de freqüência. No plane-</p><p>jamento do histograma e do polígono de freqüên-</p><p>cia, devemos deixar espaço reservado a indicação</p><p>do corte do gráfico quando não houver a coinci-</p><p>dência da origem (zero). A ogiva de Galton é</p><p>construída, principalmente, quando desejamos</p><p>analisar a distribuição de freqüência tendo em</p><p>vista informações percentílicas como são as sepa-</p><p>ratrizes (mediana, quartis, decis e percentis).</p><p>4. Gráficos</p><p>em setores e em retângulos.</p><p>Ambos devem ser traçados quando desejarmos</p><p>analisar as diversas ocorrências de uma série em</p><p>termos relativos ou percentuais. São recomenda-</p><p>das, principalmente, para as séries especificativas</p><p>e geográficas, ambas com poucas ocorrências (até</p><p>sete). Levando em conta a estética e também para</p><p>uma melhor idéia do conjunto, devemos:</p><p>a) no gráfico em retângulos, ordenar os retângu-</p><p>los de modo decrescente, da esquerda para a direi-</p><p>ta;</p><p>b) no gráfico em setores, tomar como partida de</p><p>marcação dos setores o ponto correspondente às 12</p><p>horas do relógio de onde deverá partir o primeiro</p><p>raio. Adotar ainda a ordenação dos setores, do</p><p>maior para o menor, no sentido dos ponteiros do</p><p>relógio (sempre que possível).</p><p>5. Gráfico polar ou gráfico em vetores. De-</p><p>ve ser utilizado quando desejamos analisar as vari-</p><p>ações das diversas ocorrências de uma série com-</p><p>parativamente com um valor médio. É recomenda-</p><p>do para representar certos tipos especiais de séries</p><p>temporais (principalmente) e algumas séries espe-</p><p>cificativas e geográficas. Correntemente, é mais</p><p>usado na análise de séries mensais com 6, 8 ou 12</p><p>meses.</p><p>Nota: Para traçar de modo correto e com-</p><p>pleto um gráfico cartesiano, não devemos</p><p>nos esquecer do que o gráfico deve possuir:</p><p>– título completo;</p><p>– linhas de chamada;</p><p>– especificação e graduação dos eixos;</p><p>– indicações das escalas vertical e hori-</p><p>zontal (no caso do histograma, do polí-</p><p>gono de freqüência e da ogiva de Gal-</p><p>ton);</p><p>– referência a origem (ponto zero).</p><p>Estatística Aplicada à Computação</p><p>22</p><p>2.5. Distribuição de Freqüências</p><p>Uma das vantagens das tabelas estatísticas é a de condensar as informações necessárias</p><p>ao estudo que estamos fazendo. Pode acontecer que na coleta de dados os valores se repitam. Em</p><p>tabelas simples só aparecem valores diferentes uns dos outros.</p><p>Vamos conhecer um tipo de tabela que condensa uma coleção de dados conforme a fre-</p><p>qüência ou repetição de seus valores.</p><p>1 – Altura de alunos da turma</p><p>150 151 152 153 154 155 155 155 156 156</p><p>156 157 158 158 160 160 160 160 160 161</p><p>161 161 161 162 162 163 163 164 164 164</p><p>165 166 167 168 168 169 170 170 172 173</p><p>2 – Quando temos dados que não foram numericamente organizados chamamos de dados</p><p>brutos.</p><p>3 – ROL – é a organização dos dados brutos em ordem crescente ou decrescente.</p><p>4 – AMPLITUDE TOTAL OU RANGE (R):</p><p>R = X maior – X menor</p><p>É a diferença entre o maior e o menor valor observado.</p><p>R = 173 - 150 = 23</p><p>5 – NÚMERO DE CLASSES (K) – Para determinarmos o número de classes (linhas) da</p><p>tabela podemos lançar mão da regra de Sturges, que nos dá o número de classes em função do</p><p>número de valores da variável:</p><p>K = 1 + 3,22 . log n</p><p>Onde n = tamanho da amostra.</p><p>K = 1 + 3,22 log 40</p><p>K = 6,16</p><p>Como o número de classes é um número inteiro devemos o número inteiro inferior ou</p><p>superior ao valor obtido para K. No exemplo é melhor utilizarmos o 6 pois está mais próximo de</p><p>6,16 do que de 7.</p><p>6 – AMPLITUDE DO INTERVALO DE CLASSE (h) – Define através de um número</p><p>quais são os limites numéricos para cada classe.</p><p>K</p><p>R</p><p>h =</p><p>No exemplo: 83,3</p><p>6</p><p>23</p><p>==h</p><p>Estatística Aplicada à Computação</p><p>23</p><p>OBS.: Arredondar sempre para o maior inteiro se os dados forem inteiros ou para o maior déci-</p><p>mo, centésimo,... , se os números não forem inteiros, portanto, o valor de h para o exemplo será</p><p>4.</p><p>7 – TABELAS DE DISTRIBUIÇÃO DE FREQÜÊNCIAS</p><p>Tabela 2.3 – Distribuição de freqüências das alturas de</p><p>40 alunos da Escola XYZ.</p><p>Alturas Fi xi Fac fi FacR</p><p>150 ├ 154 4 152 4 10,0 % 10,0 %</p><p>154 ├ 158 8 156 12 20,0 % 30,0 %</p><p>158 ├ 162 11 160 23 27,5 % 57,5 %</p><p>162 ├ 166 8 164 31 20,0 % 77,5 %</p><p>166 ├ 170 5 168 36 12,5 % 90,0 %</p><p>170 ├ 174 4 172 40 10,0 % 100,0 %</p><p>Total 40 - - 100,0 % -</p><p>Fonte: Dados Fictícios</p><p>8 – Fi – FREQÜÊNCIA ABSOLUTA DO</p><p>INTERVALO DE CLASSE:</p><p>- É a quantidade de elementos de ca-</p><p>da classe, ou:</p><p>- É a quantidade de vezes que cada</p><p>elemento se repete.</p><p>9 - xi – PONTO MÉDIO DO INTERVALO</p><p>DE CLASSE.</p><p>É a média aritmética dos extremos.</p><p>2</p><p>lils</p><p>Xi</p><p>+</p><p>=</p><p>ls = limite superior e li = limite inferi-</p><p>or.</p><p>10 – Fac – FREQÜÊNCIA ACUMULADA</p><p>É o somatório das freqüências absolu-</p><p>tas classe a classe.</p><p>11 – fi – FREQÜÊNCIA RELATIVA - %</p><p>São os valores das razões entre as fre-</p><p>qüências simples e a freqüência total:</p><p>100.</p><p>∑</p><p>=</p><p>Fi</p><p>Fi</p><p>fi</p><p>12 – FacR – FREQÜÊNCIA ACUMULA-</p><p>DA RELATIVA</p><p>É a freqüência acumulada da</p><p>classe, dividida pela freqüência total da distri-</p><p>buição.</p><p>100.</p><p>∑</p><p>=</p><p>Fi</p><p>Fac</p><p>FacR</p><p>13 – HISTOGRAMA - Diagrama em colu-</p><p>nas justapostas (classes X Fi), cujas bases se</p><p>localizam sobre o eixo horizontal, de tal modo</p><p>que seus pontos médios coincidem com os</p><p>pontos médios dos intervalos de classe.</p><p>Estatística Aplicada à Computação</p><p>24</p><p>0</p><p>2</p><p>4</p><p>6</p><p>8</p><p>10</p><p>12</p><p>150 154 158 162 166 170 174</p><p>Alturas (cm)</p><p>F</p><p>re</p><p>q</p><p>ü</p><p>ên</p><p>ci</p><p>a</p><p>Figura 2.9 - Distribuição de freqüências das</p><p>alturas de 40 alunos da Escola XYZ.</p><p>Fonte: Dados Fictícios.</p><p>Notas: A área de um histograma é propor-</p><p>cional à soma das freqüências.</p><p>No caso de usarmos as freqüências</p><p>relativas, obtemos um gráfico de área unitá-</p><p>ria.</p><p>Quando queremos as comparar</p><p>duas distribuições, o ideal é fazê-lo pelo histogra-</p><p>ma de freqüências relativas.</p><p>13 – POLÍGONO DE FREQÜÊNCIAS –</p><p>diagrama em linha, sendo as freqüências mar-</p><p>cadas sobre perpendiculares ao eixo horizon-</p><p>tal, levantadas pelos pontos médios dos inter-</p><p>valos de classe (Classes X Fi).</p><p>0</p><p>2</p><p>4</p><p>6</p><p>8</p><p>10</p><p>12</p><p>148 152 156 160 164 168 172 176</p><p>Altura (cm)</p><p>F</p><p>re</p><p>q</p><p>ü</p><p>ên</p><p>ci</p><p>a</p><p>Figura 2.10 - Polígono de freqüências</p><p>das alturas de 40 alunos da Escola XYZ. Fon-</p><p>te: Dados Fictícios.</p><p>14 – GRÁFICO DE FREQÜÊNCIA ACUMU-</p><p>LADA ou OGIVA (Classes X Fac) - é traçado</p><p>marcando-se as freqüências acumuladas sobre</p><p>perpendiculares ao eixo horizontal, levantadas nos</p><p>pontos correspondentes aos limites superiores dos</p><p>intervalos de classe.</p><p>0</p><p>5</p><p>10</p><p>15</p><p>20</p><p>25</p><p>30</p><p>35</p><p>40</p><p>45</p><p>148 152 156 160 164 168 172</p><p>Altura (cm)</p><p>F</p><p>re</p><p>q</p><p>ü</p><p>ên</p><p>ci</p><p>a</p><p>Figura 2.10 - Polígono de freqüências das</p><p>alturas de 40 alunos da Escola XYZ.</p><p>Fonte: Dados Fictícios.</p><p>EXERCÍCIOS</p><p>1) No quadro a seguir estão os tempos de uma</p><p>das provas de Estatística II do Comércio Exte-</p><p>rior – 2004 – URI – Campus de Erechim.</p><p>40 40 42 42 42 43 43 43 43 44</p><p>44 45 45 46 46 47 48 48 48 48</p><p>49 50 51 53 54 55 56 56 56 57</p><p>59 59 59 59 59 61 61 62 67 68</p><p>68 70 70 71 71 72 72 73 75 75</p><p>76 77 77 78 79 80 81 82 84 84</p><p>2) As notas a seguir correspondem ao Colé-</p><p>gio C – Notas Obtidas na Prova P – Turma A</p><p>– Mês M – Ano T. Fonte: secretaria da Esco-</p><p>la.</p><p>0,0 1,0 1,0 1,5 2,0 2,0 2,0 2,0 2,0 2,0 2,5 3,0</p><p>3,0 3,0 3,0 3,0 3,5 4,0 4,0 4,0 4,4 4,5 4,5 5,0</p><p>5,0 5,0 5,0 5,0 5,0 5,0 5,5 5,5 5,5 6,0 6,0 6,0</p><p>6,0 6,0 6,0 6,2 6,5 6,5 7,0 7,0 7,0 7,0 7,0 7,0</p><p>7,0 7,0 7,0 7,0 8,0 8,0 8,0 8,0 8,0 8,0 9,0 9,5</p><p>Construa a tabela de distribuição de-</p><p>freqüências.</p><p>Estatística Aplicada à Computação</p><p>25</p><p>3.0. Medidas de Tendência Central</p><p>Pelo apresentado nos capítulos anterio-</p><p>res, vemos que à Estatística cabe a análise de fe-</p><p>nômenos mensuráveis. Temos, assim, diante de</p><p>nós, informações numéricas, obtidas nas fases</p><p>iniciais do trabalho estatístico (planejamento, cole-</p><p>ta, crítica, apuração e exposição), que deverão ser</p><p>analisadas, agora na fase do trabalho estatístico</p><p>que chamamos interpretação. Cabe-nos, assim, a</p><p>determinação dos índices estatísticos que atuarão</p><p>como indicadores do comportamento do fenômeno</p><p>que estamos pesquisando.</p><p>Para facilitar o cálculo desses índices,</p><p>achamos útil incluir uma introdução à notação de</p><p>somatório (Σ), que virá por certo facilitar o enten-</p><p>dimento e a simplificação das fórmulas, as quais</p><p>irão traduzir as medidas estatísticas usadas na in-</p><p>terpretação do conjunto de dados.</p><p>Introdução</p><p>ao Símbolo Somatório (ΣΣΣΣ)</p><p>Para indicar um conjunto de N dados X1,</p><p>X2, X3,..., XN é usual tomarmos o símbolo Xi, onde</p><p>i, denominado índice, representa quaisquer dos</p><p>números 1, 2, 3,..., N e indica o número de ordem</p><p>dos diferentes valores.</p><p>Assim, por exemplo, se tivermos os nú-</p><p>meros 4, 28, 13, 18 e 10, a notação X4 representa o</p><p>quarto deles, ou seja, X4 = 18.</p><p>Se, no entanto, quisermos representar a</p><p>soma dos X; valores, isto é, X1 + X2 + X3 +...+ XN</p><p>podemos lançar mão da letra grega Σ (sigma) cor-</p><p>respondente ao nosso S maiúsculo e indicativa de</p><p>soma.</p><p>Por definição, temos:</p><p>A ∑</p><p>=</p><p>N</p><p>i</p><p>Xi</p><p>1</p><p>indicação ordena a soma dos</p><p>Xi valores desde i = 1 até i = N.</p><p>Para complementar a simbologia usada</p><p>nas fórmulas estatísticas, apresentaremos a seguir</p><p>aquela que indica produto.</p><p>Por definição:</p><p>Π (pi) é uma letra grega maiúscula e</p><p>indica produto.</p><p>3.1. Médias</p><p>As principais médias são: a aritmética, a</p><p>geométrica, a harmônica e a quadrática, podendo</p><p>ainda cada uma delas ser simples ou ponderada.</p><p>Quando nada especificarmos, significa estarmos</p><p>tratando de médias simples. Das médias pondera-</p><p>das, cuidaremos somente da média aritmética pon-</p><p>derada, pois as demais fogem ao objetivo de nosso</p><p>curso. Por ser a mais usada e conhecida, a média</p><p>aritmética é chamada vulgarmente de média.</p><p>3.1.1. Média Aritmética ou simplesmente</p><p>Média</p><p>X , é o quociente entre a soma dos ele-</p><p>mentos da série e o número (N) desses elementos.</p><p>Assim, temos para o caso de dados apresentados.</p><p>Notas:</p><p>– lembrar que, para os dois últimos casos: N = Σ Fi</p><p>– esse símbolo, X é utilizado para dados amos-</p><p>trais. Para dados populacionais usa-se a letra grega</p><p>µ (mi).</p><p>Propriedades da média</p><p>a) A soma algébrica dos desvios de um conjunto de</p><p>números, em relação a média aritmética é nula.</p><p>b) A soma dos quadrados dos desvios de um conjunto</p><p>de números Xi, em relação a qualquer número a, é</p><p>um mínimo quando a = Xi e somente neste caso.</p><p>c) Se f1 números têm média m1, f2 números têm</p><p>média m2, ..., fK números têm média mK, a média de</p><p>todos os números é</p><p>K</p><p>KK</p><p>fff</p><p>mfmfmf</p><p>X</p><p>+++</p><p>+++</p><p>=</p><p>...</p><p>...</p><p>21</p><p>2211</p><p>Ou seja, a média aritmética ponderada de</p><p>todas as médias.</p><p>N</p><p>N</p><p>i</p><p>XXXXXi ++++=∑</p><p>=</p><p>...321</p><p>1</p><p>N</p><p>N</p><p>i</p><p>i XXXXX ⋅⋅⋅⋅=∏</p><p>=</p><p>.... 321</p><p>1</p><p>∑</p><p>∑</p><p>∑</p><p>∑</p><p>∑</p><p>=</p><p>⋅</p><p>=</p><p>=</p><p>Fi</p><p>Fi</p><p>FiX</p><p>Xi.Fi</p><p>X :... freqüência de classes em grupados -</p><p>:Longo Processo</p><p>X :............... freqüência com Repetidos -</p><p>N</p><p>X</p><p>X :................................................ Isolados -</p><p>Estatística Aplicada à Computação</p><p>26</p><p>Vantagens e desvantagens da média</p><p>aritmética</p><p>Por ser muito influenciada por valores extremos</p><p>da série, não representa bem as distribuições em</p><p>que estes valores ocorrem com freqüência acentu-</p><p>ada, como, por exemplo, a série cujos elementos</p><p>são os seguintes: 18, 20, 22, 24 e 850 (onde a mé-</p><p>dia aritmética é igual a 186,8, resultado que foi</p><p>muito influenciado pelo elemento 850). Um outro</p><p>exemplo pitoresco e difícil de ocorrer, porém bas-</p><p>tante esclarecedor: estamos calculando o peso</p><p>médio (aritmético) de um grupo reduzido de for-</p><p>migas, quando alguém aparece com um elefante</p><p>para ser incluído nesse grupo, ... o peso médio</p><p>(aritmético) do novo grupo sofrerá uma ”enorme”</p><p>majoração. A forte variação não ocorreria, se, ao</p><p>contrário, estivéssemos calculando o peso médio</p><p>de um grupo de elefantes e alguém aparecesse com</p><p>uma formiga para ser incluída no grupo.</p><p>1) Apesar de a média aritmética situar-se entre o</p><p>menor e o maior resultado da distribuição de fre-</p><p>qüências, ela não tem, necessariamente, a existên-</p><p>cia real. Podemos obter, por exemplo, uma média</p><p>do tamanho de família de 4,5 pessoas, que é um</p><p>valor inexistente.</p><p>2) Não pode ser calculada para distribuições com</p><p>classes ou limites abertos.</p><p>3) Pode ser calculada diretamente usando qual-</p><p>quer calculadora eletrônica.</p><p>4) Depende de todos os valores da distribuição.</p><p>5) Evidencia bastante estabilidade de amostra para</p><p>amostra, ou seja, se pesquisarmos numerosas a-</p><p>mostras extraídas de uma mesma população, os</p><p>valores das médias obtidas variam pouco.</p><p>6) Permite a manipulação subseqüente dos dados,</p><p>como o cálculo de médias combinadas.</p><p>EXERCÍCIOS</p><p>1. Um aluno tira as seguintes notas numa prova de</p><p>Estatística: 5,6; 8,1 e 9,0. Calcule a média aritmé-</p><p>tica.</p><p>2. Na seqüência temos a massa (peso) em gramas,</p><p>de ratos da raça Wistar com 30 dias de idade.</p><p>(Fonte: Vieira, S., 1980). Calcule a média aritmé-</p><p>tica.</p><p>50 62 70 86 66 55</p><p>60 77 82 64 58 74</p><p>3. Dois grupos de alunos, Fi1 (meninos) e Fi2 (me-</p><p>ninas) têm a distribuição de freqüências na tabela a</p><p>seguir. Calcule a média aritmética dos pesos (mas-</p><p>sas) para ambos os sexos.</p><p>Peso(kg) Fi1 Fi2 Xi Fi1.Xi Fi2.Xi</p><p>35 ├ 40 - 1</p><p>40 ├ 45 - 5</p><p>45 ├ 50 1 27</p><p>50 ├ 55 2 31</p><p>55 ├ 60 9 15</p><p>60 ├ 65 18 8</p><p>65 ├ 70 9 2</p><p>70 ├ 75 5 1</p><p>75 ├ 80 2 -</p><p>80 ├ 85 1 -</p><p>85 ├ 90 2 -</p><p>90 ├95 1 -</p><p>TOTAL 50 90</p><p>=1X</p><p>=2X</p><p>3.1.2. Média Geométrica (G)</p><p>É a raiz que tem para índice o número de</p><p>elementos da série e para radicando o produto</p><p>desses elementos. Assim, temos para o caso de</p><p>dados apresentados:</p><p>Estatística Aplicada à Computação</p><p>27</p><p>∑</p><p>Π=</p><p>∑</p><p>Π=</p><p>Π=</p><p>Fi Fi</p><p>Fi Fi</p><p>N</p><p>XiG</p><p>sfreqüênciadeervalocomAgrupados</p><p>XG</p><p>freqüênciacomAgrupados</p><p>XG</p><p>Isolados</p><p>int</p><p>Notas:</p><p>– Π (letra grega – pi maiúsculo) indica o</p><p>produto de todos os elementos da série (no caso);</p><p>– extração de raízes cujos índices são supe-</p><p>riores a 2 (dois) requer a utilização de calculadoras</p><p>científicas;</p><p>– normalmente as calculadoras simples ou</p><p>mesmo as científicas não tem capacidade para</p><p>conter o produto final dos elementos das séries</p><p>constituídas de um número maior de elementos.</p><p>Para facilitar o cálculo da média geomé-</p><p>trica das séries em geral, calculando o logaritmo</p><p>de ambos os termos das fórmulas acima, temos as</p><p>seguintes alternativas para o caso de dados apre-</p><p>sentados:</p><p>∑</p><p>∑</p><p>∑</p><p>∑</p><p>∑</p><p>=</p><p>=</p><p>=</p><p>Fi</p><p>XiFi</p><p>G</p><p>sfreqüênciadeervalocomAgrupados</p><p>Fi</p><p>XFi</p><p>G</p><p>freqüênciacomAgrupados</p><p>N</p><p>X</p><p>G</p><p>Isolados</p><p>log.</p><p>log</p><p>int</p><p>log</p><p>log</p><p>log</p><p>log</p><p>Notas:</p><p>- Para encontrarmos a média geométrica, to-</p><p>mamos: G = 10 log G .</p><p>- Como cálculo mais amplo da média geométri-</p><p>ca foge ao objetivo deste curso, não se dará a</p><p>ênfase correspondente a esse assunto.</p><p>EXERCÍCIOS</p><p>1) Calcular a média geométrica das séries:</p><p>a) 1 e 4;</p><p>b) 1; 9 e 81;</p><p>c) 1; 4; 8; 16; 32</p><p>Casos de Uso da Média Geométrica</p><p>Ela deve ser usada para o cálculo da mé-</p><p>dia de séries cujos elementos se apresentam se-</p><p>gundo urna progressão geométrica (como, por</p><p>exemplo, a média de populações) ou revelam ele-</p><p>mentos ”muito grandes” comparativamente com os</p><p>demais, no caso de série que tem essa particulari-</p><p>dade, como, por exemplo, a série: 18, 20, 22, 24 e</p><p>850 (onde a média geométrica é aproximadamente</p><p>igual a 43,8, resultado que não foi tão influenciado</p><p>assim pelo elemento 850), sendo também usada</p><p>para o cálculo de índices do custo de vida. A prin-</p><p>cipal inconveniência da média geométrica, a nosso</p><p>ver, consiste no fato de ela ser grandemente influ-</p><p>enciada pelos elementos ”pequenos” da série, se</p><p>for o caso. Voltando ao exemplo pitoresco e difícil</p><p>de ocorrer, já mencionado anteriormente: estamos</p><p>calculando o peso médio geométrico de um grupo</p><p>reduzido de formigas, quando alguém aparece com</p><p>um elefante para ser incluído no grupo ... o peso</p><p>médio geométrico do novo grupo não será alterado</p><p>de forma expressiva. No entanto, o mesmo não</p><p>ocorreria, se, ao contrário, estivéssemos calculan-</p><p>do o peso médio geométrico de um grupo de ele-</p><p>fantes, quando alguém aparecesse com uma formi-</p><p>ga para ser incluída no grupo ... o peso médio ge-</p><p>ométrico sofreria uma drástica redução em seu</p><p>valor final.</p><p>Exercícios</p><p>1) Calcular, comparando-as, a média aritmética e a</p><p>média geométrica da série (dados em m3):</p><p>3,7; 8,2; 10,0; e 15,0</p><p>2) Calcule as quatro médias estudadas a partir dos</p><p>dados a seguir</p>

Mais conteúdos dessa disciplina