Prévia do material em texto
ESTATÍSTICA APLICADA AULA 6 Prof. Rodolfo dos Santos Silva 2 CONVERSA INICIAL Olá, aluno(a) do curso de Serviço Social! Estamos iniciando a nossa última aula da disciplina de Estatística Aplicada. Nesta aula, vamos aprender que embora o estudo das probabilidades seja uma área pertencente também ao campo da Matemática, ele representa um instrumento muito importante para a tomada de decisões, principalmente porque sua aplicação na pesquisa social está relacionada à estatística indutiva e à estatística inferencial. No âmbito do Serviço Social, trabalha-se muito com interpretações dos fenômenos sociais, principalmente, dos problemas que envolvem as populações que habitam as cidades, a inclusão, a mobilidade social, a discriminação, a migração e a imigração, as questões de saúde, os movimentos sociais e as suas organizações, a política e os resultados eleitorais. São muitos os eventos e as possibilidades prováveis. Nesta aula, você vai verificar como o estudo das Probabilidades pode contribuir com a sua análise e diagnóstico social da realidade. TEMA 1 – O ESTUDO DAS PROBABILIDADES 1.1 Onde surgiu? O estudo das probabilidades surgiu por volta do século XV, com base na análise de jogos de carta, dados e outros similares, mais conhecidos como jogos de azar. Alguns autores afirmam que foi o cientista italiano Girolamo Cardano (1501-1576) que organizou a primeira teoria sobre esses jogos. Porém, foi no século XVII, com Galileu Galilei (1564-1642) e mais tarde, Blaise Pascal (1623- 1662), Pierre de Fermat (1601-1665), Isaac Newton (1642-1627), entre outros, que a Teoria das Probabilidades ganhou visibilidade e estrutura. O desenvolvimento de um arcabouço teórico, que busca justificar a utilização da probabilidade para estimar as possibilidades de ocorrência de determinado evento, fez com que o uso dos estudos probabilísticos, passasse a ser utilizado como instrumento de análise e inferências em diversas ciências, inclusive nas ciências humanas. Há que se destacar que a probabilidade não está ligada ao tempo, mas aos eventos ou experimentos em estudo. Tais eventos ou experimentos denominamos de aleatórios. De acordo com Crespo (2009, p. 3 127), eventos ou experimentos aleatórios são aqueles que, “mesmo repetidos várias vezes sob condições semelhantes, apresentam resultados imprevisíveis”. 2.1 o que é probabilidade? A probabilidade é um o resultado de um determinado fenômeno medido pela quantidade de vezes que esse fenômeno ocorre, dividido pelo número total de casos de possível ocorrência. Assim, a quantidades de vezes que o fenômeno ocorre chamamos de evento, e ao número total de casos denominamos espaço amostral. Um exemplo clássico, na estatística, é o lançamento de uma moeda. Ao lançarmos uma moeda, uma vez, qual a probabilidade de dar cara? Nesse exemplo, a quantidade de lançamentos representa o evento e a quantidade de possibilidades existentes, no caso, cara ou coroa, representa o espaço amostral da moeda. Assim, quantas possibilidades de dar cara em uma moeda, que possui no seu espaço amostral, cara ou coroa? No exemplo, o resultado obtido é 0,5, o que nos permite afirmar que, ao lançarmos uma moeda, temos 50% de possibilidade de que apareça cara na face superior. Como o resultado é dado em porcentagem, ele é multiplicado por cem. Outro exemplo, bastante utilizado, é o lançamento de um dado (não viciado) com o seu espaço amostral 1, 2, 3, 4, 5 e 6. A pergunta que se faz é: Ao lançarmos um dado uma vez, qual a possibilidade de dar o número 6 em sua face superior? Ou seja: a probabilidade de jogarmos um dado ao acaso e ocorrer o número 6 é de 16,67%. Como um dado (não viciado) apresenta um espaço amostral maior que da moeda, existe mais eventos prováveis. Por exemplo: qual a probabilidade de jogar um dado e o número alcançado em sua parte superior seja um número ímpar? 4 É importante observar que: a. Para que um evento (E) ocorra é necessário que a probabilidade desse evento P(E) seja igual a 1; b. Se a probabilidade de um evento for igual a zero, dizemos que esse evento é impossível; c. A probabilidade de um evento qualquer tem de ser um número real, no qual o evento (E) deve estar contido no espaço amostral (S). TEMA 2 – EVENTOS COMPLEMENTARES Quando o profissional de Serviço Social atua, ele sabe perfeitamente que um determinado evento pode ocorrer ou não. Quando se programa um evento há a probabilidade (p) de que esse determinado evento ocorra (sucesso) e de que não ocorra (insucesso). Diante disso, existe uma relação fundamental que é: tendo em vista que a Probabilidade de Sucesso (p) mais a Probabilidade de Insucesso (q) é igual a um, a Probabilidade de Insucesso (q) é igual a um menos a Probabilidade de Sucesso. A observação da fórmula, sem a sua aplicação prática, não deixa transparecer totalmente o que ela representa. Vamos à aplicação prática. Exemplo: Do que aprendemos em probabilidade até agora, você já sabe fazer este exercício: em uma caixa contendo 3 bolas pretas, 2 bolas com estrelas e 5 bolas brancas, qual a probabilidade de que, ao retirarmos uma bola dessa caixa, ela seja com estrelas? Resposta: A probabilidade de que, ao retirarmos uma bola desta caixa, ela seja com estrelas é de 20%. Sendo assim, sabemos que a probabilidade de ocorrer uma bola com estrelas é 20%, qual a probabilidade de não sair a bola com estrelas? 5 Resposta: A probabilidade de não sair a bola com estrelas é de 80%. TEMA 3 – EVENTOS INDEPENDENTES E EVENTOS MUTUAMENTE EXCLUSIVOS 3.1 Eventos independentes ou resultados do produto Os eventos independentes, ou resultados do produto, são assim denominados quando a realização ou não realização de um dos eventos não afeta a probabilidade da realização de outro e assim por diante. Por exemplo: na caixa contendo as bolas coloridas, se fizermos duas retiradas (com reposição), o resultado da primeira retirada será independente da outra. Se as duas retiradas ocorrem independentemente, a probabilidade de que os eventos se realizem simultaneamente se dará por meio da multiplicação das probabilidades de realização das duas retiradas. Ou seja: sendo p1, a probabilidade de ocorrência da primeira retirada (primeiro evento) e p2 a probabilidade de ocorrência da segunda retirada (segundo evento), a probabilidade de ocorrência das duas retiradas simultaneamente é dada por: Vamos ver como isso se dá com base em um novo exemplo: Ao fazermos duas retiradas da caixa, contendo duas bolas com estrelas, três bolas pretas e cinco bolas brancas (com reposição), qual a probabilidade de retirarmos uma bola branca na primeira retirada e uma bola preta na segunda retirada? Aplicando a fórmula temos que: Resposta: A probabilidade de retirarmos uma bola branca na primeira retirada e uma bola preta na segunda retirada é de 15%. 6 3.2 Eventos independentes ou resultados do produto Um evento mutuamente exclusivo tem essa denominação em virtude do fato de que ao fazermos dois ou mais eventos, a realização de um determinado evento exclui a possibilidade de que o outro aconteça. Dessa forma, se os dois eventos são mutuamente exclusivos, a probabilidade de que ocorra um ou o outro é igual a soma da probabilidade dos dois eventos. Vamos voltar ao exemplo da caixa contendo duas bolas com estrelas, três bolas pretas e duas bolas brancas. Exemplo: Qual a probabilidade de retirarmos uma bola branca na primeira retirada ou uma bola com estrelas na segunda retirada (com reposição)? Tendo a fórmula: Colocando os dados na fórmula, temos: Resposta: A probabilidade de ao retirarmos uma bola branca na primeira retirada ou uma bola com estrelas na segunda retirada (com reposição), é de 70%. TEMA 4 – PROBABILIDADECONJUNTA 4.1 Distribuição conjunta Em Estatística é possível realizar uma associação de eventos com suas probabilidades. A primeira associação que vamos ver é a distribuição conjunta. Os alunos e alunas do Curso de Serviço Social frequentemente se depararão com algumas das questões de probabilidade conjunta em suas atividades ou diagnósticos da realidade. Vamos a um exemplo: Quadro 1 – Representação dos movimentos sociais nos principais bairros da cidade Movimento Social Bairro Um Bairro Dois Bairro Três Total Movimento Social A Movimento Social B Movimento Social C 52 36 42 38 34 28 30 40 60 120 110 130 Total 130 100 120 360 7 Diante do quadro de representações dos movimentos sociais nos principais bairros da cidade, ao escolhermos um representante desses movimentos para participar de uma comissão municipal, que discutirá as políticas sociais, envolvendo os três bairros da cidade, pergunta-se: a. Qual a probabilidade de que o representante escolhido seja do Bairro Um? Resposta: a probabilidade de que o representante escolhido seja do Bairro Um é de 36,11%. b. Qual a probabilidade de que o representante escolhido seja do Bairro Um e do Movimento Social A? Resposta: a probabilidade de que o representante escolhido seja do Bairro Um e do Movimento Social A é de 14,44%. 4.2 Distribuição normal ou curva normal Quando observamos na rua uma pessoa acima da estatura das demais, com 2,24 m, percebemos que ela está fora dos padrões da altura das demais pessoas do país. Sempre que comparamos estatura, peso, salários e outras variáveis, estamos falando de distribuição normal. A distribuição normal, apesar da variedade das frequências dos eventos, tem uma representação gráfica em formato de sino. Ela é conhecida também como curva normal ou curva de Gauss, fundamental nas análises estatísticas. Foi batizada como curva de Gauss, em homenagem ao matemático alemão Carl Friedrich Gauss (1777-1855). Ela tem propriedades fundamentais na análise estatística, sua forma simétrica apresenta um traçado a partir do seu ponto máximo até o eixo x, coincidindo com a média ( ) das distribuições dos valores, podendo também coincidir com a moda e a mediana. Muitas das variáveis socioeconômicas correspondem à distribuição normal ou dela se aproximam. A curva normal aproxima-se do eixo das abscissas sem, contudo, alcançá-lo. 8 A curva é simétrica em torno da , dessa forma a probabilidade de ocorrer valor maior do que a média é a mesma de ocorrer valor menor do que a média, assim, as duas probabilidades são iguais a 0,5. Então: P(X> ) = 0,5 É importante lembrar, que o objetivo principal de qualquer pesquisador é alcançar os resultados possíveis dentro de uma análise probabilística. Nesse sentido, busca-se encontrar resultados para uma variável aleatória, dentro de determinado intervalo. Esse intervalo pode ser o do Desvio-Padrão (já estudado nas aulas anteriores). 4.3 Distribuição normal ou curva normal com interpretação do desvio Os valores apresentados no eixo horizontal, ou eixo x na Curva Normal, estão relacionados às variáveis como estatura, atendimentos de pessoas com problemas de desnutrição nos postos de saúde, quantidade de pessoas atendidas que ganham menos de um salário mínimo, só para citar alguns exemplos. No eixo y (eixo das ordenadas), são relacionadas as frequências com que cada variável estudada foi encontrada. Quando tomamos um intervalo qualquer do gráfico, como de $987 a $990, por exemplo, podemos associar a área contida sob a curva determinada por esse intervalo com a probabilidade de um certo elemento ser sorteado ao acaso dentro da população e apresentar a característica estudada dentro do intervalo considerado. Dessa forma, conforme mostra a figura a seguir, se uma parte das famílias atendidas recebe entre $ 987 e $990, torna-se possível identificar, inclusive, a proporção dessas pessoas em relação às demais. Na figura anterior, a área marcada corresponde à probabilidade de que uma família sorteada esteja entre as que ganham entre $987 a $990. Para 9 sabermos quantos por cento do total da população estão entre os que recebem esses valores, necessitamos observar a curva normal. Fazendo essa observação, fica difícil de errar, levando em conta que a área total sob a curva é de 100%. Para tanto, é fundamental conhecermos os valores atribuídos ao desvio-padrão. Com base no desvio-padrão, pode-se medir, sob a curva normal, intervalos medidos em frações de desvios-padrão da população estudada. Isso demonstrará que essas frações sempre corresponderão a um mesmo percentual da área total, independentemente do valor do desvio. Sabe-se, por exemplo, que, entre o valor mais alto da média e um desvio- padrão à direita ou à esquerda, em qualquer curva normal, sempre há o mesmo percentual da área total, neste caso 34,13%. Da mesma maneira, se caminharmos um pouco mais, chegando a dois desvios à direita ou à esquerda, teremos 47,72% da área total. Utilizando esse princípio, podemos conhecer a probabilidade de que um elemento tomado ao acaso tenha um valor localizado em qualquer um desses intervalos. Por exemplo, suponhamos, no caso das pessoas com ganhos entre $987 a $990, que a média ( ) seja de $985, e o desvio-padrão ( ) $5,50. Ao analisarmos os valores que estão entre $985,00 e $990,50, na disposição da Curva Normal, veremos que eles representam 34,13% da população ( ). Se ampliarmos um desvio-padrão à esquerda e um desvio-padrão à direita da média, teremos um intervalo de valores entre $979,50 e $990,50. Na curva, observaremos que esse intervalo, em que se localizam tais valores, representa 68,27% da população. Se buscarmos os valores entre $990,50 e $996,00, teremos 13,59% da amostra (47,72% - 34,13%). Isso, pode ser observado na curva simétrica, dividida em intervalos de desvios-padrão inteiros, conforme demonstra a figura a seguir: Existe também a possibilidade de calcularmos diretamente um intervalo de valores dentro da curva normal, lembrando para isso, de que X é uma variável aleatória com distribuição normal de média ( ) e desvio-padrão ( ), então a 10 variável, tem distribuição reduzida, isto é, tem distribuição normal de média 0 e desvio-padrão 1. TEMA 5 – CORRELAÇÃO LINEAR Nos capítulos anteriores, estudamos os valores distribuídos apenas por meio de uma variável. Dessa forma, aprendemos a calcular a média, a moda a mediana, agora vamos aprender a relacionar as variáveis entre si e a verificar o grau de dependência uma da outra, ou seja, verificar o quanto uma variável interfere no comportamento da outra. Por exemplo: horas de trabalho e salário, preço dos aluguéis e tamanho dos imóveis em m², temperatura ambiente e consumo de água, número de crianças em idade escolar e escolas, etc. Essa relação que uma variável tem com outra variável é denominada de correlação. A co + relação representa a importância e influência que uma variável possui em relação a outra e, também, o grau de dependência que garante essa correlação. Pode haver também variações que se assemelham entre variáveis, porém podem não ter correlação entre elas. Quando ocorre a correlação do tipo linear, é porque existe uma tendência de que os pontos no diagrama de dispersão estejam distribuídos em torno de uma reta. Essa relação pode ser medida por meio de um índice denominado de coeficiente de correlação linear. 5.1 Coeficiente de correlação linear O coeficiente de correlação linear é um número que mede o grau de correlação existente entre duas variáveis, dispostas em diagramas de dispersão, em que os valores de uma variável são apresentados no eixo das abcissas (vertical) e o de outra no eixo das ordenadas (horizontal), e que apresenta (conforme quadro a seguir) as seguintes propriedades: 11 Quadro 1 – Quadro de variaçãoda correlação linear Grau de correlação Valor de rxy Positiva perfeita + 1,00 Positiva forte + 0,75 Positiva média + 0,50 Positiva fraca + 0,25 Sem correlação 0,00 Negativa fraca - 0,25 Negativa média - 0,50 Negativa forte - 0,75 Negativa perfeita - 1,00 Os diagramas de dispersão podem nos fornecer informações que nos indicam o comportamento das variáveis e suas correlações. Veja os diagramas a seguir: 5.2 Correlação positiva entre as variáveis no diagrama de dispersão A denominação “coeficiente de correlação linear” foi criada pelo britânico Francis Ysidro Edgeworth, mas foi Karl Person (1857-1936) quem desenvolveu a fórmula para calcular essa correlação (r) existente entre x e y . Para chegar à fórmula, Pearson demonstrou ser necessário o cálculo das seguintes quantidades: . Após o cálculo dessas, para obtermos o coeficiente de correlação linear de Pearson (rxy), basta dispormos os dados na fórmula: Essa fórmula do coeficiente de correlação linear estabelece um coeficiente que indica a intensidade da correlação entre duas variáveis e, também, se este é negativo ou positivo. 12 NA PRÁTICA Observando o quadro a seguir, os alunos e alunas do curso de Serviço Social frequentemente se depararão com algumas das questões de probabilidade conjunta em suas atividades ou diagnósticos da realidade. Vamos a um exemplo: Quadro 1 – Representação dos votos válidos atribuídos nas eleições municipais aos candidatos a prefeito nas três zonas eleitorais da cidade Candidato a prefeito Zona Um Zona Dois Zona Três Total Candidato A Candidato B Candidato C 5.200 3.600 4.200 3.800 3.450 2.880 3.051 4.023 6.106 12.051 11.073 13.186 Total 13.000 10.130 13.180 36.310 Diante do quadro de representações dos votos válidos dos candidatos nas eleições municipais nas três zonas eleitorais da cidade, pergunta-se: a. Quantos por cento dos votos o candidato vencedor obteve sua vitória nas eleições? b. Qual a probabilidade de que ao se escolher um eleitor qualquer na cidade, ele ser da Zona Um e ter votado no candidato vencedor? c. Qual a probabilidade de se escolhermos um eleitor qualquer, ele ter voltado no candidato B e ser da Zona Dois? d. Qual a probabilidade de escolhermos um candidato qualquer, ele ser da Zona Três e não ter votado no candidato A e nem no B? FINALIZANDO Nesta aula você aprendeu que o estudo das probabilidades surgiu por volta do século XV, com base em análises de jogos de carta, dados e outros similares, mais conhecidos como jogos de azar. Descobriu que vários foram os autores que contribuíram para que o uso dos estudos probabilísticos passasse a ser utilizado como instrumento de análise e inferências em diversas ciências, inclusive nas ciências humanas. Estudou sobre os eventos independentes e que a realização ou não realização de um dos eventos não afeta a probabilidade da realização de outro. Viu que a distribuição normal ou curva normal apresenta 13 uma variedade de frequências e que a distribuição binomial tem esse nome porque se baseia no de desenvolvimento de um binômio que é o binômio de Newton. Também estudou que a curva normal ou curva de Gauss tem sua representação gráfica em formato de sino e é fundamental nas análises estatísticas. Aprendeu ainda que, o coeficiente de correlação linear é um número que mede o grau de correlação existente entre duas variáveis, dispostas em diagramas de dispersão, em que os valores de uma variável são apresentados no eixo das abcissas (vertical) e o de outra no eixo das ordenadas (horizontal). 14 REFERÊNCIAS BOBBIO, N.; MATTEUCCI, N.; PASQUINO, G. Dicionário de política. Brasília: Ed. UnB, 2010. BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. São Paulo: Saraiva, 2002. CASTANHEIRA, N. P. Estatística aplicada a todos os níveis. Curitiba: InterSaberes, 2012. CRESPO, A. A. Estatística fácil. São Paulo: Saraiva, 2009. PINHEIRO, I. et al. Estatística básica: a arte de trabalhar com dados. Rio de Janeiro: Elselvier, 2009. SANDRONI, P. Dicionário de economia do século XXI. São Paulo: Saraiva, 2006.