Prévia do material em texto
�
UNIVERSIDADE DO VALE DO RIO DOS SINOS
Ciências Exatas e Tecnológicas
ESTATÍSTICA APLICADA À PSICOLOGIA
Profª Simone Soares Echeveste
secheveste@unisinos.br
�
ESTATÍSTICA: INTRODUÇÃO
E
Existe um consenso por parte dos estudiosos de várias áreas que há uma grande demanda na sociedade atual por um cidadão que compreenda estatística, que seja capaz de consumir e pensar criticamente sobre as informações diárias que recebe, exercendo boas decisões baseadas nestas informações.
Há uma concordância geral na concepção de que o estudo de estatística merece um extenso estudo devido à relevância para a sociedade contemporânea de atividades de coletar, representar e processar dados, este fato pode ser considerado como uma conseqüência do crescimento do uso de métodos estatísticos na realização de predições.
A Estatística hoje se configura como uma das ciências que mais vem crescendo em termos de utilização e importância. Diariamente somos “soterrados” por informações estatísticas: são estatísticas da saúde, estatísticas da segurança, estatísticas da educação, etc., não há como qualquer cidadão fugir de tanta informação. A quantidade enorme de dados é o que caracteriza o mundo atual, cada vez mais necessitamos de informações, saber como obtê-las e como entendê-las é fundamental para qualquer indivíduo, pois este deve ser capaz de fazer uma análise crítica dos dados possibilitando uma tomada de decisões mais consciente.
A relevância e as justificativas para o estudo da estatística são inúmeras, o que agora, neste momento, entra em debate são as questões referentes as quais habilidades e competências estatísticas que devem ser trabalhadas com os alunos. Esta competência estatística se refere ao conhecimento básico do raciocínio e do propósito da estatística. Um cidadão "estatisticamente competente" seria aquele que possui a habilidade para interagir como uma pessoa "educada" na atual era da informação. Esta competência estatística pode também ser definida como a habilidade para compreender e avaliar criticamente resultados estatísticos que permeiam nossas vidas diárias – junto à habilidade para reconhecer a contribuição que o pensamento estatístico pode trazer para as decisões públicas e privadas, profissionais e pessoais.
�
CONCEITOS BÁSICOS DE ESTATÍSTICA
Sempre que falamos em Estatística estamos inseridos no contexto de uma pesquisa. As pesquisas podem ser classificadas em duas grandes abordagens conforme demonstra a figura a seguir:
Uma pesquisa é composta por quatro etapas distintas. Destas etapas nas três últimas (planejamento, execução e comunicação dos resultados) a estatística surge como uma importante ferramenta de suporte para o pesquisador.
Na etapa Planejamento da pesquisa, a estatística tem importante participação na determinação do tamanho da amostra a ser estudada, na escolha do procedimento/processo de amostragem que deve ser utilizado para a coleta de dados, bem como na elaboração do instrumento de coleta e no estabelecimento do tipo de variáveis a serem pesquisadas.
No momento da Execução da pesquisa, a estatística é imprescindível, pois fornece as ferramentas necessárias para a análise dos dados e para a obtenção de conclusões sobre o objeto de estudo.
Na Comunicação dos resultados, a estatística auxilia a construção de tabelas e gráficos facilitando a apresentação dos principais resultados obtidos.
Todas estas etapas são importantes de serem realizadas e fazem parte da elaboração de uma pesquisa científica que procure ser o mais fidedigna possível. O conhecimento destas etapas também é importante para o julgamento da adequacidade de pesquisas realizadas por terceiros, ou seja, quando nos é apresentado oralmente ou através de artigos resultados de uma pesquisa precisamos ter um conhecimento mínimo do processo científico para que sejamos capazes de criticar e entender os resultados obtidos.
O que é Estatística?
A palavra estatística surge da expressão em Latim statisticum collegium palestra sobre os assuntos do Estado, de onde surgiu a palavra em língua italiana statista, que significa "homem de estado", ou político, e a palavra alemã Statistik, designando a análise de dados sobre o Estado. A palavra adquiriu um significado de coleta e classificação de dados, no início do século 19.
A seguir serão apresentadas algumas definições de Estatística:
"A estatística é uma ciência que estuda e pesquisa sobre: o levantamento de dados com a máxima quantidade de informação possível para um dado custo; o processamento de dados para a quantificação da quantidade de incerteza existente na resposta para um determinado problema; a tomada de decisões sob condições de incerteza, sob o menor risco possível. Finalmente, a estatística tem sido utilizada na pesquisa científica, para a otimização de recursos econômicos, para o aumento da qualidade e produtividade, na otimização em análise de decisões, em questões judiciais, previsões e em muitas outras áreas". Rao (1999)
"A Estatística está presente em todas as áreas da ciência que envolvam a coleta e análise de dados e sua conseqüente transformação em informação, para postular, refutar ou validar hipóteses científicas sobre um fenômeno observável. Sendo assim, a Estatística pode ser pensada como a ciência de aprendizagem a partir de dados. Em linhas gerais, podemos dizer que a Estatística fornece técnicas e métodos de análise de dados que auxiliam o processo de tomada de decisão nos mais variados problemas onde existe incerteza. Em função disto, fica evidente que os métodos estatísticos podem ser empregados em praticamente todas as áreas do conhecimento, sempre que estiver envolvida a coleta ou análise de dados."
Estatística Descritiva e Inferencial
A Estatística, pode ser dividida em duas áreas: Descritiva e Inferencial. A área descritiva é mais simples, contemplando ferramentas de organização de dados e síntese de informação. A área Inferencial, por sua vez, permite ao pesquisador projetar resultados amostrais para populações, bem como testar hipóteses concernentes a parâmetros populacionais. Inferência estatística é o processo pelo qual estatísticos tiram conclusões acerca da população usando informação de uma amostra. A Estatística Inferencial está baseada em dois pilares fundamentais: a Amostragem e a Probabilidade.
Qual é o papel da estatística na ciência?
De acordo com Silvia E. Shimakura o papel da estatística na ciência poderia ser descrito através dos seguintes tópicos:
Na ciência, são realizados estudos experimentais ou observacionais, levando à coleção de dados numéricos.
O propósito da investigação é responder uma questão científica.
O padrão de variação nos dados faz com que a resposta não seja óbvia.
Em geral, a disciplina de estatística refere-se a métodos para coleta e descrição dos dados, e então a verificação da força da evidência nos dados pró ou contra as idéias científicas. A presença de uma variação não previsível nos dados faz disso uma tarefa pouco trivial.
População e Amostra
Variável
As variáveis podem ser classificadas em:
Variáveis Quantitativas: são as características que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numéricos/quantidades. Podem ser contínuas ou discretas.
Variáveis Quantitativas discretas: características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros. Exemplos: número de filhos, número de bactérias por litro de leite, números de erros de ortografia, etc.
Variáveis Quantitativascontínuas: características mensuráveis que assumem valores em uma escala para as quais valores fracionais fazem sentido. Exemplos: peso , altura, pressão atmosférica, etc.
Variáveis Qualitativas (ou categóricas): são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais.
Variáveis Qualitativas nominais: não existe ordenação dentre as categorias. Exemplos: sexo, estado civil, nacionalidade, etc.
Variáveis Qualitativas ordinais: existe uma ordenação entre as categorias. Exemplos: escolaridade (1o, 2o, 3o graus), grau de importância (nenhuma, pouca, razoável, muito), etc.
�
ATIVIDADE: Considere a situação de pesquisa abaixo identifique: população, amostra, variáveis e classificação das variáveis:
Uma pesquisa foi realizada com filhos de pais separados em grandes escolas da região metropolitana de Porto Alegre. Foram selecionados para fazer parte da pesquisa 400 alunos, todos filhos de pais separados, e algumas questões foram observadas como desempenho escolar (notas nas disciplinas), ocorrência de repetência escolar e grau de satisfação com o relacionamento com seus pais (muito satisfeito, satisfeito, etc.)
População:....................................................................................................................................
Amostra:.........................................................................................................................................
Variável 1: ......................................................................................................................................
Classificação:.................................................................................................................................
Variável 2: .....................................................................................................................................
Classificação: ................................................................................................................................
Variável 3: .....................................................................................................................................
Classificação: ................................................................................................................................
�
ESTATÍSTICA
DESCRITIVA
�
APRESENTAÇÃO DE DADOS – TABELAS E GRÁFICOS
Tabelas de freqüência e gráficos estatísticos são encontradas em jornais informativos (Zero Hora, Correio do Povo, etc.), relatórios técnicos, monografias, dissertações, teses e revistas científicas. As tabelas de freqüência simples apresentam de forma concisa o número de ocorrências (absoluta e relativa) dos valores de uma variável
Tabelas de Frequencia
A tabela de frequências é uma forma de representação da frequência de cada valor distinto da variável. As tabelas de frequência ou distribuições de frequências, resumem a informação contida na amostra, ordenando os seus valores e agrupando-os em classes de valores repetidos ou de valores distribuídos por intervalos
�
ATIVIDADE PRÁTICA!
Exercício 1: Vamos trabalhar agora com um banco de dados referentes a uma pesquisa sobre o perfil de 25 alunos da Unisinos:
Banco de dados: Pesquisa sobre perfil dos alunos Unisinos
Nome
Idade
Sexo
Curso
Atua na área de seu curso
Nº horas/semana que se dedica aos estudos
Márcia
24
F
ADM
Não
2
Pedro
35
M
ENG
Sim
3
José
21
M
ENG
Não
0
Maria
19
F
ECO
Sim
4
Valéria
18
F
MAT
Não
1
Marcos
28
M
ADM
Sim
3
Marcelo
32
M
MAT
Sim
3
Cíntia
45
F
LET
Sim
5
Alessandra
26
F
ENG
Não
7
André
33
M
MAT
Não
4
Luiz
25
M
ENG
Sim
6
Marília
24
F
PSICO
Não
2
Paulo
35
M
LET
Sim
3
Ricardo
22
M
ADM
Não
10
Maria José
26
F
ENG
Sim
4
Vanessa
20
F
INF
Não
6
Marco
45
M
ADM
Sim
3
Maurício
42
M
ADM
Sim
3
Carla
45
F
PSICO
Sim
5
Andressa
31
F
INF
Não
3
Alex
26
M
ENG
Não
3
Luiz Carlos
25
M
FISICA
Sim
5
Márcia
21
F
FARM
Não
3
Mirelle
37
F
ECO
Não
3
Sandra
26
F
ENG
Não
5
1º) Classifique as variáveis pesquisadas.
2º) Construa uma tabela para cada variável pesquisada.
Exercício 2: Os dados abaixo representam o número de filhos de 20 mulheres selecionados aleatoriamente:
0
1
2
0
2
3
2
2
2
4
4
0
0
2
3
2
1
0
2
1
Identifique:
Amostra:________________________
Variável:________________________
Construa uma tabela para estes dados e responda:
Qual o percentual de mulheres com no máximo 1 filho?___________________
Quantas mulheres possuem de 2 a 4 filhos?____________________________
Considere que o Governo Federal dará um auxílio especial para as mães que possuem mais que três filhos, qual o percentual de mães que receberá este benefício?____________________
�
Gráficos Estatísticos
A utilização de gráficos como forma de apresentação de dados pode ser justificada através de um ditado popular de que "uma imagem vale mais que 1000 palavras"
Técnicas gráficas são geralmente utilizadas, em vez de tabelas, para descrever um conjunto de dados através de um "desenho". Um gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de reproduzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo. (Crespo, 1996).
A representação gráfica deve ser utilizada levando-se em conta algumas qualidades essenciais básicas para a construção destes:
Simplicidade: as informações contidas em um gráfico devem ser diretas e detalhes secundários devem ser omitidos; Ás vezes na construção de um gráfico o ideal é a forma mais simples e direta de apresentação.
Clareza: as informações devem ser claras possibilitando uma interpretação correta sem dúvidas sobre os resultados;
Veracidade: o gráfico deve expressar a verdade sobre os dados estudados.
De acordo com Levin(1987), enquanto que algumas pessoas parecem "desligar-se" ao serem expostas a informações estatísticas em forma de tabelas, elas podem prestar bastante atenção às mesmas informações apresentadas em forma gráfica. Este fato justifica a grande utilização por parte dos pesquisadores e da mídia escrita e impressa dos gráficos em substituição das tabelas.
�
Gráfico 1. Gráfico de Colunas
O gráfico de colunas é um dos gráficos mais utilizados para representar um conjunto de dados, sendo a representação de uma série de dados através de retângulos dispostos verticalmente. A altura destes retângulos são proporcionais às suas respectivas freqüências. Este gráfico pode ser utilizado para representar qualquer tipo de variável em qualquer nível de mensuração por este fato é um recurso extremamente utilizado em pesquisas.
Gráfico 2. Gráfico de Barras
O gráfico de barras é uma representação de uma série de dados através de retângulos dispostos horizontalmente. Os comprimentos destes retângulos são proporcionais às suas respectivas freqüências. Este gráfico é semelhante ao gráfico de colunas, contudo, a posição da escala e da freqüência é trocada, ou seja, na linha horizontal temos a freqüência de casos observados e na linha vertical temos a variável de estudo.
Gráfico 3. Gráfico de linhas
Este gráfico utiliza-se de uma linha para representar uma série estatística. Seu principal objetivo é evidenciar a tendência ou a forma como o fenômeno está crescendo ou decrescendo através de um período de tempo. Seu traçado deveser realizado considerando o eixo "x" (horizontal) a escala de tempo e o eixo "y" (vertical) freqüência observada dos valores.
Gráfico 4. Gráfico de Setores
O gráfico de setores, também conhecido como: gráfico pizza, torta, queijo ou bolacha é um dos mais simples recursos gráficos, sua construção é baseada no fato de que o círculo possui 360º, sendo que este círculo é dividido em fatias de acordo com o percentual em cada categoria. É um gráfico útil para representar variáveis nominais ou apresentadas em categorias de respostas.
Notícia:
A pesquisa “Panorama Nacional, a Execução das Medidas Socioeducativas de Internação” foi realizada pelo Departamento de Monitoramento e Fiscalização do Sistema Carcerário (DMF) e pelo Departamento de Pesquisas Judiciárias (DPJ). O levantamento foi realizado por uma equipe multidisciplinar que visitou, de julho de 2010 a outubro de 2011, os 320 estabelecimentos de internação existentes no Brasil, para analisar as condições de internação de 17.502 adolescentes que cumprem medidas socioeducativas de restrição de liberdade. Durante estas visitas, a equipe entrevistou 1.898 adolescentes internos. Um dos resultados observados foi o percentual destes jovens que utilizam drogas (Gráfico abaixo)
Analisando esta notícia responda
LISTA DE EXERCÍCIOS
APRESENTAÇÃO DE DADOS
Questão 01. Um estudo realizado com 30 pacientes portadores do Mal de Parkinson, cuja característica consiste na perda de movimentos voluntários e rigidez geral, procurou verificar o tempo necessário de tratamento, em semanas com um fisioterapeuta a fim de recuperar algumas funções de movimento básicas para que este viva no seu ambiente familiar sem assistência de terceiros, ou ainda, com o mínimo de assistência. Os resultados obtidos estão relacionados abaixo:
4
6
2
3
8
9
10
3
5
6
7
4
4
3
8
9
10
9
8
6
5
4
3
8
9
7
6
3
2
7
Quem é a variável de estudo? Classifique-a . Quem é a população desta pesquisa? Quem foi a amostra estudada?
Construa uma tabela para estes dados considerando 4 classes (faixas de valores).
Quantos pacientes levaram no mínimo 4 semanas para se recuperarem?
Qual a porcentagem de pacientes que levaram 6 semanas ou mais para se recuperarem?
Questão 02. A tabela abaixo representa os casos registrados de intoxicação humana, segundo a causa determinante:
Causas de intoxicação humana
Causa
Frequência
%
Acidente
29601
Abuso
2604
Suicídio
7965
Profissional
3735
Outras
1959
Ignorada
1103
Fonte: MS/FIOCRUZ
Quem é a variável de estudo? Classifique-a
Qual o percentual de casos que apresentaram intoxicação devido a causas profissionais?
Qual o percentual de casos que não foram devidos ao suicídio?
Qual o percentual de casos que foram devido a outras causas ou causas ignoradas?
Questão 03. Ao estudar 15 crianças de 5 a 7 anos em relação à quantidade de horas que estas gastam assistindo TV por dia, observou-se os seguintes resultados:
4
6
4
2
3
4
5
6
2
4
6
3
4
3
4
Quem é a variável de estudo? Classifique-a Quem foi a amostra pesquisada?
Construa uma tabela para estes dados (não é necessário o agrupamento por classes).
Quantas crianças gastam mais de 4 horas diárias assistindo TV?
Qual o percentual de crianças que assistem no máximo 3 horas diárias de TV?
Questão 04 Um novo tratamento vem sendo testado por um grupo de psicólogos visando a amenização dos efeitos da depressão pós-parto. Para isso, selecionou-se uma amostra de 30 mães que apresentaram depressão pós-parto e através de seções de terapia, observou-se o tempo que cada uma levou (semanas) para apresentar melhoras no seu nível de depressão:
10
8
8
4
6
8
6
5
5
4
10
6
6
7
8
6
4
4
4
5
5
6
6
4
5
6
10
8
8
7
Quem é a variável de estudo? Classifique-a
Quem foi a amostra pesquisada?
Construa uma tabela para estes dados (não é necessário o agrupamento por classes).
Qual a percentagem de mães que levaram no máximo 6 semanas para apresentar melhoras?
Questão 05 Para as questões a seguir, interprete corretamente a tabela e marque a alternativa correta para cada uma das perguntas:
Tabela 1
Idade (meses) que a criança falou a primeira palavra
Idade (meses)
Nº crianças
%
10 a 15
30
60,0
16 a 20
15
30,0
21 a 25
5
10,0
Total
50
100
O percentual de crianças que falaram sua primeira palavra com no mínimo 16 meses é:
a ( ) 60% b ( ) 40% c ( ) 30% d ( ) 15 crianças e ( ) 90%
Assinale a alternativa CORRETA nas afirmações abaixo:
( ) A variável de estudo é a Idade (meses) que a criança falou a primeira palavra, ela é qualitativa
( ) A variável de estudo é 50 crianças, ela é quantitativa
( ) A variável de estudo é a Idade (meses) que a criança falou a primeira palavra, ela é quantitativa
( ) A amostra de estudo é as idades das crianças
( ) A amostra de estudo são crianças que falam
�
GABARITO
Questão 1
Variável: tempo de tratamento até a recuperação de algumas funções de movimento básicas- variável quantitativa
População: Portadores do Mal de Parkinson
Amostra: 30 Portadores do Mal de Parkinson
Tempo de Tratamento
Tempo (semanas)
Nº Pacientes
%
2 a 3
7
23,3
4 a 5
6
20,0
6 a 7
7
23,3
8 a 10
10
33,4
Total
30
100
c) 23 pacientes d) 56,7%
Questão 2
Causas de intoxicação humana – Variável qualitativa
7,95%
83,04%
6,52%
Questão 3
Variável: quantidade de horas que assistem TV por dia – variável quantitativa
Amostra: 15 crianças de 5 a 7 anos
b) Quantidade de horas que assistem TV por dia
Nº Horas
Frequencia
%
2
2
13,3
3
3
20,0
4
6
40,0
5
1
6,7
6
3
20,0
Total
15
100
c) 4 crianças d) 33,3%
Questão 4
Variável: tempo que cada mãe levou para apresentar melhoras no seu nível de depressão – variável quantitativa
Amostra: 30 mães que apresentaram depressão pós-parto
c) Tempo que cada mãe levou para apresentar melhoras no seu nível de depressão
Tempo (semanas)
Frequencia
%
4
6
20,0
5
5
16,7
6
8
26,7
7
2
6,7
8
6
20,0
10
3
10,0
Total
30
100
63,4%
Questão 5
- O percentual de crianças que falaram sua primeira palavra com no mínimo 15 meses é 40%
- Alternativa correta: A variável de estudo é a Idade (meses) que a criança falou a 1ª palavra – ela é quantitativa.
�
MEDIDAS ESTATÍSTICAS
A análise descritiva dos dados tem por objetivo a descrição dos resultados de uma pesquisa através de tabelas, gráficos e cálculos de algumas medidas estatísticas.
Medidas de Tendência Central:
São indicadores que permitem que se tenha uma primeira idéia, um resumo, de como se distribuem os dados de um experimento. Estas medidas são consideradas formas úteis de descrever um grupo como um todo encontrando um único número que represente todo o conjunto de dados. As medidas de tendência central são: média, mediana e moda.
1. Média
A média aritmética, que se representa por na amostra e por ( na população é uma medida de localização do centro da amostra, e obtém-se a partir da soma de um conjunto de valores, dividida pelo número de valores considerados conforme a seguinte expressão:
onde:
(x= somatório da variável “x”
n = nº de elementos pesquisados, ou ainda o tamanho da amostra
Exemplo:
Os dados abaixo representam os tempos (em anos) de relacionamento de 8 clientes de uma agênciabancária
16 15 17 18 18 17 17 16
Amostra: 8 clientes
Variável: Tempo de relacionamento
Média:
2. Mediana (Md)
Ordenados os elementos da amostra, a mediana é o valor (pertencente ou não à amostra) que a divide ao meio, isto é, metade dos elementos da amostra são menores ou iguais à mediana e a outra metade é maior ou igual à mediana.
Para a sua determinação utiliza-se a seguinte regra, depois de ordenada a amostra de n elementos:
Se n é ímpar, a mediana é o elemento central.
Se n é par, a mediana é a média dos dois elementos centrais.
Exemplo 1: Quando o tamanho da amostra “n” for ímpar
Considere a quantidade de sódio (mg) em 9 marcas distintas de 1 litro de leite integral:
90 92 95 90 95 94 90 90 91
1º Passo: Ordenar os dados em ordem crescente
90 90 90 90 91 92 94 95 95
2º Passo: Encontrar a posição da mediana
Como n=9 é ímpar, o valor central está na posição
Posição da Mediana =
5ª posição
3º Passo: Localizar a mediana
90 90 90 90 91 92 94 95 95
Md = 91 mg
Interpretação: “Metade das marcas de 1 litro de leite integral possuem menos que 91 mg de sódio e metade mais que 91 mg de sódio.”
Exemplo 2: Quando o tamanho da amostra “n” for par
Considere a quantidade de sódio (mg) em 10 marcas distintas de 1 litro de leite integral:
90 92 95 90 95 94 90 90 91 93
1º Passo: Ordenar os dados em ordem crescente
90 90 90 90 91 92 93 94 95 95
2º Passo: Encontrar a posição da mediana
Como n=10 é par, o valor central está na posição
Posição da Mediana =
5ª posição
3º Passo: Localizar a mediana: como “n” é par devemos localizar os dois valores centrais, ou seja, a 5ª e a 6ª posição:
90 90 90 90 91 92 93 94 95 95
Moda (Mo)
A moda é o valor que ocorre com maior freqüência num conjunto de dados, ou seja, o valor mais comum.
Exemplo : Considere as notas finais em Matemática de 10 alunos:
8 7 6 8 7 2 5 7 7 7
Mo= 7 pontos
Interpretação: “A nota em matemática que ocorreu com maior freqüência foi de 7 pontos.”
Observação!
Algumas situações podem ocorrer em relação à moda conforme se destaca abaixo:
Um conjunto de dados pode não possuir moda, ou seja, nenhum valor se repete.
Ex.: 7 8 5 4
Dois valores podem se repetir empatados com as maiores freqüências, neste caso dizemos que a distribuição é Bimodal.
Ex.: 7 7 6 8 8 5
�
Agora faça você....
O departamento de Recursos Humanos de uma grande indústria solicitou um estudo com o objetivo de investigar o número de filhos menores de 18 anos dos operários de uma linha de produção. Para isso selecionou um grupo de 9 operários e verificou os seguintes números de filhos menores de 18 anos:
0
3
2
3
2
1
0
1
2
a) Identifique:
População: ___________________________________________________________
Amostra:_____________________________________________________________
Variável:______________________________________________________________
Calcule e INTERPRETE:
a) Moda
b) Mediana
c) Média
�
Medidas de Variabilidade ou Dispersão
São medidas da variação de um conjunto de dados em torno da média, ou seja, da maior ou menor variabilidade dos resultados obtidos. Elas permitem se identificar até que ponto os resultados se concentram ou não ao redor da tendência central de um conjunto de observações.
A média é extremamente útil como uma medida que objetiva representar/resumir um conjunto de dados, mas também é imprescindível ao pesquisador ter conhecimento da variação que ocorre em torno desta média. Para isso o cálculo das medidas de variabilidade contribui para uma melhor interpretação do comportamento de uma variável quantitativa (sua média e sua variação).
1. Variância
A variância é representada na população pelo símbolo
e na amostra pelo símbolo
. Quanto maior for a variação dos valores do conjunto de dados, maior será a variância. A variância de uma amostra é a média dos quadrados dos desvios dos valores em relação à média.
População Amostra
No cálculo da variância pode-se observar que a unidade da variável estudada é levada ao quadrado, dificultando assim, a interpretação de seu resultado final. A solução para este problema é extrair a raiz quadrada da variância, permitindo assim que se volte à unidade original da variável. Essa nova medida (a raiz quadrada da variância) é chamada de desvio-padrão.
2. Desvio-padrão
O desvio-padrão é a raiz quadrada da variância. Esta medida expressa a variação média do conjunto de dados em torno da média, para mais ou para menos, pode ser calculado considerando as seguintes etapas:
1ª) Calcular a média
2ª) Subtrair a média de cada valor do conjunto (desvio)
3ª) Elevar ao quadrado cada desvio
4ª) Somar os quadrados dos desvios
5ª) Dividir esta soma por (n-1)
6ª) Tirar a raiz quadrada
Exemplo: Os dados abaixo se referem à quantidade de erros de ortografia de 5 redações
8 10 5 8 8
Amostra: 5 vestibulandos
Variável: quantidade de erros de ortografia
Média:
Interpretação: Em média os vestibulandos cometeram 7,8 erros de ortografia em suas redações.
Desvio-padrão:
Interpretação: Existe uma variação em torno da média de 1,8 erros de ortografia.
3. Coeficiente de Variação (CV)
O CV é a razão entre o desvio-padrão e a média de um conjunto de dados. Ele expressa a variação relativa (%) presente no conjunto de dados em relação à média.
População Amostra
Quanto maior o CV, mais heterogêneos serão os dados.
Agora faça você....
1) A obesidade, já encarada em todo o mundo como epidemia, é �� INCLUDEPICTURE "http://t1.gstatic.com/images?q=tbn:ANd9GcQcTtDDPwXrzjCmgzdLzQMsa_b4B9xhxRbrpSi8md6PBrmp4g4&t=1&usg=__NAISBbFmBJML7sWFaxaW7IiYoaQ=" \* MERGEFORMATINET gerada pela interação entre fatores genéticos, culturais e Psicológicos. De acordo com alguns autores da psicologia, mecanismos psíquicos de fixação oral, regressão oral e supervalorização dos alimentos são de grande impacto na forma como as pessoas desenvolvem hábitos alimentares. É comum, por exemplo, que uma história passada de depreciação da imagem corporal e insuficiente condicionamento primitivo do controle do apetite leve aos transtornos alimentares, tais como a bulimia, a anorexia e também a obesidade. Os dados abaixo fazem parte de uma pesquisa da Organização da Cooperação e do Desenvolvimento Econômico, e mostram o percentual de obesos em alguns países:
Considerando os dados acima apresentados, identifique:
Variável de estudo:_______________________________________________________
Classificação desta variável:________________________________________________
Amostra de estudo:_______________________________________________________
Calcule e interprete para estes dados:
Mediana
Moda
Média
Desvio-padrão
�
2) A BALADA SEGURA é uma operação de fiscalização e educativa, baseada em lei estadual, que acontece de forma continuada, nas noites e madrugadas de quarta a domingo. Tem como objetivo informar, mobilizar, engajar, prevenir, educar e fiscalizar a combinação mortal de álcool e direção. Uma equipe de pesquisadores participou em uma destas operações para verificar o perfil dos motoristas que foram autuados por embriaguês. Neste dia houve 5 autuações e uma das variáveis investigadas foi o resultado obtido no teste do bafômetro (em mg de álcool por litro de ar soprado).
0,5 mg/l
0,2 mg/l
0,2 mg/l
0,3 mg/l
0,2 mg/l
a) Identifique:
Amostra ______________________________________________________________________
Variável _______________________________________________________________________
Obtenha e interpretea Mediana para estes dados
c) Obtenha e interprete a Média e o Desvio-padrão para estes dados – UTILIZE 2 CASAS APÓS A VÍRGULA PARA ESTES CÁLCULOS.
�
LISTA DE EXERCÍCIOS
ANÁLISE DESCRITIVA
Questão 1. Uma amostra de 6 crianças vítimas de abuso sexual foi estudada, observando a idade em que estas crianças sofreram o abuso:
Maria
Cristina
Daiane
Carla
Patrícia
Tatiana
12 anos
12 anos
16 anos
11 anos
15 anos
9 anos
Identifique:
População de estudo:
Amostra estudada:
Variável de pesquisa:
Calcule e interprete:
Média
Mediana
Desvio-padrão
Questão 2. “O termo esquizofrenia (esquizo = cisão, frenia = mente) foi introduzido em 1911 pelo psiquiatra suíço Eugen Bleuler para definir uma doença psíquica caracterizada, basicamente, pela "cisão do pensamento, do afeto, da vontade e do sentimento subjetivo da personalidade". Os sintomas da esquizofrenia são classificados como produtivos e negativos. Os sintomas produtivos mais característicos são o delírio e as alucinações. Na esquizofrenia, as alucinações auditivas são as mais freqüentes: o paciente escuta vozes de pessoas ausentes, que comentam sobre seu comportamento ou lhe dão ordens imperativas, às quais ele não consegue resistir. O paciente passa a sentir-se influenciado por outros, perde o controle de sua própria vontade, sente-se controlado por telepatia, por hipnose, "como um robô". Pode também interpretar delirantemente estímulos reais, como por exemplo, achar que uma determinada notícia na televisão ou no rádio refere-se à sua pessoa. Os sintomas negativos caracterizam-se, principalmente, por uma diminuição da afetividade e por um empobrecimento do conteúdo do pensamento Na população geral, o risco de um indivíduo adoecer de uma esquizofrenia durante a vida é de 1%. A prevalência da doença (freqüência em determinado ponto no tempo) é de 0,5%, e a incidência é de 30 novos adoecimentos em cada 100.000 habitantes por ano.”
Um pesquisador interessado em estudar o perfil de pacientes esquizofrênicos observou em um grupo de 250 pacientes a Idade em que estes apresentaram os primeiros sintomas da esquizofrenia. Os resultados foram:
Idade do Início dos Sintomas
Idade
Nº casos
%
19
10
20
42
22
90
25
80
27
18
30
10
Total
250
Identifique:
População de estudo:
Amostra estudada:
Variável de pesquisa:
Calcule e interprete:
Média
Mediana
Desvio-padrão
Responda:
Qual o percentual de pacientes que apresentaram sintomas com menos de 25 anos?
Qual o percentual de pacientes que apresentaram sintomas com no mínimo 27 anos?
Questão 3. Segundo alguns estudos realizados, crianças com problemas perceptivos aumentam seus rendimentos com treinamento adequado. Com o objetivo de verificar se isto realmente ocorre, um investigador selecionou uma amostra de 8 crianças com problemas perceptivos e aplicou o teste de Raven para medir a percepção. Depois submeteu as mesmas crianças a 2 meses de treinamento e aplicou novamente o teste para obter novos escores. Os resultados obtidos foram:
Criança
João
Maria
Carlos
Márcia
Pedro
Paulo
Bruno
Ana
Antes Treinamento:
70
72
80
75
77
80
74
81
Após Treinamento:
74
73
84
75
84
95
88
86
Quem é a variável de estudo?
Quem é a amostra estudada?
Calcule e interprete a média, mediana e o desvio-padrão para cada um dos grupos estudados.
Qual grupo apresentou resultados mais homogêneos? Justifique sua resposta.
Sabendo que quanto maior for o escore, maior é a capacidade de percepção da criança, conclua descritivamente sobre os resultados obtidos através das médias calculadas.
Questão 4. Um órgão de saúde realizou uma pesquisa para verificar a tendência à hipocondria de pacientes de uma determinada clínica. Para isso, 35 pacientes foram entrevistados e questionados sobre a quantidade de medicamentos diferentes que adquiriram sem receita médica em farmácias no último semestre, obtendo-se os seguintes resultados:
0
6
5
0
5
2
5
2
0
2
4
2
3
4
0
2
0
1
5
2
3
1
5
3
0
4
3
0
2
2
6
3
1
5
3
Quem é a variável de estudo?
Quem é a amostra estudada?
Construa uma tabela para estes dados.
Calcule e interprete a média e o desvio-padrão para estes dados.
Quantas pessoas consomem no mínimo 2 medicamentos sem receita?
Qual a porcentagem de pessoas que não adquirem medicamentos sem receita?
Questão 5. A tabela abaixo representa a Idade ( anos) do início do tabagismo (ato de fumar) de uma amostra de 337 homens:
INÍCIO DO TABAGISMO
Idade
Nº Homens
%
12
23
13
42
14
54
15
123
18
45
20
50
Total
337
Fonte: Instituto de Pesquisas do Câncer
a) Complete a coluna do percentual da tabela.
b) Calcule e interprete a média.
c) Calcule e interprete o desvio-padrão.
d) Qual o percentual de homens que começaram a fumar com no mínimo 18 anos?
Questão 6. Com o objetivo de comparar as idades em que crianças iniciam caminhar (em anos) entre aquelas que frequentam ou não escolinhas, um pesquisador realizou um estudo. Selecionou duas amostras de crianças: uma em escolinhas e outra nas residências destas crianças. Os dados coletados foram:
Grupo 1: Crianças que frequentam escolinha
1,2 1,0 1,0 0,9 1,0
Grupo 2: Crianças que não frequentam escolinha
1,6 1,4 1,2 1,5 1,3
Considerando os dados acima apresentados, complete a seguinte tabela e realize um breve comentário descritivo sobre os resultados observados.
Tabela 1. Estatísticas Descritivas - Comparação descritiva da Idade média que iniciou a caminhar entre os grupos
Grupo
Idade Média
Idade Modal
Idade Mediana
Desvio-padrão
Crianças que frequentam escolinha
Crianças que não frequentam escolinha
Questão 7. A esperança de vida ao nascer, no Brasil, vem experimentando, ao longo dos anos, incrementos paulatinos. Observou-se que os diferenciais entre os sexos também experimentaram aumentos ao longo dos 21 anos de estudo. Em 1980, enquanto as mulheres possuíam uma esperança de vida ao nascer de 66,0 anos, os homens detinham uma esperança de vida de 60 anos, representando uma diferença de 6,0 anos. Vinte e um anos mais tarde, as mulheres, no Brasil, já estariam vivendo 8 anos a mais que os homens (73 anos, para o sexo feminino e 65 anos, para o sexo masculino). No contexto mundial, o Brasil ocupa, segundo a Organização das Nações Unidas, através de sua Divisão de População, a 108a posição no ranking dos 187 países para os quais foram estimadas as esperanças de vida ao nascer, para o período 2000-2005. Apesar dos ganhos recentes, ainda há uma longa trajetória para o Brasil alcançar patamares como o da França (79,0 anos) e o do Japão (81,5 anos). Fonte: IBGE, 2001
Considerando o gráfico apresentado marque V para verdadeiro e F para falso nas seguintes afirmativas:
( ) A variável apresentada neste gráfico é Esperanças de vida ao Nascer por sexo no Brasil – 1980 a 2001, ela é uma variável quantitativa.
( ) A esperança de vida média, neste período, para os homens é de 63,7 anos.
( ) A variável apresentada neste gráfico é o sexo, ela é uma variável qualitativa..
( ) Em relação à 1980, houve um acréscimo em 2001 na esperança de vida dos homens superior ao crescimento na esperança de vida das mulheres.
( ) Poderia ter utilizado um gráfico de linhas para representar estas dados.
( ) A moda para a esperança de vida dos homens é de 64,5 anos
( ) A mediana para a esperança de vida das mulheres é de 72 anos
Questão 8. Preocupada com a questão da gravidez na adolescência, uma pesquisadora realizou uma pesquisa com 12 adolescentes grávidas e, dentreas questões de estudo foi perguntada a idade destas meninas. Os resultados foram:
15
16
14
18
13
16
19
17
17
15
16
17
Identifique:
Variável:...............................................................................................................................
Amostra:...............................................................................................................................
Construa uma tabela para estes dados.
Calcule e interprete a média e o desvio-padrão
Questão 9. A tabela abaixo representa o número irmãos relatados por 153 crianças de uma escola:
Tabela 1. Número de irmãos
Nº irmãos
Nº crianças
%
0
85
55,5
1
20
13,1
2
40
26,1
3
8
5,3
Total
153
100
Calcule e interprete:
Média
Desvio-padrão
Coeficiente de Variação
Assinale a alternativa CORRETA nas afirmações abaixo:
( ) 31,4% das crianças têm pelo menos 2 irmãos
( ) 31,4% das crianças têm no máximo 2 irmãos
( ) 68,6% das crianças têm no mínimo 1 irmão
( ) 105 crianças têm menos que 1 irmãos
�
Questão 10. Considere o seguinte gráfico:
Fonte: IBGE
Através dos dados apresentados no gráfico acima responda:
Qual é a variável deste estudo? Classifique-a
Qual foi a amostra estudada?
Quantas cidades possuem a taxa de mortalidade infantil acima de 20%
Qual o percentual de cidades com a taxa de mortalidade infantil de no máximo 15%
Qual é a taxa de mortalidade infantil média, mediana e modal destas cidades?
Qual é o desvio-padrão desta taxa de mortalidade infantil?
Questão 11. À medida que a infecção pelo HIV dissemina-se pelo mundo, percebe-se que a epidemia não segue a mesma trajetória nas populações, apresentando-se de maneira distinta em cada área geográfica e afetando diferenciados segmentos populacionais em momentos diversos. No Brasil, a epidemia reflete a grandeza e a diversidade sociogeográfica do País e sua marcante heterogeneidade regional, que faz da epidemia brasileira uma soma de micro epidemias regionais. Essas características e o dinamismo deste processo, além de dificultarem as atividades de acompanhamento do curso da epidemia, de prevenção da disseminação do HIV e do planejamento para reduzir o seu impacto, torna indispensável ter um conhecimento mais profundo e preciso sobre a natureza da epidemia pelo HIV em cada região, unidade da federação e município. O gráfico abaixo relata a incidência de casos onde o contágio realizou-se através da transfusão de sangue no período de 1995 a 2002.
Considerando o gráfico apresentado marque V para verdadeiro e F para falso nas seguintes afirmativas:
( ) Em 62,5% dos anos o número de casos registrados foi inferior a 50 casos.
( ) A variável apresentada neste gráfico é incidência de casos de AIDS onde o contágio realizou-se através da transfusão de sangue no período de 1995 a 2002. ela é uma variável quantitativa.
( ) A amostra desta pesquisa são os 8 anos selecionados (1995 a 2002).
( ) A mediana para estes dados é de 21 casos.
( ) A variável apresentada neste gráfico é o tempo de estudo que foi de 1995 a 2002
( ) Poderia ter utilizado um gráfico de colunas para representar estas dados.
( ) A moda para estes dados é de 21 casos.
�
GABARITO
Questão 1
População: crianças vítima de abuso sexual
Amostra: 6 crianças
Variável: Idade em que sofreram o abuso
Calcule e Interprete:
A idade média em que as crianças sofreram abuso foi de 12,5 anos
Metade das crianças sofreram abuso sexual com 12 anos ou menos e metade com 12 anos ou mais
Existe uma variação em torno da média de 2,6 anos
Questão 2 Idade do Início dos Sintomas
Idade
Nº casos
%
19
10
4,0
20
42
16,8
22
90
36,0
25
80
32,0
27
18
7,2
30
10
4,0
Total
250
100
População: pacientes esquizofrênicos
Amostra: 250 pacientes esquizofrênicos
Variável: Idade do início dos sintomas
Calcule e Interprete:
A idade média do início dos sintomas foi de 23,1 anos
Metade dos casos apresentou os primeiros sintomas com 22 anos ou menos e metade com 22 anos ou mais
Existe uma variação em torno da média de 2,6 anos
56,8%
11,2%
Questão 3
Variável: Escore do teste de Raven
Amostra: 8 crianças com problemas perceptivos
Grupo
Média
Mediana
Desvio-padrão
Antes treinamento
76,1 pontos
76 pontos
4,0 pontos
Após treinamento
82,4 pontos
84 pontos
7,8 pontos
Após o treinamento pois apresentou menor desvio-padrão
A média no teste de percepção após o treinamento foi superior à média antes do treinamento o que sugere que o treinamento acarretou uma melhora na percepção das crianças.
Questão 4
Variável: Quantidade de medicamentos adquiridos sem receita médica
Amostra: 35 pacientes
Quantidade de medicamentos adquiridos sem receita médica
Nº Medicamentos
f
%
0
7
20
1
3
8,6
2
8
22,9
3
6
17,1
4
3
8,6
5
6
17,1
6
3
5,7
Total
35
100
A quantidade média de medicamentos adquiridos sem receita é de 2,6 medicamentos com uma variação (desvio-padrão) de 1,9 medicamentos.
25 pessoas
20%
Questão 5
a) INÍCIO DO TABAGISMO
Idade
Nº Homens
%
12
23
6,8
13
42
12,5
14
54
16,0
15
123
35,5
18
45
13,4
20
50
14,8
Total
337
100
Fonte: Instituto de Pesquisas do Câncer
A idade média do início do tabagismo é de 15,5 anos
Existe uma variação em torno da média de 2,4 anos
28,2%
�
Questão 6
Tabela 1. Estatísticas Descritivas - Comparação da Idade média que iniciou a caminhar entre os grupos
Grupo
Idade Média
Idade Modal
Idade Mediana
Desvio-padrão
Crianças que frequentam escolinha
1,02
1,0
1,0
0,11
Crianças que não frequentam escolinha
1,40
Não tem
1,4
0,16
Observa-se que crianças que freqüentam escolinha apresentam um idade em que iniciou a caminhar média inferior às que não freqüentam, ou seja, começam a caminhar mais cedo.
Questão 7
V V F F V F V
Questão 8
a) Variável: Idade
b) Amostra: 12 adolescentes grávidas
c) IDADE DE ADOLESCENTES GRÁVIDAS
Idade
f
%
13
1
8,3
14
1
8,3
15
2
16,7
16
3
25,0
17
3
25,0
18
1
8,3
19
1
8,3
Total
12
100
d) A idade média destas adolescentes é de 16,1 anos com uma variação (desvio-padrão) de 1,7 anos.
Questão 9
O número médio de irmãos é de 0,8 irmãos.
Existe uma variação em torno da média de 1 irmão.
NÃO PRECISA FAZER
31,4% das crianças têm pelo menos 2 irmãos.
Questão 10
Variável: Taxa de mortalidade infantil – quantitativa
Amostra: 16 cidades
4 cidades
6/16*100= 37,5%
Média: 18,2% Mediana: 16,5% Moda: 14%
S=5,10%
Questão 11
V V V F F V F
�
PROBABILIDADE
" A teoria das probabilidades, no fundo, não é mais do que o bom senso traduzido em cálculo; permite calcular com exatidão aquilo que as pessoas sentem por uma espécie de instinto... É notável que tal ciência, que começou nos estudos sobre jogos de azar, tenha alcançado os mais altos níveis do conhecimento humano.” Laplace
As Probabilidades existem há muito tempo, desde 1500-1400 a.C, os Jogos de Azar tornaram-se populares na época dos gregos e romanos, pela mão do Imperador Cláudio, que até em viagem jogava dados. Há quem acredite que o cálculo das probabilidades nasceu com os italianos Paccioli, Cardano, Tartaglia e Galileu. Todos estes matemáticos baseavam o seu estudo na observação de fenômenos aleatórios sobre os quais inferiam baseadosno senso comum, o que consideravam como curiosidades matemáticas.
Tal como qualquer ramo da ciência o estudo das probabilidades começou com o quotidiano, ou seja, com a observação de fenômenos diários e como explicação para muitas situações que ocorriam aleatoriamente. Com o passar do tempo a probabilidade começou a ser tratada como uma questão matemática, e assim foi evoluindo até ao que estudamos hoje em dia.
Em resumo, a Teoria das Probabilidades se apresenta como um estudo teórico de fenômenos envolvendo a incerteza utilizando ferramentas básicas do Cálculo Matemático. Esses fenômenos, conhecidos como aleatórios, estocásticos ou não-determinísticos, são aqueles que a sua repetição, em condições idênticas, produzem resultados diferenciados, isto é, não é possível determinar, com exatidão, qual o seu resultado. Esses fenômenos, na verdade, são predominantes em todas as áreas do conhecimento.
Considerando esse quadro, pode-se perceber que a estatística e a probabilidade foram, por muito tempo, duas áreas distintas do conhecimento. Se algo existe em comum é que ambas se preocupavam com a contagem. A estatística na contagem do certo e a probabilidade na contagem do incerto. Foi exatamente a ousada tentativa da utilização da contagem do incerto, como uma estimativa na contagem do certo, que possibilitou a integração dessas duas áreas.
Nos dias atuais, no entanto, não é mais possível pensar em estatística sem pensar em probabilidade. A probabilidade constitui a base da estatística indutiva, permite tomar decisões e qualificar o erro cometido ao tomar decisões. Ela subsidia o estudo dos fenômenos aleatórios. Essa interdependência porém só vem acontecer no início do século passado através da necessidade de generalização de um estudo sobre cruzamento de várias espécies de plantas feito pelo botânico Fisher. Nessa época surge o que hoje chamamos Inferência Estatística (inferir, como conceito estatístico, significa generalizar).
CONCEITOS BÁSICOS DE PROBABILIDADE
O termo probabilidade se refere ao estudo da aleatoriedade e da incerteza. O que vem a ser um experimento aleatório? De acordo com Morgado et al. (1997), um experimento aleatório é aquele que, se repetido sobre as mesmas condições, não produz necessariamente o mesmo resultado, ou seja, é qualquer ação ou processo cujo resultado está sujeito à incerteza. Este conceito pode ser interpretado da seguinte forma: mesmo que se conheçam todas as variáveis envolvidas em um experimento e se tenha controle sobre elas, o resultado final poderá não ser o mesmo, ainda que o experimento seja repetido sob condições idênticas.
Probabilidade é o ramo da matemática que trata de fenômenos aleatórios. A observação de um fenômeno aleatório por parte do homem é chamada de experimento aleatório.
Características de um experimento aleatório:
1ª) Não se conhece um particular valor do experimento antes dele ser executado, porém podemos descrever todos os possíveis resultados - as possibilidades;
2ª) Quando o experimento é repetido algumas vezes, os resultados ocorrem de uma forma aparentemente acidental. Mas quando o número de repetições aumenta, uma regularidade aparecerá. E esta regularidade que torna possível construir um modelo matemático preciso para analisar o experimento.
Espaço Amostral de um experimento (S):
Para cada experimento o conjunto de todos os resultados possíveis é chamado de Espaço Amostral denotado pela letra S.
Exemplo 1: Considere o experimento: Lançamento de 1 dado
S: {1,2,3,4,5,6}
Exemplo 2: Considere o experimento: Lançamento de 1 moeda
S: {cara, coroa}
Exemplo 3: Considere o experimento: Observar o Fator Rh de um casal
S: {(H+ M+);(H+ M-);(H- M+);(H- M-)}
ATIVIDADE PRÁTICA:
Determine o Espaço Amostral dos seguintes experimentos:
Lançamento de duas moedas simultaneamente
Lançamento de uma moeda duas vezes
Observar o tipo sanguíneo de um indivíduo
Retirar uma carta do baralho e observar apenas o naipe
Lançamento de dois dados simultaneamente
Lançamento de 1 dado e 1 moeda
Lançamento de 1 moeda três vezes
Observar o sexo dos filhos de um casal com três filhos
Observar o número de pacientes bipolares em uma clínica com 10 pacientes internados.
Definição de Probabilidade:
Na definição clássica de probabilidade, considerando que todos os resultados possíveis são equiprováveis, podemos definir probabilidade como sendo:
Considere A o evento de interesse:
NÃO ESQUEÇA!
A probabilidade de um evento A deve ser um número maior ou igual a 0 e menor ou igual a 1:
Exemplo: Considere uma caixa contendo 10 brindes: 4 livros, 2 celulares, 1 rádio e 3 perfumes. Você tem direito a um destes brindes que serão sorteados. Qual a probabilidade de você:
Ganhar um livro
Ganhar um celular
Ganhar um rádio ou um celular
Não ganhar perfume
Na definição frequentista de probabilidade, um experimento é realizado (repetido) um grande número de vezes, onde é observado o número de vezes (freqüência) em que ocorre um determinado evento A de interesse.
Exemplo: Adultos são aleatoriamente selecionados para uma pesquisa do IBOPE, e pergunta-se a eles se são a favor da pena de morte para uma pessoa acusada de assassinato. Os resultados da pesquisa realizada com 519 pessoas concluem que 338 destas são a favor da pena de morte. Com base nestes resultados, estime a probabilidade de uma pessoa, escolhida aleatoriamente ser:
a favor da pena de morte para uma pessoa acusada de assassinato
contra a pena de morte para uma pessoa acusada de assassinato
Propriedades da Probabilidade
Propriedade 1: Probabilidade Complementar
A probabilidade complementar de A É o evento formado por todos os resultados do espaço amostral que não pertencem à A. A probabilidade de não ocorrência de A é descrita como
e é expressa da forma:
Propriedade 2: Regra da Adição
( Se A e B são dois eventos independentes então:
P(A ou B) = P(A) + P(B)
Exemplo: Ao retirar uma carta do baralho considere os eventos: A – retirar um Ás e R – retirar um Rei. Qual a probabilidade de selecionar aleatoriamente uma carta deste baralho e ela ser um Ás ou um Rei?
P(A ou R) = P(A) + P(R) = 4/52 + 4/52 = 8/52 = 0,1538
( Se A e B são dois eventos dependentes então:
P(A ou B) = P(A) + P(B) – P(A e B)
Exemplo 1: Ao retirar uma carta do baralho considere os eventos: A – retirar um Ás e E – retirar uma carta no naipe Espadas. Qual a probabilidade de selecionar aleatoriamente uma carta deste baralho e ela ser um Ás ou uma carta do naipe de espadas?
P(A ou E) = P(A) + P(E) – P(A e E)
4/52 + 13/52 – 1/52 = 16/52 = 0,3077
Atenção!
Exemplo 2:
A probabilidade de um estudante obter conceito A em uma disciplina é 40%, conceito B 20%, conceito C 30% e conceito D 10%. Qual a probabilidade deste estudante ter:
conceito A ou B
conceito C ou D
conceito B ou C
Propriedade 3: Regra da Multiplicação
( Se A e B são dois eventos independentes então:
P(A e B) = P(A) x P(B)
Exemplo:
Em um departamento de orientação profissional observou-se que a probabilidade de um estudante apresentar alto escore de inteligência é 20%, apresentar elevado escore em adaptação social (QI Emocional) é 30% e apresentar tendências neuróticas é 5%. Considerando estes valores, qual a probabilidade de um estudante:
apresentar alto escore de inteligência e elevado escore de adaptação social
apresentar alto escore de inteligência e tendências neuróticas
LISTA DE EXERCÍCIOS
PROBABILIDADE
Questão 1. Em uma maternidade em um determinado mês, foram registrados 205 recém nascidos dos quais 35 apresentaram baixo peso ao nascer. Um bebê é escolhido aleatoriamente neste grupo, qual é a probabilidade dele apresentar:Baixo peso (R: 17,1%)
Peso normal (R: 82,9%)
Questão 2. Dos 1200 acidentes de trânsito registrados em uma BR verificou-se que 780 foram provocados por motoristas de 18 a 25 anos, 240 por motoristas de 26 a 35 anos e 180 por aqueles com mais de 35 anos. Qual a probabilidade de ocorrer um acidente neste BR e ele ser provocado por um motorista com idade:
de 18 a 25 anos (R: 65%)
de 26 a 35 anos (R: 20%)
Mais de 35 aos (R: 15%)
35 anos ou menos (R: 85%)
Questão 3. Considere a seguinte tabela:
Resultados de um Teste que detecta o Uso de Maconha através da análise do sangue
Resultado do Teste
O sujeito realmente usou maconha
Total
Sim
Não
Positivo (presença de maconha)
119
24
143
Negativo (ausência de maconha)
3
154
157
Total
122
178
300
Um indivíduo realiza este teste, qual é a probabilidade de ocorrer um resultado:
Falso positivo (R: 8%)
Falso negativo (R: 1%)
Positivo verdadeiro (R: 39,7%)
Negativo verdadeiro (R: 51,3%)
Questão 4: A probabilidade de um homem estar vivo daqui a 30 anos é de 40% e de sua mulher é de 65%. Qual a probabilidade de que daqui a 30 anos:
ambos estejam vivos (R: 0,26)
somente a mulher esteja viva (R: 0,39)
ambos estejam mortos (R: 0,21)
somente a mulher esteja morta (R: 0,14)
um deles esteja vivo (R: 0,53)
Questão 5. Um terço dos eleitores de certa comunidade é constituído por homens e 10% dos eleitores votaram em branco na última eleição. Supondo que estes eventos sejam independentes, determine a probabilidade de escolher aleatoriamente um homem e este er votado em branco na última eleição. (R: 0,033)
Exercício 6. Em 25% das vezes João chega em casa tarde para jantar. Por outro lado, o jantar atrasa 10% das vezes. Se não há qualquer relacionamento entre os atrasos de João e os atrasos para jantar, qual é a probabilidade de ocorrerem ambos os atrasos? (R: 0,025)
Exercício 7. Marcelo tem dois velhos automóveis. Nas manhãs frias, há 20% de probabilidade de um deles não pegar e 30% do outro não pegar. Em uma manhã fria qual a probabilidade de:
nenhum pegar (R: 0,60)
apenas 1 pegar (R: 0,38)
A DISTRIBUIÇÃO DE PROBABILIDADE NORMAL OU CURVA DE GAUSS
A distribuição Normal ou Gaussiana é, sem dúvida, o modelo probabilístico mais conhecido. Várias técnicas estatísticas necessitam da suposição de que os dados se distribuam normalmente para serem utilizadas. Na natureza uma grande quantidade de variáveis apresenta tal distribuição.
Os parâmetros da Normal são a média e o desvio-padrão, que permitem infinitas curvas normais com diferentes formatos (mas sempre simétricas). O gráfico da fX é apresentado a seguir:
A distribuição Normal, independentemente dos valores dos parâmetros, apresenta sempre a seguinte relação:
Distribuição Normal-padrão ou Normal reduzida
Seja X uma variável aleatória normalmente distribuída com quaisquer parâmetros média ( e desvio-padrão (. Se realizarmos a seguinte transformação, obteremos uma nova variável Z com média 0 e desvio-padrão 1:
Uma variável com distribuição Normal qualquer, pode ser padronizada para a Normal Padrão. A distribuição Normal padronizada (Z) é tabelada, tem média igual a 0 (zero) e desvio-padrão igual a 1 (um).
ESTATÍSTICA
INFERENCIAL
Podemos definir a Inferência Estatística como o conjunto de ferramentas estatísticas que tem por objetivo permitir ao pesquisador a generalização das conclusões obtidas de uma amostra para toda uma população.
Para poder generalizar as conclusões obtidas da amostra para a população não é suficiente apenas a descrição dos resultados obtidos na amostra, é preciso garantir que esta amostra seja efetivamente representativa da população. A partir desta generalização surge o conceito fundamental de erro provável. A possibilidade de erro é inerente ao processo de inferência, ou seja, sempre que estudamos a população a partir de uma amostra existe a possibilidade de cometermos algum tipo de erro de conclusão. A grande aplicação da Inferência Estatística é fornecer métodos que permitam quantificar esse erro provável. (PIANA, MACHADO & SELAU, 2009)
TESTES DE HIPÓTESES
A
lgumas vezes existe um particular interesse em decidir sobre a verdade ou não de uma hipótese específica (se dois grupos têm a mesma média ou não, ou se o parâmetro populacional tem um valor em particular ou não). O Teste de hipóteses fornece-nos a estrutura para que façamos isto, ele é útil quando desejamos verificar a alegação (afirmação) feita sobre um parâmetro (média ou proporção).
Exemplos:
-O QI médio dos funcionários é de 110 pontos;
-O gasto médio de mulheres é superior ao gasto médio dos homens;
- Existe associação entre Tabagismo e Alcoolismo
COMPONENTES DE UM TESTE DE HIPÓTESES
Um teste de hipóteses poderia ser descrito através de uma estratégia de análise com o seguinte raciocínio:
1º) Descreva o efeito em que está interessado em comprovar em termos de um parâmetro populacional como, por exemplo, uma média ( ( ) ou uma proporção (( );
2º) A Hipótese Nula (H0) é a afirmação de que tal efeito não está presente na população;
3º) Com base nos dados obtidos na amostra verifique se os valores obtidos estão muito distantes do valor do parâmetro pela hipótese nula; caso afirmativo, os dados evidenciam que a hipótese nula é falsa e que o efeito que está procurando está realmente presente;
4º) O valor de “p” (p-value) representa o nível de significância de um teste e indica a probabilidade de se observar um valor igual ou mais extremo do que o observado, se a hipótese nula é verdadeira.
Em geral, estipula-se um nível de 5%. O valor da probabilidade de se obter o efeito observado, dado que a hipótese nula é verdadeira, é chamado de p-valor. Se o valor do p-valor for menor que o nível de significância estipulado, assume-se o erro tipo I e rejeita-se a hipótese nula. Ao contrário, se o p-valor for maior, não é assumido o erro tipo I e se aceita a hipótese nula.
Os testes podem rejeitar ou aceitar a hipótese nula. Há dois possíveis tipos de erros quando realizamos um teste estatístico para aceitar ou rejeitar H0 :
Erro do tipo I : é o erro ao rejeitar H0 quando, na realidade, H0 é verdadeira. A probabilidade de cometer este erro do tipo I é designada por α (nível de significância). O erro do tipo I equivale a concluir que o tratamento é eficaz quando na verdade ele não é.
Erro do tipo II : é o erro ao aceitar H0 quando, na realidade, H0 é falsa. A probabilidade de cometer este erro do tipo II é designada por β .
QUADRO RESUMO DOS TIPOS DE ERRO DE UM TESTE DE HIPÓTESES
Decisão
H0 VERDADEIRA
H0 FALSA
Aceitar H0
Decisão correta
Probabilidade = 1 - α
Erro do tipo II
Probabilidade = β
Rejeitar H0
Erro do tipo I
Probabilidade = α
Decisão correta
Probabilidade = 1 - β
Em um teste de hipóteses é obviamente desejável que se reduza ao mínimo as probabilidades α e β dos dois tipos de erros. Porém, a diminuição de se ter um erro implica no aumento de ter um outro erro. Em geral, escolhe-se pela diminuição do erro tipo I. A redução simultânea dos erros poderá ser alcançada pelo aumento do tamanho da amostra.
1.1. HIPÓTESES DE PESQUISA
O primeiro passo consiste em formular hipóteses sobre a afirmação de estudo. As hipóteses estatísticas sempre comparam dois ou mais parâmetros e podem ser classificadas em dois tipos:
Hipótese Nula (H0) estabelece a ausência de diferença entre os parâmetros. É sempre representada por uma igualdade.
Hipótese Alternativa (H1) é a hipótese contrária à H0 geralmente é a hipótese que o pesquisador quer ver confirmada. É normalmente representada por uma desigualdade.
Nos exemplos podemos destacar:
-O QI médio dos funcionários é de 110 pontos
H0 : ( = 110 pontosH1 : ( ( 110 pontos
-O gasto médio de mulheres é superior ao gasto médio dos homens;
H0 : ( Homens = ( Mulheres
H1 : ( Homens ( ( Mulheres
- Existe associação entre Tabagismo e Alcoolismo
H0 : Não existe associação entre Tabagismo e Alcoolismo
H1 : Existe associação entre Tabagismo e Alcoolismo
1.2. ESTATÍSTICA DO TESTE
A estatística do teste é um valor calculado com as informações provenientes da amostra e utilizado para se tomar a decisão sobre a aceitação ou rejeição da hipótese nula (H0).
REGRA DE DECISÃO
Se o valor da estatística do teste cai dentro da região crítica, rejeitamos a hipótese (nula) H0 , pois existe uma forte evidência amostral de sua falsidade. Ao contrário, se aceitamos H0 , não existe evidência amostral significativa para sua rejeição.
CONCLUSÃO EXPERIMENTAL
Após a regra de decisão o teste deve ter uma conclusão experimental onde o pesquisador de acordo com o contexto do problema finalizará a sua análise.
ETAPAS DE UM TESTE DE HIPÓTESES
TESTE DE HIPÓTESES PARA UMA MÉDIA (TESTE T – STUDENT)
Utiliza-se este teste para comparar os valores obtidos em uma amostra com uma média estabelecida como referência.
HIPÓTESES
ESTATÍSTICA DO TESTE
REGRA DE DECISÃO
EXEMPLO
Em um debate sobre as estruturas familiares, um psicólogo afirma que há alguns anos atrás a idade média em que os filhos saem da casa de seus pais para irem morar sozinhos ou constituírem suas próprias famílias é de 25 anos. Suspeitando que esta realidade tenha nos últimos anos se alterado um pesquisador resolveu verificar a hipótese de que nos dias de hoje os filhos permanecem mais tempo na casa dos pais. Para isso ele fez uma pesquisa com 400 indivíduos questionando-os a Idade em que haviam saído da casa de seus pais e como resultado foi verificada uma idade média de 32 anos com um desvio-padrão de 5 anos. Analise os dados e conclua a um nível de significância de 5%.
PASSO 1: Dados do problema
PASSO 2: Definir as Hipóteses
PASSO 3: Calcular a estatística do teste
PASSO 4: Regra de decisão: Aceita ou Rejeita H0?
PASSO 5: Conclusão
CURIOSIDADE
�
Agora faça você....
O tratamento antidepressivo deve ser realizado considerando os aspectos biológicos, psicológicos e sociais do paciente A prescrição profilática de antidepressivos irá depender da intensidade e freqüência dos episódios depressivos. Sabe-se que não há antidepressivo ideal, entretanto, atualmente existe uma disponibilidade grande de drogas atuando através de diferentes mecanismos de ação o que permite que, mesmo em depressões consideradas resistentes, o tratamento possa obter êxito. Pesquisas indicam que os antidepressivos produzem, em média, uma melhora dos sintomas depressivos em média com 35 dias de tratamento. Para verificar essa afirmação, uma amostra de 420 pacientes diagnosticados com depressão foram tratados com o antidepressivo Alcytam apresentado melhoras em seus sintomas em média com 30 dias de tratamento com uma variação de 2 dias. Analise esses dados e conclua ao nível de significância de 5%.
Passo I : Dados do Problema
- Quem é a variável___________________________________________________________________________
3. TESTE DE HIPÓTESES PARA COMPARAÇÃO ENTRE DUAS MÉDIAS (T-STUDENT PARA DUAS AMOSTRAS)
Este teste tem por objetivo comparar as médias provenientes de duas amostras independentes.
Grupo 1
Grupo 2
HIPÓTESES:
ESTATÍSTICA DO TESTE:
REGRA DE DECISÃO:
Exemplo:
“...Semanas se passaram até o dia em que, de susto, recebi meu primeiro beijo. Virava o rosto para olhar para a rua e ganhei algo confuso entre o gosto de biscoito de chocolate e o suco de uva em caixinha. Olhos abertos, braços esticados, lábios colados. Pronto. Eu, 11 anos de idade, descobria ali o quanto é bom gostar de alguém...”
Estudos na área da psicologia procuram cada vez mais comparar meninos e meninas em relação ao início de alguns rituais, como por exemplo, o primeiro beijo... Uma pesquisa realizada com 230 adolescentes que já passaram por essa experiência questionou a idade em que estes deram o seu primeiro beijo. Os resultados observados foram:
Tabela 1. Comparação da Idade média do primeiro beijo
Grupo
n
Média
Desvio-padrão
Meninas
100
11,23
0,21
Meninos
130
12,61
0,25
Analise os dados e conclua sobre o caso a um nível de significância de 5%.
Passo I : Dados do Problema
- Quem é a variável de pesquisa ____________________________________________
Agora faça você....
Um estudo investigou o nível de estresse (escala de 0 a 100 pontos) de policiais militares do sexo feminino e masculino com o objetivo de investigar se existe diferença significativa entre os sexos. Os resultados obtidos encontram-se na tabela seguinte abaixo. Analise os dados e conclua sobre o caso a um nível de significância de 5%.
Tabela 1. Comparação do Grau de Estresse
Sexo
n
Grau Médio de estresse
Desvio-padrão
Masculino
220
52,8
3,0
Feminino
57
45,2
2,5
Passo I : Dados do Problema
- Quem é a variável de pesquisa _____________________________________________________
ESTATÍSTICA NÃO-PARAMÉTRICA
Os testes estatísticos apresentados até este momento aplicavam-se aos casos em que se assumia que as populações de estudo tinham distribuição normal ou aproximadamente normal, ou seja, essa condição era necessária para que os testes fossem válidos. Chamados de Testes Paramétricos, também são caracterizados por hipóteses que envolvem apenas parâmetros populacionais, como a média e variância, por exemplo.
Quando estas condições não são válidas, ou ainda, quando se deseja testar hipóteses que não sejam referentes a médias ou variâncias os testes estatísticos mais adequados são os testes Não-Paramétricos. A maior parte dos testes Não-paramétricos serve para pequenas amostras e, além disso, aplicam-se a dados medidos em escala ordinal, e alguns mesmo para dados em escala nominal.
Os Testes de hipóteses não paramétricos seguem o mesmo procedimento geral que os testes paramétricos: Formulam-se as hipóteses a serem testadas; calcula-se o valor da estatística do teste usando os dados contidos em uma amostra aleatória de observações e, dependendo da grandeza dessa estatística, ou rejeitamos ou não a hipótese nula.
Abaixo segue um resumo dos principais testes estatísticos não-paramétricos classificados de acordo com o nível de medida utilizado e de acordo com o(s) tipo(s) de amostra utilizados.
Fonte: VIALI, Lori.
TESTE QUI-QUADRADO
O teste Qui-quadrado utilizado para comparar a distribuição de diversos acontecimentos em diferentes amostras, a fim de avaliar se as proporções observadas destes eventos mostram ou não diferenças significativas ou se as amostras diferem significativamente quanto às proporções desses acontecimentos, ou ainda, pode-se dizer que seu objetivo é verificar se existe associação significativa entre duas variáveis qualitativas.
O método usado é o da comparação, ou seja, comparar um grupo observado com um grupo esperado de freqüências
Hipóteses
Ho: Não existe associação significativa entre as variáveis (as variáveis X e Y são independentes)
H1: Existe associação significativa entre as variáveis (as variáveis X e Y não são independentes
Procedimento
1o passo: Calcular a freqüência esperada em cada célula sob a hipótese de independência.
2o passo: Calculara estatística (2
a partir das diferenças entre valores observados e esperados.
3o passo: Comparar o valor calculado com o valor tabelado para o ( escolhido e
(l-1)(c-1) gl.
Restrições de uso
•
•Não utilizar quando o número de células com freqüência esperada inferior a ‘5’ for superior a 25% do total de células da tabela.
•
•Variáveis com muitas categorias produzem tabelas com um número muito grande de células.
Exemplo:
Investigar se o fato de morar ou não sozinho está relacionado ao sexo do indivíduo
Sexo X Mora sozinho
Sexo
Mora Sozinho
Total
Sim
Não
Masculino
30
370
400
Feminino
50
550
600
Total
80
920
100
PASSO 1: Definir as Hipóteses
PASSO 2: Calcular as freqüências esperadas:
�
PASSO 3: Calcular a estatística do teste
PASSO 4: Regra de decisão: Aceita ou Rejeita H0?
PASSO 5: Conclusão
�
Agora faça você....
O artigo “Tabagismo em adolescentes de área urbana na região Sul do Brasil” dos autores Bernardo Lessa Horta, Paulo Calheiros, Ricardo Tavares Pinheiro, Elaine Tomasi e Karen Costa do Amaral da Escola de Psicologia da Universidade Católica de Pelotas teve como objetivo descrever a prevalência e os fatores de risco para o tabagismo em uma amostra de 632 adolescentes residentes em área urbana de Pelotas. Uma das análises estatística realizadas foi a verificação da existência de uma associação significativa entre o tabagismo e o fato dos adolescentes estarem ou não estudando, os resultados encontrados foram:
Tabela 1 - Prevalência de tabagismo entre os adolescentes que estudam ou não
Estuda
Adolescente
Total
Tabagista
Não tabagista
Sim
44
528
572
Não
26
34
60
Total
70
562
632
Utilizando o teste de hipóteses adequado, qual seria a sua conclusão sobre esses dados ao nível de significância de 5%?
�
OUTROS TESTES NÃO-PARAMÉTRICOS
O TESTE DE MCNEMAR PARA A SIGNIFICÂNCIA DE MUDANÇAS
É aplicável aos experimentos do tipo "antes e depois" em que cada sujeito é utilizado como seu próprio controle e a medida é efetuada em escala nominal ou ordinal.
TESTE DE KRUSKAL-WALLIS
Dadas k populações nas quais se estuda uma característica comum e de onde foram extraídas k amostras aleatórias e independentes, pretende-se testar a hipótese H0 de que as distribuições populacionais são idênticas, isto é, as k amostras podem ser consideradas como provenientes de populações com a mesma distribuição.
TESTE DE MANN-WHITNEY PARA DUAS AMOSTRAS INDEPENDENTES
É um teste não-paramétrico alternativo ao teste t-Student para comparar as médias de duas amostras independentes. O único pressuposto exigido para a aplicação deste teste é que as duas amostras sejam independentes e aleatórias, e que as variáveis em análise sejam numéricas ou ordinais
TESTE WILCOXON
É um teste não-paramétrico alternativo ao teste t-Student pareado para comparar as médias de duas amostras relacionadas.
�
LISTA DE EXERCÍCIOS
TESTES DE HIPÓTESES
Questão 1. A média obtida através dos anos em um teste vocacional foi de 100 pontos. Com o objetivo de saber se a nova classe (calouros) é típica com respeito a vocação, tomou-se uma amostra de 50 alunos. O resultado foi uma média 95 com desvio padrão de 10. Pode-se afirmar, a um nível de significância de 5 %, que essa nova turma é igual às anteriores?
t= -3,54 Conclusão: Rejeita-se H0, logo a turma de calouros apresenta escore para o teste vocacional significativamente inferior ao valor de referência de 100 pontos..
Questão 2. Em uma pesquisa verificou-se que em média os estudantes universitários estudam em casa 8 horas por semana. Em uma faculdade, 36 alunos foram entrevistados e resultou em uma média de 7,5 horas de estudo semanal com um desvio padrão de 2 horas. Pode-se dizer, com um nível de significância de 5%, que esses alunos estudam menos que os demais?
t= -1,50 Conclusão: Aceita-se H0, logo não existe diferença significativa para as horas de estudo entre estes estudantes.
Questão 3. Um educador analisou os resultados de testes de atenção concentrada de 500 alunos de nível médio. Encontrou para amostra uma média igual a 7,2 com um desvio-padrão de 2,8. Seria possível supor que esta média de todos os alunos de nível médio igual a 8,0? Considere α = 5%.
t= -6,4 Conclusão: Rejeita-se H0, logo a média no teste de atenção de alunos do nível média é significativamente inferior a 8 pontos.
Questão 4. Uma empresa que comercializa bancos de dados com informações sobre assinantes de revistas e jornais assegura que a renda média dos assinantes é de, no mínimo, R$ 850,00. Uma amostra aleatória com 24 pessoas revelou uma renda igual à R$ 800,00, com desvio-padrão igual a R$ 200,00. É possível concordar com a empresa? Assuma um nível de significância igual a 5% e suponha população normalmente distribuída.
t= -1,22 Conclusão: Aceita-se H0, logo a renda média dos assinantes pode ser igual a 850 reais.
Questão 5. Sabendo que a quantidade de nicotina por cigarro de determinada marca é dita em campanhas publicitárias ser em média de 23 mg por cigarro, um interessado resolveu testar tal afirmação. Tomou ao acaso 76 cigarros da marca em questão, submeteu-os a exames, e apurou uma quantidade média de nicotina de 24,5 mg com um desvio-padrão de 0,5 mg. Diante de tal pesquisa, você acha que o produtor deve ser denunciado por falsa propaganda de nível tóxico? Decida usando 5% de significância.
t= 26,15 Conclusão: Rejeita-se H0, logo a quantidade média de nicotina é significativamente superior ao dito nas campanhas, com isso o produtor deve ser denunciado por falsa propaganda de nível tóxico.
Questão 6. As notas obtidas por uma amostra de estudantes em duas provas de matemática estão apresentadas na tabela seguinte. Assumindo um nível de confiança igual a 95%, pode-se afirmar que as médias do universo de estudantes foram diferentes?
Grupo
n
Média
Desvio-padrão
Noturno
50
5,3
2,1
Diurno
55
7,6
2,8
t= -4,78 Conclusão: Rejeita-se H0, logo as notas nas provas de matemática dos alunos do grupo Diurno são significativamente superiores às notas dos alunos do grupo Noturno.
Questão 7. Para verificar a eficiência de um cartaz na estimulação à compra de determinado produto, um pesquisador selecionou 40 lojas do centro de uma cidade. Em 20 lojas ele colocou o cartaz, obtendo uma quantidade média de venda diária de 25 unidades com um desvio-padrão de 5 unidade. Em outras 20 lojas ele não colocou o cartaz, verificando uma quantidade média de venda de 15 unidades com um desvio-padrão de 8 unidades. Analise os dados e conclua sobre a eficiência do cartaz. Use 5%
t= 4,74 Conclusão: Rejeita-se H0, logo as vendas nas lojas com cartaz foram significativamente superiores às vendas das lojas sem cartaz.
Questão 8.O dono do restaurante suspeitava que as mulheres que freqüentavam seu estabelecimento pareciam estar mais satisfeitas que os homens. Para comprovar tal suspeita, a equipe de pesquisa obteve os graus médios de satisfação para homens e mulheres entrevistados, obtendo-se os seguintes resultados:
Sexo
N.º de clientes
Nota Média de Satisfação
Desvio-Padrão
Feminino
310
8,9
2,0
Masculino
250
8,3
2,5
Teste ao nível de significância de 5% se existe diferença significativa entre as notas médias de satisfação entre homens e mulheres que freqüentam o restaurante.
t= 3,08 Conclusão: Rejeita-se H0, logo as notas dos alunos do sexo feminino foram significativamente superiores às notas do sexo masculino.
Questão 91. Uma empresa deseja estudar o efeito de uma pausade 10 minutos para um cafezinho sobre a produtividade de seus trabalhadores. Para isso, sorteou 6 operários e contou o número de peças produzidas durante uma semana sem intervalo e mais 6 operários em uma semana com intervalo. Os resultados sugerem se há ou não melhora na produtividade? Use 5% de significância.
Sem intervalo
Média- 32,5 peças
Desvio-padrão- 6,6 peças
Com intervalo
Média- 34 peças
Desvio-padrão –5,8 peças
t= -0,42 Conclusão: Aceita-se H0, logo não existe diferença significativa na quantidade média de peças produzidas entre operários com e sem intervalo, com isso destaca-se que o intervalo não interfere na produtividade.
Questão 10. Numa pesquisa para avaliar a opinião sobre o aborto, realizada pelo Instituto Eagleton, 1200 homens foram entrevistados, sendo 800 entrevistados por pessoas do sexo masculino e 400 por pessoas do sexo feminino. Desse total de entrevistados, 868 disseram concordar com a seguinte frase “O aborto é um problema de natureza privada, cuja decisão deve ficar a critério da mulher, sem interferência do governo”. Analise os dados e conclua ao nível de significância de 5%
Sexo do entrevistador
Resposta
Total
Concordo
Discordo
Masculino
560
240
800
Feminino
308
92
400
Total
868
332
1200
(2 = 6,529 Conclusão: Existe associação significativa entre o sexo do entrevistador e a opinião sobre a frase dita. Verifica-se que quando o entrevistador é do sexo Masculino a resposta tende a ser Discordo e quando o entrevistador é do sexo Feminino a resposta tende a ser concordo.
Questão 11. Num estudo para verificar a eficácia de duas marcas de remédio no controle de hiperatividade, 400 hiperativos foram divididos aleatoriamente em 2 grupos de mesmo tamanho. Um grupo (200 pessoas) tomou a droga A e o outro grupo tomou a droga B. Depois de algum tempo de tratamento, verificou-se, em cada um dos grupos, quantas pessoas ainda estavam com sintomas de hiperatividade. Analise os dados e conclua ao nível de significância de 5%
Droga
Hiperatividade
Total
Sim
Não
A
152
48
200
B
132
68
200
Total
284
116
400
(2 = 4,857 Conclusão: Existe associação significativa entre o tipo de droga e a presença de hiperatividade. Observa-se que a droga A apresenta uma freqüência de presença de hiperatividade (Sim) mais freqüente que a droga B, com isso conclui-se que a droga B é mais eficiente que a droga A.
�
ANÁLISE DE CORRELAÇÃO
M
uitas vezes, na pratica, necessitamos estudar o relacionamento de duas variáveis, coletadas como pares de valores, para resolver questões, como por exemplo:
- Quanto maior for a Idade maior é o grau de depressão
- Quanto menor o nível educacional maior é o número de filhos
A Análise de Correlação indica a existência ou não de relacionamento entre duas variáveis e se este relacionamento é forte ou fraco. Um primeiro passo ao analisar um conjunto de dados é a construção do Diagrama de Dispersão.
Diagrama de Dispersão
O diagrama de dispersão é um gráfico no qual cada ponto representa um par de valores observados, onde podemos visualizar intuitivamente a relação entre as variáveis. A disposição dos pontos indica a existência ou não de um possível relacionamento entre as variáveis.
�
Tipo de Correlações
Correlação Positiva ou Direta
Ocorre quando as duas variáveis crescem no mesmo sentido. À medida que a variável x aumenta, y aumenta também (ou à medida que uma diminui a outra diminui também).
Correlação Negativa ou Inversa
Ocorre quando as duas variáveis crescem em sentido opostos. À medida que a variável x aumenta, y diminui (ou à medida que x diminui, y aumenta).
Ausência de Correlação
Ocorre quando as duas variáveis não estão correlacionadas.
Coeficiente de Correlação de Pearson (r )
O Coeficiente de correlação é uma medida do grau e da direção de uma relação linear entre duas variáveis. O símbolo ( o coeficiente de correlação populacional e o símbolo r representa o coeficiente de correlação amostral. Sua fórmula é:
Interpretação do Coeficiente de Correlação de Pearson (r )
Observe-se que -1 ( r ( 1. O mesmo ocorre com o valor de (. A partir dos valores de r ou (, podemos verificar o tipo da correlação existente entre as variáveis estudadas:
Exemplo: Os dados abaixo resultaram de uma pesquisa em que foi observado em uma amostra de 5 indivíduos o número de horas de sono e o número de erros que estes cometiam para realizar determinada tarefa:
Indivíduo
Nº erros (x)
Horas de sono (y)
1
7
10
2
6
12
3
8
8
4
12
4
5
12
5
Total
a) Calcule e interprete o coeficiente de correlação de Pearson
1º PASSO: Calcular os somatórios
2º PASSO: Aplicar a fórmula
3º PASSO: Interprete
�
LISTA DE EXERCÍCIOS
CORRELAÇÃO
Questão 1. Sejam X = número de acertos na prova do vestibular de matemática e Y = nota final na disciplina de estatística. Essas variáveis foram observadas em 16 alunos do curso de Psicologia. Os dados estão representados a seguir:
Vestibular
19
22
7
15
17
21
16
8
6
19
8
22
19
20
10
8
Estatística
6,5
9,2
5,6
7,0
7,8
8,9
7,5
5,0
5,2
7,3
5,0
9,0
8,2
9,8
5,0
5,8
(x = 237 (y = 113 (x.y= 1806 (x2= 4039 (y2=837
Calcule o coeficiente de correlação linear entre a nota na prova do vestibular de matemática e a nota na disciplina de estatística. Interprete o valor encontrado.
Questão 2. A relação entre o nível educacional de filhos e seus respectivos pais foi observada (nível educacional medido em anos completos de freqüência a escola):
Anos de Escola de pais e seus respectivos filhos
Amostra
Pai(x)
Filho(y)
x.y
X2
Y2
1
12
12
144
144
144
2
10
8
80
100
64
3
6
6
36
36
36
4
16
11
256
256
121
5
8
10
64
64
100
6
9
8
81
81
64
7
12
11
144
144
121
Total (()
73
66
720
825
650
Calcule o coeficiente de correlação linear e Interprete o valor encontrado.
Questão 3. Uma pesquisa foi realizada com 120 mulheres na faixa de idade de 20 a 35 anos com o objetivo de verificar se existe relação entre o tempo em que estas semanalmente dedicavam à prática de exercícios físicos (x) e o percentual de gordura de cada uma delas (y). Para isso, foi realizada uma análise de correlação, onde se obteve um coeficiente de correlação de Pearson igual a -0,89 ( r = -0,89). Através deste resultado você concluiria que:
Não há correlação entre o tempo de prática de atividades física e percentual de gordura
Existe uma correlação direta entre o tempo de prática de atividades física e percentual de gordura, ou seja, quanto maior o tempo de prática de atividades físicas menor é o percentual de gordura destas mulheres.
Existe uma correlação inversa entre o tempo de prática de atividades físicas e percentuais de gordura, ou seja, quanto maior o tempo de prática de atividades físicas menor é o percentual de gordura destas mulheres.
Existe uma correlação inversa entre o tempo de prática de atividades físicas e percentuais de gordura, ou seja, quanto maior o tempo de prática de atividades físicas maior é o percentual de gordura destas mulheres.
Quanto mais estes mulheres se movimentam mais gordas ficam.
Questão 4. Uma pesquisa realizada com 120 adolescentes de uma Vila localizada em Canoas procurou verificar a relação entre a Violência Psicológica e algumas variáveis de controle A escala de violência psicológica é instrumento unidimensionalque avalia experiências vividas pelo jovem, ocorridas durante o período da infância ou da adolescência, onde uma pessoa significativa denegriu suas qualidades, capacidades, desejos e emoções, além de cobrá-lo excessivamente. A escala é constituída por 18 itens fechados, com cinco opções de respostas: nunca, raramente, às vezes, quase sempre e sempre. Cada resposta varia de um a cinco pontos e o maior escore indica presença severa de violência psicológica.
Neste contexto, interprete cada um dos coeficientes de correlação apresentados na tabela. Lembre-se que o valor de “p” representa o nível de significância da correlação e para que a correlação seja significativa este valor deve ser de no máximo 5%. (p(0,05).
�
GABARITO
Questão 1
R = 0,91 – Existe uma correlação forte direta entre o número de acertos em matemática no vestibular e a nota em Estatística, ou seja, quanto melhor o desempenho do aluno no vestibular em matemática melhor foi sua nota em Estatística.
Questão 2. Anos de Escola de pais e seu respectivo filho
=
R = 0,75 – “Existe uma correlação direta entre o nível educacional de pais e filhos, ou seja, quanto maior o nível educacional do pai, maior é o nível educacional do filho.”
Questão 3. (c)
Tabela de valores críticos da distribuição qui-quadrado ((2).
n.s.:
0,150
0,100
0,050
0,040
0,025
0,010
0,005
gl
1
2,07
2,71
3,84
4,22
5,02
6,63
7,88
2
3,79
4,61
5,99
6,44
7,38
9,21
10,60
3
5,32
6,25
7,81
8,31
9,35
11,34
12,84
4
6,74
7,78
9,49
10,03
11,14
13,28
14,86
5
8,12
9,24
11,07
11,64
12,83
15,09
16,75
6
9,45
10,64
12,59
13,20
14,45
16,81
18,55
7
10,75
12,02
14,07
14,70
16,01
18,48
20,28
8
12,03
13,36
15,51
16,17
17,53
20,09
21,95
9
13,29
14,68
16,92
17,61
19,02
21,67
23,59
10
14,53
15,99
18,31
19,02
20,48
23,21
25,19
11
15,77
17,28
19,68
20,41
21,92
24,73
26,76
12
16,99
18,55
21,03
21,79
23,34
26,22
28,30
13
18,20
19,81
22,36
23,14
24,74
27,69
29,82
14
19,41
21,06
23,68
24,49
26,12
29,14
31,32
15
20,60
22,31
25,00
25,82
27,49
30,58
32,80
16
21,79
23,54
26,30
27,14
28,85
32,00
34,27
17
22,98
24,77
27,59
28,44
30,19
33,41
35,72
18
24,16
25,99
28,87
29,75
31,53
34,81
37,16
19
25,33
27,20
30,14
31,04
32,85
36,19
38,58
20
26,50
28,41
31,41
32,32
34,17
37,57
40,00
21
27,66
29,62
32,67
33,60
35,48
38,93
41,40
22
28,82
30,81
33,92
34,87
36,78
40,29
42,80
23
29,98
32,01
35,17
36,13
38,08
41,64
44,18
24
31,13
33,20
36,42
37,39
39,36
42,98
45,56
25
32,28
34,38
37,65
38,64
40,65
44,31
46,93
26
33,43
35,56
38,89
39,89
41,92
45,64
48,29
27
34,57
36,74
40,11
41,13
43,19
46,96
49,65
28
35,71
37,92
41,34
42,37
44,46
48,28
50,99
29
36,85
39,09
42,56
43,60
45,72
49,59
52,34
30
37,99
40,26
43,77
44,83
46,98
50,89
53,67
39
48,13
50,66
54,57
55,75
58,12
62,43
65,48
40
49,24
51,81
55,76
56,95
59,34
63,69
66,77
50
60,35
63,17
67,50
68,80
71,42
76,15
79,49
60
71,34
74,40
79,08
80,48
83,30
88,38
91,95
70
82,26
85,53
90,53
92,02
95,02
100,43
104,21
100
114,66
118,50
124,34
126,08
129,56
135,81
140,17
120
136,06
140,23
146,57
148,45
152,21
158,95
163,65
200
220,74
226,02
233,99
236,35
241,06
249,45
255,26
300
325,41
331,79
341,40
344,23
349,87
359,91
366,84
400
429,34
436,65
447,63
450,87
457,31
468,72
476,61
500
532,80
540,93
553,13
556,71
563,85
576,49
585,21
Tabela de valores críticos da distribuição t de Student.
bilateral:
0,050
0,020
0,010
gl
1
12,706
31,821
63,656
2
4,303
6,965
9,925
3
3,182
4,541
5,841
4
2,776
3,747
4,604
5
2,571
3,365
4,032
6
2,447
3,143
3,707
7
2,365
2,998
3,499
8
2,306
2,896
3,355
9
2,262
2,821
3,250
10
2,228
2,764
3,169
11
2,201
2,718
3,106
12
2,179
2,681
3,055
13
2,160
2,650
3,012
14
2,145
2,624
2,977
15
2,131
2,602
2,947
16
2,120
2,583
2,921
17
2,110
2,567
2,898
18
2,101
2,552
2,878
19
2,093
2,539
2,861
20
2,086
2,528
2,845
21
2,080
2,518
2,831
22
2,074
2,508
2,819
23
2,069
2,500
2,807
24
2,064
2,492
2,797
25
2,060
2,485
2,787
26
2,056
2,479
2,779
27
2,052
2,473
2,771
28
2,048
2,467
2,763
29
2,045
2,462
2,756
30
2,042
2,457
2,750
39
2,023
2,426
2,708
40
2,021
2,423
2,704
49
2,010
2,405
2,680
50
2,009
2,403
2,678
59
2,001
2,391
2,662
60
2,000
2,390
2,660
99
1,984
2,365
2,626
100
1,984
2,364
2,626
120
1,980
2,358
2,617
200
1,972
2,345
2,601
infinito
1,960
2,326
2,576
Como construir tabelas no Word
Passo 1. Na barra de ferramentas do Word vá no item Tabela
Passo 2. Inserir Tabela
Passo 3. Diga quantas linhas e quantas colunas você deseja que a tabela tenha
�
Passo 4. No botão Auto Formatação da tabela escolha o estilo Clássico
Passo 5. Vá no botão OK
Passo 6. Digite as informações dentro da tabela
Tabela 1. Sexo dos entrevistados
Sexo
Nº de pessoas
%
Masculino
6
60
Feminino
4
40
Total
10
100
Como construir gráficos no Excel
Passo 1. Digite as informações da tabela em qualquer lugar na planilha do excel, não esquecendo que você deve optar por fazer um gráfico considerando as freqüências de respostas ou o percentual de cada resposta.
Passo 2. Mantenha o botão da esquerda do mouse pressionado marcando as células que contenham os dados para a construção do gráfico.
Passo 3. Vá até o assistente gráfico do excel e escolha qual gráfico deseja construir
7
Passo 4. Escolha o tipo de gráfico desejado e clique em Avançar
Passo 5. Se você gostou do gráfico construído, clique em Avançar novamente
Passo 6. Coloque o título do gráfico e estabeleça como e onde você deseja que fique a legenda
Passo 7. Você também pode solicitar que apareçam os percentuais no Rótulo de dados
Passo 8. Clique novamente em Avançar e defina o local onde deve colocar o gráfico: Como objeto
Passo 9. Concluir
� EMBED Word.Picture.8 ���
Uma população é conjunto de elementos de interesse em um determinado estudo, que podem ser pessoas ou resultados experimentais, com uma ou mais características comuns, que se pretendem estudar.
Uma amostra é um subconjunto da população usado para obter informação acerca do todo. Obtemos uma amostra para fazer inferências de uma população. Nossas inferências são válidas somente se a amostra é representativa da população.
Uma variável é uma característica de uma população que difere de um indivíduo para outro e do qual temos interesse em estudar. Cada unidade (membro) da população que é escolhido como parte de uma amostra fornece uma medida de uma ou mais variáveis, chamadas observações.
“Não podemos escapar dos dados assim como não podemos escapar de palavras. A instrução numérica, a capacidade de acompanhar e compreender argumentos baseados em dados é importante para qualquer um de nós. O estudo da Estatística é parte essencial de uma formação sólida” Moore (2000)Passo V: Conclusão
Passo IV: Regra de Decisão:
�
Passo II : Hipóteses de Pesquisa
Ho:______________________________
H1: ______________________________
Mediana
Mediana
Portugal
Inglaterra
23%
Alemanha
13%
Itália
9%
Brasil
20%%
Espanha
13%
Portugal
13%
Canadá
14%
Estados Unidos
31%
A variável apresentada neste gráfico é:
( ) O número total de jovens que cumprem medidas socioeducativas
( ) Percentual de jovens que usam drogas e cumprem medidas socioeducativas
( ) 17.502 adolescentes presos
( ) Os estabelecimentos de internação existentes no Brasil
( ) Nenhuma das alternativas
b) No Brasil, o percentual de jovens deste grupo que usam drogas é:
( ) 33,3%
( ) 71,3%
( ) 74.8%
( ) 24,3%
( ) 69,7%
c) O tipo de gráfico apresentado acima é:
( ) Setores
( ) Colunas
( ) Linhas
( ) Barras
d) Considerando ESTAS 5 REGIÕES, a mediana para o percentual de jovens deste grupo que NÃO usam drogas é:
( ) 77,5%
( ) 27,6%
( ) 33,3%
( ) 22,1%
( ) 23,6%
e) A Região do Brasil com menor percentual de jovens deste grupo usuários de drogas é :
( ) Centro-oeste
( ) Nordeste
( ) Norte
( ) Sudeste
( ) Sul
� EMBED Equation.3 ���
Podemos interpretar o valor de prova ou valor-p ou p-value como a medida do grau de concordância entre os dados e H0 Assim Quanto menor for o p-value, menor é a consistência entre os dados e a hipótese nula.
Formulação das hipóteses de pesquisa H0 e H1
Calcular a Estatística do Teste
Estabelecer a Regra de Decisão e o nível de significância do teste
Concluir
� EMBED Equation.3 ���
Onde: � EMBED Equation.3 ��� = média da amostra
(0 = valor de referência
s = desvio-padrão da amostra
n = tamanho da amostra
� EMBED Equation.3 ���
X: ����������.................................................................................................................
(: .....................................
n: .....................................
� EMBED Equation.3 ���: ..................................
s: ...................................
(: ...................................
H0 : ..................................................
H1 : ..................................................
� EMBED Equation.3 ���
�
� EMBED Equation.3 ���
� EMBED Equation.3 ���
Passo III: Estatística do Teste:
Passo V: Conclusão
Passo IV: Regra de Decisão
Passo III: Estatística do Teste:
Passo II : Hipóteses de Pesquisa
Ho:______________________________
H1: ______________________________
� EMBED Equation.3 ���
Região de Aceitação de H0
Região de Rejeição de H0
H0 : ..................................................
H1 ..................................................
� EMBED Equation.3 ���
�
“Não só o homem comum percebe os acontecimentos indeterminados: os homens da ciência igualmente estabeleceram que é necessário, nos fatos de toda natureza, atribuir um significado primordial aos acontecimentos indeterminados. Os homens da ciência deram tal importância aos acontecimentos “aleatórios”, isto é, não determinísticos, que foram levados a desenvolver um sistema de cálculo destinado a avaliar estes acontecimentos: o cálculo das probabilidades”
Fernandez, D. & Fernandez, D. 1999.
Notação para Probabilidade
P – representa a probabilidade
A, B ,C – representam eventos específicos
P(A) - representa a probabilidade de o evento A ocorrer
0 ( P(A) ( 1
ou ainda
0% ( P(A) ( 100%
A
B
A
B
A e B
Dois eventos são independentes quando a ocorrência ou não de um evento não tem efeito algum na probabilidade de ocorrência do outro evento. Dois eventos são dependentes quando a ocorrência ou não-ocorrência de um evento afeta a probabilidade de ocorrência do outro.
Assistente gráfico
X = valor de interesse da variável
( = média da variável
( = desvio-padrão da variável
� EMBED Equation.3 ���
� EMBED Excel.Chart.8 \s ���
Como Calcular:
1º) Obtenha a soma dos valores de x : (x
2º) Obtenha a soma dos valores de y: (y
3º) Multiplique cada valor de x por seu valor y correspondente e obtenha a sua soma: (x.y
4º) Eleve ao quadrado cada valor de x e obtenha a sua soma: (x2
5º) Eleve ao quadrado cada valor de y e obtenha a sua soma: (y2
6º) Use essas cinco somas para calcular o coeficiente de correlação.
0
Ausência
de
Correlação
-1
Correlação Inversa
+1
Correlação Direta
(x = _________
(y = ___________
(x.y= __________
(x2= ____________
(y2=____________
�
Passo III: Estatística do Teste:
Passo II : Hipóteses de Pesquisa:
Ho:_____________________________
H1: _____________________________
Passo IV: Regra de Decisão:
Passo V: Conclusão
� PAGE �2�
_1198499067.unknown
_1252503640.unknown
_1301161482.unknown
_1315568366.unknown
_1330169384.doc
_1339252158.unknown
_1468739897.unknown
_1315568436.unknown
_1302370474.unknown
_1304421587.xls
Gráf1
10
9.8
9.5
9
8.2
7.8
7
7.5
6.5
5
4.2
4.3
4
2.5
3
Vendas (mil reais)
Número de faltas
Desempenho do aluno
Plan1 (2)
Gastos em propaganda (mil reais) Vendas (mil reais)
1 10
1 9.8
2 9.5
3 9
4 8.2
5 7.8
5 7
6 7.5
7 6.5
8 5
9 4.2
9 4.3
10 4
12 2.5
15 3
Plan1 (2)
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Vendas (mil reais)
Número de faltas
Desempenho do aluno
Plan1
Gastos em propaganda (mil reais) Vendas (mil reais)
1.4 180
1.6 182
1.6 184
1.8 182
2 186
2 220
2.1 200
2.2 215
2.4 225
2.6 210
2.8 250
3 300
3.1 310
Plan1
0
0
0
0
0
0
0
0
0
0
0
0
0
Vendas (mil reais)
Gastos em propaganda (mil reais)
Vendas (mil reais)
Plan2
Plan3
_1304422995.xls
Gráf1
12
8
6
11
10
8
11
Filho(y)
Anos de estudo Pai
Anos de estudo Filho
Plan1
Pai(x) Filho(y)
12 12
10 8
6 6
16 11
8 10
9 8
12 11
Plan1
0
0
0
0
0
0
0
Filho(y)
Anos de estudo Pai
Anos de estudo Filho
Plan2
Plan3
_1302761122.unknown
_1302368539.unknown
_1254225043.unknown
_1301161434.unknown
_1298809954.doc
_1254224885.unknown
_1254224992.unknown
_1252503803.unknown
_1254144221.unknown
_1215690318.unknown
_1215692113.unknown
_1252497918.unknown
_1252503505.unknown
_1215692745.unknown
_1215692021.unknown
_1215690222.unknown
_1215690275.unknown
_1215688024.unknown
_1197234143.unknown_1197307526.unknown
_1197307928.unknown
_1197308222.unknown
_1197307887.unknown
_1197234228.unknown
_1197234236.unknown
_1197234170.unknown
_1197224266.unknown
_1197229145.unknown
_1197229462.unknown
_1197229130.unknown
_1196170639.unknown
_1197224212.unknown
_1109082902.unknown
_1109340931.unknown