AULA_EXP_DE_DADOS (1)

UNINORTE

Willian Lima
em 29/04/2020
Conteúdos escolhidos para você

80 pág.
Bioestatista e estatistica vital

53 pág.
Introdução à Bioestatística

FAEL
55 pág.
04_Estatistica

UFRJ
97 pág.
Notas de Estatística - MAT236

UFBA
132 pág.
BIOESTATÍSTICA

UNINGÁ
Perguntas dessa disciplina

Uma indústria de alimentos está revisando seus relatórios de qualidade. A gerente de dados notou que, em semanas com picos de demanda, alguns tempos d

Questão 3/5 - Análise Preditiva Ler em voz alta Uma indústria de alimentos está revisando seus relatórios de qualidade. A gerente de dados notou que,

Em um conjunto de dados a medida de dispersão que calcula a diferença entre o maior e o menor valor denominamos de amplitude. Ela apresenta a dispersã

FACIC
Em um mundo cada vez mais data-driven, a análise de dados se tornou fundamental para a tomada de decisões em diversas áreas, desde negócios até pesqui

FESP
Em estatística, uma dimensão representa uma característica ou atributo que descreve um conjunto de dados. Pense em uma dimensão como uma lente atra...

UNIVESP
Material
Conteúdos escolhidos para você

80 pág.
Bioestatista e estatistica vital

53 pág.
Introdução à Bioestatística

FAEL
55 pág.
04_Estatistica

UFRJ
97 pág.
Notas de Estatística - MAT236

UFBA
132 pág.
BIOESTATÍSTICA

UNINGÁ
Perguntas dessa disciplina

Uma indústria de alimentos está revisando seus relatórios de qualidade. A gerente de dados notou que, em semanas com picos de demanda, alguns tempos d

Questão 3/5 - Análise Preditiva Ler em voz alta Uma indústria de alimentos está revisando seus relatórios de qualidade. A gerente de dados notou que,

Em um conjunto de dados a medida de dispersão que calcula a diferença entre o maior e o menor valor denominamos de amplitude. Ela apresenta a dispersã

FACIC
Em um mundo cada vez mais data-driven, a análise de dados se tornou fundamental para a tomada de decisões em diversas áreas, desde negócios até pesqui

FESP
Em estatística, uma dimensão representa uma característica ou atributo que descreve um conjunto de dados. Pense em uma dimensão como uma lente atra...

UNIVESP
Prévia do material em texto
ANÁLISE EXPLORATÓRIA DE DADOS
Prof.: Persé Garcia
O que é Estatística?
O que modernamente se conhece como Ciências Estatísticas, ou simplesmente Estatísticas, é um conjunto de técnicas e métodos de pesquisa que entre outros tópicos envolve o planejamento do experimento a ser realizada, a coleta qualificada dos dados, a inferência, o processamento a análise e a disseminação das informações.
O desenvolvimento e o aperfeiçoamento de técnicas estatísticas de obtenção e análise de informações permitem o controle e o estudo adequado de fenômenos, fatos, eventos e ocorrências em diversas áreas do conhecimento. A Estatística tem por objetivo fornecer métodos e técnicas para lidarmos, racionalmente, com situações sujeitas a incertezas.
Desde a antiguidade
Apesar de a Estatística ser uma ciência relativamente recente na área da pesquisa, ela remonta à antiguidade, onde operações de contagem populacional já eram utilizadas para obtenção de informações sobre os habitantes, riquezas e poderio militar dos povos. Após a idade média, os governantes na Europa Ocidental, preocupados com a difusão de doenças endêmicas, que poderiam devastar populações e, também, acreditando que o tamanho da população poderia afetar o poderio militar e político de uma nação, começaram a obter e armazenar informações sobre batizados, casamentos e funerais. Entre os séculos XVI e XVIII as nações, com aspirações mercantilistas, começaram a buscar o poder econômico como forma de poder político. Os governantes, por sua vez, viram a necessidade de coletar informações estatísticas referentes a variáveis econômicas tais como: comércio exterior, produção de bens e de alimentos.
Até nossos dias
Atualmente os dados estatísticos são obtidos, classificados e armazenados em magnético e disponibilizamos em diversos sistemas de informação acessíveis a pesquisadores, cidadãos e organizações da sociedade que, por sua vez, podem utilizá-los para o desenvolvimento de suas atividades. A expressão no processo de obtenção, armazenamento e disseminação de informações estatísticas tem sido acompanhada pelo rápido desenvolvimento de novas técnicas e metodologias de análise de dados estatísticos.
(Escola Nacional de Ciências Estatísticas – http://www.ence.ibge.gov.br/estatistica/defaut.asp)
Estatística: É um conjunto de métodos e processos quantitativos, que serve para estudar e medir os fenômenos coletivos. É considerada ciência quando estuda população e Método quando utilizada como instrumento por outra ciência.
Estatística: É a ciência que estuda as técnicas necessárias para coletar, organizar, apresentar, analisar e interpretar os dados a fim de extrair informações a respeito de uma população.
Objetivo: Estudar fenômenos
População: Conjunto de todos os elementos que possuem alguma característica em comum e que está sob investigação ou estudo.
1. População Finita
2. População Infinita
3. População Finita considerada infinita
Ex.: Quant. de chuva, Quant. de peixe num rio e etc.
Amostra: É um subconjunto da população, necessariamente finita.
Dado Estatístico: É toda informação devidamente coletada e registrada, quer na forma de contagem ou medição. As fontes desses dados podem ser: primárias ou secundárias.
Variável Nominal: Quando os indivíduos ou elementos são classificados em determinado número de categoria mutuamente exclusiva.
	Ex.: Sexo, Alfabetização, Naturalidade, Nacionalidade e etc...
Variável Ordinal: Pode ser distribuída em determinado número de categorias mutuamente exclusivas, segundo uma ordem lógica e sem propriedade aritmética.
	Ex.: Grau de Instrução, Nota por Conceito, Conceito e etc...
Variável Quantitativa: É expressa através de um número, com propriedades aritméticas.
	Ex.: Renda Familiar, Números de Filhos e etc.
Exemplos:
1) Seja uma pesquisa eleitoral, a ser realizada a poucos dias de uma eleição municipal, com o objetivo de verificar a intenção de votos para cada candidato à prefeitura. Defina a população alvo e a população acessível.
2) Num levantamento sobre as condições sócio-econômicas de uma cidade.
a) A população pode ser definida como o conjunto de famílias residentes
b) A população pode ser os indivíduos com mais de 18 anos
c) A população pode ser os indivíduos de um bairro
d) Todas as alternativas.
3) Para avaliar a eficácia de um curso que orienta como fazer boa alimentação e exercícios físicos, selecionou-se uma amostra aleatória de 20 pessoas obesas de uma certa cidade.
4) Para avaliar a proporção de alunos do curso de administração favoráveis a eliminação da disciplina de Estatística do currículo, selecionou-se aleatoriamente 80 alunos do curso.
5) Para avaliar uma campanha contra o fumo, conduzida pela prefeitura de uma cidade, acompanhou-se uma amostra aleatória de 100 fumantes.
Nota:
1) A definição da população depende basicamente dos objetivos da pesquisa, das características a serem levantadas e dos recursos disponíveis.
2) Quando houver diferença razoável entre a população alvo e a população acessível, pode haver grande viés ao generalizar o resultado da análise, para toda a população alvo.
3) Para um leigo em estatística é surpreendente como uma amostra de 3.000 eleitores nos dá um perfil bastante preciso sobre a preferência de todo eleitorado, na véspera de uma eleição presidencial. Isto só acontece devido a um plano rigoroso de amostragem, capaz de garantir sua representatividade.
· Podemos resumir a estatística descritiva pelo diagrama abaixo:
Coleta 
de 
Dados
Crítica
dos
Dados
Apresentação
dos
Dados
Tabelas
Gráficos
Análise
Valores de Consumo Mensal
Energia, por 50 usuários – Kw/h
58	62	80	57	8	126	136	96	144	19
90	86	38	94	82	75	148	114	131	28
66	95	121	158	64	105	118	73	83	81
50	92	60	52	89	58	10	90	94	74
9	75	72	157	125	76	88	78	84	36
Como podemos observar os dados não estão organizados, o que dificulta a menor informação possível, como por exemplo, o consumo médio e o máximo. A procura demoraria. Assim esses dados são chamados de dados BRUTOS.
Rol: É uma lista de valores dispostos em uma determinada ordem, crescente ou decrescente. Dessa maneira a informação fica mais fácil de observar. Como exemplo, a evolução do consumo em Kw/h.
Tabela 1.1
Número Mensal de Defeitos em Carros
	Ano Mês
	JAN
	FEV
	MAR
	ABR
	MAI
	JUN
	JUL
	AGO
	SET
	OUT
	NOV
	DEZ
	1991
	1
	2
	0
	2
	1
	0
	0
	2
	0
	5
	1
	1
	1992
	1
	2
	0
	2
	1
	0
	1
	2
	0
	4
	2
	1
	1993
	0
	3
	0
	3
	1
	0
	1
	2
	0
	3
	3
	1
	1994
	2
	1
	1
	1
	0
	0
	1
	2
	0
	2
	4
	1
	1995
	0
	1
	1
	1
	1
	0
	1
	2
	0
	1
	5
	1
Uma empresa que atua no ramo automobilístico está interessada em saber o número mensal de defeitos em sua produção. As estatísticas acima fornecidas pelo seu corpo técnico referem-se ao período de 1991-1995.
Obs.: Mesma situação dos dados brutos, por exemplo: Quantos carros não tiveram defeitos? 17 carros sem defeitos, esse número nada mais é do que a frequência do valor zero (0). Assim sendo podemos montar tabelas de distribuição de frequências.
As tabelas podem ser: 1) Para dados não agrupados em classe (Simples)
 2) Para dados agrupados em classe
TABELA DE FREQUÊNCIA – DADOS NÃO AGRUPADOS EM CLASSE
Número Mensal de Defeitos – Automóveis
	i
	Defeitos
	frequência (fi)
	1
	0
	17
	2
	1
	23
	3
	2
	12
	4
	3
	4
	5
	4
	2
	6
	5
	2
	
	
	∑fi=n=60
Obs.: A soma das frequências (fi) é sempre igual ao número total de observações n.
fi – É o número (frequência) de observações de um valor na linha i.
n – É o número total de valores observados (População ou Amostra).
DISTRIBUIÇÃO DE FREQUÊNCIA – DADOS AGRUPADOS EM CLASSE
Ex.: um teste psicotécnico, contendo 100 perguntas, foi aplicado em uma turma com 500 alunos. A tabela abaixo apresenta os resultados.
Resultado do Teste
	i
	Classe (Pontos)
	Alunos (fi)
	1
	0 |----- 10
	5
	2
	10 |----- 20
	15
	3
	20 |----- 30
	20
	4
	30 |----- 40
	45
	5
	40 |----- 50
	100
	6
	50 |----- 60
	130
	7
	60 |----- 70
	100
	8
	70 |----- 80
	60
	9
	80 |----- 90
	15
	10
	 90 |-----| 100
	10
	
	
	∑fi=500=n
Amplitude Total– At: É a diferença entre o maior e o menor valor observado da série.
Amplitude de Classe – h: É a diferença entre os limites superior e inferior da classe.
Ponto Médio da Classe – PM: É a soma do limite inferior e superior dividido por dois.
Frequências: Simples, acumulada e relativa.
			
Exemplo – Defeitos/Automóveis
	Xi
	fi
	fr
	Fi
	Fr
	0
	5
	5/30
	5
	5/30
	1
	10
	10/30
	15
	15/30
	2
	15
	15/30
	30
	30/30
	
	30
	
	
	
· Roteiro para elaboração de uma Tabela de Distribuição de Frequência em Classe
1) Lista de dados brutos que pode ser ou não um Rol.
2) Encontrar a Amplitude Total – At = Max(x) – Mín(x).
3) Escolher o número de classes (k). Mínimo 5 e Máximo 20 (preferência):
k = 1 + 3,3 x log n ou 2k ⊇ n ou 
4) Amplitude do Intervalo de Classe: 
5) Determinar os limites de classe. Preferencialmente inteiros.
Exemplo:
Dado os valores dos imóveis em um determinado período. Construir uma tabela de Distribuição de Frequência em Classe para essa série.
	144	152	159	160	160
	151	157	146	154	145
	141	150	142	146	142
	141	141	150	143	158
Solução:
1) Lista
2) At = 160 – 141 = 19
3) k = 1+ 3,3 log 20 = 5,29 = 5 ou 25 ⊇ 20 logo k = 5 também
4) 
5) Iniciar com 140 ou 141
Tabela 1.2 – Distribuição de Frequência
Valores dos Imóveis
	I
	Classe (Valores)
	fi (imóveis)
	fr
	Fi
	Fr
	1
	140 -----| 144
	7
	7/20
	7
	7/20
	2
	144 -----| 148
	3
	3/20
	10
	10/20
	3
	148 -----| 152
	4
	4/20
	14
	14/20
	4
	152 -----| 156
	1
	1/20
	15
	15/20
	5
	156 -----| 160
	5
	1/20
	20
	20/20
	
	
	∑fi=n=20
	
	
	
2. Representação Gráfica
1 – Gráfico de Coluna
	Anos
	População
	1940
	41.236.315
	1950
	51.944.397
	1960
	70.119.071
	1970
	93.139.037
2- Gráfico de Barras
		Anos
	População
	1940
	41.236.315
	1950
	51.944.397
	1960
	70.119.071
	1970
	93.139.037
3 – Gráfico em Setores
	
	Anos
	Receita em R$1.000
	1975
	130
	1976
	120
	1977
	150
	Total
	400
Formula Geral: Total --- 360º
	 Parte --- xº
4 – Gráfico em Curva
	Anos
	População
	1940
	41.236.315
	1950
	51.944.397
	1960
	70.119.071
	1970
	93.139.037
5 – Histograma
	I
	Classe
	fi
	1
	2 |----- 4
	3
	2
	4 |----- 6
	5
	3
	6 |----- 8
	10
	4
	 8 |----- 10
	6
	5
	 10 |----- 12
	2
	
	
	∑fi=n=26
Obs.: 
1) Os gráficos tem por finalidade dar uma ideia, a mais imediata possível, dos resultados obtidos, permitindo chegar-se a conclusões sobre a evolução do fenômeno ou o relacionamento dos valores da série estatística.
2) Simplicidade clareza e veracidade devem ser consideradas quando da elaboração de um gráfico.
3. MEDIDAS DE POSIÇÃO E TENDÊNCIA CENTRAL
1. Medidas de Posição e Tendência Central
	Vimos que através da distribuição de frequência se estabelece um sistema de classificação que descreve o padrão de um determinado fenômeno estatístico. Ocorre que, às vezes fica difícil trabalhar com a distribuição de frequência completa, razão pela qual lançamos mãos de determinadas medidas. Essas medidas sumarizam certas características importantes das distribuições de frequências:
1) Medida de Posição
2) Mediada de Dispersão
Dependendo do objetivo, as medidas de posição, se apresentam sob várias formas, as mais importantes são as de tendência central, em virtude de os dados tenderem a se agrupar em torno desses valores, como por exemplo: a Média, Mediana e a Moda.
Outras são a média Geométrica, Harmônica, Quadrática, Cúbica e Biquadrática.
Média: É uma medida de tendência central que normalmente é usada para descrever resumidamente uma distribuição – Média Aritmética.
Há dois tipos: Simples e Ponderada.
Simples: Todos os valores têm igual peso.
Notação: 
Fórmula: , onde: 		 Xi – valores observado da série
 					 n – tamanho da amostra.
Dados uma série de 5 salários:
Ex.: X1=800, X2=820, X3=810, X4=780 e X5=790
Interpretação: O valor médio da série é 800, ou seja, os valores desta série concentram-se em torno do valor 800.
· Média Aritmética para dados não agrupados em classe.
Número Mensal de Defeitos – Automóveis
	i
	Defeitos (Xi)
	frequência (fi)
	Xi.fi
	1
	0
	4
	0x4 = 0
	2
	1
	3
	1x3 = 3
	3
	2
	1
	2x1 = 2
	4
	3
	2
	3x2 = 6
	
	
	∑fi=n=10
	 ∑Xi.fi = 11
Notação: 
Fórmula: , onde: 	Xi – Valores observados da série
fi – Frequência simples
n – Tamanho da amostra
defeitos
· Média Aritmética para dados agrupados em classe.
Renda Familiar – SM (R$)
	I
	Renda Familiar
	fi
	pm
	Xi.fi
	1
	2 |----- 4
	5
	3
	15
	2
	4 |----- 6
	10
	5
	50
	3
	6 |----- 8
	14
	7
	98
	4
	 8 |----- 10
	8
	9
	72
	5
	 10 |----- 12
	3
	11
	33
	
	
	∑fi=n=40
	
	∑ Xi.fi = 268
Notação: 
Fórmula: , onde: 	Xi ou pm – Valores médios da classe.
fi – Frequência simples
n – Tamanho da amostra
SM
· Propriedades da Média
1) A soma algébrica dos desvios somados em relação à média é zero.
	 ➔ Dados brutos
 ➔ Dados em tabela
2) A soma dos quadrados dos desvios tomados em relação à média é mínima.
	 ➔ Dados Brutos
 ➔ Dados em Tabela
3) Se n1 números têm médias ,....., nk números tem média , então
 que é a média geral ponderada de todas as médias. 
4) Somando ou subtraindo uma constante e arbitrária aos elementos, a média fica somada ou subtraída por essa constante.
5) Multiplicando ou dividindo cada elemento por uma constante, a média fica multiplicada ou dividida.
Dem.:
Seja X = X1, X2,......, Xn e k uma constante (cte) qualquer. Seja 
	Por analogia, temos	
Ex.: Na tabela abaixo estão os dados correspondentes aos valores (R$100,00) de 80 imóveis. Calcular a média do preço, e a tabela de distribuição de frequência.
	k
	Aluguel
	Imóveis
	Xi
	fr
	F
	Fr
	Xi.fi
	1
	 5 |---- 25
	4
	15
	0,05
	4
	0,05
	60
	2
	25 |----- 45
	6
	35
	0,08
	10
	0,13
	210
	3
	45 |---- 65
	14
	55
	0,18
	24
	0,30
	770
	4
	65 |---- 85
	26
	75
	0,33
	50
	0,63
	1950
	5
	85 |----105
	14
	95
	0,18
	64
	0,80
	1330
	6
	105 |----125
	8
	115
	0,10
	72
	0,90
	920
	7
	125 |----145
	6
	135
	0,08
	78
	0,98
	810
	8
	145 |----165
	2
	155
	0,03
	80
	1,00
	310
	
	
	80
	
	1,00
	
	
	6360
Interpretação: O valor médio de 80 imóveis é de R$ 79,5 
· Moda – Mo
A moda será o valor predominante, o valor com maior frequência numa série de dados.
Ex.: 	X = [ 4, 5, 5, 6, 6, 6, 7, 7, 8, 8] ➔ Mo = 6
	Y= [ 4, 4, 5, 5, 6, 6] ➔ Conjunto Amodal
	W= [ 1, 2, 3, 4, 5] ➔ Conjunto Amodal.
Z= [1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6] ➔ Mo = 2 e 5, Conjunto Bimodal.
· Moda para valores não-agrupados em classe
Defeitos em TV
	Defeitos
	Frequência
	0
	2
	1
	4
	 2 = Moda
	 8 = Maior freq.
	3
	6
	4
	4
	5
	2
	6
	1
	Total
	∑ fi = n = 27
Basta localizar na tabela o valor Xi com a maior frequência fi. Assim esse valor será a 
Moda.
· Moda para valores agrupados em classe
	k
	Aluguel
	Imóveis
	1
	 5 |---- 25
	4
	2
	25 |----- 45
	6
	3
	45 |---- 65
	14
	4
	65 |---- 85
	26
	5
	85 |----105
	14
	6
	105 |----125
	8
	7
	125 |----145
	6
	8
	145 |----165
	2
	
	
	80
, onde 
l = Limite inferior da classe modal
h = Amplitude do intervalo da classe modal
f post. = Frequência simples absoluta posterior à classe modal
f ant. = Frequência simples absoluta anterior à classe modal
	
· Mediana – Md 
Valor que divide um conjunto, ordenado, de dados em partes iguais.
1) Quando o número de informações é ímpar, isto é n ímpar.
	➔ Md=
	X= {2; 3; 6; 12; 15; 23; 30} ➔ n = 7
	, portanto a Mediana será igual a 12
 
2) Quando o número de informações é par, isto é n par.
Assim a Mediana será Média entre os dois elementos centrais, isto é, 
	
Tomando como exemplo o conjunto abaixo, temos
X= {3; 6; 9; 12; 14; 15; 17; 20}	➔ n = 8 
· Mediana para valores não agrupados em classe
	Defeitos (Xi)
	fi
	Fi
	2
	5
	 5
	3
	10
	15 (6º ao 15º)
	4
	 15
	30 (16 ao 30º)
	5
	12
	42
	6
	5
	47
	7
	3
	50
	Total
	∑ fi = n = 50
	
		
	
· Mediana para valores agrupados em classe
	k
	Aluguel
	Imóveis
	Fi
	1
	 5 |---- 25
	4
	4
	2
	25 |----- 45
	6
	10
	3
	45 |---- 65
	14
	24
	4
	65|---- 85
	26
	50
	5
	85 |----105
	14
	64
	6
	105 |----125
	8
	72
	7
	125 |----145
	6
	78
	8
	145 |----165
	2
	80
	
	
	∑ fi = n = 80
	
	
l – Limite inferior da classe mediana
h – Amplitude do intervalo da classe mediana
Fant – Frequência acumulada anterior à classe mediana
fMd – Frequência simples da classe mediana
EMd – Elemento mediano
Tomando como exemplo a tabela acima, temos
MEDIDAS DE DISPERSÃO
Amplitude Total
É a diferença entre o maior e o menor valor observado de uma série.
Ex.: A = {10; 12; 13; 20; 25; 34; 45} ➔ At = máx – mín = 45-10 = 35
	B = {-4; -3; -2; 3; 5} ➔ At = 5 – (-4) = 9
· Para dados agrupados em classe
	K
	Aluguel
	Imóveis
	1
	 5 |---- 25
	4
	2
	25 |----- 45
	6
	3
	45 |---- 65
	14
	4
	65 |---- 85
	26
	5
	85 |----105
	14
	6
	105 |----125
	8
	7
	125 |----145
	6
	8
	145 |----165
	2
	
	
	∑ fi = n = 80
i) At = P.M. da última classe – P.M. da primeira classe.
ii) At = L.S. da última classe – L.I. da primeira classe.
· Variância
Notação: S2 ou Var(X)
Fórmula:		Para Dados Brutos
		 
Fórmula:		Para Dados Agrupados/Não Agrupados
· Desvio-Padrão
Notação: Sx ou DP(X)
Fórmula: - Raiz quadrada da variância.
	k
	Aluguel
	Imóveis
	Xi
	Xi.fi
	(Xi-X)2.fi
	1
	 5 |---- 25
	4
	15
	 60,00 
	 16.641,00 
	2
	25 |----- 45
	6
	35
	 210,00 
	 11.881,50 
	3
	45 |---- 65
	14
	55
	 770,00 
	 8.403,50 
	4
	65 |---- 85
	26
	75
	 1.950,00 
	 526,50 
	5
	85 |----105
	14
	95
	 1.330,00 
	 3.363,50 
	6
	105 |----125
	8
	115
	 920,00 
	 10.082,00 
	7
	125 |----145
	6
	135
	 810,00 
	 18.481,50 
	8
	145 |----165
	2
	155
	 310,00 
	 11.400,50 
	
	
	80
	
	 6.360,00 
	 80.780,00 
	
	
	
	
	
	
Média = 79,5 		 	 
· Coeficiente de Variação
Notação: Cv(X)
Fórmula: 	
Obs.:
I – Série com mesma unidade de medida e suas médias iguais ou muito próximas. Neste caso S é melhor que o Cv.
II – Série com mesma unidade de medida e médias significativamente diferentes. Neste caso, podemos usar S ou Cv. (olho clínico).
III – Série com unidades de medidas diferentes e médias diferentes. Neste caso usa-se o Cv, descartando totalmente o S.
Ex.: Um teste estatístico aplicado a dois grupos de 50 alunos obteve-se:
	Grupo
	X nota
	S
	A
	6
	2
	B
	6,2
	1,5
	
	
	
	Grupo
	X nota
	Cv
	A
	6
	0,33
	B
	6,2
	0,25
Ex.: Uma empresa, o salário médio dos homens é de R$4.000,00 com desvio-padrão de R$1.500,00. E o salário médio das mulheres é de R$3.000,00 com desvio-padrão de R$1.200,00. Então:
Para os homens ➔ 
 	 
Para as mulheres ➔ 
 	 
Com relação aos homens as mulheres têm o salário com maior dispersão.
Quanto menor for o Cv, mais representativa será a média.
1) Cv menor ou igual a 15% ➔ Baixa Dispersão.
2) Cv maior que 15% e menor ou igual a 30 ➔ Média Dispersão.
3) Cv maior que 30% ➔ Alta Dispersão.
· Coeficiente de Assimetria
Notação: As
Fórmula ➔ 
1) As = 0, Distribuição Simétrica, ou seja, X = Mo = Md
2) As > 0, Distribuição Simétrica positiva, ou seja, Mo < Md < X
3) As < 0, Distribuição Simétrica negativa, ou seja, X < Md <Mo
· NOÇÕES DE AMOSTRAGEM
- Distinguiremos dois tipos de amostragem:
i – Probabilística
ii – Não probabilística
	A amostragem será probabilística se todos os elementos da população tiverem probabilidade conhecida, e diferente de zero, de pertencer à amostra. Isso implica um sorteio com regras bem determinadas, cuja realização só será possível se a população for finita e totalmente acessível.
	
População é o conjunto de todos os elementos (indivíduos ou objetos) que tem pelo menos uma característica em comum, e que está sob investigação ou estudo.
	Amostra é qualquer subconjunto da população, não vazio e necessariamente finito.
	As informações obtidas da população são chamadas de dados populacionais e sobre a amostra, de dados amostrais.
	Um levantamento estatístico (pesquisa) que abrange todos os elementos de uma população é denominado de CENSO.
· Amostra Casual Simples – ASA
Também chamada Simples ao Acaso é equivalente a um sorteio de loteria e segue a definição de amostragem probabilística.
Sendo N (população) e n (amostra), então o número de amostras igualmente prováveis será a combinação de N a n.
Na prática você pode realizar essa amostragem por enumeração da população de 1 a N, sorteando a seguir, por meio de um dispositivo aleatório qualquer, n números que comporão a amostra.
Ex.: Seja uma população de 800 elementos, da qual desejamos tirar uma amostra aleatória simples (ASA) de 50 elementos. Consideramos a população numerada de 001 a 800, sendo os números tomados sempre com 3 algarismos. A seguir sorteamos um dígito em nossa tabela de números aleatórios, assim os grupos com 3 algarismos nos servirão e irão indicar os elementos da amostra. Assim se a sequência for:
5 3 7 4 1 8 0 2 3 8 5 6 7 0 6 0 1 0 2 5 8 9 9 5 os elementos serão 537; 418; 023; 706; 010; 258. Os elementos 856 e 995 são desprezados, pois não constam na população.
Outra forma de extrair uma ASA de tamanho n, sendo n<N, é identificar os elementos da população em pequenos pedaços de papel e retira-los, ao acaso, sem restrição.
	
	A ASA tem a propriedade de qualquer subconjunto da população, com o mesmo número de elementos, ter a mesma probabilidade de fazer parte da amostra. Em particular cada elemento da população tem a mesma probabilidade de pertencer à amostra.
Ex.: Com objetivo de estudar uma característica dos funcionários de uma certa empresa, vamos extrair uma ASA de tamanho n=5.
Raimundo	Pedro		Mauro		Vilma
José		Cláudio	 	Felício	 	Josefina
Maria		Francisco	Fabrício	Graça
João		Carlito		Cláudia		Josefa
Joana		Paulo		Lúcia		Ilmair
Procedimento: Enumerar de 01 a 20 e sortear cinco elementos, ou enumerar de 0 a 9 e sortear com reposição os números.
· Amostragem Sistemática
Muitas vezes, é possível obter uma amostra de características parecidas com a ASA, por um processo bem mais rápido do que aquele que discutimos anteriormente. Por exemplo, se quisermos extrair uma amostra de 1.000 fichas, dentre uma população de 5.000 fichas, podemos retirar, sistematicamente, uma ficha a cada 5.000/1.000. Para garantir que cada ficha da população tenha a mesma probabilidade de pertencer à amostra, devemos sortear a primeira ficha dentre as cinco (5) primeiras, pois a relação N/n é chamada de intervalo de seleção, e que, no nosso caso o I.S. é 5.000/1.000 = 5. Digamos que o número sorteado entre 1 e 5 seja o 3, assim o primeiro elemento da amostra será a ficha de número 3, o segundo elemento será 3+5=8º elemento, ou seja, a oitava ficha e assim sucessivamente até chegarmos no tamanho da amostra desejada.
Quando os elementos da população se apresentam ordenados e a seleção é feita periodicamente.
Procedimento:
1 – Estabelecer um intervalo de amostragem 
2 – Selecionar um número aleatório entre 1 e o IS que vai ser o primeiro número da amostra.
3 – Escolher os outros elementos de acordo com o IS
Ex.: N=500 n=25
1) 
	2) 1 a 20 = 14. Logo 14 ➔ 1º elemento amostral.
	3) Escolher os demais de 20 em 20.
Ex.: Seja X1, ......, Xn as letras do alfabeto, N=23. Deseja-se extrair uma amostra sistemática para n=5.
	Solução: População = {A,B,C,D,F,G,H,I,J,L,M,N,O,P,Q,R,S,T,U,V,X,Z}
	
Digamos que o número sorteado entre 1 e 5 é o 3, então:
	
Amostra = {3º, 8º, 13º, 18º, 23º} = {C, H, N, S, Z}
Obs.:
1) O número, pode ser extraído, da Tabela de Números Aleatórios, que será o primeiro elemento da amostra. Os demais serão obtidos pelo I.S. a partir do primeiro elemento.
2) Vantagem: Facilidade na escolha quando se tem uma listagem.
3) Desvantagem: Se a característica sob estudo tiver uma variação que coincida com o ciclo de amostragem.
· Amostragem Estratificada
A técnica da amostra estratificada consiste em dividir a população em subgrupos, que denominaremos de estrato. Estes estratos são internamente homogêneos mais do que a população toda, com relação ao estudo da variável. Por exemplo, para estudar o interesse dos funcionários,de uma grande empresa, em realizar um programa de treinamento, podemos estratificar a população por nível de instrução, ou pelo nível hierárquico, ou ainda por setor de trabalho. Devemos escolher um critério de estratificação que forneça estratos bem homogêneos, com relação ao que se está estudando. Assim, um prévio conhecimento sobre a população em estudo é fundamental.
1) Proporcional
2) Uniforme
· Proporcional:
A proporção é mantida entre a população e a amostra.
Ex.: Se na população um estrato possui 20%, então terá na amostra também 20%.
	 
 População					Amostra
		N	 				 n
 Professor	Aluno		Servidor
· Uniforme
Seleciona a mesma quantidade de elementos em cada estrato.
Ex.: Seja as categorias A, B,C. Digamos n=12 indivíduos da escola, então devemos selecionar 4 indivíduos de cada categoria, formando os estratos.
Solução:
Estrato = n / categoria = 12/3 = 4 ind./cat.
Ex.: Seja X1, ...., X21 uma amostra com três categorias. Desejamos estratificar uniformemente.
Estrato = n/cat. = 21/3 = 7 elementos
· Exemplos de Amostragem e seus parâmetros.
Ex1.: Numa pesquisa epidemiológica, a população pode ser definida como todas as pessoas da região em estudo, no momento da pesquisa. O principal parâmetro a ser avaliado deve ser a porcentagem de pessoas contaminadas.
Ex2.: Numa pesquisa eleitoral, a três dias de uma eleição municipal, a população pode ser definida como todos os eleitores com domicílio eleitoral no município. Os principais parâmetros devem ser as porcentagens de votos de cada candidato à prefeitura, no momento da pesquisa.
Ex3.: Para planejar política de recursos humanos numa empresa com milhares de funcionários, podemos realizar uma pesquisa para avaliar alguns parâmetros da população de funcionários desta empresa, tais como: Tempo Médio de Serviço; Porcentagem com Nível Superior, Porcentagem com interesse num certo Programa de Treinamento.
Por que Amostragem?
1) Economia ➔ Em geral, torna-se bem mais econômico o levantamento de somente uma parte da população.
2) Tempo ➔ Numa pesquisa eleitoral para presidente, não haveria tempo suficiente para ouvir toda a população, há 3 dias dela.
3) Confiabilidade do Dados ➔ Quando se pesquisa um número reduzido de elementos, pode-se dar mais atenção aos casos individuais, evitando erros nas respostas.
4) Operacionalidade ➔ É mais fácil realizar operações de pequena escala. Um dos problemas críticos nos grandes CENSOS é o controle dos entrevistados.
5) População destrutíveis ➔ Quando sua população é composta por unidades que, ao se submeter a uma avaliação, ficará destruída ou acabada após análise.
Porque não à Amostragem?
1) População pequena ➔ Por exemplo: Mudança de horário num curso universitário, pois se tivermos 100 alunos deveríamos amostrar 80% deles.
2) Característica de Fácil Mensuração ➔ Talvez a população seja grande, mas a variável estudo é de fácil mensuração. Por exemplo: Mudança de um turno de trabalho, pois podemos ouvir todos empregados, que é o mais correto.
3) Necessidade de Alta Precisão ➔ A cada 10 anos o FIBGE realiza o Censo Demográfico para estudar diversas características da população brasileira. O número de habitantes é fundamental para se planejar o país.
Tamanho de uma Amostra (Dimensionamento)
O cálculo é bastante complexo, e aqui ficaremos restritos ao caso da amostragem aleatória simples. Também não levaremos em conta o aspecto financeiro, mesmo sabendo ser um dos mais importantes, pois o tamanho da amostra fica dependente desse fator.
Definição:
1) Parâmetro ou Estatística – Determina alguma característica descritiva dos elementos da população.
2) Estimativa – É o valor assumido pela estatística, considerando a particular amostra observada.
3) Erro Amostral – É a diferença entre o valor que a estatística pode acusar e o verdadeiro valor do parâmetro, que se deseja estimar.
Para a determinação do tamanho da amostra, o pesquisador precisa especificar o erro amostral tolerável, ou seja, o quanto ele admite errar na avaliação dos parâmetros de interesse.
Ex.: Numa pesquisa eleitoral é comum ouvir algo do tipo: “A pesquisa tem margem de erro de 2% para mais ou para menos”
Isso quer dizer que se o candidato com 20% da preferência, tem na verdade, um valor tolerável de 18% a 22%.
Formula:
1) Se a população é desconhecida, temos caso contrario 
Onde:
N – Tamanho da população
n – Tamanho da amostra
no – Uma primeira aproximação para o tamanho da amostra
eo – Erro amostral tolerável (margem de erro)
Distribuições Amostrais:
Considere todas as possíveis amostras de tamanho n que podem ser extraídas de determinada população. Se para cada uma delas se calcular um valor do estimador, tem-se uma distribuição amostral desse estimador.
População (N) - 	 Amostra (n) - 
 Inferência Estatística
Amostra Aleatória:
Seja X uma variável populacional que se deseja estudar. Uma amostra aleatória de X é o conjunto de n variáveis aleatórias independentes (X1,X2,...,Xn) tal que cada Xi (i=1, 2, 3, ...,n) tem a mesma distribuição da variável X.
Ex.: 
Estimador ou Estatística:
Dada uma amostra aleatória, estimador ou estatística é qualquer variável aleatória função dos elementos amostrais, ou seja:
Teorema (1):
A média da distribuição amostral das medias, denotada por é igual à média populacional , i é, .
Teorema (2):
Se a população é infinita, ou se amostragem é com reposição, então a variância da distribuição das médias, denotada por é dada por , onde é a variância populacional.
Teorema (3):
Caso contrário ao Teorema (2) 
Teorema (4):
Se a população tem ou não distribuição normal com media e variância , então a distribuição das medias amostrais será normalmente distribuídas:
1) Se infinita ou com reposição - 
2) Se finita - 
Distribuição Padronizada:
1) 			2) 
Distribuição Amostral das Frequências Relativas:
Seja X uma população infinita, e p a probabilidade (ou proporção) e certo evento X. Logo 1-p=q será a probabilidade de o evento não ocorrer.
Seja X1,X2,...,Xn uma amostra aleatória de n elementos dessa população e x o número de sucessos na amostra. É fácil ver que X~B(n,p), i é, binomial é o número de sucessos na amostra.
Distribuição Amostral da Frequência Relativa: será dada por 
Para a distribuição amostral de f será . Assim a sua distribuição padronizada será 
DETERMINAÇÃO DO TAMANHO DA AMOSTRA
Durante o plano de estágio de uma investigação, é importante a questão sobre tamanho da amostra. Como a amostragem é cara e demanda tempo, o investigador precisa conhecer de antemão o tamanho da amostra requerida para dar a precisão desejada.
A fim de determinar o tamanho da amostra é necessário para estimar a média populacional, especificarmos o d, a margem de erro desejada, e (1-) a probabilidade associada com a margem de erro associado, onde
.
Isto nos dá uma equação em que n é desconhecido. Resolvendo com relação à n temos o tamanho desejado da amostra.
n = 
Exemplo: Um liminologista deseja estimar a média de fosfato por unidade de volume contida em um lago. É conhecido por estudos em anos anteriores que o desvio-padrão tem um valor de. Qual o tamanho da amostra de água que liminologista deve analisar com 90% de significância para que o erro de estimação não exceda 0,8 ml/g.
Solução:
 = 90 ➔ ➔ d = 0,8 .
Calculando
n = = 67,65 68
ROTEIRO PARA SE CALCULAR O TAMANHO AMOSTRAL:
1ª) Analise o questionário, ou roteiro da entrevista e escolha uma variável que julgue mais importante para o estudo. Se possível, escolher mais do que uma;
2ª) Verifique o nível de mensuração da variável: se quantitativa ou qualitativa.
3ª) Considere o tamanho da população: Infinita ou finita.
4ª) Se a variável escolhida for quantitativa e a população considerada infinita, a fórmula será.
 
5ª) Se a variável for quantitativa e a população finita, temos:
 
6ª) Se a variável escolhida for qualitativa e a população considerada infinita,temos:
 	
7ª) Se a variável escolhida for qualitativa, e a população finita, temos:
 
Exemplo:
I – Suponha que a variável escolhida num estudo seja o valor de um imóvel e que a população é infinita. Pela especificação da área o DP=10 reais (Dispersão em torno da média). Logo, admitindo um nível de confiança de 95,5 % e um erro amostral de 1,5 reais e z=2, tem-se.
 imóveis
II – Admita agora N = 600, usando o exemplo acima,
 imóveis
III – Suponha que a variável escolhida num estudo seja a população de eleitores favoráveis ao candidato X e que o investigador tenha elementos para suspeitar que essa porcentagem seja de 30%. Admita a população infinita e que se deseja um nível de significância de 99% e um erro amostral de 2% (Diferença entre a verdadeira proporção de eleitores do candidato X e a estimativa a ser calculada na amostra seja no máximo de 2%). Assim, 
z = 2,57 = 30% = 0,3 = 1 – p = 0,7 d = 2% = 0,02
 
IV – Admita a mesma situação acima, assumindo população seja finita e igual a 20.000 eleitores, logo
 
Observação:
1 – São fórmulas básicas para qualquer tipo de amostra a ser composta.
2 – Se o investigador escolhe mais de uma variável, deve optar pelo maior “n” obtido.
3 – Quando você não tiver condições de prever o valor, admita = 0,50 e =0,50, pois dessa forma, você terá o maior tamanho amostral, admitindo-se constantes os demais elementos.
COEFICIENTE DE CORRELAÇÃO
A covariância entre variáveis é uma estatística que mede o grau de dependência. Se Cov(X,Y) é diferente de zero, sabemos que X e Y não são independentes. Todavia, o tamanho da Cov(X,Y) não nos diz muito, porque depende em grande parte dos tamanhos de X e Y. Definimos, então, uma nova grandeza, chamada correlação, que pode ser usada diretamente para avaliar o grau de relacionamento entre X e Y. Então
Dados n pares de valores (x1,y1), ....., (xn,yn) chama-se de coeficiente de correlação entre duas variáveis X e Y como,
ou seja, a média dos produtos dos valores reduzidos (padronizados) da variável.
A propriedade mais importante do coeficiente de correlação é que seu valor está sempre no intervalo . Se X e Y são independentes (não correlacionados), então obviamente sua correlação é zero. Se o coeficiente de correlação é positivo, sabemos que, quando X tende a crescer, o mesmo ocorre com Y. As variáveis dizem-se então correlacionadas positivamente. X e Y estarão tanto mais correlacionadas quanto mais próximo de 1 estiver o coeficiente de correlação. Por outro lado, se a correlação é negativa, Y tende a se tornar pequeno quando X cresce. As variáveis dizem-se correlacionadas negativamente, e o relacionamento negativo é tanto mais forte quanto mais próximo de -1 estiver o coeficiente de correlação.
Em geral se a correlação entre duas variáveis aleatórias é igual a 1, então existe uma relação entre elas da forma geral:
Y=aX+b
Em que a e b são constantes e a>0. Essa se chama uma relação linear, pois, se desenharmos o gráfico, todos os pontos que representam possíveis valores de X e Y estarão sobre uma reta com inclinação positiva.
Se tivermos a relação Y=aX+b, mas com a<0, então a correlação é -1. Como antes, os pontos que representam possíveis valores estarão sobre uma reta, agora com coeficiente negativo.
Exemplo:
A tabela abaixo registra as rentabilidades anuais das A e B negociadas na Bolsa de Valores. Pede-se calcular e analisar a correlação entre as variáveis.
Sol: resposta igual a - 0,8824.
RENTABILIDADE DAS AÇÕES A e B
	ANO
	Ação (%) A
	Ação (%) B
	1991
	9,00
	12,00
	1992
	10,00
	10,50
	1993
	12,00
	9,50
	1994
	10,50
	11,00
	1995
	9,50
	12,50
REGRESSÃO LINEAR SIMPLES
Anteriormente definimos o coeficiente de correlação como uma medida de dependência linear entre duas variáveis. Por outro lado, podemos estar interessados em saber como é estabelecida essa relação de casualidade. Isto é, queremos quantificar qual é a mudança observada em uma das variáveis quando variamos os valores da outra.
Exemplo:
Em uma região, acredita-se que o gado alimentado em um determinado pasto tem um ganho de peso maior que o usual. Estudos de laboratório detectaram uma substância no pasto, e deseja-se verificar se ela pode ser utilizada para melhorar o ganho de peso dos bovinos. Foram escolhidos 15 bois de mesma raça e idade, e cada animal recebeu uma determinada concentração da substancia X (mg/l). O ganho de peso após 30 dias, denotado por Y (kg), foi anotado e os dados foram os seguintes:
	X
	0,2
	0,5
	0,6
	0,7
	1,0
	1,5
	2,0
	2,5
	3,0
	3,5
	4,0
	4,5
	5,0
	5,5
	6,0
	Y
	9,4
	11,4
	12,3
	10,2
	11,9
	13,6
	14,2
	16,2
	16,2
	17,7
	18,8
	19,9
	22,5
	24,7
	23,1
Observando a tabela de dados, notamos que, de fato, à medida que aumentamos a concentração da substancia, ocorre um aumento de peso. Assim o coeficiente de correlação linear entre a concentração X e o ganho de peso Y será
Desta forma, vemos que a variação de peso é sensivelmente influenciada pela variação da concentração da substância.
Para observarmos como as variáveis se relacionam, construímos um gráfico de dispersão, como segue:
Nota-se que os pontos tendem a se alinhar sobre uma reta, cuja inclinação reflete o sinal positivo observado no coeficiente de correlação calculado. Sendo assim temos um modelo estatístico que é da forma . O comportamento de Yi é explicado em parte por Xi, pela função g(Xi), e, em outra parte não captada por essa função, representada por ei. Varias opções para g(Xi) podem ser utilizadas, mas a que define o modelo de regressão linear simples é . Portanto para um dado valor xi de Xi, o modelo será reescrito assim .
Em modelos de regressão, a variável Yi é, comumente, chamada variável resposta ou dependente, ao passo que a variável Xi é dita variável independente, explicativa ou ainda covariável. Aqui os parâmetros de nosso interesse são e . Parâmetro é o valor esperado para a variável dependente Yi quando Xi é igual a zero. O parâmetro representa o acréscimo esperado na variável resposta, quando Xi , covariável, é acrescida de uma unidade. Isto nos dá uma ideia a respeito da intensidade com a qual Xi atua na resposta.
Matematicamente falando, temos que resolver um sistema de equações por meio de derivadas da soma de quadrados SQ(,). Após as contas a solução da equação nos dará os estimadores de mínimos quadrados, para e . Assim
 
Retomando o nosso exemplo, vimos que o diagrama de dispersão sugere que uma reta pode ser utilizada para representar o efeito da concentração de certa substância no pasto (X), no ganho de peso bovino (Y).
Dessa forma vamos calcular os estimadores de e , então:
Temos n=15
			
Logo
Portanto, a reta ajustada para X=xi será , ou seja, 
A interpretação dos valores estimados é a seguinte. O ganho de peso esperado em bovinos que não receberam a substância X é de 9,55 kg, i é (xi=0). Por outro lado, um aumento de 1 mg/l na concentração de X implica em um ganho médio esperado de 2,44 kg.
Exemplo:
Dez alunos foram submetidos a um teste de estatística e matemática, obtendo as seguintes notas:
	Aluno
	A
	B
	C
	D
	E
	F
	G
	H
	I
	J
	MATEMATICA
	6
	5
	9
	10
	3
	4
	8
	7
	6
	2
	ESTATISTICA
	7
	6
	10
	9
	2
	3
	9
	5
	6
	3
1) Determine:
a) A variância de X e Y
b) Correlação Linear entre (X,Y)
COEFICIENTE DE DETERMINAÇÃO - 
O Coeficiente de Determinação, também conhecido como Poder Explicativo da Regressão tem por objetivo avaliar a qualidade do ajuste da reta aos pontos observados. Seu valor fornece a proporção da variação total da variável y explicada pela variável x através da função ajustada.
Podemos expressar R2 pala equação matemática.
 ou ainda 
Quando R2=0, a variação explicada de y é zero, a reta ajustada é paralela ao eixo x. Se R2=1, a reta ajustada explica toda a variação de y. Assim sendo, quanto mais próximo da unidade o valor de R2, melhor a qualidade do ajuste da funçãoaos pontos do diagrama de dispersão e quanto mais próximo do zero, pior será a qualidade do ajuste.
Quanto ao ajustamento – R2 pode ser interpretado no sentido relativo, então:
1) R2 entre 65% e 75% – Regular – [65,75[
2) R2 entre 75% e 85% – Bom – [75,85]
3) R2 acima de 85% – Ótimo – ]85,100]
4) R2 abaixo de 65% demonstra que a variável independente x não explica com segurança a variação de y. Neste caso deve ser encontrada outra causa (variável independente x) que melhor explique ou justifique a variação de y.
Se o Poder Explicativo, R2=98%, significa que 98% das variações de y são explicadas pela variação de x através da função escolhida para relacionar as duas variáveis e, 2% (complementar) são atribuídas a outras causas não contempladas na análise efetuada.
Em nosso exemplo, cooperativas, temos:
.
EXERCÍCIOS
1) O gerente de vendas está sempre insistindo com os vendedores que a venda dos seus lotes tem forte relação com as visitas realizadas pelos corretores aos seus clientes. A empresa anotou os dados abaixo. Calcule e comente o coeficiente de correlação.
	NOME
	Contatos
	Lotes
	Samuel
	140
	42
	Ricardo
	330
	105
	Suely
	190
	66
	Manoel
	350
	87
	Ivany
	110
	50
	Rafaela
	135
	55
	Carlos
	140
	51
	João
	235
	60
	Susana
	70
	40
	Marcos
	320
	87
	Andrea
	220
	78
2) O setor de marketing de uma Empresa apresentou ao gerente, os dados referentes aos gastos com brindes distribuídos pelos vendedores aos revendedores. O gerente deseja conhecer a relação existente entre aqueles gastos e as correspondentes vendas da Empresa. Identificar as variáveis, determinar a reta ajustada, encontrar o R2 e prever a quantidade que se espera vender se o orçamento de gastos com brindes destinar apenas 5,20 para um determinado mês. Os dados são os seguintes:
	Qtd.Vendida
 (1000unid)
	Gastos c/
Brindes
	5,0
	1,40
	7,0
	3,25
	7,7
	4,00
	8,0
	5,00
	5,7
	2,00
	6,7
	2,38
	6,6
	2,80
	6,5
	2,70
	7,9
	4,55
	7,8
	4,02
3) Suponha que uma Indústria de congelados tenha a seguinte produção de alimentos durante o período de JAN a SET/2005. Estime a reta de regressão. Calcule coeficiente de correlação e o R2. Comente os resultados. Estime Out, Nov e Dez.
	Meses
	Produção (1000)
	JAN
	1,2
	FEV
	2,3
	MAR
	3,2
	ABR
	3,5
	MAI
	3,9
	JUN
	5,1
	JUL
	5,6
	AGO
	6,5
	SET
	6,3
4) As áreas e seus respectivos valores de compra estão registrados na tabela seguinte. Pede-se, calcular o coeficiente de correlação e a Reta de Regressão e analisar os resultados.
	Área (m2) 
	Preço ($)
	257,52
	2.500
	199,25
	2.200
	158,17
	2.300
	214,65
	2.400
	225,61
	2,500
5) Conhecidos os valores das rentabilidades das ações tipo On (X) e Pn (Y) de um grupo de empresas registradas na tabela seguinte, pede-se obter a reta de regressão linear das rentabilidades das ações Pn em função das ações On.
 Resposta Pn=4,7014 + 1,4155xOn.
	ON (%)
	37,5
	-45
	0,0
	31,5
	-1,0
	20,1
	212,5
	46,3
	11,11
	43
	67
	9,4
	PN (%)
	20,9
	5,4
	49,4
	31,1
	30
	28,0
	367,1
	6,9
	45,4
	27,8
	43,1
	13,4
1940	1950	1960	1970	41236315	51944397	70119071	93139037	
1940	1950	1960	1970	41236315	51944397	70119071	93139037	
1975	1976	1977	90	120	150	
41236315	51944397	70119071	93139037	
60	20	20	
60	20	20	
4	4	4	
7	7	7	
Gráfico de Dispersão
Y	0.2	0.5	0.6	0.7	1	1.5	2.5	3	3.5	4	4.5	5	5.5	6	9.4	11.4	12.3	10.199999999999999	11.9	14.2	16.2	16.2	17.7	18.8	19.899999999999999	22.5	24.7	23.1	Substância (mg/l)
Peso (kg)
n
k
=
o
o
n
N
n
.
N
n
+
=
q
q
ˆ
(
)
(
)
2
2
d
m
Þ
d
m
,
N
~
X
,
N
~
X
i
d
(
)
q
q
 
de
 
estimador 
 
um
 
é
 
...,
,
ˆ
,
2
1
n
x
x
x
f
=
å
=
=
n
i
i
X
n
X
1
1
(
)
X
m
m
(
)
(
)
m
=
m
=
X
X
E
(
)
X
2
d
(
)
[
]
(
)
n
X
X
E
2
2
2
d
=
d
=
m
-
2
d
(
)
[
]
(
)
÷
ø
ö
ç
è
æ
-
-
d
=
d
=
m
-
1
2
2
2
N
n
N
n
X
X
E
2
d
÷
÷
ø
ö
ç
ç
è
æ
d
m
n
,
N
~
X
d
2
(
)
(
)
800
790
780
810
820
800
5
1
1
5
4
3
2
1
=
+
+
+
+
=
+
+
+
+
=
X
X
X
X
X
n
X
÷
÷
ø
ö
ç
ç
è
æ
÷
ø
ö
ç
è
æ
-
-
d
m
1
2
N
n
N
n
,
N
~
X
d
n
X
Z
i
i
2
d
m
-
=
1
2
-
-
d
m
-
=
N
n
N
n
X
Z
i
i
n
x
f
p
ˆ
=
=
(
)
(
)
p
np
n
X
E
n
n
X
E
f
E
=
=
=
÷
ø
ö
ç
è
æ
=
1
1
(
)
(
)
n
pq
npq
n
X
Var
n
n
X
Var
f
Var
=
=
=
÷
ø
ö
ç
è
æ
=
2
2
1
1
30
³
n
÷
ø
ö
ç
è
æ
n
pq
,
p
N
~
f
d
n
pq
p
f
Z
i
i
-
=
a
X
n
z
d
s
.
=
2
ú
û
ù
ê
ë
é
d
z
s
4
=
s
4
=
s
)
1
(
a
-
05
,
0
2
=
a
645
,
1
=
z
2
8
,
0
4
*
64
,
1
ú
û
ù
ê
ë
é
@
i
n
i
i
f
X
n
X
å
=
=
1
1
2
.
ú
û
ù
ê
ë
é
=
d
z
n
s
2
2
2
2
2
.
)
1
.(
.
.
.
s
s
z
N
d
N
z
n
+
-
=
2
2
ˆ
.
ˆ
.
d
q
p
z
n
=
eis
desfavoráv
 
proporção
 
-
 
ˆ
favoráveis
 
proporção
 
-
 
ˆ
q
p
q
p
z
N
d
N
q
p
z
n
ˆ
.
ˆ
.
)
1
(
.
ˆ
.
ˆ
.
2
2
2
+
-
=
178
77
,
177
5
,
1
10
2
2
@
=
÷
ø
ö
ç
è
æ
=
x
n
138
31
,
137
10
.
2
)
1
600
(
5
,
1
600
.
10
.
2
2
2
2
2
2
@
=
+
-
=
n
p
ˆ
q
ˆ
1
,
1
11
.
10
1
=
=
X
468
.
3
57
,
467
.
3
)
02
,
0
(
)
70
,
0
).(
30
,
0
.(
)
57
,
2
(
2
2
@
=
=
n
956
.
2
33
,
955
.
2
)
70
,
0
).(
30
,
0
.(
)
57
,
2
(
)
1
000
.
20
(
)
02
,
0
(
)
000
.
20
).(
70
,
0
).(
30
,
0
.(
)
57
,
2
(
2
2
2
@
=
+
-
=
n
p
ˆ
p
ˆ
q
ˆ
(
)
(
)
(
)
(
)
(
)
å
å
å
å
-
-
-
=
-
-
=
2
2
2
2
 
 
)
(
)
(
1
,
y
n
y
x
n
x
y
x
n
y
x
Y
dp
X
dp
y
y
x
x
n
Y
X
Corr
i
i
i
i
i
i
1
1
£
£
-
)
Y
,
X
(
Corr
(
)
(
)
(
)
(
)
99
,
0
14
,
16
15
43
,
239
.
4
70
,
2
15
39
,
163
14
,
16
70
,
2
15
55
,
785
2
2
2
2
2
2
,
=
-
-
-
=
-
-
-
=
å
å
å
x
x
x
x
y
n
y
x
n
x
y
x
n
y
x
i
i
i
i
Y
X
r
(
)
i
i
i
e
X
g
Y
+
=
(
)
i
i
X
X
g
b
+
a
=
i
i
i
e
X
Y
+
b
+
a
=
a
b
x
ˆ
y
ˆ
b
-
=
a
å
å
=
=
-
-
=
b
n
i
i
n
i
i
i
x
n
x
y
x
n
y
x
ˆ
1
2
2
1
70
2
,
x
=
44
16
,
y
=
55
785
15
1
,
y
x
i
i
i
=
å
=
39
163
15
1
2
,
x
i
i
=
å
=
44
2
70
2
15
39
163
44
16
70
2
15
55
785
1
2
2
1
,
,
x
,
,
x
,
x
,
x
n
x
y
x
n
y
x
ˆ
n
i
i
n
i
i
i
=
-
-
=
-
-
=
b
å
å
=
=
55
9
70
2
44
2
44
16
,
,
x
,
,
x
ˆ
y
ˆ
=
-
=
b
-
=
a
7
,
6
268
.
40
1
=
=
X
i
i
x
ˆ
ˆ
y
ˆ
b
+
a
=
i
i
x
,
,
y
ˆ
44
2
55
9
+
=
2
R
(
)
(
)
÷
÷
ø
ö
ç
ç
è
æ
-
÷
÷
ø
ö
ç
ç
è
æ
-
=
å
å
å
å
n
y
y
n
x
x
b
R
i
i
i
i
2
2
2
2
2
2
2
2
r
=
R
(
)
%
01
,
98
9801
.
0
R
 
portanto
 
e
 
99
,
0
R
 
então
 
como
 
e
 
99
,
0
2
2
2
2
2
=
=
=
=
=
r
r
R
(
)
0
1
1
=
-
=
å
å
=
=
n
i
i
n
i
X
X
di
(
)
0
.
1
1
=
-
=
å
å
=
=
i
n
i
i
i
n
i
f
X
X
f
di
k
At
h
=
(
)
(
)
2
1
2
1
2
1
å
å
å
=
=
=
-
<
-
=
n
i
i
n
i
i
n
i
X
X
X
X
di
(
)
(
)
i
n
i
i
i
n
i
i
i
n
i
f
X
X
f
X
X
f
di
.
.
.
2
1
2
1
2
1
å
å
å
=
=
=
-
<
-
=
1
X
k
X
k
k
k
n
n
n
X
n
X
X
+
+
+
+
=
...
.
...
.
1
1
1
X
k
n
X
k
n
kX
X
k
Y
i
i
=
=
=
=
=
å
å
å
n
Y
Y
 
e
 
i
k
X
Y
=
5
,
79
6360
.
80
1
=
=
X
fpost
fant
fpost
h
l
Mo
+
+
=
.
75
14
14
14
20
65
.
=
+
+
=
+
+
=
fpost
fant
fpost
h
l
Mo
4
8
,
3
5
19
@
=
=
h
Mediano
Elemento
X
n
 
2
1
=
+
2
1
+
n
X
4
2
1
7
 
 
 
 
X
o
é
Mediano
Elemento
X
Md
=
=
+
Mediano
 
Elemento
 
Primeiro
2
=
n
X
Mediano
 
Elemento
 
Segundo
1
2
=
+
n
X
2
1
2
2
+
+
=
n
n
X
X
Md
4
2
8
X
Mediano
 
Elemento
 
Primeiro
=
=
X
5
1
2
8
X
Mediano
 
Elemento
 
Segundo
=
=
+
X
13
2
14
12
2
2
5
4
1
2
2
=
+
=
+
=
+
=
+
X
X
X
X
Md
n
n
4
2
4
4
2
2
26
25
1
2
50
2
50
=
+
=
+
=
+
=
+
X
X
X
X
Md
fmd
Fant
Emd
h
l
Md
-
+
=
.
31
,
77
26
24
40
.
20
65
=
-
+
=
Md
(
)
å
=
-
=
n
i
i
X
X
X
n
S
1
2
2
1
(
)
i
n
i
i
X
f
X
X
n
S
.
1
1
2
2
å
=
-
=
)
(
X
Var
S
X
=
75
,
009
.
1
80
780
.
80
2
=
=
x
S
7766
,
31
75
,
009
.
1
=
=
X
S
100
)
(
x
X
S
X
CV
x
=
%
5
,
37
100
000
.
4
500
.
1
)
(
=
=
x
X
CV
%
40
100
000
.
3
200
.
1
)
(
=
=
x
X
CV
x
o
S
M
X
AS
-
=
n
N
IS
=
20
25
5000
=
=
=
n
N
IS
5
6
,
4
5
23
@
=
=
IS
2
1
o
o
e
n
=
AULA_EXP_DE_DADOS (1)

UNINORTE

Ferramentas de estudo

Conteúdos escolhidos para você

Bioestatista e estatistica vital

Introdução à Bioestatística

04_Estatistica

Notas de Estatística - MAT236

BIOESTATÍSTICA

Perguntas dessa disciplina

Uma indústria de alimentos está revisando seus relatórios de qualidade. A gerente de dados notou que, em semanas com picos de demanda, alguns tempos d

Questão 3/5 - Análise Preditiva Ler em voz alta Uma indústria de alimentos está revisando seus relatórios de qualidade. A gerente de dados notou que,

Em um conjunto de dados a medida de dispersão que calcula a diferença entre o maior e o menor valor denominamos de amplitude. Ela apresenta a dispersã

Em um mundo cada vez mais data-driven, a análise de dados se tornou fundamental para a tomada de decisões em diversas áreas, desde negócios até pesqui

Em estatística, uma dimensão representa uma característica ou atributo que descreve um conjunto de dados. Pense em uma dimensão como uma lente atra...

Conteúdos escolhidos para você

Bioestatista e estatistica vital

Introdução à Bioestatística

04_Estatistica

Notas de Estatística - MAT236

BIOESTATÍSTICA

Perguntas dessa disciplina

Uma indústria de alimentos está revisando seus relatórios de qualidade. A gerente de dados notou que, em semanas com picos de demanda, alguns tempos d

Questão 3/5 - Análise Preditiva Ler em voz alta Uma indústria de alimentos está revisando seus relatórios de qualidade. A gerente de dados notou que,

Em um conjunto de dados a medida de dispersão que calcula a diferença entre o maior e o menor valor denominamos de amplitude. Ela apresenta a dispersã

Em um mundo cada vez mais data-driven, a análise de dados se tornou fundamental para a tomada de decisões em diversas áreas, desde negócios até pesqui

Em estatística, uma dimensão representa uma característica ou atributo que descreve um conjunto de dados. Pense em uma dimensão como uma lente atra...

Mais conteúdos dessa disciplina