Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Gonçalo X. SilvaGonçalo X. SilvaGonçalo X. SilvaGonçalo X. Silva ···· Alda Carvalho Alda Carvalho Alda Carvalho Alda Carvalho 
 
mutongui
mutongui
Gonçalo X. Silva · Alda Carvalho
mutongui
mutongui
mutongui
mutongui
mutongui
mutongui
mutongui
mutongui
Carvalho
mutongui
mutongui
 iiiiiiii 
ÍNDICE 
 
1. ESTATÍSTICA DESCRITIVA.................................................................................................. 1 
1.1. INTRODUÇÃO ............................................................................................................................ 1 
1.2. DEFINIÇÕES ............................................................................................................................... 1 
1.3. CLASSIFICAÇÃO DOS DADOS ..................................................................................................... 2 
1.4 CARACTERIZAÇÃO DOS DADOS ................................................................................................. 3 
1.5 ESTATÍSTICAS AMOSTRAIS ........................................................................................................ 10 
1.5.1. Medidas de localização ............................................................................................................................... 10 
1.5.2. Medidas de dispersão................................................................................................................................... 16 
1.6. DADOS BIVARIADOS ................................................................................................................ 22 
1.6.1.Regressão linear simples .............................................................................................................................. 23 
1.6.2. Correlação. Coeficiente de determinação.................................................................................................. 24 
1.6.3. Método dos mínimos quadrados ................................................................................................................ 25 
E S T A T Í S T I C A D E S C R I T I V A 
 1111 
1. Estatística Descritiva 
1.1. Introdução 
A estatística é uma disciplina cujo objecto principal é a recolha, a compilação, a 
análise e a interpretação de dados. No sentido de clarificar o que se entende por 
análise e interpretação dos dados vamos desde já estabelecer uma distinção entre 
estatística descritiva e inferência estatística. 
No âmbito da estatística descritiva procura-se sintetizar e representar de uma 
forma compreensível a informação contida num conjunto de dado. Esta tarefa, 
que adquire importância quando o volume de dados for significativo, 
materializa-se na construção de tabelas, de gráficos ou no cálculo de medidas que 
representem convenientemente a informação contida nos dados. 
O objectivo da inferência estatística é mais ambicioso do que o da estatística 
descritiva e, naturalmente, os métodos e técnicas utilizados são mais sofisticados. 
Com base na análise de um conjunto limitado de dados (uma amostra), 
pretende-se caracterizar o todo a partir do qual tais dados foram obtidos (a 
população). 
Neste capítulo vamos rever alguns conceitos e técnicas utilizadas na estatística 
descritiva (nomeadamente o cálculo das medidas mais importantes). 
1.2. Definições 
População: Conjunto de todos os elementos que contêm uma certa característica 
que estamos interessados em estudar. Sendo comum a todos os elementos, esta 
característica varia em quantidade ou qualidade. Uma população pode ter 
dimensão finita ou infinita. 
Amostra: Subconjunto de dados que pertencem à população. As amostras 
aleatórias são escolhidas através de processos (técnicas de amostragem) que nos 
garantem que o subconjunto obtido é representativo da população. 
Algumas das razões que nos levam a estudar a amostra em vez de estudarmos a 
população são as seguintes: 
Capítulo 
1 
E S T A T Í S T I C A D E S C R I T I V A 
 2222 
1. População infinita. 
2. Custo em termos de tempo ou de dinheiro que um estudo a toda a 
população implicaria. 
3. Recolha de informação através de testes destrutivos. 
4. Impossibilidade de aceder a todos os elementos da população. 
Fases do Método de Análise Estatística 
No âmbito da Estatística, o método de abordagem dos problemas pode ser 
decomposto nas cinco fases que seguidamente se enunciam: 
1. Estabelecimento do objectivo da análise a efectuar (isto é, das questões que 
se colocam e que se pretendem ver resolvidas) e definição da(s) 
população(ões) correspondente(s). 
2. Concepção de um procedimento adequado para a selecção de uma ou 
mais amostras (escolha das técnicas de amostragem a utilizar). 
3. Recolha de dados. 
4. Análise dos dados (Estatística Descritiva). 
5. Estabelecimento de inferências acerca da população (Inferência Estatística). 
1.3. Classificação dos dados 
Os dados que constituem uma amostra podem ser expressos em quatro escalas 
distintas: nominal, ordinal, de intervalos e absoluta. 
Os dados dizem-se expressos numa escala nominal quando cada um deles for 
identificado pela atribuição de um nome que designa uma classe. As classes 
devem ser exaustivas (qualquer dado pertence a uma das classes), mutuamente 
exclusiva (cada dado pertence a uma só classe) e não ordenáveis (não existe 
nenhum critério relevante que permita estabelecer preferência por qualquer classe 
em relação às restantes). 
Exemplo 1.1: Classificação das pessoas pela cor do cabelo: preto, castanho, 
branco, loiro, etc. 
O que distingue a escala ordinal da escala nominal é a possibilidade de se 
estabelecer uma ordenação das classes nas quais os dados são classificados, 
segundo algum critério relevante. 
Exemplo 1.2: Classificação de notas em mau, suficiente, bom, ou muito bom. 
E S T A T Í S T I C A D E S C R I T I V A 
 3333 
Como se percebe a escala nominal e ordinal dizem respeito a dados qualitativos 
(representam qualidades). 
Relativamente aos dados quantitativos (representam quantidades) temos a escala 
de intervalo e a escala absoluta. 
No caso da escala de intervalo, os dados são diferenciados e ordenados por 
números expressos numa ordem cuja origem é arbitrária. Neste caso pode-se 
atribuir um significado à diferença entre esses números, mas não à razão entre 
eles. 
Exemplo 1.3: Temperaturas registadas em oC, às 8 horas de dias sucessivos. Note-
se que neste caso, se em três dias consecutivos a temperatura atingir 5oC, 10oC, e 
20oC, não faz sentido dizer-se que no terceiro dia esteve duas vezes mais quente 
do que no segundo. De facto se a temperatura fosse expressa noutra escala, a 
razão entre as temperaturas registadas naqueles dias seria diferente. 
Contrariamente ao que sucede com a escala de intervalo, a escala absoluta tem 
origem fixa. Nesta escala, zero significa nada (note-se que, anteriormente, dizer 
que a temperatura era de 0oC não significa que não havia temperatura). Como 
consequência do facto de a origem ser fixa, a razão entre dados expressos numa 
escala absoluta passa a ter significado. 
Exemplo 1.4: Pesos de pessoas expressos em kg. 
Entre os dados quantitativos, sejam eles expressos em escalas de intervalos ou 
absolutas, é conveniente fazer desde já a distinção entre discretos e contínuos. Os 
dados são discretos quando são observações de uma variável aleatória discreta e 
contínuos quando são observações de uma variável aleatória contínua (o conceito 
de variável aleatória discreta e variável aleatória contínua pode ver-se mais 
adiante – capítulo 3). 
1.4 Caracterização dos dados 
Não há uma estratégia única para iniciar o estudo descritivo, embora uma 
primeira recomendação seja começar por uma exploração visual dos dados. 
Muitas vezes há registos que não se encaixam no padrão geral, e por isso mesmo 
deve ser averiguado a veracidade dos mesmos. Muitas vezes tratam-se de erros 
de observação ou de registo, como também são provenientes de alterações do 
fenómeno em estudo. 
Para se teruma ideia mais concreta acerca da forma dos nossos dados, 
recorremos a gráficos como histogramas ou diagrama de caule-e-folhas. Embora 
estas análises já se encontrem disponíveis em vários programas e calculadoras, 
para uma melhor interpretação das mesmas é conveniente conhecer as técnicas 
utilizadas. Para isso, relativamente a um estudo descritivo é importante: 
E S T A T Í S T I C A D E S C R I T I V A 
 4444 
• Ordenação dos dados - onde se começa a ter uma ideia de algumas 
medidas de localização, como a mediana, quartos ou extremos; 
• Estatísticas amostrais – com algumas medidas temos um resumo dos 
nossos dados relativamente à localização, dispersão e forma; 
• Agrupamento dos dados e representação gráfica – revela-nos a forma 
possível para a nossa população em estudo e permite-nos escolher a classe 
de modelos que devemos explorar em análises mais sofisticadas. 
A caracterização de dados que veremos diz respeito a uma amostra univariada , 
ou seja, quando cada um dos dados que a integram, mede numa escala qualquer, 
apenas um atributo. 
Dados qualitativos 
As formas mais comuns de descrever amostra univariadas com dados expressos 
nas escalas nominal ou ordinal envolvem o recurso a tabelas de frequências, a 
diagramas de barras ou a diagramas circulares. Em todos os casos o objectivo é o 
de representar a forma como os dados se distribuem por um conjunto de 
diferentes categorias. O número de dados contidos numa categoria qualquer 
),...,1( kii = designa-se por frequência absoluta da categoria i . Denotando por in 
tal frequência e admitindo que as categorias especificadas contêm todos os dados, 
o número total destes vem dado por : 
 ∑=
=
k
i
inn
1
 (1) 
O número total de dados que pertencem a uma categoria qualquer i , quando 
expressos como uma proporção do número total de dados, designa-se por 
frequência relativa da categoria e é dada por, 
 
n
n
f i
i = (2) 
As frequências relativas são muitas vezes definidas em termos percentuais. 
Exemplo 1.5: 
Numa amostra constituída por 120 peças, constatou-se que 100 não tinham 
qualquer defeito, 15 tinham defeitos mas eram recuperáveis e 5 eram 
irrecuperáveis. Na tabela seguinte representam-se as frequências (absolutas e 
relativas) dos dados que constituem esta amostra: 
Categoria de peças Frequência absoluta Frequência relativa 
Sem defeito 100 83.3% 
Recuperáveis 15 12.5% 
Irrecuperáveis 5 4.2% 
TOTAL 120 100% 
E S T A T Í S T I C A D E S C R I T I V A 
 5555 
Diagrama circular
83%
13%
4%
Sem defeito
Recuperáveis
Irrecuperáveis
 
A informação contida na tabela de frequências e nos diagramas, que inclui as 
diferentes categorias nas quais os dados da amostra foram classificados, designa-
se por distribuição amostral. 
Dados quantitativos 
As técnicas utilizadas para descrever amostras univariadas constituídas por 
dados quantitativos podem ser classificadas em três grupos: 
1. formas de representação tabular ou gráfica de dados, 
2. estatísticas amostrais, e 
3. representação gráfica de estatísticas. 
Na representação tabular existem ainda dois tipos de frequências: as frequências 
absoluta acumuladas e as frequências relativas acumuladas. Como os nomes 
indicam estas frequências representam para cada categoria i , a frequência 
absoluta (relativa) de dados que pertencem à classe ou a classes anteriores. 
Devido à necessidade de as categorias estarem ordenadas só podemos falar de 
frequências acumuladas quando os dados estão em escalas ordinais, de intervalo 
ou absoluta. 
Valor da 
variável 
(xi) 
Frequência 
absoluta 
(ni) 
Frequência 
relativa 
(fi) 
Frequência absoluta 
acumulada 
(Ni) 
Frequência relativa 
acumulada 
(Fi) 
1x 1n 1
1
n
f
n
= 1 1N n= 1 1F f= 
2x 2n 2
2
n
f
n
= 2 1 2N n n= + 2 1 2F f f= + 
M M M M M 
nx nn n
n
n
f
n
= 1 ...n nN n n n= + + = 1 ... 1n nF f f= + + = 
TOTAL n 1 - - 
 
E S T A T Í S T I C A D E S C R I T I V A 
 6666 
Exemplo 1.6: 
No âmbito de um estudo realizado com o objectivo de caracterizar o 
comportamento dos clientes de um hipermercado, analisou-se o número de 
ocupantes por veículo para 1000 veículos que entraram no parque automóvel do 
referido hipermercado, num Sábado. Os resultados encontram-se resumidos na 
tabela seguinte: 
Número de 
ocupantes por 
veículo 
Frequência 
absoluta 
Frequência 
relativa 
Frequência 
absoluta 
acumulada 
Frequência 
relativa 
acumulada 
1 103 10.3% 103 10.3% 
2 147 14.7% 250 25.0% 
3 248 24.8% 498 49.8% 
4 197 19.7% 695 69.5% 
5 152 15.2% 847 84.7% 
6 100 10.0% 947 94.7% 
7 53 5.3% 1000 100% 
TOTAL 1000 100% 
DIAGRAMA DE BARRAS
0
50
100
150
200
250
300
1 2 3 4 5 6 7
Nº ocupantes/veículo
n i
 
As distribuições não agrupadas são a forma mais elementar de apresentação dos 
dados e consiste numa simples enumeração das observações, que podem ou não 
estar ordenadas. Quando o número de valores distintos observados é elevado, 
torna-se muitas vezes necessário condensar muito mais os quadros estatísticos, 
agrupando as observações em classes. Obtêm-se assim distribuições de 
frequências agrupadas em classes ou distribuições agrupadas. Este tipo de 
distribuições é particularmente útil quando dispomos de um grande número de 
dados relativos a uma variável contínua cujos valores observados são muito 
próximos uns dos outros. A frequência de cada classe é o número de observações 
que ela contém. No exemplo 6 os dados dizem respeito a uma variável discreta, 
quando provêm de uma variável contínua existem algumas diferenças que 
iremos observar através do exemplo 7. 
E S T A T Í S T I C A D E S C R I T I V A 
 7777 
Exemplo 1.7: 
Consideremos o conjunto de dados seguinte que representa o peso, expresso em 
gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste 
saíram de uma linha de enchimento automático: 
302.25, 299.20, 300.24, 297.22, 298.35, 303.76, 298.65, 299.38, 300.36, 299.16, 300.86, 
299.83, 302.52, 300.12, 301.81,297.99, 299.23, 298.73, 303.07, 299.07, 297.83, ... , 300.80 
A primeira característica que podemos observar neste conjunto de dados é que 
não existe praticamente repetição de valores. Isto leva a que não temos vantagem 
em utilizar os dados agrupados numa tabela de frequências, dado que iríamos ter 
uma tabela praticamente com tantas linhas quanto o número de dados. No 
entanto, podemos construir uma tabela de frequências se agruparmos os dados 
por classes: 
Classes 
Frequência 
absoluta 
Frequência 
relativa (%) 
Frequência 
absoluta 
acumulada 
Frequência 
relativa 
acumulada(%) 
[297.00 , 298.00[ 8 8% 8 8% 
[298.00 , 299.00[ 21 21% 29 29% 
[299.00 , 300.00[ 28 28% 57 57% 
[300.00 , 301.00[ 15 15% 72 72% 
[301.00 , 302.00[ 11 11% 83 83% 
[302.00 , 303.00[ 10 10% 93 93% 
[303.00 , 304.00[ 5 5% 98 98% 
[304.00 , 305.00[ 1 1% 99 99% 
[305.00 , 306.00[ 1 1% 100 100% 
TOTAL 100 100% 
HISTOGRAMA
0
0.05
0.1
0.15
0.2
0.25
0.3
[297.00 , 298.00[ [298.00 , 299.00[ [299.00 , 300.00[ [300.00 , 301.00[ [301.00 , 302.00[ [302.00 , 303.00[ [303.00 , 304.00[ [304.00 , 305.00[ [305.00 , 306.00[
peso (gr amas)
f i
Diagrama de caule-e-folhas (steam and leaf) 
Quando precisamos de organizar uma amostra, de forma a ter uma primeira 
ideia do comportamento da variável em estudo, e preparar a mesma para 
calcular algumas estatísticas amostrais de forma mais rápida, o diagrama de 
caule-e-folhas é extremamente útil. 
 
Este tipo de representação para além de organizar a amostra 
contribui para revelar a forma da distribuição subjacente, mas 
de uma forma sugestiva, que faz lembrar um histograma. 
E S T A T Í S T I C A D E S C R I T I V A 
 8888 
Exemplo 1.8: 
Suponhamos que as notas de uma turma de Matemática do 12º ano com 36 
alunos foram as seguintes: 
 
84 49 61 40 83 67 45 66 70 69 80 58 
68 60 67 72 73 70 57 63 70 78 52 67 
53 67 75 61 70 81 76 79 75 76 58 31 
 
Na representação em diagrama de caule e folhas temos os seguintespassos: 
 
1. Escolher o caule: 
 
 
 
 
 
 
 
 
 
 
2. Escrever as folhas: 
 
 
 
 
 
 
 
 
 
 
3. Caule e folhas completo: 
 
 
 
 
 
 
 
 
 
3 
3 
4 
4 
5 
5 
6 
6 
7 
7 
8 
3 3 4 4 5 5 6 6 7 7 8 
3 
3 
4 
4 
5 
5 
6 
6 
7 
7 
8 
 
 
 
 
 
 
 
 
 
 
4 
3 
3 
4 
4 
5 
5 
6 
6 
7 
7 
8 
 
 
 
9 
 
 
 
 
 
 
4 
3 
3 
4 
4 
5 
5 
6 
6 
7 
7 
8 
 
 
 
9 
 
 
1 
 
 
 
4 
3 
3 
4 
4 
5 
5 
6 
6 
7 
7 
8 
 
 
 
9 0 
 
 
1 
 
 
 
4 
3 
3 
4 
4 
5 
5 
6 
6 
7 
7 
8 
1 
 
0 
9 5 
2 3 
8 7 8 
1 0 3 1 
7 6 9 8 7 7 7 
0 2 3 0 0 0 
8 6 9 5 6 6 
4 3 0 1 
Por vezes, utiliza-se o caule horizontal, 
em vez de ser vertical. Este processo 
torna mais aparente a semelhança entre 
um histograma e uma representação em 
caule-e-folhas. 
E S T A T Í S T I C A D E S C R I T I V A 
 9999 
4. Caule e folhas completo e ordenado: 
 
 
 
 
 
 
 
 
 
 
Que característica é que se pretende realçar, quando se representa um 
conjunto de dados sob a forma de um histograma ou de um caule-e-folhas? 
Dada uma amostra, o aspecto do histograma reflecte a forma da distribuição 
da População subjacente aos dados observados. Este é um dos aspectos da 
redução dos dados, em que se perde alguma informação contida nesses 
dados, mas em contrapartida obtemos a estrutura da População, que eles 
pretendem representar. Uma das vantagens deste tipo de representação é 
poder observar-se o tipo de distribuição subjacente aos dados, dos quais 
destacamos alguns exemplos: 
• Distribuições simétricas 
A distribuição das frequências faz-se de forma aproximadamente 
simétrica, relativamente a uma classe média. 
 
• Distribuições enviesadas 
A distribuição das frequências faz-se de forma acentuadamente 
assimétrica, apresentando valores substancialmente mais pequenos 
num dos lados, relativamente ao outro. 
 
3 
3 
4 
4 
5 
5 
6 
6 
7 
7 
8 
1 
 
0 
5 9 
2 3 
7 8 8 
0 1 1 3 
6 7 7 7 7 8 9 
0 0 0 0 2 3 
5 5 6 6 8 9 
0 1 3 4 
1 
1 
2 
4 
6 
9 
13 
(7) 
16 
10 
4 
 
Profundidade Caule Folhas 
E S T A T Í S T I C A D E S C R I T I V A 
 10101010 
• Distribuições com caudas longas 
A distribuição das frequências faz-se de tal forma que existe um 
grande número de classes nos extremos, cujas frequências são 
pequenas, relativamente às classes centrais: 
 
• Distribuições com vários picos ou modas 
A distribuição das frequências apresenta 2 ou mais "picos" a que 
chamamos modas, sugerindo que os dados são constituídos por vários 
grupos distintos: 
 
1.5 Estatísticas amostrais 
O cálculo de estatísticas amostrais é uma forma mais sintética de descrever um 
conjunto de dados. As estatísticas amostrais são então medidas calculadas com 
base nos dados, a partir das quais é possível descrever globalmente o conjunto de 
valores que os dados tomam. 
1.5.1. Medidas de localização 
1.5.1.1. Média 
A mais utilizada das estatísticas de localização é a média aritmética amostral ou, 
como habitualmente se designa a média amostral.1 Para um conjunto de n dados 
),...,2,1( nixi = a média amostral é definida pela expressão: 
 1
n
i
i
x
x
n
==
∑
 (dados não agrupados) (3) 
Consideremos os dados do exemplo 1.6, mas agora sem o conjunto de dados 
estar apresentado numa tabela de frequências: 
 
1 Existem outras médias para além da aritmética, por exemplo, média geométrica, média harmónica, 
média quadrática, etc. 
E S T A T Í S T I C A D E S C R I T I V A 
 11111111 
 2, 1, 3, 3, 2, 3, 7, 5, 5, 2, 1, 3, 1, 1, 1, 4, 5, 6, 4, 5,...,3, 1, 2, 2, 3 )1000( =n 
A média amostral é dada por 
 
2 1 ... 2 3
3.66
1000
x
+ + + +
= = ocupantes por veículo. 
 
Para dados agrupados numa tabela de frequências a média amostral é dada por 
 1
k
i i
i
n x
x
n
==
∑
 (dados agrupados) (4) 
onde k representa o número de valores diferentes existentes no conjunto de 
dados. 
No exemplo 1.6 e considerando os dados agrupados na tabela de frequências 
teríamos a média amostral dada por 
 
103 1 147 2 248 3 197 4 152 5 100 6 53 7
3.66
1000
x
× + × + × + × + × + × + ×
= =
 
ocupantes por veículo. 
 
No caso da variável ser contínua, dado que “perdemos” os valores concretos 
do conjunto (ficaram afectos a uma determinada classe) não podemos calcular 
a média amostral directamente dos valores dos dados. Deste modo a cada 
classe vai ser atribuído um representante ( ix ) e a média amostral calculada 
através desses representantes: 
 1
k
i i
i
n x
x
n
==
∑
 (dados agrupados em classes) (5) 
onde k é o número de classes do agrupamento, in é a frequência absoluta da 
classe i e ix é o ponto médio da classe i , o qual é considerado como elemento 
representativo da classe. 
 
No exemplo 1.7 a média amostral é dada por 
8 297.5 21 298.5 ... 1 305.5
300.11 g
100
x
× + × + + ×
= = 
 
A média é sempre uma medida representativa dos dados? 
Suponhamos que temos a seguinte amostra: 
E S T A T Í S T I C A D E S C R I T I V A 
 12121212 
2.13 3.44 2.78 4.35 1.51 2.8 2.47 3.73 172 
A média desta amostra é 21.69x = . Embora todos os dados, com a excepção 
de um deles (172), estejam no intervalo [ ]1.51: 4.35 , o valor obtido para a 
média não pertence a este intervalo. O que acontece é que a média é muito 
sensível a valores muito grandes ou muito pequenos. No caso do exemplo, foi 
o valor 172 que inflacionou a média. Se pensarmos que, em vez deste valor 
podemos ter 1.72, temos razões para pensar que pode ter havido um erro. 
E se em vez de 172 o valor correcto fosse 1.72, qual o valor da média? 
Refazendo os cálculos com o valor correcto, obtém-se para a média amostral, 
2.77x = , significativamente diferente do valor obtido anteriormente. 
 
1.5.1.2. Mediana 
Uma outra medida de localização é a mediana amostral ( )eM . Considere-se que 
os dados que integram a amostra são colocados por ordem crescente, formando 
um vector ( )**
2
*
1 ,...,, nxxx - amostra ordenada. A mediana amostral é definida nos 
seguintes termos: 
*
n+1
2
* *
n n+1
2 2
n mpar
n par
2
e
x
M x x



=  +


Í
 (6) 
No exemplo 1.6, temos um conjunto de 1000 dados ( 1000 parn n= → ). A 
mediana é então dada por 
2
*
501
*
500 xx
M e
+
= 
Temos de saber quais são os dados que ocupam as posições 500 e 501 quando 
estiverem ordenados por ordem crescente. Através da observação da tabela de 
frequência (observando as frequência absolutas acumuladas) temos que 4*
500 =x e 
4*
501 =x . Logo a mediana é 
4 4
4
2
eM
+
= = ocupantes/viatura. 
 
No caso contínuo, utilizando a definição só podemos calcular a classe 
mediana. Depois de identificada essa classe podemos calcular um valor 
aproximado para a mediana através da fórmula: 
 
i
i
i
ii
i
i
ie a
f
F
la
n
N
n
lM *
5,0
*2 ,1
1
−
− −
+=
−
+=
 (7) 
E S T A T Í S T I C A D E S C R I T I V A 
 13131313 
onde 1iN − é a frequência absoluta acumulada da classe antes da classe 
mediana, n a dimensão da amostra e il , ia e in são, respectivamente, o limite 
inferior, amplitude e frequência absoluta da classe mediana. 
 
No exemplo 1.7, visto que 100 parn = → , podemos ver qual a classe que contém 
*
50x e *
51x ou 0.5iF = , a classe mediana é [ [00.300,00.299 . Logo, através de (7) 
temos: 
50 29
299.00 1.00 299.75 g
28
eM
−
= + × = 
 
Dado um histograma é fácil obter a posição da mediana, pois esta está na 
posição em que passando uma linha vertical por esse ponto o histograma fica 
dividido em duas partes com áreas iguais. 
 
 
Média vs Mediana 
Para ilustrar a diferença entre estas duas medidas vejamos o seguinte 
exemplo. Consideremos as notas obtidas por um aluno no 1º ano do curso: 
10 13 11 15 18 16 14 15 14 
media: 
9
1 14
9
i
i
x
x == =
∑
 mediana: * *
9 1 5
2
9 14en M x x+= → = = = 
A média e mediana das notas desse aluno foram de 14 valores.Suponhamos 
que esse aluno fez melhoria da nota mais baixa, passando de 10 a 14 valores. 
Embora a mediana se mantenha, o valor da média sofreu um aumento, 
passou para 14.4 valores. Temos então que a média, ao contrário da mediana, 
é uma medida muito pouco resistente, isto é, ela é muito influenciada por 
valores muito grandes ou muito pequenos, chamados outliers2, mesmo que 
estes valores surjam em pequeno número na amostra. Estes valores são os 
responsáveis pela má utilização da média em muitas situações em que teria 
mais significado utilizar a mediana. Como medida de localização, a mediana é 
 
2 Serão definidos mais adiante. 
E S T A T Í S T I C A D E S C R I T I V A 
 14141414 
mais resistente do que a média, pois não é tão sensível aos dados. Então qual 
das duas devemos utilizar? 
a) Quando a distribuição é simétrica, a média e a mediana coincidem. 
b) A mediana não é tão sensível, como a média, às observações que são 
muito maiores ou muito menores do que as restantes (outliers). Por 
outro lado a média reflecte o valor de todas as observações. 
Representando as distribuições dos dados na forma de uma mancha (válido 
para o digrama de barras ou histograma), de um modo geral temos: 
 
 
 
Assim, não se pode dizer em termos absolutos qual destas medidas de 
localização é preferível, dependendo do contexto em que estão a ser 
utilizadas. 
 
1.5.1.3. Moda 
 
A última medida de localização que será estudada é a moda ( oM ). Trata-se da 
medida que indica o valor ou a gama de valores nos quais a concentração dos 
dados amostrais é máxima. Quando os dados forem realizações de uma 
variável discreta, a moda é o valor dos dados que ocorre com maior 
frequência; e o intervalo de classe com maior frequência se a variável é 
contínua. Assim, da representação gráfica dos dados, obtém-se 
imediatamente o valor que representa a moda ou a classe modal. 
 
 
 
Esta medida é especialmente útil para reduzir a informação de um conjunto 
de dados qualitativos, apresentados sob a forma de nomes ou categorias, para 
os quais não se pode calcular a média e por vezes a mediana (se não forem 
susceptíveis de ordenação). 
 
E S T A T Í S T I C A D E S C R I T I V A 
 15151515 
No exemplo 1.6, a moda é o valor com maior frequência absoluta, ou seja, 
viaturaocupantes/3=oM . 
Quando os dados provêm de uma variável contínua existem algumas 
diferenças no cálculo da moda. Tal como na mediana começamos por calcular 
a classe modal. Depois de identificada a classe modal podemos calcular um 
valor aproximado para a moda através das fórmulas: 
 1
1 2
o i iM l a
∆
= + ×
∆ + ∆
 (8) 
onde ia é a amplitude da classe modal, il é o limite inferior da classe modal, n é a 
dimensão da amostra, 1∆ é a diferença de frequências absolutas entre a classe 
modal e a classe anterior à modal e 2∆ é a diferença de frequências absolutas 
entre a classe modal e a classe posterior à classe modal. 
No exemplo 1.7, a classe com maior frequência absoluta é [ [00.300,00.299 logo é a 
classe modal. Através de (8) temos: 
7
299.00 1.00 299.35 g
7 13
oM = + × =
+
 
 
1.5.1.4. Extremos e Quartis 
 
Os extremos são os valores mínimo, *
1 min( )ix x= , e máximo, * max( )n ix x= , da 
amostra. 
Como vimos anteriormente, a mediana é a medida de localização que divide a 
amostra. Generalizando esta noção, o quantil de ordem p (0 1ppadrão é sempre não negativo e será tanto maior, quanta mais 
variabilidade houver entre os dados; 
• se s=0, então não existe variabilidade, isto é, os dados são todos iguais. 
No exemplo 1.8, 2 11.99s s= ≅ e 2' ' 12.16s s= ≅ . 
 1.5.2.4. Amplitude inter quartil 
A medida anterior tem a grande desvantagem de ser muito sensível à existência, 
na amostra, de uma observação muito grande ou muito pequena. Assim, define-
se uma outra medida, a amplitude inter-quartil, que é, em certa medida, uma 
solução de compromisso, pois não é afectada, de um modo geral, pela existência 
de um número pequeno de observações demasiado grandes ou demasiado 
pequenas. Esta medida é definida como sendo a diferença entre o 3º e 1º quartis, 
3 1Q Q Q= − ( 17) 
Do modo como se define a amplitude inter-quartil, concluímos que 50% dos 
elementos do meio da amostra estão contidos num intervalo com aquela 
amplitude. Esta medida é não negativa e será tanto maior quanto maior for a 
variabilidade nos dados. 
Nota: Ao contrário do que acontece com o desvio padrão, uma amplitude inter-
quartil nula, não significa necessariamente, que os dados não apresentem 
variabilidade. 
No exemplo 1.8, 
3 1 75 59 16Q Q Q= − = − = 
Amplitude inter-quartil vs desvio padrão 
Do mesmo modo que a questão foi posta relativamente às duas medidas de 
localização mais utilizadas (média e mediana), também aqui se pode por o 
problema de comparar as duas últimas medidas de dispersão. A amplitude inter-
quartil é mais robusta, relativamente à presença de outliers, do que o desvio 
padrão, que é mais sensível aos dados. 
E S T A T Í S T I C A D E S C R I T I V A 
 19191919 
1.5.2.5. Boxplot (caixa de bigodes) 
O boxplot ou caixa de bigodes é um tipo de representação gráfica onde se 
realçam algumas características da amostra, nomeadamente a existência de 
outliers (valores que se distinguem dos restantes, dando a ideia de não 
pertencerem ao mesmo conjunto de dados). O conjunto dos valores da amostra 
compreendidos entre o 1º e o 3º quartil é representado por um rectângulo (caixa) 
com a mediana indicada por uma barra. Considera-se seguidamente duas linhas 
que unem os lados dos rectângulos com as barreiras interiores (eventualmente os 
extremos). 
 
A barreira inferior interior é o menor valor da amostra (eventualmente o 
mínimo), que é maior do que 1 1,5Q Q− × . A barreira superior interior é o maior 
valor da amostra (eventualmente o máximo), que é maior do que 1 1,5Q Q+ × . 
Quando existem valores fora deste intervalo, [ ]1 11,5 ; 1,5Q Q Q Q− × + × , diz-se que 
existem outliers ou valores discordantes. Para averiguar o grau dos mesmos 
devem ser calculadas as barreiras exteriores: [ ]1 13 ; 3Q Q Q Q− × + × . Caso essas 
observações se encontrem neste último intervalo designam-se por outliers 
moderados, caso contrário dizem-se outliers severos. 
 
Nota: Quando não existem outliers e nas extremidades da linha se representam os 
extremos da amostra, mínimo ( *
1x ) e máximo ( *
nx ), esta representação coincide 
com o diagrama de extremos e quartis. Este tipo de representação realça 
E S T A T Í S T I C A D E S C R I T I V A 
 20202020 
características importantes sobre os dados, como sejam o centro da amostra 
(mediana), variabilidade, simetria. Repare-se que da forma como o diagrama se 
constrói (distância entre a linha indicadora da mediana e os lados do rectângulo; 
comprimento das linhas que saem dos lados dos rectângulos; comprimento da 
caixa), se pode retirar imediatamente a seguinte informação: 
 
Aqui podemos ver alguns exemplos, correspondentes a tipos diferentes de 
distribuição de dados. 
 
Voltado ao exemplo 1.8, na representação boxplot temos os seguintes passos: 
1. Cálculo dos quartis: 
 36n = 
 
1
36 58 60
9 59
4 4 2
n
Q
+
= = → = =
 
 
2
36 67 68
18 67,5
2 2 2
n
Q Me
+
= = → = = =
 
 
3
3 108 75 75
27 75
4 4 2
n
Q
+
= = → = =
 
2. Cálculo das barreiras interiores: 
 3 1 75 59 16Q Q Q= − = − = 
 1 1,5 58 1,5 16 34ib Q Q= − × = − × = 
 3 1,5 75 1,5 16 99sb Q Q= + × = + × = 
3. Será que existem outliers? 
E S T A T Í S T I C A D E S C R I T I V A 
 21212121 
As barreiras interiores são [ ]34;99 , logo, como existe um valor fora deste 
intervalo estamos na presença de um outlier. 
As barreiras exteriores ficam: 
 1 3 58 3 16 11iB Q Q= − × = − × = 
 3 3 75 3 16 123sB Q Q= + × = + × = 
Como esta observação se encontra dentro das barreiras exteriores, isto é 
[ ]11: 23x ∈ , é um outlier moderado. 
4. Representação gráfica do boxplot: 
 
1.5.2.5. Coeficiente de variação 
O coeficiente de variação expressa o desvio padrão como percentagem da média, 
é portanto uma medida relativa da dispersão da variável, 
CV 100
s
x
= × (18) 
Nota: É preciso ter em conta que se a média é perto de zero, o coeficiente de 
variação terá um valor elevado mesmo se os desvios relativamente à média são 
pequenos. Por isso, deixa de ser útil quando a média é próxima de zero. 
No exemplo 1.8, 
11.98
100 18.2%
65.86
CV = × ≅ 
 
E S T A T Í S T I C A D E S C R I T I V A 
 22222222 
1.6. Dados bivariados 
 
Muitas vezes o estudo descritivo não se resume ao estudo de apenas uma 
variável, por vezes é necessário a observação de duas (ou mais) varáveis para se 
ter uma visão global do problema em estudo. Nesse caso deixamos de ter uma 
amostra 1( , ..., ) , 1, ...,nx x i n e passamos a ter dados bivariados ( , ) , 1,...,i ix y i n= 
(observações de uma variável aleatória bidimensional, que será definida no 
capítulo 3). Por exemplo, a pressão atmosférica está relacionada com a altitude 
e/ou com a temperatura; a altura de uma criança está relacionada com a alutura 
do pai e/ou mãe. 
Uma das coisas que se pretende estudar é a relação existente entre as varáveis 
deste par. Para ter uma ideia de como as duas varáveis se relacionam é comum 
representar graficamente esta relação através de um gráfico de dispersão. Esta 
representação consiste na marcação num sistema de eixos cartesianos as 
observações, ficando com uma nuvem de pontos que correspondem aos pares 
ordenados ( , )i ix y . 
 
Exemplo 9: 
Consideremos os dados da temperatura do fuel gás (graus Fahrenheit) e a taxa de 
calor (Kilowatt-hora) para uma turbina de combustão para ser usada na 
refrigeração. 
x 100 125 150 175 200 225 250 275 300 325 350 375 400 425 450 500 
y 99.1 98.8 98.5 98.5 98.5 98.2 98 97.8 97.8 97.8 97.6 97.5 97.3 97 96.8 96.7 
 
Gráfico de dispersão
96.5
97
97.5
98
98.5
99
99.5
0 200 400 600
Temperatura
C
a
lo
r
 
Este diagrama mostra a relação entra as variáveis em estudo, donde se pode 
extrair que talvez exista uma correlação linear entre elas. Esta relação pode ser 
traduzida através de uma recta. 
E S T A T Í S T I C A D E S C R I T I V A 
 23232323 
 
1.6.1.Regressão linear simples 
Quando a relação existente entre duas variáveis é linear, pode ser traduzida 
através de uma recta. Sendo assim, temos o seguinte modelo determinístico: 
Y Xα β= + (19) 
em que α é a ordenada na origem e β o declive da recta. 
 
No modelo de regressão linear simples pretende-se explicar o efeito que uma 
variável x , variável independente ou explicativa, sobre uma variável y , 
variável dependente ou explicada. 
Correlação Linear Positiva (forte)
0
0
x
 
Correlação Linear Negativa (forte)
0
0
x
 
Correlação Linear Fraca
0
0
x
 
 
Esta visualização permite, através da simples observação do diagrama de 
dispersão, averiguar a possível existência ou não de correlação linear entre 
duas variáveis. 
 
E S T A T Í S T I C A D E S C R I T I V A 
 24242424 
1.6.2. Correlação. Coeficiente de determinação 
O coeficiente de correlação linear, xyr , mede o grau de associação linear entre 
dadosbivariados, e calcula-se da seguinte forma: 
xy
xy
xx yy
s
r
s s
= (20) 
onde 
 ( )( )
1 1
n n
xy i i i i
i i
s x x y y x y nx y
= =
= − − = −∑ ∑ , (21) 
 
 
( )
2 22
1 1
n n
xx i i
i i
s x x x nx
= =
= − = −∑ ∑ (22) 
e 
 
( )
2 22
1 1
n n
yy i i
i i
s y y y n y
= =
= − = −∑ ∑ (23) 
Deste modo podemos reescrever o coeficiente de correlação linear como 
xy
xy
x y
r
s s
γ
=
 
 (24) 
 
onde xyγ é a covariância de X e Y e 1 1r− ≤ ≤ . 
 
A variação total da variável dependente (VT) é dada por ( )
2
1
n
i
i
y y
=
−∑ , que pode 
ser decomposta da seguinte forma: 
( )
2 2 2
^ ^
1 1 1
VT VE VR
n n n
i i i
i i i
y y y y y y
= = =
   
− = − + −   
   
∑ ∑ ∑
14243 14243 14243
 (25) 
E S T A T Í S T I C A D E S C R I T I V A 
 25252525 
em que VE é a variação explicada pela regressão e VR é a variação residual. 
Ficamos então com 
VE VR
VT VE VR 1
VT VT
= + ⇔ + = (26) 
em que a razão entre a variação explicada pela regressão e a variação total, 
VE
VT
, é 
o coeficiente de determinação, 2R , que é a proporção da variabilidade total que é 
explicada pelo modelo de regressão, 
( )
( )
�
2
1
2
2 22
12 1 1
2 2 22 2
1 1 1
n
i i
i
nn n
xy
i ii i
ii xx i
n n n
yy
i i i
i i i
x y nxy
s
x y nx yy y x nx
s
R
s
y y y n y y n y
β
=
== =
= = =
 
− 
 
 
−− −  
 = = = =
− − −
∑
∑∑ ∑
∑ ∑ ∑
 (27) 
 O coeficiente de determinação varia entre zero e um, 20 1R≤ ≤ . Quando este 
coeficiente toma o valor 1 significa que a recta de regressão explica totalmente a 
variabilidade da variável dependente. O valor nulo de 2R corresponde à situação 
em que a recta de regressão não explica nada da variabilidade da variável 
dependente. 
O coeficiente de correlação pode ser calculado através do coeficiente de 
determinação, 
2
xyr R= ± (28) 
em que o sinal depende do declive da recta de regressão, sendo +(-) se esse 
declive é positivo (negativo). 
1.6.3. Método dos mínimos quadrados 
Quando se verifica, quer através do gráfico de dispersão quer do coeficiente 
de correlação linear, uma correlação forte entre duas variáveis, podemos 
descrever a relação entre essas variáveis através de uma recta de regressão (a 
recta que melhor se ajusta aos dados). Essa recta serve de modelo matemático 
para expressar a relação linear entre duas variáveis. Considera-se, em geral, 
X a variável independente ou explicativa e Y a variável dependente ou 
explicada. Um dos métodos mais utilizados para ajustar uma recta a um 
conjunto de dados é o Método dos Mínimos Quadrados (MMQ), que consiste 
em determinar a recta que minimiza a soma dos quadrados dos desvios (os 
E S T A T Í S T I C A D E S C R I T I V A 
 26262626 
chamados erros ou resíduos) entre os verdadeiros valores, y , e os valores 
estimados a partir da recta de regressão que se pretende ajustar,
^
y . 
 
 
 
O modelo de regressão linear é a recta de regressão 
^
i ii
y xα β ε= + + (29) 
obtida de tal modo que a soma dos quadrados dos desvios ou resíduos 
(
^
i iy yε = − ) seja mínima, 
 
( )
2
^ 2
2
1 1 1
min min min ( )
n n n
i i i i i
i i i
y y y xε α β
= = =
 
= − = − + 
 
∑ ∑ ∑ (30) 
 
Como tal, para estimar os parâmetros do modelo, é necessário que as 
primeiras derivadas, em ordem a α e a β , sejam nulas e as segundas sejam 
maiores ou iguais a zero, 
 
2
1
2
1
( ) 0
( ) 0
n
i i
i
n
i i
i
y x
y x
α β
α
α β
β
=
=
∂
− − =∂
 
∂ − − =
∂
∑
∑
 (31) 
 
As estimativas dos mínimos quadrados para os parâmetros α e a β são 
 
^ ^
y xα β= − (32) 
e 
^
1
22
1
n
i i
xyi
n
xx
i
i
x y nx y
s
s
x nx
β =
=
−
= =
−
∑
∑
 (33) 
 
E S T A T Í S T I C A D E S C R I T I V A 
 27272727 
Voltando ao exemplo 1.9, uma vez que se observa no gráfico de dispersão uma 
relação linear entre as variáveis, vamos confirmar esta relação através do 
coeficiente de correlação, 
i x y 2
x 2y xy 
1 100 99,1 10000 9820,81 9910 
2 125 98,8 15625 9761,44 12350 
3 150 98,5 22500 9702,25 14775 
4 175 98,5 30625 9702,25 17237,5 
5 200 98,5 40000 9702,25 19700 
6 225 98,2 50625 9643,24 22095 
7 250 98 62500 9604 24500 
8 275 97,8 75625 9564,84 26895 
9 300 97,8 90000 9564,84 29340 
10 325 97,8 105625 9564,84 31785 
11 350 97,6 122500 9525,76 34160 
12 375 97,5 140625 9506,25 36562,5 
13 400 97,3 160000 9467,29 38920 
14 425 97 180625 9409 41225 
15 450 96,8 202500 9370,24 43560 
16 500 96,7 250000 9350,89 48350 
Σ 4625 1565,9 1559375 153260,19 451365 
1
2 22 2
1 1
0.99
n
i i
xy i
xy
n n
xx yy
i i
i i
x y nx y
s
r
s s
x nx y n y
=
= =
−
= = = −
− −
∑
∑ ∑
 
O valor da correlação é 0.99r = − e o coeficiente de determinação 2 0.977R = 
indiciam uma forte correlação linear entre a temperatura de fuel gás e a taxa de 
calor. Vamos agora estimar, através do MMQ, os parâmetros α e β e traçar a 
recta de regressão: 
^
1 1 1
22 2
2
1 1
16 451365-4625 1565,9
0,0057
16 1559375-(4625)
n n n
i i i i
xy i i i
n n
x
i i
i i
n x y x y
s
s
n x x
β = = =
= =
−
× ×
= = = = −
× 
−  
 
∑ ∑ ∑
∑ ∑
 
^ 1656,9 4625
( 0,0057) 99,529
16 16
y xα β= − = − − × =
 
Sendo assim, a recta de regressão calculada pelos métodos dos mínimos 
quadrados é dada por, 
^ ^ ^
99,529 0,0057y x xα β= + = − 
E S T A T Í S T I C A D E S C R I T I V A 
 28282828 
cujo gráfico de dispersão com a respectiva recta de regressão é o seguinte: 
 
Gráfico de dispersão
y = -0.0057x + 99.529
R2 = 0.977
96.5
97
97.5
98
98.5
99
99.5
0 200 400 600
Temperatura
C
a
lo
r
 
Através da recta de regressão estimada é possível prever taxas de calor com base 
na temperatura do fuel gás. Por exemplo, para uma temperatura do fuel gás de 
405 graus Fahrenheit prevê-se uma taxa de calor de 
^
0.0057 405 99.529 97.2205y = − × + = Kilowatt-hora.

Mais conteúdos dessa disciplina