Análise estatística espacial de dados geológicos multivariados

breadcrumb-separator

UFG

Guilherme Santana

em 08/10/2013

Conteúdos escolhidos para você

Grupo Prominas - Educação e Tecnologia

Grupo Prominas - Educação e Tecnologia

ESTÁCIO

controle_estatistico_de_processos_e_quimiometria

controle_estatistico_de_processos_e_quimiometria

UFSJ

Análise multivariada 1

Análise multivariada 1

UAM

livro-de-geoestatistica-conceitos-e-aplicacoes

livro-de-geoestatistica-conceitos-e-aplicacoes

FDV

Aula 4 - Correlação de Pearson

Aula 4 - Correlação de Pearson

ESTÁCIO

Perguntas dessa disciplina

Sistemas de equações lineares representam relações algébricas entre variáveis interdependentes. Tais sistemas podem apresentar uma única solução, m...

Identifique a correta classificação das características das representações definindo R para raster e M para matricial. Em seguida assinale a alternati

IFNMG

O texto nas imagens é o seguinte: "O texto em referência apresenta como exemplo de agrupamento uma companhia de vendas on-line que deseja agrupar seus

FMU

Pergunta 1. A multiplicação de matrizes é fundamental em diversas áreas de conhecimento, pois permite a manipulação de dados complexos de forma eficie

UNISA

Questão 1/10 - Bioestatística Ler em voz alta Leia o excerto de texto: “O processo de investigação passa por diferentes estádios, dos quais já salient

Material

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

Grupo Prominas - Educação e Tecnologia

Grupo Prominas - Educação e Tecnologia

ESTÁCIO

controle_estatistico_de_processos_e_quimiometria

controle_estatistico_de_processos_e_quimiometria

UFSJ

Análise multivariada 1

Análise multivariada 1

UAM

livro-de-geoestatistica-conceitos-e-aplicacoes

livro-de-geoestatistica-conceitos-e-aplicacoes

FDV

Aula 4 - Correlação de Pearson

Aula 4 - Correlação de Pearson

ESTÁCIO

Perguntas dessa disciplina

Sistemas de equações lineares representam relações algébricas entre variáveis interdependentes. Tais sistemas podem apresentar uma única solução, m...

Identifique a correta classificação das características das representações definindo R para raster e M para matricial. Em seguida assinale a alternati

IFNMG

O texto nas imagens é o seguinte: "O texto em referência apresenta como exemplo de agrupamento uma companhia de vendas on-line que deseja agrupar seus

FMU

Pergunta 1. A multiplicação de matrizes é fundamental em diversas áreas de conhecimento, pois permite a manipulação de dados complexos de forma eficie

UNISA

Questão 1/10 - Bioestatística Ler em voz alta Leia o excerto de texto: “O processo de investigação passa por diferentes estádios, dos quais já salient

Prévia do material em texto

Análise estatística espacial de dados 
geológicos multivariados 
 
 
 
 
 
 
PAULO M. BARBOSA LANDIM 
Professor Emérito da Universidade Estadual Paulista 
 Professor Voluntário do Depto. Geologia Aplicada-UNESP/Rio Claro 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
UNESP/campus de Rio Claro 
Departamento de Geologia Aplicada - IGCE 
― Laboratório de Geomatemática ― 
Texto Didático 15 
2006 
 
 2
 
 
 
Reprodução autorizada desde que citada a fonte 
Norma 6023-2000/ABNT ( http://www.abnt.org.br): 
LANDIM, P.M.B. Análise estatística espacial de dados geológicos multivariados.. 
DGA,IGCE,UNESP/Rio Claro, Lab. Geomatemática,Texto Didático 15, 158 pp. 2006. 
Disponível em <http://www.rc.unesp.br/igce/aplicada/textodi.html>. Acesso em:.... 
 
 
SUGESTÕES 
 
Dúvidas, questões, sugestões, etc. sobre o texto deverão ser encaminhadas para o endereço 
plandim@rc.unesp.br, as quais serão sempre bem recebidas 
 3
1. INTRODUÇÃO 
 
As primeiras aplicações de métodos quantitativos em Geologia coincide 
com o seu estabelecimento como ciência moderna, e um exemplo disso é a 
subdivisão do Terciário, por Charles Lyell em 1830, baseada na presença relativa 
de espécies recentes de moluscos nos diversos estratos da Bacia de Paris, num 
procedimento estatístico. A partir desse início, porém, a Geologia permanece 
qualitativa e puramente descritiva e apenas nos anos 20 do século passado é que 
o enfoque quantitativo começa a se tornar mais presente. Assim nessa época 
William C. Krumbein propõe a amostragem geológica em bases probabilísticas e 
introduz os modelos “processo-resposta”. O entendimento das relações de 
causa-e-efeito para a explicação dos processos geológicos leva Andrei Vistelius, 
no início dos anos 40, a iniciar a formulação da chamada Geologia Matemática. 
Em que pese essas iniciativas, entre outras, a Geologia até há bem pouco tempo, 
era freqüentemente considerada uma ciência baseada em interpretações 
puramente qualitativas dos fenômenos geológicos. Nos últimos 40 anos, porém, 
tem sido notável a mudança da fase descritiva para a utilização de métodos 
quantitativos, principalmente na área da Geologia Aplicada. Na área mineral, com 
destaque para a do petróleo, onde a interpretação geológica, alem de estar 
fundamentada em conceitos científicos, precisa ter enfoque econômico, observa-
se, felizmente, uma marcante tendência quantitativa que vem possibilitando 
avanços importantes principalmente no uso de técnicas espaciais. Ver a propósito 
HOULDING (2000). 
Nas últimas décadas, graças a avanços tecnológicos tanto em termos 
computacionais como em equipamentos de laboratório e de campo mais 
refinados, tem sido intensa a obtenção de dados geológicos quantitativos. A sua 
análise, porem, esta muito aquém dessa imensa quantidade de informações 
coletadas. Basta ver os relatórios de pesquisa e mesmo os bancos de dados com 
um grande número de matrizes de informações não trabalhadas. Verbas e tempo 
são gastos com essa coleta que precisa ser devidamente manuseada e para essa 
análise dos dados o emprego de técnicas estatísticas multidimensionais torna-se 
uma ferramenta fundamental. Isto porque, como os fenômenos geológicos são 
resultantes de diversos fatores condicionantes, o seu entendimento é facilitado 
quando o estudo é submetido a um enfoque quantitativo multidimensional. Deve 
 4
ser enfatizado, porem, que a pura utilização de técnicas estatísticas, e hoje em 
dia bastante facilitada graças à vasta disposição de programas computacionais, 
não é condição suficiente se o estudo não for embasado num sólido 
conhecimento geológico. 
No caso de uma única variável ter sido medida em espécimes de uma 
amostra, no sentido estatístico, a análise de tais dados é feita por intermédio da 
estatística univariada. Se porém valores de diversas variáveis forem obtidos em 
cada um dos espécimes dessa mesma amostra, as técnicas para a análise 
desses dados são fornecidas pela estatística multivariada ou multidimensional. Tal 
análise estatística de mensurações múltiplas efetuadas sobre uma amostra 
fornece um melhor entendimento na razão direta do número de variáveis 
utilizadas e permite considerar simultaneamente a variabilidade existente nas 
diversas propriedades medidas. 
Pode-se afirmar que a análise multivariada é a área da análise estatística 
que se preocupa com as relações entre variáveis e como tal apresenta duas 
características principais: os valores das diferentes variáveis devem ser obtidos 
sobre os mesmos indivíduos e as mesmas devem ser interdependentes e 
consideradas simultaneamente (KENDAL, 1963). Entre os métodos mais utilizados 
em Geociências destacam-se a análise de agrupamentos , a análise das 
componentes principais e a análise discriminante. 
 A análise de agrupamentos é utilizada quando se deseja explorar as 
similaridades entre indivíduos (modo Q) ou entre variáveis (modo R) definindo-os 
em grupos, considerando simultaneamente, no primeiro caso, todas as variáveis 
observadas em cada indivíduo e, no segundo, todos os indivíduos nos quais 
foram feitas as mesmas medidas. Segundo esse método, procura-se por 
agrupamentos homogêneos de itens representados por pontos num espaço n-
dimensional em um número conveniente de grupos relacionando-os através de 
coeficientes de similaridade ou de distância. 
 A análise das componentes principais procura interpretar a estrutura de um 
conjunto de dados multivariados, tanto em modo “Q” como em modo “R”, a partir 
da respectiva matriz de variâncias-covariâncias ou de correlações, pela obtenção 
de “autovalores” e “autovetores”. Consiste numa transformação linear das "m" 
variáveis originais correlacionadas entre si em "m" novas variáveis ortogonais e 
não deve ser confundida com a análise fatorial, segundo a qual supõe-se que as 
 5
relações existentes dentro de um conjunto de "m" variáveis seja o reflexo das 
correlações de cada uma dessas variáveis com "p" fatores, mutuamente não 
correlacionáveis entre si, sendo "p" menor que "m". 
 A análise discriminante é aplicada quando em relação a um indivíduo, 
sobre o qual tenham sido feitas diversas medidas, é necessário decidir à qual de 
dois ou mais possíveis grupos, o mesmo pertence. A idéia básica é substituir o 
conjunto original das diversas mensurações por um único valor Di, definido como 
uma combinação linear delas. Para fornecer um único valor os termos são 
adicionados nessa função linear e esta transformação é realizada de tal modo a 
fornecer a razão mínima entre a diferença entre pares de médias multivariadas e 
a variância multivariada dentro dos dois grupos. Conhecido os Di's, estes serão 
comparados com um certo Do , ou seja, o valor situado, ao longo da linha 
expressa pela função discriminante, a meio caminho entre os centros dos grupos, 
com a finalidade de verificar a qual deles os indivíduos pertencem. 
 A utilidade dos métodos multivariados pode ser apresentada em termos 
geométricos. Assim, observações univariadas podem ser assinaladas sobre uma 
linha reta e se essa linha for dividida em intervalos de classes e contando o 
número de observações em cada intervalo, um histograma poderá ser construído. 
Esse histograma irá requerer duas dimensões para a sua representação. 
Observações bivariadas podem ser assinaladas em um sistema de dispersão a 
duas dimensões. Se o diagrama for dividido em celas, o número de observações 
em cada cela pode ser contado e o respectivo histograma construído. Esse 
histograma requer três dimensões e pode ser representado por um mapa de 
isovalores. Observações trivariadas podem ser assinaladas em um gráfico de 
dispersão a três dimensões e a configuração nos pontos no espaço definiráuma 
elipsóide. Se o espaço tri-dimensional for dividido em cubos os números de 
observações dentro de cada figura geométrica poderão ser contados e obtida a 
distribuição de freqüências. Para a construção do respectivo histograma quatro 
dimensões serão necessárias. Em observações com quatro ou mais variáveis não 
é possível a representação gráfica segundo os métodos comuns, embora MERTIE 
(1949) tenha proposto para tanto complicados hipertetraedros. 
 Utilizando, assim, a interpretação geométrica em três dimensões para 
observações trivariadas, os seguintes exemplos de procedimentos em estatística 
multidimensional podem ser apresentados: 
 6
a) na análise das componentes principais é verificado se as observações 
multivariadas ocupam um número de dimensões igual ao número de variáveis 
medidas inicialmente e para tanto os eixos do elipsóide devem ser sispostos de 
tal modo a colocar o centro do elipsóide coincidente com o centro do sistema de 
coordenadas. 
b) na análise discriminante localizam-se os centros dos elipsóides e calcula-se a 
distância entre pares de centros de elipsóides; 
 Como salientado por DAVIS (1986), os métodos multivariados são 
poderosos, permitindo o pesquisador manipular diversas variáveis 
simultaneamente. São, porém, bastante complexos, tanto na sua estrutura teórica 
como na metodologia operacional. Em alguns casos os testes estatísticos a 
serem utilizados exigem requisitos muito rígidos e em outros, muitas vezes 
quando quer relacioná-los com problemas reais, não apresentam base estatística 
teórica e desse modo impossibilidade de testes de significância. De qualquer 
modo, são métodos extremamente promissores para a análise de dados 
geológicos tendo em vista que normalmente a maioria das situações geológica 
envolve um conjunto complexo de fatores atuando no sistema, sendo impossível 
isolá-los e estudá-los isoladamente. 
 Exemplos de situações que apresentam dados multivariados são comuns 
em Geologia, como: análises geoquímicas de elementos maiores e/ou elementos 
traços; caracteres morfológicos medidos em fósseis; características físicas de 
rochas sedimentares, como distribuição granulométrica, porosidade, 
permeabilidade; conteúdo mineralógico em rochas; variáveis fluviais, como 
descarga, material em suspensão, profundidade, sólidos dissolvidos, pH e 
conteúdo em oxigênio, etc.. Em alguns casos trata-se de simples extensão de 
problemas ligados à estatística univariada e outros pertencem, todavia, a uma 
nova classe de problemas. 
Esses métodos clássicos da análise estatística multivariada não levam, 
porém, em consideração a localização das amostras, no sentido geológico, nem 
as suas relações espaciais e também não refletem as diferenças quanto o suporte 
das amostras ou com relação ao suporte da região onde o estudo esta sendo 
realizado. Por outro lado a metodologia geoestatística univariada tem essas 
propriedades, mas não é capaz de tratar da correlação espacial entre diversas 
 7
variáveis. Ferramentas se tornaram, então, necessárias para incorporar essas 
importantes feições e daí a necessidade de métodos estatísticos que enfoquem 
a análise espacial de dados geológicos multivariados. 
Para tanto duas soluções tem sido apresentadas: uma, adaptativa, 
procurando, a partir dos resultados dos métodos clássicos, verificar se os 
mesmos apresentam uma organização espacial significativa e outra, específica, 
desenvolvendo metodologia própria para esta problemática, com destaque para a 
krigagem fatorial. 
Caso as amostras, no sentido geológico, sejam georreferenciadas os 
grupos resultantes da análise de agrupamentos/modo Q poderão ser submetidos 
a uma verificação espacial para a constatação de algum padrão de distribuição 
espacial desses grupos. De modo idêntico os “scores”, calculados a partir da 
análise das componentes principais ou da análise de fatores, que tenham suas 
coordenadas geográficas conhecidas poderão fornecer mapas de distribuição ou 
de tendência espacial. A análise discriminante pode ser aplicada para avaliar e 
comparar alterações ocorridas a intervalos de tempo indicando que variáveis mais 
contribuíram para essas mudanças. São adaptações de métodos estatísticos 
multivariados procurando modelar espacial ou cronologicamente fenômenos 
geológicos. Isso, porém, somente é possível se as amostras da matriz de dados 
multidimensionais apresentarem perfeitamente conhecidas as suas coordenadas 
geográficas. 
No caso da krigagem fatorial deve-se efetuar: 1) modelagem de 
corregionalização das variáveis usando o denominado modelo linear de 
corregionalização: todos os p(p + 1)/2 variogramas diretos e cruzados das p 
variáveis são modelados por uma combinação linear dos N´s variogramas 
padronizados para um mesmo alcance (sill); nesta modelagem supõe-se que o 
comportamento espacial das variáveis é o resultado da interação de diferentes 
processos atuando independentemente a diferentes escalas espaciais; 2) analise 
da estrutura de correlações entre as variáveis, levando em consideração as 
diferentes escalas, com aplicação da análise das componentes principais; um 
“círculo de correlações” entre as variáveis originais e os dois mais importantes 
fatores regionalizados é utilizado para resumir as relações entre as variáveis a 
cada escala espacial; 3) estimação das relações entre os fatores regionalizados e 
 8
variáveis, como componentes espaciais, a diferentes escalas por cokrigagem, 
para, finalmente, mapeà-los. 
 Em qualquer das circunstâncias citadas a preocupação é com: 
Descrição dos dados: os dados precisam ser explorados, tanto espacial 
como cronologicamente, em sua estrutura multidimensional para o seu 
entendimento e constatação de eventuais valores anômalos que possam 
mascarar tal estrutura. Existem a disposição, graças à moderna tecnologia 
computacional, ferramentas gráficas que permitem a visualização simultânea de 
amostras no espaço e/ou no tempo e as primeiras idéias a respeito da estrutura 
multidimensional podem começar a surgir a partir dessas exibições gráficas. 
Interpretação: os produtos gráficos obtidos a partir das informações 
numéricas são avaliados levando em consideração tanto o conhecimento já 
adquirido com dados similares como fatos científicos relacionados às variáveis 
sob estudo. A interpretação da estrutura espacial ou temporal, as associações e 
as relações casuais entre variáveis devem, então, ser organizadas num modelo 
que se ajuste aos dados. 
Estimação: A modelagem, se correta, não apenas descreve o fenômeno 
nos locais amostrados, mas pode se tornar válida para interpolações em locais ou 
intervalos de tempo adjacentes, não amostrados, representando um passo alem 
com relação às informações contidas nos dados numéricos. Na verdade este é o 
grande desafio da análise multivariada de dados espaciais, a estimação de 
valores para situações de previsão quantitativa. 
A pretensão deste texto escrito, de maneira a mais simples possível, por 
um Professor de Geologia, é apresentar uma introdução aos métodos estatísticos 
multidimensionais que possam ser aplicados na análise de dados, sem uma 
abordagem matemática complexa, porem sempre com um enfoque espacial e 
que permita ao usuário iniciar-se na Geologia Quantitativa. Os exemplos são 
voltados às Geociências, mas a metodologia pode perfeitamente ser utilizada em 
outras áreas que disponham de dados com estas mesmas características, ou 
seja, multivariados e regionalizados. 
Existe à disposição uma variedade muito grande de livros e pacotes 
computacionais e entre os principais livros textos que tratam de métodos 
quantitativos em Geologia podem ser citados: MILLER & KAHN (1962), SOKAL& 
SNEATH (1963), KRUMBEIN & GRAYBILL (1965), KOCH & LINK (1971), DAVIS (1973, 1986 
 9
E 2002), JORESKOG, KLOVAN & REYMENT (1976) , LE MAITRE (1982), HOWARTH & 
SIDING-LARSEN (1985), GRIFFITH & AMRHEIN (1997), REYMENT & SAVAZZI (1999) E 
WACKERNAGEL (2003). 
 Existem tambem diversos softwares estatísticos de aplicação geral, bem 
elaborados e completos como SAS, S-Plus, Statistica, Systat, todos em constante 
atualização. Dois outros, bastante amigáveis, para serem utilizados, e com boa 
saida gráfica, são o MVSP e o Xlstat, este baseado no aplicativo Excel®. Um 
pacote desenvolvido no Brasil voltado para aplicações em Ciências Biológicas e 
Médicas é o Bioestat e um outro proveniente da Noruega, com aplicações em 
Paleontologia, é o PAST, ambos obtidos gratuitamente nos endereços 
mizayres.bel@orm.com.br e http://folk.uio.no/ohammer/past 
Alem disso na revista “Computers & Geosciences”, editada pela 
International Association for Mathematical Geology, freqüentemente são 
apresentados programas listados e/ou executáveis descarregáveis a partir do 
endereço www.iamg.org. 
 
 10
REFERÊNCIAS BIBLIOGRÁFICAS 
 
AYRES, M.; AYRES JR., M.; AYRES, D. L. & SANTOS, A. S. (2000) – BioEstat 2.0: aplicações 
estatísticas nas áreas das ciências biológicas e médicas: Sociedade Civil Mamirauá, MCT-
CNPq, mizayres@zaz.com.br 
DAVIS, J.C. (1973) - Statistics and Data Analysis in Geology: John Wiley and Sons. 
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd ed., John Wiley and Sons. 
DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons. 
GRIFFITH, D.A. & AMRHEIN, C.G. (1997) – Multivariate Statistical Analysis for Geographers – 
Prentice Hall. 
HAMMER. O. & HARPER, D.A.T. (2004) – PAST. PAlaentological STatistics, versão 1.20. 
http://folk.uio.no/ohammer/past 
 
HOULDING, S. W. (2000) - Practical Geostatistics: Modeling and Spatial Analysis: Springer 
Verlag. 
HOWARTH, R.J. & SINDING-LARSEN, R. (1985) - Multivariate analysis: in (G.J.S. Govett, ed.) 
“Statistics and Data Analysis in Geochemical Prospecting”, vol. 2:207-289, Elsevier. 
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier. 
KOCH JR, G.S. & LINK, .F. (1971) - Statistical analysis of geological data: vol. 2, John Wiley & 
Sons. 
KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) - An introduction to Statistical Model in Geology: 
McGraw Hill Book. 
LE MAITRE, R.W. (1982) - Numerical Petrology. Statistical Interpretation of Geochemical Data: 
Elsevier. 
MERTIE JR, J.B. (1949) - Charting five and six variables on the bounding tetrahedral of hyper 
tetrahedral: Am. Mineralogist, 34:706-716. 
MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences: John Wiley and 
Sons. 
MVSP – Multi-Variate Statistical Package: Kovach Computing Services, http://www.kovcomp.co.uk 
REYMENT, R.A. & SAVAZZI, E. (1999) – Aspects of Multivariate Statistical Analysis in Geology - 
Elsevier. 
SAS – SAS Institute, http://www.sas.com 
SOKAL, R.R. & SNEATH, P.H.A. (1963) - Principles of numerical taxonomy: W.H. Freeman. 
S-PLUS – Mathsoft, http://www.mathsoft.com 
STATISTICA – StatSoft Inc., http://www.statsoft.com 
SYSTAT – SPSS Inc., http://www.spss.com 
WACKERNAGEL, H. (2003) – Multivariate Geostatistics. Springer. 
XLSTAT – AddinSoft SARL, http://www.xlstat.com 
 11
2. ÁLGEBRA MATRICIAL 
 
 Os métodos estatísticos multivariados são quase todos eles baseados em 
manipulação de matrizes, especialmente quando calculados por computador. A 
álgebra matricial torna-se, portanto, uma ferramenta básica para o entendimento 
desses métodos e neste capítulo são apresentadas noções elementares. Cada 
tópico é acompanhado por exemplos numéricos de pequenas dimensões no lugar 
de teoremas matemáticos e suas provas, que estão fora do escopo deste texto. 
Maiores detalhes sobre álgebra linear podem ser encontrados, entre outros, em 
AYRES JR. (1962), DAVIS (1984), FERGUNSON (1988, cap. 6 e 7) e GOLUB & VAN LOAN 
(1996). 
 
2.1. Matriz 
 Matriz é um arranjo bidimensional constituído por elementos xij, onde i 
representa linha e j coluna. Normalmente as linhas são indivíduos e as colunas, 
variáveis. 
 










=
44434241
34333231
24232221
14131211
xxxx
xxxx
xxxx
xxxx
X 
 
 Se o número de linhas é igual ao número de colunas a matriz é conhecida 
como quadrada. [X] é, portanto, uma matriz quadrada. 
 O número de linhas, porém, não precisa ser igual ao número de colunas: 
 








=

=
3231
2221
1211
232221
131211
zz
zz
zz
Z
yyy
yyy
Y 
 [Y] é uma matriz com 2 linhas e 3 colunas e [Z] é uma matriz com 3 linhas 
e 4 colunas, sendo ambas retangulares. 
 Uma matriz com apenas uma linha é chamada de vetor linha e uma matriz 
com apenas uma coluna é chamada de vetor coluna: 
 
 12
[ ]








==
n
2
1
n11
y
y
y
Youx...xxX M
 
 
 Escalar é uma matriz com dimensões 1x1. 
 Matriz diagonal é uma matriz quadrada onde os elementos fora da diagonal 
principal são todos iguais a 0 (zero): 
 








=
33
22
11
x00
0x0
00x
X 
 
Matriz de identidade ou matriz unitária é uma matriz quadrada onde os 
elementos da diagonal principal são todos iguais a 1 e os demais 0 (zero): 
 








=
100
010
001
I 
 
 
2.2. Operações com matrizes 
Transposição: permuta linhas por colunas e vice-versa; representada por 
[ ]’, de modo que um elemento aij em [A] passa a ser aji em [A]’ 
 








=








=
935563
784848
122833
'Aentão,
937812
554028
634833
Ase 
 
Adição e subtração: similar à álgebra linear. O número de linhas e de 
colunas precisa ser igual nas duas matrizes a serem adicionadas ou subtraídas 
 


=


++
++=

+


115
83
4723
3512
42
31
73
52
 
 13
Multiplicação: para efetuar a multiplicação, por exemplo [A]*[B]=[C], o 
número de linhas em [B] deve ser igual ao número de colunas em [A]. O resultado 
em [C] terá o mesmo número de linhas que [A] e o mesmo número de colunas 
que [B] 
lkjklj CB*A = 
A formula geral para determinar cada elemento em [C] é 
 
∑
=
=
r
1k
kjikij b*ac 
onde r é o número de colunas em [A] ou linhas em [B]. Isto significa que, por 
exemplo para c11, deve-se multiplicar a primeira linha em [A] vezes a primeira 
coluna em [B]; para encontrar c23 multiplicar a segunda linha de [A] pela terceira 
coluna de [B] 








=








+++
+++
+++
=










101734
142142
121938
)2*3()1*4()3*3()2*4()6*3()4*2(
)2*7()1*0()3*7()2*0()6*7()4*2(
)2*5()1*2()3*5()2*2()6*5()4*2(
236
124
*
34
70
52
 
 Importante notar que o resultado de [A]*[B] geralmente não é o mesmo que 
[B]*[A]: 


=











5720
3712
34
70
52
*
236
124
 
 
Multiplicação por escalar: cada elemento da matriz é multiplicado pelo 
escalar 


=


219
153
73
52
*3 
 
Determinantes: número singular associado a uma matriz quadrada. O 
determinante da matriz [A] é representado por |A|. 
 Para uma matriz de dimensões 2x2 o determinante é calculado pelo 
produto e uma diagonal menos o produto da outra diagonal: 
 
 14
)a*a()a*a(
aa
aa
21122211
2221
1211 −= 
 
 
 Inverso de uma matriz 
 Como não há divisão em álgebra matricial,o procedimento adotado é 
utilizar o inverso da matriz. Na álgebra linear se A*B = C, para resolver A calcula-
se 
B
CA = ou também 
B
1*CA = . O inverso da matriz é análogo a 
B
1 . 
 O inverso de uma matriz [X] é representado por [X]-1 e para o seu cálculo é 
necessário satisfazer a condição [X[*[X]-1=[I]. Em algumas situações isso não é 
possível porque é encontrada uma divisão por zero durante o processo de 
inversão. Nesse caso, de impossibilidade de inversão, a matriz é conhecida como 
singular. 
 Esta é uma das mais importantes técnicas em álgebra matricial e 
essencial para a solução de sistema de equações simultâneas do tipo: 
[A]*[X]=[B], 
onde [A] e [B] contem valores conhecidos e [X] valores desconhecidos a serem 
determinados. . 
 Multiplicando ambos os lados da equação por [A]-1 
[A]-1*[A]*[X]=[A]-1*[B], 
Como [A]-1*[A]=[I], a equação se reduz para 
[X]=[A]-1*[B] 
 
Seja o seguinte sistema de equações onde se quer determinar x1 e x2 
04x1+10x2= 38 
10x1+30x2=110 
 
Em notação matricial: 


=




110
038
x
x
*
3010
1004
2
1 
 
Para encontrar os valores xi, basta inverter a matriz [A] e multiplicar o 
inverso pelo vetor coluna [B] 
 15
O inverso de [A] é encontrado da seguinte maneira: 
 





10
01
3010
1004
 
 





10
025,0
3010
5,201
 
 



−


15,2
025,0
0510
5,201
 
 
 


−


2,05,0
025,0
010
5,201
 
 



−
−



2,05,0
5,05,1
10
01
 
 
Verificação da inversão de matriz: 


=




−
−
10
01
3010
1004
*
2,05,0
5,05,1
 
 
Cálculo dos xi: 
 


=




−
−
3
2
110
038
*
2,05,0
5,05,1
 
 
x1=2 e x2=3 
 
2.3. Algumas matrizes especiais 
2.3.1. Matriz de coeficientes de correlação 
A matriz original de dados é constituída por m indivíduos e n variáveis, em 
que cada linha i representa um indivíduo e cada coluna j uma variável. 
 16










=
n.m3,m2,m1,m
n,33,32,31,3
n,23,22,21,2
n,13,12,11,1
xxxx
xxxx
xxxx
xxxx
]X[
L
MMMM
L
 
 
 Para o cálculo de uma matriz de coeficientes de correlação a seguinte 
seqüência deve ser obedecida: 
1. Encontrar para cada coluna a respectiva média e o desvio padrão: 
m
x
x jj
Σ= ; 
1m
m
)ix(
ix
S
2
2
j −
Σ−Σ
= ; 2ji ss = 
 
2. Encontrar o valor zij para cada observação: 
 
 
 
3. A partir daí, constituir a matriz [ ]Z , também de dimensões nxm: 
 










=
n.m3,m2,m1,m
n,33,32,31,3
n,23,22,21,2
n,13,12,11,1
zzzz
zzzz
zzzz
zzzz
]Z[
L
MMMM
L
 
 
4. Encontrar o transposto da matriz [Z] 








=
n,mn,3n,2n,1
2,m2,32,22,1
1,m1,31,21,1
'
zzzz
zzzz
zzzz
]Z[ MMMM 
 
5. Multiplicando [Z]’ por [Z], encontrar a matriz [V], de dimensões nxn 
 [V] = [Z]’ [Z] 
j
ij
ij s
jxxz
−=
 17










=
2
n2n1n
n2
2
212
n121
2
1
vvvvv
vvvvv
vv...vvv
]V[
MMM
 
 
6. Finalmente, calcular a matriz de coeficientes de correlação, multiplicando o 
escalar 1m
1− por [V] 
[ ]








=−=
n,n2,n1,n
n,22,21,2
n,12,11,1
rrr
rrr
rrr
V
1m
1]R[ MMM
L
L
 
 
Exemplo 










=
444
345
321
432
321
]X[ 
Médias: x1=2,6; x2=3,0; x3=3,4 
Desvios padrão: s1 = 1,8; s2=1,0; s3=0,55 
 
 -0,889 -1,000 -0,727
-0,333 0,000 1,091
[Z] = -0,889 -1,000 -0,727
1,333 1,000 -0,727
0,778 1,000 1,091
 
 -0,889 -0,333 -0,889 1,333 0,778
[Z]'= -1,000 0,000 -1,000 1,000 1,000
 -0,727 1,091 -0,727 -0,727 1,091
 
 
 4,074 3,889 0,809
[V]= 3,889 4,000 1,818
0,808 1,818 3,967
 
 18
1,000 0,972 0,202
[R]= 0,972 1,000 0,455
0,202 0,455 1,000
 
 
2.3.2. Matriz de variâncias e covariâncias 
A matriz original de dados é constituída por m indivíduos e n variáveis, em 
que cada linha i representa um indivíduo e cada coluna j uma variável. 










=
n.m3,m2,m1,m
n,33,32,31,3
n,23,22,21,2
n,13,12,11,1
xxxx
xxxx
xxxx
xxxx
]X[
L
MMMM
L
 
 
 Para o cálculo de uma matriz de variâncias e covariâncias a seguinte 
seqüência deve ser obedecida: 
1. Encontrar a média de cada coluna e subtrair esse valor de cada elemento: 
m
x
x jj
Σ= ; jij*ij xxx −= 










=
n.m3,m2,m1,m
n,33,32,31,3
n,23,22,21,2
n,13,12,11,1
*x*x*x*x
*x*x*x*x
*x*x*x*x
*x*x*x*x
*]X[
L
MMMM
L
 
 
2. Criar uma matriz de somas de quadrados e produtos cruzados [A], pela 
multiplicação de [X*]’ por [X*], de dimensões nxn. 
 








=
n,mn,3n,2n,1
2,m2,32,22,1
1,m1,31,21,1
'
*x*x*x*x
*x*x*x*x
*x*x*x*x
*]X[ MMMM 
 
 
 [A] = [X*]’ [X*] 
 19










=
2
n2n1an
n2
2
212
n121
2
1
aaaa
aaaaa
aa...aaa
]A[
MMM
 
 
3. Finalmente criar uma matriz de variâncias e covariâncias [S] multiplicando o 
escalar 1m
1− por [A] 
 [ ]








=−=
n,n2,n1,n
n,22,21,2
n,12,11,1
sss
sss
sss
A
1m
1]S[ MMM
L
L
 
 
 
Exemplo 










=
444
345
321
432
321
]X[ 
 
Médias: x1=2,6; x2=3,0; x3=3,4 
 
 -1,6 -1 -0,4
 -0,6 0 0,6
[X*]= -1,6 -1 -0,4
 2,4 1 -0,4
 1,4 1 0,6
 
 -1,6 -0,6 -1,6 2,4 1,4
[X*]’= -1 0 -1 1 1
 -0,4 0,6 -0,4 -0,4 0,6
 
 13,2 7 0,8
[A]= 7 4 1
 0,8 1 1,2
 
 20
 3,30 1,75 0,20
[S]= 1,75 1,00 0,25
 0,20 0,25 0,30
 
 
 
2.3.3. Autovalores (eingenvalues) e Autovetores (eigenvectors) 
Este tópico é geralmente considerado de difícil entendimento dentro da 
álgebra matricial, não tanto pela maneira de cálculo, mas principalmente pelo 
entendimento que se possa ter de seu resultado. Uma interpretação geométrica 
como apresentada a seguir, baseada em GOULD (1967), pode ajudar a entender o 
significado de autovalores e autovetores. Considerando os valores de uma matriz 
como coordenadas de pontos num espaço multidimensional, autovalores e 
autovetores passam a ser propriedades geométricas do arranjo desses pontos. 
Seja um conjunto de equações simultâneas: 
[A][X] = λ[X], 
onde a matriz de coeficientes aij’s [A] multiplicada por um vetor de desconhecidos 
xi’s [X] é igual a este vetor [X] multiplicado por uma constante λ. 
Para encontrar os valores de λi que satisfaçam a relação acima, a equação 
pode ser reescrita como: 
([A] – λ[I])[X] = 0, 
onde λ[I] é a matriz de identidade, de dimensões 3x3, multiplicada por λ: 








λ
λ
λ
00
00
00
 
 
Cálculo das raizes da equação (autovalores) para uma matriz 3 x 3: 
(a11 – λ)x1 + a12 x2 + a13x3 = 0 
a21x1 + (a22 – λ)x2 + a23x3 = 0 
a31x1 + a32 x2 + (a33 – λ)x3 = 0 
 Como exemplo, seja a seguinte matriz de dados: 
 
 21








158
237
324
421
 
Para essa matriz de dados é encontrada a seguinte matriz de coeficientes 
de correlação [A] 








−−
−
−
=
000,1913,0980,0
913,0000,1820,0
980,0820,0000,1
]A[ , 
com variância total no sistema: 1+1+1=3 
 
 
•Para o calculo dos autovalores: 
 
0
000,1913,0980,0
913,0000,1820,0
980,0820,0000,1
]I[]A[ =








λ−−−
−λ−
−λ−
=λ− 
 
 Desenvolvendo: 
(1,000 - λ)(1,000 - λ)(1,000 - λ) + (0,820)(- 0,913)(- 0,980) + (- 0,980)(0,820) 
(- 0,913) - (- 0,980)(1,000 - λ)(- 0,980) - (1,000 - λ)(- 0,913)(- 0,913) - 
(0,820)(0,820)(1,000 - λ) = 
≅ (λ - 2,810)(λ - 0,188)(λ - 0,002) 
Autovalores são iguais a: λ1 = 2,810; λ2 = 0,188; λ3 = 0,002 (soma = 3) 
% da variância total explicada por cada autovalor: 
λ1 = (2,810/3)*100 = 93,66 
λ2 = (0,188/3)*100 = 6,27 
λ3 = (0,002/3)*100 = 0,07 
 
• Para o cálculo dos correspondentes autovetores: 
Componentes do autovetor V1: 
(1,000 - 2,810)X1 + 0,820X2 - 0,980X3 = 0 
0,820 - (1,000 - 2,810)X2 - 0,913X3 = 0 
-0,980X1 - 0,913X2 - (1,000 - 2,810)X3 = 0 
 22
 
X1 = - 1,000; X2 = - 0,974; X3 = 1,032 
V1 = - 1,000 
 - 0,974 
 1,032 
Padronização do autovetor V1 para o tamanhao unitário 
Q = -12 + (-0,974)2 + (1,032)2 = 3,012 
Q = 1,735 
Vn1 = -1/1,735 = -0,58 
Vn1 = - 0,974/1,735 = - 0,56 
Vn1 = 1,032/1,734 = 0,59 
 
Componentes do autovetor V2: 
(1,000 – 0,188)X1 + 0,820X2 - 0,980X3 = 0 
0,820 - (1,000 – 0,188)X2 - 0,913X3 = 0 
-0,980X1 - 0,913X2 - (1,000 – 0,188)X3 = 0 
Vn2 = -0,60 
Vn2 = 0,79 
Vn2 = 016 
..... 
Autovetores 
 F1 F2 F3 
Var1 -0.58 -0.60 0.56
Var2 -0.56 0.79 0.26
Var3 0.59 0.16 0.79
 
 
Factor loadings (carregamento das variáveis nas componentes principais): 
)dentecorresponautovaloropadronizadautovetor( ∗ ) 
 
 F1 F2 F3 
Var1 -0.97 -0.26 0.03
Var2 -0.94 0.34 0.01
Var3 1.00 0.07 0.04
 
 
 23
Em termos geométricos: 
 
Variáveis 
V1
V2
V3
-1
-0,5
0
0,5
1
-1 -0,5 0 0,5 1
Eixo F1: 94%
E
ix
o 
F2
: 6
%
 
 
 
A matriz original de dados ao ser multiplicada pela matriz de autovalores 
fornecera a matriz de contagens (scores). 
 
 
“factor scores” = 








158
237
324
421
*








−
−−
79,016,059,0
26,079,056,0
56,060,058,0
 
 
 
 F1 F2 F3 
Obs1 2.10 0.45 0.03
Obs2 0.93 -0.35 -0.07
Obs3 -0.69 -0.51 0.06
Obs4 -2.34 0.41 -0.02
 
 
 
 
 24
Em termos geométricos: 
 
Observações
A4
A3 A2
A1
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
Eixo F1: 93.66 %
E
ix
o 
F2
: 6
.2
7 
%
 
 
 
 
• Rotação de matriz 
A orientação dos autovetores no espaço multivariado é determinada pela 
direção da máxima variância. Como a contribuição da variância para cada 
autovetor deve ser maximizada, há necessidade de rotação da matriz fatorial 
inicial 
Matriz fatorial inicial: 
 Fatores 
 F1 F2 
 X1 0,966 - 0,259 
 X2 0,940 0,340 
 X3 - 0,997 0,070 
 
• Rotação dos fatores (pelo critério varimax): 
Rotação ortogonal de uma matriz de carregamentos [X], em um novo 
conjunto de coordenadas [X’], requer uma matriz operacional [T] 
[X’] = [T] [X] 
 25
 





ΘΘ
Θ−Θ=



2
1
'
2
'
1
X
X
cossen
sencos
X
X
 
ângulo de rotação Θ = ?, para variavel “j” e fatores “p” e “q” 
 
]/n)XX(2-)XX[(-)XX(2-)X-X(
]/nXX)X-(X[4-)X-(XX2X4 
4tan
J
2
JQJP
J
22
JQ
2
JP
J
2
JQJP
J
22
JQ
2
JP
J
JQJP
J
2
JQ
2
JP
J
2
JQ
2
JPJQJP
∑∑∑∑
∑∑∑
Σ=Θ 
2
JQ
2
JPJ XXU −= 
JQJPJ XX2V = 
∑=
J
JUA = 2,6222; A
2 = 6,8789 
∑=
J
JVB = -0,0001; B
2 = 0,0000 
∑ −=
J
2
J
2
J )VU(C = 1,6365 
∑=
J
JJ )VU(2D = -0,0797 
n/)BA(C
n/AB2D4tan 22 −−
−=θ = - 0,1592/- 0,6555 = 0,2429 
 
arctan 0,2429 = -166° 21’ = 4Θ; Θ = 41° 17’ 
sen Θ = - 0,6598 
cos Θ = 0,7515 
 



−
−=
7515,06598,0
6598,07515,0
]T[ 
 





−
−=



2J
1J
'
2J
'
1J
X
X
7515,06598,0
6598,07515,0
X
X
 
12121111
'
11 XTXTX += X’1j = (0,9656)(0,715) + (- 0,2590)(- 0,6598) = 0,894 
 
 
 
 
 26
• matriz fatorial rotacionada: 
 Fatores 
 F’1 F’2 
 X1 0,894 0,447 
 X2 0,477 0,879 
 X3 - 0,792 - 0,609 
 
 
 Em termos geométricos: 
 
Variáveis 
V3
V2
V1
-1,1
-0,6
-0,1
0,4
0,9
-1,1 -0,6 -0,1 0,4 0,9
Eixo F1: 94.30 %
E
ix
o 
F2
: 5
.7
0 
%
 
 27
Variáveis depois da rotação 
varimax
V3
V2
V1
-0,94
-0,74
-0,54
-0,34
-0,14
0,06
0,26
0,46
0,66
0,86
-0,9
4
-0,7
4
-0,5
4
-0,3
4
-0,14 0,06 0,26 0,46 0,66 0,86
Eixo F1: 54.82
Ei
xo
 F
2:
 4
5.
17
 %
 
 
 
 
 
 
 
Observações
A4
A3
A2
A1
-1,3
-0,8
-0,3
0,2
0,7
1,2
-1,3 -0,8 -0,3 0,2 0,7 1,2
Eixo F1: 94.30 %
E
ix
o 
F2
: 5
.7
0 
%
 
 28
Observações depois da rotação 
varimax
A4
A3 A2
A1
-1,6
-1,1
-0,6
-0,1
0,4
0,9
1,4
-1,6 -1,1 -0,6 -0,1 0,4 0,9 1,4
Eixo F1: 54.82 %
Ei
xo
 F
2:
 4
5.
17
 %
 
 
 
 Gráfico mostrando o arranjo espacial dos pontos Xi em 2D antes e depois 
da rotação dos eixos F1 e F2 
 
 
 29
REFERÊNCIAS BIBLIOGRAFICAS 
 
AYRES JR., F. (1962) – Schaum’s Outline of Theory and Problems of Matrices: Schaum Publ. Co. 
 
DAVIS, P.J. (1984) – The Mathematics of Matrices: R.E. Krieger Publ. Co 
 
FERGUNSON, J. (1988) – Mathematics in Geology: Allen & Unwin Ltd. 
 
GOLUB, G.H. & VAN LOAN, C.F. (1996) – Matrix Computations, 3rd. ed.: Johns Hopkins Univ. 
Press. 
 
GOULD, P. (1967) – On the geographic interpretation of eigenvalues: An initial exploration: Trans. 
Inst. British Geographers, n. 42, p. 53-86 
 30
3. REGRESSÃO LINEAR MÚLTIPLA 
 
 As relações entre duas variáveis "X", considerada independente, e "Y", 
considerada dependente, pode ser representada num diagrama de dispersão, 
com os valores yi em ordenada e os xi em abcissa. Cada par de valores xi e yi 
fornecerá um ponto e utilizando-se, por exemplo, o método dos desvios mínimos 
ao quadrado, pode-se calcular a equação de uma curva de tendência que melhor 
se ajuste à nuvem de distribuição. O método mais simples que pode ser adotado 
é o da análise de regressão linear simples que fornece a equação de uma reta: 
 ,iixiy ε+β+α= onde α e β são constantes desconhecidas a serem 
determinadas e εi representa toda a fonte de variabilidade em Y não explicada 
por X. Operacionalmente neste caso encontra-se a equação da reta para a 
previsão dos valores yi : 
 ,bxay += onde a e b são os coeficientes que determinam a intersecção e 
a inclinação da linha de tendência. 
 Não é raro, porém, que o termo εi seja numericamente mais importante 
que a explicação motivada pela variável X, significando que outras variáveis 
devem ser incorporadas ao modelo a fim de explicar o comportamento de Y. O 
modelo exige então uma "análise de regressão linear múltipla”. 
 A regressão múltipla é usada, portanto, para testar dependências 
cumulativas de uma única variável dependente em relação à diversas variáveis 
independentes. Cada uma dessas variáveis é isolada e mantida constante 
enquanto as variáveis restantes variam sistematicamente, sendo observados os 
seus efeitos sobre a variável dependente. A variável a ser inicialmente mantida 
constante é aquela que ocasiona a maior influência na variabilidadeda variável 
dependente. 
 O modelo geral é representado por 
 imimi11oi xxy ε+α++α+α= L 
 A condição inicial, como na regressão linear simples, é descrita por 
 ,exaay 1x1o ++= onde xi é a variável independente, responsável pela 
maior variabilidade, ao e a1 são os coeficientes e e1 é o erro, isto é, a variabilidade 
em Y não explicada pela relação linear. A variável que, em seguida, mais reduz a 
variabilidade do erro é em seqüência adicionada de tal modo que 
 31
 22211o exbxbby +++= , sendo 21o beb,b calculados e 12 ee < . 
O processo segue por etapas até que o comportamento de todas as 
variáveis independentes em relação à dependente seja verificado. Os coeficiente 
“bi” são conhecidos como parciais de regressão porque cada um deles fornece a 
taxa de mudança na variável dependente correspondente à respectiva variável 
independente, mantendo constantes as demais variáveis independentes. 
 A equação que representa a relação linear entre uma variável dependente 
(yi) e uma única variável independente (xi) é: 
 11oi xaaY += 
 As equações normais que fornecem os valores de ao e a1 são: 
 211o1 xanaY ∑+−∑ ( 1 ) 
 211ioii xaXaYX ∑+∑+∑ ( 2 ) 
 As equações ( 1 ) e ( 2 ) constituem um par de equações normais a duas 
incógnitas, as quais podem ser resolvidas para a obtenção dos coeficientes, por 
cálculo matricial, segundo: 
 
YXA
]Y[]A[]X[
= 
 Multiplicando ambos os termos da equação pelo inverso de [X], isto é, 
1]X[ − : 
 Y]X[]A[]X[]X[ 11 −− = 
 Como ]I[]X[.]X[ 1 =− (matriz de identidade) 
 e ]A[]A[]I[ = 
 ]Y[]X[]A[ 1 =− 
 Por extensão, a análise de regressão múltipla linear de quaisquer m 
variáveis independentes sobre uma variável dependente, sendo expressa por: 
 
mimi22i11oi XbXbXbbY ++++= L 
 pode ser resolvida segundo: 
 
 32
]Y[]B[]X[
yx
yx
yx
y
b
b
b
b
xxxx
xxxxx
xx
xxn
imi
ii2
ii1
i
m
2
1
o
2
mii1mimi
mii2i1i2i2
mixi1
2
i1xi1
mii1










∑
∑
∑
∑
=




















∑∑∑
∑∑∑
∑∑∑
∑∑
L
M
L
L
L
 
 
]Y[]X[]B[ 1−= 
 
 Para verificar se o modelo obedece a uma regressão múltipla é aplicada a 
análise de variância (ANOVA). 
Fonte de 
variação g.l. 
Soma de 
quadrados 
Média 
quadrática Razão F 
Regressão m SSR MSR MSR/MSD 
Resíduos n-m-1 SSD MSD 
Total n-1 
 
 H0: β1= β2= β3=... βm=0 
 H1: pelo menos um β é diferente de 0 
 A variância total de Y é em parte "explicada" pelas diversas variáveis X's e 
o restante pela variabilidade devido ao erro (ε1). É claro que o termo "explicada" 
tem apenas um significado numérico não implicando necessariamente em um 
conhecimento causa-efeito sobre o porquê da relação existente. 
 Os tamanhos relativos dessas duas componentes de variância são 
obviamente de grande interesse quando da aplicação da análise de regressão 
múltipla. A proporção da variância dos Y observados "explicada" por uma 
equação de regressão ajustada é representada pelo coeficiente de determinação 
R². 
 2
y
2
y2
s
s
total) (variância
regressão) de análise pela explicada Y de (variânciaR == 
Valores de R2 irão dispor-se no intervalo 0-1, fornecendo uma medida 
dimensional de quantidade do ajuste do modelo de regressão múltipla aos dados. 
Se o valor de R² for próximo de 1 isso significa que as diversas variáveis X's 
medidas são responsáveis quase que totalmente pela variabilidade de Y. Caso 
contrário, R² apresentará um valor próximo a zero. 
 33
Uma das mais importantes aplicações da análise de regressão múltipla é a 
escolha, entre diversas variáveis independentes, daquelas mais úteis na previsão 
de Y. A questão se torna, então, saber se certas variáveis explanatórias podem 
ser retiradas, ou não, do modelo de regressão. 
Teste de hipótese par βk: t* = bk/sbk 
H0: βk = 0 
H1: βk ≠ 0 
Critério do teste: 
Se |t* |≤t(1-α/2;n-p), aceita-se a hipótese nula, caso contrário rejeita-se a 
mesma. 
Como os coeficientes de regressão são parciais devem ser obtidas as 
porcentagens explicadas da soma de quadrados de Y segundo 2 1k − 
combinações, onde k é o número de variáveis independentes. Finalmente verifica-
se a contribuição pura de cada variável independente por comparações 
sucessivas entre os diversos resultados. 
 Outra maneira para a ordenação das variáveis pela sua importância na 
previsão da variável dependente é a padronização dos coeficientes de regressão 
parciais, convertendo-os em unidades de desvio padrão, (Bk ), (LI 1964, p. 136): 
 B b S
Sk k
k
Y
= , 
onde bk = coeficiente de regressão parcial; Sk= desvio padrão de Xk ; 
Sy= desvio padrão de Y. 
 Pela comparação direta dos Bk determinam-se as variáveis mais 
eficientes. 
 Embora a regressão múltipla seja multivariada no sentido de que mais de 
uma variável é medida simultaneamente em cada observação, trata-se na 
realidade de uma técnica univariada, pois o estudo é apenas em relação à 
variação da variável dependente Y, sem que o comportamento das variáveis 
independentes, Xs, seja objeto de análise. 
 Finalmente, alguns cuidados que se deve tomar quando da utilização da 
análise de regressão: 
a) as relações entre as variáveis devem ser lineares 
 34
b) evitar um número inferior de casos em relação ao número de variáveis 
consideradas; é recomendado que tal relação seja da ordem de 10 a 20 vezes 
superior 
c) evitar variáveis independentes redundantes, isto é, que tenham um alto 
coeficiente de correlação entre si 
d) verificar, utilizando resíduos, a presença de valores anomalos 
 
3.1. Exemplo com enfoque “clássico” 
 HARRISON &KRUMBEIN (1964), estudaram a influência de alguns processos 
praiais no condicionamento do ângulo de inclinação do fundo oceânico situado 
logo após à linha da maré baixa a estirâncio (variável dependente, Yi). Quatro 
processos independentes foram medidos: período das ondas, em segundos (X2i); 
altura das ondas, em pés (X3i); ângulo de aproximação das ondas, em pés (X4i); 
profundidade da lâmina d’água, em pés (X5i); Além disso foi considerada uma 
variável, que está condicionada por essas quatro, ou seja, o diâmetro médio, em 
mm, do sedimento do fundo oceânico (X1i), mas que também é independente em 
relação à inclinação do fundo oceânico. 
 
Locais Yi X1i X2i X3i X4i X5i 
01 0.68 0.79 7.80 1.82 30.00 12.40 
02 0.85 0.65 8.00 8.84 25.00 11.40 
03 0.66 0.81 9.03 5.12 35.00 10.70 
04 0.50 0.74 6.56 5.43 40.00 11.60 
05 1.86 0.22 5.90 1.42 30.00 11.30 
06 2.33 0.23 8.40 1.09 30.00 10.70 
07 2.17 0.25 12.00 1.15 25.00 11.10 
08 1.83 0.26 4.80 8.53 25.00 12.80 
09 1.68 0.41 10.80 6.11 10.00 13.30 
10 2.05 0.55 10.40 1.60 30.00 13.30 
11 1.83 0.47 10.80 1.04 30.00 14.10 
12 1.84 0.59 7.90 1.02 35.00 13.40 
13 1.87 0.47 4.30 1.11 30.00 13.50 
14 1.82 0.50 10.80 0.62 35.00 13.30 
15 1.85 0.52 3.80 1.69 30.00 14.40 
16 1.75 0.47 4.10 1.22 20.00 14.10 
17 1.51 0.42 4.50 2.13 30.00 15.30 
18 1.38 0.37 6.10 1.47 20.00 14.00 
 
 A questão é saber qual a importância de cada uma dessas 5 variáveis para 
o controle da inclinação do fundo oceânico. 
Para tanto, inicialmente, foi aplicada uma análise de variância aos dados. 
 35
Fonte g.l. 
Soma de 
quadrados 
Média 
quadrática Razão F Pr > F 
Regressão 5 3,9727 0,7945 8,7969 
0,001
4 
Resíduos 12 1,0839 0,0903 
Total 
51
2 5,0566 
. 
 A análise de variância aplicada forneceu um F calculado igual a 8,7969, 
superior ao F tabelado (F0.05;5,12 = 3,1059). O valor de F é significativo (p = 0,0014) 
indicando rejeição à hipótese nula e aceitação da hipótese alternativade que pelo 
menos uma das variáveis independentes condiciona o comportamento da variável 
dependente. 
. A equação para a regressão linear múltipla encontrada foi: 
 YI = 1,1858 – 2,3524X1I + 0,0447X2 – 0,0459X3 + 0,0082X4 + 0,0854X5 
com um coeficiente de determinação ( R² ) igual a 0,7857, significando que as 
variáveis independentes explicam 78,7% do comportamento de Yi. 
 Com relação aos coeficientes parciais de regressão, confrontados com o 
teste “t”, os seguintes resultados foram obtidos 
Coeficiente Valor Variável Teste t Pr > t 
b0 1,1858 0,9984 0,3377 
b1 -2,3524 X1 -4,8511 0,0004 
b2 0,0447 X2 1,4496 0,1727 
b3 -0,0459 X3 -1,3560 0,2000 
b4 0,0082 X4 0,5922 0,5647 
b5 0,0854 X5 1,2841 0,2233 
 
 
 Como na tabela de distribuição teórica de “t” encontra-se o valor crítico 
t(0.05:12) = 1.782, pode-se concluir que apenas o coeficiente parcial de regressão b1 é 
significante. Em outras palavras a granulometria media do sedimento é a variável 
que mais explica a variação do fundo oceânico na zona de “surf”. 
 Adotando o critério “stepwise” (passo a passo), para verificar a evolução do 
R2 à medida que novas variáveis são adicionadas para a analise de regressão, os 
seguintes resultados foram obtidos 
 
Variáveis no modelo 
de regressão 
Variável mais 
importante escolhida R² 
1 X1 0,629 
2 X3 0,739 
3 X2 0,756 
4 X5 0,779 
 36
 
 
 
Uma outra maneira para determinar a importância relativa de cada uma 
dessas variáveis é verificar todas as possíveis combinações dos coeficientes 
parciais: 
 
Combinações Porcentagem da soma de 
quadrados de Y explicada 
X1 63,1 
X2 1,1 
X3 23,7 
X4 5,6 
X5 5,2 
 
1,2 65,5 
1,3 74,1 
1,4 64,2 
1,5 66,4 
2,3 24,4 
2,4 6,5 
2,5 9,1 
3,4 36,1 
3,5 24,4 
4,5 8,9 
 
1,2,3 75,9 
1,2,4 66,8 
1,2,5 71,8 
1,3,4 74,1 
1,3,5 74,8 
1,4,5 68,6 
2,3,4 36,5 
2,3,5 25,9 
2,4,5 12,0 
3,4,5 36,2 
 
1,2,3,4 75,9 
1,2,3,5 78,1 
1,2,4,5 75,3 
1,3,4,5 74,9 
2,3,4,5 36,5 
 
X1, X2, X3, X4, X5 78,7 
 
 
 
 
 
 37
 
 
 
Combinações mais importantes Porcentagem da soma de 
X1 X2 X3 X4 X5 quadrados de Y explicada 
 
1 63,1 
 3 23,7 uma por vez 
 4 5,6 
 
1 3 74,1 
1 5 66,4 duas por vez 
1 2 65,5 
 
1 2 3 75,9 
1 3 5 74,8 três por vez 
1 3 4 74,1 
 
1 2 3 5 78,1 
1 2 3 4 75,9 quatro por vez 
1 2 4 5 74,9 
 
1 2 3 4 5 78,7 cinco por vez 
 
 
 
 
 Contribuição pura em % de cada variável 
Granulometria média 63.1
Altura da onda 74,1 – 63,1 11.0
Período da onda 75,9 – 74,1 1.8
Profundidade 78,1 – 75,9 2.2
Ângulo de aproximação 78,7 – 78,1 0.6
 78.7
 
 
 Novamente a variável mais importantes para o “controle” da inclinação do 
fundo oceânico foi granulometria média (Xi), seguida de altura da onda (X3). 
 
3.2. Exemplo com enfoque “espacial” 
Comparação entre mapas têm sido preocupação dos geólogos, pela sua 
utilidade na localização espacial e mesmo interpretação de qualquer banco de 
dados temático. Se existem, porém, diversos algoritmos à disposição para a 
confecção de mapas o mesmo não pode ser afirmado em relação à comparação 
entre mapas. Alguns trabalhos que tratam do assunto podem ser encontrados em 
 38
BROWER & MERRIAM (1990, 1992) usando técnicas estatísticas; e HERZFELD & 
SONDERGARD (1988); HERZFELD & MERRIAM (1991) usando técnicas algébricas 
orientadas para uso em computador. Um interessante enfoque é apresentado por 
BROWER & MERRIAM (2001) que utilizam a análise de regressão múltipla para 
comparar mapas de contorno estrutural com finalidade de entender a história 
geológica de uma certa região. Se a variável considerada dependente for a 
camada mais jovem e as demais camadas as variáveis independentes, pode-se 
verificar qual delas teve maior influência na configuração dessa camada mais 
jovem. 
Utilizando essa idéia LEITE & LANDIM (2003) aplicaram a análise de 
regressão múltipla para quantificar a influência de diversas variáveis no 
comportamento da superfície potenciométrica de um aqüífero livre (H), 
considerada como variável dependente. As variáveis consideradas independentes 
foram cota do terreno (Z), base da formação aqüífera ou cota do topo do basalto 
(TB), espessura da formação aqüífera (FM), e coordenadas UTM (X e Y). Esses 
valores foram obtidos a partir de 188 poços. 
 
ID X Y H Z TB FM 
1 486450 7714380 291.189 296.429 217.2 79.23 
2 486630 7714170 289.067 290.612 217.2 73.41 
3 486850 7717900 315.241 329.716 217.2 112.52 
4 486680 7718240 317.682 344.277 217.2 127.08 
5 486690 7717400 309.052 328.542 217.2 111.34 
6 486580 7717100 308.604 328.274 217.2 111.07 
7 486480 7716800 304.559 327.428 217.2 110.23 
8 486560 7716520 302.352 315.592 217.2 98.39 
9 486400 7716100 299.957 311.337 217.2 94.14 
10 486070 7716150 303.822 325.457 217.2 108.26 
11 485900 7715630 294.954 309.294 217.2 92.09 
12 485510 7716020 293.871 318.611 217.2 101.41 
13 492430 7719100 340.94 350.875 217.2 133.67 
14 492610 7718200 342.341 354.741 217.2 137.54 
15 490450 7716520 314.986 323.636 217.2 106.44 
16 490800 7717170 315.645 318.945 217.2 101.74 
17 491110 7719280 339.994 357.334 276.61 80.73 
18 490970 7718950 339.635 343.945 275.98 67.96 
19 490780 7718340 331.465 348.535 271.98 76.55 
20 490500 7718030 329.644 345.289 272.92 72.37 
21 490180 7716840 309.333 309.333 255.97 53.37 
22 489940 7716980 314.421 324.011 266.19 57.82 
23 489680 7716700 309.574 314.339 273.96 40.38 
24 489240 7716800 320.553 336.913 289.16 47.75 
25 488910 7716510 319.572 331.902 295.78 36.12 
 39
26 489070 7716340 313.844 325.134 291.7 33.43 
27 489310 7716190 306.693 319.468 286.14 33.32 
28 489930 7715900 309.23 319.175 217.2 101.97 
29 489060 7715800 306.059 322.889 295.57 27.32 
30 488850 7715240 301.6 309.85 305.17 4.68 
31 489380 7714810 304 315.205 217.2 98 
32 487880 7715530 303.3 315.88 306.75 9.13 
33 487100 7715460 293.445 315.035 311.5 3.53 
34 487310 7715940 301.393 321.143 314.05 7.1 
35 487510 7716030 306.945 330.475 311.62 18.85 
36 487240 7716270 301.731 313.431 320.52 0 
37 487670 7716830 314.373 329.643 318.09 11.56 
38 487600 7717580 314.439 320.469 317.13 3.34 
39 487400 7716640 313.914 316.489 320.33 0 
40 487340 7717370 312.307 312.387 318.25 0 
41 487110 7717370 310.257 314.562 217.2 97.36 
42 487060 7717710 313.124 321.144 217.2 103.94 
43 487290 7718000 314.958 318.208 217.2 101.01 
44 487279 7718226 316.01 326.695 217.2 109.49 
45 487800 7717970 318.55 330.06 319.17 10.89 
46 488240 7718560 326.71 340.665 323.48 17.19 
47 488070 7718660 322.91 330.4 322.85 7.55 
48 488320 7718900 326.546 335.166 322.59 12.58 
49 488510 7719040 328.253 340.693 322.07 18.63 
50 487050 7718560 319.844 341.789 217.2 124.59 
51 490100 7719190 343.673 369.283 295.23 74.06 
52 487400 7716960 310.772 318.922 320.25 0 
53 487790 7717160 315.613 330.443 317.1 13.34 
54 487835 7717675 319.285 330.405 317.77 12.63 
55 488025 7717850 322.906 338.746 319.09 19.66 
56 488400 7718215 329.23 351.46 322.49 28.97 
57 488460 7717960 329.427 350.687 319.97 30.72 
58 487850 7716770 316.643 335.043 315.46 19.59 
59 488095 7717515 323.488 336.278 316.84 19.43 
60 488100 7717310 322.822 338.492 315.61 22.88 
61 488499 7718069 330.254 352.544 321.14 31.41 
62 487820 7716415 313.403 339.123 312.73 26.4 
63 488070 7716830 319.43 336.13 312.93 23.2 
64 488790 7718370 333.417 352.867 323.95 28.92 
65 489300 7718935 340.285 356.655 317.83 38.83 
66 488280 7716265 318.283 334.233 305.48 28.75 
67 488478 7716358 319.171 333.491 303.23 30.26 
68 489263 7717831 329.833 344.383 308.58 35.8 
69 489330 7717190 326.779 339.849 291.86 47.99 
70 489645 7717725 331.372 344.902 294.1 50.81 
71 489660 7718870 342.73 363.79 310 53.79 
72 489625 7718700 342.445362.875 311.94 50.93 
73 489800 7718850 342.888 364.883 305.94 58.94 
74 489890 7718595 342.712 357.112 302.56 54.55 
75 490470 7718670 340.816 354.331 284.36 69.97 
76 488990 7719165 335.329 348.12 318.71 29.41 
77 489210 7718470 339.618 361.278 322.9 38.38 
78 489070 7718485 338.763 361.883 324.09 37.79 
79 488765 7717920 332.309 359.319 318.04 41.28 
 40
80 489110 7717710 332.627 350.717 308.95 41.77 
81 489125 7718720 339.86 360.53 322.76 37.77 
82 489220 7719400 338.511 355.581 312.38 43.2 
83 488690 7719920 333.997 342.407 217.2 125.21 
84 488810 7720120 336.713 347.553 217.2 130.35 
85 489400 7720480 340.446 342.806 217.2 125.61 
86 489240 7720870 343.336 357.056 217.2 139.86 
87 489010 7720840 342.626 359.596 217.2 142.4 
88 489650 7721570 291.189 359 217.2 141.8 
89 489977 7721238 349.795 359.005 302.72 56.29 
90 492730 7721150 349.267 366.367 217.2 149.17 
91 492450 7721460 343.002 367.242 217.2 150.04 
92 492370 7722130 364.586 378.991 217.2 161.79 
93 493120 7722800 347.574 363.194 217.2 145.99 
94 491340 7720510 345.68 359.545 281.92 77.62 
95 491120 7720180 346.502 362.602 282.4 80.21 
96 491080 7720640 347.757 361.987 284.77 77.22 
97 492950 7720350 349.514 366.264 217.2 149.06 
98 491530 7720200 342.489 354.074 278.74 75.33 
99 491300 7719690 342.434 358.899 277.4 81.5 
100 490213 7719747 347.297 360.467 290.36 70.11 
101 490210 7719840 347.486 361.236 290.59 70.64 
102 490400 7720080 341.665 371.099 289.5 81.6 
103 490280 7719380 346.235 363.575 290.22 73.36 
104 491920 7725350 324.4 350.985 217.2 133.78 
105 489250 7722740 357.81 372 217.2 154.8 
106 489740 7721580 351.352 359.722 217.2 142.52 
107 485840 7716520 310.637 339.087 217.2 121.89 
108 487670 7715190 301.426 322.166 308.26 13.9 
109 489350 7717470 329.952 341.102 297.09 44.01 
110 492660 7723500 326.29 367.647 217.2 150.45 
111 492780 7720710 347.513 366.743 217.2 149.54 
112 493800 7723830 353.549 363.384 217.2 146.18 
113 493170 7723530 346.161 357.281 217.2 140.08 
114 492370 7724150 331.013 358.983 217.2 141.78 
115 493100 7722150 352.799 374.599 217.2 157.4 
116 492420 7722820 342.155 373.115 217.2 155.91 
117 492050 7723500 333.039 364.689 217.2 147.49 
118 491540 7721530 339.815 370.835 282.15 88.68 
119 490740 7723250 351.821 364.151 217.2 146.95 
120 490080 7722980 344.837 357.577 217.2 140.38 
121 490280 7721630 354.373 371.483 217.2 154.28 
122 490560 7720870 352.056 377.076 291.68 85.4 
123 490750 7720170 349.969 364.979 286.26 78.72 
124 489880 7720300 345.489 361.639 297.22 64.42 
125 489060 7719850 335.555 339.695 311 28.69 
126 489590 7719520 344.656 359.046 303.15 55.89 
127 488600 7718760 332.881 351.45 323.84 27.61 
128 488700 7717180 327.97 350.45 307.06 43.39 
129 488280 7715657 308.118 327.258 304.72 22.54 
130 489112 7716700 320.736 337.896 291.92 45.97 
131 488558 7716928 325.005 342.795 306.54 36.26 
132 487975 7717228 319.315 336.535 316.09 20.44 
133 490213 7719747 347.297 360.467 290.36 70.11 
 41
134
486990.
2 7716692 301 301 217.2 83.8 
135
487014.
2 7716773 302 302 217.2 84.8 
136
487038.
2 7716857 303 303 217.2 85.8 
137
487042.
2 7716952 304 304 217.2 86.8 
138
487079.
9 7717039 305 305 217.2 87.8 
139
487140.
6 7717120 306 306 217.2 88.8 
140
487208.
2 7717201 307 307 217.2 89.8 
141
487247.
6 7717282 308 308 217.2 90.8 
142
487271.
7 7717361 309 309 217.2 91.8 
143 487277 7717395 310 310 217.2 92.8 
144
487313.
2 7717479 311 311 217.2 93.8 
145 487298 7717600 312 312 217.2 94.8 
146
487279.
6 7717716 313 313 217.2 95.8 
147
487392.
2 7717847 314 314 217.2 96.8 
148
487441.
6 7717990 315 315 217.2 97.8 
149
487515.
7 7718130 316 316 217.2 98.8 
150
487603.
5 7718264 317 317 217.2 99.8 
151
487669.
4 7718388 318 318 217.2 100.8 
152
487702.
4 7718528 319 319 217.2 101.8 
153 487776 7718714 320 320 217.2 102.8 
154
487835.
7 7718797 321 321 217.2 103.8 
155
487927.
5 7718904 322 322 217.2 104.8 
156
488052.
3 7718979 323 323 217.2 105.8 
157
488131.
3 7719042 324 324 217.2 106.8 
158 488189 7719112 325 325 217.2 107.8 
159 488236 7719144 326 326 217.2 108.8 
160 488473 7719462 327 327 217.2 109.8 
161 488584 7719570 328 328 217.2 110.8 
162 488584 7719626 328 328 217.2 110.8 
163 488663 7719722 329 329 217.2 111.8 
164 488722 7719732 330 330 217.2 112.8 
165 489016 7715190 300 300 217.2 82.8 
166
489101.
2 7715325 301 301 217.2 83.8 
167
489168.
8 7715483 302 302 217.2 84.8 
168
489293.
6 7715640 303 303 217.2 85.8 
 42
169
489453.
8 7715832 304 304 217.2 86.8 
170
489580.
8 7716058 305 305 279.85 25.15 
171
489740.
3 7716223 306 306 273.52 32.48 
172
489911.
7 7716328 307 307 217.2 89.8 
173
490055.
8 7716478 308 308 217.2 90.8 
174
490177.
4 7716682 309 309 217.2 91.8 
175 490345 7716855 310 310 217.2 92.8 
176
490432.
9 7716910 311 311 217.2 93.8 
177
490577.
9 7717018 312 312 217.2 94.8 
178
490632.
5 7717185 313 313 217.2 95.8 
179
490725.
9 7717337 314 314 217.2 96.8 
180
490855.
5 7717489 315 315 217.2 97.8 
181
490962.
5 7717613 316 316 217.2 98.8 
182
491075.
2 7717715 317 317 217.2 99.8 
183
491214.
5 7717850 318 318 217.2 100.8 
184
491317.
6 7717955 319 319 217.2 101.8 
185 491403 7718100 320 320 217.2 102.8 
186
491396.
7 7718108 320 320 217.2 102.8 
187 491679 7718877 325 325 217.2 107.8 
188 492030 7719830 330 330 217.2 112.8 
 
O local objeto do estudo compreendeu a área urbana do município de 
Pereira Barreto/SP, situada junto ao Reservatório de Três Irmãos, formado no rio 
Tietê, pela construção da barragem de mesmo nome, com extensão de 
aproximadamente 150 km. A cidade de Pereira Barreto situa-se na vertente sul de 
uma colina ampla, de topo aplainado, com altitude máxima de aproximadamente 
450 m, limitada ao sul pelo remanso do reservatório da barragem Três Irmãos no 
rio Tietê e a norte pelo remanso do reservatório de Ilha Solteira (rio Paraná) no 
tributário São José dos Dourados, em zona de transição dos grupos Caiuá e 
Bauru, com afloramentos de basaltos do grupo São Bento restritos às 
proximidades das margens do rio Tietê. A superfície potenciométrica do aqüífero 
livre na área ocupada pela cidade, anteriormente à formação do reservatório 
encontrava-se entre os níveis 310-350 m, com profundidades máximas do nível 
d’água (N.A.) pouco superiores a 10 metros. 
 43
 
 
1
2
3
4
5
6
7
8
910
11
12
13
14
15
16
17
18
19
20
21
22
2324
25
26
27
2829
30
31
3233
3435
36
37
38
39
4041
42
43
44
45
4647
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
6667
68
69
70
71
72
73
74 75
76
7778
79
80
81
82
83
84
85
8687
88
89 90
91
92
93
94
95
96
97
98
99100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123124
125
126
127
128
129
130
131
132
133
134135
136137
138139
140141
142143144
145146
147
148
149150
151
152
153154
155156
157158159
160161
162163164
165166
167
168
169
170
171172
173
174
175176
177
178
179
180181
182183
184
185186
187
188
486000 487000 488000 489000 490000 491000 492000 493000
7715000
7716000
7717000
7718000
7719000
7720000
7721000
7722000
7723000
7724000
7725000
 
 
Os maiores coeficientes de determinação obtidos foram : 
 
Variável Coeficiente de Determinação R2 
Topografia 0,814 
Topografia + Coord X 0,830 
Topografia + Coord X + Espessura FM 0,833 
Topografia + Coord X + EspessuraFM + Coord Y 0,836 
Topografia + Coord X + Espessura FM + Coord Y + Topo 
Basalto 
0,836 
 
 
Com estes resultados, estabelece-se a contribuição pura de cada variável 
independente para a variabilidade da variável dependente H, isto é, superfície 
potenciométrica do aqüífero livre: 
 44
 
 
Variável Contribuição 
Topografia 81,4% (0,814) 
Topografia/Coord X 1,6% (0,830 - 0,814) 
Topografia/Coord X/Espessura FM 0,3% (0,833 – 0,830) 
Topografia/Coord X/Espessura FM/Coord Y 0,3% (0,836 – 0,833) 
Topografia/Coord X/ Espessura FM/Coord Y/Topo Basalto 0,0% (0,836 – 0,836) 
 
Analisando-se o peso de cada variável dependente observa-se que a 
variável Topografia do Terreno (Z) é a que melhor explica a variação da Superfície 
Potenciométrica (H), da ordem de 81,4%. As demais variáveis apresentam 
pequenas interferências na variabilidade da potenciometria. 
Os resultados encontrados confirmam quantitativamente que a superfície 
potenciométrica do aqüífero livre se comporta, em linhas gerais, como a superfície 
topográfica do terreno. Observa-se, no entanto, que apesar da excelente 
correlação obtida no processo de comparação entre o mapa potenciométrico e o 
mapa topográfico, a variável Superfície Potenciométrica não é totalmente 
explicada pela variável Topografia do Terreno, ou seja existem outros fatores que 
condicionam também essa variação. 
 45
 
486000 487000 488000 489000 490000 491000 492000 493000
7715000
7716000
7717000
7718000
7719000
7720000
7721000
7722000
7723000
7724000
7725000
Superfície potenciometrica
486000 487000 488000 489000 490000 491000 492000 493000
7715000
7716000
7717000
7718000
7719000
7720000
7721000
7722000
7723000
7724000
7725000
486000 488000 490000 492000
7716000
7718000
7720000
7722000
7724000
Topografia
 
 
 Neste caso a análise de regressão múltipla foi efetuada a partir de 188 
pontos “xyz”. Pode-se, porém, efetuar este mesmo tipo de análise, em que as 
 46
variáveis se apresentam em forma de superfícies, adotando metodologia 
encontrada no software IDRISI 3.2 (2001). Um exemplo pode ser encontrado em 
LOURENÇO & LANDIM (2004) 
 47
REFERÊNCIAS BIBLIOGRAFICAS 
 
DAWSON, K. R. & WHITTEN, E. H. T. (1962) – The quantitative mineralogical composition and 
variation of the Lacorne, La Motte, and Preissac granitic complex, Quebec, Canada: Jour. 
Petrology, 3(1):1-37 
 
BROWER, J.C. & MERRIAM, D.F. (1990). Geological map analysis and comparison of adjacent 
multivariate algorithms. Geol Survey Canada Paper 89-9, p. 123-134.Thematic map analysis using 
multiple regression: Math. Geology, v. 33(3), p. 353-368 
 
BROWER, J.C. & MERRIAM, D.F. (1992). A simple method for comparison of adjacent points on 
thematic maps, in Kurzl, H. and Merriam, D.F., ed. Use microcomputers in geology. Plenum Press, 
New York, p. 227-240. 
 
BROWER, J.C. & MERRIAM, D.F. (2001). Thematic map analysis using multiple regression: Math. 
Geology, v. 33(3), p. 353-368 
 
HARRISON, W. & KRUMBEIN, W.C. (1964) – Interactions of the beach-ocean-atmosphere system 
at Virginia Beach, Virginia: U.S. Army, Coastal Eng. Res. Center, Tech. Mem., no. 7 
 
HERZFELD, H.C. & SONDERGARD, M.A., (1988), MAPCOMP - A FORTRAN program for 
weighted thematic map comparison: Computers & Geosciences, v.14, no.5, p.699-713. 
 
HERZFELD, U.C. & MERRIAM, D.F. (1991). A map comparitson technique utilizing weighted input 
parameters, in GAAL G., and MERRIAM, D.F. Eds. Computer applications in resource estimations. 
Pergamon Press, Oxford, p. 43-52. 
 
IDRISI 32 (2001) – Clark Labs, Clark University, MA, USA. 
 
LEITE, C.B.B. & LANDIM, P.M.B. (2003) –Relação entre mapas temáticos por meio da Análise de 
Regressão Múltipla. Solos e Rochas – Revista Latino-americana de Geotecnia, 26(3):195-203 
 
LI, C.C. (1964) - Introduction to Experimental Statistics: McGraw Hill, Inc. 
 
LOURENÇO, R. W. & LANDIM, P.M.B. (2004) - Análise de regressão múltipla espacial. 
UNESP/Rio Claro, IGCE, DGA, Lab. Geomatemática,Texto Didático 13, 34 pp. Disponível em 
<http://www.rc.unesp.br/igce/aplicada/textodi.html 
 
 
 48
4. ANÁLISE DE AGRUPAMENTOS 
 
4.1. Introdução 
 Análise de agrupamentos (cluster analysis) é um termo usado para 
descrever diversas técnicas numéricas cujo propósito fundamental é classificar os 
valores de uma matriz de dados sob estudo em grupos discretos. A técnica 
classificatória multivariada da análise de agrupamentos pode ser utilizada quando 
se deseja explorar as similaridades entre indivíduos (modo Q) ou entre variáveis 
(modo R) definindo-os em grupos, considerando simultaneamente, no primeiro 
caso, todas as variáveis medidas em cada indivíduo e, no segundo, todos os 
indivíduos nos quais foram feitas as mesmas mensurações. Segundo esse 
método, desenvolvido, inicialmente em Zoologia por taxonomistas numéricos, 
procura-se por agrupamentos homogêneos de itens representados por pontos 
num espaço n-dimensional em um número conveniente de grupos relacionando-
os através de coeficientes de similaridades ou de correspondências. 
 A aplicação desta análise é controversa entre os pesquisadores, pois 
pouco se sabe a respeito dos pressupostos estatísticos dos seu vários métodos e 
apenas testes limitados são conhecidos para verificar a significância dos 
resultados. Na análise introdutória de matrizes de dados tornam-se, porem, 
bastante eficientes para auxiliar na formulação de hipóteses a respeito da 
homogeneidade ou não desses dados. 
 
4.2. Métodos de classificação 
 Segundo DAVIS (1986) os diversos métodos para a análise de 
agrupamentos podem ser enquadrados em quatro tipos gerais: 
a) Métodos de partição: procuram classificar regiões no espaço, definido em 
função de variáveis, que sejam densamente ocupados em termos de 
observações daqueles com ocupação mais esparsa. 
b) Métodos com origem arbitrária: procuram classificar as observações segundo 
“k” conjuntos previamente definidos; neste caso “k” pontos arbitrários servirão 
como centróides iniciais e as observações irão se agrupando, por similaridade, 
em torno desses centróides para formar agrupamentos. 
 49
c) Métodos por similaridade mútua: procuram agrupar observações que tenham 
uma similaridade comum com outras observações; inicialmente uma matriz n x 
n de similaridades entre todos os pares da observação é calculada; em 
seguida, as similaridades entre colunas são repetidamente recalculadas; 
colunas representando membros de um único agrupamento tenderão 
apresentar intercorrelações próximas a 1 e valores menores com não 
membros. 
d) Métodos por agrupamentos hierárquicos: são as técnicas mais comumente 
usadas em Geologia; a partir da matriz inicial de dados obtém-se uma matriz 
simétrica de similaridades e incia-se a detecção de pares de casos com a mais 
alta similaridade, ou a mais baixa distância; para essa combinação, segundo 
níveis hierárquicos de similaridade, escolhe-se entre os diversos 
procedimentos aglomerativo de tal modo que cada ciclo de agrupamento 
obedeça a uma ordem sucessiva no sentido do decréscimo de similaridade. 
 
4.2.1. Metodologia para agrupamentos hierárquicos 
 Partindo de uma matriz inicial de dados [n*p], onde "n" linhas representam 
casos ou espécimes ou amostras, no sentido geológico, e as "p" colunas as 
variáveis, feitas as comparações, usando um coeficiente de similaridade qualquer 
entre linhas, obtém-se uma matriz inicial de coeficiente de similaridade de 
tamanho [ ]n n* , que será utilizada no modo Q. Se a comparação for entre 
colunas, obter-se-á uma matriz inicial de coeficientes de similaridade inicial 
[ ]p p* , que será utilizada no modo R. Embora diversas medidas de similaridadetenham sido propostas, somente duas são geralmente usadas: o coeficiente de 
correlação de Pearson e a medida de distância euclideana. Se as variáveis forem 
padronizadas a partir da matriz inicial de dados, dando o mesmo peso a cada 
uma delas, qualquer um desses coeficientes poderá ser diretamente transformado 
no outro. 
 Na matriz inicial de coeficientes de similaridade estes representam o grau 
de semelhança entre pares de objetos e os mesmos deverão ser arranjados de 
acordo com os respectivos graus de similaridade de modo a ficarem agrupados 
segundo uma disposição hierárquica. Os resultados quando organizados em 
gráfico, do tipo dendrograma, mostrarão as relações das amostras agrupadas. 
 50
Várias técnicas de agrupamentos tem sido propostas, e os métodos mais 
comumente usados são: “ligação simples” (single linkage method ou nearest 
neighbor); “ligação completa” (complete linkage method ou farthest neighbor); 
”agrupamento pareado proporcionalmente ponderado" (weighted pair-group 
method, WPGM); “agrupamento pareado igualmente ponderado” (unweighted 
pair-group method”, UPGM); “variância mínima” (minimum variance clustering ou 
Ward’s method of sum-of-squares method). 
 No método de ligação simples os grupos iniciais são determinados pelos 
mais altos coeficientes de associação mútua. Para admissão de novos membros 
aos grupos é suficiente encontrar quais os que representam os maiores 
coeficientes de associação com um dos elementos de determinado grupo. A 
ligação será estabelecida a esse nível de associação com todo o grupo. No 
método de ligação completa os gupos são determinados pelos mais baixos 
coeficientes de associação mútua. Ambos são os métodos mais simples, mas 
tambem os que apresentam os resultados mais distorcidos. Com o uso dos 
métodos de ligações completas espera-se obter resultados mais rigorosos. 
 No método de agrupamento pareado procura-se também inicialmente 
pelos mais altos coeficientes de associação mútua. Em seguida esses pares de 
casos fornecerão valores médios originando um novo elemento singular. No 
"método de agrupamento pareado igualmente ponderado" para o cálculo dos 
valores médios atribui-se sempre o mesmo peso aos dois elementos que estão 
sendo integrados. No método de agrupamento pareado proporcionalmente 
ponderado para cada agrupamento é dado um peso proporcional ao número de 
objetos que o constitui, de tal modo que a incorporação e um novo elemento a um 
grupo baseia-se no nível médio de similaridade desse elemento com todos os 
que fazem parte do grupo. Tanto num caso como no outro, alternativamente, em 
vez de obter valores medios entre os casos podem ser utilizados centroides e 
verificados as distâncias entre os mesmos. 
 No método de agrupamento pela variância mínima o enfoque é sobre a 
variabilidade que existe dentro de cada caso e os agrupamentos são efetuados ao 
se determinar que pares de casos, quando tomados em conjunto, apresentam o 
menor acrescimo de variabilidade. 
 51
 No método de ligações singulares as ligações tendem a ocorrer a níveis 
mais altos do que nos métodos de agrupamento pareado. No método de 
agrupamento pareado igualmente ponderado como cada membro adicionado ao 
agrupamento tem sempre o mesmo peso, isso traz como efeito que os últimos 
elementos a se integrarem tem maior influência que os primeiros. No caso do 
método de agrupamento pareado proporcionalmente ponderado, tal não 
acontece. 
 Existindo à disposição diversas técnicas para a análise de agrupamentos e 
não havendo testes estatísticos válidos para os resultados obtidos, o pesquisador 
geralmente fica em dúvida sobre qual método aplicar. Entendendo que esta 
análise sempre deve ser aplicada com caráter introdutório, e nesse sentido tem o 
seu mérito, a consideração de ordem pragmática a ser adotada é que o melhor 
método é aquele que fornece os resultados mais coerentes com a realidade 
geológica em estudo. Eventualmente, testes, como o de Hotteling ou a análise 
generalizada de variâncias, podem ser aplicados aos agrupamentos encontrados 
para a verificação da sua validade estatística. 
 Aplicações desta metodologia tem mostrado que os métodos pareados 
igualmente ponderado são superiores aos demais e que o coeficiente distância 
usualmente agrupa melhor espécimes ou amostras, no sentido geológico, 
enquanto o coeficiente de correlação é recomentado para o agrupamento entre 
variáveis. Essas afirmações são baseadas na correlação cofenética que ao 
apresenrar valores abaixo de 0,8 indicam distorções significativas no 
dendrograma obtido. 
 O método hierárquico tem sido preferido em relação ao que utilisa 
centróides. Este porém mostra-se, em termos computacionais, mais útil quando 
se tem que manipular grandes matrizes de dados, por exemplo com mais de 
1.000 casos. Como “k” geralmente é pequeno, da ordem de 5 por exemplo, é 
mais rápido o manuseio de uma matriz de similaridade “k x n” do que uma com 
dimensões “n x n”. 
 
4.2.2. Dendrograma 
 A forma gráfica mais usada para representar o resultado final dos diversos 
agrupamentos é o dendrograma (Figura 4.1.) Nele estão dispostos linhas ligadas 
segundo os níveis de similaridade que agruparam pares de espécimes ou de 
 52
variáveis. Como este gráfico é uma simplificação em duas dimensões de uma 
relação n-dimensional é inevitável que algumas distorções quanto à similaridade 
apareçam. A medida de tal distorção pode ser obtida por um coeficiente de 
correlação, dito "cofenético", entre os valores da matriz inicial de similaridade e 
aqueles derivados do dendrograma. 
 Visualmente isso pode ser também verificado por meio da construção de 
um sistema de eixos ortogonais. Nele os valores dos coeficientes de similaridade 
originais estarão na abcissa e 
os coeficientes de similaridade a partir do dendrograma em ordenada. Se ambas 
as matrizes forem idênticas os pontos cairão sobre uma linha reta que passa pela 
origem do sistema. Desvios dos pontos em relação a essa reta indicarão as 
distorções. Se situadas acima da reta indicarão coeficientes de similaridade 
apontados pelo dendrograma mais altos que os originais e vice-versa. 
 
 
 
 
 
 
 
 
 
Dendrograma
Método: UPGM
Distância euclidiana
V
al
or
es
 p
ar
a 
ag
ru
pa
m
en
to
0
50
100
150
200
250
 C_9
 C_13
 C_6
 C_5
 C_8
 C_12
 C_4
 C_3
 C_2
 C_15
 C_14
 C_11
 C_10
 C_7
 C_1
 53
 
 
Figura 4.1. Formatos de dendrogramas 
 
A construção de um dendrograma pode ser esquematizada, de acordo com 
o exposto na Figura 4.2. Nessa Figura, inicialmente, os mais altos índices de 
correlação ocorrem entre as amostras D e E (0,66) e entre as amostras A e B 
(0,57) que irão constituir novos casos na matriz de correlações já pareadas. 
Nessa matriz os mais altos coeficientes de correlação ocorrem entre DE e F 
(0,41) e AB e C(0,29). Finalmente a correlação final ocorre ao nível de –0,59 entre 
ABC e DEF. 
 
 Figura 4.2. Esquema de construção de um dendrograma pelo método de 
agrupamentos pareados igualmente ponderados (adaptado de DAVIS, 1986) 
Dendrograma
Método: UPGM
Distância euclidiana
V
al
or
es
 p
ar
a 
ag
ru
pa
m
en
to
0
50
100
150
200
250
 C_9
 C_13
 C_6
 C_5
 C_8
 C_12
 C_4
 C_3
 C_2
 C_15
 C_14
 C_11
 C_10
 C_7
 C_1
 54
 
4.2.3. Coeficientes de Similaridade 
 Os coeficientes de similaridade mais usuais, obtidos num espaço 
multidimensional, podem ser subdivididos em três categorias: 
a) os quemedem a distância, ou a separação angular, entre pares de pontos; 
b) os que medem a correlação entre pares de valores; 
c) os que medem a associação entre pares de caracteres qualitativos. 
Existem diversas publicações que discutem esses diversos tipos de 
medidas como, por exemplo, SNEATH & SOKAL (1973), EVERITT (1980), PRENTICE 
(1980), GORDON (1981), GREIG-SMITH (1983), PIELOU (1984), alem do resumo, 
sobre 23 coeficientes de similaridades, constante no pacote MVSP, versão 3.1. 
 
4.2.3.1. Medidas de distância 
 Expressam o grau de similaridade como distância em um espaço multi-
dimensional. Quanto maior a distância, maior o grau de similaridade e vice-versa. 
A distância D entre dois pontos, cuja localização é especificada num sistema de 
coordenadas cartesianas, é fornecida, segundo o teorema de Pitágoras, por: 
 221
2
212.1 )yy()xx(D −+−= 
onde x x y e y1 2 1 2, , são valores das coordenadas dos dois pontos. 
 Para a distância entre k pontos, num espaço n-dimensional, a fórmula 
generalizada é: 
 n/)xx(D
n
1k
2
jkikij ∑
=
−= 
 Tendo todas as variáveis o mesmo peso, consequentemente a função 
distância será limitada a valores entre 0 (maior similaridade) e 1.0 ( menor 
similaridade). 
 Pode, também, ser ulizado o coeficiente cosseno-teta, que é uma medida 
de proporcionalidade expressando o grau de similaridade em termos de 
separação angular: 
 ( ) ,xx xxCos 2/12iq2ip iqippq ∑∑
∑=θ p e q = valores comparados 
 55
 Quando a similaridade é completa, a separação angular é 0º e cos θ = 
1.0; quando não ocorre similaridade nenhuma, a separação angular é 90° e o 
cos θ = 0.0 
 
4.2.3.2. Coeficientes de Correlação 
 Medem o grau de associação entre valores pela representação de pontos 
num sistema de coordenadas e suas respectivas posições em relação a uma linha 
reta. Podem tanto ser considerado o coeficiente de correlação paramétrico 
(Pearson) como o não paramétrico (Spearman). 
• coeficiente de correlação paramétrico (Pearson) 
 O coeficiente de correlação da amostra r (ou ρ*) o qual é uma estimativa do 
coeficiente de correlação populacional ρ, é dado por: 
 
2/1]
1n
2)yiy(.
1n
2)xix([
1n
)yiy()xix(
2/1)]yvar()x[var(
)y,xcov(r
−
−Σ
−
−Σ
−
−−Σ
== 
 
 Onde n é o número de pares de valores para xi e yi , variáveis com 
distribuição normal, e x e y são os valores médios para xi e yi . 
 Utilizando o método dos mínimos quadrados para o cálculo do coeficiente 
de correlação, a seguinte fórmula simplificada é usada: 
 
SQY.SQX
SPXYr = 
 SPXY = Σxy -(Σx. Σy) / n 
 SQX = Σx2 - (Σx)2 / n 
 SQY = Σy2 - (Σy)2 / n 
 Valores de r , os quais são medidas adimensionais, podem variar entre -1 à 
+1, expressando desde comportamento totalmente inverso até comportamento 
totalmente direto entre as duas variáveis. Quando r=0 significa que não há relação 
linear entre x e y. 
• Coeficiente de correlação não-paramétrico de Spearman 
 56
 É um coeficiente de correlação não paramétrico entre duas variáveis, xi e 
yi , em que para o seu cálculo inicialmente xi e yi são ordenados segundo os 
seus valores de posto (x i, e y i, ) e em seguida encontrados os valores i,yi,xid −= . 
 Para que os valores negativos de di não cancelem os valores positivos de 
di é determinado para cada caso 2id . Finalmente encontra-se a somatória dos 
2
id . 
 O coeficiente de correlação será fornecido pela fórmula: 
 
n3n
2
id61sr −
Σ−= n = número de pares de valores xi, , yi, 
 Caso ocorram muitos casos com valores de posto empatados usa-se a 
fórmula: 
 
,
ey
,
ex2
2
id
,
ey
,
ex
sr ΣΣ
Σ−Σ+Σ= 
onde 
 xT12
n3n,
ex Σ−
−=Σ ; yT12
n3n,
ey Σ−
−=Σ 
 
12
t3tT −= ; T = número de observações repetidas em um determinado 
posto. 
 Como um exemplo numérico, seja uma matriz de dados composta por 7 
amostras, no sentido geológico, e 6 variáveis: 
 
 V01 V02 V03 V04 V05 V06 
Am01 1.0 2.0 3.0 4.0 5.0 6.0 
Am02 5.0 4.0 1.0 8.0 7.0 9.0 
Am03 6.0 5.0 4.0 2.0 7.0 9.0 
Am04 6.0 4.0 2.0 1.0 3.0 7.0 
Am05 9.0 2.0 1.0 4.0 7.0 8.0 
Am06 9.0 6.0 3.0 4.0 5.0 6.0 
Am07 1.0 5.0 9.0 7.0 5.0 3.0 
 
 57
 Utilizando a medida “distância euclidiana”, obtém-se a seguinte matriz 
inicial de similaridades: 
 
 Am01 Am02 Am03 Am04 Am05 Am06 Am07 
Am01 0.0 7.3 7.2 6.6 8.7 8.9 7.9 
Am02 7.3 0.0 6.9 8.4 6.1 7.3 11.0 
Am03 7.2 6.9 0.0 5.1 5.7 5.3 10.7 
Am04 6.6 8.4 5.1 0.0 6.3 5.3 11.4 
Am05 8.7 6.1 5.7 6.3 0.0 5.3 13.2 
Am06 8.9 7.3 5.3 5.3 5.3 0.0 10.9 
Am07 7.9 11.0 10.7 11.4 13.2 10.9 0.0 
 
 Na Figura 4.3. estão os dendrogramas resultantes da aplicação de dois 
métodos: “ligação simples (single linkage)” e “agrupamento pareado igualmente 
ponderado (unwighted pair-group average)”. 
 Verificar que os dendrogramas resultantes mostram praticamente os 
mesmos resultados, em que pese as diferenças mostradas em ambos os gráficos 
com relação aos níveis para agrupamentos. 
 
 
 
Dendrograma
"Single Linkage"
Distância euclidiana
Níveis para agrupamento
 AM07
 AM05
 AM06
 AM04
 AM03
 AM02
 AM01
4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
 58
 
Figura 4.3. Dendrogramas resultantes dos métodos “single linkage” e “UPGM” 
 
 
4.2.3.3. Coeficientes binários 
 Expressam similaridades em termos de equiparações (matches) quando 
são utilizados dados qualitativos. Neste caso comparações são feitas entre 
observações reduzidas a duas categorias do tipo sim-não, presente-ausente etc. 
Se verificado em 4 perfís estratigráficos a presença ou ausencia de 4 tipos de 
fósseis a seguinte matriz de dados binários pode ser construida: 
 
 
 
 
Se tomados dois objetos (A e B) e um mesmo caráter estiver presente em 
ambos, tal situação será representada por "a"; se presente em A, porém ausente 
Dendrograma
"Unweighted pair-group average"
Distância euclidiana
Níveis para agrupamento
 AM07
 AM05
 AM06
 AM04
 AM03
 AM02
 AM01
4 5 6 7 8 9 10 11
 59
em B, por "c"; se presente em B, porém ausente em A , por "b" ; se ausentes em 
ambos, por “d’. 
 
 Presente Ausente
Presente a b 
Ausente c d 
 
 
Os coeficientes binários, podem ser agrupados em: 
a) coeficientes de similaridade: expressam a proporção de caracteres que dois 
objetos possuem mutuamente quando comparados com o número total de 
caracteres possuídos por um dos objetos ou pelo outro, ou por ambos; 
 Jaccard: )cba/(a ++ 
 Otsuka : )ca()ba(/a ++ 
 Fager : })ca(),ba{min(2/1)ca()ba(/a ++−++ 
 
b) coeficientes de associação: expressam a probabilidade de acontecimento, por 
acaso, de um certo número de caracteres comuns a dois objetos; 
 Yule : )bcad/()bcad( +− 
 Phi : )dc()db()ca()ba(/)bcad( ++++− 
c) coeficientes de equiparação: expressam a similaridade entre dois objetos em 
termos de equiparações positivas, isto é, presença de um mesmo caráter em 
ambos os objetos, em relação a equiparações negativas, isto é, ausência de um 
mesmo caráter em ambos os objetos, mais equiparações desencontradas; 
 Simples : n/)da( + 
 Hamann : n/)cbda( −−+ 
 Sackin : a/n 
d) coeficientes de distâncias: expressam o distanciamento entre dois objetos em 
um espaço multi-dimensional; 
 Sokal : n/)cb( + 
 
 
 60
Novamente, como exemplo numérico, seja uma matriz com dados binários 
em que o valor “1” significa presente e o valor “0” ausente: 
 
 V01 V02 V03 V04 V05 V06 
Am01 1 1 0 0 0 1 
Am02 0 0 1 1 0 0 
Am03 0 1 1 0 0 0 
Am04 1 1 1 1 1 0 
Am05 0 0 11 1 1 
Am06 1 1 0 0 0 1 
Am07 0 0 1 1 1 1 
 
Nessa matriz as amostras 01 e 06 são idênticas, o mesmo acontecendo 
com as amostras 05 e 07. 
A matriz inicial de similaridades, após calculados os coeficientes de 
Jaccard, é a seguinte: 
 
 Am01 Am02 Am03 Am04 Am05 Am06 Am07 
Am01 1.000 
Am02 0.000 1.000 
Am03 0.250 0.333 1.000 
Am04 0.333 0.400 0.400 1.000 
Am05 0.167 0.500 0.200 0.500 1.000 
Am06 1.000 0.000 0.250 0.333 0.167 1.000 
Am07 0.167 0.500 0.200 0.500 1.000 0.167 1.000 
 
E o dendrograma resultante esta exposto na Figura 4.4. 
 
 
 
 
 
 
 
 
 61
 
 
Figura 4.4. Dendrograma resultante da aplicação do coeficiente binário de Jaccard pelo método 
de ligação simples. Notar as relações entre amostras 01 e 06 e entre amostras 05 e 07, todas ao 
nível 1.0 
 
4.3. Exemplo com enfoque “clássico” 
Como exemplo são utilizados os dados obtidos por ARAÚJO (1976), e já 
analisados por LANDIM & PERINOTTO (1981), para exemplares de mesossaurídeos 
coletados em diversas localidades ao longo da faixa de afloramentos da 
Formação Irati na borda leste da Bacia do Paraná. Foram consideradas três 
espécies: Stereosternum tumidum (COPE, 1886), Mesosaurus brasiliensis 
(MACGREGOR, 1908) e Brazilosaurus sampauloensis (SIKAMA & OAKI, 1966). Os 
valores estão expostos na tabela a seguir. 
 
 
 Dentes (mm) 
Exemplar Crânio (cm) Pescoço (cm) Comprimento Largura 
 M01 7,1 6,0 4,75 0,50 
 M02 6,7 4,8 7,50 0,37 
 M03 6,7 5,3 7,00 0,50 
 M04 8,9 5,6 11,25 0,75 
 M05 7,1 5,2 8,75 0,75 
 M06 7,2 4,9 8,75 0,75 
 M07 7,6 4,9 7,50 0,50 
 M08 7,9 5,8 11,25 0,75 
 M09 7,8 5,1 5,75 0,50 
 M10 9,2 6,8 11,75 0,75 
 M11 7,1 6,0 8,25 0,75 
 M12 9,6 8,3 7,75 0,75 
 M13 5,1 4,2 4,25 0,50 
 M14 7,9 6,2 9,25 0,50 
 M15 7,2 4,3 4,00 0,50 
 62
S16 6,0 5,5 4,00 0,50 
S17 5,8 4,6 3,25 0,50 
 S18 5,8 5,1 2,00 0,50 
 S19 6,6 5,3 4,25 0,37 
 S20 4,7 4,6 2,25 0,50 
‘S21 6,4 5,8 3,75 0,50 
 S22 5,8 4,7 3,50 0,50 
 S23 6,2 6,0 4,50 0,50 
 S24 6,5 7,1 3,50 0,75 
 S25 5,2 5,6 3,00 0,50 
 S26 6,2 6,6 3,75 0,50 
 S27 6,5 5,8 3,00 0,75 
 S28 5,5 5,6 4,50 0,75 
 B29 5,3 7,2 2,00 0,50 
 B30 4,9 7,6 0,75 0,45 
 B31 5,0 7,3 2,75 0,50 
 B32 5,2 7,7 2,00 0,75 
 
Medidas obtidas em Mesosaurus brasiliensis (M), Stereosternum tumidum (S), e 
Brazilosaurus sampauloensis (B) 
 
Para a análise de agrupamentos, usando o modo Q com o coeficiente 
“distância euclidiana” e método de Ward, obteve-se, utilisando o pacote “XLStat”, 
o dendrograma exibido na Figura abaixo. 
 
 
Distância euclideana
S28
S23
S21
S16
S19
M01
S26
S24
S27
M15
M09
S22
S17
M13
S20
S18
S25
B32
B29
B31
B30
M06
M05
M11
M14
M03
M02
M07
M12
M08
M04
M10
0 50 100 150 200 250 300
Método: Ward
 
 
 
 63
Verifica-se que os exemplares M01, M09, M13 e M15, tidos como 
Mesosaurus, estão localizados dentro de grupo do Stereosternum. Além disso os 
quatro exemplares B29, B32, B31 e B30, todos do genero Brazilosaurus, formam 
um grupo integrado ao do Stereosternum. Tal constatação merece uma reflexão 
sobre a validade ou não de atribuir os exemplares M01, M09, M13 e M15 ao 
gênero Mesosaurus. Alerta também para a relação próxima entre Brazilosaurus e 
Stereosternum. Seriam gêneros distintos ou não? 
 
4.4. Exemplo com enfoque “espacial” 
RHODES (1969) ao estudar o granito “Mount Shoobridge” no norte da 
Austrália conseguiu mapear o corpo subdividindo-o em três zonas petrográficas: 
granodiorito marginal, granodiorito porfirítico e adamelito leucocrático na região 
central. Nesse estudo efetuou análises químicas tanto para óxidos e como para 
elementos traços. 
 
 
 
 
21
22
12 34
31
25
28
26
9
2
29
33
35
11
32
30
0 400 800 m
N
Pontos amostrados
 
 
 
 
 
 
 
 
 64
 
 
 
 
 
 
 
 
ID Si Ti Al Fe Mn Mg Ca Na K P Rb Sr Y Th U Zr Nb Pb 
35 73 0,08 14,1 0,64 0,01 0,17 0,7 3,66 5,16 0,03 228 180 9 16 13,8 112 18,5 352
11 71,6 0,23 14,6 1,91 0,02 0,54 1,61 3,63 4,59 0,08 193 340 6 30 10 196 17,6 40
33 71,3 0,24 14,6 1,84 0,02 0,52 1,21 3,59 4,93 0,08 218 305 7 30 8,5 191 19,9 34
34 65,2 0,46 15 4,03 0,06 2,16 2,08 3,45 4,99 0,22 170 586 14 39 10,4 273 19,6 37
12 64,6 0,54 15,8 4,7 0,08 2,45 2,48 3,19 5,36 0,3 176 754 15 36 8,9 277 20,9 33
31 63,9 0,52 15,4 4,55 0,07 2,14 2,52 3,1 3,35 0,28 185 766 15 41 10,9 297 19 36
22 63,6 0,52 15,5 4,64 0,07 2,43 2,2 3,15 5,18 0,29 134 733 15 39 9,2 290 20 31
25 60,4 0,66 15,9 5,68 0,09 2,78 3,54 3,24 5,66 0,38 172 917 16 34 8,4 301 18,9 49
28 59,6 0,68 16,7 5,98 0,08 2,73 3,92 2,92 5,17 0,37 165 954 17 27 8,6 308 17,4 32
21 60,1 0,65 15,8 6,11 0,09 3,52 3,54 3,06 5,2 0,38 160 916 17 29 7 261 17,3 43
30 55,4 0,68 15,8 7,67 0,14 4,17 4,75 2,17 5,85 0,37 140 828 19 22 5,2 241 12,9 75
29 56,8 0,67 16,1 7,53 0,13 4,07 4,55 2,36 5,26 0,35 159 903 20 24 5,6 255 15,1 35
9 57,5 0,63 15,9 7,1 0,11 3,94 3,99 1,95 5,99 0,38 155 939 20 29 6 237 16,1 48
26 56,6 0,68 16,4 7,48 0,12 4,62 4,33 1,98 5,59 0,39 152 1055 20 28 7,4 234 13,7 55
2 57,4 0,67 15,7 7,31 0,12 4,48 4,87 2,06 4,69 0,39 166 924 22 27 7,7 243 14,6 46
32 54,5 0,72 15,6 8,05 0,13 5,37 5,37 2,14 4,88 0,45 135 961 19 17 5,7 188 14,5 36
 
 
 Como na matriz há uma mistura de óxidos com elementos traços, com 
escalas diferentes de valores, antes da aplicação da análise de agrupamentos, foi 
feita uma padronização, do tipo “z” das variáveis. 
 
ID SiO2 TiO2 Al2O3 Fe2O3 MnO MgO CaO Na2O K2O P2O5 Rb Sr Y Th U Zr Nb Pb 
35 1,9 -2,4 -2,2 -2 -1,8 -1,7 -1,8 1,3 0,1 -2,1 2,2 -2,2 -1,4 -1,8 2,4 -2,5 0,5 3,7 
11 1,6 -1,6 -1,4 -1,5 -1,5 -1,5 -1,1 1,2 -0,9 -1,7 0,9 -1,6 -2 0,1 0,7 -0,9 0,1 -0,3
33 1,6 -1,5 -1,3 -1,5 -1,5 -1,5 -1,4 1,2 -0,3 -1,7 1,8 -1,7 -1,8 0,1 0,1 -1 1,1 -0,3
34 0,5 -0,4 -0,8 -0,6 -0,6 -0,5 -0,8 0,9 -0,2 -0,6 0 -0,6 -0,4 1,3 0,9 0,6 0,9 -0,3
12 0,4 0 0,4 -0,3 -0,1 -0,3 -0,5 0,5 0,4 0 0,3 0 -0,1 0,9 0,3 0,6 1,5 -0,4
31 0,3 -0,1 -0,3 -0,3 -0,3 -0,5 -0,5 0,4 -2,9 -0,1 0,6 0 -0,1 1,6 1,1 1 0,7 -0,3
22 0,3 -0,1 0 -0,3 -0,3 -0,3 -0,7 0,5 0,1 0 -1,3 -0,1 -0,1 1,3 0,4 0,9 1,1 -0,4
25 -0,3 0,6 0,5 0,2 0,2 -0,1 0,2 0,6 0,9 0,7 0,1 0,6 0,1 0,6 0 1,1 0,7 -0,2
28 -0,4 0,7 1,6 0,3 -0,1 -0,1 0,5 0,1 0,1 0,6 -0,2 0,8 0,3 -0,3 0,1 1,2 0,1 -0,4
21 -0,3 0,6 0,4 0,3 0,2 0,4 0,2 0,3 0,1 0,7 -0,3 0,6 0,3 0 -0,6 0,3 0 -0,2
30 -1,1 0,7 0,4 1 1,4 0,8 1,1 -1,1 1,2 0,6 -1,1 0,3 0,7 -1 -1,4 -0,1 -1,7 0,2 
29 -0,9 0,7 0,8 1 1,1 0,8 0,9 -0,8 0,2 0,4 -0,4 0,6 0,9 -0,7 -1,2 0,2 -0,9 -0,3
9 -0,8 0,5 0,5 0,8 0,6 0,7 0,5 -1,4 1,4 0,7 -0,5 0,7 0,9 0 -1 -0,1 -0,5 -0,2
26 -0,9 0,7 1,2 0,9 0,9 1,1 0,8 -1,4 0,8 0,7 -0,6 1,1 0,9 -0,2 -0,4 -0,2 -1,4 -0,1
2 -0,8 0,7 0,3 0,9 0,9 1 1,2 -1,3 -0,7 0,7 -0,1 0,6 1,3 -0,3 -0,3 0 -1,1 -0,2
32 -1,3 0,9 0,1 1,2 1,1 1,6 1,5 -1,1 -0,4 1,2 -1,3 0,8 0,7 -1,7 -1,2 -1,1 -1,1 -0,3
 
Aplicando a análise de agrupamentos aos dados, o resultado foi o seguinte, 
no qual se verificam três conjuntos: 
 65
Método: Ward
22
12
34
31
21
25
28
26
9
30
2
29
32
33
11
35
0 20 40 60 80 100 120 140 160
Distância euclideana
 
 
A distribuição espacial, de acordo com a análise de agrupamentos, é a 
seguinte, a qual esta de acordo com os resultados obtidos por RHODES (1969) 
 
 
323
293
023
303
093
263
282
252
212
312
342
122
222
351
111
331
IDGrupo
323
293
023
303
093
263
282
252
212
312
342
122
222
351
111
331
IDGrupo
Grupo 1: Adamelito leucocrático
Grupo 2: Granodiorito porfirítico
Grupo 3 : Granodiorito marginal
 66
 
REFERÊNCIAS BIBLIOGRÁFICAS 
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd. ed., John Wiley and Sons,Inc. 
EVERITT, B. (1980) – Cluster Analysis: 2nd ed., Gower Publishing Co. 
 
 GORDON, A. D. (1981) – Classification: Chapman and Hall 
 
GREIGH-SMITH, P. (1983) – Quantitative Plant Ecology: University of California Press, Berkeley 
 
 MVPS/Plus (1998) – Multi-Variate Statistical Pacckage, version 3.1.: Kovach Computing Services 
 
PIELOU, E.C. (1984) – The Interpretation of Ecological Data: Wiley-Interscience 
 
PRENTICE, I.C. (1980) – Multidimensional scaling as a research tool in Quaternary palybology: A 
review of theory and methods: Review of Paleobotany & Palynology, 31:71-104 
 
RHODES, J. M. (1969) – The Application of Cluster and Discrinatory Analysis in Mapping Granite 
Intrusions: Lithos, 2:223-237 
 
SNEATH, D. H. & SOKAL, R. R. (1973) – Numerical Taxonomy: W. H. Freeman & Co. 
 67
 
5. ANÁLISE DAS COMPONENTES PRINCIPAIS 
 
 É o mais antigo método de ordenação, o mais conhecido e com mais 
exemplos de aplicação em Geologia. A análise das componentes principais nada 
mais é que o cálculo dos autovalores e correspondentes autovetores de uma 
matriz de variâncias-covariâncias ou de uma matriz de coeficientes de correlação 
entre variáveis. Quando as variáveis, devido a escalas diferentes de 
mensurações empregadas, não podem ser diretamente comparadas, torna-se 
necessário preliminarmente a padronização, de modo que as variáveis 
transformadas passem a ter média zero e variância unitária, o que é conseguido 
pela transformação "z". Nesses casos, com variáveis padronizadas, a matriz de 
variâncias-covariâncias e a de coeficientes de correlação tornam-se idênticas. 
Como tal padronização acarreta uma forte influência na estrutura da matriz de 
variâncias-covariâncias e, conseqüentemente, nos resultados da análise, a sua 
utilização deve ser criteriosa levando sempre em conta a natureza dos dados 
geológicos em estudo e o enfoque que se pretende dar. 
 A análise das componentes principais não é sinônimo de analise fatorial ou 
análise dos fatores e essa confusão terminológica deve ser evitada. A primeira 
análise consiste numa transformação linear de "m" variáveis originais em "m" 
novas variáveis, de tal modo que a primeira nova variável computada seja 
responsável pela maior variação possível existente no conjunto de dados, a 
segunda pela maior variação possível restante e assim por diante até que toda a 
variação do conjunto tenha sido explicada. Na análise fatorial supõe-se que as 
relações existentes dentro de um conjunto de "m" variáveis seja o reflexo das 
correlações de cada uma dessas variáveis com "p" fatores, mutuamente não 
correlacionáveis entre si, sendo "p" menor que "m". O extremo cuidado que se 
deve ter é com relação à especificação do número e, principalmente, do 
significado dos "p" fatores que emergem a partir dessa análise. Ver a respeito 
JÖRESKOG, KLOVAN & REYMENT (1976) e REYMENT E JÖRESKOG (1996) 
 A análise das componentes principais é, portanto, uma técnica de 
transformação de variáveis. Se cada variável medida pode ser considerada como 
um eixo de variabilidade, estando usualmente correlacionada com outras 
variáveis, esta análise transforma os dados de tal modo a descrever a mesma 
variabilidade total existente, com o mesmo número de eixos originais, porém não 
 68
mais correlacionados entre si. Graficamente pode ser descrita como a rotação de 
pontos existentes num espaço multidimensional originando eixos, ou 
componentes principais, que dispostos num espaço a duas dimensões 
representem variabilidade suficiente que possa indicar algum padrão a ser 
interpretado. 
 A análise das componentes principais inicia-se com o cálculo dos 
autovalores e correspondentes autovetores de uma matriz de variâncias-
covariâncias ou de correlações entre variáveis e tal procedimento é conhecido 
como modo “R”. O primeiro autovalor a ser determinado corresponderá à maior 
porcentagem da variabilidade total presente e assim sucessivamente. Geralmente 
os dois ou três primeiros autovetores encontrados explicarão a maior parte da 
variabilidade presente. Quando o primeiro autovetor já explica 90 a 95% da 
variabilidade isso deve ser encarado com cuidado e verificado se não estão 
presentes variáveis com valores de magnitudes muito maiores que as demais. 
Os autovetores correspondem às componentes principais e são o 
resultado do carregamento das variáveis originais em cada um deles. Tais 
carregamentos podem ser considerados como uma medida da relativa 
importância de cada variável em relação às componentes principais e os 
respectivos sinais, se positivos ou negativos, indicam relações diretamente e 
inversamente proporcionais. 
A matriz de carregamentos de cada variável nas componentes principais 
ao ser multiplicada pela matriz original de dados fornecera a matriz de contagens 
(scores) de cada caso em relação às componentes principais. Esses valores 
poderão então ser dispostos num diagrama de dispersão, em que os eixos são as 
duas componentes mais importantes, e mostrar o relacionamento entre os casos 
condicionados pelas variáveis medidas. 
A primeira matriz obtida, resultado das interrelações entre variáveis pode 
ser interpretada como um procedimento estatístico no qual os dados seriam 
amostras de populações multidimensionais. Já a segunda matriz, que apresenta 
as interrelações entre casos ou amostras, no sentido geológico, não são 
usualmente passíveis de serem submetidas a testes estatísticos. 
 
 
 69
5.1. Seqüência de cálculos 
 Se A for uma matriz simétrica de variâncias e covariâncias, de dimensões 
pxp, com termos aij, de onde os autovalores e os autovetores serão extraídos, Vi o 
i’ésimo autovetor, cujos termos são vij e λi o i’ésimo autovalor, tal relação pode ser 
expressa por 
 ( ) ,A I Vi i− =λ 0 
 
onde I é a matriz de identidade. 
 Alternativamente a relação acima pode ser escrita por 
 AV Vi i i= λ , ou, [ ][ ] [ ][ ]A V V= Λ , onde 
[V] é uma matriz , p x p, de todos os autovetores e 
[Λ] é uma matriz, p x p, com os autovalores λi na diagonas principal. 
 Multiplicando ambos os lados da equação pela transposta de V, V’. 
 [ ] [ ][ ][ ]'A V V= Λ 
 A soma dos autovalores é igual à soma dos termos da diagonal em [A], ou 
seja, a soma das variâncias 
 ∑ = ∑λ i iia 
e por definição λ λ λ1 2≥ ≥... p 
 Resolvendo a equação acima para λ, as raízes determinadas serão os 
autovalores. Encontrados os autovalores, substituindo-os nas equações 
simultâneas e resolvendo-as, obtém-se para cada autovalor autovetores 
correspondentes, ou seja, as componentes principais. 
 Pode-se definir a variância total existente em um conjunto de dados 
multivariados pela soma das variâncias de cada uma das variáveis. Numa matriz 
de variâncias-covariâncias essas variâncias individuais constituem os elementos 
da diagonal principal. Basta somá-los, portanto, encontrando o traço da matriz 
para se obter a variabilidade total, e em seguida a contribuição de cada variável. 
A soma dos autovalores de uma matriz, igual ao traço dessa matriz, representa 
também a variabilidade total da mesma e a contribuição de cada autovalor em 
termos de variabilidade é determinada. Ao primeiro corresponderá a maior 
variabilidade possível existente, ao segundo a maior variabilidade possível 
restante e assim por diante. 
 70
 Em termos geométricos, o primeiro autovalor representa o eixo principal de 
maior comprimento; o segundo autovalor, um segundo vetor em comprimento, 
situado em posição ortogonal em relação ao primeiro e assim sucessivamente. 
 Os elementos de cada um dos autovetores encontrados são simplesmente 
coeficientes de equações lineares que transformam os dados originais em 
contagens (scores) indicativas do respectivo carregamentosobre os eixos 
correspondentes. Desse modo, utilizando-se da multiplicação da matriz de dados 
originais pela matriz de autovetores, obtém-se uma matriz de dados 
transformados que representam projeções dos pontos, num espaço 
multidimensional, sobre as diversas componentes principais. 
 [ ] [ ][ ]S X VR = , onde 
[X] = matriz de dados originais [n x m] 
[V] = matriz quadrada [m x m] contendo os autovetores 
[SR] = matriz [n x m] das contagens sobre as componentes principais. 
 
 
5.2. Análise das Coordenadas Principais 
A Análise das Coordenadas Principais pode ser entendida como um caso 
mais geral da Análise das Componentes Principais. Enquanto esta utiliza matrizes 
de variâncias-covariâncias ou de correlações aquela pode usar uma variedade de 
diferentes medidas de distância ou de similaridade. Essas medidas são tomadas 
diretamente entre os espécimes, no chamado modo “Q”, e não entre variáveis. 
Neste caso os autovetores resultantes representam os scores para os espécimes. 
Fornece, assim, uma ordenação direta entre casos e é muito útil nas situações 
quando se dispõe de uma matriz de dados com mais variáveis do que espécimes. 
Nessa análise, porém, não são fornecidos cargas ou pesos (loadings) para as 
variáveis. Recomenda-se o trabalho de Gower (1966) para o detalhamento desta 
análise. 
Como no uso da Análise das Coordenadas Principais diversas categorias 
de medidas de distância ou de sililaridade podem ser usadas, se os dados a 
serem analisados forem uma mistura de valores contínuos e medições binárias, o 
“coeficiente geral de similaridade de Gower” pode ser aplicado, pois este é um 
coeficiente de similaridade métrico. Distâncias alternativas, como a “Manhattan 
 71
métrica” podem também ser analisadas. A utilização da distância euclidiana para 
esta análise fornece o mesmo resultado que uma análise das componentes 
principais no modo “Q”. 
 
• Coeficiente de similaridade geral de Gower 
 
( )
∑
∑
=
=
=
n
1k
ijk
n
1k
ijkijk
ij
w
sw
GGSc 
 
onde: ( )krange
xx
1s jkikijk
−−= , para dados quantitativos 
 
 = 1 para comparação de dados binários ou multiestados 
 = 0 para os demais casos 
Wijk = 0 para comparações negativas de dados binários 
= 1 para todas as outras situações 
 
• Distância métrica de Manhattan: 
MMdij = |xik – xjk|, 
onde “i” e “j” representam duas linhas (casos ou espécimes) de uma matriz 
de dados e “k” representa as colunas (variáveis) e “n” número total de variaveis: 
A análise das coordenadas principais é, todavia, restrita para o caso em 
que as distâncias ou similaridades são métricas. Para uma medida ser 
considerada métrica tem que obedecer certos pressupostos matemáticos, como o 
poder ser visualizada de um modo gráfico. Assim as distâncias entre três pontos 
deve obedecer aos vértices de um triângulo. Isso significa que a distância entre 
dois dos pontos, ou seja, um dos lados do triângulo, deve ser sempre menor que 
as outras duas distâncias. Isso nem sempre ocorre como, por exemplo, num 
conjunto de coeficientes de correlação se os valores forem tratados como 
“distâncias” não será possível escolher três entre eles para traçar um triângulo. 
 
5.3. Métodos robustos para análise das componentes principais 
 72
 O objetivo de qualquer análise estatística, inclusive a multidimensional, é 
inferir propriedades da população a partir de amostras estudadas. Valores 
anômalos (outliers) presentes podem, porém, levar à conclusões errôneas e daí o 
interesse em detectá-los. A análise das componentes principais, por se basear em 
estimativas de dispersão por quadrados mínimos, não é capaz de fazê-lo e por 
isso a necessidade de métodos robustos. Exemplo disso é apresentado por ZHOU 
(1989) que discute a aplicação de três opções de métodos robustos, todas elas 
calcadas no uso da distância de Mahalanobis. Esse trabalho é acompanhado por 
um programa, “ROPCA”, escrito em FORTRAN e disponível para acesso e 
carregamento. 
 Nesse trabalho é apresentado como exemplo de matriz de dados a 
composição mineral de uma rocha artificial, denominada “hongito” por Aitchison 
(1986), consituida por 25 espécimes e 5 variáveis. A essa matriz foram 
adicionados dois vaores anômalos, com altos valores na 4a e 5a variáveis e 
baixos valores na 1a variável. 
 
N V1 V2 V3 V4 V5 
01 4880.0 3170.0 380.0 640.0 930.0 
02 4820.0 2380.0 900.0 920.0 980.0 
03 3700.0 910.0 3420.0 950.0 1020.0 
04 5090.0 2380.0 720.0 1010.0 800.0 
05 4420.0 3830.0 290.0 770.0 690.0 
06 5230.0 2620.0 420.0 1250.0 480.0 
07 4460.0 3300.0 460.0 1220.0 560.0 
08 3460.0 520.0 4290.0 960.0 770.0 
09 4120.0 1170.0 2670.0 960.0 1080.0 
10 4260.0 4660.0 70.0 560.0 450.0 
11 4990.0 1950.0 1140.0 950.0 970.0 
12 4520.0 3730.0 270.0 550.0 930.0 
13 3270.0 850.0 3890.0 800.0 1190.0 
14 4140.0 1290.0 2340.0 1580.0 650.0 
15 4620.0 1750.0 1580.0 830.0 1220.0 
16 3230.0 730.0 4090.0 1290.0 660.0 
17 4320.0 4430.0 100.0 780.0 370.0 
18 4950.0 3230.0 310.0 870.0 630.0 
19 4230.0 1580.0 2040.0 830.0 1320.0 
20 4460.0 1150.0 2380.0 1160.0 850.0 
21 4580.0 1660.0 1680.0 1200.0 880.0 
22 4990.0 2500.0 680.0 1090.0 740.0 
23 4860.0 3400.0 250.0 940.0 550.0 
24 4550.0 1660.0 1760.0 960.0 1070.0 
25 4590.0 2490.0 970.0 980.0 970.0 
26 3130.0 2944.0 1068.0 1526.0 1332.0 
27 3012.0 1200.0 1232.0 2051.0 2505.0 
 
 
 73
 Na Figura 5.1. estão dois diagramas de eixos ortogonais mostrando o 
resultado da análise das componentes principais aplicada à amostra de hongito 
com 25 valores e tambem à mesma amostra acrescida de mais dois valores 
anômalos. Pode-se constatar que não há destaque para esses espécimes, 
identificados como 26 e 27. 
 
 
 
 
 Figura 5.1.: Análise das componentes principais 
 
 74
 A aplicação, porém, da análise das coordenadas principais, que não é um 
método robusto, mas usa o modo Q de análise e a distância euclidiana 
padronizada, revela a presença em destaque dos espécimes 26 e 27 (Figura 
5.2.). 
 
• Distância euclidiana padronizada 
 
∑ 


 −=
=
n
1k k
jkik
ij sd
xx
StEd 
 
onde sdk = desvio padrão de todos os elementos de k 
 
 
 
 Figura 5.2. Análise das coordenadas principais 
 
 
5.4. Exemplo com enfoque “clássico” 
 Os mesmos dados referentes aos mesossaurídeos da Formação Irati foram 
submetidos à análise das componentes principais, a qual forneceu o seguinte 
resultado: 
 
 75
Autovalores: 
 
 F1 F2 F3 F4 
Autovalor 2.185 1.148 0.533 0.134
Variabilidade (%) 
54.62
7 28.693 13.323 3.357
% acumulada 
54.62
7 83.321 96.643 100.000
 
Autovetores: 
 
 F1 F2 F3 F4 
cranio 0.611 -0.174 -0.414 -0.652
pescoço 0.138 0.856 -0.459 0.193
Dcompr 0.609 -0.315 -0.102 0.721
Dlargura 0.486 0.371 0.779 -0.138
 
 Este resultado mostra que os maiores pesos para a constituição do 
autovetor 1, que responde por 54,62% da variabilidade presente, são as variáveis 
crânio e comprimento dos dentes e para o autovetor 2, com 28,69%, é a variável 
“pescoço”. 
Variáveis (eixos F1 e F2: 83.32 %)
Dlargura
Dcompr
pescoço
cranio
-1
-0.75
-0.5
-0.25
0
0.25
0.5
0.75
1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
F1 (54.63 %)
F2
 (
28
.6
9 
%
)
 
 
A multiplicação da matriz original de dados pela matriz de autovetores 
fornece os factor scores dos espécimes. Escolhidos os dois principais eixos ou 
componentes principais, correspondendo a uma porcentagem acumulada dos 
autovalores da ordem de 96,83%, obtém-se a distribuição espacial dos factor 
scores: 
 76
Fósseis (eixos F1 e F2: 83.32 %)
B32
B31
B30
B29
S28
S27S26
S25
S24S23
S22
S21
S20
S19
S18
S17
S16
M15
M14
M13
M12
M11 M10
M09
M08
M07
M06
M05
M04
M03
M02
M01
-2
-1
0
1
2
3
-3 -2 -1 0 1 2 3 4
F1 (54.63 %)
F2
 (
28
.6
9 
%
)
 
Os resultados apresentados pela análise das componentes principais , são 
bastante semelhantes aos obtidos pela análise de agrupamentos e, portanto, 
merecem as mesmas considerações anteriormente apresentadas. Nesta análise 
constata-se, porem, que os espécimes 01 e 13, Mesosaurus, é que estão mais 
associados ao campo dos Stereosternum. Também a posição espacial de 
Brazilosaurus fica mais clara, próxima mas separada de Stereosternum e distante 
de Mesosaurus. 
 
5.5. Exemplo com enfoque “espacial” 
 Exemplo retirado do trabalho apresentado por BERNARDI, FOWLER & LANDIM 
(1997), onde é aplicada a análise das componentes principais num estudo sobre 
impacto ambiental para verificar a importância das variáveis coletadas num 
efluente de uma fábrica de papel e celulose ingressando num corpo receptor. As 
amostras foram coletadas no rio Paraíba do Sul, na fazenda Coruputuba, no 
município de Pindamonhangaba, Estado de São Paulo, Brasil. A área amostrada 
era da ordem de 2900 m de comprimento por 100 m de largura, com um total de 
290000 m2. Foram amostrados 90 pontos numa malha regular, na qual os pontos 
no sentido sul para norte foram eqüidistantes em 100m, e no sentido leste para 
oeste, ou seja para juzante, em 50m, sendo considerado o ponto 0m na margem 
 77
direita, o ponto 50m no meio do rio e 100m na margem esquerda. As variáveis 
obtidas foram: riqueza de gêneros do plâncton, pH, temperatura, oxigênio 
dissolvido, transparência da água, cor e turbidez da água. As amostras de 
plâncton foram coletadas com rede horizontal de malha de 50 µm, durante 10 
minutos. Com exceção das análises para cor , turbidez e DBO, as demais foram 
realizadas no campo para maior confiabilidade dos resultados. 
Pela aplicação da análise das componentes principais os Autores 
verificaram que na primeira componente, com uma porcentagem de explicação 
de 84,64%, as maiores cargas vetoriais, em módulo, ficaram com as variáveis 
transparência (0,975), OD (0,969), cor (-0,969) e DBO (-0,984). Para a segunda 
componente as responsáveis pelas maiores cargas foram as variáveis 
profundidade da luz (0,145) e número de gêneros do plâncton (-0,780). Devido as 
maiores cargas na primeira componente obtida serem provenientes das variáveis 
físico-químicas, esta componente foi interpretada como sendo controlada por 
fatores abióticos. Como na segunda componente, com uma porcentagem de 
explicação de 8,37%, a carga mais alta foi devido a variável riqueza de gêneros 
do plâncton, ela foi considerada como controlada por fatores biológicos. (Tabela 
5.1.). 
 
Tabela 5.1. - Cargas das componentes principais sem rotação 
Componentes I II III 
N0 Gêneros 0.621 -0.780 0.066 
pH 0.957 0.019 -0.033 
Temperatura -0.859 0.025 0.508 
OD 0.969 0.031 0.130 
Profundidade da luz 0.975 0.145 0.053 
DBO5 -0.984 -0.064 -0.085 
Cor -0.969 -0.129 -0.015 
Turbidez -0.967 0.133 -0.156 
% de variação 84.643 8.366 3.941 
 
 Na Tabela 5.2. estão os resultados após a rotação fatorial. Como 
esperado, tal rotação das componentes otimizou os valores das cargas das 
variáveis nos respetivos eixos. 
 
 78
 
 
Tabela 5.2 - Cargas das componentes principais rotacionados (Método Quartimax) 
Componentes I II III 
N0 Gêneros 0.531 0.845 -0.020 
pH 0.951 0.083 -0.073 
Temperatura -0.833 -0.077 0.546 
OD 0.970 0.085 0.090 
Profundidade da luz 0.987 -0.033 0.021 
DBO5 -0.987 -0.051 -0.046 
Cor -0.997 0.021 0.018 
Turbidez -0.981 0.014 -0.124 
% de variação 83.589 9.240 4.122 
 
As Figuras 5.3 e 5.4 mostram a distribuição espacial dos escores das duas 
principais componentes, após rotação. Na Figura 5.3. os escores da primeira 
componente não variam nas margens esquerda, meio e direita do rio antes da 
entrada do efluente, ou seja, a parte ainda não afetada. Após a entrada, a 
componente abiótica começa a variar decaindo a partir da coordenada NS 1100m, 
assumindo valores negativos e voltando a crescer a partir da coordenada NS 
2000 m. Este comportamento pode ser explicado pelo aumento de DBO5, cor e 
turbidez com a entrada do efluente e a diminuição do OD e da transparência. A 
segunda componente (Figura 5.4.) varia pouco na margem esquerda decaindo na 
região do meio do rio. A margem direita começa com cargas positivas, decaindo a 
partir dos ponto de coordenada 1100m, voltando a crescer depois do ponto de 
coordenada 2000m. 
 
 
 
 
 79
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 5.3.: Variação espacial da 1a componente 
Figura 5.4.: Variação espacial da 2a componente 
 80
REFERÊNCIAS BIBLIOGRÁFICAS 
AITCHISON, J. (1986) – The statistical analysis of compositional data: Chapman & Hall 
 
BERNARDI, J. V. E.; FOWLER, H. G. & LANDIM, P. M. B. (1997) – Aplicação da estatística 
multivariada em estudos de impacto ambiental: VII Simpósio de Quantificação em Geociências, 
Bol Res. Expandidos, 12-16 
GOWER, J. C. (1966) – Some distancRe properties of latent root and vector methods used in 
multivariate methods: Biometrika, 55: 325-338 
 JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier. 
 
REYMENT, R. A. & JÖRESKOG, K. G. (1996) – Applied Factor Analysis in the Natural Sciences: 
Cambridge University Press, second printing 
 
 ZHOU, D. (1989) – ROPCA: A FORTRAN Program for Robust Principal Components Analysis: 
Computers & Geosciences, 15:59-78 
 81
 
6. ANÁLISE FATORIAL 
 
 Diferentemente da análise das componentes principais, que é uma 
manipulação matemática, a análise dos fatores pode ser considerada como uma 
técnica estatística. Importante é salientar que quando o método foi estabelecido 
por psicólogos, interessados em testes de inteligência, a condição fundamental 
era que o número de fatores "p" a se determinar, deveria ser conhecido "a priori" 
antes da análise ser efetuada. Em Geologia dificilmente essa condição é 
preenchida, pois geralmente os "fatores geológicos" acabam sendo estabelecidos 
em função dos resultados obtidos, o que torna algumas vezes os resultados 
questionáveis. Desse modo, sempre que possível, deve-se levar em consideração 
o conhecimento geológico a respeito do problema a ser analisado para o 
estabelecimento de possíveis fatores que tenham condicionado a distribuição de 
valores da matriz de dados. 
 O modelo da análise fatorial pode ser expresso por: 
 jrjr
p
1r
j efaX +∑= = , onde 
X j = variáveis originais, existindo "m" x j 
p = número "pré-especificado" de fatores 
a jr = coeficiente que representa o carregamento da j'ésima variável sobre o 
r'ésimo fator 
f r = r'ésimo fator 
e j = variação casual única relativa as variáveis originais X j 
 As variáveis, expressas em termos de vetores num sistema de 
coordenadas ortogonais, em que o comprimento representa a magnitude, 
agrupar-se-ão conforme o relacionamento entre si. Por esses agrupamentos de 
vetores poderão passar eixos, denominados fatores, que acusarão, pelo valor da 
projeção dos vetores sobre os eixos, a carga fatorial (factor loading) das variáveis 
sobre si. Esses fatores representam o número mínimo de causas que 
condicionam um máximo de variabilidade existente. A comunalidade 
(communallity), h², isto é, a soma dos quadrados das cargas fatoriais das 
variáveis sobre cada fator indica a eficiência dos mesmos na explicação da 
variabilidade total. 
 82
 Os fatores são encontrados fazendo com que o primeiro eixoesteja em tal 
posição que a soma dos quadrados dos pesos fatoriais em relação a ele seja 
maximizada, o que equivale a colocá-lo paralelamente ao principal agrupamento 
de vetores. O segundo eixo é colocado ortogonalmente, de modo que também 
seja maximizada a soma de quadrados dos pesos fatoriais para este segundo 
eixo, e assim por diante quanto aos demais fatores. 
 Uma das dificuldades resultantes deste procedimento é que o padrão de 
carregamento para cada componente pode não fornecer dimensões facilmente 
interpretáveis. Por exemplo, em uma matriz de coeficientes de correlação em que 
nenhum dos coeficientes é particularmente alto, o padrão de carregamento que 
pode ocorrer com respeito ao primeiro fator pode ser da mesma ordem relativa de 
magnitude que o existente em relação ao segundo fator, ao terceiro fator etc. 
Haverá necessidade, então, de uma rotação dos eixos fatoriais. A finalidade 
dessa rotação é maximizar colocando os eixos fatoriais numa única posição tal 
que cada fator possa ser interpretado pelos maiores carregamentos possíveis 
relacionados com o menor número de variáveis possível. 
 
6.1. Análise fatorial pelo modo “R” 
 Quando se está interessado no relacionamento entre variáveis, o cálculo 
dos autovalores e autovetores é feito a partir de uma matriz padronizada de 
variâncias-covariâncias, isto é, uma matriz de coeficientes de correlação entre “p” 
variáveis, tendo todas o mesmo peso. 
 Os autovetores são calculados de tal modo a definir “m” vetores com 
tamanho unitário. Isso é conseguido multiplicando cada elemento do autovetor 
normalizado pela raiz quadrada do correspondente autovalor. O resultado é um 
fator, ou seja, um vetor constituído por cargas fatoriais. 
 A matriz de variâncias e covariâncias observadas, [S2], é igual ao produto 
da matriz de carregamentos fatoriais (factor loading) [AR], de dimensões m x p, 
multiplicada pelo seu transposto [AR]´, mais uma matriz diagonal de variâncias 
únicas [var Ejj] 
 ]E[var]'A[.]A[]S[ ii
RR2 += 
 Como na análise fatorial p < m, a variância nas m variáveis é, portanto, 
derivada dos p fatores, porém a contribuição é feita por fontes únicas que afetam 
 83
independentemente as m variáveis originais. Esses p fatores subjacentes são 
conhecidos como fatores comuns e resumem a contribuição independente como 
um único fator. 
 Deve ser notado que p dever ser conhecido previamente à análise e isso 
implica numa restrição. Caso p não seja especificado a partição de variáveis entre 
os fatores comuns e o fator único torna-se indeterminada. 
 Os autovalores e, conseqüentemente, os fatores, representam a proporção 
da variância total explicada pelo respectivo autovetor e cada carga fatorial é 
proporcional à raiz quadrada da quantia de variância atribuída pela respectiva 
variável ao fator. 
 As comunalidades (hj
2) indicam quanto da variabilidade total está sendo 
explicada pelo conjunto de fatores. 
 Para que os "p" fatores ortogonais situados no espaço "m" dimensional 
sejam mais facilmente entendidos é necessário que estejam em tal posição, de 
modo que as projeções de cada variável sobre o eixo fatorial, situem-se o melhor 
possível, seja junto a extremidade, seja junto à origem. Em outras palavras, 
haverá necessidade de um critério de maximização da variância dos 
carregamentos sobre os fatores, o que é conseguido pela rotação dos eixos 
fatoriais. Existindo diversos algorítmos à disposição, o mais comum é o critério 
“varimax”. 
 
( )
2
2
2
j
2
jp
m
ij
22
j
2
jp
m
ij2
k p
h/ah/ap
s


∑−∑
= == 
sk
2 = variância das cargas fatoriais 
p = número de fatores 
m = número de variáveis originais 
a jp = carregamento da variável j no fator p 
hj
2 = comunidade da j’ésima variável 
 A quantidade que se deseja maximizar é: 
 V 2k
p
1k
s
=
∑= 
 Finalmente, após encontrada a matriz fatorial rotacionada se a mesma for 
multiplicada pela matriz inicial de dados obtém-se uma matriz dos "factor score". 
 84
Esses “factor score” representam estimativas das contribuições dos vários fatores 
à cada observação original e podem ser utilizados na classificação de amostras. 
Maiores detalhes podem ser encontrados em Davis (1986) ou Reyment & 
Jöreskog (1993) 
 
6.2. Análise fatorial pelo modo “Q” 
 Quando se está interessado no relacionamento entre amostras, utiliza-se o 
modo Q de análise de fatores, a qual parte de uma matriz inicial de coeficientes 
de similaridade entre amostras. O coeficiente de similaridade mais usado é o 
coeficiente cosseno-teta. 
 
2
jk
m
1k
2
ik
m
1k
ik
m
1k
ij
XX
jkX
Cos
==
=
∑∑
∑
=θ 
 Se as "m" variáveis originais forem normalizadas, de modo a terem média 
zero e variância 1,0, haverá uma identidade entre valores do coeficiente cosseno-
teta e do coeficiente de correlação. 
 O propósito classificatório do modo Q é o mesmo da análise de 
agrupamentos, porém é de muito mais difícil manuseio e muito mais dispendioso 
quanto ao tempo de computação. Por isso se o objeto de uma análise é a 
classificação de amostras em grupos, deve-se utilizar ou da análise de 
agrupamentos ou dos "factor score" obtidos pela análise fatorial, segundo o modo 
R. 
Um outro procedimento que procura tambem determinar se uma coleção 
de observações multivariadas representam uma amostra de uma única população 
ou uma mistura de diferentes populações é a “Análise das Coordenadas 
Principais”. Para tanto recomenda-se o trabalho de GOWER (1966) para o 
detalhamento desta análise, além de jöreskog, KLOVAN & REYMENT (1976) e 
REYMENT, BLACKITH & CAMPBELL (1984). 
 
6.3. Análise das correspondências (Análise das associações) 
 Tanto a Análise das Componentes Principais como a Análise Fatorial 
exigem dados mensurados em escala numérica contínua e não são, portanto, 
 85
apropriadas para dados nominais, tais como contagem de números de diversos 
tipos de fósseis em um nível estratigráficdo, número de fraturas com diferentes 
orientações num maciço rochoso ou dados do tipo presente-ausente. Nesses 
casos em que os dados podem ser agrupados em categorias, os autovalores são 
extraídos a partir de tabelas de contingências e a técnica é conhecida como 
“análise das correspondências”, tradução do francês “Analyse des 
Correspondances” (BENZÉCRI et al., 1980). Talvez o termo que melhor descreva o 
método seria “Análise das Associações entre variáveis e espécimes”. Na tabela 
de contingências os valores originais são transformados de modo a poder ser 
interpretados como probabilidades condicionais. Por causa da natureza dessa 
transformação as relações entre colunas e linhas da tabela transformada são as 
mesmas que aquelas da matriz original da dados. Isso significa que as soluções 
para o modo Q e para o modo R são equivalentes e desse modo, o produto final 
mostra num espaço bidimensional, definido pelos dois mais importantes 
autovetores, a distribuição simultânea tanto das amostras como das variáveis. 
 Este método, porém, é bastante suceptível à presença de valores 
anômalos (outliers). Quando presente valores muito diferentes dos demais, os 
primeiros eixos fatoriais apresentarão esses valores acumulados em uma das 
extremidades do eixo e os demais agrupados na outra. Esse problema pode ser 
contornado com a eliminação dos valores anômalos ou então, se mantidos, 
ignorar o primeiro eixo e verificar os eixos subsequentes. 
Ver aplicações dessa metodologia em Geologia em TEIL (1975), TEIL & 
CHEMINÉE (1975) e DAVID, DAGBERT & BEAUNCHEMIN (1977). Em CARR (1990) é 
apresentado um programa em FORTRAN-77 para o cálculo desta análise. 
 
6.3.1.Seqüência de cálculos 
 Inicialmente os elementos da matriz [X] de dados originais, de dimensões n 
x m, são convetertidos em probabilidades conjuntas didivindo cada elemento pelo 
total geral ΣΣxij 
 ]X[
x
1]B[
ij∑∑
= 
 Em seguida é definida uma matriz quadrada [M] com dimensão m x m, que 
contém os totais das colunas de [B] arranjados em ordem ao longo da diagonal 
principal e com zeros em todas as demais posições. Também é definida uma 
 86
matriz [N], com dimensões n x n que contém os totais das linhas na diagonal 
principal e zeros nas demais posições. Essas duas matrizes contém as 
probabilidades marginais das colunas e das linhas e são usadas para transformar 
[B]. 
 2/12/1 ]M[]B[]N[]W[ −−= 
 A matriz [W], com dimensões n x m, contém os elementos transformados 
wij que correspondem a cada elemento original xij. A matriz de produtos-cruzados 
entre colunas é 
 ]W[]'W[]R[ = 
 E, de mesmo modo, a matriz de produtos-cruzados entre linhas é 
 ']W[]W[]Q[ = 
 Os autovalores de [R] e de [Q] são idênticos, exceto que em [Q] tem (n-m) 
autovalores adicionais, todos com o valor zero. Os autovetores de [R] podem ser 
convertidos nos “fatores de correspondência (=associação)” multiplicando cada 
vetor pelo seu valor singular correspondente, que é a raiz quadrada do autovalor 
correspondente 
 Carregamentos no modo R = λ . autovetores de modo R 
 Em notação matricial os valores singulares podem ser pensados como 
presentes ao longo da diagonal de uma matriz m x m, [λ], sendo zero os demais 
elementos. Os autovalores de [R] formam as colunas de uma matriz m x m, [U]. A 
equação matricial para determinar os carregamentos no modo R é então: 
 ][]U[]A[ R Λ= 
 Os “scores” de cada n observação sobre os m fatores de correspondências 
são 
 ]A[]W[]S[ RR = 
 Para o caso de autovalores de [Q], sendo [V], de dimensões n x n, a matriz 
que contém n autovetores de [Q], de modo idêntico obtém-se 
 ][]V[]A[ Q Λ= e ]A[]'W[]S[ RQ = 
 Há uma relação direta entre as soluções para o modo R e para o modo Q: 
 1RQ ][]A[]W[]A[ −Λ= 1R ][]S[ −Λ== 
 O carregamento nos fatores de correspondências no modo Q é igual aos 
“scores” de correspondências no modo R, dividido pelos valores singulares 
 87
apropriados. Pode-se obter uma solução para o modo Q resolvendo-o no modo R, 
o que é uma vantagem em termos computacionais, pois normalmente [R] tem 
dimensões menores que [Q]. 
 A conseqüência direta disso é que se pode plotar tanto amostras como 
variáveis no mesmo espaço, usando os mesmos eixos. A obtenção de mesmas 
escalas tanto para R como para Q é obtida por 
 ]A[]M[]Aˆ[ R2/1R = 
 ]A[]N[]Aˆ[ Q2/1Q = 
 
 A apresentação de resultados simultâneos, referentes à variáveis e 
amostras, num mesmo diagrama de dispersão é bastante útil e de fácil 
interpretação, como visto. Além desta análise das associações, pode tambem ser 
mencionado o método proposto por GABRIEL (1971) que aborda de um modo mais 
geral o relacionamento entre linhas e colunas de uma tabela de contigência. 
Detalhes podem ser encontrados em GORDON (1981), JACKSON (1991), JOLLIFFE 
(1986) e GABRIEL (1995,a,b). 
 
6.4. Análise fatorial R-Q simultânea 
 Embora o teorema de Eckart-Young estabeleça ser possível extrair fatores 
simultâneamente pelos modos R e Q, na prática os resultados podem não serem 
os mesmos devido a maneira como os dados são transformados antes do 
processo fatorial. O escalonamento de valores condiciona as medidas de 
similaridade e, desse modo, a natureza da solução fatorial. 
 No modo R a solução fatorial inicia-se pela matriz simétrica dos menores 
produtos [W]´[W], enquanto no modo Q a solução inicia-se pela matriz simétrica 
dos maiores produtos [W][W]´. Isso significa que os procedimentos de 
escalonamento de valores não são os mesmos para originar [W] a partir dos 
dados originais [X]. Por exemplo, na análise das componentes principais cada 
elemento de [X] é dividido pelo desvio padrão das colunas para produzir [W]. Na 
análise fatorial pelo modo Q ocorre uma padronização que inclui a divisão de cada 
elemento de [X] pela raiz quadrada da soma de quadrados das linhas para 
originar [W]. Como a matriz [W] originada pelo modo R não é idêntida à matriz 
 88
[W] originada pelo modo Q, tal diferença entre escalas não fornece os mesmos 
resultados (DAVIS, 1986). 
 A “análise das associações” usa uma matriz simétrica com a mesma escala 
de valores para linhas e colunas e procura medidas de similaridade proporcional 
entre objetos e variaveis. A similaridade resultante é a distância χ2 utilizável 
apenas para tabelas de contingência que estima probabilidades. Uma tabela de 
medidas com valores contínuos, porem, tem diferentes propriedades e 
necessidade metodologia própria para tratar simultâneamente os objetos e as 
variáveis, como apresentado por ZHOU, CHANG & DAVIS (1983). 
Segundo esses Autores se os dados forem escalonados de modo que o 
produto menor [W]´[W] seja uma matriz de correlações e o produto maior [W][W]´ 
uma matriz de distâncias euclideanas, o modo R ao ser executado por uma 
análise das componentes principais e o modo Q por uma análise das 
coordenadas principais, os resultados apresentarão a mesma configuração 
espacial. 
 No artigo de ZHOU, CHANG & DAVIS (1983) é apresentado como exemplo 
para a aplicação da análise R-Q em contraposição à análise das 
correspondências uma matriz de dados retirada de SHERMAN, BUNKER E BUSH 
(1971). Esses dados provem da área de Berea, Virginia/EUA, onde um pequeno, 
mas altamente radioativo, pluton de quartzo-monzonito (Q) foi introduzido em 
clorita-actinolita-xistos (X) e, posteriormente, cobertos por areias e cascalhos (A). 
Um total de 22 amostras foram coletadas e analisadas para U (partes por milhão), 
Th (ppm) e K (porcentágem). Alem disso foi realizado um levantamento aereo-
radiométrico (A), com valores medidos em contagem por segundo, para verificar 
a relação entre essa coleta e os dados de campo. Os valores estão na Tabela 
6.1. e foram submetidos tanto a “análise R-Q” como à “análise das 
correspondências”. 
A solução pela “analise R-Q” mostrou correlações positivas entre as quatro 
variaveis consideradas e as amostras distribuíram-se por áreas distintas conforme 
a litologia, ao longo do fator 1, que correspondeu a 85 da variabilidade presente. 
Já a análise das correspondências revelou um padrão diferente de distribuição, 
onde a variável radiométrica aparece no centro do diagrama e as amostras estão 
aí agrupadas independentemente das diferença litológicas. Esses resultados são 
inconsistentes com a realidade geológica e a razão para a não detecção está no 
 89
fato que as variaveis foram medidas segundo diferentes ordens de magnitude. A 
análise das correspondências foi originalmente designada para analisar tabélas 
de contigências e quando aplicadas à tabélas de valores numéricos cuidados 
devem ser tomados para evitar problemas de escala de mensurações. Como 
apresentado no capítulo anterior, ZHOU (1989) discute a aplicação de metodos 
robustos para a análise R-Q, e nesse trabalho é apresentado um programa, 
“ROPCA”, escrito em FORTRAN e disponível para acesso e carregamento. 
 
N litologia Aero U Th K 
1 X 240 0.63 2.05 0.13 
2 X 360 2.18 5.31 0.31 
3 X 420 2.26 5.61 0.34 
4 X 500 1.71 6.44 0.7 
5 Q 580 2.38 7.99 1.73 
6 Q 700 3.83 8.32 4.26 
7 Q 600 3.79 9.46 1.53 
8 Q 650 4.09 14.71 3.11 
9 Q 770 4.21 12.00 1.90 
10 Q 930 4.72 12.78 2.92 
11 Q 1020 6.24 16.31 2.29 
12 Q 1000 5.24 14.51 1.88 
13 Q 1000 4.73 15.79 4.64 
14 Q 1040 4.67 10.30 4.17 
15 Q 1150 5.08 13.11 3.97 
16 Q 1000 5.27 13.40 4.36 
17 Q 960 5.61 10.31 2.05 
18A 420 2.33 6.83 0.47 
19 A 370 2.64 9.88 0.58 
20 A 400 2.29 6.02 0.34 
21 A 480 2.32 6.14 0.32 
22 Q 730 5.94 12.86 1.35 
 
Tabela 6.1.: Matriz de dados provenientes da região de Berea-Virginia/EUA 
Utilizando o pacote MVSP, versão 3.1., obtem-se, com a aplicação da 
Análise das Correspondências, o diagrama exposto na Figura 6.3, o qual esta 
perfeitamente de acordo com o exemplo acima citado. 
 90
Figura 6.3. Análise das associações entre as variáveis U, Th, K e radiometria (A) e as 
litologias xisto (X), quartzo-monzonito (Q) e areia e cascalho (A) 
 
Bastando apenas padronizar as variáveis na análise das componentes 
principais, e utilizando o mesmo pacote MVSP, o resultado apresentado é 
semelhante ao encontrado pelos Autores acima citados (Figura 6.4.). 
 
Figura 6.4. Análise das componentes principais entre as variáveis, padronizadas, U, Th, K e 
radiometria(Aero) e as litologias xisto (X), quartzo-monzonito (Q) e areia e cascalho (A) 
 
 
 91
6.5. Exemplo 
 Exemplo retirado de KRUMBEIN & GRAYBILL (1965, caps. 14 e 15). Os dados 
são provenientes de 31 poços perfurados nos estados norte-americanos de 
Kansas e Colorado em rochas de idade permiana. São espessuras de 4 litologias, 
arenito, folhelho, carbonato e evaporito, e mais duas. A primeira (total) resultante 
da soma dessas quatro variáveis e a segunda (não clásticos) resultante da soma 
de carbonato e evaporito. 
 
Codig
o 
Caso
s total arenito folhelho
nclástic
o
carbonat
o evaporito 
1001 10 845 266 350 229 24 205 
1004 9 906 337 432 137 60 77 
1006 8 844 451 311 82 42 40 
1007 7 447 293 116 38 12 26 
1009 23 1001 348 450 203 17 186 
1010 22 933 275 435 223 41 182 
1012 19 374 240 110 24 24 0,0001 
1014 1 608 365 148 95 20 75 
1015 2 640 224 304 112 14 98 
1017 20 614 255 272 87 28 59 
1019 11 915 265 355 265 43 222 
1020 12 1139 179 643 317 20 297 
1021 21 702 237 341 124 39 85 
1023 3 464 104 242 118 18 100 
2002 13 1118 180 568 370 0,0001 370 
2003 14 1224 207 758 259 11 248 
2004 24 1204 277 610 317 10 307 
2005 25 1144 310 520 314 12 302 
2006 26 1048 362 510 176 12 164 
2008 15 1162 130 659 373 13 360 
2009 16 1003 224 542 237 21 216 
2011 17 721 229 400 92 12 80 
2012 18 775 223 477 75 28 47 
2015 28 1023 295 501 227 18 209 
2016 27 1114 246 528 340 32 308 
2017 29 955 267 502 186 24 162 
2019 4 532 157 238 137 0,0001 137 
2021 5 562 120 316 126 0,0001 126 
2031 30 1005 271 637 97 8 89 
2034 6 530 30 461 39 0,0001 39 
8001 31 1126 270 558 298 68 230 
 
 
 
 À essa matriz de dados foi aplicada uma análise fatorial com o intuito de 
verificar que fatores teriam controlado a deposição desses sedimentos. 
 92
 Inicialmente foi calculada uma matriz de coeficientes de correlação entre as 
6 variáveis: 
 
 total arenito folhelho nclástico carbonato evaporito 
Total 1 0,241 0,887 0,844 0,145 0,818 
Arenito 0,241 1 -0,119 -0,044 0,448 -0,115 
Folhelho 0,887 -0,119 1 0,690 -0,053 0,696 
nclástico 0,844 -0,044 0,690 1 0,059 0,987 
carbonato 0,145 0,448 -0,053 0,059 1 -0,100 
evaporito 0,818 -0,115 0,696 0,987 -0,100 1 
 
 Cálculo dos autovalores: 
 F1 F2 F3 F4 
Autovalores 3,462 1,527 0,573 0,426 
variância % 
57,70
3
25,45
2 9,554 7,103 
v. acumulada % 
57,70
3
83,15
5
92,70
9 99,812 
 
Matriz factorial (antes da rotação): 
 F1 F2 F3 F4 
Total 0,953 0,226 -0,131 0,155 
Arenito -0,006 0,866 -0,491 -0,093 
Folhelho 0,872 -0,097 -0,029 0,467 
nclástico 0,950 -0,010 0,115 -0,290 
carbonato 0,021 0,834 0,548 0,055 
evaporito 0,943 -0,142 0,028 -0,297 
 
 
Matriz fatorial (após rotação varimax) 
 F1 F2 F3 F4 
Total 0,640 0,247 0,088 0,722 
Arenito -0,032 0,972 0,233 0,000 
Folhelho 0,412 -0,100 -0,035 0,899 
nclástico 0,939 -0,030 0,066 0,337 
carbonato 0,000 0,228 0,973 0,004 
evaporito 0,935 -0,066 -0,089 0,336 
 
Pelo peso das variáveis em cada fator as seguinte explicações, de caráter 
sedimentológico, foram dadas para cada um deles: 
Fator 1: Circulação restrita; alta taxa de evaporação; rápida subsidência 
Fator 2: Rápida introdução de clásticos grosseiros 
Fator 3: Níveis normais de circulação e evaporação; taxas lentas de 
deposição; falta de aporte de clásticos 
 93
Fator 4: Rápida subsidência; valores intermediários de circulação e 
evaporação; aporte de detritos de granulação fina. 
 
Em KRUMBEIN (1962) encontra-se, porem, as coordenadas geográficas 
desses poços o que possibilita um enfoque espacial para a análise fatorial desses 
mesmos dados 
Codig
o 
Caso
s X Y 
1001 10 3,1 2,45
1004 9 2,3 2,6
1006 8 1,15 2,7
1007 7 0,2 3,05
1009 23 3,1 1,15
1010 22 2,6 1
1012 19 0,6 1,65
1014 1 1,85 3,4
1015 2 2,35 3,15
1017 20 1,15 1,7
1019 11 2,9 2,2
1020 12 3,6 2
1021 21 2,25 1,05
1023 3 2,6 3,7
2002 13 3,7 2,35
2003 14 3,85 1,8
2004 24 4,25 1,6
2005 25 4,1 0,9
2006 26 3,8 0,5
2008 15 4,8 2,55
2009 16 5,1 2,7
2011 17 5,55 2,9
2012 18 6,2 3
2015 28 4,2 0,5
2016 27 4,3 0,7
2017 29 5,7 1,4
2019 4 4,5 3,8
2021 5 5,5 3,7
2031 30 5,75 0,9
2034 6 5,55 4,6
8001 31 3,4 0,2
 
Inicialmente obtem-se um mapa de localização dos poços: 
 94
10
98
7
23
22
19
1
2
20
11
12
21
3
13
14
24
25
26
15
16
17 18
28
27
29
4 5
30
6
31
0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
 
 
 
Com esse tipo de dado estratigráfico georreferenciado normalmente o que 
se faz são mapas de isópacas das litologias encontradas: 
 95
1.00 2.00 3.00 4.00 5.00 6.00
2.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
2.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
2.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
2.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
2.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
2.00
4.00
Total Arenito
Folhelho Não clástico
Carbonato Evaporito
 
 
Como, porem, se dispõe das coordenadas geográficas, cada fator pode 
ser mapeado fornecendo mapas faciológicos: 
 
 
 
 
 
 
 96
Caso
s X Y F1 F2 F3 F4 
10 3,1 2,45 1083,19 417,05 144,40 1071,20 
9 2,3 2,6 947,73 512,38 203,78 1115,09 
8 1,15 2,7 768,37 620,01 211,26 930,57 
7 0,2 3,05 384,57 383,38 115,45 448,84 
23 3,1 1,15 1179,46 525,70 166,90 1258,59 
22 2,6 1 1147,11 444,59 169,46 1201,47 
19 0,6 1,65 299,60 319,33 109,95 377,29 
1 1,85 3,4 597,83 486,75 152,48 629,64 
2 2,35 3,15 724,50 338,58 110,22 806,32 
20 1,15 1,7 633,77 372,03 131,72 737,32 
11 2,9 2,2 1179,77 434,97 169,51 1144,18 
12 3,6 2 1563,44 366,05 133,50 1607,39 
21 2,25 1,05 778,12 369,01 143,69 884,14 
3 2,6 3,7 597,62 185,30 73,04 626,13 
13 3,7 2,35 1637,07 358,35 112,06 1567,14 
14 3,85 1,8 1564,07 405,68 135,25 1736,07 
24 4,25 1,6 1597,69 477,71 152,59 1628,04 
25 4,1 0,9 1513,68 504,87 160,34 1501,16 
26 3,8 0,5 1187,90 546,03 167,51 1329,95 
15 4,8 2,55 1697,77 315,03 114,83 1678,38 
16 5,1 2,7 1282,54 394,35 138,43 1364,22 
17 5,55 2,9 780,13 355,16 113,49 938,29 
18 6,2 3 799,79 361,30 131,53 1029,74 
28 4,2 0,5 1260,26 472,48 155,22 1336,12 
27 4,3 0,7 1529,81 437,83 163,15 1497,52 
29 5,7 1,4 1135,61 434,10 149,98 1258,29 
4 4,5 3,8 690,25 246,87 71,97 690,44 
5 5,5 3,7 722,14 211,56 63,51 774,78 
30 5,75 0,9 1071,31 440,70 135,63 1361,11 
6 5,55 4,6 601,24 110,07 36,63 823,36 
31 3,4 0,2 1436,73 475,76 207,94 1492,94 
 
 
 
 
 97
1.00 2.00 3.00 4.00 5.00 6.00
1.00
2.00
3.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
1.00
2.00
3.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
1.00
2.00
3.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
1.00
2.00
3.00
4.00
F1 F2
F3 F4
 
Mapa faciológico 1: Circulação restrita; alta taxa de evaporação; rápida subsidênciaMapa faciológico 2: Rápida introdução de clásticos grosseiros 
Mapa faciológico 3: Níveis normais de circulação e evaporação; taxas lentas de 
deposição; falta de aporte de clásticos 
Mapa faciológico 4: Rápida subsidência; valores intermediários de circulação e 
evaporação; aporte de detritos de granulação fina. 
 98
REFERENCIAS BIBLIOGRAFICAS 
BENZÉCRI, Jean-Paul, & others (1980) - L”Analyse des données. Vol. 2, L’Analyse des 
correspondances: Dunod, Paris, 628p. 
CARR, J.R. (1990) - CORSPOND: a portable FORTRAN-77 program for correspondence analysis: 
Computers & Geosciences 16(3):289-307. 
DAVID, M.; M., DAGBERT & BEAUCHEMIN, Y. (1977) - Statistical analysis in geology: 
Correspondence analysis method: Quart. Colorado Sch. Mines, 7:60p. 
 
GABRIEL, K. R. (1971) – The biplot display of matrices with application to principal cimponents 
analysis: Biometrica, 58:453-467 
 
GABRIEL, K. R. (1995,a) : Biplot displays of multivatiate categorical data, with comments on 
multiple correspondence analysis: Recent Advances in Descriptive Multivariate Analysis (ed.: W. J. 
Krzanowski): 190-226, Oxford Science Publ. 
 
GABRIEL, K. R. (1995,B): MANOVA biplots for two-contingency tables: Ibid., 227-268 
 
GORDON, A. D. (1981): Classification: Monographs on Applied Probability and Statistics, 
Chapman and Hall 
 
GOWER, J. C. (1966) – Some distance properties of latent root and vector methods used in 
multivariate methods: Biometrika, 55:325-338 
 
JACKSON, J. E. (1991) – A User´s Guide to Principal Components: Wiley 
 
JOLLIFFE, I. T. (1986) – Principal Components Analysis: Springer Verlag 
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier. 
KRUMBEIN, W.C. (1962) – Open and Closed Number Systems in Stratigraphic Mapping: Bull. Am. 
Ass. Petrol. Geologists, 46:2229-2245 
KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) – An Introduction to Statistical Models in Geology: 
McGraw-Hill Book Co. 
REYMENT, R. A., BLACKITH, R. E. & CAMPBELL, N. A. (1984) – Multivariate Morphometrics: 2d. 
edition, Academic Press 
SHERMAN, K. N., BUNKER, C.M. & BUSH, C. A. (1971) – Correlation of uranium, thorium and 
potassium with aeroradioactivity in the Berea area, Virginia: Econ. Geol., 66:302-308 
TEIL, H. (1975) - Correspondence factor analysis: An outline of its method: Journ. Int’l. Assoc. 
Mathematical Geology, 7:3-12. 
TEIL, J. & CHEMINÉE (1975) - Application of correspondence factor analysis to the study of major 
and trace elements in the Erta Ale Chain (Afar, Ethiopia): Jour. Int’l. Assoc. Mathematical 
Geology, 7:13-30. 
 
ZHOU, D. (1989) – ROPCA: A FORTRAN Program for Robust Principal Components Analysis: 
Computers & Geosciences, 15:59-78 
, 
ZHOU, D., CHANG, T. & DAVIS, J. C. (1983) – Dual Extraction of R-Mode and Q-Mode Factor 
Solutions: Math. Geology, 15: 581-606 
 
 
 99
7. ANÁLISE DISCRIMINANTE 
 
7.1. Análise discriminante linear 
 A análise estatística multivariada utilizando funções discriminantes foi 
inicialmente aplicada para decidir à qual de dois grupos pertenceriam indivíduos 
sobre os quais tinham sido feitas diversas e idênticas mensurações. Nessa 
análise, conhecida como análise discriminante linear, a idéia básica é substituir o 
conjunto original das diversas mensurações por um único valor Di, definido como 
uma combinação linear delas 
 pp22iii xxxD λ++λ+λ= L 
 Para fornecer um único valor os termos são adicionados nessa função 
linear, e esta transformação é realizada de tal modo a fornecer a razão mínima 
entre a diferença entre pares de médias multivariadas e a variância multivariada 
dentro dos dois grupos. Conhecido o valor Di , este será comparado com um 
certo Do , ou seja, o valor situado na linha expressa pela função discriminante a 
meio caminho entre os centros de dois grupos, com a finalidade de verificar a qual 
deles o indivíduo pertence. Tal processo exige, portanto, um conhecimento "a 
priori" das relações existentes entre os grupos estudados. Isso contrasta com 
métodos classificatórios multivariados, como por exemplo a análise de 
agrupamentos ou das componentes principais, quando os grupos constituídos por 
indivíduos similares entre si emergem através do esquema de classificação 
adotado. 
 Além disso, para a aplicação de testes de significância às funções 
discriminantes, os seguintes pressupostos são necessários: 
a) que as observações em cada grupo tenham sido escolhidas ao acaso; 
b) que a probabilidade de um indivíduo desconhecido pertencer a um dos grupos 
seja a mesma; 
c) que as variáveis tenham distribuição normal; 
d) que as matrizes de variância de grupos comparados sejam de mesmo 
tamanho; 
e) que todas as observações usadas para o cálculo das funções discriminantes 
tenham sido classificadas sem erro. 
 
 100
 Nos casos em que as matrizes de variâncias e covariâncias são diferentes 
torna-se necessário escolher um outro método que absorva tal diferença, como o 
procedimento da função discriminante quadrática. 
 Um dos métodos utilizados para o cálculo das funções discriminantes 
lineares é o da regressão linear, onde a variável dependente consiste na diferença 
entre as médias multivariadas de dois grupos e as variáveis independentes as 
variáveis e covariâncias das variâncias em estudo. Ver a propósito DAVIS (1986). 
 A solução do sistema de equações lineares resultante pode ser resolvido, 
por cálculo matricial, a partir de: 
 [ ][ ] [ ]RppVp2 =λ 
[ ]Vp2 = matriz, pxp, das variâncias e covariâncias combinadas das p variáveis; 
[λ] = vetor coluna, px1, representando os coeficientes desconhecidos; 
[Rp] = vetor coluna, px1, das "p" diferenças entre as médias das variáveis de dois 
grupos A e B. 
 Para a constituição de[ ]Vp2 , determina-se: 
a) inicialmente a matriz de soma de quadrados e produtos cruzados de todas as 
"p" variáveis, do primeiro grupo [ ]Va 
 [ ]










=
2
PP2P1
P2
2
221
P121
2
1
a
SPXXSPXSSPX
XSPXSQXXSPX
XSPXXSPXSQX
V
L
M
L
L
 
 
onde: 
 1n/
n
x
xSQX
2n
1i
i1n
1i
2
i1
2
1 −







 

∑
−∑= =
=
 
 1n/
n
xx
)x.x(XSPX
n
1i
i2
n
1i
i1
i2
n
1i
i121 −






 ∑∑
∑= ==
=
 
 
 101
b) de modo similar determina-se a matriz de somas de quadrados e produtos 
cruzados de todas as "p" variáveis do segundo grupo [ ]Vb 
 
c) calcula-se, então, a matriz combinada segundo: 
 [ ] [ ] [ ]
2nn
VVV
ba
ba2
p −
+= 
 Para o cálculo de [Rp] encontram-se as diferenças segundo: 
 
 [ ]








−


















bp
2b
1b
ap
2a
1a
p
2
1
X
X
X
X
X
X
R
R
R
Rp M 
 Para o cálculo dos coeficientes λp, que irão constituir a equação da função 
discriminante, determina-se o inverso da matriz da variâncias e covariâncias 
combinadas e em seguida multiplica essa matriz pelo vetor de diferença entre 
médias: 
 [ ] [ ] [ ]RpVp 12p −=λ 
 O valor central do grupo A é determinado por 
 
 app2a1a1a xxxD λ++λ+λ= L 
 
e do grupo B por 
 
 bpp2b1b1b xxxD λ++λ+λ= L 
 O índice discriminante, Do , ou seja, o ponto na linha descrita pela função 
discriminante situado exatamente na metade da distância entre os centros dos 
grupos A e B, é encontrado segundo: 
 


 +λ++


 +λ+


 +λ=
2
XX
2
XX
2
XXD bpapp
2b2a
2
1b1a
1o L 
 Para testar a significância da função encontrada, ou seja, verificar se os 
dois grupos considerados pertencem a uma única população ou à duasdistintas 
 102
populações, calcula-se a distância entre as duas médias multivariadas, D Da b− . 
Esta medida de distância é conhecida como “distância generalizada de 
Mehalanobis”, ou D², e mede a separação entre as duas médias multivariadas 
expressa em unidades de variâncias combinadas. 
 D² é usada na seguinte expressão para ser testada pela distribuição F: 
 ( ) 2ba
ba
ba
ba D
nn
nn
p2nn
1pnnF 



+



−+
−−+= , 
com "p" graus de liberdade para o numerador e " na nb p+ − −1 " para o 
denominador. A hipótese nula a ser testada, estabelece que as duas médias 
multivariadas são iguais, ou que a distância entre ambos os grupos é igual a zero 
significando que se trata de um único grupo. 
 [ ] bao ou,0Rp:H µ=µ= 
 [ ] 0Rp:H1 > 
 A contribuição relativa, em percentagem, de cada variável para o 
distanciamento entre os dois grupos é fornecida pela expressão: 
 100*
D
RppC 2p
λ= 
 Cp mede apenas a contribuição direta da variável, sem levar em 
consideração o seu inter-relacionamento com as demais existentes. 
 
7.2. Análise discriminante multigrupos 
 Quando se trata de discriminar entre mais de dois grupos torna-se 
necessário uma generalização na metodologia. A análise discriminante 
multigrupos, que utiliza procedimentos combinados da análise de variância e da 
análise fatorial, pode, então, ser utilizada. 
A analogia com a análise de variância é que a matriz inicial de todas as 
variâncias e covariâncias pode ser parcializada entre categorias ou grupos e 
verificada a soma total de quadrados, a soma de quadrados entre grupos e a 
soma de quadrados dentro dos grupos. Como no caso da análise de variância 
convencional a soma de quadrados entre grupos [E] mais a soma de quadrados 
dentro dos grupos [D] é igual à soma total de quadrados [T]: 
 103
 [T] = [E] + [D] 
 Quando a razão [E]/[D] apresentar um valor alto isto significará que as 
médias dos grupos são bem diferentes entre si e os valores dentro de cada grupo 
estão bem concentrados ao redor dos respectivos centroides, ou seja, há uma 
discriminação significativa entre os grupos. O problema na análise discriminante 
é, desse modo, encontrar um conjunto de pesos lineares para as variáveis que 
tornem essa razão máxima. Se esse conjunto de pesos for o vetor [A1], a análise 
discriminante pode ser efetuada ao encontrar os valores dos elementos de [A1] 
de modo que a expressão 
 {[A1]´[E] [A1]}/{[A1]´[D] [A1]}, seja maximizada. 
 Nessa análise usualmente é especificado a restrição que o denominador é 
igual a 1 
 [A1]´[D] [A1] = 1. 
 Obedecida essa restrição a razão é maximizada quando [A1] for o autovetor 
correspondente ao maior autovalor de [D]-1 [E]. Pode-se em seguida, como na 
análise fatorial, encontrar eixos ortogonais [A2], [A3], etc., numa sucessão 
decrescente de funções discriminantes segundo as quais os grupos podem ser 
distintos tanto quanto possível. 
 As observações usadas no cálculo das funções discriminantes podem ser 
projetadas no espaço definido pelos eixos discriminantes. Isto é feito segundo a 
multiplicação matricial 
 [Z] = [A]´[X], 
onde [X] é a matriz inicial de dados [N x p] e [A] a matriz [p x t] cujas colunas “t” 
são os maiores autovetores a serem usados nas funções discriminantes. 
 Os centroides dos g grupos podem ser projetados no espaço discriminante 
por 
 [ZM] = [A1] [Xmk], 
onde [Xmk] contem as médias de todas as variáveis para cada grupo. 
 Geralmente escolhe-se as duas funções discriminantes de maior peso para 
servir como eixos ortogonais para uma distribuição das observações dos diversos 
grupos e os respectivos centróides. Uma observação multidimensional de origem 
desconhecida pode ser projetada nesse diagrama pela sua multiplicação com o 
transposto de [A] e verificada a sua distância aos diversos centróides. Maiores 
detalhes podem ser vistos em DAVIS (1986). 
 104
7.3. Distância Generalizada D² de Mahalanobis 
 A distância generalizada D² de Mahalanobis também pode ser usada como 
uma técnica de comparação quanto à separação entre diversos grupos permitindo 
avaliar a extensão e a direção dos afastamentos entre os valores médios das 
variáveis usadas na discriminação. As diferenças entre cada par de grupos que 
estão sendo comparados são assim examinados simultaneamente através das 
diversas variáveis, que podem ser correlacionadas, de modo que a informação 
fornecida por uma delas pode não ser independente da fornecida pelas demais. 
 O valor numérico da maior separação possível entre dois grupos quaisquer 
é chamado Distância Generalizada entre os grupos e mede, em escala 
independente da originalmente utilizada para as várias variáveis, a clareza das 
disjunção entre elas. 
 Assim, o valor da distância generalizada D² ligando dois grupos é um 
número puro, com propriedades da distância comum, e mede a extensão com que 
diferem entre si em tamanho e forma. 
 A Distância Generalizada de Mahalanobis entre os grupos i e j é 
usualmente estimada, segundo RAO (1952) por: 
 [ ][ ] [ ]ji1ji2ij xxSxxD −−= − 
onde, xi é o vetor de médias do i'ésimo grupo 
 xj é o vetor de médias do j'ésimo grupo 
 [S] é a estimativa combinada da matriz de dispersão dentro dos grupos 
 
 Este método de representação de diferenças entre grupos leva em conta 
qualquer correlação que exista entre as variáveis usadas e é também 
independente das unidades de medida com que as variáveis estão expressas. 
 Para o cálculo da distância generalizada, por exemplo, usando apenas 
duas variáveis (V1 e V2), correlacionáveis, utiliza-se da expressão: 
 R.V'.RD 12 −= 
onde 


−
−=
2221
1211
VV
VV
R 
 105
 [ ]22211211 VV,VV'R −−= 
 








= 2
2v
S
2v
s.
1v
s.2v1v
r
2v
s.
1v
s.2v1v
r2
1v
S
V 
 
7.4. Exemplo com enfoque “clássico” 
Após a aplicação das análises de agrupamentos e das componentes 
principais aos mesossaurídeos da Formação Irati e tendo sido constatado que os 
fósseis se apresentam em 3 grupos, resta a questão de decidir se ocorre uma 
separação significante, ou não, entre as populações estudadas. Caso seja esse o 
caso quais as variáveis mais importantes para a discriminação entre esses taxas. 
Para tanto a análise discriminante linear entre dois grupos deve ser usada. 
 Os resultados, já apresentados por LANDIM & PERINOTTO (1976), são os 
seguintes: 
a) Função discriminante para Mesosaurus brasiliensis x Stereosternum tumidum: 
 iii
ii
i Ld398.3Cd111.1Cp561.2cC659.2D −+−= 
 DM = 12,46; DS = 3,55; D0 = 8,00; D² = 8,91 
Teste F = 13,72 (F4/23 = 2,80), signicando que a separação entre essas 
duas espécies é significativa ao nível de 5% 
 De acordo com a função discriminante, entre os exemplares utilizados 
para a análise, os de designação (M01) e (M13), assinaláveis a Mesosaurus 
brasiliensis, apresentam respectivamente os valores Di = 7,087 e Di = 5,824, o 
que indica provavelmente que esses espécimes estejam mal classificados e que 
talvez, levando em consideração as quatro variáveis estudadas, pertençam à 
espécie Stereosternum tumidum. Recomenda-se neste caso uma análise 
osteológica mais detalhada ou mesmo verificação do nível estratigráfico de onde 
provenham. 
 A porcentagem de contribuição direta de cada variável para a 
discriminação entre os dois conjuntos de dados é: 
comprimento dos dentes = 54,46%; comprimento do crânio = 47,79%; 
comprimento do pescoço = 0,04%; largura dos dentes = - 2,29% 
 106
 Esses resultados indicam que as variáveis mais importantes na distinção 
entre as duas espécies são o comprimento dos dentes e secundariamente,o 
comprimento do crânio. Além disso, demonstra a validade das afirmações de (op. 
cit.) quando conclui que o comprimento do pescoço não demonstra diferença 
significativa e que a largura dos dentes entre as duas espécimes não se altera. 
b) Função discriminante para Stereosternum tumidum x Brazilosaurus 
sanpauloensis: 
 iii
ii
i Ld398.3Cd111.1Cp561.2cC659.2D −+−= 
 DS = 11,55; DB = -16,86; D0 = -2,65; D² = 28,40; 
Teste F = 17,38 (F4/12 = 3,26), signicando que a separação é significativa 
ao nível de 5% 
 Cada variável considerada na discriminação contribuiu diretamente com a 
seguinte porcentagem: comprimento do pescoço = 63,03%; comprimento do 
crânio = 23,09%; comprimento dos dentes = 14,00%; largura dos dentes = -0,14% 
 Com esses resultados, é correto dizer que o comprimento do pescoço é a 
variável mais significativa na distinção entre essas espécies, o que vem 
corroborar com as conclusões de ARAÚJO (op. cit.) ao testar as afirmativas de 
SHIKAMA & OZAKI (op.cit.). 
c) Função discriminante para Mesosaurus brasiliensis x Brazilosaurus 
sampauloensis 
 iii
ii
i Ld398.3Cd111.1Cp561.2cC659.2D −+−= 
 DM = 14,30; DB = -27,43; D0 = -6,56; D² = 41,73 
Teste F = 27,13 (F4/14 = 3,11), signicando que a separação é significativa 
ao nível de 5% 
 As variáveis mais importantes na distinção entre as duas espécies são o 
comprimento do crânio (48,80%) e o comprimento do pescoço (41,99%). A 
contribuição direta do comprimento dos dentes é de 9,76%, enquanto que a 
largura dos dentes em nada contribuiu (-0,56%). Esses resultados quantificam e 
demonstram a validade de dedução de ARAÚJO (op. cit.) em relação à distinção 
entre essas duas espécies. 
A análise multivariada das funções discriminantes mostra-se eficaz, 
comprovando estatisticamente a existência dos três taxa, Sterreosternum 
tumidum, Mesosaurus brasiliensis e Brazilosaurus sanpauloensis, trabalhando ao 
 107
mesmo tempo com as quatro variáveis consideradas para a discriminação e 
fornecendo aquelas de maior importância na distinção entre esses taxa. Entre 
Stereoternum tumidum e Mesosaurus brasiliensis, o comprimento dos dentes, 
entre Stereosternum tumidum e Brazilosaurus sanpauloensis, o comprimento do 
pescoço e entre Mesosaurus brasiliensis e Brazilosaurus sanpauloensis os 
comprimentos de crânio e escoço. 
 O afastamento entre os grupos, usando a distância generalizada de 
Mahalanobis (D2) entre os tres grupos de fósseis é a seguinte: 
 
A 
Isso está de acordo com Bertini (informação verbal) quando afirma que o 
gênero Brazilosaurus é provavelmente a forma ancestral dos outros dois gêneros 
e o mais terrestre dos mesossauros, com pescoço longo que favorece a 
predação, parecendo ter compartilhado seu nicho ecológico com Stereosternum. 
 O gênero Stereosternum teria vivido em águas rasas periféricas com maior 
energia de deposição e condições mais aeróbicas. Quanto ao Mesosaurus teria 
habitado águas depocêntricas e seria o mais aquático dos mesossaurídeos, 
providos de longos e finos dentes, muito provavelmente filtrador suspensívoro, e 
com pescoço curto. 
 Finalmente foi feita uma análise discriminante multigrupos, com o auxílio do 
pacote XLStat, tendo sido obtido o seguinte resultado: 
 
 108
Análise discriminante multi-grupos
B32B31
B30 B29
M15
M14
M13
M12
M11
M10
M09
M08
M07
M06
M05
M04
M03
M02
M01
S28
S27
S26
S25
S24
S23
S22
S21
S20
S19
S18 S17
S16
-3
-2
-1
0
1
2
3
4
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5
F1 (94.06 %)
F2
 (
5.
94
 %
)
B
M
S
 
 Novamente é constatada uma nítida separação entre os três grupos, 
estando Brazilosaurus mais próximo a Stereosternum e a indicação que os fósseis 
M01 e M13, classificados como Mesosaurus, provavelmente pertencem ao gênero 
Stereosternum. 
 
 
7.5. Exemplo com enfoque “espacial” 
No presente exemplo aplicou-se a técnica estatística multivariada da 
análise discriminante para classificar e mapear, em termos probabilísticos, as 
influências principais que teriam agido no controle da composição química de 
águas subterrâneas de uma região granitóide no centro-leste de Portugal, 
conhecida como plutonito do Fundão. 
A matriz de dados analisada é composta por 160 análises geoquímicas de 
águas subterrâneas provenientes da citada região com teores, em ml/l, de Na+, 
K+, Mg2+, Ca+2, Cl-, SO42-, NO3-, HCO3- e SiO2. (Figura 1a). Tais dados já foram 
analisados por PACHECO (1998) que utilizou a análise das correspondências para 
determinar as principais influências sobre a composição química dessas águas. 
Segundo esse estudo, que conseguiu identificar águas poluídas e não poluídas, 
 109
por regressão linear múltipla, três seriam os fatores controladores: alteração por 
intemperismo, contaminação agrícola e contaminação doméstica (Figura 1b). 
 
 
Figura 1A: Distribuição dos pontos 
 
ID Na K Mg Ca HCO3 Cl SO4 NO3 SIO2 
28 14,10 1,54 5,90 17,30 47,60 15,60 17,10 23,00 39,426 
30 15,90 1,51 5,80 18,70 51,50 17,20 22,00 28,50 38,404 
31 14,10 0,59 3,10 12,60 29,90 15,00 8,90 24,00 30,411 
32 11,30 1,19 2,40 10,40 23,80 10,00 6,20 23,00 33,536 
35 14,70 0,98 4,40 12,80 44,50 12,30 16,40 13,70 36,901 
39 9,34 0,65 2,91 5,13 37,80 8,20 6,20 13,40 15,626 
41 7,64 0,75 1,78 7,18 15,90 6,70 9,50 3,40 27,826 
42 9,11 0,32 1,38 0,30 22,60 4,60 6,10 8,60 25,302 
45 24,60 2,14 9,30 19,50 78,10 23,70 22,30 7,50 34,317 
51 18,80 1,39 6,60 26,00 47,60 17,70 22,00 11,70 6,010 
59 38,70 2,03 16,40 45,70 137,90 75,00 30,50 9,30 40,507 
60 9,96 0,50 3,03 8,67 34,20 8,80 7,60 3,90 31,492 
61 10,10 0,44 2,23 6,29 35,40 8,20 4,00 1,10 33,656 
63 16,20 2,95 7,20 24,90 14,00 28,00 35,30 61,90 23,980 
66 12,20 0,28 4,60 13,00 29,30 10,50 15,60 22,70 28,487 
67 13,60 0,36 3,10 9,42 64,20 8,60 0,20 0,01 41,108 
71 10,80 0,62 4,60 7,95 39,00 6,50 20,80 0,03 37,623 
72 7,59 0,24 0,46 0,50 14,60 5,80 2,70 0,06 28,728 
74 9,75 0,53 1,92 5,82 40,30 5,30 2,10 2,00 36,601 
75 7,22 0,30 2,51 3,50 29,30 4,90 3,00 0,03 23,980 
76 8,60 0,43 3,60 8,00 49,40 5,50 4,40 0,03 30,230 
77 18,20 0,78 4,90 16,20 51,90 19,50 11,40 16,00 29,990 
78 41,30 7,68 9,60 25,20 56,00 59,00 22,70 54,20 26,324 
79 9,37 0,43 2,71 5,45 25,00 6,40 6,00 7,50 38,103 
84 11,70 0,29 4,10 8,85 27,50 10,90 15,50 13,10 25,603 
85 9,78 0,36 2,12 6,85 36,00 6,00 4,50 5,10 36,421 
86 13,10 0,97 4,40 8,00 53,10 9,90 1,70 3,70 39,846 
87 10,80 0,08 2,21 4,92 27,50 8,60 8,50 0,05 36,841 
90 12,30 0,45 3,60 7,25 46,40 8,80 6,00 2,90 30,411 
92 10,40 0,56 2,20 5,80 35,40 6,60 5,60 0,01 33,175 
 110
96 13,60 0,45 1,80 2,90 29,30 1,90 2,80 2,00 39,185 
99 17,30 0,84 4,10 9,90 36,60 20,10 17,60 2,30 21,215 
202 19,68 1,67 10,06 28,31 14,60 46,00 62,79 52,00 37,202 
203 15,44 0,98 4,71 10,87 37,20 13,20 20,04 11,50 36,060 
204 12,13 0,45 2,73 5,05 21,50 9,00 8,28 9,80 40,387 
205 17,21 0,89 7,10 15,01 43,70 19,00 19,43 23,50 31,252 
206 16,82 0,83 3,75 8,28 28,80 24,00 13,90 2,30 36,841 
207 16,28 0,52 5,67 16,90 14,90 22,00 27,87 31,00 14,244 
208 9,95 0,45 1,78 3,51 20,00 6,40 8,23 5,70 44,474 
209 13,04 0,84 2,56 8,55 22,40 8,20 15,50 14,90 45,676 
210 8,32 0,45 1,09 3,00 23,70 6,50 3,65 5,10 37,262 
211 16,47 2,69 5,56 15,24 65,90 14,00 18,41 4,40 37,082 
212 9,14 1,06 1,69 5,19 21,80 3,00 8,29 8,90 44,474 
213 19,07 1,26 8,08 22,25 26,20 24,50 20,71 53,00 33,055 
214 12,16 0,45 2,69 9,17 13,10 7,80 21,01 12,60 41,890 
215 10,50 1,34 2,99 6,79 42,10 4,30 8,32 1,10 29,209 
216 11,91 0,53 5,35 14,25 67,90 6,70 10,90 3,30 44,414 
217 12,44 0,45 2,17 9,00 48,00 8,60 4,34 0,19 34,918 
218 13,89 3,43 7,24 52,25 182,70 17,20 10,95 11,20 34,077 
219 16,33 2,07 5,70 18,28 10,20 27,00 6,67 54,00 27,165 
220 45,26 6,06 51,90 45,33 223,0088,00 50,29 67,00 50,604 
221 11,38 0,45 2,25 5,55 29,10 7,40 6,56 0,20 34,437 
222 12,38 0,90 4,12 11,41 39,18 9,20 9,30 13,40 43,452 
223 12,18 0,45 5,24 12,33 19,90 9,00 17,80 27,00 31,853 
224 8,25 2,21 3,88 15,42 70,50 4,60 6,62 4,80 39,786 
225 9,05 0,58 1,70 6,22 22,70 4,70 10,90 3,60 36,962 
226 8,91 0,62 1,58 5,27 26,60 4,00 7,58 5,30 44,234 
227 9,41 1,05 1,91 7,42 22,40 4,40 7,42 14,00 45,676 
228 15,34 1,58 4,83 13,12 51,00 9,50 16,44 11,00 41,589 
229 20,24 1,57 3,36 9,17 34,00 19,00 7,79 12,70 35,038 
230 15,31 0,45 3,27 8,41 40,50 7,20 15,29 1,30 12,681 
231 13,62 0,58 3,05 13,19 38,20 6,30 21,54 7,70 23,980 
232 13,00 1,30 1,80 8,52 20,40 6,20 3,88 27,00 41,589 
233 28,09 3,19 14,48 46,62 42,10 28,00 24,68 180,00 45,496 
234 10,19 0,45 2,14 8,60 26,40 5,60 13,34 8,20 42,731 
235 10,88 0,98 1,04 5,87 31,90 5,50 3,37 4,00 31,853 
236 29,10 2,88 12,08 47,66 36,70 48,00 54,95 86,00 12,561 
237 9,83 0,48 1,78 6,16 24,40 4,20 4,62 15,40 36,781 
238 9,27 0,45 1,62 4,34 26,70 5,00 6,51 4,20 20,434 
239 14,54 2,40 5,25 15,69 36,60 11,50 13,16 31,00 20,374 
241 5,89 0,48 0,79 1,63 14,10 2,80 1,16 3,80 21,155 
242 4,95 0,45 0,21 0,88 8,30 2,30 0,47 4,40 26,745 
243 25,23 4,27 11,67 30,53 93,30 31,00 24,74 27,00 48,801 
244 15,10 0,71 2,51 10,18 19,70 9,40 16,13 15,50 32,093 
245 12,32 1,12 3,66 10,59 42,20 11,00 8,32 8,10 27,886 
246 11,34 0,45 2,38 6,81 34,40 4,50 7,27 8,10 41,409 
247 13,65 0,53 3,00 10,75 27,70 10,00 17,86 10,30 31,492 
248 15,08 0,95 4,70 13,89 32,10 6,90 18,43 31,00 31,492 
249 9,61 0,47 1,99 3,45 24,90 3,80 8,16 3,20 34,918 
250 16,36 1,20 3,93 4,97 11,40 9,50 13,38 20,10 29,269 
251 7,27 0,61 0,37 0,95 12,40 3,30 0,72 2,20 42,611 
252 6,52 0,45 0,28 0,92 7,80 3,70 0,31 4,10 43,813 
 111
253 8,18 0,45 0,58 1,23 15,20 3,20 3,17 3,80 52,588 
254 7,94 0,63 1,66 1,78 18,00 4,10 3,59 1,80 50,364 
255 8,81 0,45 1,58 1,86 17,90 4,40 3,45 4,10 34,197 
256 8,86 0,45 0,90 1,26 14,40 4,60 3,63 2,20 26,564 
257 10,90 0,45 1,73 2,39 14,80 5,10 4,77 8,70 53,309 
258 4,23 0,45 0,28 0,57 3,60 3,40 0,45 4,10 32,935 
259 14,61 1,15 5,05 9,38 44,10 9,30 8,32 11,80 46,517 
260 11,07 0,47 2,44 5,59 39,50 5,00 3,00 2,70 45,195 
261 27,08 3,63 7,10 20,66 41,20 33,00 17,55 28,00 34,137 
262 53,18 4,42 16,79 50,18 63,90 118,00 35,98 94,00 40,267 
263 42,46 3,64 25,22 73,07 105,00 112,00 69,64 77,00 21,997 
264 12,62 0,61 2,73 10,08 27,50 11,80 9,80 15,50 29,870 
265 9,37 0,45 1,42 3,60 34,60 5,40 2,07 0,54 36,060 
266 25,82 1,40 14,06 40,70 32,50 46,00 85,68 33,00 51,686 
267 21,57 1,81 7,07 13,11 78,00 20,00 5,41 11,30 40,808 
268 17,02 1,06 5,55 15,09 32,10 18,70 21,10 17,50 33,295 
269 89,44 7,53 20,71 71,74 53,50 240,00 53,67 65,00 44,594 
270 23,37 2,15 19,18 34,25 71,30 47,00 32,44 45,00 36,300 
271 11,06 0,46 1,73 5,14 27,40 7,60 2,39 8,60 34,137 
272 8,39 1,03 2,04 5,05 22,40 9,20 0,57 11,60 25,903 
273 8,26 0,76 1,55 5,76 39,80 5,80 1,16 0,24 22,538 
274 11,31 0,45 2,59 4,21 28,70 10,80 5,02 9,30 48,441 
275 9,59 1,02 2,13 4,29 31,50 10,00 1,21 6,50 16,828 
276 12,58 0,57 3,24 8,92 32,40 17,00 3,40 10,90 30,952 
277 10,27 1,90 3,43 7,64 37,00 12,80 5,71 7,00 30,891 
278 8,25 0,45 1,30 3,00 22,90 7,20 1,76 7,00 24,942 
279 15,88 0,86 3,79 8,47 42,00 21,00 6,42 7,30 40,808 
280 6,24 1,67 1,04 3,59 26,50 5,40 1,09 0,80 13,703 
402 3,79 0,92 0,60 1,35 9,16 4,06 0,67 1,37 34,437 
404 6,11 0,95 1,04 4,21 18,81 6,68 0,92 2,00 26,444 
406 22,68 1,27 3,05 7,78 52,05 22,10 7,23 3,73 39,486 
407 26,49 2,60 10,70 27,06 126,96 26,40 19,19 6,60 29,149 
408 9,88 1,33 4,34 3,05 33,60 9,50 6,72 7,00 26,504 
410 6,67 1,04 1,88 1,87 16,61 3,79 1,20 4,59 29,389 
411 4,06 1,88 2,94 3,01 13,06 7,05 4,45 1,85 28,487 
415 10,69 0,22 2,77 1,69 28,66 8,66 1,66 0,48 31,973 
420 7,19 0,58 1,28 4,34 23,82 7,42 2,23 0,85 37,623 
421 7,30 1,19 1,68 3,88 21,51 6,68 2,15 1,43 35,279 
423 5,54 0,69 2,22 1,16 15,98 3,11 1,53 1,81 36,240 
424 10,77 1,01 1,86 4,75 22,27 8,21 3,79 5,05 24,341 
425 8,62 1,26 2,77 7,33 49,98 3,22 0,99 0,69 26,264 
427 8,15 1,49 1,47 4,04 26,41 5,75 0,46 1,85 33,896 
430 14,84 1,15 2,12 12,07 44,22 8,55 15,57 2,10 39,666 
432 8,46 1,54 1,00 2,28 20,61 5,70 0,91 1,58 39,305 
433 7,51 0,44 1,42 2,54 17,06 3,78 3,92 1,48 38,164 
434 5,50 1,20 1,16 2,07 17,84 2,80 0,78 0,82 27,947 
435 6,75 1,48 0,93 2,69 25,69 2,27 0,47 0,34 15,866 
438 10,44 1,72 1,62 2,28 26,22 5,40 2,90 1,84 31,372 
439 10,30 2,15 1,60 6,30 43,58 4,55 1,21 0,01 38,103 
440 9,16 1,40 1,63 5,35 38,80 4,50 2,80 0,44 29,149 
441 10,85 1,85 3,09 9,48 58,36 5,89 3,21 0,48 24,701 
442 15,64 2,26 3,99 11,30 37,05 29,50 2,41 4,68 28,367 
 112
443 10,93 1,75 3,74 5,86 33,50 13,40 3,15 2,06 32,755 
444 6,92 1,50 2,28 2,39 21,43 5,58 1,29 2,22 34,918 
446 11,23 1,34 2,44 6,84 39,70 9,05 1,32 2,05 45,075 
447 16,26 2,81 4,96 14,94 59,42 18,90 9,08 6,63 40,027 
452 15,39 1,96 4,74 13,26 51,11 12,00 16,85 6,52 32,815 
453 13,97 1,42 4,73 10,14 68,55 9,77 4,40 1,03 30,531 
457 7,00 1,42 1,50 5,82 34,53 3,28 0,14 0,09 44,775 
458 7,60 1,35 1,59 5,90 32,10 6,92 0,88 1,35 41,289 
463 7,21 1,45 1,70 3,27 14,07 8,54 3,22 1,94 40,267 
514 8,54 1,23 2,31 7,51 34,03 5,70 6,37 1,70 40,147 
522 10,16 1,17 5,79 11,77 70,13 6,41 4,55 1,99 35,219 
523 13,79 1,51 2,82 11,29 39,67 10,70 14,35 2,13 12,441 
524 13,24 2,46 3,46 11,74 56,04 8,80 10,96 1,28 32,154 
525 9,20 1,82 2,07 5,68 30,68 4,45 6,63 3,00 33,536 
530 15,39 1,44 4,03 12,62 39,24 16,10 17,11 3,82 30,891 
534 10,84 1,39 2,28 6,01 18,90 9,81 7,78 6,20 26,745 
535 12,61 4,42 5,89 16,19 38,13 25,70 13,72 6,50 46,638 
536 8,51 1,61 2,38 10,16 32,29 8,36 5,31 2,58 28,608 
539 13,01 1,98 2,40 11,55 36,62 24,30 10,87 9,30 36,541 
540 7,33 3,29 2,97 7,41 31,72 7,94 2,22 3,92 31,192 
573 4,08 1,35 0,68 1,17 5,84 6,93 0,97 1,20 31,973 
574 14,58 3,13 5,35 9,66 39,80 32,40 9,08 1,79 24,942 
575 13,70 3,17 5,36 8,97 53,42 15,10 12,53 1,85 33,656 
583 20,25 6,46 17,71 18,09 18,60 83,30 12,90 17,60 34,798 
589 6,94 3,42 2,91 5,82 30,60 7,26 1,85 1,48 28,067 
591 10,34 5,22 4,38 11,39 34,92 14,60 20,06 1,22 24,881 
 
 
 
 
Figura 1B. Distribuição das águas (Pacheco,1998) 
 
Inicialmente aplicou-se uma análise de agrupamentos aos dados. O 
método utilizado foi o do agrupamento hierárquico e o coeficiente de similaridade 
adotado, para o procedimento aglomerativo, foi o de Ward, que se baseia no 
agrupamento pela variância mínima, onde o enfoque é sobre a variabilidade que 
 113
existe dentro de cada caso e os agrupamentos são efetuados ao se determinar 
que pares de casos, quando tomados em conjunto, apresentam o menor 
acréscimo de variabilidade. 
Depois de obtido o dendrograma resultante e verificada a presença de grupos, os 
mesmos foram submetidos á análise discriminante multigrupos. 
 A análise de agrupamentos revelou três grupos, que foram interpretados de 
acordo com o trabalho de Pacheco (1998), como águas não poluídas em que a 
composição é influenciada fundamentalmente pela alteração das rochas e águas 
poluídas, seja por efluentes domésticos seja por contaminação de defensivos 
agrícolas. Os mapas de probabilidade de distribuição de cada um desses grupos 
são mostrados nas Figuras 2, 3 e 4. 
 
ID X Y Antes Depois Prob. 1 Prob. 2 Prob. 3 
28 176 127 3 3 0,0010 0,1568 0,8423 
30 181 129 3 3 0,0064 0,0739 0,9197 
31 166 110 3 3 0,0000 0,4718 0,5282 
32 165 118 3 2 0,0000 0,5723 0,4277 
35 144 76 3 3 0,0000 0,1882 0,8118 
39 148 149 2 2 0,0000 0,8024 0,1976 
41 124 160 2 2 0,0000 0,7116 0,2884 
42 145 180 2 2 0,0000 0,8757 0,1243 
45 202 261 3 3 0,0001 0,0048 0,9952 
51 172 272 3 3 0,0044 0,0025 0,9931 
59 138 259 1 1 0,9816 0,0000 0,0183 
60 176 227 2 2 0,0000 0,7081 0,2919 
61 190 235 2 2 0,0000 0,8250 0,1750 
63 180 110 1 1 0,9994 0,0000 0,0006 
66 118 122 3 3 0,0001 0,3237 0,6762 
67 123 116 3 2 0,0000 0,7202 0,2798 
71 88 109 3 3 0,0000 0,3304 0,6696 
72 85 100 2 2 0,0000 0,94200,0580 
74 71 105 2 2 0,0000 0,8354 0,1646 
75 65 95 2 2 0,0000 0,9037 0,0963 
76 66 85 2 2 0,0000 0,8034 0,1966 
77 131 77 3 3 0,0000 0,1627 0,8373 
78 115 71 1 1 0,7772 0,0000 0,2228 
79 94 74 2 2 0,0000 0,8261 0,1739 
84 120 106 3 3 0,0000 0,4717 0,5283 
85 118 101 2 2 0,0000 0,8069 0,1931 
86 216 113 2 2 0,0000 0,6880 0,3120 
87 253 106 2 2 0,0000 0,7997 0,2003 
90 285 172 2 2 0,0000 0,6511 0,3489 
92 301 208 2 2 0,0000 0,7391 0,2609 
96 312 165 2 2 0,0000 0,5397 0,4603 
99 333 158 3 3 0,0000 0,1760 0,8240 
 114
202 78 159 1 1 1,0000 0,0000 0,0000 
203 79 175 3 3 0,0000 0,1431 0,8569 
204 127 210 2 2 0,0000 0,7142 0,2858 
205 146 217 3 3 0,0004 0,1199 0,8797 
206 103 195 3 2 0,0000 0,5316 0,4684 
207 85 151 1 3 0,0225 0,0560 0,9215 
208 92 167 2 2 0,0000 0,8307 0,1693 
209 86 127 2 3 0,0000 0,3400 0,6600 
210 84 112 2 2 0,0000 0,9244 0,0756 
211 124 188 3 3 0,0000 0,0338 0,9661 
212 128 174 2 2 0,0000 0,6864 0,3136 
213 150 197 1 3 0,3824 0,0278 0,5898 
214 140 150 3 3 0,0000 0,2567 0,7433 
215 150 155 2 3 0,0000 0,4375 0,5625 
216 80 74 3 3 0,0000 0,3907 0,6093 
217 110 86 2 2 0,0000 0,6413 0,3587 
218 130 123 1 1 0,9990 0,0000 0,0010 
219 77 146 1 3 0,0920 0,2899 0,6181 
220 170 277 1 1 1,0000 0,0000 0,0000 
221 200 228 2 2 0,0000 0,6867 0,3133 
222 174 231 3 3 0,0000 0,4628 0,5372 
223 163 214 3 3 0,0001 0,2396 0,7602 
224 173 188 3 3 0,0000 0,3964 0,6036 
225 166 172 2 2 0,0000 0,6628 0,3372 
226 178 175 2 2 0,0000 0,7953 0,2047 
227 186 184 2 2 0,0000 0,6796 0,3204 
228 145 80 3 3 0,0000 0,0861 0,9139 
229 236 64 3 3 0,0000 0,1647 0,8353 
230 288 86 3 3 0,0000 0,0941 0,9059 
231 221 83 3 3 0,0000 0,0587 0,9413 
232 203 111 3 3 0,0000 0,4669 0,5331 
233 200 129 1 1 1,0000 0,0000 0,0000 
234 173 153 2 2 0,0000 0,5552 0,4448 
235 227 214 2 2 0,0000 0,6580 0,3420 
236 234 218 1 1 1,0000 0,0000 0,0000 
237 212 192 2 2 0,0000 0,7681 0,2319 
238 220 198 2 2 0,0000 0,7317 0,2683 
239 209 164 3 3 0,0022 0,0485 0,9493 
241 364 221 2 2 0,0000 0,9266 0,0734 
242 351 230 2 2 0,0000 0,9561 0,0439 
243 190 282 3 3 0,3443 0,0007 0,6550 
244 240 182 3 3 0,0000 0,1351 0,8649 
245 213 150 2 3 0,0000 0,4307 0,5693 
246 205 197 2 2 0,0000 0,6353 0,3647 
247 214 221 3 3 0,0000 0,1975 0,8025 
248 90 181 3 3 0,0002 0,0590 0,9409 
249 41 100 2 2 0,0000 0,7433 0,2567 
250 317 233 3 3 0,0000 0,1519 0,8481 
251 325 226 2 2 0,0000 0,9426 0,0574 
252 332 211 2 2 0,0000 0,9627 0,0373 
253 342 192 2 2 0,0000 0,9365 0,0635 
254 358 173 2 2 0,0000 0,9277 0,0723 
 115
255 361 173 2 2 0,0000 0,8793 0,1207 
256 347 191 2 2 0,0000 0,8568 0,1432 
257 342 185 2 2 0,0000 0,8555 0,1445 
258 335 187 2 2 0,0000 0,9743 0,0257 
259 314 125 3 3 0,0000 0,3669 0,6331 
260 227 114 2 2 0,0000 0,7956 0,2044 
261 248 129 3 3 0,0010 0,0034 0,9956 
262 245 132 1 1 1,0000 0,0000 0,0000 
263 247 138 1 1 1,0000 0,0000 0,0000 
264 242 151 3 2 0,0000 0,5070 0,4930 
265 244 145 2 2 0,0000 0,8875 0,1125 
266 244 160 1 1 1,0000 0,0000 0,0000 
267 257 155 3 3 0,0000 0,1425 0,8575 
268 259 166 3 3 0,0001 0,0810 0,9189 
269 253 133 1 1 1,0000 0,0000 0,0000 
270 275 150 1 1 0,9998 0,0000 0,0002 
271 294 141 2 2 0,0000 0,8174 0,1826 
272 277 124 2 2 0,0000 0,8959 0,1041 
273 155 64 2 2 0,0000 0,8458 0,1542 
274 242 91 2 2 0,0000 0,9042 0,0958 
275 253 82 2 2 0,0000 0,8486 0,1514 
276 265 70 3 2 0,0000 0,8280 0,1720 
277 269 90 2 2 0,0000 0,7042 0,2958 
278 300 79 2 2 0,0000 0,9198 0,0802 
279 316 91 3 2 0,0000 0,7384 0,2616 
280 347 42 2 2 0,0000 0,8371 0,1629 
402 262 28 2 2 0,0000 0,9708 0,0292 
404 272 31 2 2 0,0000 0,9257 0,0743 
406 195 292 3 3 0,0000 0,2247 0,7753 
407 210 286 1 3 0,0022 0,0020 0,9958 
408 275 274 2 2 0,0000 0,7874 0,2126 
410 377 141 2 2 0,0000 0,9054 0,0946 
411 396 118 2 2 0,0000 0,9186 0,0814 
415 34 182 2 2 0,0000 0,9089 0,0911 
420 207 43 2 2 0,0000 0,9406 0,0594 
421 240 40 2 2 0,0000 0,8983 0,1017 
423 370 137 2 2 0,0000 0,9515 0,0485 
424 318 53 2 2 0,0000 0,6925 0,3075 
425 318 47 2 2 0,0000 0,7043 0,2957 
427 348 54 2 2 0,0000 0,8498 0,1502 
430 36 216 3 3 0,0000 0,1157 0,8843 
432 375 96 2 2 0,0000 0,8714 0,1286 
433 369 83 2 2 0,0000 0,9048 0,0952 
434 380 86 2 2 0,0000 0,9127 0,0873 
435 371 69 2 2 0,0000 0,7969 0,2031 
438 245 281 2 2 0,0000 0,6787 0,3213 
439 179 58 2 2 0,0000 0,5852 0,4148 
440 191 51 2 2 0,0000 0,7089 0,2911 
441 264 53 2 3 0,0000 0,4168 0,5832 
442 317 78 3 2 0,0000 0,6954 0,3046 
443 348 141 2 2 0,0000 0,7716 0,2284 
444 348 111 2 2 0,0000 0,9026 0,0974 
 116
446 259 135 2 2 0,0000 0,7797 0,2203 
447 247 114 3 3 0,0000 0,1484 0,8516 
452 148 81 3 3 0,0000 0,0652 0,9348 
453 118 141 3 3 0,0000 0,3854 0,6146 
457 92 34 2 2 0,0000 0,8775 0,1225 
458 230 57 2 2 0,0000 0,8956 0,1044 
463 43 27 2 2 0,0000 0,9131 0,0869 
514 208 188 2 2 0,0000 0,7251 0,2749 
522 182 195 3 2 0,0000 0,5856 0,4144 
523 150 118 3 3 0,0000 0,0925 0,9075 
524 154 158 3 3 0,0000 0,1234 0,8766 
525 123 177 2 2 0,0000 0,5592 0,4408 
530 248 119 3 3 0,0000 0,1284 0,8716 
534 287 105 2 2 0,0000 0,5617 0,4383 
535 294 82 3 3 0,0004 0,2040 0,7955 
536 239 65 2 2 0,0000 0,6054 0,3946 
539 287 156 3 2 0,0000 0,6878 0,3122 
540 258 133 2 2 0,0000 0,6095 0,3905 
573 338 181 2 2 0,0000 0,9683 0,0317 
574 317 190 3 2 0,0000 0,6411 0,3589 
575 325 164 3 3 0,0000 0,1974 0,8026 
583 43 241 1 1 0,8732 0,1114 0,0154 
589 253 82 2 2 0,0000 0,6287 0,3713 
591 85 227 3 3 0,0003 0,0374 0,9623 
 
 
 
 
Figura 2: Probabilidades de distribuição das águas com composição química controlada 
por fertilizantes agrícolas 
 
 
 
 
 
 117
 
Figura 3: Probabilidades de distribuição das águas com composição química controlada 
por intemperismo 
 
 
 
Figura 4: Probabilidades de distribuição das águas com composição química controlada 
por efluentes domésticos 
 
Os resultados condizem perfeitamente com os apresentados por PACHECO 
(1998), que utilizou de um enfoque diferente deste. Pelo exposto verifica-se o 
potencial de aplicação da análise discriminante em dados multivariados 
georreferenciados. É importante ressaltar que a possibilidade de sucesso ao 
aplicar tal metodologia reside no fato que antes da aplicação dessa análise os 
grupos já devem ser previamente conhecidos, seja por manipulação matemática, 
como no presente caso, seja por um conhecimento “a priori”, que pode incluir, 
inclusive, dados qualitativos (soft data). 
 
 
 118
 
REFERÊNCIAS BIBLIOGRÁFICAS 
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2th ed., John Wiley and Sons, Inc. 
 
PACHECO, F. A. L. (1998) – Application of Correspondence Analysis in the Assessment of 
Groundwater Chemistry: Mathematical Geology, 30(2):129-161 
RAO, C.R. (1952) - Advanced statistical methods in biometric research: John Wiley and Sons. 
 
 119
8. CLASSIFICAÇÃO REGIONALIZADA 
Uma das mais importantes tarefas em Geologia é resolver problemas por 
medição de atributos regionalizados. Os resultados podem, então, serem usados 
para a formulação de hipóteses de trabalho que procurarão explicar os processos 
que levaram à formação do fenômeno em estudo. Como os processos geológicos 
são bastante complexos e a amostragem geralmente não é suficiente, a 
simplificação da realidade se impõe por meio de modelos. Classificação 
regionalizada de espécimes em grupos é um desses modelos simplificadores, 
segundo o qual os resultados de uma análise discriminante podem ser 
transferidos do espaço multidimensional teórico para o espaço geográfico real. 
Na Classificação Regionalizada procura-se, portanto, atribuir, em termos 
probabilísticos, amostras multivariadas e georreferenciadas à grupos previamente 
determinados. Assim o primeiro, e fundamental, passo é a definição dos grupos o 
que pode ser feito por uma manipulação matemática usando, por exemplo, 
análise de agrupamentosou por um conhecimento específico “a priori”. Definido 
os grupos, as amostras serão submetidas a uma análise discriminante 
multigrupos e com o auxílio de medidas, como a distância generalizada de 
Mahalanobis, verificar a respectiva atribuição para os grupos considerados. 
De acordo com OLEA (1999) não há nada de novo em termos conceituais 
na Classificação Regionalizada. A novidade é a junção de diversas técnicas 
estatísticas multivariadas e geoestatísticas para a construção de um modelo 
geológico. HARFF & DAVIS (1990) publicaram a primeira formulação do método 
combinando elementos geoestatísticos com idéias provenientes de VORONIN 
(1967), RODIONOV (1981) e KOGAN (1986). 
Em BOHLING (1997), alem de um programa para o cálculo da Classificação 
Regionalizada, são apresentadas diversas alternativas para a implementação do 
método. 
Neste texto será adotado o enfoque apresentado por PACHECO & LANDIM 
(2005). Segundo esses Autores os principais problemas associados a esta 
metodologia são: a) a interpretação geológica dos grupos e se os mesmos são 
espacialmente autocorrelacionados ou não, pois os algoritmos convencionais para 
análise de agrupamentos acabam por definir os “k” grupos encontrados de 
maneira subjetiva; e b) a atribuição de amostras que não apresentam 
probabilidades bem definidas de pertencer a um determinado grupo. 
 120
 Para a definição inicial dos “k” grupos foi proposta um agrupamento 
natural, baseado na análise das correspondências, sendo os grupos 
interpretados em termos de processos e/ou fontes controladores (PACHECO, 
1998a). Para identificar as amostras hibridas com mais precisão foi proposta uma 
Classificação Regionalizada baseada no agrupamento natural (denominada 
primeiro modo) combinada com outra Classificação Regionalizada baseada na 
análise de agrupamentos clássica, com o método de Ward como critério de 
agrupamento, e subsequente otimização pela análise discriminante (denominada 
segundo modo). Escolhendo duas diferentes metodologias para separar os 
grupos espera-se que as amostras que forem mantidas nos mesmos grupos, 
independentemente do método, estejam realmente bem classificadas dentro de 
um certo espaço geográfico. Aquelas, porem, que mudarem de grupo, conforme o 
método aplicado, são consideradas como pertencentes a regiões hibridas. 
 Um fluxograma desse enfoque para a Classificação Regionalizada a dois 
modos é apresentada a seguir: 
 
Regionalized multivariate dataset
Sub-optimal non-natural clustering
based on k
Sub-optimal
Natural clustering
Confusion matrix
Discriminant
analysis
Optimal
clustering
Second-way regionalized classification First-way regionalized classification
Node analysis
Combined regionalized classification
Number of groups
(k)
Optional
 
 Como os dados são geo-referenciados o produto de ambas as 
Classificações Regionalizadas originam arranjos reticulares regulares com o 
auxilio de algoritmos estimadores como a krigagem. Nos nós desses retículos 
estarão distribuídos espacialmente as amostras identificadas pelos agrupamentos 
encontrados. Desse modo pela comparação entre ambos os retículos 
encontrados faz-se uma análise dos nós. Havendo coincidência de identificação 
 121
as amostras permanecem no grupo em questão. Caso contrario passam a 
pertencer a um grupo hibrido, ou de transição entre grupos bem caracterizados. 
 Como exemplo de aplicação foi utilizada a matriz de dados composta por 
160 análises geoquímicas de águas subterrâneas, provenientes da região do 
plutonito de Fundão (Portugal), com teores, em ml/l, de Na+, K+, Mg2+, Ca+2, Cl-, 
SO42-, NO3-, HCO3- e SiO2 (pacheco, 1998b) e já apresentadas no capítulo 
anterior sobre Análise Discriminante. 
 
 
 
 
 
 
A Análise das Correspondências, otimizada pela Análise Discriminante 
revelou tres agrupamentos naturais com geoquimismo controlado por: 
intemperismo; efluentes domésticos e fertilizantes. 
 
 
 
 
 
 
 
 122
 
 
N
248000 250000 252000 254000 256000 258000 260000 262000
350000
352000
354000
356000
358000
360000
0
0.9
1.8
2.7
CA group (influence)
3 (farmland fertilizers)
2 (domestic effluents)
1 (weathering)
 
 
A Análise de Agrupamentos, também otimizada pela Análise Discriminante, 
apresentou uma distribuição alternativa dessas mesmas amostras, também em 
três grupos. 
 
248000 250000 252000 254000 256000 258000 260000 262000
350000
352000
354000
356000
358000
360000
0
0.9
1.8
2.7
B (farmland fertilizers)
C (domestic effluents)
A (weathering)
N
ClA group (influence)
 
 
 
Empregando a análise dos nós dos retículos, ou seja, combinando essas 
duas figuras anteriores obteve-se o mapa final. O recadastramento dos nós foram 
obtidos da seguinte maneira: 1) quando os nós da Classificação 
Regionalizada/primeiro modo apresentaram os mesmos valores (1, 2 e 3, 
indicando os grupos 1/A, 2/C e 3/B) que os da Classificação 
 123
Regionalizada/segundo modo esses valores foram mantidos; 2) quando o valor 3 
não coincidia, recebia o valor 4 e passou a ser interpretado como mistura entre 
fertilizante e outras influências; 3) em todos os outros casos o valor passou a 0 e 
interpretado como mistura de intemperismo e efluentes domésticos. 
 A B C Total w%-Poluição w%-Agricultura 
1 88 0 36 124 29.0 35.6 
2 1 7 5 13 74.2 36.1 
3 12 5 6 23 63.3 64.4 
Total 101 12 47 160 
w%-Poluição 30.5 78.4 40.8 
w%-Agricultura 37.5 56.7 38.7 
 
 
248000 250000 252000 254000 256000 258000 260000 262000
350000
352000
354000
356000
358000
360000
Fundão
Souto da Casa
Telhado
Alcaria
Alcaide
Fatela
ValverdeCarvalhal
Joanes
Cabo
Code and Influence
Agriculture
Effluents
Weathering
Mixing between 
agriculture and 
the other 
influences
Mixing between 
weathering 
and effluents
N
4
3
2
1
0
 
 124
 
 
BIBLIOGRAFIA 
BOHLING, G. C. , 1997, GSLIB-Style Progrms for Discriminant Analysis and Regionalized 
Classification: Computers & Geosciences, 23, no. 7, p.739-761 
 
HARFF, J. & DAVIS, J.C., 1990, Regionalization in geology by multivariate classification: 
Mathematical Geology, v. 22, no. 5, p. 577-588. 
 
KOGAN, R.I., 1986, Interval’nye ocenki v Geologicheskich Issledovanijach: Nedra Prss, 
Moscow, 335 pp. 
 
OLEA, R.A., 1999, Geostatistics for engineers and earth scientists: Kluwer Academic 
Publishers, chapter 14. 
 
PACHECO, F.A.L., 1998a, Finding the number of natural clusters in groundwater data 
sets using the concept of equivalence class: Computers & Geosciences, v. 24, no. 1, p. 7-
15. 
 
PACHECO, F.A.L., 1998b, Application of correspondence analysis in the assessment of 
groundwater chemistry: Mathematical Geology, v. 30, no. 2, p. 129-161. 
 
PACHECO, F.A.L. & LANDIM, P.M.B. ,2005, Two-Way Regionalized Classification of 
Multivariate Datasets and its Application to the Assessment of Hydrodynamic Dispersion: 
Mathematical Geology, v.37, no. 4, p. 393-417 
 
RODIONOV, D.A., (1981), Statisticheskie Rezhenija v Geologii: Nedra Press, Moscow, 
231 pp. 
 
VORONIN, J.A. ,1967, Geologija I Matematika: Nauka Press, Novosibirsk, 253 pp. 
 
WARD, J.H., 1963, Hierarchical grouping to optimize an objective function: Journal of the 
American Statistical Association, v. 58, p. 238-244. 
 
 
 
 
 125
9. GEOESTATÍSTICA MULTIVARIADA 
 
9.1. INTRODUÇÃO 
 O termo “geoestatística” significa o estudo das chamadas variáveis 
regionalizadas, ou seja, variáveis com condicionamento espacial (MATHERON 1962, 
1963). Em CHILÉS & DELFINER (1999) é apresentada uma revisão histórica sobre a 
Geoestatística com umasíntese sobre o desenvolvimento de suas ferramentas. 
A estimativa de reservas sempre se constituiu parte fundamental do 
planejamento mineiro. O conhecimento geológico que se tenha a respeito do bem 
mineral a ser explorado, as eficientes instalações na boca da mina, os detalhes 
precisos sobre a commoditie em questão são variáveis importantes, mas o que vai 
decidir se o empreendimento será lucrativo ou não, dentro de um intervalo de 
tempo considerado, é a reserva medida com precisão. 
No planejamento mineiro tal estimativa é realizada por meio de blocos onde 
as reservas mineráveis são amalgamadas para produzir reservas globais e curvas 
de teor/tonelagem. O processo todo, e para cada bloco, é baseado na coleta de 
amostras pontuais, ou seja, com volumes menores que os blocos. As amostras, 
com teores conhecidos, é que irão estimar o teor médio dos blocos, a duas ou a 
três dimensões. 
Seja, por exemplo, um bloco a ser estimado a partir de 5 amostras: 
 
Supondo que ocorra uma relação espacial entre os teores, ou seja, os 
valores serão muito próximos em dois pontos vizinhos e progressivamente mais 
diferentes à medida que os pontos vão ficando mais distantes, é intuitivo esperar 
que o teor da amostra 3 seja similar, porem não necessariamente idêntico, ao teor 
médio do bloco. Pode-se esperar que as amostras 1, 4 e 5 também apresentem 
teores similares ao valor médio do bloco, mas não tanto como o teor em 3. 
 126
Finalmente, com relação à amostra 2, situada mais distante, seria necessário um 
conhecimento melhor sobre a disposição espacial de valores no depósito para 
decidir se ela tem, ou não, relação com o valor médio do bloco. Em outras 
palavras, amostras situadas perto do bloco deverão apresentar teores altamente 
relacionados com ele e poderão, portanto, serem utilizadas para estimar o seu 
valor médio, e à medida que se situem a distâncias maiores o seu relacionamento 
diminui até se tornar independente. O peso da influência de cada amostra é, pois, 
inversamente correspondente à distância e essa noção pode ser aplicada para a 
estimativa do valor médio do bloco utilizando para tanto amostras com valores 
conhecidos, mas situadas a distancias julgadas “convenientes”. Quanto mais 
próximas estiverem maior será o seu peso no processo de estimativa. 
Nesta estimativa surgem, evidentemente, algumas questões: Até que 
distâncias devem ser consideradas as amostras? Quantas devem ser usadas? 
Aquela eventualmente colocada no centro do bloco terá um peso maior que as 
demais? Se amostras formarem grupos, qual a influência desses agrupamentos? 
Como evitar que os resultados sejam sub ou super estimados? A relação 
espacial, em termos geométricos, entre as amostras estimadoras e o bloco a ser 
estimado, tem importância? Essa técnica de estimativa pode ser utilizada 
indistintamente para depósitos do tipo cobre porfirítico, lateritas niquelíferas, veios 
de cassiterita, depósitos de urânio e outros? 
Para responder a essas questões é que surgiu a geoestatística, a 
preocupar-se com o entendimento, por meio de análise matemática, da gênese e 
leis naturais que governam fenômenos interpretados como regionais. Isso traz 
como conseqüência direta a estimativa das variáveis regionais usando 
informações e relações a partir de um conjunto discreto de amostras, juntamente 
com a avaliação dos erros de estimativa, para estabelecer o grau de segurança 
em previsões e os padrões ótimos de amostragem, que assegure que um erro 
máximo de estimativa não seja excedido. 
Inicialmente a aplicação era apenas para situações em geologia mineira na 
lavra e prospecção e, como exemplos, podem ser citados o livro clássico sobre o 
assunto de JOURNEL & HUIJBREGTS (1978) e as obras em português de VALENTE 
(1982) e YAMAMOTO (2001). Posteriormente se estendeu para outros campos, 
especialmente nesses últimos anos, com aplicação em agricultura de precisão, 
cartografia, climatologia, geologia ambiental, geotecnia, hidrogeologia, pedologia, 
 127
entre outros. Praticamente todas as ultimas versões de softwares para Confecção 
de Mapas ou Sistemas de Informações Georreferenciadas apresentam métodos 
geoestatísticos. 
Atualmente o termo Geoestatística acha-se consagrado como um tópico 
especial da estatística aplicada que trata de problemas referentes às variáveis 
regionalizadas, as quais têm um comportamento espacial mostrando 
características intermediárias entre as variáveis verdadeiramente aleatórias e as 
totalmente determinísticas. Nesse sentido pode-se afirmar que tal metodologia 
representa a grande contribuição da Geologia para a Estatística Aplicada. 
 As variáveis regionalizadas são constituídas por um duplo aspecto 
contraditório. Pela sua característica “aleatória” apresenta irregularidades e 
variação imprevisível de um ponto para outro e pela sua característica “estrutural” 
apresenta relações existentes entre os pontos no espaço motivadas pela sua 
gênese. Em outras palavras: é impossível prever com exatidão o teor do minério 
num determinado ponto da jazida (aspécto aleatório), mas é provável que se 
encontre minério rico perto de minério rico (aspecto estrutural). No estudo do 
comportamento das variáveis regionalizadas duas são as ferramentas 
fundamentais dos métodos geoestatísticos: o semivariograma e a krigagem. 
 
9.1.1.Semivariograma 
Seja uma variável regionalizada x(i) coletada em diversos pontos i 
regularmente distribuídos por certa região. O valor de cada ponto está relacionado 
de algum modo com valores obtidos a partir de pontos situados a certa distância, 
sendo razoável pensar que a influência é tanto maior quanto menor for a distância 
entre os pontos. 
Para expressar essa relação é definido o vetor de distância ∆
→
h , o qual tem 
uma orientação específica. O grau de relação entre pontos numa certa direção 
pode ser expresso pela covariância e, embora a covariância exista entre todas as 
distâncias possíveis ao longo de h, pode ser estipulado que somente sejam 
considerados valores entre pontos regularmente espaçados por múltiplos inteiros 
de ∆h. 
 A covariância entre valores encontrados nessas distâncias separadas por 
∆h ao longo de h é 
 128
( ) ( ) ∑ −=∆= + 2hii mxxn1hChC 
onde m é a média da variável regionalizada x(i). 
 Isso significa que a covariância é igual à média dos produtos-cruzados dos 
valores x(i) encontrados nos pontos i pelos valores x(i+h) nos pontos i+h, 
distantes a um intervalo ∆h, subtraídos do quadrado da média da variável 
regionalizada x(i); e n representa o número de pares de valores comparados. 
Como a covariância depende do tamanho do vetor h, se h=0, C(h) passará a 
representar a variância, representada por C(0). 
( ) [ ] [ ] [ ]XVarXEXE0C 22 =−= 
 
 Desse modo, pode-se calcular uma função, denominada semivariância, 
definida como metade da variância das diferenças. 
( ) ( ) ( )∑ −=γ=γ + 2ihi xxn21hhr 
 
Lembrando que [ ] [ ] [ ]22 XEXEXVar −= pode-se representar γ(h) por: 
( ) ( ) ( ) 22
2
1
2
1


 −−

 −= ∑∑ ++ ihiihi xxnxxnhγ 
Como a média da variável regionalizada x(i) é também a média da variável 
regionalizada x(i+h), pois se trata da mesma variável, apenas tomadas em lugares 
i e em i+h, tem-se que: 
( ) 0
2
1 2 =

 −∑ + ihi xxn e desenvolvendo o 1o termo: 
 
( ) ( )hCmx
n
x
n
xx
n
x
n
h iiihihi −−=+−= ∑∑∑ ++ 2222 12121221γ 
e isso significa que γ(h) = C(0) - C(h) 
 Em outras palavras, o vetor ∆h apresentando-se infinitamente pequeno faz 
com que a variância seja mínima e a covariância máxima. Haverá um valor ∆h 
para o qual ambas podem apresentar valores aproximadamente iguais, porém, à 
medida que ∆h aumenta a covariância diminuienquanto a variância aumenta, 
 129
porque ocorre progressivamente maior independência entre os pontos a 
distâncias cada vez maiores. 
 A semivariância distribui-se assim de 0, quando h=0, até um valor igual à 
variância das observações para um alto valor de h, se os dados forem 
estacionários, isto é, não ocorrer a presença de tendência nos valores. Essas 
relações são mostradas quando a função γ(h) é colocada em gráfico contra ∆h 
para originar o semivariograma. A distância segundo a qual γ(h) atinge um 
patamar, denominado soleira ou patamar (sill), igual à variância à priori dos 
dados, é chamada de alcance ou amplitude (range). Geralmente a soleira é 
representada por C e o alcance por a. A semivariância não é apenas igual à 
média das diferenças ao quadrado entre pares de pontos espaçados as distâncias 
h, mas também é igual à variância dessas diferenças. 
O semivariograma mostra a medida do grau de dependência espacial entre 
amostras ao longo de um suporte específico e, para sua construção, são usados 
simplesmente as diferenças ao quadrado dos valores obtidos, assumindo-se uma 
estacionaridade nos incrementos. Isso significa que o semivariograma é uma 
medida da variabilidade geológica condicionada pela distância. Tal variabilidade 
pode ser bastante diferente quando consideradas diferentes direções. Por 
exemplo, em estratos sedimentares com inclinação ocorre maior correlação de 
valores na direção das camadas do que no sentido do mergulho das mesmas. 
 Para construir um semivariograma é necessário, portanto, dispor de um 
conjunto de valores obtidos a intervalos regulares dentro de um mesmo suporte 
geométrico. Sendo x(1), x(2), .... x(i), .... x(n), valores de uma variável 
regionalizada a seguinte fórmula fornece uma estimativa não tendenciosa da 
semivariância: 
( ) ( )∑ −= + 221 ihi xxnhγ 
 O estudo é feito em uma direção ao longo de uma linha ou ao longo de uma 
série de linhas paralelas, utilizando n possíveis diferenças a intervalos ∆h ou 
múltiplos de ∆h. 
Em CLARK (1979) é apresentada a construção de um semivariograma a 
partir de uma rede regular, com espaçamento entre os pontos de 100 pés. Trata-
se de um depósito estratiforme de ferro com valores em porcentagem por peso. 
 130
38
36
35
37
42
44
37
35
38
37
35
36
37
43
40
35
35
35
42
42
30
34
37
38
39
40
33
36
37
39
39
29
32
36
37
41
37
30
29
35
33
40
36
32
28
34
38
-1 0 1 2 3 4 5 6 7 8 9
-1
0
1
2
3
4
5
6
 
 
Para o cálculo dos semivariogramas, em diversas direções, são 
encontradas as somatórias dos quadrados das diferenças e posterior divisão por 
duas vezes o número dessas diferenças. Assim para a direção Leste-Oeste inicia-
se com o menor intervalo possível, ou seja, 100 pés da seguinte maneira: 
 
 
γ*(100) = [ (40 - 42)2 + (42 - 40)2 + (40 - 39)2 + (39 - 37)2 + (37 - 36)2 + (43 - 42)2 + 
(42 - 39)2 + (39 - 39)2 + (39 - 41)2 + (41 - 40)2 + (40 - 38)2 + (37 - 37)2 + (37 - 37)2 + 
(37 - 35)2 + (35 - 38)2 + (38 - 37)2 + (37 – 37)2 + (37 - 33)2 + (33 - 34)2 + (35 - 38)2 + 
(35 - 37)2 + (37 - 36)2 + (36 - 36)2 + (36 - 35)2 + (36 - 35)2 + (35 - 36)2 + (36 - 35)2 + 
(35 - 34)2 + (34 - 33)2 + (33 - 32)2 + (32 - 29)2 + (29 - 28)2 + (38 - 37)2 + (37 - 35)2 + 
(29 - 30)2 + (30 - 32)2 ] / [2 x 36] = 1,46 
 
 Para o intervalo de 200 pés: 
 
γ*(200) = [ (44 - 40)2 + (40 - 40)2 + (42 - 39)2 + (40 - 37)2 + (39 - 36)2 + (42 - 43)2 + 
(43 - 39)2 + (42 - 39)2 + (39 - 41)2 + (39 - 40)2 + (41 - 38)2 + (37 - 37)2 + (37 - 35)2 + 
(37 - 38)2 + (35 - 37)2 + (38 - 37)2 + (37 – 33)2 + (37 - 34)2 + (38 - 35)2 + (35 - 36)2 + 
(37 - 36)2 + (36 - 35)2 + (36 - 36)2 + (35 - 35)2 + (36 - 34)2 + (35 - 33)2 + (34 - 32)2 + 
(33 - 29)2 + (32 - 28)2 + (38 - 35)2 + (35 - 30)2 + (30 - 29)2 + (29 – 32 ] / [2 x 33] = 
3,30 
 
 E assim por diante, tanto para esta direção como para a Norte-Sul. O 
resultado, e apresentado na Tabela abaixo: 
 131
 
 
Direção Distância Semivariograma No. Pares 
Leste-
Oeste 
100 
200 
300 
400 
1,46 
3,30 
4,31 
6,70 
36 
33 
27 
23 
Norte-Sul 100 
200 
300 
5,35 
9,87 
18,88 
36 
27 
21 
 
 Estes resultados permitem a construção dos semivariogramas 
experimentais nas duas direções consideradas, e o que se pode perceber é que 
há uma distinta diferença na estrutura dos dados, ou seja, a presença de uma 
anisotropia. Na direção Norte-Sul os valores aumentam muito mais rapidamente, 
sugerindo uma maior continuidade na direção Leste-Oeste. 
 
 
 
 Os semivariogramas expressam o comportamento espacial da variável 
regionalizada e mostram: 
a) o tamanho da zona de influência em torno de uma amostra, pois toda amostra 
cuja distância ao ponto a ser estimado for menor ou igual ao alcance, fornece 
informações sobre o ponto; 
b) a anisotropia, quando os semivariogramas mostram diferentes comportamentos 
para diferentes direções de linhas de amostragem e de estudo da variável; neste 
 132
caso a anisotropia pode ser geométrica quando o alcance varia de acordo com as 
diversas direções consideradas, mantendo constante a soleira e zonal quando o 
alcance permanece constante e a soleira varia conforme for modificada a direção; 
c) continuidade, pela forma do semivariograma, em que para h≅ 0, γ(h) já 
apresenta algum valor. Essa situação é conhecida como efeito pepita (nugget 
effect) e é representada por C0. O efeito pepita pode ser atribuído a erros de 
medição ou ao fato de que os dados não foram coletados a intervalos 
suficientemente pequenos para mostrar o comportamento espacial subjacente do 
fenômeno em estudo. 
 
 Na construção do semivariograma, as somatórias necessárias para o 
cálculo de γ(h) devem ser constituídas por um número suficiente de pares, que 
tornem o resultado consistente. Como regra prática adota-se para tanto um 
mínimo de 30 pares, o que pode ser conseguido se for escolhido como maior ∆h, 
a metade da maior distância existente entre os pontos. Isto significa que, para 
uma análise geoestatística, exige-se que o número mínimo de pontos amostrados 
seja razoável, por volta de 30 a 40. 
 Uma outra consideração importante a ser feita é determinar o grau de 
aleatoriedade presente nos dados pela fórmula E = C0/C (GUERRA 1988): 
 
E<0,15: componente aleatória pequena 
0,15 ≤ E ≤ 0,30: componente aleatória significante 
E > 0,30: componente aleatória muito significativa. 
 O extremo dessa situação é o modelo de pepita pura, onde não ocorre 
covariância entre os valores e, portanto, a análise semivariográfica não se aplica, 
sendo sugerido o uso de outros métodos de interpolação. 
 133
De posse do semivariograma experimental é necessário ajustá-lo a um 
modelo teórico, ou seja, a uma função que definirá os parâmetros do 
semivariograma, “efeito pepita”, “alcance” e “patamar”. Entre os modelos 
disponíveis estes são os mais utilizados: 
 
a) Modelos com patamar 
 
a.1) Modelo esférico 



 

−

=γ 3
a
h
2
1
a
h
2
3C)h( , para h < a 
C)h( =γ , para h ≥ a, 
neste modelo a inclinação da tangente junto à origem (h≅0) é 3C/2a; é o modelo 
mais comum, podendo-se afirmar que equivale à função de distribuição normal da 
estatística clássica. 
a.2) Modelo exponencial 
]e1[C)h( a/h3−−=γ 
neste modelo a inclinação da tangente junto à origem é C/a; C é a assíntota de 
uma curva exponencial e pode ser equalizada junto à soleira; “a” corresponde ao 
alcance prático igual à distância segundo a qual 95% da soleira foi alcançada. 
a.3) Modelo gaussiano 
]e1[C)h(
2)a/h3(−−=γa curva é parabólica junto à origem e a tangente nesse ponto é horizontal, o que 
indica pequena variabilidade para curtas distâncias; “a” corresponde ao alcance 
prático igual à distância segundo a qual 95% da soleira foi alcançada. 
 
b) Modelos sem patamar 
b.1) Modelo potencial 
γ (h)=Chα, com a potência α assumindo valores entre 0 e próximo a 2; 
quando α = 1 o modelo torna-se linear; 
γ(h) = ph, sendo p a inclinação da reta; 
é o modelo mais simples e representado por uma reta passando pela origem do 
gráfico. 
 134
 Para dados que estão irregularmente distribuídos no espaço bidimensional 
não é possível, em princípio, encontrar pares de amostras suficientes com 
exatamente o mesmo espaçamento ∆h para o cálculo em uma determinada 
direção, como feito com dados dispostos em malha regular. Para contornar essa 
situação define-se uma distância de tolerância ∆’h para o espaçamento ∆h entre 
os pares de amostras de um ângulo de tolerância ∆’α para a direção α 
considerada. Assim, para o cálculo do semivariograma de uma distribuição 
irregular de pontos ao longo de uma determinada direção α, consideram-se todas 
as amostras que se encontram no ângulo α ± ∆’α, e, em seguida, classificam-se 
os pares de amostras em classes de distância ∆h± ∆’h, 2∆h± ∆’h, onde ∆h é a 
distância básica. As direções consideradas e seus respectivos ângulos de 
tolerância devem cobrir a área toda. 
 
 
 
 Para a estimativa do semivariograma experimental, não se tendo certeza 
se o fenômeno sob estudo é isotrópico ou anisotrópico no espaço bidimensional, 
inicialmente consideram-se quatro direções, E-W, N-S, NE-SW e NW-SE, com um 
ângulo de abertura com tolerância de 45º. Quando se constata uma direção bem 
marcante de anisotropia deve-se adotar tal direção com um pequeno ângulo de 
tolerância (α0± ∆’α0) para estimar o semivariograma nessa direção. Melhores 
estimativas são obtidas quando os modelos são baseados em semivariogramas 
experimentais que apresentam a menor razão “efeito pepita/patamar” e, também, 
o maior alcance. 
 135
 Em resumo, para a utilização do semivariograma as seguintes suposições 
básicas são requeridas: 
a) as diferenças entre pares de valores de amostras são determinadas apenas 
pela orientação espacial relativa dessas amostras; 
b) o interesse é enfocado apenas na média e na variância das diferenças, 
significando que esses dois parâmetros dependem unicamente da orientação; 
c) por conveniência assume-se que os valores da área de interesse não 
apresentam tendência que possa afetar os resultados e, assim, a preocupação é 
apenas com a variância das diferenças entre valores das amostras. 
A modelagem, ou seja, o ajuste de um variograma experimental a uma 
função é um passo fundamental na análise variográfica, sendo um processo que 
envolve várias tentativas e na qual a experiência pesa muito. Pode-se optar por 
um ajuste manual por comparação visual, mais sujeito a erros, ou, com o auxílio 
de algoritmos, para ajustes automáticos como apresentado, entre outros, em 
PANNATIER (1996). Acrescentar, em seguida, a essa verificação a “validação 
cruzada”. Nessa análise, depois de obtido o modelo variográfico, cada valor 
original é removido do domínio espacial e, usando-se os demais, um novo valor é 
estimado para esse ponto. Desse modo, um gráfico pode ser construído 
mostrando a relação entre valores reais e estimados. A validação cruzada, porem, 
não prova que o modelo escolhido é o mais correto, mas sim que o mesmo não é 
inteiramente incorreto. A melhor verificação, então, é aquela resultante do 
confronto entre os valores estimados e a realidade de campo. 
Uma comparação entre os ajustes a um modelo esférico e a um modelo 
linear é apresentada a seguir e o ajuste é indicado, no gráfico, pela relação entre 
a reta a 45º e a obtida pela análise. Um valor igual a 1,0 significa a indicação de 
ajuste perfeito. 
0
 
 
1442
 
 
2885
 
 
4327
 
 
5770
0 4 7 10 14
S
em
iv
ar
iâ
nc
ia
Distância "h"
Modelo esférico
373
 
 
442
 
 
510
 
 
579
 
 
648
373 442 510 579 648
V
al
or
es
 re
ai
s
Valores estimados
 
 136
0
 
 
1523
 
 
3047
 
 
4570
 
 
6093
0 4 7 10 14
S
em
iv
ar
iâ
nc
ia
Distância "h"
Modelo linear
-1328
 
 
471
 
 
2271
 
 
4071
 
 
5870
-1328 471 2271 4071 5870
V
al
or
es
 re
ai
s
Valores estimados
 
 Num estudo geoestatístico, a parte fundamental refere-se à determinação 
do semivariograma. Isso é importante e todo o cuidado deve ser tomado na 
análise variografica para que possa obter uma criteriosa análise geoestatística. 
9.1.2. Krigagem 
Krigagem é um processo de estimativa de valores de variáveis distribuídas 
no espaço, e/ou no tempo, a partir de valores adjacentes enquanto considerados 
como interdependentes pelo semivariograma. Trata-se, em último caso, de um 
método de estimativa por médias móveis. O termo, tradução do francês krigeage, 
e do inglês kriging, foi cunhado pela escola francesa de geoestatística em 
homenagem ao engenheiro de minas sul-africano e pioneiro na aplicação de 
técnicas estatísticas em avaliação mineira, Daniel G. Krige. 
 A krigagem pode ser usada, como algoritmo estimador, para: 
a) previsão do valor pontual de uma variável regionalizada em um determinado 
local dentro do campo geométrico; é um procedimento de interpolação exato 
que leva em consideração todos os valores observados, o qual pode ser a base 
para cartografia automática por computador quando se dispõe de valores de 
uma variável regionalizada dispostos por uma determinada área; 
b) cálculo médio de uma variável regionalizada para um volume maior que o 
suporte geométrico como, por exemplo, no cálculo do teor médio de uma jazida 
a partir de informações obtidas de testemunhas de sondagens; 
 Em todas essas situações o método fornece, além dos valores estimados, 
o “erro” associado a tal estimativa, o que o distingue dos demais algoritmos à 
disposição. A krigagem usa informações a partir do semivariograma para 
encontrar os pesos ótimos a serem associados às amostras que irão estimar um 
 137
ponto, um área ou um bloco. Como o semivariograma é uma função da distância 
entre locais de amostragens, mantendo o mesmo número de amostras, os pesos 
são diferentes de acordo com o seu arranjo geográfico. O uso do semivariograma 
para a estimativa por krigagem não exige que os dados tenham distribuição 
normal, mas a presença de distribuição assimétrica, com muitos valores 
anômalos, deve ser considerada, pois a krigagem é um estimador linear. 
 
9.1.3. Krigagem ordinária 
A metodologia geoestatística apresenta diversas técnicas de estimativas 
disponíveis e a mais usual é a krigagem ordinária 
 Seja um ponto que se deseja estimar, sendo o valor real desconhecido 
representado por V. O valor estimado (V*) é calculado, utilizando n amostras 
localizadas segundo coordenadas conhecidas, com valores x1, x2, x3....xn 
(conjunto S), de forma linear, como por exemplo, através da técnica da 
ponderação pelo inverso das distâncias. 
 V* = p1 x1 + p2x2 + p3x3 + ... + pnxn, onde os pi são os pesos atributos a cada 
amostra i. 
 É evidente que existe associado a esse estimador um erro ε=V-V* e que 
se, teoricamente, diversas estimativas forem feitas a média de erros é zero. Se os 
erros, portanto, apresentarem valores próximos a zero, o estimador é de 
confiança e isso pode ser verificado pela distribuição desses valores. A maneira 
mais simples de medir estatisticamente tal distribuição é via o desvio padrão ou a 
variância. No caso em questão, porém, a variância não podeser obtida porque 
não se conhece o valor real que se esta estimando e, portanto, também não se 
sabe qual o erro associado. 
 Variância dos erros = 2εσ = desvios ao quadrado em relação ao erro médio 
= média de (V-V*)2. 
 Para encontro da variância pode-se, porém, utilizar o semivariograma, em 
que são medidas as diferenças ao quadrado. Num semivariograma, previamente 
calculado, dada uma distância h entre os pontos, pode-se estimar a variância 
simplesmente lendo o valor no eixo dos γ´s e multiplicando-o por 2 
)h(22 γ=εσ 
 138
 Desse modo, para o processo de estimativa de um ponto utilizando o 
método da krigagem, procede-se da seguinte maneira: 
nn332211 xp...xpxpxpV* +++= 
 Se a soma dos pesos for igual a 1 e não ocorrer tendência local dos 
valores, esse estimador é o melhor e não tendencioso, pois a partir dos pesos 
atribuídos a cada amostra, minimiza a estimativa da variância. 
0/ i
2 =∂λ∂σε , n,...4,3,2,1i = 
 Isso é obtido construindo-se um sistema de n equações com n incógnitas 
(λ1, λ2, λ3, ... λn) e havendo a restrição de que Σλi=1, passa-se a n+1 equações. 
Como se tem apenas n incógnitas desconhecidas, introduz-se uma outra, também 
desconhecida, para balancear o sistema, ou seja, o chamado multiplicador de 
Lagrange, µ. 
0)1i(2 =−λΣλ−ε∂ , se 01i =−λΣ 
 O objetivo da krigagem é procurar pelo conjunto ótimo de ponderadores de 
modo que a variância do erro de estimativa seja a menor possível. Para tanto é 
organizado um sistema de equações com n+1 incógnitas, para a estimativa de um 
ponto (So) 
1
),(
),(
),(
0
),(
),(
),(
),(
),(
),(
),(),(
),(),(
),(),(
0
02
01
2
1
3
3
3
32
3
31
3
2
1
2
211
222121
21
2
111
SS
SS
SS
SS
SS
SS
SS
SS
SS
SSSS
SSSS
SSSS
n
n
nnn
nn
nn
nnn γ
γ
γ
=+
=µ+γ
=µ+γλ
=µ+γλ
++λ
++γλ
++γλ
++γλ
+λ+
+γλ+γλ
+γλ+γλ
+γλ+γλ
λ
λ
λ L
L
L
L
 
 
Estas equações constituem equações normais a n+1 incógnitas, as quais 
podem ser resolvidas, para a obtenção dos coeficientes, por cálculo matricial, 
segundo: 
]Y[]A][X[ = 
 Multiplicando ambos os termos da equação pelo inverso de [X], isto é, 
1]X[ − : 
[ ]Y]X[]A[.]X[.]X[ 11 −− = ; 
como ]I[]X[.]X[ 1 =− (matriz de identidade) e ]A[]A[.]I[ = , 
]Y[]X[.]A[ 1 =− 
 139
Em notação matricial: 
],[][],[
1
),(
),(
),(
0111
1),(),()1,(
1),(),(),(
1),(),(),(
0
0
02
01
2
1
2
22212
12111
SSSS
SS
SS
SS
SSSSSS
SSSSSS
SSSSSS
iiii
nnnnnn
n
n
λ










γ
γ
γ
=










µ
λ
λ
λ










γγγ
γγγ
γγγ
MM
L
L
M
L
MM
L
 
A matriz [Si,Si] contem os valores obtidos no semivariograma referentes às 
distâncias entre as amostras estimadoras; o vetor [Si,S0] contem os valores 
obtidos no semivariograma referentes às distâncias entre cada amostra e o ponto 
(So) a ser estimado e o vetor [λi] contém os ponderadores a serem calculados. 
Resolvido o sistema de equações, obtém-se os pesos λi e o multiplicador 
de Lagrange, µ, segundo: 
[λi] = [Si,Si] -1 · [Si,So] 
 Para o ponto S0 a ser estimado, obtém-se uma combinação linear dos 
valores dos pontos vizinhos e respectivos pesos 
S0 = ΣλiSi 
 Para o cálculo da variância (σ²) associada ao valor S0 obtido por estimativa 
usa-se a expressão: 
]S,S[]'[)S,S( 0ii0ii
2 λ=µ+γλΣ=σ , 
sendo [λi]' = vetor transposto com os pesos λi e [Si,So] = vetor com os valores 
obtidos no semivariograma referentes às distâncias entre cada amostra e o ponto 
(So) a ser estimado. 
O desenvolvimento teórico dessa metodologia encontra-se em diversos 
textos básicos de geoestatística com destaque para JOURNEL & HUIJBREGTS (1978), 
JOURNEL (1989) e ISAAKS & SRIVASTAVA (1989). 
 
9.2. COKRIGAGEM 
 A utilização da krigagem permite uma análise geoestatística univariada. 
Frequentemente, porem, quando diversas variáveis são obtidas nos mesmos 
pontos torna-se necessário uma análise geoestatística multivariada de 
corregionalização.. Nesse caso duas técnicas se destacam: a “cokrigagem” e a 
“krigagem fatorial”. 
 140
A Cokrigagem é um procedimento geoestatístico segundo o qual diversas 
variáveis regionalizadas podem ser estimadas em conjunto, com base na 
correlação espacial entre si. É, portanto, uma extensão multivariada do método da 
krigagem quando para cada local amostrado obtém-se um vetor de valores em lugar 
de um único valor. 
 A solução, por cálculo matricial, para a cokrigagem é fornecida por: 
 
( ) ( )[ ]
( ) ( )
[ ]
[ ]
( )[ ]
( )[ ]
1 0
11 1 1 12 1 2
1 0
0 1
21 2 1 22 2 2
0 1
1 1 0 0 0 0
0 0 1 1 0 0
1
2
1
2
11 0 1
12 0 2
1
0
C x x C x y
C y x C y y
C x y
C x y
A X B
α α α α
α α α α
λα
να
µ
µ
α
α
, ' ,
, , '
,
,
[ ] [ ] [ ]


















−
−
=












M M
M M
L L
L L
 
onde α α α α1 1 1 1 1 1 2 1 2 2 1 2= = = =, ... , ; ' , ... , ; ,..., ; ' , ... , .n n n n 
 A matriz [A] é composta por: 
sub-matriz ( )[ ]C x xa11 1 1α , ' , que descreve a distribuição espacial da primeira variável 
z1 ; 
sub-matriz ( )C y22 2 2α γ α, '  , que descreve a distribuição espacial da segunda variável 
z2 ; 
sub-matrizes ( )C x y12 1 2α α,  e ( )C y x21 2 1α α,  , que descrevem a variabilidade cruzada 
das variáveis z1 e z2 consideradas em conjunto; 
os termos restantes 0 e 1 correspondem a condições de não enviés 
 A matriz [A] não contém nenhuma informação sobre o ponto xo para o qual 
é necessária a estimação. Toda a informação necessária está contida no vetor 
[B]. 
 O vetor [B] é composto por: 
subvetor ( )[ ]C x xa11 0 1, , que depende da configuração geométrica relativa do ponto 
x
o
 em relação aos pontos xα1 , onde z
1
 é observada; 
sub-vetor ( )[ ]C x ya12 0 2, , que depende da configuração geométrica relativa do ponto 
x
0
 em relação aos pontos yα2 , onde z2 é observada; 
os termos vertentes 0 e 1 correspondem à condições de não enviés. 
 141
 A solução do sistema, ou seja, cálculo dos n1 1λα coeficientes e n2 2λα 
coeficientes para diferentes pontos x
o
 obtida pela inversão de [A] e subsequente 
multiplicação por [B]; µ1 e µ 2 são os multiplicadores de Lagrange. 
 As equações da cokrigagem são formuladas na suposição que as variáveis 
primária e secundária apresentam covariâncias, com matriz positiva definitiva, 
para ser considerada uma matriz de covariâncias-cruzada válida. Uma maneira 
simples para a obtenção dessa matriz é utilizar o “modelo linear de 
corregionalização”. 
O modelo linear de corregionalização fornece um método para ajustar os 
auto-variogramas e variogramas cruzados entre duas variáveis ou mais de tal 
maneira que a variância de qualquer combinação linear possível dessas variáveis 
seja sempre positiva. Tal combinação usa a mesmas estruturas dos auto-
variogramas e dos variogramas cruzados, mantendo o mesmo valor para o 
alcance. Detalhes podem ser encontrados, entre outros, em ISAAKS & SRIVASTAVA 
(1989). Em termos bem simples, ambos os determinantes das matrizes abaixo, 
referentes aos valores do efeito pepita (Co) e soleira (C), devem ser positivos, 
para que se possa considerar válida a aplicação da cokrigagem: 
 
0 
CV CUV
CUV CU
 0 
CoV CoUV
CoUV CoU >> 
 
Maiores detalhes sobre cokrigagem podem ser obtidos em ABOUFIRASSI & 
MARIÑO (1984)e CONDE & YAMAMOTO (2000), entre outros, além de livros textos de 
autores como WACKERNAGEL (1995), DEUTSCH & JOURNEL (1998), OLEA (1999) e 
CLARK & HARPER (2000). 
 Uma das mais freqüentes aplicações da cokrigagem ocorre quando a 
amostragem é insuficiente, isto é, quando uma ou mais variáveis não são 
coletadas em todos os pontos de amostragem. O objetivo então é melhorar a 
estimação das variáveis sub-amostradas utilizando a correlação, por ventura 
existente com variáveis mais densamente amostradas. Trata-se de uma 
ferramenta geoestatística que vem sendo cada vez mais utilizada em diversas 
situações de estimação ou de modelagem, existindo a disposição diversos 
 142
programas (CARR, MYERS & GLASS, 1985; YATES E YATES, 1990; MARCOTTE, 1991 e 
DEUTSCH E JOURNEL, 1992, entre outros) 
 Fundamental na utilização da cokrigagem é a verificação prévia da 
correlação existente entre as variáveis, a qual deve ser alta para que as 
estimativas sejam consistentes. Também deve ser notado que a melhoria de 
interpretação somente é significativa quando uma das variáveis tem um número 
extremamente reduzido de casos em relação à outra e que o sistema de 
cokrigagem torna-se extremamente complicado no caso de mais de duas 
variáveis. Desse modo críticas a esse método são encontradas na literatura 
como, por exemplo, em MYERS, 1992 e 1988, DAVIS & GREENES, 1983. 
 
9.2.1. Exemplo 
Este exemplo é apresentado com poucos dados para ilustrar como se 
desenvolve a aplicação da cokrigagem. Seja uma situação com 3 pontos onde V é 
a covariância medida nesses três pontos e U, a variável de interesse, medida em 
apenas duas dessas três localidades. A questão é estimar U em um local não 
amostrado como mostra a figura abaixo: 
 
 Distribuição dos pontos, com coordenadas (0,0) para U0; (-3,6) para o ponto1; (-8,-5) para o 
ponto 2; (3,-3) para o ponto 3 
Estes dados provém de uma amostragem mais densa constituída por 275 
pontos para U e 470 pontos para V, apresentados e amplamente discutidos no 
texto de ISAAKS & SRIVASTAVA (1989). A análise covariográfica desses dados 
revelou as seguintes relações: 
γU(h) = 440000 + 70000γ(h’1) + 95000γ(h’2) 
 143
 γV(h) = 22000 + 40000γ(h’1) + 45000γ(h’2) 
 γUV(h) = 47000 + 50000γ(h’1) + 40000γ(h’2) 
 
 Para verificar a validade do modelo linear de corregionalização foram 
calculados os determinantes das matrizes referentes a cada estrutura: 
• Efeito pepita 
0000.000.471.7
440000 47000
47000 22000 >= 
 
• Segunda estrutura 
0000.000.300
70000 50000
50000 40000 >= 
 
• Terceira estrutura 
0000.000.675.2
95000 40000
40000 45000 >= 
 A Tabela, a seguir, mostra os valores de covariâncias e covariâncias 
cruzadas necessários para o cálculo de U0. 
 
Pares de
variáveis 
Distância 
reticulado 
Distância 
estrutural 
CU(h) CV(h) CUV(h) 
U1U1 0,0 0,0 605000 
U1U2 12,1 9,1 99155 
U2U2 0,0 0,0 605000 
V1V1 0,0 0,0 107000 
V1V2 12,1 9,1 49623 
V1V3 10,8 5,0 57158 
V2V2 0,0 0,0 107000 
V2V3 11,2 11,2 45164 
V3V3 0,0 0,0 107000 
U1V1 0,0 0,0 137000 
U1V2 12,1 9,1 49715 
U1V3 10,8 5,0 57615 
 144
U2V1 12,1 9,1 49715 
U2V2 0,0 0,0 137000 
U2V3 11,2 11,2 45554 
U0U1 6,7 2,6 134229 
U0U2 9,4 9,0 102334 
U0V1 6,7 2,6 70210 
U0V2 9,4 9,0 52697 
U0V3 4,2 2,5 75887 
 
Esses valores compõem as equações de cokrigagem: 
 
















=
















×
















0
1
75887
52697
70210
102334
134229
0011100
0000011
1010700045164571584555457615
10451641070004962313700049715
10571584962310700049715137000
01455541370004971560500099155
01576154971513700099155605000
2
1
3
2
1
2
1
µ
µ
b
b
b
a
a
 
 
 Resolvendo essas equações, os seguintes valores para pesos da 
cokrigagem, valor da estimativa para U0 e variância da estimativa por cokrigagem 
são encontrados: 
 
Pesos da cokrigagem: 
ponto U1: a1 = 0,512 ponto U2: a2 = 0,488 
ponto V1: b1 = -0,216 ponto V2: b2 = -0,397 ponto V3: b3 = 0,666 
 
Multiplicadores de Lagrange: 
µ1 = -205963 µ2 = -13823 
 
Valores estimados no ponto de estimativa por cockrigagem: 
Estimativa de U0 = 398 Variância de U0 = 681549 
 145
 
 Apenas a titulo de informação, se fosse aplicada a krigagem ordinária o 
valor estimado para U0 seria 630, com a previsão de variância dessa estimativa 
da ordem de 719509. 
 
9.3. KRIGAGEM FATORIAL 
 A krigagem fatorial é uma metodologia desenvolvida por MATHERON (1982) 
e talvez a mais conhecida entre os métodos geoestatísticos multivariados. A 
teoria pode ser encontrada em GOOVAERTS, 1992; GOOVAERTS & WEBSTER, 1994; 
CASTRIGNANÒ ET AL. 1995; CASTRIGNANÒ ET AL., 2000; WACKERNAGEL, 2003: 
QUEIROZ, 2003). Um software foi escrito por PARDO-IQUIZGUIZA & DOWD (2002). 
O objetivo da krigagem fatorial pode ser, por exemplo, no caso de 
ocorrência de um metal, descobrir qual a origem dessa concentração. Traços 
desse metal no solo ou na água podem originar-se naturalmente por 
intemperismo de rochas ou podem ser resultado de atividades humanas, tais 
como mineração, resíduos industriais ou agricultura. Se as escalas, segundo as 
quais os diferentes fatores operam, forem diferentes umas das outras, isso 
poderia ser observado nos semivariogramas das concentrações dos metais, por 
meio da análise estrutural realizada com modelos semivariográficos aninhados. 
Sendo identificadas no semivariograma a correspondente componente espacial 
pode ser estimada e mapeada utilizando-se a krigagem ordinária onde cada 
componente espacial é associada com o respectivo semivariograma. Os mapas 
das estimativas das componentes espaciais podem auxiliar na separação de 
características locais e regionais do fenômeno em estudo. Em geral, o 
modelamento semivariográfico tem 3 escalas de variação espacial: 
(1) micro-escala: corresponde à componente do efeito pepita, onde o alcance é 
zero e as estimativas são nulas em qualquer localização não amostrada; pode 
estar relacionada à remobilização local da concentração do poluente e/ou erros de 
medidas; 
(2) escala local ou curto alcance: pode estar relacionada às concentrações 
anômalas do metal, – acima do limite máximo tolerável, e pode ser resultado de 
rochas naturalmente ricas de tal metal ou originar-se de atividades humanas, cujo 
impacto é temporariamente balanceado por pequenas concentrações naturais; 
 146
(3) escala regional ou longo alcance: geralmente relacionada à influência da 
geologia regional (QUEIROZ, 2003). 
 Seja {zi(u); i = 1, ..., p}, um conjunto de p variáveis regionalizadas 
conhecidas em n pontos amostrais, com coordenadas u. Neste caso, {Zi(u); i = 1, 
..., p} é uma função aleatória a indicar um conjunto de variáveis aleatórias 
definidas sobre uma área específica. Um incremento espacial [zi(u) – zi(u+h)] é 
definiddo como a diferença entre os valores de uma variável zi em u e em u+h 
separados pelo vetor h. Sob a hipótese de estacionaridade de segunda ordem, 
define-se: 
Vetor com valor médio: m = E{Z(u)} 
Matriz de covariâncias: C(h) = E[{Z(u) - m}T{Z(u+h) – m}] 
Matriz de variogramas: �h) = 1/2E[{Z(u) – Z(u+h)}T{Z(u) – Z(u+h)}], 
onde T significa mariz transporta. Para h = 0, a matriz de covariâncias C(h) é igual 
à matriz de varianâncias-covariâncias clássica V: 
C(0) = E[{Z(u) – m}T{Z(u) – m}] = V 
 Também C(h) e �(h) são relacionados pela expressão: 
 �(h) = C(0) – ½(C(h) + C(-h) 
 A matriz de variogramasexperimental � h) é uma matriz pxp, onde na 
diagonal estão os valores para os variogramas diretos e nos postos fora da 
diagonal, os valores para os variogramas cruzados, para um determinado h: 
 







γγ
γγ
=Γ
)h()h(
)h()h(
)h(
*
pp
*
1p
*
p1
*
11
*
L
M
L
 
 Os variogramas experimentais são calculados a partir dos dados amostrais 
e, em muitas situações, diversos modelos variográficos podem ser ajustados, 
revelando diversas escalas de variabilidade espacial. Cada escala de 
variabilidade pode ser representada por um modelo de semivariograma, de modo 
que a variabilidade espacial é modelada pela soma dos semivariogramas 
embricados. A krigagem fatorial permite, desse modo, analisar as relações entre 
as variáveis Zi(u) nas escalas espaciais detectadas pelos semivariogramas 
experimentais embricados. 
Resumidamente os passos básicos da krigagem fatorial são: 
 147
1. modelagem por corregionalização das variáveis usando o denominado modelo 
linear de corregionalização; todos os p(p + 1)/2 variogramas diretos e cruzados 
das p variáveis são modelados por uma combinação linear dos N´s 
variogramas padronizados para um mesmo alcance (sill); nesta modelagem 
supõe-se que o comportamento espacial das variáveis seja o resultado da 
interação de diferentes processos atuando independentemente a diferentes 
escalas espaciais. 
2. analise da estrutura de correlações entre as variáveis, levando em 
consideração as diferentes escalas, com aplicação da análise das 
componentes principais; um “círculo de correlações” entre as variáveis 
originais e os dois mais importantes fatores regionalizados, ortogonais, é 
utilizado para resumir as relações entre as variáveis a cada escala espacial. 
3. estimação das relações entre os fatores regionalizados e variáveis, como 
componentes espaciais, a diferentes escalas por cokrigagem, para, 
finalmente, mapeà-los. 
A regionalização multivariada de um conjunto de funções aleatórias pode 
ser representada por um modelo linear multivariado espacial que permita uma 
fácil manipulação dos dados espaciais (WACKERNAGEL, 1995). Os variogramas 
cruzados embricados podem então ser modelados como combinações lineares: 
∑∑
=
αβ
=
αβαβ =γ=γ
ii N
1u
uu
N
1u
u )h(gb)h()h( , 
onde Ni é o numero de escalas espaciais, buαβ são coeficientes e guαβ(h) as 
funções variográficas. 
 Um conjunto de funções aleatórias, Zi(x), pode ser decomposto em 
subconjuntos de fatores espacialmente não correlacionáveis ( ROUHANI & 
WACKERNAGEL, 1990; GOOVAERTS, 1922; WACKERNAGEL, 1995). 
 O estimador por cokrigagem da componente espacial Zuk no ponto x0 é: 
 ∑∑
=
λ=
m
1i
n
j
jiji0
*u
k )x(Z)x(Z . 
 O sistema de krigagem pode, então, ser resolvido segundo: 
 ∑∑
=η =τ
τητη −=µ−−γλ
m
1
n
1
0j
uu
ikiji )xx(gb)xx( 
 148
 e ∑
=τ
τ =λ
n
1
i 0 
onde µi é o multiplicador de Lagrange; gu(xj,x0) é o valor proveniente da u’ésima 
função variográfica básica, gu(h), entre o ponto amostrado e x0; i = 1, ..., p, e j = 1, 
..., n. 
 Com relação à análise multivariada regionalizada WACKERNAGEL (2003) 
pondera que a questão fundamental a investigar é se a correlação entre variáveis 
é espacialmente dependente ou não. Apresenta, então, três maneiras para 
verificar se a correlação é dependente do espaço. 
 1) A co-dispersão dos coeficientes ccij(h) podem ser calculada e disposta 
em gráficos; se elas não são constantes para cada par de variável, a estrutura de 
correlação do conjunto de variáveis é afetada pela escala espacial. 
 2) Variogramas cruzados entre componentes principais das variáveis 
podem ser calculados; se eles não forem iguais a zero para cada par de 
componente principal a qualquer distância h, a componente principal clássica não 
tem sentido porque a matriz de variância-covariância do conjunto de variáveis é 
meramente uma mistura de diferentes estruturas de variâncias-covariâncias 
segundo varias escalas espaciais. 
 3) Gráficos de círculos de correlação numa análise de componentes 
principais regionalizada podem ser examinados; se os padrões de associação 
entre as variáveis não são idênticos para as matrizes de co-regionalização, o 
modelo de correlação intrínseco não é apropriado para o conjunto de dados. Com 
apenas poucas variáveis é possível perceber a tabela de coeficientes de 
correlação regionalizados em lugar das componentes principais regionalizadas. 
 Se os dados parecem ser intrinsecamente correlacionados, pode-se aplicar 
qualquer método da análise multivariada fatorial, calcular diretamente os 
variogramas dos fatores, estimá-los por krigagem e mapeá-los. Se, porem, a 
correlação é afetada pela escala espacial, torna-se necessário ajustar um modelo 
linear de co-regionalização e co-krigar os fatores. 
 
9.3.1. Exemplo 
Em sua tese de doutorado QUEIROZ (2003) apresentou uma metodologia 
baseada na teoria geoestatística para a quantificação do risco de contaminação 
 149
por metais pesados na área portuária de Santana/Amapa, onde anteriormente 
foram desenvolvidas atividades relacionadas ao beneficiamento e 
comercialização do minério de manganês oriundo das minas de Serra do 
Navio/AP. 
Para a aplicação da krigagem fatorial foram consideradas somente as 
variáveis que apresentaram concentrações acima dos limites estabelecidos pelo 
CONAMA, ou seja, arsênio (As), manganês (Mn), alumínio (Al), ferro (Fe), 
chumbo (Pb), selênio (Se), cádmio (Cd) e cobre (Cu). 
A tabela abaixo apresenta a matriz de correlações entre as variáveis. Os 
valores em destaque indicam correlação significativa a um nível abaixo de 5%. 
Observa-se forte correlação entre Fe e Cd (r = 0.934) e com Pb com Se (r = 
0.965). 
 
 
 
 
 
 
 
 
 
 
As relações entre as variáveis foram, primeiramente, estudadas de uma 
maneira clássica, com a aplicação do método de análise de componentes 
principais (ACP). As componentes principais ordenadas de acordo com sua 
contribuição à explicação da variância total dos dados são mostradas na Tabela a 
seguir . 
 
 
 
 
 
 
 
As Mn Al Fe Pb Se Cd Cu
As 1.000
Mn 0.024 1.000
Al -0.094 -0.09 1.000
Fe 0.07 0.166 0.369 1.000
Pb 0.172 0.336 0.105 0.415 1.000
Se 0.093 0.344 0.096 0.405 0.965 1.000
Cd 0.085 0.196 0.349 0.934 0.475 0.428 1.000
Cu -0.046 -0.006 -0.026 0.05 0.525 0.559 0.047 1.000
 150
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Essa Tabela apresenta as cargas dos fatores com a percentagem da 
variância explicada das três primeiras componentes principais. Essas 
componentes explicam, juntas, 74% da variância total. A primeira componente é 
fortemente correlacionada com os elementos Se, Pb, Cd e Fe. 
Os semivariogramas experimentais omnidirecionais diretos e cruzados 
obtidos a partir dos escores das três componentes principais são apresentados 
em seguida. Um modelo linear de co-regionalização foi ajustado e utilizado no 
mapeamento das componentes, onde, cada componente foi estimada por 
cokrigagem. Foram ajustados dois modelos esféricos com alcances de 0,33 km e 
2,0 km, respectivamente, além do efeito pepita presente em todos os casos. 
 
 
 
 
 
 
 
 
Variáveis Cp 1 Cp 2 Cp 3
 As 0,142 0,073 – 0.667
 Mn 0,387 0,177 – 0.508
 Al 0,303 – 0.584 0,425
 Fe 0,753 – 0.560 – 0.059
 Pb 0,888 0,356 0,005
 Se 0,876 0,389 0,066
 Cd 0,779 – 0.529 – 0.091
 Cu 0,46 0,597 0,467
Autovalores 3.202 1.607 1.118
% da Variância 40 20,1 14
Acumulado 40 60,1 74,1
Cargas dos Fatores Principais
 151152
Observa-se uma pequena predominância da estrutura de longo alcance 
(2,0 km) na componente principal 1 e da estrutura de curto alcance (0,33 km) na 
componente principal 3. 
Embora nenhuma estrutura de longo ou pequeno alcance predomine 
fortemente em quaisquer das componentes, selênio e chumbo podem estar 
vinculadas à estrutura de longo alcance e ferro e cádmio à estrutura de curta 
escala. Isso pode ser obervado nos seguintes semivariogramas 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Esses alcances foram utilizados no modelamento semivariográfico direto e 
cruzado das variáveis para se determinar os coeficientes bsij(patamar) que 
fornecem o nível de variabilidade do semivariograma, onde s representa a escala 
de variabilidade e i,j as variáveis. 
Os coeficientes bsij são os elementos das matrizes de co-regionalização 
Bs. Desse modo as matrizes B1 e B2 descrevem a estrutura de correlação para 
curta escala (0,33 km) e longa escala (2,0 km). Os resultados da análise das 
componentes principais dessas duas matrizes fornecem os fatores regionalizados 
Ysk(u), que são as componentes principais de cada matriz na respectiva escala “s” 
e as componentes espaciais Zsi(u). 
 Os resultados da análise de componentes principais das duas matrizes B1 
e B2 são apresentados na Tabela a seguir. Os três primeiros fatores 
regionalizados explicam 86,2 % e 99,5 % da variância total para as matrizes B1 e 
 153
B2, respectivamente. Para a matriz B1 (curta escala espacial) observa-se forte 
correlação do ferro e cádmio com o primeiro fator regionalizado. O manganês é 
fortemente correlacionado com o segundo fator regionalizado e a contribuição do 
arsênio predomina fortemente em relação às outras variáveis no terceiro fator 
regionalizado. Isso sugere uma possível relação da contaminação desses 
elementos a fontes de contaminação vinculada a atividades humanas que, em 
geral, ocorrem em pequena escala espacial, neste caso, descrita pela matriz B1. 
A matriz B1 não mostra correlação entre o arsênio e o manganês na escala 
considerada. Para a matriz B2 (longa escala espacial) o primeiro fator 
regionalizado explica a maior parte da variabilidade sendo que a contribuição de 
todas as variáveis, exceto o cobre, é relativamente alta com destaque para o 
chumbo e selênio. O cobre é mais fortemente correlacionado com o segundo fator 
e nenhuma variável apresenta contribuição significativa para o terceiro fator, que 
explica somente 3,2 % da variabilidade total. O alumínio apresenta correlação 
mais forte com o primeiro fator regionalizado na longa escala. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
As 0 -0.003 0.517 0.663 0.098 -0.116
Mn 0.001 0.817 0.006 0.447 -0.044 -0.144
Fe 0.803 -0.002 0.002 0.417 0.077 0.038
Cd 0.836 -0.001 0.005 0.415 0.078 -0.116
Pb 0.223 0.005 -0.003 0.735 -0.147 0.092
Se 0.219 0.01 -0.009 0.685 -0.147 0.14
Al 0.316 -0.007 -0.011 0.438 0.097 0.025
Cu -0.006 -0.104 0.033 0.097 0.52 0.092
Autovalores 1.732 0.734 0.368 2.439 0.354 0.094
% da Variância 52,7 22.3 11.2 84.1 12.2 3.2
Acumulado 52.7 75 86.2 84.1 96.3 99.5
 Matriz B2 (Longa Escala) Matriz B1 (Pequena Escala)
Variáveis
1
1Y 12Y
1
3Y
2
1Y 22Y 23Y
 154
A análise das matrizes de co-regionalização permite a observação de 
relações entre as variáveis de acordo com a escala espacial que não poderiam 
ser detectadas na análise convencional da matriz R de correlações (ou a matriz V 
de variância-covariância). Por exemplo, a correlação entre ferro e cádmio é mais 
forte na pequena escala enquanto que selênio e chumbo apresentam maior 
correlação na longa escala. Os valores das cargas do primeiro fator regionalizado 
das matrizes B1 e B2 mostram que é mais provável que ocorra alguma correlação 
entre arsênio e manganês na longa do que na pequena escala espacial. 
Os fatores regionalizados Ysk(u) e componentes espaciais Zsi(u), s=1,2 
e k=1,...,8, foram mapeados por co-krigagem. O valor de qualquer fator 
regionalizado é igual à sua média local estabelecida como zero para qualquer 
distância acima de 0,33 km, no caso da pequena escala, e acima de 2,0 km, no 
caso da longa escala. 
As Figuras abaixo mostram os mapas cokrigados do primeiro fator 
associados às escalas espaciais consideradas. Para a escala local (curto 
alcance), a presença de áreas que podem ser consideradas anômalas – com 
valores mais altos (ou baixos) – é observada principalmente dentro dos limites da 
ICOMI. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
COMERCIAL
HOSPITALIDADE
CENTRAL
N.HORIZONTE
REMÉDIOS
 NOVA BRASÍLIA
ELESBÃO
ICOMI
RIO AMAZONAS
CENTRAL
ICOMI
CENTRAL
ICOMI
478 478.5 479 479.5 480 480.5 481 481.5 482
994
994.5
995
995.5
996
-1.5
-1
-0.5
0
0.5
1
1.5
Fator Regionalizado 1 (Pequena escala: 0.33 km)
U
TM
 ( 
K
m
 )
UTM ( Km )
0 500 1000 metros250 750
Escala
 155
 
 
 
 
 
 
 
 
 
 
 
 
A drenagem da área de estudo (em linha azul) foi plotada nos mapas 
relacionados à longa escala.Pode-se observar uma boa concordância das linhas 
de drenagem com o padrão espacial apresentado, sobretudo pelo mapa do 
primeiro fator regionalizado associado com o modelo esférico de longa escala, 
que explica a maior parte da variabilidade (84,1%) com contribuição razoável de 
quase todas as variáveis, exceto o cobre. 
Foi realizado também o mapeamento do As, Mn, Fe e Cd, que mostraram 
indícios de estarem vinculados a uma escala local. O mapa do arsênio na 
pequena escala apresenta duas pequenas áreas com anomalias negativas, uma 
dentro da área industrial da ICOMI e outra no bairro do Elesbão à margem do Rio 
Amazonas. No mapa desse mesmo elemento associado à longa escala observa-
se regiões com altos valores positivos dentro da área da ICOMI, no bairro do 
Elesbão – à noroeste – e na área residencial, no bairro da Hospitalidade, 
parecendo indicar uma disseminação do referido elemento na área de estudo. 
A ocorrência de valores altos para os elementos analisados na área de 
estudo pode indicar a presença de fontes de contaminação possivelmente 
vinculadas às atividades industriais desenvolvidas pela ICOMI durante os últimos 
anos. 
 
 
 
 
478 478.5 479 479.5 480 480.5 481 481.5 482
994
994.5
995
995.5
996
COMERCIAL
HOSPITALIDADE
CENTRAL
N.HORIZONTE
REMÉDIOS
 NOVA BRASÍLIA
ELESBÃO
ICOMI
RIO AMAZONAS
CENTRAL
ICOMI
CENTRAL
ICOMI
-1.5
-1
-0.5
0
0.5
1
1.5
Fator Regionalizado 1 (Longa escala: 2.0 km)
U
TM
 ( 
K
m
 )
UTM ( Km )
0 500 1000 metros250 750
Escala
 156
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Os resultados obtidos pela krigagem fatorial multivariada mostraram que o 
arsênio, manganês, ferro e cádmio provavelmente estão vinculados a fontes de 
contaminações localizadas (curta escala), ou seja, provenientes de atividades 
humanas, enquanto alumínio, selênio, chumbo e cobre apresentaram indícios de 
que suas concentrações são provenientes do próprio meio natural, por causa da 
correlação mais forte com variações de longa escala desses elementos. 
478 478.5 479 479.5 480 480.5 481 481.5 482
994
994.5
995
995.5
996
COMERCIAL
HOSPITALIDADE
CENTRAL
N.HORIZONTE
REMÉDIOS
 NOVA BRASÍLIA
ELESBÃO
ICOMI
RIO AMAZONAS
CENTRAL
ICOMI
CENTRAL
ICOMI
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
Componente Espacial estimada para o Arsênio (Pequena escala = 0,33 km)
U
TM
 ( 
K
m
 )
UTM( Km )
0 500 1000 metros250 750
Escala
478 478.5 479 479.5 480 480.5 481 481.5 482
994
994.5
995
995.5
996
COMERCIAL
HOSPITALIDADE
CENTRAL
N.HORIZONTE
REMÉDIOS
 NOVA BRASÍLIA
ELESBÃO
ICOMI
RIO AMAZONAS
CENTRAL
ICOMI
CENTRAL
ICOMI
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
Componente Espacial estimada para o Arsênio (Longa escala = 2,0 km)
U
TM
 ( 
Km
 )
UTM ( Km )
0 500 1000 metros250 750
Escala
 157
 
BIBLIOGRAFIA 
ABOUFIRASSI, M. & MARIÑO, M. A. (1984) – Cokriging of Aquifer Transmissivities from 
Field Measurements of Specific Capacity: Math. Geology, 16:19-35 
 
CARR, J., MYERS, D.E. & GLASS, C.H. (1985) - Co-Kriging: a Computer Program: 
Computers & Geosciences, 11:111-127. 
 
CASTRIGNANÒ, A., CONVERTINI, G., LOSAVIO, N. & HOXHA, I. (1995) – Studio delle 
relazioni tra le proprietà fisico-chimiche di un suolo argilloso del litorale ionico-lucano 
mediante la geostatistica multivariata: Proceedings of the 13th Symposium of Italian 
Chemistry Society, Florence, pp. 61-70 
 
CASTRIGNANÒ, A., GIUGLIARINI, L., RISALITI, R. & MARTINELLI, N. (2000) – Study of 
spatial relationships among some soil physico-chemical properties of a field in central Italy 
using multivariate geostatistics: Geoderma, 97:39-60 
 
CHILÉS, J. P. & DELFINER, P. (1999) Geostatistics: Modeling spatial uncertainty: John 
Wiley and Sons. 
 
CLARK I. (1979) – Practical Geostatistics: Applied Science Publishers Ltd, 129p. 
http://uk.geocities.com/drisobelclark/practica.html 
 
CLARK, I. & HARPER, W. V. (2000) - Practical Geostatistics 2000: Geostokos (Ecosse) 
Limited 
 
CONDE, R.P. & YAMAMOTO (2000) – Evaluation of kriging and cokrigin for asbestos ore 
reserve estimation at Cana Brava mine, Goiás, Brazil: in “Geostat 2000, Proceedings of 
the Mining and Petroleum Geostatistics Sessions at the 31IGC. Ed(s) M. Armstrong, C. 
Bettini, N. Champigny, A. Galli, A. Remacre. Kluwer Academic Publishers, pp. 189-201 
 
DAVIS, B. M. & GREENES, K. A (1983) – Estimation Using Spatially Distributed 
Multivariate Data: Na Example with Coal Quality: Math. Geology, 15:287-300 
 
DEUTSCH, C.V. AND JOURNEL, A.G.- GSLIB-Geoestatistical Software Library and 
User’s Guide. Oxford University Press, 1992 
 
GOOVAERTS, P. (1992) – Factorial kriging analysis: a useful tool for exploring the 
structure of multivariate spatial soil information: Jour. Soil Science, 43:597-619 
 
GOOVAERTS, P. & WEBSTER, R. (1994) – Scale-dependent correlation between topsoil 
copper and cobalt concentrations in Scotland: Eur. Jour. Soil Science, 45:79-95 
 
GUERRA P.A.G. (1988) - Geoestatística Operacional: Departamento Nacional da 
Produção Mineral. 
 
JOURNEL, A.G. & HUIJBREGTS, J.C.H. (1978) Mining geostatistics. Academic Press, 
1978. 600p. 
 
MARCOTTE, D. (1991) - Cokriging with Matlab: Computers & Geociences, 17:1265-1280 
. 
MATHERON, G. (1962-1963) - Traite de Geostatistique Appliquee: (vols. 1 e 2): Technip. 
 
 158
MATHERON, G. (1982) – Pour une analyse Krigeante des données regionalisées: Centre 
de Geostatistique, Fontainebleau, Report 732 
MYERS, D. E. (1982) – Matrix formulation of co-kriging: Math. Geology, 14:249-258 
 
OLEA, R. A. (1999) – Geostatistics for Engineers and Earth Scientists: Kluwer Academic 
Publishers 
 
PANNATIER Y. (1996) - VARIOWIN. Software for Spatial Data Analysis in 2D: Springer-
Verlag. 
http://www-sst.unil.ch/research/variowin/index.html . 
 
PARDO-IGÚZQUIZA, E & DOWD, P.A. (2002) – FACTOR2D: a computer program for 
factorial cokriging: Computers & Geosciences, 28:857-875 
 
QUEIROZ, J.C.B. (2003) –Utilização da geoestatística na quantificação do risco de 
contaminação por metais pesados na área portuária de Santana-Amapa/Brasil: Tese de 
Doutorado, Pós-Graduação em Geociências, IGCE, UNESP/Rio Claro, 199p. 
 
VALENTE, J. M. G. P. (1982) – Geomatemática. Lições de Geoestatística: Ed. 
Fundação Gorceix, vol. I-VIII. 
 
WACKERNAGEL, H. (2003) – Multivariate Geostatistics: An Introduction with 
Applications: Springer-Verlag, 3th. Ed. 387 pp. 
 
YAMAMOTO, J.K. (2001) – Avaliação e Classificação de Reservas Minerais (Editor): 
Edusp . 
 
YATES, S.R. & YATES, M.V. (1990) - Geostatistics for Waste Mangment: A User’s 
Manual for the GEOPACK (version 1.0) Geostatistical Software System: U.S. 
Environmental Protection Agency Report 600/8-90/004.