Prévia do material em texto
Análise estatística espacial de dados
geológicos multivariados
PAULO M. BARBOSA LANDIM
Professor Emérito da Universidade Estadual Paulista
Professor Voluntário do Depto. Geologia Aplicada-UNESP/Rio Claro
UNESP/campus de Rio Claro
Departamento de Geologia Aplicada - IGCE
― Laboratório de Geomatemática ―
Texto Didático 15
2006
2
Reprodução autorizada desde que citada a fonte
Norma 6023-2000/ABNT ( http://www.abnt.org.br):
LANDIM, P.M.B. Análise estatística espacial de dados geológicos multivariados..
DGA,IGCE,UNESP/Rio Claro, Lab. Geomatemática,Texto Didático 15, 158 pp. 2006.
Disponível em <http://www.rc.unesp.br/igce/aplicada/textodi.html>. Acesso em:....
SUGESTÕES
Dúvidas, questões, sugestões, etc. sobre o texto deverão ser encaminhadas para o endereço
plandim@rc.unesp.br, as quais serão sempre bem recebidas
3
1. INTRODUÇÃO
As primeiras aplicações de métodos quantitativos em Geologia coincide
com o seu estabelecimento como ciência moderna, e um exemplo disso é a
subdivisão do Terciário, por Charles Lyell em 1830, baseada na presença relativa
de espécies recentes de moluscos nos diversos estratos da Bacia de Paris, num
procedimento estatístico. A partir desse início, porém, a Geologia permanece
qualitativa e puramente descritiva e apenas nos anos 20 do século passado é que
o enfoque quantitativo começa a se tornar mais presente. Assim nessa época
William C. Krumbein propõe a amostragem geológica em bases probabilísticas e
introduz os modelos “processo-resposta”. O entendimento das relações de
causa-e-efeito para a explicação dos processos geológicos leva Andrei Vistelius,
no início dos anos 40, a iniciar a formulação da chamada Geologia Matemática.
Em que pese essas iniciativas, entre outras, a Geologia até há bem pouco tempo,
era freqüentemente considerada uma ciência baseada em interpretações
puramente qualitativas dos fenômenos geológicos. Nos últimos 40 anos, porém,
tem sido notável a mudança da fase descritiva para a utilização de métodos
quantitativos, principalmente na área da Geologia Aplicada. Na área mineral, com
destaque para a do petróleo, onde a interpretação geológica, alem de estar
fundamentada em conceitos científicos, precisa ter enfoque econômico, observa-
se, felizmente, uma marcante tendência quantitativa que vem possibilitando
avanços importantes principalmente no uso de técnicas espaciais. Ver a propósito
HOULDING (2000).
Nas últimas décadas, graças a avanços tecnológicos tanto em termos
computacionais como em equipamentos de laboratório e de campo mais
refinados, tem sido intensa a obtenção de dados geológicos quantitativos. A sua
análise, porem, esta muito aquém dessa imensa quantidade de informações
coletadas. Basta ver os relatórios de pesquisa e mesmo os bancos de dados com
um grande número de matrizes de informações não trabalhadas. Verbas e tempo
são gastos com essa coleta que precisa ser devidamente manuseada e para essa
análise dos dados o emprego de técnicas estatísticas multidimensionais torna-se
uma ferramenta fundamental. Isto porque, como os fenômenos geológicos são
resultantes de diversos fatores condicionantes, o seu entendimento é facilitado
quando o estudo é submetido a um enfoque quantitativo multidimensional. Deve
4
ser enfatizado, porem, que a pura utilização de técnicas estatísticas, e hoje em
dia bastante facilitada graças à vasta disposição de programas computacionais,
não é condição suficiente se o estudo não for embasado num sólido
conhecimento geológico.
No caso de uma única variável ter sido medida em espécimes de uma
amostra, no sentido estatístico, a análise de tais dados é feita por intermédio da
estatística univariada. Se porém valores de diversas variáveis forem obtidos em
cada um dos espécimes dessa mesma amostra, as técnicas para a análise
desses dados são fornecidas pela estatística multivariada ou multidimensional. Tal
análise estatística de mensurações múltiplas efetuadas sobre uma amostra
fornece um melhor entendimento na razão direta do número de variáveis
utilizadas e permite considerar simultaneamente a variabilidade existente nas
diversas propriedades medidas.
Pode-se afirmar que a análise multivariada é a área da análise estatística
que se preocupa com as relações entre variáveis e como tal apresenta duas
características principais: os valores das diferentes variáveis devem ser obtidos
sobre os mesmos indivíduos e as mesmas devem ser interdependentes e
consideradas simultaneamente (KENDAL, 1963). Entre os métodos mais utilizados
em Geociências destacam-se a análise de agrupamentos , a análise das
componentes principais e a análise discriminante.
A análise de agrupamentos é utilizada quando se deseja explorar as
similaridades entre indivíduos (modo Q) ou entre variáveis (modo R) definindo-os
em grupos, considerando simultaneamente, no primeiro caso, todas as variáveis
observadas em cada indivíduo e, no segundo, todos os indivíduos nos quais
foram feitas as mesmas medidas. Segundo esse método, procura-se por
agrupamentos homogêneos de itens representados por pontos num espaço n-
dimensional em um número conveniente de grupos relacionando-os através de
coeficientes de similaridade ou de distância.
A análise das componentes principais procura interpretar a estrutura de um
conjunto de dados multivariados, tanto em modo “Q” como em modo “R”, a partir
da respectiva matriz de variâncias-covariâncias ou de correlações, pela obtenção
de “autovalores” e “autovetores”. Consiste numa transformação linear das "m"
variáveis originais correlacionadas entre si em "m" novas variáveis ortogonais e
não deve ser confundida com a análise fatorial, segundo a qual supõe-se que as
5
relações existentes dentro de um conjunto de "m" variáveis seja o reflexo das
correlações de cada uma dessas variáveis com "p" fatores, mutuamente não
correlacionáveis entre si, sendo "p" menor que "m".
A análise discriminante é aplicada quando em relação a um indivíduo,
sobre o qual tenham sido feitas diversas medidas, é necessário decidir à qual de
dois ou mais possíveis grupos, o mesmo pertence. A idéia básica é substituir o
conjunto original das diversas mensurações por um único valor Di, definido como
uma combinação linear delas. Para fornecer um único valor os termos são
adicionados nessa função linear e esta transformação é realizada de tal modo a
fornecer a razão mínima entre a diferença entre pares de médias multivariadas e
a variância multivariada dentro dos dois grupos. Conhecido os Di's, estes serão
comparados com um certo Do , ou seja, o valor situado, ao longo da linha
expressa pela função discriminante, a meio caminho entre os centros dos grupos,
com a finalidade de verificar a qual deles os indivíduos pertencem.
A utilidade dos métodos multivariados pode ser apresentada em termos
geométricos. Assim, observações univariadas podem ser assinaladas sobre uma
linha reta e se essa linha for dividida em intervalos de classes e contando o
número de observações em cada intervalo, um histograma poderá ser construído.
Esse histograma irá requerer duas dimensões para a sua representação.
Observações bivariadas podem ser assinaladas em um sistema de dispersão a
duas dimensões. Se o diagrama for dividido em celas, o número de observações
em cada cela pode ser contado e o respectivo histograma construído. Esse
histograma requer três dimensões e pode ser representado por um mapa de
isovalores. Observações trivariadas podem ser assinaladas em um gráfico de
dispersão a três dimensões e a configuração nos pontos no espaço definiráuma
elipsóide. Se o espaço tri-dimensional for dividido em cubos os números de
observações dentro de cada figura geométrica poderão ser contados e obtida a
distribuição de freqüências. Para a construção do respectivo histograma quatro
dimensões serão necessárias. Em observações com quatro ou mais variáveis não
é possível a representação gráfica segundo os métodos comuns, embora MERTIE
(1949) tenha proposto para tanto complicados hipertetraedros.
Utilizando, assim, a interpretação geométrica em três dimensões para
observações trivariadas, os seguintes exemplos de procedimentos em estatística
multidimensional podem ser apresentados:
6
a) na análise das componentes principais é verificado se as observações
multivariadas ocupam um número de dimensões igual ao número de variáveis
medidas inicialmente e para tanto os eixos do elipsóide devem ser sispostos de
tal modo a colocar o centro do elipsóide coincidente com o centro do sistema de
coordenadas.
b) na análise discriminante localizam-se os centros dos elipsóides e calcula-se a
distância entre pares de centros de elipsóides;
Como salientado por DAVIS (1986), os métodos multivariados são
poderosos, permitindo o pesquisador manipular diversas variáveis
simultaneamente. São, porém, bastante complexos, tanto na sua estrutura teórica
como na metodologia operacional. Em alguns casos os testes estatísticos a
serem utilizados exigem requisitos muito rígidos e em outros, muitas vezes
quando quer relacioná-los com problemas reais, não apresentam base estatística
teórica e desse modo impossibilidade de testes de significância. De qualquer
modo, são métodos extremamente promissores para a análise de dados
geológicos tendo em vista que normalmente a maioria das situações geológica
envolve um conjunto complexo de fatores atuando no sistema, sendo impossível
isolá-los e estudá-los isoladamente.
Exemplos de situações que apresentam dados multivariados são comuns
em Geologia, como: análises geoquímicas de elementos maiores e/ou elementos
traços; caracteres morfológicos medidos em fósseis; características físicas de
rochas sedimentares, como distribuição granulométrica, porosidade,
permeabilidade; conteúdo mineralógico em rochas; variáveis fluviais, como
descarga, material em suspensão, profundidade, sólidos dissolvidos, pH e
conteúdo em oxigênio, etc.. Em alguns casos trata-se de simples extensão de
problemas ligados à estatística univariada e outros pertencem, todavia, a uma
nova classe de problemas.
Esses métodos clássicos da análise estatística multivariada não levam,
porém, em consideração a localização das amostras, no sentido geológico, nem
as suas relações espaciais e também não refletem as diferenças quanto o suporte
das amostras ou com relação ao suporte da região onde o estudo esta sendo
realizado. Por outro lado a metodologia geoestatística univariada tem essas
propriedades, mas não é capaz de tratar da correlação espacial entre diversas
7
variáveis. Ferramentas se tornaram, então, necessárias para incorporar essas
importantes feições e daí a necessidade de métodos estatísticos que enfoquem
a análise espacial de dados geológicos multivariados.
Para tanto duas soluções tem sido apresentadas: uma, adaptativa,
procurando, a partir dos resultados dos métodos clássicos, verificar se os
mesmos apresentam uma organização espacial significativa e outra, específica,
desenvolvendo metodologia própria para esta problemática, com destaque para a
krigagem fatorial.
Caso as amostras, no sentido geológico, sejam georreferenciadas os
grupos resultantes da análise de agrupamentos/modo Q poderão ser submetidos
a uma verificação espacial para a constatação de algum padrão de distribuição
espacial desses grupos. De modo idêntico os “scores”, calculados a partir da
análise das componentes principais ou da análise de fatores, que tenham suas
coordenadas geográficas conhecidas poderão fornecer mapas de distribuição ou
de tendência espacial. A análise discriminante pode ser aplicada para avaliar e
comparar alterações ocorridas a intervalos de tempo indicando que variáveis mais
contribuíram para essas mudanças. São adaptações de métodos estatísticos
multivariados procurando modelar espacial ou cronologicamente fenômenos
geológicos. Isso, porém, somente é possível se as amostras da matriz de dados
multidimensionais apresentarem perfeitamente conhecidas as suas coordenadas
geográficas.
No caso da krigagem fatorial deve-se efetuar: 1) modelagem de
corregionalização das variáveis usando o denominado modelo linear de
corregionalização: todos os p(p + 1)/2 variogramas diretos e cruzados das p
variáveis são modelados por uma combinação linear dos N´s variogramas
padronizados para um mesmo alcance (sill); nesta modelagem supõe-se que o
comportamento espacial das variáveis é o resultado da interação de diferentes
processos atuando independentemente a diferentes escalas espaciais; 2) analise
da estrutura de correlações entre as variáveis, levando em consideração as
diferentes escalas, com aplicação da análise das componentes principais; um
“círculo de correlações” entre as variáveis originais e os dois mais importantes
fatores regionalizados é utilizado para resumir as relações entre as variáveis a
cada escala espacial; 3) estimação das relações entre os fatores regionalizados e
8
variáveis, como componentes espaciais, a diferentes escalas por cokrigagem,
para, finalmente, mapeà-los.
Em qualquer das circunstâncias citadas a preocupação é com:
Descrição dos dados: os dados precisam ser explorados, tanto espacial
como cronologicamente, em sua estrutura multidimensional para o seu
entendimento e constatação de eventuais valores anômalos que possam
mascarar tal estrutura. Existem a disposição, graças à moderna tecnologia
computacional, ferramentas gráficas que permitem a visualização simultânea de
amostras no espaço e/ou no tempo e as primeiras idéias a respeito da estrutura
multidimensional podem começar a surgir a partir dessas exibições gráficas.
Interpretação: os produtos gráficos obtidos a partir das informações
numéricas são avaliados levando em consideração tanto o conhecimento já
adquirido com dados similares como fatos científicos relacionados às variáveis
sob estudo. A interpretação da estrutura espacial ou temporal, as associações e
as relações casuais entre variáveis devem, então, ser organizadas num modelo
que se ajuste aos dados.
Estimação: A modelagem, se correta, não apenas descreve o fenômeno
nos locais amostrados, mas pode se tornar válida para interpolações em locais ou
intervalos de tempo adjacentes, não amostrados, representando um passo alem
com relação às informações contidas nos dados numéricos. Na verdade este é o
grande desafio da análise multivariada de dados espaciais, a estimação de
valores para situações de previsão quantitativa.
A pretensão deste texto escrito, de maneira a mais simples possível, por
um Professor de Geologia, é apresentar uma introdução aos métodos estatísticos
multidimensionais que possam ser aplicados na análise de dados, sem uma
abordagem matemática complexa, porem sempre com um enfoque espacial e
que permita ao usuário iniciar-se na Geologia Quantitativa. Os exemplos são
voltados às Geociências, mas a metodologia pode perfeitamente ser utilizada em
outras áreas que disponham de dados com estas mesmas características, ou
seja, multivariados e regionalizados.
Existe à disposição uma variedade muito grande de livros e pacotes
computacionais e entre os principais livros textos que tratam de métodos
quantitativos em Geologia podem ser citados: MILLER & KAHN (1962), SOKAL&
SNEATH (1963), KRUMBEIN & GRAYBILL (1965), KOCH & LINK (1971), DAVIS (1973, 1986
9
E 2002), JORESKOG, KLOVAN & REYMENT (1976) , LE MAITRE (1982), HOWARTH &
SIDING-LARSEN (1985), GRIFFITH & AMRHEIN (1997), REYMENT & SAVAZZI (1999) E
WACKERNAGEL (2003).
Existem tambem diversos softwares estatísticos de aplicação geral, bem
elaborados e completos como SAS, S-Plus, Statistica, Systat, todos em constante
atualização. Dois outros, bastante amigáveis, para serem utilizados, e com boa
saida gráfica, são o MVSP e o Xlstat, este baseado no aplicativo Excel®. Um
pacote desenvolvido no Brasil voltado para aplicações em Ciências Biológicas e
Médicas é o Bioestat e um outro proveniente da Noruega, com aplicações em
Paleontologia, é o PAST, ambos obtidos gratuitamente nos endereços
mizayres.bel@orm.com.br e http://folk.uio.no/ohammer/past
Alem disso na revista “Computers & Geosciences”, editada pela
International Association for Mathematical Geology, freqüentemente são
apresentados programas listados e/ou executáveis descarregáveis a partir do
endereço www.iamg.org.
10
REFERÊNCIAS BIBLIOGRÁFICAS
AYRES, M.; AYRES JR., M.; AYRES, D. L. & SANTOS, A. S. (2000) – BioEstat 2.0: aplicações
estatísticas nas áreas das ciências biológicas e médicas: Sociedade Civil Mamirauá, MCT-
CNPq, mizayres@zaz.com.br
DAVIS, J.C. (1973) - Statistics and Data Analysis in Geology: John Wiley and Sons.
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd ed., John Wiley and Sons.
DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons.
GRIFFITH, D.A. & AMRHEIN, C.G. (1997) – Multivariate Statistical Analysis for Geographers –
Prentice Hall.
HAMMER. O. & HARPER, D.A.T. (2004) – PAST. PAlaentological STatistics, versão 1.20.
http://folk.uio.no/ohammer/past
HOULDING, S. W. (2000) - Practical Geostatistics: Modeling and Spatial Analysis: Springer
Verlag.
HOWARTH, R.J. & SINDING-LARSEN, R. (1985) - Multivariate analysis: in (G.J.S. Govett, ed.)
“Statistics and Data Analysis in Geochemical Prospecting”, vol. 2:207-289, Elsevier.
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier.
KOCH JR, G.S. & LINK, .F. (1971) - Statistical analysis of geological data: vol. 2, John Wiley &
Sons.
KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) - An introduction to Statistical Model in Geology:
McGraw Hill Book.
LE MAITRE, R.W. (1982) - Numerical Petrology. Statistical Interpretation of Geochemical Data:
Elsevier.
MERTIE JR, J.B. (1949) - Charting five and six variables on the bounding tetrahedral of hyper
tetrahedral: Am. Mineralogist, 34:706-716.
MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences: John Wiley and
Sons.
MVSP – Multi-Variate Statistical Package: Kovach Computing Services, http://www.kovcomp.co.uk
REYMENT, R.A. & SAVAZZI, E. (1999) – Aspects of Multivariate Statistical Analysis in Geology -
Elsevier.
SAS – SAS Institute, http://www.sas.com
SOKAL, R.R. & SNEATH, P.H.A. (1963) - Principles of numerical taxonomy: W.H. Freeman.
S-PLUS – Mathsoft, http://www.mathsoft.com
STATISTICA – StatSoft Inc., http://www.statsoft.com
SYSTAT – SPSS Inc., http://www.spss.com
WACKERNAGEL, H. (2003) – Multivariate Geostatistics. Springer.
XLSTAT – AddinSoft SARL, http://www.xlstat.com
11
2. ÁLGEBRA MATRICIAL
Os métodos estatísticos multivariados são quase todos eles baseados em
manipulação de matrizes, especialmente quando calculados por computador. A
álgebra matricial torna-se, portanto, uma ferramenta básica para o entendimento
desses métodos e neste capítulo são apresentadas noções elementares. Cada
tópico é acompanhado por exemplos numéricos de pequenas dimensões no lugar
de teoremas matemáticos e suas provas, que estão fora do escopo deste texto.
Maiores detalhes sobre álgebra linear podem ser encontrados, entre outros, em
AYRES JR. (1962), DAVIS (1984), FERGUNSON (1988, cap. 6 e 7) e GOLUB & VAN LOAN
(1996).
2.1. Matriz
Matriz é um arranjo bidimensional constituído por elementos xij, onde i
representa linha e j coluna. Normalmente as linhas são indivíduos e as colunas,
variáveis.
=
44434241
34333231
24232221
14131211
xxxx
xxxx
xxxx
xxxx
X
Se o número de linhas é igual ao número de colunas a matriz é conhecida
como quadrada. [X] é, portanto, uma matriz quadrada.
O número de linhas, porém, não precisa ser igual ao número de colunas:
=
=
3231
2221
1211
232221
131211
zz
zz
zz
Z
yyy
yyy
Y
[Y] é uma matriz com 2 linhas e 3 colunas e [Z] é uma matriz com 3 linhas
e 4 colunas, sendo ambas retangulares.
Uma matriz com apenas uma linha é chamada de vetor linha e uma matriz
com apenas uma coluna é chamada de vetor coluna:
12
[ ]
==
n
2
1
n11
y
y
y
Youx...xxX M
Escalar é uma matriz com dimensões 1x1.
Matriz diagonal é uma matriz quadrada onde os elementos fora da diagonal
principal são todos iguais a 0 (zero):
=
33
22
11
x00
0x0
00x
X
Matriz de identidade ou matriz unitária é uma matriz quadrada onde os
elementos da diagonal principal são todos iguais a 1 e os demais 0 (zero):
=
100
010
001
I
2.2. Operações com matrizes
Transposição: permuta linhas por colunas e vice-versa; representada por
[ ]’, de modo que um elemento aij em [A] passa a ser aji em [A]’
=
=
935563
784848
122833
'Aentão,
937812
554028
634833
Ase
Adição e subtração: similar à álgebra linear. O número de linhas e de
colunas precisa ser igual nas duas matrizes a serem adicionadas ou subtraídas
=
++
++=
+
115
83
4723
3512
42
31
73
52
13
Multiplicação: para efetuar a multiplicação, por exemplo [A]*[B]=[C], o
número de linhas em [B] deve ser igual ao número de colunas em [A]. O resultado
em [C] terá o mesmo número de linhas que [A] e o mesmo número de colunas
que [B]
lkjklj CB*A =
A formula geral para determinar cada elemento em [C] é
∑
=
=
r
1k
kjikij b*ac
onde r é o número de colunas em [A] ou linhas em [B]. Isto significa que, por
exemplo para c11, deve-se multiplicar a primeira linha em [A] vezes a primeira
coluna em [B]; para encontrar c23 multiplicar a segunda linha de [A] pela terceira
coluna de [B]
=
+++
+++
+++
=
101734
142142
121938
)2*3()1*4()3*3()2*4()6*3()4*2(
)2*7()1*0()3*7()2*0()6*7()4*2(
)2*5()1*2()3*5()2*2()6*5()4*2(
236
124
*
34
70
52
Importante notar que o resultado de [A]*[B] geralmente não é o mesmo que
[B]*[A]:
=
5720
3712
34
70
52
*
236
124
Multiplicação por escalar: cada elemento da matriz é multiplicado pelo
escalar
=
219
153
73
52
*3
Determinantes: número singular associado a uma matriz quadrada. O
determinante da matriz [A] é representado por |A|.
Para uma matriz de dimensões 2x2 o determinante é calculado pelo
produto e uma diagonal menos o produto da outra diagonal:
14
)a*a()a*a(
aa
aa
21122211
2221
1211 −=
Inverso de uma matriz
Como não há divisão em álgebra matricial,o procedimento adotado é
utilizar o inverso da matriz. Na álgebra linear se A*B = C, para resolver A calcula-
se
B
CA = ou também
B
1*CA = . O inverso da matriz é análogo a
B
1 .
O inverso de uma matriz [X] é representado por [X]-1 e para o seu cálculo é
necessário satisfazer a condição [X[*[X]-1=[I]. Em algumas situações isso não é
possível porque é encontrada uma divisão por zero durante o processo de
inversão. Nesse caso, de impossibilidade de inversão, a matriz é conhecida como
singular.
Esta é uma das mais importantes técnicas em álgebra matricial e
essencial para a solução de sistema de equações simultâneas do tipo:
[A]*[X]=[B],
onde [A] e [B] contem valores conhecidos e [X] valores desconhecidos a serem
determinados. .
Multiplicando ambos os lados da equação por [A]-1
[A]-1*[A]*[X]=[A]-1*[B],
Como [A]-1*[A]=[I], a equação se reduz para
[X]=[A]-1*[B]
Seja o seguinte sistema de equações onde se quer determinar x1 e x2
04x1+10x2= 38
10x1+30x2=110
Em notação matricial:
=
110
038
x
x
*
3010
1004
2
1
Para encontrar os valores xi, basta inverter a matriz [A] e multiplicar o
inverso pelo vetor coluna [B]
15
O inverso de [A] é encontrado da seguinte maneira:
10
01
3010
1004
10
025,0
3010
5,201
−
15,2
025,0
0510
5,201
−
2,05,0
025,0
010
5,201
−
−
2,05,0
5,05,1
10
01
Verificação da inversão de matriz:
=
−
−
10
01
3010
1004
*
2,05,0
5,05,1
Cálculo dos xi:
=
−
−
3
2
110
038
*
2,05,0
5,05,1
x1=2 e x2=3
2.3. Algumas matrizes especiais
2.3.1. Matriz de coeficientes de correlação
A matriz original de dados é constituída por m indivíduos e n variáveis, em
que cada linha i representa um indivíduo e cada coluna j uma variável.
16
=
n.m3,m2,m1,m
n,33,32,31,3
n,23,22,21,2
n,13,12,11,1
xxxx
xxxx
xxxx
xxxx
]X[
L
MMMM
L
Para o cálculo de uma matriz de coeficientes de correlação a seguinte
seqüência deve ser obedecida:
1. Encontrar para cada coluna a respectiva média e o desvio padrão:
m
x
x jj
Σ= ;
1m
m
)ix(
ix
S
2
2
j −
Σ−Σ
= ; 2ji ss =
2. Encontrar o valor zij para cada observação:
3. A partir daí, constituir a matriz [ ]Z , também de dimensões nxm:
=
n.m3,m2,m1,m
n,33,32,31,3
n,23,22,21,2
n,13,12,11,1
zzzz
zzzz
zzzz
zzzz
]Z[
L
MMMM
L
4. Encontrar o transposto da matriz [Z]
=
n,mn,3n,2n,1
2,m2,32,22,1
1,m1,31,21,1
'
zzzz
zzzz
zzzz
]Z[ MMMM
5. Multiplicando [Z]’ por [Z], encontrar a matriz [V], de dimensões nxn
[V] = [Z]’ [Z]
j
ij
ij s
jxxz
−=
17
=
2
n2n1n
n2
2
212
n121
2
1
vvvvv
vvvvv
vv...vvv
]V[
MMM
6. Finalmente, calcular a matriz de coeficientes de correlação, multiplicando o
escalar 1m
1− por [V]
[ ]
=−=
n,n2,n1,n
n,22,21,2
n,12,11,1
rrr
rrr
rrr
V
1m
1]R[ MMM
L
L
Exemplo
=
444
345
321
432
321
]X[
Médias: x1=2,6; x2=3,0; x3=3,4
Desvios padrão: s1 = 1,8; s2=1,0; s3=0,55
-0,889 -1,000 -0,727
-0,333 0,000 1,091
[Z] = -0,889 -1,000 -0,727
1,333 1,000 -0,727
0,778 1,000 1,091
-0,889 -0,333 -0,889 1,333 0,778
[Z]'= -1,000 0,000 -1,000 1,000 1,000
-0,727 1,091 -0,727 -0,727 1,091
4,074 3,889 0,809
[V]= 3,889 4,000 1,818
0,808 1,818 3,967
18
1,000 0,972 0,202
[R]= 0,972 1,000 0,455
0,202 0,455 1,000
2.3.2. Matriz de variâncias e covariâncias
A matriz original de dados é constituída por m indivíduos e n variáveis, em
que cada linha i representa um indivíduo e cada coluna j uma variável.
=
n.m3,m2,m1,m
n,33,32,31,3
n,23,22,21,2
n,13,12,11,1
xxxx
xxxx
xxxx
xxxx
]X[
L
MMMM
L
Para o cálculo de uma matriz de variâncias e covariâncias a seguinte
seqüência deve ser obedecida:
1. Encontrar a média de cada coluna e subtrair esse valor de cada elemento:
m
x
x jj
Σ= ; jij*ij xxx −=
=
n.m3,m2,m1,m
n,33,32,31,3
n,23,22,21,2
n,13,12,11,1
*x*x*x*x
*x*x*x*x
*x*x*x*x
*x*x*x*x
*]X[
L
MMMM
L
2. Criar uma matriz de somas de quadrados e produtos cruzados [A], pela
multiplicação de [X*]’ por [X*], de dimensões nxn.
=
n,mn,3n,2n,1
2,m2,32,22,1
1,m1,31,21,1
'
*x*x*x*x
*x*x*x*x
*x*x*x*x
*]X[ MMMM
[A] = [X*]’ [X*]
19
=
2
n2n1an
n2
2
212
n121
2
1
aaaa
aaaaa
aa...aaa
]A[
MMM
3. Finalmente criar uma matriz de variâncias e covariâncias [S] multiplicando o
escalar 1m
1− por [A]
[ ]
=−=
n,n2,n1,n
n,22,21,2
n,12,11,1
sss
sss
sss
A
1m
1]S[ MMM
L
L
Exemplo
=
444
345
321
432
321
]X[
Médias: x1=2,6; x2=3,0; x3=3,4
-1,6 -1 -0,4
-0,6 0 0,6
[X*]= -1,6 -1 -0,4
2,4 1 -0,4
1,4 1 0,6
-1,6 -0,6 -1,6 2,4 1,4
[X*]’= -1 0 -1 1 1
-0,4 0,6 -0,4 -0,4 0,6
13,2 7 0,8
[A]= 7 4 1
0,8 1 1,2
20
3,30 1,75 0,20
[S]= 1,75 1,00 0,25
0,20 0,25 0,30
2.3.3. Autovalores (eingenvalues) e Autovetores (eigenvectors)
Este tópico é geralmente considerado de difícil entendimento dentro da
álgebra matricial, não tanto pela maneira de cálculo, mas principalmente pelo
entendimento que se possa ter de seu resultado. Uma interpretação geométrica
como apresentada a seguir, baseada em GOULD (1967), pode ajudar a entender o
significado de autovalores e autovetores. Considerando os valores de uma matriz
como coordenadas de pontos num espaço multidimensional, autovalores e
autovetores passam a ser propriedades geométricas do arranjo desses pontos.
Seja um conjunto de equações simultâneas:
[A][X] = λ[X],
onde a matriz de coeficientes aij’s [A] multiplicada por um vetor de desconhecidos
xi’s [X] é igual a este vetor [X] multiplicado por uma constante λ.
Para encontrar os valores de λi que satisfaçam a relação acima, a equação
pode ser reescrita como:
([A] – λ[I])[X] = 0,
onde λ[I] é a matriz de identidade, de dimensões 3x3, multiplicada por λ:
λ
λ
λ
00
00
00
Cálculo das raizes da equação (autovalores) para uma matriz 3 x 3:
(a11 – λ)x1 + a12 x2 + a13x3 = 0
a21x1 + (a22 – λ)x2 + a23x3 = 0
a31x1 + a32 x2 + (a33 – λ)x3 = 0
Como exemplo, seja a seguinte matriz de dados:
21
158
237
324
421
Para essa matriz de dados é encontrada a seguinte matriz de coeficientes
de correlação [A]
−−
−
−
=
000,1913,0980,0
913,0000,1820,0
980,0820,0000,1
]A[ ,
com variância total no sistema: 1+1+1=3
•Para o calculo dos autovalores:
0
000,1913,0980,0
913,0000,1820,0
980,0820,0000,1
]I[]A[ =
λ−−−
−λ−
−λ−
=λ−
Desenvolvendo:
(1,000 - λ)(1,000 - λ)(1,000 - λ) + (0,820)(- 0,913)(- 0,980) + (- 0,980)(0,820)
(- 0,913) - (- 0,980)(1,000 - λ)(- 0,980) - (1,000 - λ)(- 0,913)(- 0,913) -
(0,820)(0,820)(1,000 - λ) =
≅ (λ - 2,810)(λ - 0,188)(λ - 0,002)
Autovalores são iguais a: λ1 = 2,810; λ2 = 0,188; λ3 = 0,002 (soma = 3)
% da variância total explicada por cada autovalor:
λ1 = (2,810/3)*100 = 93,66
λ2 = (0,188/3)*100 = 6,27
λ3 = (0,002/3)*100 = 0,07
• Para o cálculo dos correspondentes autovetores:
Componentes do autovetor V1:
(1,000 - 2,810)X1 + 0,820X2 - 0,980X3 = 0
0,820 - (1,000 - 2,810)X2 - 0,913X3 = 0
-0,980X1 - 0,913X2 - (1,000 - 2,810)X3 = 0
22
X1 = - 1,000; X2 = - 0,974; X3 = 1,032
V1 = - 1,000
- 0,974
1,032
Padronização do autovetor V1 para o tamanhao unitário
Q = -12 + (-0,974)2 + (1,032)2 = 3,012
Q = 1,735
Vn1 = -1/1,735 = -0,58
Vn1 = - 0,974/1,735 = - 0,56
Vn1 = 1,032/1,734 = 0,59
Componentes do autovetor V2:
(1,000 – 0,188)X1 + 0,820X2 - 0,980X3 = 0
0,820 - (1,000 – 0,188)X2 - 0,913X3 = 0
-0,980X1 - 0,913X2 - (1,000 – 0,188)X3 = 0
Vn2 = -0,60
Vn2 = 0,79
Vn2 = 016
.....
Autovetores
F1 F2 F3
Var1 -0.58 -0.60 0.56
Var2 -0.56 0.79 0.26
Var3 0.59 0.16 0.79
Factor loadings (carregamento das variáveis nas componentes principais):
)dentecorresponautovaloropadronizadautovetor( ∗ )
F1 F2 F3
Var1 -0.97 -0.26 0.03
Var2 -0.94 0.34 0.01
Var3 1.00 0.07 0.04
23
Em termos geométricos:
Variáveis
V1
V2
V3
-1
-0,5
0
0,5
1
-1 -0,5 0 0,5 1
Eixo F1: 94%
E
ix
o
F2
: 6
%
A matriz original de dados ao ser multiplicada pela matriz de autovalores
fornecera a matriz de contagens (scores).
“factor scores” =
158
237
324
421
*
−
−−
79,016,059,0
26,079,056,0
56,060,058,0
F1 F2 F3
Obs1 2.10 0.45 0.03
Obs2 0.93 -0.35 -0.07
Obs3 -0.69 -0.51 0.06
Obs4 -2.34 0.41 -0.02
24
Em termos geométricos:
Observações
A4
A3 A2
A1
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
Eixo F1: 93.66 %
E
ix
o
F2
: 6
.2
7
%
• Rotação de matriz
A orientação dos autovetores no espaço multivariado é determinada pela
direção da máxima variância. Como a contribuição da variância para cada
autovetor deve ser maximizada, há necessidade de rotação da matriz fatorial
inicial
Matriz fatorial inicial:
Fatores
F1 F2
X1 0,966 - 0,259
X2 0,940 0,340
X3 - 0,997 0,070
• Rotação dos fatores (pelo critério varimax):
Rotação ortogonal de uma matriz de carregamentos [X], em um novo
conjunto de coordenadas [X’], requer uma matriz operacional [T]
[X’] = [T] [X]
25
ΘΘ
Θ−Θ=
2
1
'
2
'
1
X
X
cossen
sencos
X
X
ângulo de rotação Θ = ?, para variavel “j” e fatores “p” e “q”
]/n)XX(2-)XX[(-)XX(2-)X-X(
]/nXX)X-(X[4-)X-(XX2X4
4tan
J
2
JQJP
J
22
JQ
2
JP
J
2
JQJP
J
22
JQ
2
JP
J
JQJP
J
2
JQ
2
JP
J
2
JQ
2
JPJQJP
∑∑∑∑
∑∑∑
Σ=Θ
2
JQ
2
JPJ XXU −=
JQJPJ XX2V =
∑=
J
JUA = 2,6222; A
2 = 6,8789
∑=
J
JVB = -0,0001; B
2 = 0,0000
∑ −=
J
2
J
2
J )VU(C = 1,6365
∑=
J
JJ )VU(2D = -0,0797
n/)BA(C
n/AB2D4tan 22 −−
−=θ = - 0,1592/- 0,6555 = 0,2429
arctan 0,2429 = -166° 21’ = 4Θ; Θ = 41° 17’
sen Θ = - 0,6598
cos Θ = 0,7515
−
−=
7515,06598,0
6598,07515,0
]T[
−
−=
2J
1J
'
2J
'
1J
X
X
7515,06598,0
6598,07515,0
X
X
12121111
'
11 XTXTX += X’1j = (0,9656)(0,715) + (- 0,2590)(- 0,6598) = 0,894
26
• matriz fatorial rotacionada:
Fatores
F’1 F’2
X1 0,894 0,447
X2 0,477 0,879
X3 - 0,792 - 0,609
Em termos geométricos:
Variáveis
V3
V2
V1
-1,1
-0,6
-0,1
0,4
0,9
-1,1 -0,6 -0,1 0,4 0,9
Eixo F1: 94.30 %
E
ix
o
F2
: 5
.7
0
%
27
Variáveis depois da rotação
varimax
V3
V2
V1
-0,94
-0,74
-0,54
-0,34
-0,14
0,06
0,26
0,46
0,66
0,86
-0,9
4
-0,7
4
-0,5
4
-0,3
4
-0,14 0,06 0,26 0,46 0,66 0,86
Eixo F1: 54.82
Ei
xo
F
2:
4
5.
17
%
Observações
A4
A3
A2
A1
-1,3
-0,8
-0,3
0,2
0,7
1,2
-1,3 -0,8 -0,3 0,2 0,7 1,2
Eixo F1: 94.30 %
E
ix
o
F2
: 5
.7
0
%
28
Observações depois da rotação
varimax
A4
A3 A2
A1
-1,6
-1,1
-0,6
-0,1
0,4
0,9
1,4
-1,6 -1,1 -0,6 -0,1 0,4 0,9 1,4
Eixo F1: 54.82 %
Ei
xo
F
2:
4
5.
17
%
Gráfico mostrando o arranjo espacial dos pontos Xi em 2D antes e depois
da rotação dos eixos F1 e F2
29
REFERÊNCIAS BIBLIOGRAFICAS
AYRES JR., F. (1962) – Schaum’s Outline of Theory and Problems of Matrices: Schaum Publ. Co.
DAVIS, P.J. (1984) – The Mathematics of Matrices: R.E. Krieger Publ. Co
FERGUNSON, J. (1988) – Mathematics in Geology: Allen & Unwin Ltd.
GOLUB, G.H. & VAN LOAN, C.F. (1996) – Matrix Computations, 3rd. ed.: Johns Hopkins Univ.
Press.
GOULD, P. (1967) – On the geographic interpretation of eigenvalues: An initial exploration: Trans.
Inst. British Geographers, n. 42, p. 53-86
30
3. REGRESSÃO LINEAR MÚLTIPLA
As relações entre duas variáveis "X", considerada independente, e "Y",
considerada dependente, pode ser representada num diagrama de dispersão,
com os valores yi em ordenada e os xi em abcissa. Cada par de valores xi e yi
fornecerá um ponto e utilizando-se, por exemplo, o método dos desvios mínimos
ao quadrado, pode-se calcular a equação de uma curva de tendência que melhor
se ajuste à nuvem de distribuição. O método mais simples que pode ser adotado
é o da análise de regressão linear simples que fornece a equação de uma reta:
,iixiy ε+β+α= onde α e β são constantes desconhecidas a serem
determinadas e εi representa toda a fonte de variabilidade em Y não explicada
por X. Operacionalmente neste caso encontra-se a equação da reta para a
previsão dos valores yi :
,bxay += onde a e b são os coeficientes que determinam a intersecção e
a inclinação da linha de tendência.
Não é raro, porém, que o termo εi seja numericamente mais importante
que a explicação motivada pela variável X, significando que outras variáveis
devem ser incorporadas ao modelo a fim de explicar o comportamento de Y. O
modelo exige então uma "análise de regressão linear múltipla”.
A regressão múltipla é usada, portanto, para testar dependências
cumulativas de uma única variável dependente em relação à diversas variáveis
independentes. Cada uma dessas variáveis é isolada e mantida constante
enquanto as variáveis restantes variam sistematicamente, sendo observados os
seus efeitos sobre a variável dependente. A variável a ser inicialmente mantida
constante é aquela que ocasiona a maior influência na variabilidadeda variável
dependente.
O modelo geral é representado por
imimi11oi xxy ε+α++α+α= L
A condição inicial, como na regressão linear simples, é descrita por
,exaay 1x1o ++= onde xi é a variável independente, responsável pela
maior variabilidade, ao e a1 são os coeficientes e e1 é o erro, isto é, a variabilidade
em Y não explicada pela relação linear. A variável que, em seguida, mais reduz a
variabilidade do erro é em seqüência adicionada de tal modo que
31
22211o exbxbby +++= , sendo 21o beb,b calculados e 12 ee < .
O processo segue por etapas até que o comportamento de todas as
variáveis independentes em relação à dependente seja verificado. Os coeficiente
“bi” são conhecidos como parciais de regressão porque cada um deles fornece a
taxa de mudança na variável dependente correspondente à respectiva variável
independente, mantendo constantes as demais variáveis independentes.
A equação que representa a relação linear entre uma variável dependente
(yi) e uma única variável independente (xi) é:
11oi xaaY +=
As equações normais que fornecem os valores de ao e a1 são:
211o1 xanaY ∑+−∑ ( 1 )
211ioii xaXaYX ∑+∑+∑ ( 2 )
As equações ( 1 ) e ( 2 ) constituem um par de equações normais a duas
incógnitas, as quais podem ser resolvidas para a obtenção dos coeficientes, por
cálculo matricial, segundo:
YXA
]Y[]A[]X[
=
Multiplicando ambos os termos da equação pelo inverso de [X], isto é,
1]X[ − :
Y]X[]A[]X[]X[ 11 −− =
Como ]I[]X[.]X[ 1 =− (matriz de identidade)
e ]A[]A[]I[ =
]Y[]X[]A[ 1 =−
Por extensão, a análise de regressão múltipla linear de quaisquer m
variáveis independentes sobre uma variável dependente, sendo expressa por:
mimi22i11oi XbXbXbbY ++++= L
pode ser resolvida segundo:
32
]Y[]B[]X[
yx
yx
yx
y
b
b
b
b
xxxx
xxxxx
xx
xxn
imi
ii2
ii1
i
m
2
1
o
2
mii1mimi
mii2i1i2i2
mixi1
2
i1xi1
mii1
∑
∑
∑
∑
=
∑∑∑
∑∑∑
∑∑∑
∑∑
L
M
L
L
L
]Y[]X[]B[ 1−=
Para verificar se o modelo obedece a uma regressão múltipla é aplicada a
análise de variância (ANOVA).
Fonte de
variação g.l.
Soma de
quadrados
Média
quadrática Razão F
Regressão m SSR MSR MSR/MSD
Resíduos n-m-1 SSD MSD
Total n-1
H0: β1= β2= β3=... βm=0
H1: pelo menos um β é diferente de 0
A variância total de Y é em parte "explicada" pelas diversas variáveis X's e
o restante pela variabilidade devido ao erro (ε1). É claro que o termo "explicada"
tem apenas um significado numérico não implicando necessariamente em um
conhecimento causa-efeito sobre o porquê da relação existente.
Os tamanhos relativos dessas duas componentes de variância são
obviamente de grande interesse quando da aplicação da análise de regressão
múltipla. A proporção da variância dos Y observados "explicada" por uma
equação de regressão ajustada é representada pelo coeficiente de determinação
R².
2
y
2
y2
s
s
total) (variância
regressão) de análise pela explicada Y de (variânciaR ==
Valores de R2 irão dispor-se no intervalo 0-1, fornecendo uma medida
dimensional de quantidade do ajuste do modelo de regressão múltipla aos dados.
Se o valor de R² for próximo de 1 isso significa que as diversas variáveis X's
medidas são responsáveis quase que totalmente pela variabilidade de Y. Caso
contrário, R² apresentará um valor próximo a zero.
33
Uma das mais importantes aplicações da análise de regressão múltipla é a
escolha, entre diversas variáveis independentes, daquelas mais úteis na previsão
de Y. A questão se torna, então, saber se certas variáveis explanatórias podem
ser retiradas, ou não, do modelo de regressão.
Teste de hipótese par βk: t* = bk/sbk
H0: βk = 0
H1: βk ≠ 0
Critério do teste:
Se |t* |≤t(1-α/2;n-p), aceita-se a hipótese nula, caso contrário rejeita-se a
mesma.
Como os coeficientes de regressão são parciais devem ser obtidas as
porcentagens explicadas da soma de quadrados de Y segundo 2 1k −
combinações, onde k é o número de variáveis independentes. Finalmente verifica-
se a contribuição pura de cada variável independente por comparações
sucessivas entre os diversos resultados.
Outra maneira para a ordenação das variáveis pela sua importância na
previsão da variável dependente é a padronização dos coeficientes de regressão
parciais, convertendo-os em unidades de desvio padrão, (Bk ), (LI 1964, p. 136):
B b S
Sk k
k
Y
= ,
onde bk = coeficiente de regressão parcial; Sk= desvio padrão de Xk ;
Sy= desvio padrão de Y.
Pela comparação direta dos Bk determinam-se as variáveis mais
eficientes.
Embora a regressão múltipla seja multivariada no sentido de que mais de
uma variável é medida simultaneamente em cada observação, trata-se na
realidade de uma técnica univariada, pois o estudo é apenas em relação à
variação da variável dependente Y, sem que o comportamento das variáveis
independentes, Xs, seja objeto de análise.
Finalmente, alguns cuidados que se deve tomar quando da utilização da
análise de regressão:
a) as relações entre as variáveis devem ser lineares
34
b) evitar um número inferior de casos em relação ao número de variáveis
consideradas; é recomendado que tal relação seja da ordem de 10 a 20 vezes
superior
c) evitar variáveis independentes redundantes, isto é, que tenham um alto
coeficiente de correlação entre si
d) verificar, utilizando resíduos, a presença de valores anomalos
3.1. Exemplo com enfoque “clássico”
HARRISON &KRUMBEIN (1964), estudaram a influência de alguns processos
praiais no condicionamento do ângulo de inclinação do fundo oceânico situado
logo após à linha da maré baixa a estirâncio (variável dependente, Yi). Quatro
processos independentes foram medidos: período das ondas, em segundos (X2i);
altura das ondas, em pés (X3i); ângulo de aproximação das ondas, em pés (X4i);
profundidade da lâmina d’água, em pés (X5i); Além disso foi considerada uma
variável, que está condicionada por essas quatro, ou seja, o diâmetro médio, em
mm, do sedimento do fundo oceânico (X1i), mas que também é independente em
relação à inclinação do fundo oceânico.
Locais Yi X1i X2i X3i X4i X5i
01 0.68 0.79 7.80 1.82 30.00 12.40
02 0.85 0.65 8.00 8.84 25.00 11.40
03 0.66 0.81 9.03 5.12 35.00 10.70
04 0.50 0.74 6.56 5.43 40.00 11.60
05 1.86 0.22 5.90 1.42 30.00 11.30
06 2.33 0.23 8.40 1.09 30.00 10.70
07 2.17 0.25 12.00 1.15 25.00 11.10
08 1.83 0.26 4.80 8.53 25.00 12.80
09 1.68 0.41 10.80 6.11 10.00 13.30
10 2.05 0.55 10.40 1.60 30.00 13.30
11 1.83 0.47 10.80 1.04 30.00 14.10
12 1.84 0.59 7.90 1.02 35.00 13.40
13 1.87 0.47 4.30 1.11 30.00 13.50
14 1.82 0.50 10.80 0.62 35.00 13.30
15 1.85 0.52 3.80 1.69 30.00 14.40
16 1.75 0.47 4.10 1.22 20.00 14.10
17 1.51 0.42 4.50 2.13 30.00 15.30
18 1.38 0.37 6.10 1.47 20.00 14.00
A questão é saber qual a importância de cada uma dessas 5 variáveis para
o controle da inclinação do fundo oceânico.
Para tanto, inicialmente, foi aplicada uma análise de variância aos dados.
35
Fonte g.l.
Soma de
quadrados
Média
quadrática Razão F Pr > F
Regressão 5 3,9727 0,7945 8,7969
0,001
4
Resíduos 12 1,0839 0,0903
Total
51
2 5,0566
.
A análise de variância aplicada forneceu um F calculado igual a 8,7969,
superior ao F tabelado (F0.05;5,12 = 3,1059). O valor de F é significativo (p = 0,0014)
indicando rejeição à hipótese nula e aceitação da hipótese alternativade que pelo
menos uma das variáveis independentes condiciona o comportamento da variável
dependente.
. A equação para a regressão linear múltipla encontrada foi:
YI = 1,1858 – 2,3524X1I + 0,0447X2 – 0,0459X3 + 0,0082X4 + 0,0854X5
com um coeficiente de determinação ( R² ) igual a 0,7857, significando que as
variáveis independentes explicam 78,7% do comportamento de Yi.
Com relação aos coeficientes parciais de regressão, confrontados com o
teste “t”, os seguintes resultados foram obtidos
Coeficiente Valor Variável Teste t Pr > t
b0 1,1858 0,9984 0,3377
b1 -2,3524 X1 -4,8511 0,0004
b2 0,0447 X2 1,4496 0,1727
b3 -0,0459 X3 -1,3560 0,2000
b4 0,0082 X4 0,5922 0,5647
b5 0,0854 X5 1,2841 0,2233
Como na tabela de distribuição teórica de “t” encontra-se o valor crítico
t(0.05:12) = 1.782, pode-se concluir que apenas o coeficiente parcial de regressão b1 é
significante. Em outras palavras a granulometria media do sedimento é a variável
que mais explica a variação do fundo oceânico na zona de “surf”.
Adotando o critério “stepwise” (passo a passo), para verificar a evolução do
R2 à medida que novas variáveis são adicionadas para a analise de regressão, os
seguintes resultados foram obtidos
Variáveis no modelo
de regressão
Variável mais
importante escolhida R²
1 X1 0,629
2 X3 0,739
3 X2 0,756
4 X5 0,779
36
Uma outra maneira para determinar a importância relativa de cada uma
dessas variáveis é verificar todas as possíveis combinações dos coeficientes
parciais:
Combinações Porcentagem da soma de
quadrados de Y explicada
X1 63,1
X2 1,1
X3 23,7
X4 5,6
X5 5,2
1,2 65,5
1,3 74,1
1,4 64,2
1,5 66,4
2,3 24,4
2,4 6,5
2,5 9,1
3,4 36,1
3,5 24,4
4,5 8,9
1,2,3 75,9
1,2,4 66,8
1,2,5 71,8
1,3,4 74,1
1,3,5 74,8
1,4,5 68,6
2,3,4 36,5
2,3,5 25,9
2,4,5 12,0
3,4,5 36,2
1,2,3,4 75,9
1,2,3,5 78,1
1,2,4,5 75,3
1,3,4,5 74,9
2,3,4,5 36,5
X1, X2, X3, X4, X5 78,7
37
Combinações mais importantes Porcentagem da soma de
X1 X2 X3 X4 X5 quadrados de Y explicada
1 63,1
3 23,7 uma por vez
4 5,6
1 3 74,1
1 5 66,4 duas por vez
1 2 65,5
1 2 3 75,9
1 3 5 74,8 três por vez
1 3 4 74,1
1 2 3 5 78,1
1 2 3 4 75,9 quatro por vez
1 2 4 5 74,9
1 2 3 4 5 78,7 cinco por vez
Contribuição pura em % de cada variável
Granulometria média 63.1
Altura da onda 74,1 – 63,1 11.0
Período da onda 75,9 – 74,1 1.8
Profundidade 78,1 – 75,9 2.2
Ângulo de aproximação 78,7 – 78,1 0.6
78.7
Novamente a variável mais importantes para o “controle” da inclinação do
fundo oceânico foi granulometria média (Xi), seguida de altura da onda (X3).
3.2. Exemplo com enfoque “espacial”
Comparação entre mapas têm sido preocupação dos geólogos, pela sua
utilidade na localização espacial e mesmo interpretação de qualquer banco de
dados temático. Se existem, porém, diversos algoritmos à disposição para a
confecção de mapas o mesmo não pode ser afirmado em relação à comparação
entre mapas. Alguns trabalhos que tratam do assunto podem ser encontrados em
38
BROWER & MERRIAM (1990, 1992) usando técnicas estatísticas; e HERZFELD &
SONDERGARD (1988); HERZFELD & MERRIAM (1991) usando técnicas algébricas
orientadas para uso em computador. Um interessante enfoque é apresentado por
BROWER & MERRIAM (2001) que utilizam a análise de regressão múltipla para
comparar mapas de contorno estrutural com finalidade de entender a história
geológica de uma certa região. Se a variável considerada dependente for a
camada mais jovem e as demais camadas as variáveis independentes, pode-se
verificar qual delas teve maior influência na configuração dessa camada mais
jovem.
Utilizando essa idéia LEITE & LANDIM (2003) aplicaram a análise de
regressão múltipla para quantificar a influência de diversas variáveis no
comportamento da superfície potenciométrica de um aqüífero livre (H),
considerada como variável dependente. As variáveis consideradas independentes
foram cota do terreno (Z), base da formação aqüífera ou cota do topo do basalto
(TB), espessura da formação aqüífera (FM), e coordenadas UTM (X e Y). Esses
valores foram obtidos a partir de 188 poços.
ID X Y H Z TB FM
1 486450 7714380 291.189 296.429 217.2 79.23
2 486630 7714170 289.067 290.612 217.2 73.41
3 486850 7717900 315.241 329.716 217.2 112.52
4 486680 7718240 317.682 344.277 217.2 127.08
5 486690 7717400 309.052 328.542 217.2 111.34
6 486580 7717100 308.604 328.274 217.2 111.07
7 486480 7716800 304.559 327.428 217.2 110.23
8 486560 7716520 302.352 315.592 217.2 98.39
9 486400 7716100 299.957 311.337 217.2 94.14
10 486070 7716150 303.822 325.457 217.2 108.26
11 485900 7715630 294.954 309.294 217.2 92.09
12 485510 7716020 293.871 318.611 217.2 101.41
13 492430 7719100 340.94 350.875 217.2 133.67
14 492610 7718200 342.341 354.741 217.2 137.54
15 490450 7716520 314.986 323.636 217.2 106.44
16 490800 7717170 315.645 318.945 217.2 101.74
17 491110 7719280 339.994 357.334 276.61 80.73
18 490970 7718950 339.635 343.945 275.98 67.96
19 490780 7718340 331.465 348.535 271.98 76.55
20 490500 7718030 329.644 345.289 272.92 72.37
21 490180 7716840 309.333 309.333 255.97 53.37
22 489940 7716980 314.421 324.011 266.19 57.82
23 489680 7716700 309.574 314.339 273.96 40.38
24 489240 7716800 320.553 336.913 289.16 47.75
25 488910 7716510 319.572 331.902 295.78 36.12
39
26 489070 7716340 313.844 325.134 291.7 33.43
27 489310 7716190 306.693 319.468 286.14 33.32
28 489930 7715900 309.23 319.175 217.2 101.97
29 489060 7715800 306.059 322.889 295.57 27.32
30 488850 7715240 301.6 309.85 305.17 4.68
31 489380 7714810 304 315.205 217.2 98
32 487880 7715530 303.3 315.88 306.75 9.13
33 487100 7715460 293.445 315.035 311.5 3.53
34 487310 7715940 301.393 321.143 314.05 7.1
35 487510 7716030 306.945 330.475 311.62 18.85
36 487240 7716270 301.731 313.431 320.52 0
37 487670 7716830 314.373 329.643 318.09 11.56
38 487600 7717580 314.439 320.469 317.13 3.34
39 487400 7716640 313.914 316.489 320.33 0
40 487340 7717370 312.307 312.387 318.25 0
41 487110 7717370 310.257 314.562 217.2 97.36
42 487060 7717710 313.124 321.144 217.2 103.94
43 487290 7718000 314.958 318.208 217.2 101.01
44 487279 7718226 316.01 326.695 217.2 109.49
45 487800 7717970 318.55 330.06 319.17 10.89
46 488240 7718560 326.71 340.665 323.48 17.19
47 488070 7718660 322.91 330.4 322.85 7.55
48 488320 7718900 326.546 335.166 322.59 12.58
49 488510 7719040 328.253 340.693 322.07 18.63
50 487050 7718560 319.844 341.789 217.2 124.59
51 490100 7719190 343.673 369.283 295.23 74.06
52 487400 7716960 310.772 318.922 320.25 0
53 487790 7717160 315.613 330.443 317.1 13.34
54 487835 7717675 319.285 330.405 317.77 12.63
55 488025 7717850 322.906 338.746 319.09 19.66
56 488400 7718215 329.23 351.46 322.49 28.97
57 488460 7717960 329.427 350.687 319.97 30.72
58 487850 7716770 316.643 335.043 315.46 19.59
59 488095 7717515 323.488 336.278 316.84 19.43
60 488100 7717310 322.822 338.492 315.61 22.88
61 488499 7718069 330.254 352.544 321.14 31.41
62 487820 7716415 313.403 339.123 312.73 26.4
63 488070 7716830 319.43 336.13 312.93 23.2
64 488790 7718370 333.417 352.867 323.95 28.92
65 489300 7718935 340.285 356.655 317.83 38.83
66 488280 7716265 318.283 334.233 305.48 28.75
67 488478 7716358 319.171 333.491 303.23 30.26
68 489263 7717831 329.833 344.383 308.58 35.8
69 489330 7717190 326.779 339.849 291.86 47.99
70 489645 7717725 331.372 344.902 294.1 50.81
71 489660 7718870 342.73 363.79 310 53.79
72 489625 7718700 342.445362.875 311.94 50.93
73 489800 7718850 342.888 364.883 305.94 58.94
74 489890 7718595 342.712 357.112 302.56 54.55
75 490470 7718670 340.816 354.331 284.36 69.97
76 488990 7719165 335.329 348.12 318.71 29.41
77 489210 7718470 339.618 361.278 322.9 38.38
78 489070 7718485 338.763 361.883 324.09 37.79
79 488765 7717920 332.309 359.319 318.04 41.28
40
80 489110 7717710 332.627 350.717 308.95 41.77
81 489125 7718720 339.86 360.53 322.76 37.77
82 489220 7719400 338.511 355.581 312.38 43.2
83 488690 7719920 333.997 342.407 217.2 125.21
84 488810 7720120 336.713 347.553 217.2 130.35
85 489400 7720480 340.446 342.806 217.2 125.61
86 489240 7720870 343.336 357.056 217.2 139.86
87 489010 7720840 342.626 359.596 217.2 142.4
88 489650 7721570 291.189 359 217.2 141.8
89 489977 7721238 349.795 359.005 302.72 56.29
90 492730 7721150 349.267 366.367 217.2 149.17
91 492450 7721460 343.002 367.242 217.2 150.04
92 492370 7722130 364.586 378.991 217.2 161.79
93 493120 7722800 347.574 363.194 217.2 145.99
94 491340 7720510 345.68 359.545 281.92 77.62
95 491120 7720180 346.502 362.602 282.4 80.21
96 491080 7720640 347.757 361.987 284.77 77.22
97 492950 7720350 349.514 366.264 217.2 149.06
98 491530 7720200 342.489 354.074 278.74 75.33
99 491300 7719690 342.434 358.899 277.4 81.5
100 490213 7719747 347.297 360.467 290.36 70.11
101 490210 7719840 347.486 361.236 290.59 70.64
102 490400 7720080 341.665 371.099 289.5 81.6
103 490280 7719380 346.235 363.575 290.22 73.36
104 491920 7725350 324.4 350.985 217.2 133.78
105 489250 7722740 357.81 372 217.2 154.8
106 489740 7721580 351.352 359.722 217.2 142.52
107 485840 7716520 310.637 339.087 217.2 121.89
108 487670 7715190 301.426 322.166 308.26 13.9
109 489350 7717470 329.952 341.102 297.09 44.01
110 492660 7723500 326.29 367.647 217.2 150.45
111 492780 7720710 347.513 366.743 217.2 149.54
112 493800 7723830 353.549 363.384 217.2 146.18
113 493170 7723530 346.161 357.281 217.2 140.08
114 492370 7724150 331.013 358.983 217.2 141.78
115 493100 7722150 352.799 374.599 217.2 157.4
116 492420 7722820 342.155 373.115 217.2 155.91
117 492050 7723500 333.039 364.689 217.2 147.49
118 491540 7721530 339.815 370.835 282.15 88.68
119 490740 7723250 351.821 364.151 217.2 146.95
120 490080 7722980 344.837 357.577 217.2 140.38
121 490280 7721630 354.373 371.483 217.2 154.28
122 490560 7720870 352.056 377.076 291.68 85.4
123 490750 7720170 349.969 364.979 286.26 78.72
124 489880 7720300 345.489 361.639 297.22 64.42
125 489060 7719850 335.555 339.695 311 28.69
126 489590 7719520 344.656 359.046 303.15 55.89
127 488600 7718760 332.881 351.45 323.84 27.61
128 488700 7717180 327.97 350.45 307.06 43.39
129 488280 7715657 308.118 327.258 304.72 22.54
130 489112 7716700 320.736 337.896 291.92 45.97
131 488558 7716928 325.005 342.795 306.54 36.26
132 487975 7717228 319.315 336.535 316.09 20.44
133 490213 7719747 347.297 360.467 290.36 70.11
41
134
486990.
2 7716692 301 301 217.2 83.8
135
487014.
2 7716773 302 302 217.2 84.8
136
487038.
2 7716857 303 303 217.2 85.8
137
487042.
2 7716952 304 304 217.2 86.8
138
487079.
9 7717039 305 305 217.2 87.8
139
487140.
6 7717120 306 306 217.2 88.8
140
487208.
2 7717201 307 307 217.2 89.8
141
487247.
6 7717282 308 308 217.2 90.8
142
487271.
7 7717361 309 309 217.2 91.8
143 487277 7717395 310 310 217.2 92.8
144
487313.
2 7717479 311 311 217.2 93.8
145 487298 7717600 312 312 217.2 94.8
146
487279.
6 7717716 313 313 217.2 95.8
147
487392.
2 7717847 314 314 217.2 96.8
148
487441.
6 7717990 315 315 217.2 97.8
149
487515.
7 7718130 316 316 217.2 98.8
150
487603.
5 7718264 317 317 217.2 99.8
151
487669.
4 7718388 318 318 217.2 100.8
152
487702.
4 7718528 319 319 217.2 101.8
153 487776 7718714 320 320 217.2 102.8
154
487835.
7 7718797 321 321 217.2 103.8
155
487927.
5 7718904 322 322 217.2 104.8
156
488052.
3 7718979 323 323 217.2 105.8
157
488131.
3 7719042 324 324 217.2 106.8
158 488189 7719112 325 325 217.2 107.8
159 488236 7719144 326 326 217.2 108.8
160 488473 7719462 327 327 217.2 109.8
161 488584 7719570 328 328 217.2 110.8
162 488584 7719626 328 328 217.2 110.8
163 488663 7719722 329 329 217.2 111.8
164 488722 7719732 330 330 217.2 112.8
165 489016 7715190 300 300 217.2 82.8
166
489101.
2 7715325 301 301 217.2 83.8
167
489168.
8 7715483 302 302 217.2 84.8
168
489293.
6 7715640 303 303 217.2 85.8
42
169
489453.
8 7715832 304 304 217.2 86.8
170
489580.
8 7716058 305 305 279.85 25.15
171
489740.
3 7716223 306 306 273.52 32.48
172
489911.
7 7716328 307 307 217.2 89.8
173
490055.
8 7716478 308 308 217.2 90.8
174
490177.
4 7716682 309 309 217.2 91.8
175 490345 7716855 310 310 217.2 92.8
176
490432.
9 7716910 311 311 217.2 93.8
177
490577.
9 7717018 312 312 217.2 94.8
178
490632.
5 7717185 313 313 217.2 95.8
179
490725.
9 7717337 314 314 217.2 96.8
180
490855.
5 7717489 315 315 217.2 97.8
181
490962.
5 7717613 316 316 217.2 98.8
182
491075.
2 7717715 317 317 217.2 99.8
183
491214.
5 7717850 318 318 217.2 100.8
184
491317.
6 7717955 319 319 217.2 101.8
185 491403 7718100 320 320 217.2 102.8
186
491396.
7 7718108 320 320 217.2 102.8
187 491679 7718877 325 325 217.2 107.8
188 492030 7719830 330 330 217.2 112.8
O local objeto do estudo compreendeu a área urbana do município de
Pereira Barreto/SP, situada junto ao Reservatório de Três Irmãos, formado no rio
Tietê, pela construção da barragem de mesmo nome, com extensão de
aproximadamente 150 km. A cidade de Pereira Barreto situa-se na vertente sul de
uma colina ampla, de topo aplainado, com altitude máxima de aproximadamente
450 m, limitada ao sul pelo remanso do reservatório da barragem Três Irmãos no
rio Tietê e a norte pelo remanso do reservatório de Ilha Solteira (rio Paraná) no
tributário São José dos Dourados, em zona de transição dos grupos Caiuá e
Bauru, com afloramentos de basaltos do grupo São Bento restritos às
proximidades das margens do rio Tietê. A superfície potenciométrica do aqüífero
livre na área ocupada pela cidade, anteriormente à formação do reservatório
encontrava-se entre os níveis 310-350 m, com profundidades máximas do nível
d’água (N.A.) pouco superiores a 10 metros.
43
1
2
3
4
5
6
7
8
910
11
12
13
14
15
16
17
18
19
20
21
22
2324
25
26
27
2829
30
31
3233
3435
36
37
38
39
4041
42
43
44
45
4647
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
6667
68
69
70
71
72
73
74 75
76
7778
79
80
81
82
83
84
85
8687
88
89 90
91
92
93
94
95
96
97
98
99100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123124
125
126
127
128
129
130
131
132
133
134135
136137
138139
140141
142143144
145146
147
148
149150
151
152
153154
155156
157158159
160161
162163164
165166
167
168
169
170
171172
173
174
175176
177
178
179
180181
182183
184
185186
187
188
486000 487000 488000 489000 490000 491000 492000 493000
7715000
7716000
7717000
7718000
7719000
7720000
7721000
7722000
7723000
7724000
7725000
Os maiores coeficientes de determinação obtidos foram :
Variável Coeficiente de Determinação R2
Topografia 0,814
Topografia + Coord X 0,830
Topografia + Coord X + Espessura FM 0,833
Topografia + Coord X + EspessuraFM + Coord Y 0,836
Topografia + Coord X + Espessura FM + Coord Y + Topo
Basalto
0,836
Com estes resultados, estabelece-se a contribuição pura de cada variável
independente para a variabilidade da variável dependente H, isto é, superfície
potenciométrica do aqüífero livre:
44
Variável Contribuição
Topografia 81,4% (0,814)
Topografia/Coord X 1,6% (0,830 - 0,814)
Topografia/Coord X/Espessura FM 0,3% (0,833 – 0,830)
Topografia/Coord X/Espessura FM/Coord Y 0,3% (0,836 – 0,833)
Topografia/Coord X/ Espessura FM/Coord Y/Topo Basalto 0,0% (0,836 – 0,836)
Analisando-se o peso de cada variável dependente observa-se que a
variável Topografia do Terreno (Z) é a que melhor explica a variação da Superfície
Potenciométrica (H), da ordem de 81,4%. As demais variáveis apresentam
pequenas interferências na variabilidade da potenciometria.
Os resultados encontrados confirmam quantitativamente que a superfície
potenciométrica do aqüífero livre se comporta, em linhas gerais, como a superfície
topográfica do terreno. Observa-se, no entanto, que apesar da excelente
correlação obtida no processo de comparação entre o mapa potenciométrico e o
mapa topográfico, a variável Superfície Potenciométrica não é totalmente
explicada pela variável Topografia do Terreno, ou seja existem outros fatores que
condicionam também essa variação.
45
486000 487000 488000 489000 490000 491000 492000 493000
7715000
7716000
7717000
7718000
7719000
7720000
7721000
7722000
7723000
7724000
7725000
Superfície potenciometrica
486000 487000 488000 489000 490000 491000 492000 493000
7715000
7716000
7717000
7718000
7719000
7720000
7721000
7722000
7723000
7724000
7725000
486000 488000 490000 492000
7716000
7718000
7720000
7722000
7724000
Topografia
Neste caso a análise de regressão múltipla foi efetuada a partir de 188
pontos “xyz”. Pode-se, porém, efetuar este mesmo tipo de análise, em que as
46
variáveis se apresentam em forma de superfícies, adotando metodologia
encontrada no software IDRISI 3.2 (2001). Um exemplo pode ser encontrado em
LOURENÇO & LANDIM (2004)
47
REFERÊNCIAS BIBLIOGRAFICAS
DAWSON, K. R. & WHITTEN, E. H. T. (1962) – The quantitative mineralogical composition and
variation of the Lacorne, La Motte, and Preissac granitic complex, Quebec, Canada: Jour.
Petrology, 3(1):1-37
BROWER, J.C. & MERRIAM, D.F. (1990). Geological map analysis and comparison of adjacent
multivariate algorithms. Geol Survey Canada Paper 89-9, p. 123-134.Thematic map analysis using
multiple regression: Math. Geology, v. 33(3), p. 353-368
BROWER, J.C. & MERRIAM, D.F. (1992). A simple method for comparison of adjacent points on
thematic maps, in Kurzl, H. and Merriam, D.F., ed. Use microcomputers in geology. Plenum Press,
New York, p. 227-240.
BROWER, J.C. & MERRIAM, D.F. (2001). Thematic map analysis using multiple regression: Math.
Geology, v. 33(3), p. 353-368
HARRISON, W. & KRUMBEIN, W.C. (1964) – Interactions of the beach-ocean-atmosphere system
at Virginia Beach, Virginia: U.S. Army, Coastal Eng. Res. Center, Tech. Mem., no. 7
HERZFELD, H.C. & SONDERGARD, M.A., (1988), MAPCOMP - A FORTRAN program for
weighted thematic map comparison: Computers & Geosciences, v.14, no.5, p.699-713.
HERZFELD, U.C. & MERRIAM, D.F. (1991). A map comparitson technique utilizing weighted input
parameters, in GAAL G., and MERRIAM, D.F. Eds. Computer applications in resource estimations.
Pergamon Press, Oxford, p. 43-52.
IDRISI 32 (2001) – Clark Labs, Clark University, MA, USA.
LEITE, C.B.B. & LANDIM, P.M.B. (2003) –Relação entre mapas temáticos por meio da Análise de
Regressão Múltipla. Solos e Rochas – Revista Latino-americana de Geotecnia, 26(3):195-203
LI, C.C. (1964) - Introduction to Experimental Statistics: McGraw Hill, Inc.
LOURENÇO, R. W. & LANDIM, P.M.B. (2004) - Análise de regressão múltipla espacial.
UNESP/Rio Claro, IGCE, DGA, Lab. Geomatemática,Texto Didático 13, 34 pp. Disponível em
<http://www.rc.unesp.br/igce/aplicada/textodi.html
48
4. ANÁLISE DE AGRUPAMENTOS
4.1. Introdução
Análise de agrupamentos (cluster analysis) é um termo usado para
descrever diversas técnicas numéricas cujo propósito fundamental é classificar os
valores de uma matriz de dados sob estudo em grupos discretos. A técnica
classificatória multivariada da análise de agrupamentos pode ser utilizada quando
se deseja explorar as similaridades entre indivíduos (modo Q) ou entre variáveis
(modo R) definindo-os em grupos, considerando simultaneamente, no primeiro
caso, todas as variáveis medidas em cada indivíduo e, no segundo, todos os
indivíduos nos quais foram feitas as mesmas mensurações. Segundo esse
método, desenvolvido, inicialmente em Zoologia por taxonomistas numéricos,
procura-se por agrupamentos homogêneos de itens representados por pontos
num espaço n-dimensional em um número conveniente de grupos relacionando-
os através de coeficientes de similaridades ou de correspondências.
A aplicação desta análise é controversa entre os pesquisadores, pois
pouco se sabe a respeito dos pressupostos estatísticos dos seu vários métodos e
apenas testes limitados são conhecidos para verificar a significância dos
resultados. Na análise introdutória de matrizes de dados tornam-se, porem,
bastante eficientes para auxiliar na formulação de hipóteses a respeito da
homogeneidade ou não desses dados.
4.2. Métodos de classificação
Segundo DAVIS (1986) os diversos métodos para a análise de
agrupamentos podem ser enquadrados em quatro tipos gerais:
a) Métodos de partição: procuram classificar regiões no espaço, definido em
função de variáveis, que sejam densamente ocupados em termos de
observações daqueles com ocupação mais esparsa.
b) Métodos com origem arbitrária: procuram classificar as observações segundo
“k” conjuntos previamente definidos; neste caso “k” pontos arbitrários servirão
como centróides iniciais e as observações irão se agrupando, por similaridade,
em torno desses centróides para formar agrupamentos.
49
c) Métodos por similaridade mútua: procuram agrupar observações que tenham
uma similaridade comum com outras observações; inicialmente uma matriz n x
n de similaridades entre todos os pares da observação é calculada; em
seguida, as similaridades entre colunas são repetidamente recalculadas;
colunas representando membros de um único agrupamento tenderão
apresentar intercorrelações próximas a 1 e valores menores com não
membros.
d) Métodos por agrupamentos hierárquicos: são as técnicas mais comumente
usadas em Geologia; a partir da matriz inicial de dados obtém-se uma matriz
simétrica de similaridades e incia-se a detecção de pares de casos com a mais
alta similaridade, ou a mais baixa distância; para essa combinação, segundo
níveis hierárquicos de similaridade, escolhe-se entre os diversos
procedimentos aglomerativo de tal modo que cada ciclo de agrupamento
obedeça a uma ordem sucessiva no sentido do decréscimo de similaridade.
4.2.1. Metodologia para agrupamentos hierárquicos
Partindo de uma matriz inicial de dados [n*p], onde "n" linhas representam
casos ou espécimes ou amostras, no sentido geológico, e as "p" colunas as
variáveis, feitas as comparações, usando um coeficiente de similaridade qualquer
entre linhas, obtém-se uma matriz inicial de coeficiente de similaridade de
tamanho [ ]n n* , que será utilizada no modo Q. Se a comparação for entre
colunas, obter-se-á uma matriz inicial de coeficientes de similaridade inicial
[ ]p p* , que será utilizada no modo R. Embora diversas medidas de similaridadetenham sido propostas, somente duas são geralmente usadas: o coeficiente de
correlação de Pearson e a medida de distância euclideana. Se as variáveis forem
padronizadas a partir da matriz inicial de dados, dando o mesmo peso a cada
uma delas, qualquer um desses coeficientes poderá ser diretamente transformado
no outro.
Na matriz inicial de coeficientes de similaridade estes representam o grau
de semelhança entre pares de objetos e os mesmos deverão ser arranjados de
acordo com os respectivos graus de similaridade de modo a ficarem agrupados
segundo uma disposição hierárquica. Os resultados quando organizados em
gráfico, do tipo dendrograma, mostrarão as relações das amostras agrupadas.
50
Várias técnicas de agrupamentos tem sido propostas, e os métodos mais
comumente usados são: “ligação simples” (single linkage method ou nearest
neighbor); “ligação completa” (complete linkage method ou farthest neighbor);
”agrupamento pareado proporcionalmente ponderado" (weighted pair-group
method, WPGM); “agrupamento pareado igualmente ponderado” (unweighted
pair-group method”, UPGM); “variância mínima” (minimum variance clustering ou
Ward’s method of sum-of-squares method).
No método de ligação simples os grupos iniciais são determinados pelos
mais altos coeficientes de associação mútua. Para admissão de novos membros
aos grupos é suficiente encontrar quais os que representam os maiores
coeficientes de associação com um dos elementos de determinado grupo. A
ligação será estabelecida a esse nível de associação com todo o grupo. No
método de ligação completa os gupos são determinados pelos mais baixos
coeficientes de associação mútua. Ambos são os métodos mais simples, mas
tambem os que apresentam os resultados mais distorcidos. Com o uso dos
métodos de ligações completas espera-se obter resultados mais rigorosos.
No método de agrupamento pareado procura-se também inicialmente
pelos mais altos coeficientes de associação mútua. Em seguida esses pares de
casos fornecerão valores médios originando um novo elemento singular. No
"método de agrupamento pareado igualmente ponderado" para o cálculo dos
valores médios atribui-se sempre o mesmo peso aos dois elementos que estão
sendo integrados. No método de agrupamento pareado proporcionalmente
ponderado para cada agrupamento é dado um peso proporcional ao número de
objetos que o constitui, de tal modo que a incorporação e um novo elemento a um
grupo baseia-se no nível médio de similaridade desse elemento com todos os
que fazem parte do grupo. Tanto num caso como no outro, alternativamente, em
vez de obter valores medios entre os casos podem ser utilizados centroides e
verificados as distâncias entre os mesmos.
No método de agrupamento pela variância mínima o enfoque é sobre a
variabilidade que existe dentro de cada caso e os agrupamentos são efetuados ao
se determinar que pares de casos, quando tomados em conjunto, apresentam o
menor acrescimo de variabilidade.
51
No método de ligações singulares as ligações tendem a ocorrer a níveis
mais altos do que nos métodos de agrupamento pareado. No método de
agrupamento pareado igualmente ponderado como cada membro adicionado ao
agrupamento tem sempre o mesmo peso, isso traz como efeito que os últimos
elementos a se integrarem tem maior influência que os primeiros. No caso do
método de agrupamento pareado proporcionalmente ponderado, tal não
acontece.
Existindo à disposição diversas técnicas para a análise de agrupamentos e
não havendo testes estatísticos válidos para os resultados obtidos, o pesquisador
geralmente fica em dúvida sobre qual método aplicar. Entendendo que esta
análise sempre deve ser aplicada com caráter introdutório, e nesse sentido tem o
seu mérito, a consideração de ordem pragmática a ser adotada é que o melhor
método é aquele que fornece os resultados mais coerentes com a realidade
geológica em estudo. Eventualmente, testes, como o de Hotteling ou a análise
generalizada de variâncias, podem ser aplicados aos agrupamentos encontrados
para a verificação da sua validade estatística.
Aplicações desta metodologia tem mostrado que os métodos pareados
igualmente ponderado são superiores aos demais e que o coeficiente distância
usualmente agrupa melhor espécimes ou amostras, no sentido geológico,
enquanto o coeficiente de correlação é recomentado para o agrupamento entre
variáveis. Essas afirmações são baseadas na correlação cofenética que ao
apresenrar valores abaixo de 0,8 indicam distorções significativas no
dendrograma obtido.
O método hierárquico tem sido preferido em relação ao que utilisa
centróides. Este porém mostra-se, em termos computacionais, mais útil quando
se tem que manipular grandes matrizes de dados, por exemplo com mais de
1.000 casos. Como “k” geralmente é pequeno, da ordem de 5 por exemplo, é
mais rápido o manuseio de uma matriz de similaridade “k x n” do que uma com
dimensões “n x n”.
4.2.2. Dendrograma
A forma gráfica mais usada para representar o resultado final dos diversos
agrupamentos é o dendrograma (Figura 4.1.) Nele estão dispostos linhas ligadas
segundo os níveis de similaridade que agruparam pares de espécimes ou de
52
variáveis. Como este gráfico é uma simplificação em duas dimensões de uma
relação n-dimensional é inevitável que algumas distorções quanto à similaridade
apareçam. A medida de tal distorção pode ser obtida por um coeficiente de
correlação, dito "cofenético", entre os valores da matriz inicial de similaridade e
aqueles derivados do dendrograma.
Visualmente isso pode ser também verificado por meio da construção de
um sistema de eixos ortogonais. Nele os valores dos coeficientes de similaridade
originais estarão na abcissa e
os coeficientes de similaridade a partir do dendrograma em ordenada. Se ambas
as matrizes forem idênticas os pontos cairão sobre uma linha reta que passa pela
origem do sistema. Desvios dos pontos em relação a essa reta indicarão as
distorções. Se situadas acima da reta indicarão coeficientes de similaridade
apontados pelo dendrograma mais altos que os originais e vice-versa.
Dendrograma
Método: UPGM
Distância euclidiana
V
al
or
es
p
ar
a
ag
ru
pa
m
en
to
0
50
100
150
200
250
C_9
C_13
C_6
C_5
C_8
C_12
C_4
C_3
C_2
C_15
C_14
C_11
C_10
C_7
C_1
53
Figura 4.1. Formatos de dendrogramas
A construção de um dendrograma pode ser esquematizada, de acordo com
o exposto na Figura 4.2. Nessa Figura, inicialmente, os mais altos índices de
correlação ocorrem entre as amostras D e E (0,66) e entre as amostras A e B
(0,57) que irão constituir novos casos na matriz de correlações já pareadas.
Nessa matriz os mais altos coeficientes de correlação ocorrem entre DE e F
(0,41) e AB e C(0,29). Finalmente a correlação final ocorre ao nível de –0,59 entre
ABC e DEF.
Figura 4.2. Esquema de construção de um dendrograma pelo método de
agrupamentos pareados igualmente ponderados (adaptado de DAVIS, 1986)
Dendrograma
Método: UPGM
Distância euclidiana
V
al
or
es
p
ar
a
ag
ru
pa
m
en
to
0
50
100
150
200
250
C_9
C_13
C_6
C_5
C_8
C_12
C_4
C_3
C_2
C_15
C_14
C_11
C_10
C_7
C_1
54
4.2.3. Coeficientes de Similaridade
Os coeficientes de similaridade mais usuais, obtidos num espaço
multidimensional, podem ser subdivididos em três categorias:
a) os quemedem a distância, ou a separação angular, entre pares de pontos;
b) os que medem a correlação entre pares de valores;
c) os que medem a associação entre pares de caracteres qualitativos.
Existem diversas publicações que discutem esses diversos tipos de
medidas como, por exemplo, SNEATH & SOKAL (1973), EVERITT (1980), PRENTICE
(1980), GORDON (1981), GREIG-SMITH (1983), PIELOU (1984), alem do resumo,
sobre 23 coeficientes de similaridades, constante no pacote MVSP, versão 3.1.
4.2.3.1. Medidas de distância
Expressam o grau de similaridade como distância em um espaço multi-
dimensional. Quanto maior a distância, maior o grau de similaridade e vice-versa.
A distância D entre dois pontos, cuja localização é especificada num sistema de
coordenadas cartesianas, é fornecida, segundo o teorema de Pitágoras, por:
221
2
212.1 )yy()xx(D −+−=
onde x x y e y1 2 1 2, , são valores das coordenadas dos dois pontos.
Para a distância entre k pontos, num espaço n-dimensional, a fórmula
generalizada é:
n/)xx(D
n
1k
2
jkikij ∑
=
−=
Tendo todas as variáveis o mesmo peso, consequentemente a função
distância será limitada a valores entre 0 (maior similaridade) e 1.0 ( menor
similaridade).
Pode, também, ser ulizado o coeficiente cosseno-teta, que é uma medida
de proporcionalidade expressando o grau de similaridade em termos de
separação angular:
( ) ,xx xxCos 2/12iq2ip iqippq ∑∑
∑=θ p e q = valores comparados
55
Quando a similaridade é completa, a separação angular é 0º e cos θ =
1.0; quando não ocorre similaridade nenhuma, a separação angular é 90° e o
cos θ = 0.0
4.2.3.2. Coeficientes de Correlação
Medem o grau de associação entre valores pela representação de pontos
num sistema de coordenadas e suas respectivas posições em relação a uma linha
reta. Podem tanto ser considerado o coeficiente de correlação paramétrico
(Pearson) como o não paramétrico (Spearman).
• coeficiente de correlação paramétrico (Pearson)
O coeficiente de correlação da amostra r (ou ρ*) o qual é uma estimativa do
coeficiente de correlação populacional ρ, é dado por:
2/1]
1n
2)yiy(.
1n
2)xix([
1n
)yiy()xix(
2/1)]yvar()x[var(
)y,xcov(r
−
−Σ
−
−Σ
−
−−Σ
==
Onde n é o número de pares de valores para xi e yi , variáveis com
distribuição normal, e x e y são os valores médios para xi e yi .
Utilizando o método dos mínimos quadrados para o cálculo do coeficiente
de correlação, a seguinte fórmula simplificada é usada:
SQY.SQX
SPXYr =
SPXY = Σxy -(Σx. Σy) / n
SQX = Σx2 - (Σx)2 / n
SQY = Σy2 - (Σy)2 / n
Valores de r , os quais são medidas adimensionais, podem variar entre -1 à
+1, expressando desde comportamento totalmente inverso até comportamento
totalmente direto entre as duas variáveis. Quando r=0 significa que não há relação
linear entre x e y.
• Coeficiente de correlação não-paramétrico de Spearman
56
É um coeficiente de correlação não paramétrico entre duas variáveis, xi e
yi , em que para o seu cálculo inicialmente xi e yi são ordenados segundo os
seus valores de posto (x i, e y i, ) e em seguida encontrados os valores i,yi,xid −= .
Para que os valores negativos de di não cancelem os valores positivos de
di é determinado para cada caso 2id . Finalmente encontra-se a somatória dos
2
id .
O coeficiente de correlação será fornecido pela fórmula:
n3n
2
id61sr −
Σ−= n = número de pares de valores xi, , yi,
Caso ocorram muitos casos com valores de posto empatados usa-se a
fórmula:
,
ey
,
ex2
2
id
,
ey
,
ex
sr ΣΣ
Σ−Σ+Σ=
onde
xT12
n3n,
ex Σ−
−=Σ ; yT12
n3n,
ey Σ−
−=Σ
12
t3tT −= ; T = número de observações repetidas em um determinado
posto.
Como um exemplo numérico, seja uma matriz de dados composta por 7
amostras, no sentido geológico, e 6 variáveis:
V01 V02 V03 V04 V05 V06
Am01 1.0 2.0 3.0 4.0 5.0 6.0
Am02 5.0 4.0 1.0 8.0 7.0 9.0
Am03 6.0 5.0 4.0 2.0 7.0 9.0
Am04 6.0 4.0 2.0 1.0 3.0 7.0
Am05 9.0 2.0 1.0 4.0 7.0 8.0
Am06 9.0 6.0 3.0 4.0 5.0 6.0
Am07 1.0 5.0 9.0 7.0 5.0 3.0
57
Utilizando a medida “distância euclidiana”, obtém-se a seguinte matriz
inicial de similaridades:
Am01 Am02 Am03 Am04 Am05 Am06 Am07
Am01 0.0 7.3 7.2 6.6 8.7 8.9 7.9
Am02 7.3 0.0 6.9 8.4 6.1 7.3 11.0
Am03 7.2 6.9 0.0 5.1 5.7 5.3 10.7
Am04 6.6 8.4 5.1 0.0 6.3 5.3 11.4
Am05 8.7 6.1 5.7 6.3 0.0 5.3 13.2
Am06 8.9 7.3 5.3 5.3 5.3 0.0 10.9
Am07 7.9 11.0 10.7 11.4 13.2 10.9 0.0
Na Figura 4.3. estão os dendrogramas resultantes da aplicação de dois
métodos: “ligação simples (single linkage)” e “agrupamento pareado igualmente
ponderado (unwighted pair-group average)”.
Verificar que os dendrogramas resultantes mostram praticamente os
mesmos resultados, em que pese as diferenças mostradas em ambos os gráficos
com relação aos níveis para agrupamentos.
Dendrograma
"Single Linkage"
Distância euclidiana
Níveis para agrupamento
AM07
AM05
AM06
AM04
AM03
AM02
AM01
4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
58
Figura 4.3. Dendrogramas resultantes dos métodos “single linkage” e “UPGM”
4.2.3.3. Coeficientes binários
Expressam similaridades em termos de equiparações (matches) quando
são utilizados dados qualitativos. Neste caso comparações são feitas entre
observações reduzidas a duas categorias do tipo sim-não, presente-ausente etc.
Se verificado em 4 perfís estratigráficos a presença ou ausencia de 4 tipos de
fósseis a seguinte matriz de dados binários pode ser construida:
Se tomados dois objetos (A e B) e um mesmo caráter estiver presente em
ambos, tal situação será representada por "a"; se presente em A, porém ausente
Dendrograma
"Unweighted pair-group average"
Distância euclidiana
Níveis para agrupamento
AM07
AM05
AM06
AM04
AM03
AM02
AM01
4 5 6 7 8 9 10 11
59
em B, por "c"; se presente em B, porém ausente em A , por "b" ; se ausentes em
ambos, por “d’.
Presente Ausente
Presente a b
Ausente c d
Os coeficientes binários, podem ser agrupados em:
a) coeficientes de similaridade: expressam a proporção de caracteres que dois
objetos possuem mutuamente quando comparados com o número total de
caracteres possuídos por um dos objetos ou pelo outro, ou por ambos;
Jaccard: )cba/(a ++
Otsuka : )ca()ba(/a ++
Fager : })ca(),ba{min(2/1)ca()ba(/a ++−++
b) coeficientes de associação: expressam a probabilidade de acontecimento, por
acaso, de um certo número de caracteres comuns a dois objetos;
Yule : )bcad/()bcad( +−
Phi : )dc()db()ca()ba(/)bcad( ++++−
c) coeficientes de equiparação: expressam a similaridade entre dois objetos em
termos de equiparações positivas, isto é, presença de um mesmo caráter em
ambos os objetos, em relação a equiparações negativas, isto é, ausência de um
mesmo caráter em ambos os objetos, mais equiparações desencontradas;
Simples : n/)da( +
Hamann : n/)cbda( −−+
Sackin : a/n
d) coeficientes de distâncias: expressam o distanciamento entre dois objetos em
um espaço multi-dimensional;
Sokal : n/)cb( +
60
Novamente, como exemplo numérico, seja uma matriz com dados binários
em que o valor “1” significa presente e o valor “0” ausente:
V01 V02 V03 V04 V05 V06
Am01 1 1 0 0 0 1
Am02 0 0 1 1 0 0
Am03 0 1 1 0 0 0
Am04 1 1 1 1 1 0
Am05 0 0 11 1 1
Am06 1 1 0 0 0 1
Am07 0 0 1 1 1 1
Nessa matriz as amostras 01 e 06 são idênticas, o mesmo acontecendo
com as amostras 05 e 07.
A matriz inicial de similaridades, após calculados os coeficientes de
Jaccard, é a seguinte:
Am01 Am02 Am03 Am04 Am05 Am06 Am07
Am01 1.000
Am02 0.000 1.000
Am03 0.250 0.333 1.000
Am04 0.333 0.400 0.400 1.000
Am05 0.167 0.500 0.200 0.500 1.000
Am06 1.000 0.000 0.250 0.333 0.167 1.000
Am07 0.167 0.500 0.200 0.500 1.000 0.167 1.000
E o dendrograma resultante esta exposto na Figura 4.4.
61
Figura 4.4. Dendrograma resultante da aplicação do coeficiente binário de Jaccard pelo método
de ligação simples. Notar as relações entre amostras 01 e 06 e entre amostras 05 e 07, todas ao
nível 1.0
4.3. Exemplo com enfoque “clássico”
Como exemplo são utilizados os dados obtidos por ARAÚJO (1976), e já
analisados por LANDIM & PERINOTTO (1981), para exemplares de mesossaurídeos
coletados em diversas localidades ao longo da faixa de afloramentos da
Formação Irati na borda leste da Bacia do Paraná. Foram consideradas três
espécies: Stereosternum tumidum (COPE, 1886), Mesosaurus brasiliensis
(MACGREGOR, 1908) e Brazilosaurus sampauloensis (SIKAMA & OAKI, 1966). Os
valores estão expostos na tabela a seguir.
Dentes (mm)
Exemplar Crânio (cm) Pescoço (cm) Comprimento Largura
M01 7,1 6,0 4,75 0,50
M02 6,7 4,8 7,50 0,37
M03 6,7 5,3 7,00 0,50
M04 8,9 5,6 11,25 0,75
M05 7,1 5,2 8,75 0,75
M06 7,2 4,9 8,75 0,75
M07 7,6 4,9 7,50 0,50
M08 7,9 5,8 11,25 0,75
M09 7,8 5,1 5,75 0,50
M10 9,2 6,8 11,75 0,75
M11 7,1 6,0 8,25 0,75
M12 9,6 8,3 7,75 0,75
M13 5,1 4,2 4,25 0,50
M14 7,9 6,2 9,25 0,50
M15 7,2 4,3 4,00 0,50
62
S16 6,0 5,5 4,00 0,50
S17 5,8 4,6 3,25 0,50
S18 5,8 5,1 2,00 0,50
S19 6,6 5,3 4,25 0,37
S20 4,7 4,6 2,25 0,50
‘S21 6,4 5,8 3,75 0,50
S22 5,8 4,7 3,50 0,50
S23 6,2 6,0 4,50 0,50
S24 6,5 7,1 3,50 0,75
S25 5,2 5,6 3,00 0,50
S26 6,2 6,6 3,75 0,50
S27 6,5 5,8 3,00 0,75
S28 5,5 5,6 4,50 0,75
B29 5,3 7,2 2,00 0,50
B30 4,9 7,6 0,75 0,45
B31 5,0 7,3 2,75 0,50
B32 5,2 7,7 2,00 0,75
Medidas obtidas em Mesosaurus brasiliensis (M), Stereosternum tumidum (S), e
Brazilosaurus sampauloensis (B)
Para a análise de agrupamentos, usando o modo Q com o coeficiente
“distância euclidiana” e método de Ward, obteve-se, utilisando o pacote “XLStat”,
o dendrograma exibido na Figura abaixo.
Distância euclideana
S28
S23
S21
S16
S19
M01
S26
S24
S27
M15
M09
S22
S17
M13
S20
S18
S25
B32
B29
B31
B30
M06
M05
M11
M14
M03
M02
M07
M12
M08
M04
M10
0 50 100 150 200 250 300
Método: Ward
63
Verifica-se que os exemplares M01, M09, M13 e M15, tidos como
Mesosaurus, estão localizados dentro de grupo do Stereosternum. Além disso os
quatro exemplares B29, B32, B31 e B30, todos do genero Brazilosaurus, formam
um grupo integrado ao do Stereosternum. Tal constatação merece uma reflexão
sobre a validade ou não de atribuir os exemplares M01, M09, M13 e M15 ao
gênero Mesosaurus. Alerta também para a relação próxima entre Brazilosaurus e
Stereosternum. Seriam gêneros distintos ou não?
4.4. Exemplo com enfoque “espacial”
RHODES (1969) ao estudar o granito “Mount Shoobridge” no norte da
Austrália conseguiu mapear o corpo subdividindo-o em três zonas petrográficas:
granodiorito marginal, granodiorito porfirítico e adamelito leucocrático na região
central. Nesse estudo efetuou análises químicas tanto para óxidos e como para
elementos traços.
21
22
12 34
31
25
28
26
9
2
29
33
35
11
32
30
0 400 800 m
N
Pontos amostrados
64
ID Si Ti Al Fe Mn Mg Ca Na K P Rb Sr Y Th U Zr Nb Pb
35 73 0,08 14,1 0,64 0,01 0,17 0,7 3,66 5,16 0,03 228 180 9 16 13,8 112 18,5 352
11 71,6 0,23 14,6 1,91 0,02 0,54 1,61 3,63 4,59 0,08 193 340 6 30 10 196 17,6 40
33 71,3 0,24 14,6 1,84 0,02 0,52 1,21 3,59 4,93 0,08 218 305 7 30 8,5 191 19,9 34
34 65,2 0,46 15 4,03 0,06 2,16 2,08 3,45 4,99 0,22 170 586 14 39 10,4 273 19,6 37
12 64,6 0,54 15,8 4,7 0,08 2,45 2,48 3,19 5,36 0,3 176 754 15 36 8,9 277 20,9 33
31 63,9 0,52 15,4 4,55 0,07 2,14 2,52 3,1 3,35 0,28 185 766 15 41 10,9 297 19 36
22 63,6 0,52 15,5 4,64 0,07 2,43 2,2 3,15 5,18 0,29 134 733 15 39 9,2 290 20 31
25 60,4 0,66 15,9 5,68 0,09 2,78 3,54 3,24 5,66 0,38 172 917 16 34 8,4 301 18,9 49
28 59,6 0,68 16,7 5,98 0,08 2,73 3,92 2,92 5,17 0,37 165 954 17 27 8,6 308 17,4 32
21 60,1 0,65 15,8 6,11 0,09 3,52 3,54 3,06 5,2 0,38 160 916 17 29 7 261 17,3 43
30 55,4 0,68 15,8 7,67 0,14 4,17 4,75 2,17 5,85 0,37 140 828 19 22 5,2 241 12,9 75
29 56,8 0,67 16,1 7,53 0,13 4,07 4,55 2,36 5,26 0,35 159 903 20 24 5,6 255 15,1 35
9 57,5 0,63 15,9 7,1 0,11 3,94 3,99 1,95 5,99 0,38 155 939 20 29 6 237 16,1 48
26 56,6 0,68 16,4 7,48 0,12 4,62 4,33 1,98 5,59 0,39 152 1055 20 28 7,4 234 13,7 55
2 57,4 0,67 15,7 7,31 0,12 4,48 4,87 2,06 4,69 0,39 166 924 22 27 7,7 243 14,6 46
32 54,5 0,72 15,6 8,05 0,13 5,37 5,37 2,14 4,88 0,45 135 961 19 17 5,7 188 14,5 36
Como na matriz há uma mistura de óxidos com elementos traços, com
escalas diferentes de valores, antes da aplicação da análise de agrupamentos, foi
feita uma padronização, do tipo “z” das variáveis.
ID SiO2 TiO2 Al2O3 Fe2O3 MnO MgO CaO Na2O K2O P2O5 Rb Sr Y Th U Zr Nb Pb
35 1,9 -2,4 -2,2 -2 -1,8 -1,7 -1,8 1,3 0,1 -2,1 2,2 -2,2 -1,4 -1,8 2,4 -2,5 0,5 3,7
11 1,6 -1,6 -1,4 -1,5 -1,5 -1,5 -1,1 1,2 -0,9 -1,7 0,9 -1,6 -2 0,1 0,7 -0,9 0,1 -0,3
33 1,6 -1,5 -1,3 -1,5 -1,5 -1,5 -1,4 1,2 -0,3 -1,7 1,8 -1,7 -1,8 0,1 0,1 -1 1,1 -0,3
34 0,5 -0,4 -0,8 -0,6 -0,6 -0,5 -0,8 0,9 -0,2 -0,6 0 -0,6 -0,4 1,3 0,9 0,6 0,9 -0,3
12 0,4 0 0,4 -0,3 -0,1 -0,3 -0,5 0,5 0,4 0 0,3 0 -0,1 0,9 0,3 0,6 1,5 -0,4
31 0,3 -0,1 -0,3 -0,3 -0,3 -0,5 -0,5 0,4 -2,9 -0,1 0,6 0 -0,1 1,6 1,1 1 0,7 -0,3
22 0,3 -0,1 0 -0,3 -0,3 -0,3 -0,7 0,5 0,1 0 -1,3 -0,1 -0,1 1,3 0,4 0,9 1,1 -0,4
25 -0,3 0,6 0,5 0,2 0,2 -0,1 0,2 0,6 0,9 0,7 0,1 0,6 0,1 0,6 0 1,1 0,7 -0,2
28 -0,4 0,7 1,6 0,3 -0,1 -0,1 0,5 0,1 0,1 0,6 -0,2 0,8 0,3 -0,3 0,1 1,2 0,1 -0,4
21 -0,3 0,6 0,4 0,3 0,2 0,4 0,2 0,3 0,1 0,7 -0,3 0,6 0,3 0 -0,6 0,3 0 -0,2
30 -1,1 0,7 0,4 1 1,4 0,8 1,1 -1,1 1,2 0,6 -1,1 0,3 0,7 -1 -1,4 -0,1 -1,7 0,2
29 -0,9 0,7 0,8 1 1,1 0,8 0,9 -0,8 0,2 0,4 -0,4 0,6 0,9 -0,7 -1,2 0,2 -0,9 -0,3
9 -0,8 0,5 0,5 0,8 0,6 0,7 0,5 -1,4 1,4 0,7 -0,5 0,7 0,9 0 -1 -0,1 -0,5 -0,2
26 -0,9 0,7 1,2 0,9 0,9 1,1 0,8 -1,4 0,8 0,7 -0,6 1,1 0,9 -0,2 -0,4 -0,2 -1,4 -0,1
2 -0,8 0,7 0,3 0,9 0,9 1 1,2 -1,3 -0,7 0,7 -0,1 0,6 1,3 -0,3 -0,3 0 -1,1 -0,2
32 -1,3 0,9 0,1 1,2 1,1 1,6 1,5 -1,1 -0,4 1,2 -1,3 0,8 0,7 -1,7 -1,2 -1,1 -1,1 -0,3
Aplicando a análise de agrupamentos aos dados, o resultado foi o seguinte,
no qual se verificam três conjuntos:
65
Método: Ward
22
12
34
31
21
25
28
26
9
30
2
29
32
33
11
35
0 20 40 60 80 100 120 140 160
Distância euclideana
A distribuição espacial, de acordo com a análise de agrupamentos, é a
seguinte, a qual esta de acordo com os resultados obtidos por RHODES (1969)
323
293
023
303
093
263
282
252
212
312
342
122
222
351
111
331
IDGrupo
323
293
023
303
093
263
282
252
212
312
342
122
222
351
111
331
IDGrupo
Grupo 1: Adamelito leucocrático
Grupo 2: Granodiorito porfirítico
Grupo 3 : Granodiorito marginal
66
REFERÊNCIAS BIBLIOGRÁFICAS
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd. ed., John Wiley and Sons,Inc.
EVERITT, B. (1980) – Cluster Analysis: 2nd ed., Gower Publishing Co.
GORDON, A. D. (1981) – Classification: Chapman and Hall
GREIGH-SMITH, P. (1983) – Quantitative Plant Ecology: University of California Press, Berkeley
MVPS/Plus (1998) – Multi-Variate Statistical Pacckage, version 3.1.: Kovach Computing Services
PIELOU, E.C. (1984) – The Interpretation of Ecological Data: Wiley-Interscience
PRENTICE, I.C. (1980) – Multidimensional scaling as a research tool in Quaternary palybology: A
review of theory and methods: Review of Paleobotany & Palynology, 31:71-104
RHODES, J. M. (1969) – The Application of Cluster and Discrinatory Analysis in Mapping Granite
Intrusions: Lithos, 2:223-237
SNEATH, D. H. & SOKAL, R. R. (1973) – Numerical Taxonomy: W. H. Freeman & Co.
67
5. ANÁLISE DAS COMPONENTES PRINCIPAIS
É o mais antigo método de ordenação, o mais conhecido e com mais
exemplos de aplicação em Geologia. A análise das componentes principais nada
mais é que o cálculo dos autovalores e correspondentes autovetores de uma
matriz de variâncias-covariâncias ou de uma matriz de coeficientes de correlação
entre variáveis. Quando as variáveis, devido a escalas diferentes de
mensurações empregadas, não podem ser diretamente comparadas, torna-se
necessário preliminarmente a padronização, de modo que as variáveis
transformadas passem a ter média zero e variância unitária, o que é conseguido
pela transformação "z". Nesses casos, com variáveis padronizadas, a matriz de
variâncias-covariâncias e a de coeficientes de correlação tornam-se idênticas.
Como tal padronização acarreta uma forte influência na estrutura da matriz de
variâncias-covariâncias e, conseqüentemente, nos resultados da análise, a sua
utilização deve ser criteriosa levando sempre em conta a natureza dos dados
geológicos em estudo e o enfoque que se pretende dar.
A análise das componentes principais não é sinônimo de analise fatorial ou
análise dos fatores e essa confusão terminológica deve ser evitada. A primeira
análise consiste numa transformação linear de "m" variáveis originais em "m"
novas variáveis, de tal modo que a primeira nova variável computada seja
responsável pela maior variação possível existente no conjunto de dados, a
segunda pela maior variação possível restante e assim por diante até que toda a
variação do conjunto tenha sido explicada. Na análise fatorial supõe-se que as
relações existentes dentro de um conjunto de "m" variáveis seja o reflexo das
correlações de cada uma dessas variáveis com "p" fatores, mutuamente não
correlacionáveis entre si, sendo "p" menor que "m". O extremo cuidado que se
deve ter é com relação à especificação do número e, principalmente, do
significado dos "p" fatores que emergem a partir dessa análise. Ver a respeito
JÖRESKOG, KLOVAN & REYMENT (1976) e REYMENT E JÖRESKOG (1996)
A análise das componentes principais é, portanto, uma técnica de
transformação de variáveis. Se cada variável medida pode ser considerada como
um eixo de variabilidade, estando usualmente correlacionada com outras
variáveis, esta análise transforma os dados de tal modo a descrever a mesma
variabilidade total existente, com o mesmo número de eixos originais, porém não
68
mais correlacionados entre si. Graficamente pode ser descrita como a rotação de
pontos existentes num espaço multidimensional originando eixos, ou
componentes principais, que dispostos num espaço a duas dimensões
representem variabilidade suficiente que possa indicar algum padrão a ser
interpretado.
A análise das componentes principais inicia-se com o cálculo dos
autovalores e correspondentes autovetores de uma matriz de variâncias-
covariâncias ou de correlações entre variáveis e tal procedimento é conhecido
como modo “R”. O primeiro autovalor a ser determinado corresponderá à maior
porcentagem da variabilidade total presente e assim sucessivamente. Geralmente
os dois ou três primeiros autovetores encontrados explicarão a maior parte da
variabilidade presente. Quando o primeiro autovetor já explica 90 a 95% da
variabilidade isso deve ser encarado com cuidado e verificado se não estão
presentes variáveis com valores de magnitudes muito maiores que as demais.
Os autovetores correspondem às componentes principais e são o
resultado do carregamento das variáveis originais em cada um deles. Tais
carregamentos podem ser considerados como uma medida da relativa
importância de cada variável em relação às componentes principais e os
respectivos sinais, se positivos ou negativos, indicam relações diretamente e
inversamente proporcionais.
A matriz de carregamentos de cada variável nas componentes principais
ao ser multiplicada pela matriz original de dados fornecera a matriz de contagens
(scores) de cada caso em relação às componentes principais. Esses valores
poderão então ser dispostos num diagrama de dispersão, em que os eixos são as
duas componentes mais importantes, e mostrar o relacionamento entre os casos
condicionados pelas variáveis medidas.
A primeira matriz obtida, resultado das interrelações entre variáveis pode
ser interpretada como um procedimento estatístico no qual os dados seriam
amostras de populações multidimensionais. Já a segunda matriz, que apresenta
as interrelações entre casos ou amostras, no sentido geológico, não são
usualmente passíveis de serem submetidas a testes estatísticos.
69
5.1. Seqüência de cálculos
Se A for uma matriz simétrica de variâncias e covariâncias, de dimensões
pxp, com termos aij, de onde os autovalores e os autovetores serão extraídos, Vi o
i’ésimo autovetor, cujos termos são vij e λi o i’ésimo autovalor, tal relação pode ser
expressa por
( ) ,A I Vi i− =λ 0
onde I é a matriz de identidade.
Alternativamente a relação acima pode ser escrita por
AV Vi i i= λ , ou, [ ][ ] [ ][ ]A V V= Λ , onde
[V] é uma matriz , p x p, de todos os autovetores e
[Λ] é uma matriz, p x p, com os autovalores λi na diagonas principal.
Multiplicando ambos os lados da equação pela transposta de V, V’.
[ ] [ ][ ][ ]'A V V= Λ
A soma dos autovalores é igual à soma dos termos da diagonal em [A], ou
seja, a soma das variâncias
∑ = ∑λ i iia
e por definição λ λ λ1 2≥ ≥... p
Resolvendo a equação acima para λ, as raízes determinadas serão os
autovalores. Encontrados os autovalores, substituindo-os nas equações
simultâneas e resolvendo-as, obtém-se para cada autovalor autovetores
correspondentes, ou seja, as componentes principais.
Pode-se definir a variância total existente em um conjunto de dados
multivariados pela soma das variâncias de cada uma das variáveis. Numa matriz
de variâncias-covariâncias essas variâncias individuais constituem os elementos
da diagonal principal. Basta somá-los, portanto, encontrando o traço da matriz
para se obter a variabilidade total, e em seguida a contribuição de cada variável.
A soma dos autovalores de uma matriz, igual ao traço dessa matriz, representa
também a variabilidade total da mesma e a contribuição de cada autovalor em
termos de variabilidade é determinada. Ao primeiro corresponderá a maior
variabilidade possível existente, ao segundo a maior variabilidade possível
restante e assim por diante.
70
Em termos geométricos, o primeiro autovalor representa o eixo principal de
maior comprimento; o segundo autovalor, um segundo vetor em comprimento,
situado em posição ortogonal em relação ao primeiro e assim sucessivamente.
Os elementos de cada um dos autovetores encontrados são simplesmente
coeficientes de equações lineares que transformam os dados originais em
contagens (scores) indicativas do respectivo carregamentosobre os eixos
correspondentes. Desse modo, utilizando-se da multiplicação da matriz de dados
originais pela matriz de autovetores, obtém-se uma matriz de dados
transformados que representam projeções dos pontos, num espaço
multidimensional, sobre as diversas componentes principais.
[ ] [ ][ ]S X VR = , onde
[X] = matriz de dados originais [n x m]
[V] = matriz quadrada [m x m] contendo os autovetores
[SR] = matriz [n x m] das contagens sobre as componentes principais.
5.2. Análise das Coordenadas Principais
A Análise das Coordenadas Principais pode ser entendida como um caso
mais geral da Análise das Componentes Principais. Enquanto esta utiliza matrizes
de variâncias-covariâncias ou de correlações aquela pode usar uma variedade de
diferentes medidas de distância ou de similaridade. Essas medidas são tomadas
diretamente entre os espécimes, no chamado modo “Q”, e não entre variáveis.
Neste caso os autovetores resultantes representam os scores para os espécimes.
Fornece, assim, uma ordenação direta entre casos e é muito útil nas situações
quando se dispõe de uma matriz de dados com mais variáveis do que espécimes.
Nessa análise, porém, não são fornecidos cargas ou pesos (loadings) para as
variáveis. Recomenda-se o trabalho de Gower (1966) para o detalhamento desta
análise.
Como no uso da Análise das Coordenadas Principais diversas categorias
de medidas de distância ou de sililaridade podem ser usadas, se os dados a
serem analisados forem uma mistura de valores contínuos e medições binárias, o
“coeficiente geral de similaridade de Gower” pode ser aplicado, pois este é um
coeficiente de similaridade métrico. Distâncias alternativas, como a “Manhattan
71
métrica” podem também ser analisadas. A utilização da distância euclidiana para
esta análise fornece o mesmo resultado que uma análise das componentes
principais no modo “Q”.
• Coeficiente de similaridade geral de Gower
( )
∑
∑
=
=
=
n
1k
ijk
n
1k
ijkijk
ij
w
sw
GGSc
onde: ( )krange
xx
1s jkikijk
−−= , para dados quantitativos
= 1 para comparação de dados binários ou multiestados
= 0 para os demais casos
Wijk = 0 para comparações negativas de dados binários
= 1 para todas as outras situações
• Distância métrica de Manhattan:
MMdij = |xik – xjk|,
onde “i” e “j” representam duas linhas (casos ou espécimes) de uma matriz
de dados e “k” representa as colunas (variáveis) e “n” número total de variaveis:
A análise das coordenadas principais é, todavia, restrita para o caso em
que as distâncias ou similaridades são métricas. Para uma medida ser
considerada métrica tem que obedecer certos pressupostos matemáticos, como o
poder ser visualizada de um modo gráfico. Assim as distâncias entre três pontos
deve obedecer aos vértices de um triângulo. Isso significa que a distância entre
dois dos pontos, ou seja, um dos lados do triângulo, deve ser sempre menor que
as outras duas distâncias. Isso nem sempre ocorre como, por exemplo, num
conjunto de coeficientes de correlação se os valores forem tratados como
“distâncias” não será possível escolher três entre eles para traçar um triângulo.
5.3. Métodos robustos para análise das componentes principais
72
O objetivo de qualquer análise estatística, inclusive a multidimensional, é
inferir propriedades da população a partir de amostras estudadas. Valores
anômalos (outliers) presentes podem, porém, levar à conclusões errôneas e daí o
interesse em detectá-los. A análise das componentes principais, por se basear em
estimativas de dispersão por quadrados mínimos, não é capaz de fazê-lo e por
isso a necessidade de métodos robustos. Exemplo disso é apresentado por ZHOU
(1989) que discute a aplicação de três opções de métodos robustos, todas elas
calcadas no uso da distância de Mahalanobis. Esse trabalho é acompanhado por
um programa, “ROPCA”, escrito em FORTRAN e disponível para acesso e
carregamento.
Nesse trabalho é apresentado como exemplo de matriz de dados a
composição mineral de uma rocha artificial, denominada “hongito” por Aitchison
(1986), consituida por 25 espécimes e 5 variáveis. A essa matriz foram
adicionados dois vaores anômalos, com altos valores na 4a e 5a variáveis e
baixos valores na 1a variável.
N V1 V2 V3 V4 V5
01 4880.0 3170.0 380.0 640.0 930.0
02 4820.0 2380.0 900.0 920.0 980.0
03 3700.0 910.0 3420.0 950.0 1020.0
04 5090.0 2380.0 720.0 1010.0 800.0
05 4420.0 3830.0 290.0 770.0 690.0
06 5230.0 2620.0 420.0 1250.0 480.0
07 4460.0 3300.0 460.0 1220.0 560.0
08 3460.0 520.0 4290.0 960.0 770.0
09 4120.0 1170.0 2670.0 960.0 1080.0
10 4260.0 4660.0 70.0 560.0 450.0
11 4990.0 1950.0 1140.0 950.0 970.0
12 4520.0 3730.0 270.0 550.0 930.0
13 3270.0 850.0 3890.0 800.0 1190.0
14 4140.0 1290.0 2340.0 1580.0 650.0
15 4620.0 1750.0 1580.0 830.0 1220.0
16 3230.0 730.0 4090.0 1290.0 660.0
17 4320.0 4430.0 100.0 780.0 370.0
18 4950.0 3230.0 310.0 870.0 630.0
19 4230.0 1580.0 2040.0 830.0 1320.0
20 4460.0 1150.0 2380.0 1160.0 850.0
21 4580.0 1660.0 1680.0 1200.0 880.0
22 4990.0 2500.0 680.0 1090.0 740.0
23 4860.0 3400.0 250.0 940.0 550.0
24 4550.0 1660.0 1760.0 960.0 1070.0
25 4590.0 2490.0 970.0 980.0 970.0
26 3130.0 2944.0 1068.0 1526.0 1332.0
27 3012.0 1200.0 1232.0 2051.0 2505.0
73
Na Figura 5.1. estão dois diagramas de eixos ortogonais mostrando o
resultado da análise das componentes principais aplicada à amostra de hongito
com 25 valores e tambem à mesma amostra acrescida de mais dois valores
anômalos. Pode-se constatar que não há destaque para esses espécimes,
identificados como 26 e 27.
Figura 5.1.: Análise das componentes principais
74
A aplicação, porém, da análise das coordenadas principais, que não é um
método robusto, mas usa o modo Q de análise e a distância euclidiana
padronizada, revela a presença em destaque dos espécimes 26 e 27 (Figura
5.2.).
• Distância euclidiana padronizada
∑
−=
=
n
1k k
jkik
ij sd
xx
StEd
onde sdk = desvio padrão de todos os elementos de k
Figura 5.2. Análise das coordenadas principais
5.4. Exemplo com enfoque “clássico”
Os mesmos dados referentes aos mesossaurídeos da Formação Irati foram
submetidos à análise das componentes principais, a qual forneceu o seguinte
resultado:
75
Autovalores:
F1 F2 F3 F4
Autovalor 2.185 1.148 0.533 0.134
Variabilidade (%)
54.62
7 28.693 13.323 3.357
% acumulada
54.62
7 83.321 96.643 100.000
Autovetores:
F1 F2 F3 F4
cranio 0.611 -0.174 -0.414 -0.652
pescoço 0.138 0.856 -0.459 0.193
Dcompr 0.609 -0.315 -0.102 0.721
Dlargura 0.486 0.371 0.779 -0.138
Este resultado mostra que os maiores pesos para a constituição do
autovetor 1, que responde por 54,62% da variabilidade presente, são as variáveis
crânio e comprimento dos dentes e para o autovetor 2, com 28,69%, é a variável
“pescoço”.
Variáveis (eixos F1 e F2: 83.32 %)
Dlargura
Dcompr
pescoço
cranio
-1
-0.75
-0.5
-0.25
0
0.25
0.5
0.75
1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
F1 (54.63 %)
F2
(
28
.6
9
%
)
A multiplicação da matriz original de dados pela matriz de autovetores
fornece os factor scores dos espécimes. Escolhidos os dois principais eixos ou
componentes principais, correspondendo a uma porcentagem acumulada dos
autovalores da ordem de 96,83%, obtém-se a distribuição espacial dos factor
scores:
76
Fósseis (eixos F1 e F2: 83.32 %)
B32
B31
B30
B29
S28
S27S26
S25
S24S23
S22
S21
S20
S19
S18
S17
S16
M15
M14
M13
M12
M11 M10
M09
M08
M07
M06
M05
M04
M03
M02
M01
-2
-1
0
1
2
3
-3 -2 -1 0 1 2 3 4
F1 (54.63 %)
F2
(
28
.6
9
%
)
Os resultados apresentados pela análise das componentes principais , são
bastante semelhantes aos obtidos pela análise de agrupamentos e, portanto,
merecem as mesmas considerações anteriormente apresentadas. Nesta análise
constata-se, porem, que os espécimes 01 e 13, Mesosaurus, é que estão mais
associados ao campo dos Stereosternum. Também a posição espacial de
Brazilosaurus fica mais clara, próxima mas separada de Stereosternum e distante
de Mesosaurus.
5.5. Exemplo com enfoque “espacial”
Exemplo retirado do trabalho apresentado por BERNARDI, FOWLER & LANDIM
(1997), onde é aplicada a análise das componentes principais num estudo sobre
impacto ambiental para verificar a importância das variáveis coletadas num
efluente de uma fábrica de papel e celulose ingressando num corpo receptor. As
amostras foram coletadas no rio Paraíba do Sul, na fazenda Coruputuba, no
município de Pindamonhangaba, Estado de São Paulo, Brasil. A área amostrada
era da ordem de 2900 m de comprimento por 100 m de largura, com um total de
290000 m2. Foram amostrados 90 pontos numa malha regular, na qual os pontos
no sentido sul para norte foram eqüidistantes em 100m, e no sentido leste para
oeste, ou seja para juzante, em 50m, sendo considerado o ponto 0m na margem
77
direita, o ponto 50m no meio do rio e 100m na margem esquerda. As variáveis
obtidas foram: riqueza de gêneros do plâncton, pH, temperatura, oxigênio
dissolvido, transparência da água, cor e turbidez da água. As amostras de
plâncton foram coletadas com rede horizontal de malha de 50 µm, durante 10
minutos. Com exceção das análises para cor , turbidez e DBO, as demais foram
realizadas no campo para maior confiabilidade dos resultados.
Pela aplicação da análise das componentes principais os Autores
verificaram que na primeira componente, com uma porcentagem de explicação
de 84,64%, as maiores cargas vetoriais, em módulo, ficaram com as variáveis
transparência (0,975), OD (0,969), cor (-0,969) e DBO (-0,984). Para a segunda
componente as responsáveis pelas maiores cargas foram as variáveis
profundidade da luz (0,145) e número de gêneros do plâncton (-0,780). Devido as
maiores cargas na primeira componente obtida serem provenientes das variáveis
físico-químicas, esta componente foi interpretada como sendo controlada por
fatores abióticos. Como na segunda componente, com uma porcentagem de
explicação de 8,37%, a carga mais alta foi devido a variável riqueza de gêneros
do plâncton, ela foi considerada como controlada por fatores biológicos. (Tabela
5.1.).
Tabela 5.1. - Cargas das componentes principais sem rotação
Componentes I II III
N0 Gêneros 0.621 -0.780 0.066
pH 0.957 0.019 -0.033
Temperatura -0.859 0.025 0.508
OD 0.969 0.031 0.130
Profundidade da luz 0.975 0.145 0.053
DBO5 -0.984 -0.064 -0.085
Cor -0.969 -0.129 -0.015
Turbidez -0.967 0.133 -0.156
% de variação 84.643 8.366 3.941
Na Tabela 5.2. estão os resultados após a rotação fatorial. Como
esperado, tal rotação das componentes otimizou os valores das cargas das
variáveis nos respetivos eixos.
78
Tabela 5.2 - Cargas das componentes principais rotacionados (Método Quartimax)
Componentes I II III
N0 Gêneros 0.531 0.845 -0.020
pH 0.951 0.083 -0.073
Temperatura -0.833 -0.077 0.546
OD 0.970 0.085 0.090
Profundidade da luz 0.987 -0.033 0.021
DBO5 -0.987 -0.051 -0.046
Cor -0.997 0.021 0.018
Turbidez -0.981 0.014 -0.124
% de variação 83.589 9.240 4.122
As Figuras 5.3 e 5.4 mostram a distribuição espacial dos escores das duas
principais componentes, após rotação. Na Figura 5.3. os escores da primeira
componente não variam nas margens esquerda, meio e direita do rio antes da
entrada do efluente, ou seja, a parte ainda não afetada. Após a entrada, a
componente abiótica começa a variar decaindo a partir da coordenada NS 1100m,
assumindo valores negativos e voltando a crescer a partir da coordenada NS
2000 m. Este comportamento pode ser explicado pelo aumento de DBO5, cor e
turbidez com a entrada do efluente e a diminuição do OD e da transparência. A
segunda componente (Figura 5.4.) varia pouco na margem esquerda decaindo na
região do meio do rio. A margem direita começa com cargas positivas, decaindo a
partir dos ponto de coordenada 1100m, voltando a crescer depois do ponto de
coordenada 2000m.
79
Figura 5.3.: Variação espacial da 1a componente
Figura 5.4.: Variação espacial da 2a componente
80
REFERÊNCIAS BIBLIOGRÁFICAS
AITCHISON, J. (1986) – The statistical analysis of compositional data: Chapman & Hall
BERNARDI, J. V. E.; FOWLER, H. G. & LANDIM, P. M. B. (1997) – Aplicação da estatística
multivariada em estudos de impacto ambiental: VII Simpósio de Quantificação em Geociências,
Bol Res. Expandidos, 12-16
GOWER, J. C. (1966) – Some distancRe properties of latent root and vector methods used in
multivariate methods: Biometrika, 55: 325-338
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier.
REYMENT, R. A. & JÖRESKOG, K. G. (1996) – Applied Factor Analysis in the Natural Sciences:
Cambridge University Press, second printing
ZHOU, D. (1989) – ROPCA: A FORTRAN Program for Robust Principal Components Analysis:
Computers & Geosciences, 15:59-78
81
6. ANÁLISE FATORIAL
Diferentemente da análise das componentes principais, que é uma
manipulação matemática, a análise dos fatores pode ser considerada como uma
técnica estatística. Importante é salientar que quando o método foi estabelecido
por psicólogos, interessados em testes de inteligência, a condição fundamental
era que o número de fatores "p" a se determinar, deveria ser conhecido "a priori"
antes da análise ser efetuada. Em Geologia dificilmente essa condição é
preenchida, pois geralmente os "fatores geológicos" acabam sendo estabelecidos
em função dos resultados obtidos, o que torna algumas vezes os resultados
questionáveis. Desse modo, sempre que possível, deve-se levar em consideração
o conhecimento geológico a respeito do problema a ser analisado para o
estabelecimento de possíveis fatores que tenham condicionado a distribuição de
valores da matriz de dados.
O modelo da análise fatorial pode ser expresso por:
jrjr
p
1r
j efaX +∑= = , onde
X j = variáveis originais, existindo "m" x j
p = número "pré-especificado" de fatores
a jr = coeficiente que representa o carregamento da j'ésima variável sobre o
r'ésimo fator
f r = r'ésimo fator
e j = variação casual única relativa as variáveis originais X j
As variáveis, expressas em termos de vetores num sistema de
coordenadas ortogonais, em que o comprimento representa a magnitude,
agrupar-se-ão conforme o relacionamento entre si. Por esses agrupamentos de
vetores poderão passar eixos, denominados fatores, que acusarão, pelo valor da
projeção dos vetores sobre os eixos, a carga fatorial (factor loading) das variáveis
sobre si. Esses fatores representam o número mínimo de causas que
condicionam um máximo de variabilidade existente. A comunalidade
(communallity), h², isto é, a soma dos quadrados das cargas fatoriais das
variáveis sobre cada fator indica a eficiência dos mesmos na explicação da
variabilidade total.
82
Os fatores são encontrados fazendo com que o primeiro eixoesteja em tal
posição que a soma dos quadrados dos pesos fatoriais em relação a ele seja
maximizada, o que equivale a colocá-lo paralelamente ao principal agrupamento
de vetores. O segundo eixo é colocado ortogonalmente, de modo que também
seja maximizada a soma de quadrados dos pesos fatoriais para este segundo
eixo, e assim por diante quanto aos demais fatores.
Uma das dificuldades resultantes deste procedimento é que o padrão de
carregamento para cada componente pode não fornecer dimensões facilmente
interpretáveis. Por exemplo, em uma matriz de coeficientes de correlação em que
nenhum dos coeficientes é particularmente alto, o padrão de carregamento que
pode ocorrer com respeito ao primeiro fator pode ser da mesma ordem relativa de
magnitude que o existente em relação ao segundo fator, ao terceiro fator etc.
Haverá necessidade, então, de uma rotação dos eixos fatoriais. A finalidade
dessa rotação é maximizar colocando os eixos fatoriais numa única posição tal
que cada fator possa ser interpretado pelos maiores carregamentos possíveis
relacionados com o menor número de variáveis possível.
6.1. Análise fatorial pelo modo “R”
Quando se está interessado no relacionamento entre variáveis, o cálculo
dos autovalores e autovetores é feito a partir de uma matriz padronizada de
variâncias-covariâncias, isto é, uma matriz de coeficientes de correlação entre “p”
variáveis, tendo todas o mesmo peso.
Os autovetores são calculados de tal modo a definir “m” vetores com
tamanho unitário. Isso é conseguido multiplicando cada elemento do autovetor
normalizado pela raiz quadrada do correspondente autovalor. O resultado é um
fator, ou seja, um vetor constituído por cargas fatoriais.
A matriz de variâncias e covariâncias observadas, [S2], é igual ao produto
da matriz de carregamentos fatoriais (factor loading) [AR], de dimensões m x p,
multiplicada pelo seu transposto [AR]´, mais uma matriz diagonal de variâncias
únicas [var Ejj]
]E[var]'A[.]A[]S[ ii
RR2 +=
Como na análise fatorial p < m, a variância nas m variáveis é, portanto,
derivada dos p fatores, porém a contribuição é feita por fontes únicas que afetam
83
independentemente as m variáveis originais. Esses p fatores subjacentes são
conhecidos como fatores comuns e resumem a contribuição independente como
um único fator.
Deve ser notado que p dever ser conhecido previamente à análise e isso
implica numa restrição. Caso p não seja especificado a partição de variáveis entre
os fatores comuns e o fator único torna-se indeterminada.
Os autovalores e, conseqüentemente, os fatores, representam a proporção
da variância total explicada pelo respectivo autovetor e cada carga fatorial é
proporcional à raiz quadrada da quantia de variância atribuída pela respectiva
variável ao fator.
As comunalidades (hj
2) indicam quanto da variabilidade total está sendo
explicada pelo conjunto de fatores.
Para que os "p" fatores ortogonais situados no espaço "m" dimensional
sejam mais facilmente entendidos é necessário que estejam em tal posição, de
modo que as projeções de cada variável sobre o eixo fatorial, situem-se o melhor
possível, seja junto a extremidade, seja junto à origem. Em outras palavras,
haverá necessidade de um critério de maximização da variância dos
carregamentos sobre os fatores, o que é conseguido pela rotação dos eixos
fatoriais. Existindo diversos algorítmos à disposição, o mais comum é o critério
“varimax”.
( )
2
2
2
j
2
jp
m
ij
22
j
2
jp
m
ij2
k p
h/ah/ap
s
∑−∑
= ==
sk
2 = variância das cargas fatoriais
p = número de fatores
m = número de variáveis originais
a jp = carregamento da variável j no fator p
hj
2 = comunidade da j’ésima variável
A quantidade que se deseja maximizar é:
V 2k
p
1k
s
=
∑=
Finalmente, após encontrada a matriz fatorial rotacionada se a mesma for
multiplicada pela matriz inicial de dados obtém-se uma matriz dos "factor score".
84
Esses “factor score” representam estimativas das contribuições dos vários fatores
à cada observação original e podem ser utilizados na classificação de amostras.
Maiores detalhes podem ser encontrados em Davis (1986) ou Reyment &
Jöreskog (1993)
6.2. Análise fatorial pelo modo “Q”
Quando se está interessado no relacionamento entre amostras, utiliza-se o
modo Q de análise de fatores, a qual parte de uma matriz inicial de coeficientes
de similaridade entre amostras. O coeficiente de similaridade mais usado é o
coeficiente cosseno-teta.
2
jk
m
1k
2
ik
m
1k
ik
m
1k
ij
XX
jkX
Cos
==
=
∑∑
∑
=θ
Se as "m" variáveis originais forem normalizadas, de modo a terem média
zero e variância 1,0, haverá uma identidade entre valores do coeficiente cosseno-
teta e do coeficiente de correlação.
O propósito classificatório do modo Q é o mesmo da análise de
agrupamentos, porém é de muito mais difícil manuseio e muito mais dispendioso
quanto ao tempo de computação. Por isso se o objeto de uma análise é a
classificação de amostras em grupos, deve-se utilizar ou da análise de
agrupamentos ou dos "factor score" obtidos pela análise fatorial, segundo o modo
R.
Um outro procedimento que procura tambem determinar se uma coleção
de observações multivariadas representam uma amostra de uma única população
ou uma mistura de diferentes populações é a “Análise das Coordenadas
Principais”. Para tanto recomenda-se o trabalho de GOWER (1966) para o
detalhamento desta análise, além de jöreskog, KLOVAN & REYMENT (1976) e
REYMENT, BLACKITH & CAMPBELL (1984).
6.3. Análise das correspondências (Análise das associações)
Tanto a Análise das Componentes Principais como a Análise Fatorial
exigem dados mensurados em escala numérica contínua e não são, portanto,
85
apropriadas para dados nominais, tais como contagem de números de diversos
tipos de fósseis em um nível estratigráficdo, número de fraturas com diferentes
orientações num maciço rochoso ou dados do tipo presente-ausente. Nesses
casos em que os dados podem ser agrupados em categorias, os autovalores são
extraídos a partir de tabelas de contingências e a técnica é conhecida como
“análise das correspondências”, tradução do francês “Analyse des
Correspondances” (BENZÉCRI et al., 1980). Talvez o termo que melhor descreva o
método seria “Análise das Associações entre variáveis e espécimes”. Na tabela
de contingências os valores originais são transformados de modo a poder ser
interpretados como probabilidades condicionais. Por causa da natureza dessa
transformação as relações entre colunas e linhas da tabela transformada são as
mesmas que aquelas da matriz original da dados. Isso significa que as soluções
para o modo Q e para o modo R são equivalentes e desse modo, o produto final
mostra num espaço bidimensional, definido pelos dois mais importantes
autovetores, a distribuição simultânea tanto das amostras como das variáveis.
Este método, porém, é bastante suceptível à presença de valores
anômalos (outliers). Quando presente valores muito diferentes dos demais, os
primeiros eixos fatoriais apresentarão esses valores acumulados em uma das
extremidades do eixo e os demais agrupados na outra. Esse problema pode ser
contornado com a eliminação dos valores anômalos ou então, se mantidos,
ignorar o primeiro eixo e verificar os eixos subsequentes.
Ver aplicações dessa metodologia em Geologia em TEIL (1975), TEIL &
CHEMINÉE (1975) e DAVID, DAGBERT & BEAUNCHEMIN (1977). Em CARR (1990) é
apresentado um programa em FORTRAN-77 para o cálculo desta análise.
6.3.1.Seqüência de cálculos
Inicialmente os elementos da matriz [X] de dados originais, de dimensões n
x m, são convetertidos em probabilidades conjuntas didivindo cada elemento pelo
total geral ΣΣxij
]X[
x
1]B[
ij∑∑
=
Em seguida é definida uma matriz quadrada [M] com dimensão m x m, que
contém os totais das colunas de [B] arranjados em ordem ao longo da diagonal
principal e com zeros em todas as demais posições. Também é definida uma
86
matriz [N], com dimensões n x n que contém os totais das linhas na diagonal
principal e zeros nas demais posições. Essas duas matrizes contém as
probabilidades marginais das colunas e das linhas e são usadas para transformar
[B].
2/12/1 ]M[]B[]N[]W[ −−=
A matriz [W], com dimensões n x m, contém os elementos transformados
wij que correspondem a cada elemento original xij. A matriz de produtos-cruzados
entre colunas é
]W[]'W[]R[ =
E, de mesmo modo, a matriz de produtos-cruzados entre linhas é
']W[]W[]Q[ =
Os autovalores de [R] e de [Q] são idênticos, exceto que em [Q] tem (n-m)
autovalores adicionais, todos com o valor zero. Os autovetores de [R] podem ser
convertidos nos “fatores de correspondência (=associação)” multiplicando cada
vetor pelo seu valor singular correspondente, que é a raiz quadrada do autovalor
correspondente
Carregamentos no modo R = λ . autovetores de modo R
Em notação matricial os valores singulares podem ser pensados como
presentes ao longo da diagonal de uma matriz m x m, [λ], sendo zero os demais
elementos. Os autovalores de [R] formam as colunas de uma matriz m x m, [U]. A
equação matricial para determinar os carregamentos no modo R é então:
][]U[]A[ R Λ=
Os “scores” de cada n observação sobre os m fatores de correspondências
são
]A[]W[]S[ RR =
Para o caso de autovalores de [Q], sendo [V], de dimensões n x n, a matriz
que contém n autovetores de [Q], de modo idêntico obtém-se
][]V[]A[ Q Λ= e ]A[]'W[]S[ RQ =
Há uma relação direta entre as soluções para o modo R e para o modo Q:
1RQ ][]A[]W[]A[ −Λ= 1R ][]S[ −Λ==
O carregamento nos fatores de correspondências no modo Q é igual aos
“scores” de correspondências no modo R, dividido pelos valores singulares
87
apropriados. Pode-se obter uma solução para o modo Q resolvendo-o no modo R,
o que é uma vantagem em termos computacionais, pois normalmente [R] tem
dimensões menores que [Q].
A conseqüência direta disso é que se pode plotar tanto amostras como
variáveis no mesmo espaço, usando os mesmos eixos. A obtenção de mesmas
escalas tanto para R como para Q é obtida por
]A[]M[]Aˆ[ R2/1R =
]A[]N[]Aˆ[ Q2/1Q =
A apresentação de resultados simultâneos, referentes à variáveis e
amostras, num mesmo diagrama de dispersão é bastante útil e de fácil
interpretação, como visto. Além desta análise das associações, pode tambem ser
mencionado o método proposto por GABRIEL (1971) que aborda de um modo mais
geral o relacionamento entre linhas e colunas de uma tabela de contigência.
Detalhes podem ser encontrados em GORDON (1981), JACKSON (1991), JOLLIFFE
(1986) e GABRIEL (1995,a,b).
6.4. Análise fatorial R-Q simultânea
Embora o teorema de Eckart-Young estabeleça ser possível extrair fatores
simultâneamente pelos modos R e Q, na prática os resultados podem não serem
os mesmos devido a maneira como os dados são transformados antes do
processo fatorial. O escalonamento de valores condiciona as medidas de
similaridade e, desse modo, a natureza da solução fatorial.
No modo R a solução fatorial inicia-se pela matriz simétrica dos menores
produtos [W]´[W], enquanto no modo Q a solução inicia-se pela matriz simétrica
dos maiores produtos [W][W]´. Isso significa que os procedimentos de
escalonamento de valores não são os mesmos para originar [W] a partir dos
dados originais [X]. Por exemplo, na análise das componentes principais cada
elemento de [X] é dividido pelo desvio padrão das colunas para produzir [W]. Na
análise fatorial pelo modo Q ocorre uma padronização que inclui a divisão de cada
elemento de [X] pela raiz quadrada da soma de quadrados das linhas para
originar [W]. Como a matriz [W] originada pelo modo R não é idêntida à matriz
88
[W] originada pelo modo Q, tal diferença entre escalas não fornece os mesmos
resultados (DAVIS, 1986).
A “análise das associações” usa uma matriz simétrica com a mesma escala
de valores para linhas e colunas e procura medidas de similaridade proporcional
entre objetos e variaveis. A similaridade resultante é a distância χ2 utilizável
apenas para tabelas de contingência que estima probabilidades. Uma tabela de
medidas com valores contínuos, porem, tem diferentes propriedades e
necessidade metodologia própria para tratar simultâneamente os objetos e as
variáveis, como apresentado por ZHOU, CHANG & DAVIS (1983).
Segundo esses Autores se os dados forem escalonados de modo que o
produto menor [W]´[W] seja uma matriz de correlações e o produto maior [W][W]´
uma matriz de distâncias euclideanas, o modo R ao ser executado por uma
análise das componentes principais e o modo Q por uma análise das
coordenadas principais, os resultados apresentarão a mesma configuração
espacial.
No artigo de ZHOU, CHANG & DAVIS (1983) é apresentado como exemplo
para a aplicação da análise R-Q em contraposição à análise das
correspondências uma matriz de dados retirada de SHERMAN, BUNKER E BUSH
(1971). Esses dados provem da área de Berea, Virginia/EUA, onde um pequeno,
mas altamente radioativo, pluton de quartzo-monzonito (Q) foi introduzido em
clorita-actinolita-xistos (X) e, posteriormente, cobertos por areias e cascalhos (A).
Um total de 22 amostras foram coletadas e analisadas para U (partes por milhão),
Th (ppm) e K (porcentágem). Alem disso foi realizado um levantamento aereo-
radiométrico (A), com valores medidos em contagem por segundo, para verificar
a relação entre essa coleta e os dados de campo. Os valores estão na Tabela
6.1. e foram submetidos tanto a “análise R-Q” como à “análise das
correspondências”.
A solução pela “analise R-Q” mostrou correlações positivas entre as quatro
variaveis consideradas e as amostras distribuíram-se por áreas distintas conforme
a litologia, ao longo do fator 1, que correspondeu a 85 da variabilidade presente.
Já a análise das correspondências revelou um padrão diferente de distribuição,
onde a variável radiométrica aparece no centro do diagrama e as amostras estão
aí agrupadas independentemente das diferença litológicas. Esses resultados são
inconsistentes com a realidade geológica e a razão para a não detecção está no
89
fato que as variaveis foram medidas segundo diferentes ordens de magnitude. A
análise das correspondências foi originalmente designada para analisar tabélas
de contigências e quando aplicadas à tabélas de valores numéricos cuidados
devem ser tomados para evitar problemas de escala de mensurações. Como
apresentado no capítulo anterior, ZHOU (1989) discute a aplicação de metodos
robustos para a análise R-Q, e nesse trabalho é apresentado um programa,
“ROPCA”, escrito em FORTRAN e disponível para acesso e carregamento.
N litologia Aero U Th K
1 X 240 0.63 2.05 0.13
2 X 360 2.18 5.31 0.31
3 X 420 2.26 5.61 0.34
4 X 500 1.71 6.44 0.7
5 Q 580 2.38 7.99 1.73
6 Q 700 3.83 8.32 4.26
7 Q 600 3.79 9.46 1.53
8 Q 650 4.09 14.71 3.11
9 Q 770 4.21 12.00 1.90
10 Q 930 4.72 12.78 2.92
11 Q 1020 6.24 16.31 2.29
12 Q 1000 5.24 14.51 1.88
13 Q 1000 4.73 15.79 4.64
14 Q 1040 4.67 10.30 4.17
15 Q 1150 5.08 13.11 3.97
16 Q 1000 5.27 13.40 4.36
17 Q 960 5.61 10.31 2.05
18A 420 2.33 6.83 0.47
19 A 370 2.64 9.88 0.58
20 A 400 2.29 6.02 0.34
21 A 480 2.32 6.14 0.32
22 Q 730 5.94 12.86 1.35
Tabela 6.1.: Matriz de dados provenientes da região de Berea-Virginia/EUA
Utilizando o pacote MVSP, versão 3.1., obtem-se, com a aplicação da
Análise das Correspondências, o diagrama exposto na Figura 6.3, o qual esta
perfeitamente de acordo com o exemplo acima citado.
90
Figura 6.3. Análise das associações entre as variáveis U, Th, K e radiometria (A) e as
litologias xisto (X), quartzo-monzonito (Q) e areia e cascalho (A)
Bastando apenas padronizar as variáveis na análise das componentes
principais, e utilizando o mesmo pacote MVSP, o resultado apresentado é
semelhante ao encontrado pelos Autores acima citados (Figura 6.4.).
Figura 6.4. Análise das componentes principais entre as variáveis, padronizadas, U, Th, K e
radiometria(Aero) e as litologias xisto (X), quartzo-monzonito (Q) e areia e cascalho (A)
91
6.5. Exemplo
Exemplo retirado de KRUMBEIN & GRAYBILL (1965, caps. 14 e 15). Os dados
são provenientes de 31 poços perfurados nos estados norte-americanos de
Kansas e Colorado em rochas de idade permiana. São espessuras de 4 litologias,
arenito, folhelho, carbonato e evaporito, e mais duas. A primeira (total) resultante
da soma dessas quatro variáveis e a segunda (não clásticos) resultante da soma
de carbonato e evaporito.
Codig
o
Caso
s total arenito folhelho
nclástic
o
carbonat
o evaporito
1001 10 845 266 350 229 24 205
1004 9 906 337 432 137 60 77
1006 8 844 451 311 82 42 40
1007 7 447 293 116 38 12 26
1009 23 1001 348 450 203 17 186
1010 22 933 275 435 223 41 182
1012 19 374 240 110 24 24 0,0001
1014 1 608 365 148 95 20 75
1015 2 640 224 304 112 14 98
1017 20 614 255 272 87 28 59
1019 11 915 265 355 265 43 222
1020 12 1139 179 643 317 20 297
1021 21 702 237 341 124 39 85
1023 3 464 104 242 118 18 100
2002 13 1118 180 568 370 0,0001 370
2003 14 1224 207 758 259 11 248
2004 24 1204 277 610 317 10 307
2005 25 1144 310 520 314 12 302
2006 26 1048 362 510 176 12 164
2008 15 1162 130 659 373 13 360
2009 16 1003 224 542 237 21 216
2011 17 721 229 400 92 12 80
2012 18 775 223 477 75 28 47
2015 28 1023 295 501 227 18 209
2016 27 1114 246 528 340 32 308
2017 29 955 267 502 186 24 162
2019 4 532 157 238 137 0,0001 137
2021 5 562 120 316 126 0,0001 126
2031 30 1005 271 637 97 8 89
2034 6 530 30 461 39 0,0001 39
8001 31 1126 270 558 298 68 230
À essa matriz de dados foi aplicada uma análise fatorial com o intuito de
verificar que fatores teriam controlado a deposição desses sedimentos.
92
Inicialmente foi calculada uma matriz de coeficientes de correlação entre as
6 variáveis:
total arenito folhelho nclástico carbonato evaporito
Total 1 0,241 0,887 0,844 0,145 0,818
Arenito 0,241 1 -0,119 -0,044 0,448 -0,115
Folhelho 0,887 -0,119 1 0,690 -0,053 0,696
nclástico 0,844 -0,044 0,690 1 0,059 0,987
carbonato 0,145 0,448 -0,053 0,059 1 -0,100
evaporito 0,818 -0,115 0,696 0,987 -0,100 1
Cálculo dos autovalores:
F1 F2 F3 F4
Autovalores 3,462 1,527 0,573 0,426
variância %
57,70
3
25,45
2 9,554 7,103
v. acumulada %
57,70
3
83,15
5
92,70
9 99,812
Matriz factorial (antes da rotação):
F1 F2 F3 F4
Total 0,953 0,226 -0,131 0,155
Arenito -0,006 0,866 -0,491 -0,093
Folhelho 0,872 -0,097 -0,029 0,467
nclástico 0,950 -0,010 0,115 -0,290
carbonato 0,021 0,834 0,548 0,055
evaporito 0,943 -0,142 0,028 -0,297
Matriz fatorial (após rotação varimax)
F1 F2 F3 F4
Total 0,640 0,247 0,088 0,722
Arenito -0,032 0,972 0,233 0,000
Folhelho 0,412 -0,100 -0,035 0,899
nclástico 0,939 -0,030 0,066 0,337
carbonato 0,000 0,228 0,973 0,004
evaporito 0,935 -0,066 -0,089 0,336
Pelo peso das variáveis em cada fator as seguinte explicações, de caráter
sedimentológico, foram dadas para cada um deles:
Fator 1: Circulação restrita; alta taxa de evaporação; rápida subsidência
Fator 2: Rápida introdução de clásticos grosseiros
Fator 3: Níveis normais de circulação e evaporação; taxas lentas de
deposição; falta de aporte de clásticos
93
Fator 4: Rápida subsidência; valores intermediários de circulação e
evaporação; aporte de detritos de granulação fina.
Em KRUMBEIN (1962) encontra-se, porem, as coordenadas geográficas
desses poços o que possibilita um enfoque espacial para a análise fatorial desses
mesmos dados
Codig
o
Caso
s X Y
1001 10 3,1 2,45
1004 9 2,3 2,6
1006 8 1,15 2,7
1007 7 0,2 3,05
1009 23 3,1 1,15
1010 22 2,6 1
1012 19 0,6 1,65
1014 1 1,85 3,4
1015 2 2,35 3,15
1017 20 1,15 1,7
1019 11 2,9 2,2
1020 12 3,6 2
1021 21 2,25 1,05
1023 3 2,6 3,7
2002 13 3,7 2,35
2003 14 3,85 1,8
2004 24 4,25 1,6
2005 25 4,1 0,9
2006 26 3,8 0,5
2008 15 4,8 2,55
2009 16 5,1 2,7
2011 17 5,55 2,9
2012 18 6,2 3
2015 28 4,2 0,5
2016 27 4,3 0,7
2017 29 5,7 1,4
2019 4 4,5 3,8
2021 5 5,5 3,7
2031 30 5,75 0,9
2034 6 5,55 4,6
8001 31 3,4 0,2
Inicialmente obtem-se um mapa de localização dos poços:
94
10
98
7
23
22
19
1
2
20
11
12
21
3
13
14
24
25
26
15
16
17 18
28
27
29
4 5
30
6
31
0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
Com esse tipo de dado estratigráfico georreferenciado normalmente o que
se faz são mapas de isópacas das litologias encontradas:
95
1.00 2.00 3.00 4.00 5.00 6.00
2.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
2.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
2.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
2.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
2.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
2.00
4.00
Total Arenito
Folhelho Não clástico
Carbonato Evaporito
Como, porem, se dispõe das coordenadas geográficas, cada fator pode
ser mapeado fornecendo mapas faciológicos:
96
Caso
s X Y F1 F2 F3 F4
10 3,1 2,45 1083,19 417,05 144,40 1071,20
9 2,3 2,6 947,73 512,38 203,78 1115,09
8 1,15 2,7 768,37 620,01 211,26 930,57
7 0,2 3,05 384,57 383,38 115,45 448,84
23 3,1 1,15 1179,46 525,70 166,90 1258,59
22 2,6 1 1147,11 444,59 169,46 1201,47
19 0,6 1,65 299,60 319,33 109,95 377,29
1 1,85 3,4 597,83 486,75 152,48 629,64
2 2,35 3,15 724,50 338,58 110,22 806,32
20 1,15 1,7 633,77 372,03 131,72 737,32
11 2,9 2,2 1179,77 434,97 169,51 1144,18
12 3,6 2 1563,44 366,05 133,50 1607,39
21 2,25 1,05 778,12 369,01 143,69 884,14
3 2,6 3,7 597,62 185,30 73,04 626,13
13 3,7 2,35 1637,07 358,35 112,06 1567,14
14 3,85 1,8 1564,07 405,68 135,25 1736,07
24 4,25 1,6 1597,69 477,71 152,59 1628,04
25 4,1 0,9 1513,68 504,87 160,34 1501,16
26 3,8 0,5 1187,90 546,03 167,51 1329,95
15 4,8 2,55 1697,77 315,03 114,83 1678,38
16 5,1 2,7 1282,54 394,35 138,43 1364,22
17 5,55 2,9 780,13 355,16 113,49 938,29
18 6,2 3 799,79 361,30 131,53 1029,74
28 4,2 0,5 1260,26 472,48 155,22 1336,12
27 4,3 0,7 1529,81 437,83 163,15 1497,52
29 5,7 1,4 1135,61 434,10 149,98 1258,29
4 4,5 3,8 690,25 246,87 71,97 690,44
5 5,5 3,7 722,14 211,56 63,51 774,78
30 5,75 0,9 1071,31 440,70 135,63 1361,11
6 5,55 4,6 601,24 110,07 36,63 823,36
31 3,4 0,2 1436,73 475,76 207,94 1492,94
97
1.00 2.00 3.00 4.00 5.00 6.00
1.00
2.00
3.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
1.00
2.00
3.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
1.00
2.00
3.00
4.00
1.00 2.00 3.00 4.00 5.00 6.00
1.00
2.00
3.00
4.00
F1 F2
F3 F4
Mapa faciológico 1: Circulação restrita; alta taxa de evaporação; rápida subsidênciaMapa faciológico 2: Rápida introdução de clásticos grosseiros
Mapa faciológico 3: Níveis normais de circulação e evaporação; taxas lentas de
deposição; falta de aporte de clásticos
Mapa faciológico 4: Rápida subsidência; valores intermediários de circulação e
evaporação; aporte de detritos de granulação fina.
98
REFERENCIAS BIBLIOGRAFICAS
BENZÉCRI, Jean-Paul, & others (1980) - L”Analyse des données. Vol. 2, L’Analyse des
correspondances: Dunod, Paris, 628p.
CARR, J.R. (1990) - CORSPOND: a portable FORTRAN-77 program for correspondence analysis:
Computers & Geosciences 16(3):289-307.
DAVID, M.; M., DAGBERT & BEAUCHEMIN, Y. (1977) - Statistical analysis in geology:
Correspondence analysis method: Quart. Colorado Sch. Mines, 7:60p.
GABRIEL, K. R. (1971) – The biplot display of matrices with application to principal cimponents
analysis: Biometrica, 58:453-467
GABRIEL, K. R. (1995,a) : Biplot displays of multivatiate categorical data, with comments on
multiple correspondence analysis: Recent Advances in Descriptive Multivariate Analysis (ed.: W. J.
Krzanowski): 190-226, Oxford Science Publ.
GABRIEL, K. R. (1995,B): MANOVA biplots for two-contingency tables: Ibid., 227-268
GORDON, A. D. (1981): Classification: Monographs on Applied Probability and Statistics,
Chapman and Hall
GOWER, J. C. (1966) – Some distance properties of latent root and vector methods used in
multivariate methods: Biometrika, 55:325-338
JACKSON, J. E. (1991) – A User´s Guide to Principal Components: Wiley
JOLLIFFE, I. T. (1986) – Principal Components Analysis: Springer Verlag
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier.
KRUMBEIN, W.C. (1962) – Open and Closed Number Systems in Stratigraphic Mapping: Bull. Am.
Ass. Petrol. Geologists, 46:2229-2245
KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) – An Introduction to Statistical Models in Geology:
McGraw-Hill Book Co.
REYMENT, R. A., BLACKITH, R. E. & CAMPBELL, N. A. (1984) – Multivariate Morphometrics: 2d.
edition, Academic Press
SHERMAN, K. N., BUNKER, C.M. & BUSH, C. A. (1971) – Correlation of uranium, thorium and
potassium with aeroradioactivity in the Berea area, Virginia: Econ. Geol., 66:302-308
TEIL, H. (1975) - Correspondence factor analysis: An outline of its method: Journ. Int’l. Assoc.
Mathematical Geology, 7:3-12.
TEIL, J. & CHEMINÉE (1975) - Application of correspondence factor analysis to the study of major
and trace elements in the Erta Ale Chain (Afar, Ethiopia): Jour. Int’l. Assoc. Mathematical
Geology, 7:13-30.
ZHOU, D. (1989) – ROPCA: A FORTRAN Program for Robust Principal Components Analysis:
Computers & Geosciences, 15:59-78
,
ZHOU, D., CHANG, T. & DAVIS, J. C. (1983) – Dual Extraction of R-Mode and Q-Mode Factor
Solutions: Math. Geology, 15: 581-606
99
7. ANÁLISE DISCRIMINANTE
7.1. Análise discriminante linear
A análise estatística multivariada utilizando funções discriminantes foi
inicialmente aplicada para decidir à qual de dois grupos pertenceriam indivíduos
sobre os quais tinham sido feitas diversas e idênticas mensurações. Nessa
análise, conhecida como análise discriminante linear, a idéia básica é substituir o
conjunto original das diversas mensurações por um único valor Di, definido como
uma combinação linear delas
pp22iii xxxD λ++λ+λ= L
Para fornecer um único valor os termos são adicionados nessa função
linear, e esta transformação é realizada de tal modo a fornecer a razão mínima
entre a diferença entre pares de médias multivariadas e a variância multivariada
dentro dos dois grupos. Conhecido o valor Di , este será comparado com um
certo Do , ou seja, o valor situado na linha expressa pela função discriminante a
meio caminho entre os centros de dois grupos, com a finalidade de verificar a qual
deles o indivíduo pertence. Tal processo exige, portanto, um conhecimento "a
priori" das relações existentes entre os grupos estudados. Isso contrasta com
métodos classificatórios multivariados, como por exemplo a análise de
agrupamentos ou das componentes principais, quando os grupos constituídos por
indivíduos similares entre si emergem através do esquema de classificação
adotado.
Além disso, para a aplicação de testes de significância às funções
discriminantes, os seguintes pressupostos são necessários:
a) que as observações em cada grupo tenham sido escolhidas ao acaso;
b) que a probabilidade de um indivíduo desconhecido pertencer a um dos grupos
seja a mesma;
c) que as variáveis tenham distribuição normal;
d) que as matrizes de variância de grupos comparados sejam de mesmo
tamanho;
e) que todas as observações usadas para o cálculo das funções discriminantes
tenham sido classificadas sem erro.
100
Nos casos em que as matrizes de variâncias e covariâncias são diferentes
torna-se necessário escolher um outro método que absorva tal diferença, como o
procedimento da função discriminante quadrática.
Um dos métodos utilizados para o cálculo das funções discriminantes
lineares é o da regressão linear, onde a variável dependente consiste na diferença
entre as médias multivariadas de dois grupos e as variáveis independentes as
variáveis e covariâncias das variâncias em estudo. Ver a propósito DAVIS (1986).
A solução do sistema de equações lineares resultante pode ser resolvido,
por cálculo matricial, a partir de:
[ ][ ] [ ]RppVp2 =λ
[ ]Vp2 = matriz, pxp, das variâncias e covariâncias combinadas das p variáveis;
[λ] = vetor coluna, px1, representando os coeficientes desconhecidos;
[Rp] = vetor coluna, px1, das "p" diferenças entre as médias das variáveis de dois
grupos A e B.
Para a constituição de[ ]Vp2 , determina-se:
a) inicialmente a matriz de soma de quadrados e produtos cruzados de todas as
"p" variáveis, do primeiro grupo [ ]Va
[ ]
=
2
PP2P1
P2
2
221
P121
2
1
a
SPXXSPXSSPX
XSPXSQXXSPX
XSPXXSPXSQX
V
L
M
L
L
onde:
1n/
n
x
xSQX
2n
1i
i1n
1i
2
i1
2
1 −
∑
−∑= =
=
1n/
n
xx
)x.x(XSPX
n
1i
i2
n
1i
i1
i2
n
1i
i121 −
∑∑
∑= ==
=
101
b) de modo similar determina-se a matriz de somas de quadrados e produtos
cruzados de todas as "p" variáveis do segundo grupo [ ]Vb
c) calcula-se, então, a matriz combinada segundo:
[ ] [ ] [ ]
2nn
VVV
ba
ba2
p −
+=
Para o cálculo de [Rp] encontram-se as diferenças segundo:
[ ]
−
bp
2b
1b
ap
2a
1a
p
2
1
X
X
X
X
X
X
R
R
R
Rp M
Para o cálculo dos coeficientes λp, que irão constituir a equação da função
discriminante, determina-se o inverso da matriz da variâncias e covariâncias
combinadas e em seguida multiplica essa matriz pelo vetor de diferença entre
médias:
[ ] [ ] [ ]RpVp 12p −=λ
O valor central do grupo A é determinado por
app2a1a1a xxxD λ++λ+λ= L
e do grupo B por
bpp2b1b1b xxxD λ++λ+λ= L
O índice discriminante, Do , ou seja, o ponto na linha descrita pela função
discriminante situado exatamente na metade da distância entre os centros dos
grupos A e B, é encontrado segundo:
+λ++
+λ+
+λ=
2
XX
2
XX
2
XXD bpapp
2b2a
2
1b1a
1o L
Para testar a significância da função encontrada, ou seja, verificar se os
dois grupos considerados pertencem a uma única população ou à duasdistintas
102
populações, calcula-se a distância entre as duas médias multivariadas, D Da b− .
Esta medida de distância é conhecida como “distância generalizada de
Mehalanobis”, ou D², e mede a separação entre as duas médias multivariadas
expressa em unidades de variâncias combinadas.
D² é usada na seguinte expressão para ser testada pela distribuição F:
( ) 2ba
ba
ba
ba D
nn
nn
p2nn
1pnnF
+
−+
−−+= ,
com "p" graus de liberdade para o numerador e " na nb p+ − −1 " para o
denominador. A hipótese nula a ser testada, estabelece que as duas médias
multivariadas são iguais, ou que a distância entre ambos os grupos é igual a zero
significando que se trata de um único grupo.
[ ] bao ou,0Rp:H µ=µ=
[ ] 0Rp:H1 >
A contribuição relativa, em percentagem, de cada variável para o
distanciamento entre os dois grupos é fornecida pela expressão:
100*
D
RppC 2p
λ=
Cp mede apenas a contribuição direta da variável, sem levar em
consideração o seu inter-relacionamento com as demais existentes.
7.2. Análise discriminante multigrupos
Quando se trata de discriminar entre mais de dois grupos torna-se
necessário uma generalização na metodologia. A análise discriminante
multigrupos, que utiliza procedimentos combinados da análise de variância e da
análise fatorial, pode, então, ser utilizada.
A analogia com a análise de variância é que a matriz inicial de todas as
variâncias e covariâncias pode ser parcializada entre categorias ou grupos e
verificada a soma total de quadrados, a soma de quadrados entre grupos e a
soma de quadrados dentro dos grupos. Como no caso da análise de variância
convencional a soma de quadrados entre grupos [E] mais a soma de quadrados
dentro dos grupos [D] é igual à soma total de quadrados [T]:
103
[T] = [E] + [D]
Quando a razão [E]/[D] apresentar um valor alto isto significará que as
médias dos grupos são bem diferentes entre si e os valores dentro de cada grupo
estão bem concentrados ao redor dos respectivos centroides, ou seja, há uma
discriminação significativa entre os grupos. O problema na análise discriminante
é, desse modo, encontrar um conjunto de pesos lineares para as variáveis que
tornem essa razão máxima. Se esse conjunto de pesos for o vetor [A1], a análise
discriminante pode ser efetuada ao encontrar os valores dos elementos de [A1]
de modo que a expressão
{[A1]´[E] [A1]}/{[A1]´[D] [A1]}, seja maximizada.
Nessa análise usualmente é especificado a restrição que o denominador é
igual a 1
[A1]´[D] [A1] = 1.
Obedecida essa restrição a razão é maximizada quando [A1] for o autovetor
correspondente ao maior autovalor de [D]-1 [E]. Pode-se em seguida, como na
análise fatorial, encontrar eixos ortogonais [A2], [A3], etc., numa sucessão
decrescente de funções discriminantes segundo as quais os grupos podem ser
distintos tanto quanto possível.
As observações usadas no cálculo das funções discriminantes podem ser
projetadas no espaço definido pelos eixos discriminantes. Isto é feito segundo a
multiplicação matricial
[Z] = [A]´[X],
onde [X] é a matriz inicial de dados [N x p] e [A] a matriz [p x t] cujas colunas “t”
são os maiores autovetores a serem usados nas funções discriminantes.
Os centroides dos g grupos podem ser projetados no espaço discriminante
por
[ZM] = [A1] [Xmk],
onde [Xmk] contem as médias de todas as variáveis para cada grupo.
Geralmente escolhe-se as duas funções discriminantes de maior peso para
servir como eixos ortogonais para uma distribuição das observações dos diversos
grupos e os respectivos centróides. Uma observação multidimensional de origem
desconhecida pode ser projetada nesse diagrama pela sua multiplicação com o
transposto de [A] e verificada a sua distância aos diversos centróides. Maiores
detalhes podem ser vistos em DAVIS (1986).
104
7.3. Distância Generalizada D² de Mahalanobis
A distância generalizada D² de Mahalanobis também pode ser usada como
uma técnica de comparação quanto à separação entre diversos grupos permitindo
avaliar a extensão e a direção dos afastamentos entre os valores médios das
variáveis usadas na discriminação. As diferenças entre cada par de grupos que
estão sendo comparados são assim examinados simultaneamente através das
diversas variáveis, que podem ser correlacionadas, de modo que a informação
fornecida por uma delas pode não ser independente da fornecida pelas demais.
O valor numérico da maior separação possível entre dois grupos quaisquer
é chamado Distância Generalizada entre os grupos e mede, em escala
independente da originalmente utilizada para as várias variáveis, a clareza das
disjunção entre elas.
Assim, o valor da distância generalizada D² ligando dois grupos é um
número puro, com propriedades da distância comum, e mede a extensão com que
diferem entre si em tamanho e forma.
A Distância Generalizada de Mahalanobis entre os grupos i e j é
usualmente estimada, segundo RAO (1952) por:
[ ][ ] [ ]ji1ji2ij xxSxxD −−= −
onde, xi é o vetor de médias do i'ésimo grupo
xj é o vetor de médias do j'ésimo grupo
[S] é a estimativa combinada da matriz de dispersão dentro dos grupos
Este método de representação de diferenças entre grupos leva em conta
qualquer correlação que exista entre as variáveis usadas e é também
independente das unidades de medida com que as variáveis estão expressas.
Para o cálculo da distância generalizada, por exemplo, usando apenas
duas variáveis (V1 e V2), correlacionáveis, utiliza-se da expressão:
R.V'.RD 12 −=
onde
−
−=
2221
1211
VV
VV
R
105
[ ]22211211 VV,VV'R −−=
= 2
2v
S
2v
s.
1v
s.2v1v
r
2v
s.
1v
s.2v1v
r2
1v
S
V
7.4. Exemplo com enfoque “clássico”
Após a aplicação das análises de agrupamentos e das componentes
principais aos mesossaurídeos da Formação Irati e tendo sido constatado que os
fósseis se apresentam em 3 grupos, resta a questão de decidir se ocorre uma
separação significante, ou não, entre as populações estudadas. Caso seja esse o
caso quais as variáveis mais importantes para a discriminação entre esses taxas.
Para tanto a análise discriminante linear entre dois grupos deve ser usada.
Os resultados, já apresentados por LANDIM & PERINOTTO (1976), são os
seguintes:
a) Função discriminante para Mesosaurus brasiliensis x Stereosternum tumidum:
iii
ii
i Ld398.3Cd111.1Cp561.2cC659.2D −+−=
DM = 12,46; DS = 3,55; D0 = 8,00; D² = 8,91
Teste F = 13,72 (F4/23 = 2,80), signicando que a separação entre essas
duas espécies é significativa ao nível de 5%
De acordo com a função discriminante, entre os exemplares utilizados
para a análise, os de designação (M01) e (M13), assinaláveis a Mesosaurus
brasiliensis, apresentam respectivamente os valores Di = 7,087 e Di = 5,824, o
que indica provavelmente que esses espécimes estejam mal classificados e que
talvez, levando em consideração as quatro variáveis estudadas, pertençam à
espécie Stereosternum tumidum. Recomenda-se neste caso uma análise
osteológica mais detalhada ou mesmo verificação do nível estratigráfico de onde
provenham.
A porcentagem de contribuição direta de cada variável para a
discriminação entre os dois conjuntos de dados é:
comprimento dos dentes = 54,46%; comprimento do crânio = 47,79%;
comprimento do pescoço = 0,04%; largura dos dentes = - 2,29%
106
Esses resultados indicam que as variáveis mais importantes na distinção
entre as duas espécies são o comprimento dos dentes e secundariamente,o
comprimento do crânio. Além disso, demonstra a validade das afirmações de (op.
cit.) quando conclui que o comprimento do pescoço não demonstra diferença
significativa e que a largura dos dentes entre as duas espécimes não se altera.
b) Função discriminante para Stereosternum tumidum x Brazilosaurus
sanpauloensis:
iii
ii
i Ld398.3Cd111.1Cp561.2cC659.2D −+−=
DS = 11,55; DB = -16,86; D0 = -2,65; D² = 28,40;
Teste F = 17,38 (F4/12 = 3,26), signicando que a separação é significativa
ao nível de 5%
Cada variável considerada na discriminação contribuiu diretamente com a
seguinte porcentagem: comprimento do pescoço = 63,03%; comprimento do
crânio = 23,09%; comprimento dos dentes = 14,00%; largura dos dentes = -0,14%
Com esses resultados, é correto dizer que o comprimento do pescoço é a
variável mais significativa na distinção entre essas espécies, o que vem
corroborar com as conclusões de ARAÚJO (op. cit.) ao testar as afirmativas de
SHIKAMA & OZAKI (op.cit.).
c) Função discriminante para Mesosaurus brasiliensis x Brazilosaurus
sampauloensis
iii
ii
i Ld398.3Cd111.1Cp561.2cC659.2D −+−=
DM = 14,30; DB = -27,43; D0 = -6,56; D² = 41,73
Teste F = 27,13 (F4/14 = 3,11), signicando que a separação é significativa
ao nível de 5%
As variáveis mais importantes na distinção entre as duas espécies são o
comprimento do crânio (48,80%) e o comprimento do pescoço (41,99%). A
contribuição direta do comprimento dos dentes é de 9,76%, enquanto que a
largura dos dentes em nada contribuiu (-0,56%). Esses resultados quantificam e
demonstram a validade de dedução de ARAÚJO (op. cit.) em relação à distinção
entre essas duas espécies.
A análise multivariada das funções discriminantes mostra-se eficaz,
comprovando estatisticamente a existência dos três taxa, Sterreosternum
tumidum, Mesosaurus brasiliensis e Brazilosaurus sanpauloensis, trabalhando ao
107
mesmo tempo com as quatro variáveis consideradas para a discriminação e
fornecendo aquelas de maior importância na distinção entre esses taxa. Entre
Stereoternum tumidum e Mesosaurus brasiliensis, o comprimento dos dentes,
entre Stereosternum tumidum e Brazilosaurus sanpauloensis, o comprimento do
pescoço e entre Mesosaurus brasiliensis e Brazilosaurus sanpauloensis os
comprimentos de crânio e escoço.
O afastamento entre os grupos, usando a distância generalizada de
Mahalanobis (D2) entre os tres grupos de fósseis é a seguinte:
A
Isso está de acordo com Bertini (informação verbal) quando afirma que o
gênero Brazilosaurus é provavelmente a forma ancestral dos outros dois gêneros
e o mais terrestre dos mesossauros, com pescoço longo que favorece a
predação, parecendo ter compartilhado seu nicho ecológico com Stereosternum.
O gênero Stereosternum teria vivido em águas rasas periféricas com maior
energia de deposição e condições mais aeróbicas. Quanto ao Mesosaurus teria
habitado águas depocêntricas e seria o mais aquático dos mesossaurídeos,
providos de longos e finos dentes, muito provavelmente filtrador suspensívoro, e
com pescoço curto.
Finalmente foi feita uma análise discriminante multigrupos, com o auxílio do
pacote XLStat, tendo sido obtido o seguinte resultado:
108
Análise discriminante multi-grupos
B32B31
B30 B29
M15
M14
M13
M12
M11
M10
M09
M08
M07
M06
M05
M04
M03
M02
M01
S28
S27
S26
S25
S24
S23
S22
S21
S20
S19
S18 S17
S16
-3
-2
-1
0
1
2
3
4
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5
F1 (94.06 %)
F2
(
5.
94
%
)
B
M
S
Novamente é constatada uma nítida separação entre os três grupos,
estando Brazilosaurus mais próximo a Stereosternum e a indicação que os fósseis
M01 e M13, classificados como Mesosaurus, provavelmente pertencem ao gênero
Stereosternum.
7.5. Exemplo com enfoque “espacial”
No presente exemplo aplicou-se a técnica estatística multivariada da
análise discriminante para classificar e mapear, em termos probabilísticos, as
influências principais que teriam agido no controle da composição química de
águas subterrâneas de uma região granitóide no centro-leste de Portugal,
conhecida como plutonito do Fundão.
A matriz de dados analisada é composta por 160 análises geoquímicas de
águas subterrâneas provenientes da citada região com teores, em ml/l, de Na+,
K+, Mg2+, Ca+2, Cl-, SO42-, NO3-, HCO3- e SiO2. (Figura 1a). Tais dados já foram
analisados por PACHECO (1998) que utilizou a análise das correspondências para
determinar as principais influências sobre a composição química dessas águas.
Segundo esse estudo, que conseguiu identificar águas poluídas e não poluídas,
109
por regressão linear múltipla, três seriam os fatores controladores: alteração por
intemperismo, contaminação agrícola e contaminação doméstica (Figura 1b).
Figura 1A: Distribuição dos pontos
ID Na K Mg Ca HCO3 Cl SO4 NO3 SIO2
28 14,10 1,54 5,90 17,30 47,60 15,60 17,10 23,00 39,426
30 15,90 1,51 5,80 18,70 51,50 17,20 22,00 28,50 38,404
31 14,10 0,59 3,10 12,60 29,90 15,00 8,90 24,00 30,411
32 11,30 1,19 2,40 10,40 23,80 10,00 6,20 23,00 33,536
35 14,70 0,98 4,40 12,80 44,50 12,30 16,40 13,70 36,901
39 9,34 0,65 2,91 5,13 37,80 8,20 6,20 13,40 15,626
41 7,64 0,75 1,78 7,18 15,90 6,70 9,50 3,40 27,826
42 9,11 0,32 1,38 0,30 22,60 4,60 6,10 8,60 25,302
45 24,60 2,14 9,30 19,50 78,10 23,70 22,30 7,50 34,317
51 18,80 1,39 6,60 26,00 47,60 17,70 22,00 11,70 6,010
59 38,70 2,03 16,40 45,70 137,90 75,00 30,50 9,30 40,507
60 9,96 0,50 3,03 8,67 34,20 8,80 7,60 3,90 31,492
61 10,10 0,44 2,23 6,29 35,40 8,20 4,00 1,10 33,656
63 16,20 2,95 7,20 24,90 14,00 28,00 35,30 61,90 23,980
66 12,20 0,28 4,60 13,00 29,30 10,50 15,60 22,70 28,487
67 13,60 0,36 3,10 9,42 64,20 8,60 0,20 0,01 41,108
71 10,80 0,62 4,60 7,95 39,00 6,50 20,80 0,03 37,623
72 7,59 0,24 0,46 0,50 14,60 5,80 2,70 0,06 28,728
74 9,75 0,53 1,92 5,82 40,30 5,30 2,10 2,00 36,601
75 7,22 0,30 2,51 3,50 29,30 4,90 3,00 0,03 23,980
76 8,60 0,43 3,60 8,00 49,40 5,50 4,40 0,03 30,230
77 18,20 0,78 4,90 16,20 51,90 19,50 11,40 16,00 29,990
78 41,30 7,68 9,60 25,20 56,00 59,00 22,70 54,20 26,324
79 9,37 0,43 2,71 5,45 25,00 6,40 6,00 7,50 38,103
84 11,70 0,29 4,10 8,85 27,50 10,90 15,50 13,10 25,603
85 9,78 0,36 2,12 6,85 36,00 6,00 4,50 5,10 36,421
86 13,10 0,97 4,40 8,00 53,10 9,90 1,70 3,70 39,846
87 10,80 0,08 2,21 4,92 27,50 8,60 8,50 0,05 36,841
90 12,30 0,45 3,60 7,25 46,40 8,80 6,00 2,90 30,411
92 10,40 0,56 2,20 5,80 35,40 6,60 5,60 0,01 33,175
110
96 13,60 0,45 1,80 2,90 29,30 1,90 2,80 2,00 39,185
99 17,30 0,84 4,10 9,90 36,60 20,10 17,60 2,30 21,215
202 19,68 1,67 10,06 28,31 14,60 46,00 62,79 52,00 37,202
203 15,44 0,98 4,71 10,87 37,20 13,20 20,04 11,50 36,060
204 12,13 0,45 2,73 5,05 21,50 9,00 8,28 9,80 40,387
205 17,21 0,89 7,10 15,01 43,70 19,00 19,43 23,50 31,252
206 16,82 0,83 3,75 8,28 28,80 24,00 13,90 2,30 36,841
207 16,28 0,52 5,67 16,90 14,90 22,00 27,87 31,00 14,244
208 9,95 0,45 1,78 3,51 20,00 6,40 8,23 5,70 44,474
209 13,04 0,84 2,56 8,55 22,40 8,20 15,50 14,90 45,676
210 8,32 0,45 1,09 3,00 23,70 6,50 3,65 5,10 37,262
211 16,47 2,69 5,56 15,24 65,90 14,00 18,41 4,40 37,082
212 9,14 1,06 1,69 5,19 21,80 3,00 8,29 8,90 44,474
213 19,07 1,26 8,08 22,25 26,20 24,50 20,71 53,00 33,055
214 12,16 0,45 2,69 9,17 13,10 7,80 21,01 12,60 41,890
215 10,50 1,34 2,99 6,79 42,10 4,30 8,32 1,10 29,209
216 11,91 0,53 5,35 14,25 67,90 6,70 10,90 3,30 44,414
217 12,44 0,45 2,17 9,00 48,00 8,60 4,34 0,19 34,918
218 13,89 3,43 7,24 52,25 182,70 17,20 10,95 11,20 34,077
219 16,33 2,07 5,70 18,28 10,20 27,00 6,67 54,00 27,165
220 45,26 6,06 51,90 45,33 223,0088,00 50,29 67,00 50,604
221 11,38 0,45 2,25 5,55 29,10 7,40 6,56 0,20 34,437
222 12,38 0,90 4,12 11,41 39,18 9,20 9,30 13,40 43,452
223 12,18 0,45 5,24 12,33 19,90 9,00 17,80 27,00 31,853
224 8,25 2,21 3,88 15,42 70,50 4,60 6,62 4,80 39,786
225 9,05 0,58 1,70 6,22 22,70 4,70 10,90 3,60 36,962
226 8,91 0,62 1,58 5,27 26,60 4,00 7,58 5,30 44,234
227 9,41 1,05 1,91 7,42 22,40 4,40 7,42 14,00 45,676
228 15,34 1,58 4,83 13,12 51,00 9,50 16,44 11,00 41,589
229 20,24 1,57 3,36 9,17 34,00 19,00 7,79 12,70 35,038
230 15,31 0,45 3,27 8,41 40,50 7,20 15,29 1,30 12,681
231 13,62 0,58 3,05 13,19 38,20 6,30 21,54 7,70 23,980
232 13,00 1,30 1,80 8,52 20,40 6,20 3,88 27,00 41,589
233 28,09 3,19 14,48 46,62 42,10 28,00 24,68 180,00 45,496
234 10,19 0,45 2,14 8,60 26,40 5,60 13,34 8,20 42,731
235 10,88 0,98 1,04 5,87 31,90 5,50 3,37 4,00 31,853
236 29,10 2,88 12,08 47,66 36,70 48,00 54,95 86,00 12,561
237 9,83 0,48 1,78 6,16 24,40 4,20 4,62 15,40 36,781
238 9,27 0,45 1,62 4,34 26,70 5,00 6,51 4,20 20,434
239 14,54 2,40 5,25 15,69 36,60 11,50 13,16 31,00 20,374
241 5,89 0,48 0,79 1,63 14,10 2,80 1,16 3,80 21,155
242 4,95 0,45 0,21 0,88 8,30 2,30 0,47 4,40 26,745
243 25,23 4,27 11,67 30,53 93,30 31,00 24,74 27,00 48,801
244 15,10 0,71 2,51 10,18 19,70 9,40 16,13 15,50 32,093
245 12,32 1,12 3,66 10,59 42,20 11,00 8,32 8,10 27,886
246 11,34 0,45 2,38 6,81 34,40 4,50 7,27 8,10 41,409
247 13,65 0,53 3,00 10,75 27,70 10,00 17,86 10,30 31,492
248 15,08 0,95 4,70 13,89 32,10 6,90 18,43 31,00 31,492
249 9,61 0,47 1,99 3,45 24,90 3,80 8,16 3,20 34,918
250 16,36 1,20 3,93 4,97 11,40 9,50 13,38 20,10 29,269
251 7,27 0,61 0,37 0,95 12,40 3,30 0,72 2,20 42,611
252 6,52 0,45 0,28 0,92 7,80 3,70 0,31 4,10 43,813
111
253 8,18 0,45 0,58 1,23 15,20 3,20 3,17 3,80 52,588
254 7,94 0,63 1,66 1,78 18,00 4,10 3,59 1,80 50,364
255 8,81 0,45 1,58 1,86 17,90 4,40 3,45 4,10 34,197
256 8,86 0,45 0,90 1,26 14,40 4,60 3,63 2,20 26,564
257 10,90 0,45 1,73 2,39 14,80 5,10 4,77 8,70 53,309
258 4,23 0,45 0,28 0,57 3,60 3,40 0,45 4,10 32,935
259 14,61 1,15 5,05 9,38 44,10 9,30 8,32 11,80 46,517
260 11,07 0,47 2,44 5,59 39,50 5,00 3,00 2,70 45,195
261 27,08 3,63 7,10 20,66 41,20 33,00 17,55 28,00 34,137
262 53,18 4,42 16,79 50,18 63,90 118,00 35,98 94,00 40,267
263 42,46 3,64 25,22 73,07 105,00 112,00 69,64 77,00 21,997
264 12,62 0,61 2,73 10,08 27,50 11,80 9,80 15,50 29,870
265 9,37 0,45 1,42 3,60 34,60 5,40 2,07 0,54 36,060
266 25,82 1,40 14,06 40,70 32,50 46,00 85,68 33,00 51,686
267 21,57 1,81 7,07 13,11 78,00 20,00 5,41 11,30 40,808
268 17,02 1,06 5,55 15,09 32,10 18,70 21,10 17,50 33,295
269 89,44 7,53 20,71 71,74 53,50 240,00 53,67 65,00 44,594
270 23,37 2,15 19,18 34,25 71,30 47,00 32,44 45,00 36,300
271 11,06 0,46 1,73 5,14 27,40 7,60 2,39 8,60 34,137
272 8,39 1,03 2,04 5,05 22,40 9,20 0,57 11,60 25,903
273 8,26 0,76 1,55 5,76 39,80 5,80 1,16 0,24 22,538
274 11,31 0,45 2,59 4,21 28,70 10,80 5,02 9,30 48,441
275 9,59 1,02 2,13 4,29 31,50 10,00 1,21 6,50 16,828
276 12,58 0,57 3,24 8,92 32,40 17,00 3,40 10,90 30,952
277 10,27 1,90 3,43 7,64 37,00 12,80 5,71 7,00 30,891
278 8,25 0,45 1,30 3,00 22,90 7,20 1,76 7,00 24,942
279 15,88 0,86 3,79 8,47 42,00 21,00 6,42 7,30 40,808
280 6,24 1,67 1,04 3,59 26,50 5,40 1,09 0,80 13,703
402 3,79 0,92 0,60 1,35 9,16 4,06 0,67 1,37 34,437
404 6,11 0,95 1,04 4,21 18,81 6,68 0,92 2,00 26,444
406 22,68 1,27 3,05 7,78 52,05 22,10 7,23 3,73 39,486
407 26,49 2,60 10,70 27,06 126,96 26,40 19,19 6,60 29,149
408 9,88 1,33 4,34 3,05 33,60 9,50 6,72 7,00 26,504
410 6,67 1,04 1,88 1,87 16,61 3,79 1,20 4,59 29,389
411 4,06 1,88 2,94 3,01 13,06 7,05 4,45 1,85 28,487
415 10,69 0,22 2,77 1,69 28,66 8,66 1,66 0,48 31,973
420 7,19 0,58 1,28 4,34 23,82 7,42 2,23 0,85 37,623
421 7,30 1,19 1,68 3,88 21,51 6,68 2,15 1,43 35,279
423 5,54 0,69 2,22 1,16 15,98 3,11 1,53 1,81 36,240
424 10,77 1,01 1,86 4,75 22,27 8,21 3,79 5,05 24,341
425 8,62 1,26 2,77 7,33 49,98 3,22 0,99 0,69 26,264
427 8,15 1,49 1,47 4,04 26,41 5,75 0,46 1,85 33,896
430 14,84 1,15 2,12 12,07 44,22 8,55 15,57 2,10 39,666
432 8,46 1,54 1,00 2,28 20,61 5,70 0,91 1,58 39,305
433 7,51 0,44 1,42 2,54 17,06 3,78 3,92 1,48 38,164
434 5,50 1,20 1,16 2,07 17,84 2,80 0,78 0,82 27,947
435 6,75 1,48 0,93 2,69 25,69 2,27 0,47 0,34 15,866
438 10,44 1,72 1,62 2,28 26,22 5,40 2,90 1,84 31,372
439 10,30 2,15 1,60 6,30 43,58 4,55 1,21 0,01 38,103
440 9,16 1,40 1,63 5,35 38,80 4,50 2,80 0,44 29,149
441 10,85 1,85 3,09 9,48 58,36 5,89 3,21 0,48 24,701
442 15,64 2,26 3,99 11,30 37,05 29,50 2,41 4,68 28,367
112
443 10,93 1,75 3,74 5,86 33,50 13,40 3,15 2,06 32,755
444 6,92 1,50 2,28 2,39 21,43 5,58 1,29 2,22 34,918
446 11,23 1,34 2,44 6,84 39,70 9,05 1,32 2,05 45,075
447 16,26 2,81 4,96 14,94 59,42 18,90 9,08 6,63 40,027
452 15,39 1,96 4,74 13,26 51,11 12,00 16,85 6,52 32,815
453 13,97 1,42 4,73 10,14 68,55 9,77 4,40 1,03 30,531
457 7,00 1,42 1,50 5,82 34,53 3,28 0,14 0,09 44,775
458 7,60 1,35 1,59 5,90 32,10 6,92 0,88 1,35 41,289
463 7,21 1,45 1,70 3,27 14,07 8,54 3,22 1,94 40,267
514 8,54 1,23 2,31 7,51 34,03 5,70 6,37 1,70 40,147
522 10,16 1,17 5,79 11,77 70,13 6,41 4,55 1,99 35,219
523 13,79 1,51 2,82 11,29 39,67 10,70 14,35 2,13 12,441
524 13,24 2,46 3,46 11,74 56,04 8,80 10,96 1,28 32,154
525 9,20 1,82 2,07 5,68 30,68 4,45 6,63 3,00 33,536
530 15,39 1,44 4,03 12,62 39,24 16,10 17,11 3,82 30,891
534 10,84 1,39 2,28 6,01 18,90 9,81 7,78 6,20 26,745
535 12,61 4,42 5,89 16,19 38,13 25,70 13,72 6,50 46,638
536 8,51 1,61 2,38 10,16 32,29 8,36 5,31 2,58 28,608
539 13,01 1,98 2,40 11,55 36,62 24,30 10,87 9,30 36,541
540 7,33 3,29 2,97 7,41 31,72 7,94 2,22 3,92 31,192
573 4,08 1,35 0,68 1,17 5,84 6,93 0,97 1,20 31,973
574 14,58 3,13 5,35 9,66 39,80 32,40 9,08 1,79 24,942
575 13,70 3,17 5,36 8,97 53,42 15,10 12,53 1,85 33,656
583 20,25 6,46 17,71 18,09 18,60 83,30 12,90 17,60 34,798
589 6,94 3,42 2,91 5,82 30,60 7,26 1,85 1,48 28,067
591 10,34 5,22 4,38 11,39 34,92 14,60 20,06 1,22 24,881
Figura 1B. Distribuição das águas (Pacheco,1998)
Inicialmente aplicou-se uma análise de agrupamentos aos dados. O
método utilizado foi o do agrupamento hierárquico e o coeficiente de similaridade
adotado, para o procedimento aglomerativo, foi o de Ward, que se baseia no
agrupamento pela variância mínima, onde o enfoque é sobre a variabilidade que
113
existe dentro de cada caso e os agrupamentos são efetuados ao se determinar
que pares de casos, quando tomados em conjunto, apresentam o menor
acréscimo de variabilidade.
Depois de obtido o dendrograma resultante e verificada a presença de grupos, os
mesmos foram submetidos á análise discriminante multigrupos.
A análise de agrupamentos revelou três grupos, que foram interpretados de
acordo com o trabalho de Pacheco (1998), como águas não poluídas em que a
composição é influenciada fundamentalmente pela alteração das rochas e águas
poluídas, seja por efluentes domésticos seja por contaminação de defensivos
agrícolas. Os mapas de probabilidade de distribuição de cada um desses grupos
são mostrados nas Figuras 2, 3 e 4.
ID X Y Antes Depois Prob. 1 Prob. 2 Prob. 3
28 176 127 3 3 0,0010 0,1568 0,8423
30 181 129 3 3 0,0064 0,0739 0,9197
31 166 110 3 3 0,0000 0,4718 0,5282
32 165 118 3 2 0,0000 0,5723 0,4277
35 144 76 3 3 0,0000 0,1882 0,8118
39 148 149 2 2 0,0000 0,8024 0,1976
41 124 160 2 2 0,0000 0,7116 0,2884
42 145 180 2 2 0,0000 0,8757 0,1243
45 202 261 3 3 0,0001 0,0048 0,9952
51 172 272 3 3 0,0044 0,0025 0,9931
59 138 259 1 1 0,9816 0,0000 0,0183
60 176 227 2 2 0,0000 0,7081 0,2919
61 190 235 2 2 0,0000 0,8250 0,1750
63 180 110 1 1 0,9994 0,0000 0,0006
66 118 122 3 3 0,0001 0,3237 0,6762
67 123 116 3 2 0,0000 0,7202 0,2798
71 88 109 3 3 0,0000 0,3304 0,6696
72 85 100 2 2 0,0000 0,94200,0580
74 71 105 2 2 0,0000 0,8354 0,1646
75 65 95 2 2 0,0000 0,9037 0,0963
76 66 85 2 2 0,0000 0,8034 0,1966
77 131 77 3 3 0,0000 0,1627 0,8373
78 115 71 1 1 0,7772 0,0000 0,2228
79 94 74 2 2 0,0000 0,8261 0,1739
84 120 106 3 3 0,0000 0,4717 0,5283
85 118 101 2 2 0,0000 0,8069 0,1931
86 216 113 2 2 0,0000 0,6880 0,3120
87 253 106 2 2 0,0000 0,7997 0,2003
90 285 172 2 2 0,0000 0,6511 0,3489
92 301 208 2 2 0,0000 0,7391 0,2609
96 312 165 2 2 0,0000 0,5397 0,4603
99 333 158 3 3 0,0000 0,1760 0,8240
114
202 78 159 1 1 1,0000 0,0000 0,0000
203 79 175 3 3 0,0000 0,1431 0,8569
204 127 210 2 2 0,0000 0,7142 0,2858
205 146 217 3 3 0,0004 0,1199 0,8797
206 103 195 3 2 0,0000 0,5316 0,4684
207 85 151 1 3 0,0225 0,0560 0,9215
208 92 167 2 2 0,0000 0,8307 0,1693
209 86 127 2 3 0,0000 0,3400 0,6600
210 84 112 2 2 0,0000 0,9244 0,0756
211 124 188 3 3 0,0000 0,0338 0,9661
212 128 174 2 2 0,0000 0,6864 0,3136
213 150 197 1 3 0,3824 0,0278 0,5898
214 140 150 3 3 0,0000 0,2567 0,7433
215 150 155 2 3 0,0000 0,4375 0,5625
216 80 74 3 3 0,0000 0,3907 0,6093
217 110 86 2 2 0,0000 0,6413 0,3587
218 130 123 1 1 0,9990 0,0000 0,0010
219 77 146 1 3 0,0920 0,2899 0,6181
220 170 277 1 1 1,0000 0,0000 0,0000
221 200 228 2 2 0,0000 0,6867 0,3133
222 174 231 3 3 0,0000 0,4628 0,5372
223 163 214 3 3 0,0001 0,2396 0,7602
224 173 188 3 3 0,0000 0,3964 0,6036
225 166 172 2 2 0,0000 0,6628 0,3372
226 178 175 2 2 0,0000 0,7953 0,2047
227 186 184 2 2 0,0000 0,6796 0,3204
228 145 80 3 3 0,0000 0,0861 0,9139
229 236 64 3 3 0,0000 0,1647 0,8353
230 288 86 3 3 0,0000 0,0941 0,9059
231 221 83 3 3 0,0000 0,0587 0,9413
232 203 111 3 3 0,0000 0,4669 0,5331
233 200 129 1 1 1,0000 0,0000 0,0000
234 173 153 2 2 0,0000 0,5552 0,4448
235 227 214 2 2 0,0000 0,6580 0,3420
236 234 218 1 1 1,0000 0,0000 0,0000
237 212 192 2 2 0,0000 0,7681 0,2319
238 220 198 2 2 0,0000 0,7317 0,2683
239 209 164 3 3 0,0022 0,0485 0,9493
241 364 221 2 2 0,0000 0,9266 0,0734
242 351 230 2 2 0,0000 0,9561 0,0439
243 190 282 3 3 0,3443 0,0007 0,6550
244 240 182 3 3 0,0000 0,1351 0,8649
245 213 150 2 3 0,0000 0,4307 0,5693
246 205 197 2 2 0,0000 0,6353 0,3647
247 214 221 3 3 0,0000 0,1975 0,8025
248 90 181 3 3 0,0002 0,0590 0,9409
249 41 100 2 2 0,0000 0,7433 0,2567
250 317 233 3 3 0,0000 0,1519 0,8481
251 325 226 2 2 0,0000 0,9426 0,0574
252 332 211 2 2 0,0000 0,9627 0,0373
253 342 192 2 2 0,0000 0,9365 0,0635
254 358 173 2 2 0,0000 0,9277 0,0723
115
255 361 173 2 2 0,0000 0,8793 0,1207
256 347 191 2 2 0,0000 0,8568 0,1432
257 342 185 2 2 0,0000 0,8555 0,1445
258 335 187 2 2 0,0000 0,9743 0,0257
259 314 125 3 3 0,0000 0,3669 0,6331
260 227 114 2 2 0,0000 0,7956 0,2044
261 248 129 3 3 0,0010 0,0034 0,9956
262 245 132 1 1 1,0000 0,0000 0,0000
263 247 138 1 1 1,0000 0,0000 0,0000
264 242 151 3 2 0,0000 0,5070 0,4930
265 244 145 2 2 0,0000 0,8875 0,1125
266 244 160 1 1 1,0000 0,0000 0,0000
267 257 155 3 3 0,0000 0,1425 0,8575
268 259 166 3 3 0,0001 0,0810 0,9189
269 253 133 1 1 1,0000 0,0000 0,0000
270 275 150 1 1 0,9998 0,0000 0,0002
271 294 141 2 2 0,0000 0,8174 0,1826
272 277 124 2 2 0,0000 0,8959 0,1041
273 155 64 2 2 0,0000 0,8458 0,1542
274 242 91 2 2 0,0000 0,9042 0,0958
275 253 82 2 2 0,0000 0,8486 0,1514
276 265 70 3 2 0,0000 0,8280 0,1720
277 269 90 2 2 0,0000 0,7042 0,2958
278 300 79 2 2 0,0000 0,9198 0,0802
279 316 91 3 2 0,0000 0,7384 0,2616
280 347 42 2 2 0,0000 0,8371 0,1629
402 262 28 2 2 0,0000 0,9708 0,0292
404 272 31 2 2 0,0000 0,9257 0,0743
406 195 292 3 3 0,0000 0,2247 0,7753
407 210 286 1 3 0,0022 0,0020 0,9958
408 275 274 2 2 0,0000 0,7874 0,2126
410 377 141 2 2 0,0000 0,9054 0,0946
411 396 118 2 2 0,0000 0,9186 0,0814
415 34 182 2 2 0,0000 0,9089 0,0911
420 207 43 2 2 0,0000 0,9406 0,0594
421 240 40 2 2 0,0000 0,8983 0,1017
423 370 137 2 2 0,0000 0,9515 0,0485
424 318 53 2 2 0,0000 0,6925 0,3075
425 318 47 2 2 0,0000 0,7043 0,2957
427 348 54 2 2 0,0000 0,8498 0,1502
430 36 216 3 3 0,0000 0,1157 0,8843
432 375 96 2 2 0,0000 0,8714 0,1286
433 369 83 2 2 0,0000 0,9048 0,0952
434 380 86 2 2 0,0000 0,9127 0,0873
435 371 69 2 2 0,0000 0,7969 0,2031
438 245 281 2 2 0,0000 0,6787 0,3213
439 179 58 2 2 0,0000 0,5852 0,4148
440 191 51 2 2 0,0000 0,7089 0,2911
441 264 53 2 3 0,0000 0,4168 0,5832
442 317 78 3 2 0,0000 0,6954 0,3046
443 348 141 2 2 0,0000 0,7716 0,2284
444 348 111 2 2 0,0000 0,9026 0,0974
116
446 259 135 2 2 0,0000 0,7797 0,2203
447 247 114 3 3 0,0000 0,1484 0,8516
452 148 81 3 3 0,0000 0,0652 0,9348
453 118 141 3 3 0,0000 0,3854 0,6146
457 92 34 2 2 0,0000 0,8775 0,1225
458 230 57 2 2 0,0000 0,8956 0,1044
463 43 27 2 2 0,0000 0,9131 0,0869
514 208 188 2 2 0,0000 0,7251 0,2749
522 182 195 3 2 0,0000 0,5856 0,4144
523 150 118 3 3 0,0000 0,0925 0,9075
524 154 158 3 3 0,0000 0,1234 0,8766
525 123 177 2 2 0,0000 0,5592 0,4408
530 248 119 3 3 0,0000 0,1284 0,8716
534 287 105 2 2 0,0000 0,5617 0,4383
535 294 82 3 3 0,0004 0,2040 0,7955
536 239 65 2 2 0,0000 0,6054 0,3946
539 287 156 3 2 0,0000 0,6878 0,3122
540 258 133 2 2 0,0000 0,6095 0,3905
573 338 181 2 2 0,0000 0,9683 0,0317
574 317 190 3 2 0,0000 0,6411 0,3589
575 325 164 3 3 0,0000 0,1974 0,8026
583 43 241 1 1 0,8732 0,1114 0,0154
589 253 82 2 2 0,0000 0,6287 0,3713
591 85 227 3 3 0,0003 0,0374 0,9623
Figura 2: Probabilidades de distribuição das águas com composição química controlada
por fertilizantes agrícolas
117
Figura 3: Probabilidades de distribuição das águas com composição química controlada
por intemperismo
Figura 4: Probabilidades de distribuição das águas com composição química controlada
por efluentes domésticos
Os resultados condizem perfeitamente com os apresentados por PACHECO
(1998), que utilizou de um enfoque diferente deste. Pelo exposto verifica-se o
potencial de aplicação da análise discriminante em dados multivariados
georreferenciados. É importante ressaltar que a possibilidade de sucesso ao
aplicar tal metodologia reside no fato que antes da aplicação dessa análise os
grupos já devem ser previamente conhecidos, seja por manipulação matemática,
como no presente caso, seja por um conhecimento “a priori”, que pode incluir,
inclusive, dados qualitativos (soft data).
118
REFERÊNCIAS BIBLIOGRÁFICAS
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2th ed., John Wiley and Sons, Inc.
PACHECO, F. A. L. (1998) – Application of Correspondence Analysis in the Assessment of
Groundwater Chemistry: Mathematical Geology, 30(2):129-161
RAO, C.R. (1952) - Advanced statistical methods in biometric research: John Wiley and Sons.
119
8. CLASSIFICAÇÃO REGIONALIZADA
Uma das mais importantes tarefas em Geologia é resolver problemas por
medição de atributos regionalizados. Os resultados podem, então, serem usados
para a formulação de hipóteses de trabalho que procurarão explicar os processos
que levaram à formação do fenômeno em estudo. Como os processos geológicos
são bastante complexos e a amostragem geralmente não é suficiente, a
simplificação da realidade se impõe por meio de modelos. Classificação
regionalizada de espécimes em grupos é um desses modelos simplificadores,
segundo o qual os resultados de uma análise discriminante podem ser
transferidos do espaço multidimensional teórico para o espaço geográfico real.
Na Classificação Regionalizada procura-se, portanto, atribuir, em termos
probabilísticos, amostras multivariadas e georreferenciadas à grupos previamente
determinados. Assim o primeiro, e fundamental, passo é a definição dos grupos o
que pode ser feito por uma manipulação matemática usando, por exemplo,
análise de agrupamentosou por um conhecimento específico “a priori”. Definido
os grupos, as amostras serão submetidas a uma análise discriminante
multigrupos e com o auxílio de medidas, como a distância generalizada de
Mahalanobis, verificar a respectiva atribuição para os grupos considerados.
De acordo com OLEA (1999) não há nada de novo em termos conceituais
na Classificação Regionalizada. A novidade é a junção de diversas técnicas
estatísticas multivariadas e geoestatísticas para a construção de um modelo
geológico. HARFF & DAVIS (1990) publicaram a primeira formulação do método
combinando elementos geoestatísticos com idéias provenientes de VORONIN
(1967), RODIONOV (1981) e KOGAN (1986).
Em BOHLING (1997), alem de um programa para o cálculo da Classificação
Regionalizada, são apresentadas diversas alternativas para a implementação do
método.
Neste texto será adotado o enfoque apresentado por PACHECO & LANDIM
(2005). Segundo esses Autores os principais problemas associados a esta
metodologia são: a) a interpretação geológica dos grupos e se os mesmos são
espacialmente autocorrelacionados ou não, pois os algoritmos convencionais para
análise de agrupamentos acabam por definir os “k” grupos encontrados de
maneira subjetiva; e b) a atribuição de amostras que não apresentam
probabilidades bem definidas de pertencer a um determinado grupo.
120
Para a definição inicial dos “k” grupos foi proposta um agrupamento
natural, baseado na análise das correspondências, sendo os grupos
interpretados em termos de processos e/ou fontes controladores (PACHECO,
1998a). Para identificar as amostras hibridas com mais precisão foi proposta uma
Classificação Regionalizada baseada no agrupamento natural (denominada
primeiro modo) combinada com outra Classificação Regionalizada baseada na
análise de agrupamentos clássica, com o método de Ward como critério de
agrupamento, e subsequente otimização pela análise discriminante (denominada
segundo modo). Escolhendo duas diferentes metodologias para separar os
grupos espera-se que as amostras que forem mantidas nos mesmos grupos,
independentemente do método, estejam realmente bem classificadas dentro de
um certo espaço geográfico. Aquelas, porem, que mudarem de grupo, conforme o
método aplicado, são consideradas como pertencentes a regiões hibridas.
Um fluxograma desse enfoque para a Classificação Regionalizada a dois
modos é apresentada a seguir:
Regionalized multivariate dataset
Sub-optimal non-natural clustering
based on k
Sub-optimal
Natural clustering
Confusion matrix
Discriminant
analysis
Optimal
clustering
Second-way regionalized classification First-way regionalized classification
Node analysis
Combined regionalized classification
Number of groups
(k)
Optional
Como os dados são geo-referenciados o produto de ambas as
Classificações Regionalizadas originam arranjos reticulares regulares com o
auxilio de algoritmos estimadores como a krigagem. Nos nós desses retículos
estarão distribuídos espacialmente as amostras identificadas pelos agrupamentos
encontrados. Desse modo pela comparação entre ambos os retículos
encontrados faz-se uma análise dos nós. Havendo coincidência de identificação
121
as amostras permanecem no grupo em questão. Caso contrario passam a
pertencer a um grupo hibrido, ou de transição entre grupos bem caracterizados.
Como exemplo de aplicação foi utilizada a matriz de dados composta por
160 análises geoquímicas de águas subterrâneas, provenientes da região do
plutonito de Fundão (Portugal), com teores, em ml/l, de Na+, K+, Mg2+, Ca+2, Cl-,
SO42-, NO3-, HCO3- e SiO2 (pacheco, 1998b) e já apresentadas no capítulo
anterior sobre Análise Discriminante.
A Análise das Correspondências, otimizada pela Análise Discriminante
revelou tres agrupamentos naturais com geoquimismo controlado por:
intemperismo; efluentes domésticos e fertilizantes.
122
N
248000 250000 252000 254000 256000 258000 260000 262000
350000
352000
354000
356000
358000
360000
0
0.9
1.8
2.7
CA group (influence)
3 (farmland fertilizers)
2 (domestic effluents)
1 (weathering)
A Análise de Agrupamentos, também otimizada pela Análise Discriminante,
apresentou uma distribuição alternativa dessas mesmas amostras, também em
três grupos.
248000 250000 252000 254000 256000 258000 260000 262000
350000
352000
354000
356000
358000
360000
0
0.9
1.8
2.7
B (farmland fertilizers)
C (domestic effluents)
A (weathering)
N
ClA group (influence)
Empregando a análise dos nós dos retículos, ou seja, combinando essas
duas figuras anteriores obteve-se o mapa final. O recadastramento dos nós foram
obtidos da seguinte maneira: 1) quando os nós da Classificação
Regionalizada/primeiro modo apresentaram os mesmos valores (1, 2 e 3,
indicando os grupos 1/A, 2/C e 3/B) que os da Classificação
123
Regionalizada/segundo modo esses valores foram mantidos; 2) quando o valor 3
não coincidia, recebia o valor 4 e passou a ser interpretado como mistura entre
fertilizante e outras influências; 3) em todos os outros casos o valor passou a 0 e
interpretado como mistura de intemperismo e efluentes domésticos.
A B C Total w%-Poluição w%-Agricultura
1 88 0 36 124 29.0 35.6
2 1 7 5 13 74.2 36.1
3 12 5 6 23 63.3 64.4
Total 101 12 47 160
w%-Poluição 30.5 78.4 40.8
w%-Agricultura 37.5 56.7 38.7
248000 250000 252000 254000 256000 258000 260000 262000
350000
352000
354000
356000
358000
360000
Fundão
Souto da Casa
Telhado
Alcaria
Alcaide
Fatela
ValverdeCarvalhal
Joanes
Cabo
Code and Influence
Agriculture
Effluents
Weathering
Mixing between
agriculture and
the other
influences
Mixing between
weathering
and effluents
N
4
3
2
1
0
124
BIBLIOGRAFIA
BOHLING, G. C. , 1997, GSLIB-Style Progrms for Discriminant Analysis and Regionalized
Classification: Computers & Geosciences, 23, no. 7, p.739-761
HARFF, J. & DAVIS, J.C., 1990, Regionalization in geology by multivariate classification:
Mathematical Geology, v. 22, no. 5, p. 577-588.
KOGAN, R.I., 1986, Interval’nye ocenki v Geologicheskich Issledovanijach: Nedra Prss,
Moscow, 335 pp.
OLEA, R.A., 1999, Geostatistics for engineers and earth scientists: Kluwer Academic
Publishers, chapter 14.
PACHECO, F.A.L., 1998a, Finding the number of natural clusters in groundwater data
sets using the concept of equivalence class: Computers & Geosciences, v. 24, no. 1, p. 7-
15.
PACHECO, F.A.L., 1998b, Application of correspondence analysis in the assessment of
groundwater chemistry: Mathematical Geology, v. 30, no. 2, p. 129-161.
PACHECO, F.A.L. & LANDIM, P.M.B. ,2005, Two-Way Regionalized Classification of
Multivariate Datasets and its Application to the Assessment of Hydrodynamic Dispersion:
Mathematical Geology, v.37, no. 4, p. 393-417
RODIONOV, D.A., (1981), Statisticheskie Rezhenija v Geologii: Nedra Press, Moscow,
231 pp.
VORONIN, J.A. ,1967, Geologija I Matematika: Nauka Press, Novosibirsk, 253 pp.
WARD, J.H., 1963, Hierarchical grouping to optimize an objective function: Journal of the
American Statistical Association, v. 58, p. 238-244.
125
9. GEOESTATÍSTICA MULTIVARIADA
9.1. INTRODUÇÃO
O termo “geoestatística” significa o estudo das chamadas variáveis
regionalizadas, ou seja, variáveis com condicionamento espacial (MATHERON 1962,
1963). Em CHILÉS & DELFINER (1999) é apresentada uma revisão histórica sobre a
Geoestatística com umasíntese sobre o desenvolvimento de suas ferramentas.
A estimativa de reservas sempre se constituiu parte fundamental do
planejamento mineiro. O conhecimento geológico que se tenha a respeito do bem
mineral a ser explorado, as eficientes instalações na boca da mina, os detalhes
precisos sobre a commoditie em questão são variáveis importantes, mas o que vai
decidir se o empreendimento será lucrativo ou não, dentro de um intervalo de
tempo considerado, é a reserva medida com precisão.
No planejamento mineiro tal estimativa é realizada por meio de blocos onde
as reservas mineráveis são amalgamadas para produzir reservas globais e curvas
de teor/tonelagem. O processo todo, e para cada bloco, é baseado na coleta de
amostras pontuais, ou seja, com volumes menores que os blocos. As amostras,
com teores conhecidos, é que irão estimar o teor médio dos blocos, a duas ou a
três dimensões.
Seja, por exemplo, um bloco a ser estimado a partir de 5 amostras:
Supondo que ocorra uma relação espacial entre os teores, ou seja, os
valores serão muito próximos em dois pontos vizinhos e progressivamente mais
diferentes à medida que os pontos vão ficando mais distantes, é intuitivo esperar
que o teor da amostra 3 seja similar, porem não necessariamente idêntico, ao teor
médio do bloco. Pode-se esperar que as amostras 1, 4 e 5 também apresentem
teores similares ao valor médio do bloco, mas não tanto como o teor em 3.
126
Finalmente, com relação à amostra 2, situada mais distante, seria necessário um
conhecimento melhor sobre a disposição espacial de valores no depósito para
decidir se ela tem, ou não, relação com o valor médio do bloco. Em outras
palavras, amostras situadas perto do bloco deverão apresentar teores altamente
relacionados com ele e poderão, portanto, serem utilizadas para estimar o seu
valor médio, e à medida que se situem a distâncias maiores o seu relacionamento
diminui até se tornar independente. O peso da influência de cada amostra é, pois,
inversamente correspondente à distância e essa noção pode ser aplicada para a
estimativa do valor médio do bloco utilizando para tanto amostras com valores
conhecidos, mas situadas a distancias julgadas “convenientes”. Quanto mais
próximas estiverem maior será o seu peso no processo de estimativa.
Nesta estimativa surgem, evidentemente, algumas questões: Até que
distâncias devem ser consideradas as amostras? Quantas devem ser usadas?
Aquela eventualmente colocada no centro do bloco terá um peso maior que as
demais? Se amostras formarem grupos, qual a influência desses agrupamentos?
Como evitar que os resultados sejam sub ou super estimados? A relação
espacial, em termos geométricos, entre as amostras estimadoras e o bloco a ser
estimado, tem importância? Essa técnica de estimativa pode ser utilizada
indistintamente para depósitos do tipo cobre porfirítico, lateritas niquelíferas, veios
de cassiterita, depósitos de urânio e outros?
Para responder a essas questões é que surgiu a geoestatística, a
preocupar-se com o entendimento, por meio de análise matemática, da gênese e
leis naturais que governam fenômenos interpretados como regionais. Isso traz
como conseqüência direta a estimativa das variáveis regionais usando
informações e relações a partir de um conjunto discreto de amostras, juntamente
com a avaliação dos erros de estimativa, para estabelecer o grau de segurança
em previsões e os padrões ótimos de amostragem, que assegure que um erro
máximo de estimativa não seja excedido.
Inicialmente a aplicação era apenas para situações em geologia mineira na
lavra e prospecção e, como exemplos, podem ser citados o livro clássico sobre o
assunto de JOURNEL & HUIJBREGTS (1978) e as obras em português de VALENTE
(1982) e YAMAMOTO (2001). Posteriormente se estendeu para outros campos,
especialmente nesses últimos anos, com aplicação em agricultura de precisão,
cartografia, climatologia, geologia ambiental, geotecnia, hidrogeologia, pedologia,
127
entre outros. Praticamente todas as ultimas versões de softwares para Confecção
de Mapas ou Sistemas de Informações Georreferenciadas apresentam métodos
geoestatísticos.
Atualmente o termo Geoestatística acha-se consagrado como um tópico
especial da estatística aplicada que trata de problemas referentes às variáveis
regionalizadas, as quais têm um comportamento espacial mostrando
características intermediárias entre as variáveis verdadeiramente aleatórias e as
totalmente determinísticas. Nesse sentido pode-se afirmar que tal metodologia
representa a grande contribuição da Geologia para a Estatística Aplicada.
As variáveis regionalizadas são constituídas por um duplo aspecto
contraditório. Pela sua característica “aleatória” apresenta irregularidades e
variação imprevisível de um ponto para outro e pela sua característica “estrutural”
apresenta relações existentes entre os pontos no espaço motivadas pela sua
gênese. Em outras palavras: é impossível prever com exatidão o teor do minério
num determinado ponto da jazida (aspécto aleatório), mas é provável que se
encontre minério rico perto de minério rico (aspecto estrutural). No estudo do
comportamento das variáveis regionalizadas duas são as ferramentas
fundamentais dos métodos geoestatísticos: o semivariograma e a krigagem.
9.1.1.Semivariograma
Seja uma variável regionalizada x(i) coletada em diversos pontos i
regularmente distribuídos por certa região. O valor de cada ponto está relacionado
de algum modo com valores obtidos a partir de pontos situados a certa distância,
sendo razoável pensar que a influência é tanto maior quanto menor for a distância
entre os pontos.
Para expressar essa relação é definido o vetor de distância ∆
→
h , o qual tem
uma orientação específica. O grau de relação entre pontos numa certa direção
pode ser expresso pela covariância e, embora a covariância exista entre todas as
distâncias possíveis ao longo de h, pode ser estipulado que somente sejam
considerados valores entre pontos regularmente espaçados por múltiplos inteiros
de ∆h.
A covariância entre valores encontrados nessas distâncias separadas por
∆h ao longo de h é
128
( ) ( ) ∑ −=∆= + 2hii mxxn1hChC
onde m é a média da variável regionalizada x(i).
Isso significa que a covariância é igual à média dos produtos-cruzados dos
valores x(i) encontrados nos pontos i pelos valores x(i+h) nos pontos i+h,
distantes a um intervalo ∆h, subtraídos do quadrado da média da variável
regionalizada x(i); e n representa o número de pares de valores comparados.
Como a covariância depende do tamanho do vetor h, se h=0, C(h) passará a
representar a variância, representada por C(0).
( ) [ ] [ ] [ ]XVarXEXE0C 22 =−=
Desse modo, pode-se calcular uma função, denominada semivariância,
definida como metade da variância das diferenças.
( ) ( ) ( )∑ −=γ=γ + 2ihi xxn21hhr
Lembrando que [ ] [ ] [ ]22 XEXEXVar −= pode-se representar γ(h) por:
( ) ( ) ( ) 22
2
1
2
1
−−
−= ∑∑ ++ ihiihi xxnxxnhγ
Como a média da variável regionalizada x(i) é também a média da variável
regionalizada x(i+h), pois se trata da mesma variável, apenas tomadas em lugares
i e em i+h, tem-se que:
( ) 0
2
1 2 =
−∑ + ihi xxn e desenvolvendo o 1o termo:
( ) ( )hCmx
n
x
n
xx
n
x
n
h iiihihi −−=+−= ∑∑∑ ++ 2222 12121221γ
e isso significa que γ(h) = C(0) - C(h)
Em outras palavras, o vetor ∆h apresentando-se infinitamente pequeno faz
com que a variância seja mínima e a covariância máxima. Haverá um valor ∆h
para o qual ambas podem apresentar valores aproximadamente iguais, porém, à
medida que ∆h aumenta a covariância diminuienquanto a variância aumenta,
129
porque ocorre progressivamente maior independência entre os pontos a
distâncias cada vez maiores.
A semivariância distribui-se assim de 0, quando h=0, até um valor igual à
variância das observações para um alto valor de h, se os dados forem
estacionários, isto é, não ocorrer a presença de tendência nos valores. Essas
relações são mostradas quando a função γ(h) é colocada em gráfico contra ∆h
para originar o semivariograma. A distância segundo a qual γ(h) atinge um
patamar, denominado soleira ou patamar (sill), igual à variância à priori dos
dados, é chamada de alcance ou amplitude (range). Geralmente a soleira é
representada por C e o alcance por a. A semivariância não é apenas igual à
média das diferenças ao quadrado entre pares de pontos espaçados as distâncias
h, mas também é igual à variância dessas diferenças.
O semivariograma mostra a medida do grau de dependência espacial entre
amostras ao longo de um suporte específico e, para sua construção, são usados
simplesmente as diferenças ao quadrado dos valores obtidos, assumindo-se uma
estacionaridade nos incrementos. Isso significa que o semivariograma é uma
medida da variabilidade geológica condicionada pela distância. Tal variabilidade
pode ser bastante diferente quando consideradas diferentes direções. Por
exemplo, em estratos sedimentares com inclinação ocorre maior correlação de
valores na direção das camadas do que no sentido do mergulho das mesmas.
Para construir um semivariograma é necessário, portanto, dispor de um
conjunto de valores obtidos a intervalos regulares dentro de um mesmo suporte
geométrico. Sendo x(1), x(2), .... x(i), .... x(n), valores de uma variável
regionalizada a seguinte fórmula fornece uma estimativa não tendenciosa da
semivariância:
( ) ( )∑ −= + 221 ihi xxnhγ
O estudo é feito em uma direção ao longo de uma linha ou ao longo de uma
série de linhas paralelas, utilizando n possíveis diferenças a intervalos ∆h ou
múltiplos de ∆h.
Em CLARK (1979) é apresentada a construção de um semivariograma a
partir de uma rede regular, com espaçamento entre os pontos de 100 pés. Trata-
se de um depósito estratiforme de ferro com valores em porcentagem por peso.
130
38
36
35
37
42
44
37
35
38
37
35
36
37
43
40
35
35
35
42
42
30
34
37
38
39
40
33
36
37
39
39
29
32
36
37
41
37
30
29
35
33
40
36
32
28
34
38
-1 0 1 2 3 4 5 6 7 8 9
-1
0
1
2
3
4
5
6
Para o cálculo dos semivariogramas, em diversas direções, são
encontradas as somatórias dos quadrados das diferenças e posterior divisão por
duas vezes o número dessas diferenças. Assim para a direção Leste-Oeste inicia-
se com o menor intervalo possível, ou seja, 100 pés da seguinte maneira:
γ*(100) = [ (40 - 42)2 + (42 - 40)2 + (40 - 39)2 + (39 - 37)2 + (37 - 36)2 + (43 - 42)2 +
(42 - 39)2 + (39 - 39)2 + (39 - 41)2 + (41 - 40)2 + (40 - 38)2 + (37 - 37)2 + (37 - 37)2 +
(37 - 35)2 + (35 - 38)2 + (38 - 37)2 + (37 – 37)2 + (37 - 33)2 + (33 - 34)2 + (35 - 38)2 +
(35 - 37)2 + (37 - 36)2 + (36 - 36)2 + (36 - 35)2 + (36 - 35)2 + (35 - 36)2 + (36 - 35)2 +
(35 - 34)2 + (34 - 33)2 + (33 - 32)2 + (32 - 29)2 + (29 - 28)2 + (38 - 37)2 + (37 - 35)2 +
(29 - 30)2 + (30 - 32)2 ] / [2 x 36] = 1,46
Para o intervalo de 200 pés:
γ*(200) = [ (44 - 40)2 + (40 - 40)2 + (42 - 39)2 + (40 - 37)2 + (39 - 36)2 + (42 - 43)2 +
(43 - 39)2 + (42 - 39)2 + (39 - 41)2 + (39 - 40)2 + (41 - 38)2 + (37 - 37)2 + (37 - 35)2 +
(37 - 38)2 + (35 - 37)2 + (38 - 37)2 + (37 – 33)2 + (37 - 34)2 + (38 - 35)2 + (35 - 36)2 +
(37 - 36)2 + (36 - 35)2 + (36 - 36)2 + (35 - 35)2 + (36 - 34)2 + (35 - 33)2 + (34 - 32)2 +
(33 - 29)2 + (32 - 28)2 + (38 - 35)2 + (35 - 30)2 + (30 - 29)2 + (29 – 32 ] / [2 x 33] =
3,30
E assim por diante, tanto para esta direção como para a Norte-Sul. O
resultado, e apresentado na Tabela abaixo:
131
Direção Distância Semivariograma No. Pares
Leste-
Oeste
100
200
300
400
1,46
3,30
4,31
6,70
36
33
27
23
Norte-Sul 100
200
300
5,35
9,87
18,88
36
27
21
Estes resultados permitem a construção dos semivariogramas
experimentais nas duas direções consideradas, e o que se pode perceber é que
há uma distinta diferença na estrutura dos dados, ou seja, a presença de uma
anisotropia. Na direção Norte-Sul os valores aumentam muito mais rapidamente,
sugerindo uma maior continuidade na direção Leste-Oeste.
Os semivariogramas expressam o comportamento espacial da variável
regionalizada e mostram:
a) o tamanho da zona de influência em torno de uma amostra, pois toda amostra
cuja distância ao ponto a ser estimado for menor ou igual ao alcance, fornece
informações sobre o ponto;
b) a anisotropia, quando os semivariogramas mostram diferentes comportamentos
para diferentes direções de linhas de amostragem e de estudo da variável; neste
132
caso a anisotropia pode ser geométrica quando o alcance varia de acordo com as
diversas direções consideradas, mantendo constante a soleira e zonal quando o
alcance permanece constante e a soleira varia conforme for modificada a direção;
c) continuidade, pela forma do semivariograma, em que para h≅ 0, γ(h) já
apresenta algum valor. Essa situação é conhecida como efeito pepita (nugget
effect) e é representada por C0. O efeito pepita pode ser atribuído a erros de
medição ou ao fato de que os dados não foram coletados a intervalos
suficientemente pequenos para mostrar o comportamento espacial subjacente do
fenômeno em estudo.
Na construção do semivariograma, as somatórias necessárias para o
cálculo de γ(h) devem ser constituídas por um número suficiente de pares, que
tornem o resultado consistente. Como regra prática adota-se para tanto um
mínimo de 30 pares, o que pode ser conseguido se for escolhido como maior ∆h,
a metade da maior distância existente entre os pontos. Isto significa que, para
uma análise geoestatística, exige-se que o número mínimo de pontos amostrados
seja razoável, por volta de 30 a 40.
Uma outra consideração importante a ser feita é determinar o grau de
aleatoriedade presente nos dados pela fórmula E = C0/C (GUERRA 1988):
E<0,15: componente aleatória pequena
0,15 ≤ E ≤ 0,30: componente aleatória significante
E > 0,30: componente aleatória muito significativa.
O extremo dessa situação é o modelo de pepita pura, onde não ocorre
covariância entre os valores e, portanto, a análise semivariográfica não se aplica,
sendo sugerido o uso de outros métodos de interpolação.
133
De posse do semivariograma experimental é necessário ajustá-lo a um
modelo teórico, ou seja, a uma função que definirá os parâmetros do
semivariograma, “efeito pepita”, “alcance” e “patamar”. Entre os modelos
disponíveis estes são os mais utilizados:
a) Modelos com patamar
a.1) Modelo esférico
−
=γ 3
a
h
2
1
a
h
2
3C)h( , para h < a
C)h( =γ , para h ≥ a,
neste modelo a inclinação da tangente junto à origem (h≅0) é 3C/2a; é o modelo
mais comum, podendo-se afirmar que equivale à função de distribuição normal da
estatística clássica.
a.2) Modelo exponencial
]e1[C)h( a/h3−−=γ
neste modelo a inclinação da tangente junto à origem é C/a; C é a assíntota de
uma curva exponencial e pode ser equalizada junto à soleira; “a” corresponde ao
alcance prático igual à distância segundo a qual 95% da soleira foi alcançada.
a.3) Modelo gaussiano
]e1[C)h(
2)a/h3(−−=γa curva é parabólica junto à origem e a tangente nesse ponto é horizontal, o que
indica pequena variabilidade para curtas distâncias; “a” corresponde ao alcance
prático igual à distância segundo a qual 95% da soleira foi alcançada.
b) Modelos sem patamar
b.1) Modelo potencial
γ (h)=Chα, com a potência α assumindo valores entre 0 e próximo a 2;
quando α = 1 o modelo torna-se linear;
γ(h) = ph, sendo p a inclinação da reta;
é o modelo mais simples e representado por uma reta passando pela origem do
gráfico.
134
Para dados que estão irregularmente distribuídos no espaço bidimensional
não é possível, em princípio, encontrar pares de amostras suficientes com
exatamente o mesmo espaçamento ∆h para o cálculo em uma determinada
direção, como feito com dados dispostos em malha regular. Para contornar essa
situação define-se uma distância de tolerância ∆’h para o espaçamento ∆h entre
os pares de amostras de um ângulo de tolerância ∆’α para a direção α
considerada. Assim, para o cálculo do semivariograma de uma distribuição
irregular de pontos ao longo de uma determinada direção α, consideram-se todas
as amostras que se encontram no ângulo α ± ∆’α, e, em seguida, classificam-se
os pares de amostras em classes de distância ∆h± ∆’h, 2∆h± ∆’h, onde ∆h é a
distância básica. As direções consideradas e seus respectivos ângulos de
tolerância devem cobrir a área toda.
Para a estimativa do semivariograma experimental, não se tendo certeza
se o fenômeno sob estudo é isotrópico ou anisotrópico no espaço bidimensional,
inicialmente consideram-se quatro direções, E-W, N-S, NE-SW e NW-SE, com um
ângulo de abertura com tolerância de 45º. Quando se constata uma direção bem
marcante de anisotropia deve-se adotar tal direção com um pequeno ângulo de
tolerância (α0± ∆’α0) para estimar o semivariograma nessa direção. Melhores
estimativas são obtidas quando os modelos são baseados em semivariogramas
experimentais que apresentam a menor razão “efeito pepita/patamar” e, também,
o maior alcance.
135
Em resumo, para a utilização do semivariograma as seguintes suposições
básicas são requeridas:
a) as diferenças entre pares de valores de amostras são determinadas apenas
pela orientação espacial relativa dessas amostras;
b) o interesse é enfocado apenas na média e na variância das diferenças,
significando que esses dois parâmetros dependem unicamente da orientação;
c) por conveniência assume-se que os valores da área de interesse não
apresentam tendência que possa afetar os resultados e, assim, a preocupação é
apenas com a variância das diferenças entre valores das amostras.
A modelagem, ou seja, o ajuste de um variograma experimental a uma
função é um passo fundamental na análise variográfica, sendo um processo que
envolve várias tentativas e na qual a experiência pesa muito. Pode-se optar por
um ajuste manual por comparação visual, mais sujeito a erros, ou, com o auxílio
de algoritmos, para ajustes automáticos como apresentado, entre outros, em
PANNATIER (1996). Acrescentar, em seguida, a essa verificação a “validação
cruzada”. Nessa análise, depois de obtido o modelo variográfico, cada valor
original é removido do domínio espacial e, usando-se os demais, um novo valor é
estimado para esse ponto. Desse modo, um gráfico pode ser construído
mostrando a relação entre valores reais e estimados. A validação cruzada, porem,
não prova que o modelo escolhido é o mais correto, mas sim que o mesmo não é
inteiramente incorreto. A melhor verificação, então, é aquela resultante do
confronto entre os valores estimados e a realidade de campo.
Uma comparação entre os ajustes a um modelo esférico e a um modelo
linear é apresentada a seguir e o ajuste é indicado, no gráfico, pela relação entre
a reta a 45º e a obtida pela análise. Um valor igual a 1,0 significa a indicação de
ajuste perfeito.
0
1442
2885
4327
5770
0 4 7 10 14
S
em
iv
ar
iâ
nc
ia
Distância "h"
Modelo esférico
373
442
510
579
648
373 442 510 579 648
V
al
or
es
re
ai
s
Valores estimados
136
0
1523
3047
4570
6093
0 4 7 10 14
S
em
iv
ar
iâ
nc
ia
Distância "h"
Modelo linear
-1328
471
2271
4071
5870
-1328 471 2271 4071 5870
V
al
or
es
re
ai
s
Valores estimados
Num estudo geoestatístico, a parte fundamental refere-se à determinação
do semivariograma. Isso é importante e todo o cuidado deve ser tomado na
análise variografica para que possa obter uma criteriosa análise geoestatística.
9.1.2. Krigagem
Krigagem é um processo de estimativa de valores de variáveis distribuídas
no espaço, e/ou no tempo, a partir de valores adjacentes enquanto considerados
como interdependentes pelo semivariograma. Trata-se, em último caso, de um
método de estimativa por médias móveis. O termo, tradução do francês krigeage,
e do inglês kriging, foi cunhado pela escola francesa de geoestatística em
homenagem ao engenheiro de minas sul-africano e pioneiro na aplicação de
técnicas estatísticas em avaliação mineira, Daniel G. Krige.
A krigagem pode ser usada, como algoritmo estimador, para:
a) previsão do valor pontual de uma variável regionalizada em um determinado
local dentro do campo geométrico; é um procedimento de interpolação exato
que leva em consideração todos os valores observados, o qual pode ser a base
para cartografia automática por computador quando se dispõe de valores de
uma variável regionalizada dispostos por uma determinada área;
b) cálculo médio de uma variável regionalizada para um volume maior que o
suporte geométrico como, por exemplo, no cálculo do teor médio de uma jazida
a partir de informações obtidas de testemunhas de sondagens;
Em todas essas situações o método fornece, além dos valores estimados,
o “erro” associado a tal estimativa, o que o distingue dos demais algoritmos à
disposição. A krigagem usa informações a partir do semivariograma para
encontrar os pesos ótimos a serem associados às amostras que irão estimar um
137
ponto, um área ou um bloco. Como o semivariograma é uma função da distância
entre locais de amostragens, mantendo o mesmo número de amostras, os pesos
são diferentes de acordo com o seu arranjo geográfico. O uso do semivariograma
para a estimativa por krigagem não exige que os dados tenham distribuição
normal, mas a presença de distribuição assimétrica, com muitos valores
anômalos, deve ser considerada, pois a krigagem é um estimador linear.
9.1.3. Krigagem ordinária
A metodologia geoestatística apresenta diversas técnicas de estimativas
disponíveis e a mais usual é a krigagem ordinária
Seja um ponto que se deseja estimar, sendo o valor real desconhecido
representado por V. O valor estimado (V*) é calculado, utilizando n amostras
localizadas segundo coordenadas conhecidas, com valores x1, x2, x3....xn
(conjunto S), de forma linear, como por exemplo, através da técnica da
ponderação pelo inverso das distâncias.
V* = p1 x1 + p2x2 + p3x3 + ... + pnxn, onde os pi são os pesos atributos a cada
amostra i.
É evidente que existe associado a esse estimador um erro ε=V-V* e que
se, teoricamente, diversas estimativas forem feitas a média de erros é zero. Se os
erros, portanto, apresentarem valores próximos a zero, o estimador é de
confiança e isso pode ser verificado pela distribuição desses valores. A maneira
mais simples de medir estatisticamente tal distribuição é via o desvio padrão ou a
variância. No caso em questão, porém, a variância não podeser obtida porque
não se conhece o valor real que se esta estimando e, portanto, também não se
sabe qual o erro associado.
Variância dos erros = 2εσ = desvios ao quadrado em relação ao erro médio
= média de (V-V*)2.
Para encontro da variância pode-se, porém, utilizar o semivariograma, em
que são medidas as diferenças ao quadrado. Num semivariograma, previamente
calculado, dada uma distância h entre os pontos, pode-se estimar a variância
simplesmente lendo o valor no eixo dos γ´s e multiplicando-o por 2
)h(22 γ=εσ
138
Desse modo, para o processo de estimativa de um ponto utilizando o
método da krigagem, procede-se da seguinte maneira:
nn332211 xp...xpxpxpV* +++=
Se a soma dos pesos for igual a 1 e não ocorrer tendência local dos
valores, esse estimador é o melhor e não tendencioso, pois a partir dos pesos
atribuídos a cada amostra, minimiza a estimativa da variância.
0/ i
2 =∂λ∂σε , n,...4,3,2,1i =
Isso é obtido construindo-se um sistema de n equações com n incógnitas
(λ1, λ2, λ3, ... λn) e havendo a restrição de que Σλi=1, passa-se a n+1 equações.
Como se tem apenas n incógnitas desconhecidas, introduz-se uma outra, também
desconhecida, para balancear o sistema, ou seja, o chamado multiplicador de
Lagrange, µ.
0)1i(2 =−λΣλ−ε∂ , se 01i =−λΣ
O objetivo da krigagem é procurar pelo conjunto ótimo de ponderadores de
modo que a variância do erro de estimativa seja a menor possível. Para tanto é
organizado um sistema de equações com n+1 incógnitas, para a estimativa de um
ponto (So)
1
),(
),(
),(
0
),(
),(
),(
),(
),(
),(
),(),(
),(),(
),(),(
0
02
01
2
1
3
3
3
32
3
31
3
2
1
2
211
222121
21
2
111
SS
SS
SS
SS
SS
SS
SS
SS
SS
SSSS
SSSS
SSSS
n
n
nnn
nn
nn
nnn γ
γ
γ
=+
=µ+γ
=µ+γλ
=µ+γλ
++λ
++γλ
++γλ
++γλ
+λ+
+γλ+γλ
+γλ+γλ
+γλ+γλ
λ
λ
λ L
L
L
L
Estas equações constituem equações normais a n+1 incógnitas, as quais
podem ser resolvidas, para a obtenção dos coeficientes, por cálculo matricial,
segundo:
]Y[]A][X[ =
Multiplicando ambos os termos da equação pelo inverso de [X], isto é,
1]X[ − :
[ ]Y]X[]A[.]X[.]X[ 11 −− = ;
como ]I[]X[.]X[ 1 =− (matriz de identidade) e ]A[]A[.]I[ = ,
]Y[]X[.]A[ 1 =−
139
Em notação matricial:
],[][],[
1
),(
),(
),(
0111
1),(),()1,(
1),(),(),(
1),(),(),(
0
0
02
01
2
1
2
22212
12111
SSSS
SS
SS
SS
SSSSSS
SSSSSS
SSSSSS
iiii
nnnnnn
n
n
λ
γ
γ
γ
=
µ
λ
λ
λ
γγγ
γγγ
γγγ
MM
L
L
M
L
MM
L
A matriz [Si,Si] contem os valores obtidos no semivariograma referentes às
distâncias entre as amostras estimadoras; o vetor [Si,S0] contem os valores
obtidos no semivariograma referentes às distâncias entre cada amostra e o ponto
(So) a ser estimado e o vetor [λi] contém os ponderadores a serem calculados.
Resolvido o sistema de equações, obtém-se os pesos λi e o multiplicador
de Lagrange, µ, segundo:
[λi] = [Si,Si] -1 · [Si,So]
Para o ponto S0 a ser estimado, obtém-se uma combinação linear dos
valores dos pontos vizinhos e respectivos pesos
S0 = ΣλiSi
Para o cálculo da variância (σ²) associada ao valor S0 obtido por estimativa
usa-se a expressão:
]S,S[]'[)S,S( 0ii0ii
2 λ=µ+γλΣ=σ ,
sendo [λi]' = vetor transposto com os pesos λi e [Si,So] = vetor com os valores
obtidos no semivariograma referentes às distâncias entre cada amostra e o ponto
(So) a ser estimado.
O desenvolvimento teórico dessa metodologia encontra-se em diversos
textos básicos de geoestatística com destaque para JOURNEL & HUIJBREGTS (1978),
JOURNEL (1989) e ISAAKS & SRIVASTAVA (1989).
9.2. COKRIGAGEM
A utilização da krigagem permite uma análise geoestatística univariada.
Frequentemente, porem, quando diversas variáveis são obtidas nos mesmos
pontos torna-se necessário uma análise geoestatística multivariada de
corregionalização.. Nesse caso duas técnicas se destacam: a “cokrigagem” e a
“krigagem fatorial”.
140
A Cokrigagem é um procedimento geoestatístico segundo o qual diversas
variáveis regionalizadas podem ser estimadas em conjunto, com base na
correlação espacial entre si. É, portanto, uma extensão multivariada do método da
krigagem quando para cada local amostrado obtém-se um vetor de valores em lugar
de um único valor.
A solução, por cálculo matricial, para a cokrigagem é fornecida por:
( ) ( )[ ]
( ) ( )
[ ]
[ ]
( )[ ]
( )[ ]
1 0
11 1 1 12 1 2
1 0
0 1
21 2 1 22 2 2
0 1
1 1 0 0 0 0
0 0 1 1 0 0
1
2
1
2
11 0 1
12 0 2
1
0
C x x C x y
C y x C y y
C x y
C x y
A X B
α α α α
α α α α
λα
να
µ
µ
α
α
, ' ,
, , '
,
,
[ ] [ ] [ ]
−
−
=
M M
M M
L L
L L
onde α α α α1 1 1 1 1 1 2 1 2 2 1 2= = = =, ... , ; ' , ... , ; ,..., ; ' , ... , .n n n n
A matriz [A] é composta por:
sub-matriz ( )[ ]C x xa11 1 1α , ' , que descreve a distribuição espacial da primeira variável
z1 ;
sub-matriz ( )C y22 2 2α γ α, ' , que descreve a distribuição espacial da segunda variável
z2 ;
sub-matrizes ( )C x y12 1 2α α, e ( )C y x21 2 1α α, , que descrevem a variabilidade cruzada
das variáveis z1 e z2 consideradas em conjunto;
os termos restantes 0 e 1 correspondem a condições de não enviés
A matriz [A] não contém nenhuma informação sobre o ponto xo para o qual
é necessária a estimação. Toda a informação necessária está contida no vetor
[B].
O vetor [B] é composto por:
subvetor ( )[ ]C x xa11 0 1, , que depende da configuração geométrica relativa do ponto
x
o
em relação aos pontos xα1 , onde z
1
é observada;
sub-vetor ( )[ ]C x ya12 0 2, , que depende da configuração geométrica relativa do ponto
x
0
em relação aos pontos yα2 , onde z2 é observada;
os termos vertentes 0 e 1 correspondem à condições de não enviés.
141
A solução do sistema, ou seja, cálculo dos n1 1λα coeficientes e n2 2λα
coeficientes para diferentes pontos x
o
obtida pela inversão de [A] e subsequente
multiplicação por [B]; µ1 e µ 2 são os multiplicadores de Lagrange.
As equações da cokrigagem são formuladas na suposição que as variáveis
primária e secundária apresentam covariâncias, com matriz positiva definitiva,
para ser considerada uma matriz de covariâncias-cruzada válida. Uma maneira
simples para a obtenção dessa matriz é utilizar o “modelo linear de
corregionalização”.
O modelo linear de corregionalização fornece um método para ajustar os
auto-variogramas e variogramas cruzados entre duas variáveis ou mais de tal
maneira que a variância de qualquer combinação linear possível dessas variáveis
seja sempre positiva. Tal combinação usa a mesmas estruturas dos auto-
variogramas e dos variogramas cruzados, mantendo o mesmo valor para o
alcance. Detalhes podem ser encontrados, entre outros, em ISAAKS & SRIVASTAVA
(1989). Em termos bem simples, ambos os determinantes das matrizes abaixo,
referentes aos valores do efeito pepita (Co) e soleira (C), devem ser positivos,
para que se possa considerar válida a aplicação da cokrigagem:
0
CV CUV
CUV CU
0
CoV CoUV
CoUV CoU >>
Maiores detalhes sobre cokrigagem podem ser obtidos em ABOUFIRASSI &
MARIÑO (1984)e CONDE & YAMAMOTO (2000), entre outros, além de livros textos de
autores como WACKERNAGEL (1995), DEUTSCH & JOURNEL (1998), OLEA (1999) e
CLARK & HARPER (2000).
Uma das mais freqüentes aplicações da cokrigagem ocorre quando a
amostragem é insuficiente, isto é, quando uma ou mais variáveis não são
coletadas em todos os pontos de amostragem. O objetivo então é melhorar a
estimação das variáveis sub-amostradas utilizando a correlação, por ventura
existente com variáveis mais densamente amostradas. Trata-se de uma
ferramenta geoestatística que vem sendo cada vez mais utilizada em diversas
situações de estimação ou de modelagem, existindo a disposição diversos
142
programas (CARR, MYERS & GLASS, 1985; YATES E YATES, 1990; MARCOTTE, 1991 e
DEUTSCH E JOURNEL, 1992, entre outros)
Fundamental na utilização da cokrigagem é a verificação prévia da
correlação existente entre as variáveis, a qual deve ser alta para que as
estimativas sejam consistentes. Também deve ser notado que a melhoria de
interpretação somente é significativa quando uma das variáveis tem um número
extremamente reduzido de casos em relação à outra e que o sistema de
cokrigagem torna-se extremamente complicado no caso de mais de duas
variáveis. Desse modo críticas a esse método são encontradas na literatura
como, por exemplo, em MYERS, 1992 e 1988, DAVIS & GREENES, 1983.
9.2.1. Exemplo
Este exemplo é apresentado com poucos dados para ilustrar como se
desenvolve a aplicação da cokrigagem. Seja uma situação com 3 pontos onde V é
a covariância medida nesses três pontos e U, a variável de interesse, medida em
apenas duas dessas três localidades. A questão é estimar U em um local não
amostrado como mostra a figura abaixo:
Distribuição dos pontos, com coordenadas (0,0) para U0; (-3,6) para o ponto1; (-8,-5) para o
ponto 2; (3,-3) para o ponto 3
Estes dados provém de uma amostragem mais densa constituída por 275
pontos para U e 470 pontos para V, apresentados e amplamente discutidos no
texto de ISAAKS & SRIVASTAVA (1989). A análise covariográfica desses dados
revelou as seguintes relações:
γU(h) = 440000 + 70000γ(h’1) + 95000γ(h’2)
143
γV(h) = 22000 + 40000γ(h’1) + 45000γ(h’2)
γUV(h) = 47000 + 50000γ(h’1) + 40000γ(h’2)
Para verificar a validade do modelo linear de corregionalização foram
calculados os determinantes das matrizes referentes a cada estrutura:
• Efeito pepita
0000.000.471.7
440000 47000
47000 22000 >=
• Segunda estrutura
0000.000.300
70000 50000
50000 40000 >=
• Terceira estrutura
0000.000.675.2
95000 40000
40000 45000 >=
A Tabela, a seguir, mostra os valores de covariâncias e covariâncias
cruzadas necessários para o cálculo de U0.
Pares de
variáveis
Distância
reticulado
Distância
estrutural
CU(h) CV(h) CUV(h)
U1U1 0,0 0,0 605000
U1U2 12,1 9,1 99155
U2U2 0,0 0,0 605000
V1V1 0,0 0,0 107000
V1V2 12,1 9,1 49623
V1V3 10,8 5,0 57158
V2V2 0,0 0,0 107000
V2V3 11,2 11,2 45164
V3V3 0,0 0,0 107000
U1V1 0,0 0,0 137000
U1V2 12,1 9,1 49715
U1V3 10,8 5,0 57615
144
U2V1 12,1 9,1 49715
U2V2 0,0 0,0 137000
U2V3 11,2 11,2 45554
U0U1 6,7 2,6 134229
U0U2 9,4 9,0 102334
U0V1 6,7 2,6 70210
U0V2 9,4 9,0 52697
U0V3 4,2 2,5 75887
Esses valores compõem as equações de cokrigagem:
=
×
0
1
75887
52697
70210
102334
134229
0011100
0000011
1010700045164571584555457615
10451641070004962313700049715
10571584962310700049715137000
01455541370004971560500099155
01576154971513700099155605000
2
1
3
2
1
2
1
µ
µ
b
b
b
a
a
Resolvendo essas equações, os seguintes valores para pesos da
cokrigagem, valor da estimativa para U0 e variância da estimativa por cokrigagem
são encontrados:
Pesos da cokrigagem:
ponto U1: a1 = 0,512 ponto U2: a2 = 0,488
ponto V1: b1 = -0,216 ponto V2: b2 = -0,397 ponto V3: b3 = 0,666
Multiplicadores de Lagrange:
µ1 = -205963 µ2 = -13823
Valores estimados no ponto de estimativa por cockrigagem:
Estimativa de U0 = 398 Variância de U0 = 681549
145
Apenas a titulo de informação, se fosse aplicada a krigagem ordinária o
valor estimado para U0 seria 630, com a previsão de variância dessa estimativa
da ordem de 719509.
9.3. KRIGAGEM FATORIAL
A krigagem fatorial é uma metodologia desenvolvida por MATHERON (1982)
e talvez a mais conhecida entre os métodos geoestatísticos multivariados. A
teoria pode ser encontrada em GOOVAERTS, 1992; GOOVAERTS & WEBSTER, 1994;
CASTRIGNANÒ ET AL. 1995; CASTRIGNANÒ ET AL., 2000; WACKERNAGEL, 2003:
QUEIROZ, 2003). Um software foi escrito por PARDO-IQUIZGUIZA & DOWD (2002).
O objetivo da krigagem fatorial pode ser, por exemplo, no caso de
ocorrência de um metal, descobrir qual a origem dessa concentração. Traços
desse metal no solo ou na água podem originar-se naturalmente por
intemperismo de rochas ou podem ser resultado de atividades humanas, tais
como mineração, resíduos industriais ou agricultura. Se as escalas, segundo as
quais os diferentes fatores operam, forem diferentes umas das outras, isso
poderia ser observado nos semivariogramas das concentrações dos metais, por
meio da análise estrutural realizada com modelos semivariográficos aninhados.
Sendo identificadas no semivariograma a correspondente componente espacial
pode ser estimada e mapeada utilizando-se a krigagem ordinária onde cada
componente espacial é associada com o respectivo semivariograma. Os mapas
das estimativas das componentes espaciais podem auxiliar na separação de
características locais e regionais do fenômeno em estudo. Em geral, o
modelamento semivariográfico tem 3 escalas de variação espacial:
(1) micro-escala: corresponde à componente do efeito pepita, onde o alcance é
zero e as estimativas são nulas em qualquer localização não amostrada; pode
estar relacionada à remobilização local da concentração do poluente e/ou erros de
medidas;
(2) escala local ou curto alcance: pode estar relacionada às concentrações
anômalas do metal, – acima do limite máximo tolerável, e pode ser resultado de
rochas naturalmente ricas de tal metal ou originar-se de atividades humanas, cujo
impacto é temporariamente balanceado por pequenas concentrações naturais;
146
(3) escala regional ou longo alcance: geralmente relacionada à influência da
geologia regional (QUEIROZ, 2003).
Seja {zi(u); i = 1, ..., p}, um conjunto de p variáveis regionalizadas
conhecidas em n pontos amostrais, com coordenadas u. Neste caso, {Zi(u); i = 1,
..., p} é uma função aleatória a indicar um conjunto de variáveis aleatórias
definidas sobre uma área específica. Um incremento espacial [zi(u) – zi(u+h)] é
definiddo como a diferença entre os valores de uma variável zi em u e em u+h
separados pelo vetor h. Sob a hipótese de estacionaridade de segunda ordem,
define-se:
Vetor com valor médio: m = E{Z(u)}
Matriz de covariâncias: C(h) = E[{Z(u) - m}T{Z(u+h) – m}]
Matriz de variogramas: �h) = 1/2E[{Z(u) – Z(u+h)}T{Z(u) – Z(u+h)}],
onde T significa mariz transporta. Para h = 0, a matriz de covariâncias C(h) é igual
à matriz de varianâncias-covariâncias clássica V:
C(0) = E[{Z(u) – m}T{Z(u) – m}] = V
Também C(h) e �(h) são relacionados pela expressão:
�(h) = C(0) – ½(C(h) + C(-h)
A matriz de variogramasexperimental � h) é uma matriz pxp, onde na
diagonal estão os valores para os variogramas diretos e nos postos fora da
diagonal, os valores para os variogramas cruzados, para um determinado h:
γγ
γγ
=Γ
)h()h(
)h()h(
)h(
*
pp
*
1p
*
p1
*
11
*
L
M
L
Os variogramas experimentais são calculados a partir dos dados amostrais
e, em muitas situações, diversos modelos variográficos podem ser ajustados,
revelando diversas escalas de variabilidade espacial. Cada escala de
variabilidade pode ser representada por um modelo de semivariograma, de modo
que a variabilidade espacial é modelada pela soma dos semivariogramas
embricados. A krigagem fatorial permite, desse modo, analisar as relações entre
as variáveis Zi(u) nas escalas espaciais detectadas pelos semivariogramas
experimentais embricados.
Resumidamente os passos básicos da krigagem fatorial são:
147
1. modelagem por corregionalização das variáveis usando o denominado modelo
linear de corregionalização; todos os p(p + 1)/2 variogramas diretos e cruzados
das p variáveis são modelados por uma combinação linear dos N´s
variogramas padronizados para um mesmo alcance (sill); nesta modelagem
supõe-se que o comportamento espacial das variáveis seja o resultado da
interação de diferentes processos atuando independentemente a diferentes
escalas espaciais.
2. analise da estrutura de correlações entre as variáveis, levando em
consideração as diferentes escalas, com aplicação da análise das
componentes principais; um “círculo de correlações” entre as variáveis
originais e os dois mais importantes fatores regionalizados, ortogonais, é
utilizado para resumir as relações entre as variáveis a cada escala espacial.
3. estimação das relações entre os fatores regionalizados e variáveis, como
componentes espaciais, a diferentes escalas por cokrigagem, para,
finalmente, mapeà-los.
A regionalização multivariada de um conjunto de funções aleatórias pode
ser representada por um modelo linear multivariado espacial que permita uma
fácil manipulação dos dados espaciais (WACKERNAGEL, 1995). Os variogramas
cruzados embricados podem então ser modelados como combinações lineares:
∑∑
=
αβ
=
αβαβ =γ=γ
ii N
1u
uu
N
1u
u )h(gb)h()h( ,
onde Ni é o numero de escalas espaciais, buαβ são coeficientes e guαβ(h) as
funções variográficas.
Um conjunto de funções aleatórias, Zi(x), pode ser decomposto em
subconjuntos de fatores espacialmente não correlacionáveis ( ROUHANI &
WACKERNAGEL, 1990; GOOVAERTS, 1922; WACKERNAGEL, 1995).
O estimador por cokrigagem da componente espacial Zuk no ponto x0 é:
∑∑
=
λ=
m
1i
n
j
jiji0
*u
k )x(Z)x(Z .
O sistema de krigagem pode, então, ser resolvido segundo:
∑∑
=η =τ
τητη −=µ−−γλ
m
1
n
1
0j
uu
ikiji )xx(gb)xx(
148
e ∑
=τ
τ =λ
n
1
i 0
onde µi é o multiplicador de Lagrange; gu(xj,x0) é o valor proveniente da u’ésima
função variográfica básica, gu(h), entre o ponto amostrado e x0; i = 1, ..., p, e j = 1,
..., n.
Com relação à análise multivariada regionalizada WACKERNAGEL (2003)
pondera que a questão fundamental a investigar é se a correlação entre variáveis
é espacialmente dependente ou não. Apresenta, então, três maneiras para
verificar se a correlação é dependente do espaço.
1) A co-dispersão dos coeficientes ccij(h) podem ser calculada e disposta
em gráficos; se elas não são constantes para cada par de variável, a estrutura de
correlação do conjunto de variáveis é afetada pela escala espacial.
2) Variogramas cruzados entre componentes principais das variáveis
podem ser calculados; se eles não forem iguais a zero para cada par de
componente principal a qualquer distância h, a componente principal clássica não
tem sentido porque a matriz de variância-covariância do conjunto de variáveis é
meramente uma mistura de diferentes estruturas de variâncias-covariâncias
segundo varias escalas espaciais.
3) Gráficos de círculos de correlação numa análise de componentes
principais regionalizada podem ser examinados; se os padrões de associação
entre as variáveis não são idênticos para as matrizes de co-regionalização, o
modelo de correlação intrínseco não é apropriado para o conjunto de dados. Com
apenas poucas variáveis é possível perceber a tabela de coeficientes de
correlação regionalizados em lugar das componentes principais regionalizadas.
Se os dados parecem ser intrinsecamente correlacionados, pode-se aplicar
qualquer método da análise multivariada fatorial, calcular diretamente os
variogramas dos fatores, estimá-los por krigagem e mapeá-los. Se, porem, a
correlação é afetada pela escala espacial, torna-se necessário ajustar um modelo
linear de co-regionalização e co-krigar os fatores.
9.3.1. Exemplo
Em sua tese de doutorado QUEIROZ (2003) apresentou uma metodologia
baseada na teoria geoestatística para a quantificação do risco de contaminação
149
por metais pesados na área portuária de Santana/Amapa, onde anteriormente
foram desenvolvidas atividades relacionadas ao beneficiamento e
comercialização do minério de manganês oriundo das minas de Serra do
Navio/AP.
Para a aplicação da krigagem fatorial foram consideradas somente as
variáveis que apresentaram concentrações acima dos limites estabelecidos pelo
CONAMA, ou seja, arsênio (As), manganês (Mn), alumínio (Al), ferro (Fe),
chumbo (Pb), selênio (Se), cádmio (Cd) e cobre (Cu).
A tabela abaixo apresenta a matriz de correlações entre as variáveis. Os
valores em destaque indicam correlação significativa a um nível abaixo de 5%.
Observa-se forte correlação entre Fe e Cd (r = 0.934) e com Pb com Se (r =
0.965).
As relações entre as variáveis foram, primeiramente, estudadas de uma
maneira clássica, com a aplicação do método de análise de componentes
principais (ACP). As componentes principais ordenadas de acordo com sua
contribuição à explicação da variância total dos dados são mostradas na Tabela a
seguir .
As Mn Al Fe Pb Se Cd Cu
As 1.000
Mn 0.024 1.000
Al -0.094 -0.09 1.000
Fe 0.07 0.166 0.369 1.000
Pb 0.172 0.336 0.105 0.415 1.000
Se 0.093 0.344 0.096 0.405 0.965 1.000
Cd 0.085 0.196 0.349 0.934 0.475 0.428 1.000
Cu -0.046 -0.006 -0.026 0.05 0.525 0.559 0.047 1.000
150
Essa Tabela apresenta as cargas dos fatores com a percentagem da
variância explicada das três primeiras componentes principais. Essas
componentes explicam, juntas, 74% da variância total. A primeira componente é
fortemente correlacionada com os elementos Se, Pb, Cd e Fe.
Os semivariogramas experimentais omnidirecionais diretos e cruzados
obtidos a partir dos escores das três componentes principais são apresentados
em seguida. Um modelo linear de co-regionalização foi ajustado e utilizado no
mapeamento das componentes, onde, cada componente foi estimada por
cokrigagem. Foram ajustados dois modelos esféricos com alcances de 0,33 km e
2,0 km, respectivamente, além do efeito pepita presente em todos os casos.
Variáveis Cp 1 Cp 2 Cp 3
As 0,142 0,073 – 0.667
Mn 0,387 0,177 – 0.508
Al 0,303 – 0.584 0,425
Fe 0,753 – 0.560 – 0.059
Pb 0,888 0,356 0,005
Se 0,876 0,389 0,066
Cd 0,779 – 0.529 – 0.091
Cu 0,46 0,597 0,467
Autovalores 3.202 1.607 1.118
% da Variância 40 20,1 14
Acumulado 40 60,1 74,1
Cargas dos Fatores Principais
151152
Observa-se uma pequena predominância da estrutura de longo alcance
(2,0 km) na componente principal 1 e da estrutura de curto alcance (0,33 km) na
componente principal 3.
Embora nenhuma estrutura de longo ou pequeno alcance predomine
fortemente em quaisquer das componentes, selênio e chumbo podem estar
vinculadas à estrutura de longo alcance e ferro e cádmio à estrutura de curta
escala. Isso pode ser obervado nos seguintes semivariogramas
Esses alcances foram utilizados no modelamento semivariográfico direto e
cruzado das variáveis para se determinar os coeficientes bsij(patamar) que
fornecem o nível de variabilidade do semivariograma, onde s representa a escala
de variabilidade e i,j as variáveis.
Os coeficientes bsij são os elementos das matrizes de co-regionalização
Bs. Desse modo as matrizes B1 e B2 descrevem a estrutura de correlação para
curta escala (0,33 km) e longa escala (2,0 km). Os resultados da análise das
componentes principais dessas duas matrizes fornecem os fatores regionalizados
Ysk(u), que são as componentes principais de cada matriz na respectiva escala “s”
e as componentes espaciais Zsi(u).
Os resultados da análise de componentes principais das duas matrizes B1
e B2 são apresentados na Tabela a seguir. Os três primeiros fatores
regionalizados explicam 86,2 % e 99,5 % da variância total para as matrizes B1 e
153
B2, respectivamente. Para a matriz B1 (curta escala espacial) observa-se forte
correlação do ferro e cádmio com o primeiro fator regionalizado. O manganês é
fortemente correlacionado com o segundo fator regionalizado e a contribuição do
arsênio predomina fortemente em relação às outras variáveis no terceiro fator
regionalizado. Isso sugere uma possível relação da contaminação desses
elementos a fontes de contaminação vinculada a atividades humanas que, em
geral, ocorrem em pequena escala espacial, neste caso, descrita pela matriz B1.
A matriz B1 não mostra correlação entre o arsênio e o manganês na escala
considerada. Para a matriz B2 (longa escala espacial) o primeiro fator
regionalizado explica a maior parte da variabilidade sendo que a contribuição de
todas as variáveis, exceto o cobre, é relativamente alta com destaque para o
chumbo e selênio. O cobre é mais fortemente correlacionado com o segundo fator
e nenhuma variável apresenta contribuição significativa para o terceiro fator, que
explica somente 3,2 % da variabilidade total. O alumínio apresenta correlação
mais forte com o primeiro fator regionalizado na longa escala.
As 0 -0.003 0.517 0.663 0.098 -0.116
Mn 0.001 0.817 0.006 0.447 -0.044 -0.144
Fe 0.803 -0.002 0.002 0.417 0.077 0.038
Cd 0.836 -0.001 0.005 0.415 0.078 -0.116
Pb 0.223 0.005 -0.003 0.735 -0.147 0.092
Se 0.219 0.01 -0.009 0.685 -0.147 0.14
Al 0.316 -0.007 -0.011 0.438 0.097 0.025
Cu -0.006 -0.104 0.033 0.097 0.52 0.092
Autovalores 1.732 0.734 0.368 2.439 0.354 0.094
% da Variância 52,7 22.3 11.2 84.1 12.2 3.2
Acumulado 52.7 75 86.2 84.1 96.3 99.5
Matriz B2 (Longa Escala) Matriz B1 (Pequena Escala)
Variáveis
1
1Y 12Y
1
3Y
2
1Y 22Y 23Y
154
A análise das matrizes de co-regionalização permite a observação de
relações entre as variáveis de acordo com a escala espacial que não poderiam
ser detectadas na análise convencional da matriz R de correlações (ou a matriz V
de variância-covariância). Por exemplo, a correlação entre ferro e cádmio é mais
forte na pequena escala enquanto que selênio e chumbo apresentam maior
correlação na longa escala. Os valores das cargas do primeiro fator regionalizado
das matrizes B1 e B2 mostram que é mais provável que ocorra alguma correlação
entre arsênio e manganês na longa do que na pequena escala espacial.
Os fatores regionalizados Ysk(u) e componentes espaciais Zsi(u), s=1,2
e k=1,...,8, foram mapeados por co-krigagem. O valor de qualquer fator
regionalizado é igual à sua média local estabelecida como zero para qualquer
distância acima de 0,33 km, no caso da pequena escala, e acima de 2,0 km, no
caso da longa escala.
As Figuras abaixo mostram os mapas cokrigados do primeiro fator
associados às escalas espaciais consideradas. Para a escala local (curto
alcance), a presença de áreas que podem ser consideradas anômalas – com
valores mais altos (ou baixos) – é observada principalmente dentro dos limites da
ICOMI.
COMERCIAL
HOSPITALIDADE
CENTRAL
N.HORIZONTE
REMÉDIOS
NOVA BRASÍLIA
ELESBÃO
ICOMI
RIO AMAZONAS
CENTRAL
ICOMI
CENTRAL
ICOMI
478 478.5 479 479.5 480 480.5 481 481.5 482
994
994.5
995
995.5
996
-1.5
-1
-0.5
0
0.5
1
1.5
Fator Regionalizado 1 (Pequena escala: 0.33 km)
U
TM
(
K
m
)
UTM ( Km )
0 500 1000 metros250 750
Escala
155
A drenagem da área de estudo (em linha azul) foi plotada nos mapas
relacionados à longa escala.Pode-se observar uma boa concordância das linhas
de drenagem com o padrão espacial apresentado, sobretudo pelo mapa do
primeiro fator regionalizado associado com o modelo esférico de longa escala,
que explica a maior parte da variabilidade (84,1%) com contribuição razoável de
quase todas as variáveis, exceto o cobre.
Foi realizado também o mapeamento do As, Mn, Fe e Cd, que mostraram
indícios de estarem vinculados a uma escala local. O mapa do arsênio na
pequena escala apresenta duas pequenas áreas com anomalias negativas, uma
dentro da área industrial da ICOMI e outra no bairro do Elesbão à margem do Rio
Amazonas. No mapa desse mesmo elemento associado à longa escala observa-
se regiões com altos valores positivos dentro da área da ICOMI, no bairro do
Elesbão – à noroeste – e na área residencial, no bairro da Hospitalidade,
parecendo indicar uma disseminação do referido elemento na área de estudo.
A ocorrência de valores altos para os elementos analisados na área de
estudo pode indicar a presença de fontes de contaminação possivelmente
vinculadas às atividades industriais desenvolvidas pela ICOMI durante os últimos
anos.
478 478.5 479 479.5 480 480.5 481 481.5 482
994
994.5
995
995.5
996
COMERCIAL
HOSPITALIDADE
CENTRAL
N.HORIZONTE
REMÉDIOS
NOVA BRASÍLIA
ELESBÃO
ICOMI
RIO AMAZONAS
CENTRAL
ICOMI
CENTRAL
ICOMI
-1.5
-1
-0.5
0
0.5
1
1.5
Fator Regionalizado 1 (Longa escala: 2.0 km)
U
TM
(
K
m
)
UTM ( Km )
0 500 1000 metros250 750
Escala
156
Os resultados obtidos pela krigagem fatorial multivariada mostraram que o
arsênio, manganês, ferro e cádmio provavelmente estão vinculados a fontes de
contaminações localizadas (curta escala), ou seja, provenientes de atividades
humanas, enquanto alumínio, selênio, chumbo e cobre apresentaram indícios de
que suas concentrações são provenientes do próprio meio natural, por causa da
correlação mais forte com variações de longa escala desses elementos.
478 478.5 479 479.5 480 480.5 481 481.5 482
994
994.5
995
995.5
996
COMERCIAL
HOSPITALIDADE
CENTRAL
N.HORIZONTE
REMÉDIOS
NOVA BRASÍLIA
ELESBÃO
ICOMI
RIO AMAZONAS
CENTRAL
ICOMI
CENTRAL
ICOMI
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
Componente Espacial estimada para o Arsênio (Pequena escala = 0,33 km)
U
TM
(
K
m
)
UTM( Km )
0 500 1000 metros250 750
Escala
478 478.5 479 479.5 480 480.5 481 481.5 482
994
994.5
995
995.5
996
COMERCIAL
HOSPITALIDADE
CENTRAL
N.HORIZONTE
REMÉDIOS
NOVA BRASÍLIA
ELESBÃO
ICOMI
RIO AMAZONAS
CENTRAL
ICOMI
CENTRAL
ICOMI
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
Componente Espacial estimada para o Arsênio (Longa escala = 2,0 km)
U
TM
(
Km
)
UTM ( Km )
0 500 1000 metros250 750
Escala
157
BIBLIOGRAFIA
ABOUFIRASSI, M. & MARIÑO, M. A. (1984) – Cokriging of Aquifer Transmissivities from
Field Measurements of Specific Capacity: Math. Geology, 16:19-35
CARR, J., MYERS, D.E. & GLASS, C.H. (1985) - Co-Kriging: a Computer Program:
Computers & Geosciences, 11:111-127.
CASTRIGNANÒ, A., CONVERTINI, G., LOSAVIO, N. & HOXHA, I. (1995) – Studio delle
relazioni tra le proprietà fisico-chimiche di un suolo argilloso del litorale ionico-lucano
mediante la geostatistica multivariata: Proceedings of the 13th Symposium of Italian
Chemistry Society, Florence, pp. 61-70
CASTRIGNANÒ, A., GIUGLIARINI, L., RISALITI, R. & MARTINELLI, N. (2000) – Study of
spatial relationships among some soil physico-chemical properties of a field in central Italy
using multivariate geostatistics: Geoderma, 97:39-60
CHILÉS, J. P. & DELFINER, P. (1999) Geostatistics: Modeling spatial uncertainty: John
Wiley and Sons.
CLARK I. (1979) – Practical Geostatistics: Applied Science Publishers Ltd, 129p.
http://uk.geocities.com/drisobelclark/practica.html
CLARK, I. & HARPER, W. V. (2000) - Practical Geostatistics 2000: Geostokos (Ecosse)
Limited
CONDE, R.P. & YAMAMOTO (2000) – Evaluation of kriging and cokrigin for asbestos ore
reserve estimation at Cana Brava mine, Goiás, Brazil: in “Geostat 2000, Proceedings of
the Mining and Petroleum Geostatistics Sessions at the 31IGC. Ed(s) M. Armstrong, C.
Bettini, N. Champigny, A. Galli, A. Remacre. Kluwer Academic Publishers, pp. 189-201
DAVIS, B. M. & GREENES, K. A (1983) – Estimation Using Spatially Distributed
Multivariate Data: Na Example with Coal Quality: Math. Geology, 15:287-300
DEUTSCH, C.V. AND JOURNEL, A.G.- GSLIB-Geoestatistical Software Library and
User’s Guide. Oxford University Press, 1992
GOOVAERTS, P. (1992) – Factorial kriging analysis: a useful tool for exploring the
structure of multivariate spatial soil information: Jour. Soil Science, 43:597-619
GOOVAERTS, P. & WEBSTER, R. (1994) – Scale-dependent correlation between topsoil
copper and cobalt concentrations in Scotland: Eur. Jour. Soil Science, 45:79-95
GUERRA P.A.G. (1988) - Geoestatística Operacional: Departamento Nacional da
Produção Mineral.
JOURNEL, A.G. & HUIJBREGTS, J.C.H. (1978) Mining geostatistics. Academic Press,
1978. 600p.
MARCOTTE, D. (1991) - Cokriging with Matlab: Computers & Geociences, 17:1265-1280
.
MATHERON, G. (1962-1963) - Traite de Geostatistique Appliquee: (vols. 1 e 2): Technip.
158
MATHERON, G. (1982) – Pour une analyse Krigeante des données regionalisées: Centre
de Geostatistique, Fontainebleau, Report 732
MYERS, D. E. (1982) – Matrix formulation of co-kriging: Math. Geology, 14:249-258
OLEA, R. A. (1999) – Geostatistics for Engineers and Earth Scientists: Kluwer Academic
Publishers
PANNATIER Y. (1996) - VARIOWIN. Software for Spatial Data Analysis in 2D: Springer-
Verlag.
http://www-sst.unil.ch/research/variowin/index.html .
PARDO-IGÚZQUIZA, E & DOWD, P.A. (2002) – FACTOR2D: a computer program for
factorial cokriging: Computers & Geosciences, 28:857-875
QUEIROZ, J.C.B. (2003) –Utilização da geoestatística na quantificação do risco de
contaminação por metais pesados na área portuária de Santana-Amapa/Brasil: Tese de
Doutorado, Pós-Graduação em Geociências, IGCE, UNESP/Rio Claro, 199p.
VALENTE, J. M. G. P. (1982) – Geomatemática. Lições de Geoestatística: Ed.
Fundação Gorceix, vol. I-VIII.
WACKERNAGEL, H. (2003) – Multivariate Geostatistics: An Introduction with
Applications: Springer-Verlag, 3th. Ed. 387 pp.
YAMAMOTO, J.K. (2001) – Avaliação e Classificação de Reservas Minerais (Editor):
Edusp .
YATES, S.R. & YATES, M.V. (1990) - Geostatistics for Waste Mangment: A User’s
Manual for the GEOPACK (version 1.0) Geostatistical Software System: U.S.
Environmental Protection Agency Report 600/8-90/004.