
























































































Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Encontra documentos específicos para os exames da tua universidade
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Análise multivariada de dados geoestatísticos
Tipologia: Manuais, Projetos, Pesquisas
1 / 96
Esta página não é visível na pré-visualização
Não perca as partes importantes!

























































































Reprodução autorizada desde que citada a fonte Norma 6023-2000/ABNT ( http://www.abnt.org.br): LANDIM, P.M.B. Análise estatística de dados geológicos multivariados.. DGA,IGCE,UNESP/Rio Claro, Lab. Geomatemática,Texto Didático 03, 96 pp. 2000. Disponível em <http://www.rc.unesp.br/igce/aplicada/textodi.html >. Acesso em:....
INTRODUÇÃO representados por pontos num espaço n-dimensional em um número conveniente de grupos relacionando- os através de coeficientes de similaridade ou de distância. A análise fatorial procura interpretar a estrutura de um conjunto de dados multivariados, tanto em modo “Q” como em modo “R”, a partir da respectiva matriz de variâncias-covariâncias ou de
correlações, com a obtenção de “autovalores” e “autovetores”. Utiliza-se de dois procedimentos básicos: a " análise das componentes principais " e a " análise dos fatores ". O primeiro caso consiste numa transformação linear das "m" variáveis originais em "m" novas variáveis. No segundo, supõe-se que as relações existentes dentro de um conjunto de "m" variáveis seja o reflexo das correlações de cada uma dessas variáveis com "p" fatores, mutuamente não correlacionáveis entre si, sendo "p" menor que "m". A análise discriminante é aplicada quando em relação a um indivíduo, sobre o qual tenham sido feitas diversas medidas, é necessário decidir à qual de dois ou mais possíveis grupos, o mesmo pertence. A idéia básica é substituir o conjunto original das diversas mensurações por um único valor Di, definido como uma combinação linear delas. Para fornecer um único valor os termos são adicionados nessa função linear e esta transformação é realizada de tal modo a fornecer a razão mínima entre a diferença entre pares de médias multivariadas e a variância multivariada dentro dos dois grupos. Conhecido os Di's, estes serão comparados com um certo Do , ou seja, o valor situado, ao longo da linha expressa pela função discriminante, a meio caminho entre os centros dos grupos, com a finalidade de verificar a qual deles os indivíduos pertencem. Como salientado por Davis ( 1986 ), os métodos multivariados são poderosos, permitindo o pesquisador manipular diversas variáveis simultaneamente. São, porém, bastante complexos, tanto na sua estrutura teórica como na metodologia operacional. Em alguns casos os testes estatísticos a serem utilizados exigem requisitos muito rígidos e em outros, muitas vezes quando quer relacioná-los com problemas reais, não apresentam base estatística teórica e desse modo impossibilidade de testes de significância. De qualquer modo, são métodos extremamente promissores para a análise de dados geológicos tendo em vista que normalmente a maioria das situações geológica envolve um conjunto complexo de fatores atuando no sistema, sendo impossível isolá-los e estudá-los isoladamente. Exemplos de situações que apresentam dados multivariados são comuns em Geologia, como: análises geoquímicas de elementos maiores e/ou elementos traços; caracteres morfológicos medidos em fósseis; características físicas de rochas sedimentares, como distribuição granulométrica, porosidade, permeabilidade; conteúdo mineralógico em rochas; variáveis fluviais, como descarga, material em suspensão, profundidade, sólidos dissolvidos, pH e conteúdo em oxigênio, etc.. Em alguns casos trata-se de simples extensão de problemas ligados à estatística univariada e outros pertencem, todavia, a uma nova classe de problemas. As principais questões a serem enfrentadas por esse tipo de análise são as seguintes, segundo Pisani ( 1969 ):
INTRODUÇÃO
A utilidade dos métodos multivariados pode ser apresentada em termos geométricos. Assim, observações univariadas podem ser assinaladas sobre uma linha reta e se essa linha for dividida em intervalos de classes e contando o número de observações em cada intervalo, um histograma poderá ser construído. Esse histograma irá requerer duas dimensões para a sua representação. Observações bivariadas podem ser assinaladas em um sistema de dispersão a duas dimensões. Se o diagrama for dividido em celas, o número de observações em cada cela pode ser contado e o respectivo histograma construído. Esse histograma requer três dimensões e pode ser representado por um mapa de isovalores. Observações trivariadas podem ser assinaladas em um gráfico de dispersão a três dimensões e a configuração nos pontos no espaço definirá uma elipsóide. Se o espaço tri-dimensional for dividido em cubos os números de observações dentro de cada figura geométrica poderão ser contados e obtida a distribuição de freqüências. Para a construção do respectivo histograma quatro dimensões serão necessárias. Em observações com quatro ou mais variáveis não é possível a representação gráfica segundo os métodos comuns, embora Mertie ( 1949 ) tenha proposto para tanto complicados hipertetraedros. Utilizando, assim, a interpretação geométrica em três dimensões para observações trivariadas, os seguintes exemplos de procedimentos em estatística multidimensional podem ser apresentados:
a) na regressão múltipla calcula-se um plano para uma regressão linear, ou superfícies curvas para regressões de ordem maior, que são ajustados às observações a fim de minimizar a soma das distâncias ao quadrado dos pontos no espaço medidos perpendicularmente em relação a essas superfícies;
b) na análise de variância generalizada é verificado se dois ou mais elipsóides tem o mesmo centro;
c) na análise discriminante localizam-se os centros dos elipsóides e calcula-se a distância entre pares de centros de elipsóides;
d) na análise fatorial é verificado se as observações multivariadas ocupam um número de dimensões igual ao número de variáveis medidas inicialmente ou se podem estar contidas em um número menor de dimensões; para tanto os eixos do elipsóide podem ser rotacionados de tal modo a colocar o centro do elipsóide coincidente com o centro do sistema de coordenadas.
A pretensão deste texto, escrito por um Professor de Geologia, é apresentar uma introdução aos métodos estatísticos multidimensionais que podem ser aplicados na análise de dados geológicos, sem uma abordagem matemática complexa. Existe à disposição uma variedade muito grande de livros e pacotes computacionais que tratam deste assunto e torna-se necessário um texto simples que permita ao usuário iniciar-se na Geologia Quantitativa. Entre os principais livros textos que tratam de métodos
INTRODUÇÃO
AYRES, M.; AYRES JR., M.; AYRES, D. L. & SANTOS, A. S. (2000) – BioEstat 2.0: aplicações estatísticas nas áreas das ciências biológicas e médicas : Sociedade Civil Mamirauá, MCT-CNPq, [email protected]
DAVIS, J.C. (1973) - Statistics and Data Analysis in Geology : John Wiley and Sons.
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology : 2nd ed., John Wiley and Sons.
GEOQUANT (1990) – Companhia de Pesquisa de Recursos Minerais, versão 3.0.
GRIFFITH, D.A. & AMRHEIN, C.G. (1997) – Multivariate Statistical Analysis for Geographers – Prentice Hall.
HARBAUGH, J.W. & MERRIAM, D.F. (1968) - Computer applications in Stratigraphic Analysis : John Wiley & Sons.
HOWARTH, R.J. & SINDING-LARSEN, R. (1985) - Multivariate analysis : in (G.J.S. Govett, ed.) “Statistics and Data Analysis in Geochemical Prospecting”, vol. 2:207-289, Elsevier.
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis : Elsevier.
KENDALL, M.G. (1963) - Discrimination and Classification : C.E.I.R. Ltda.
KOCH JR, G.S. & LINK, .F. (1971) - Statistical analysis of geological data : vol. 2, John Wiley & Sons.
KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) - An introduction to Statistical Model in Geology : McGraw Hill Book.
LE MAITRE, R.W. (1982) - Numerical Petrology. Statistical Interpretation of Geochemical Data : Elsevier.
MERTIE JR, J.B. (1949) - Charting five and six variables on the bounding tetrahedral of hyper tetrahedral: Am. Mineralogist, 34 :706-716.
MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences : John Wiley and Sons.
MVSP – Multi-Variate Statistical Package : Kovach Computing Services, http://www.kovcomp.co.uk
PISANI, J.F. (1969) - Análise estatística multidimensional em Biologia : Ciência e Cultura, 21 (3):619-631.
REYMENT, R.A. & SAVAZZI, E. (1999) – Aspects of Multivariate Statistical Analysis in Geology - Elsevier.
SAS – SAS Institute, http://www.sas.com
SOKAL, R.R. & SNEATH, P.H.A. (1963) - Principles of numerical taxonomy : W.H. Freeman.
S-PLUS – Mathsoft, http://www.mathsoft.com
STATISTICA – StatSoft Inc., http://www.statsoft.com
SYSTAT – SPSS Inc., http://www.spss.com
XLSTAT – AddinSoft SARL, http://www.xlstat.com
EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS
2. EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS Entre os métodos da estatística descritiva univariada dois testes se destacam: o teste “ t ” e a análise de variância. O primeiro procura verificar hipóteses referentes à média populacional e o segundo, de aplicação bem mais ampla, procura dividir a variação total existente num conjunto de dados de acordo com as diversas fontes de variação presentes. Tais métodos são casos particulares daqueles pertencentes à estatística multidimensional. Entre eles podem ser exemplificados o “ teste T 2 ” de Hotteling” e a “análise generalizada de variâncias ”. Tem aplicação restrita em problemas geológicos, existindo outros métodos mais eficientes, mas são aqui apresentados apenas com o intuíto de demonstrar as relações entre testes univariados, comumente usados, e testes multivariados.
2.1. Teste T² de Hotteling 2.1.1.Para verificar se uma amostra multidimensional pertence a uma determinada população multidimensional. Seja, por exemplo, um conjunto de observações nas quais foram obtidas independentemente as
populacionais hipotéticos μx e μy. Se apenas a variável X for enfocada o teste recomendado é o "t" de Student, que verifica a probabilidade de uma amostra casual com n observações ser retirada de uma
x x
de significância α. Escolhido, por exemplo, α = 0,05 isso significa que se a verdadeira média da população de X's for
mesmo risco de estar recusando a hipótese nula quando ela é verdadeira, a probabilidade de ambas X e Y não serem significantemente diferentes de μx e μy é (0,95)² = 0,9025. A probabilidade de ambas as médias serem significantemente diferentes de μx e μy é (0,05)² = 0,0025. A probabilidade de apenas uma das médias ser significantemente diferente é (2).(0,95).(0,05) = 0,0950. Assim a probabilidade de que pelo menos uma média ser considerada como significativamente diferente, quando na realidade não existe diferença, é de 0,0975. No caso de um problema a três variáveis, esta última probabilidade passa a ser 1- (0,95)³ = 0,1426. Esta situação, apresentada por Jackson (1959) , mostra que o uso de testes univariados para situações multivariadas pode fornecer pelo menos uma diferença significante, apenas por chance, em 50% ou mais de casos. Há necessidade, portanto, de um teste generalizado que verifique simultaneamente se dadas diversas amostras, qual a possibilidade delas serem significantemente diferentes de médias hipotéticas correspondentes fornecidas.
EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS
multiplicando por A ':
([ ]^ [ ])
2 2
Para a determinação de t², ou seja o máximo valor possível, deve-se encontrar o determinante λ
−
1
onde tr = traço de matriz que é igual a soma das raízes características
1
−
Essa expressão é conhecida como “ teste T² de Hotteling ”, em homenagem ao estatístico que a formulou. Quando a hipótese nula é verdadeira, a quantidade 2
número de amostras e m o número de variáveis.
FeO, MnO, MgO, CaO, Na 2 O, K 2 O e P 205 ( Tabela 2.1.) O maciço de Itaoca, aflorando ao sul da cidade de
Apiaí, possui forma irregular, levemente ovalada, e contatos tanto concordantes como discordantes com a estrutura regional, achando-se inteiramente encaixado em metassedimentos do Grupo Açungui. Do ponto de vista textural, as amostras estudadas são porfiróides, com desenvolvimento de cristais centimétricos de feldspato alcalino em meio à uma matriz fanerítica granular de dimensões submilimétrica à milimétrica. Sua mineralogia é marcada pela dominância total dos componentes alcalinos, quartzo e feldspato, aparecendo a biotita como principal composto ferromagnêsiano
EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS Tendo sido visto o caso de uma única amostra multidimensional comparada com um específico vetor de médias populacionais, uma outra situação seria a comparação entre duas médias populacionais multidimensionais. Presume-se que as duas amostras tenham sido retiradas de populações multi-normais, possuindo ambas a mesma matriz desconhecida de variâncias-covariâncias [ σ^2 ]. Deseja-se, portanto, testar a hipótese nula Ho : (^) [ μ (^) 1 ] =[ μ 2 ] Contra a alternativa H 1 : (^) [ μ 1 (^) ] ≠[ μ 2 ] Para o caso unidimensional usa-se o teste "t" para duas amostras:
1 2
onde sp é a estimativa dos desvios padrões combinados de duas populações, baseada em ambas as amostras
2 1 12 2 22 1 2
a matriz de variâncias e covariâncias de duas amostras multidimensionais, utilizando a soma de quadrados e produtos cruzados das m variáveis de ambas as amostras.
1 2 1 2
m m
m m m
1
1 1 1 1 1 2 22 1
1 2 2
onde
i
n i
i
n a i
a
12
1 1
2 1 1 1
2
=
−
EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS
i
n i i
i
n i (^) i
n a i
a a
1 2
1 1 2
1 1 1 2 1
=
Em seguida encontra-se a diferença entre os dois vetores de médias (^) [ x (^) 1 ] − (^) [ x (^) 2 ] = (^) [ x 1 (^) − x 2 ]. O teste T² para o presente caso terá a forma
2 1 1 2 1 2
−
A significância de T² será determinada por
1 2 1 2
, com m e ( n (^) 1 + n (^) 2 − m − 1 )graus de liberdade.
(;m;n n m 1) 2
Ho : [ μ 1 ]= [ μ 2 ]
contra
H 1 : [ μ 1 ]≠ [ μ 2 ] Para este exemplo foram utilizadas as mesmas duas amostras provenientes do estudo geoquímico do maciço de Itaoca: a primeira, constituída por 13 análises químicas e a segunda, por 19 análises químicas. Em ambas as variáveis são as mesmas, ou seja porcentagens de 11 óxidos.
1 2 1 2
F tabelado, para um nível de significância de 0.05% e graus de liberdade 12(m) e 19
( n 1 n (^) 2 − m − 1 ), é igual a 2.27. Desse modo como F calculado é maior que F tabelado rejeita-se a hipótese
nula de que os dois vetores de médias das duas amostras consideradas sejam iguais. Isso já era esperado tendo em vista os resultados do exemplo 3.1.1. onde a primeira amostra revelou ter características de uma rocha adamellitica e a segunda não.
2.2. Análise generalizada de variâncias
EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS
Este valor aproximado de χ² tem graus de liberdade = ( 1 / 2 )( k - 1 )m( m + 1 ).
Se todos os grupos possuem o mesmo número de observações n, a transformação é simplificada para
1 2
O valor χ² deve ser usado apenas quando k e m não excedem 5 e cada matriz estimada de covariâncias é baseada em pelo menos 20 observações.
n n
2
Como o valor crítico, para um nível de significância 0,01, é maior que o calculado, aceita-se a hipótese nula, ou seja, ambas as amostras provém de populações com a mesma matriz de variâncias e covariâncias.
EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS
GOMES, C.B; BERENHOLC, M.; HYPÓLITO, R. & ARRUDA, J.R. (1975) - Geoquímica de maciços graníticos da Região do Ribeira, Parte 1: elementos principais : An. Acad. Bra.s Ciênc., 47 :113-130.
JACKSON, J.E. (1959) - Some multivariate statistical tecniques used in color matching data : Jour. Opt. Soc. America, 49 :485-592.
LANDIM, P.M.B.; GOMES, C.B.; ARRUDA, J.R. & FULFARO, V.J. (1979) - Análise de agrupamentos (cluster analysis) aplicada ao estudo geoquímico do granito Itaóca, região da Ribeira : An. XXVIII Congr. Bras. Geologia, 7 :161-
MORRISON, D.F. (1967) - Multivariate statistical methods: McGraw-Hill.
NOCKOLDS, S.R. (1954) - Average chemical compositon of some igneous rocks : Geol. Soc. Am. Bull., 65 :1007-
REGRESSÃO MÚLTIPLA
A equação que representa a relação linear entre uma variável dependente (yi) e uma única variável independente (xi) é:
As equações normais que fornecem os valores de ao e a 1 são: 2
As equações ( 1 ) e ( 2 ) constituem um par de equações normais a duas incógnitas, as quais podem ser resolvidas para a obtenção dos coeficientes, por cálculo matricial, segundo:
Multiplicando ambos os termos da equação pelo inverso de [X], isto é, [ X ]−^1 :
Por extensão, a análise de regressão múltipla linear de quaisquer m variáveis independentes sobre uma variável dependente, sendo expressa por:
pode ser resolvida segundo:
i mi i i i mi m
mi mi mi
o
m
i i i i i
mi i
1 1 12 1 2 2 1 2
1 2
1 2
1 2
e, portanto,
onde [A] é o vetor-coluna de incógnitas a ser determinado.
Uma das mais importantes aplicações da análise de regressão múltipla é a escolha, entre diversas variáveis independentes, daquelas mais úteis na previsão de Y e, para tanto, o método “passo a passo” ( stepwise multiple regression) é o mais recomendado. A variância total de Y é em parte "explicada" pelas diversas variáveis X's e o restante pela
REGRESSÃO MÚLTIPLA
não implicando necessariamente em um conhecimento causa-efeito sobre o porquê da relação existente. Os tamanhos relativos dessas duas componentes de variância são obviamente de grande interesse quando da aplicação da análise de regressão múltipla. A proporção da variância dos Y observados "explicada" por uma equação de regressão ajustada é representada pelo coeficiente de determinação R².
Valores de R^2 irão dispor-se no intervalo [0-1], fornecendo uma medida dimensional de quantidade do ajuste do modelo de regressão múltipla aos dados. Se o valor de R² for próximo de 1 isso significa que as diversas variáveis X's medidas são responsáveis quase que totalmente pela variabilidade de Y. Caso contrário, R² apresentará um valor próximo a zero. Como os coeficientes de regressão são parciais devem ser obtidas as porcentagens explicadas da soma de quadrados de Y
a contribuição pura de cada variável independente por comparações sucessivas entre os diversos resultados. Outra maneira para a ordenação das variáveis pela sua importância na previsão da variável dependente é a padronização dos coeficientes de regressão parciais, convertendo-os em unidades de desvio padrão, ( Bk ) ( Li , 1964, p. 136):
k Y
Sk= desvio padrão de Xk ; Sy= desvio padrão de Y. Pela comparação direta dos Bk determinam-se as variáveis mais eficientes. Embora a regressão múltipla seja multivariada no sentido de que mais de uma variável é medida simultaneamente em cada observação, trata-se na realidade de uma técnica univariada, pois o estudo é apenas em relação à variação da variável dependente Y, sem que o comportamento das variáveis independentes, Xs, seja objeto de análise. Finalmente, alguns cuidados que se deve tomar quando da utilização da análise de regressão: a) as relações entre as variáveis devem ser lineares; b) evitar um número inferior de casos em relação ao número de variáveis consideradas, sendo recomendado que tal relação seja da ordem de 10 a 20 vezes superior; c) evitar variáveis independentes redundantes, isto é, que tenham um alto coeficiente de correlação entre si; d) verificar, utilizando resíduos, a presença de valores anômalos