Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


Análise Multivariada de Dados: Aplicações em Geologia, Manuais, Projetos, Pesquisas de Estatística Aplicada

Análise multivariada de dados geoestatísticos

Tipologia: Manuais, Projetos, Pesquisas

2020

Compartilhado em 23/01/2020

modelamento-matematico-9
modelamento-matematico-9 🇧🇷

1 documento

1 / 96

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
Análise estatística de dados geológicos
multivariados
PAULO M. BARBOSA LANDIM
Professor Voluntário do Depto. Geologia Aplicada
UNESP/Rio Claro
UNESP/campus de Rio Claro
Departamento de Geologia Aplicada - IGCE
 Laboratório de Geomatemática
Texto Didático 03
2000
Reprodução autorizada desde que citada a fonte
Norma 6023-2000/ABNT ( http://www.abnt.org.br):
LANDIM, P.M.B. Análise estatística de dados geológicos multivariados..
DGA,IGCE,UNESP/Rio Claro, Lab. Geomatemática,Texto Didático 03, 96 pp. 2000.
Disponível em <http://www.rc.unesp.br/igce/aplicada/textodi.html>. Acesso em:....
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60

Pré-visualização parcial do texto

Baixe Análise Multivariada de Dados: Aplicações em Geologia e outras Manuais, Projetos, Pesquisas em PDF para Estatística Aplicada, somente na Docsity!

Análise estatística de dados geológicos

multivariados

PAULO M. BARBOSA LANDIM

Professor Voluntário do Depto. Geologia Aplicada

UNESP/Rio Claro

UNESP/campus de Rio Claro
Departamento de Geologia Aplicada - IGCE
 Laboratório de Geomatemática 
Texto Didático 03

Reprodução autorizada desde que citada a fonte Norma 6023-2000/ABNT ( http://www.abnt.org.br): LANDIM, P.M.B. Análise estatística de dados geológicos multivariados.. DGA,IGCE,UNESP/Rio Claro, Lab. Geomatemática,Texto Didático 03, 96 pp. 2000. Disponível em <http://www.rc.unesp.br/igce/aplicada/textodi.html >. Acesso em:....

I

9. ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS
COM DISTRIBUIÇÃO ESPACIAL

INTRODUÇÃO representados por pontos num espaço n-dimensional em um número conveniente de grupos relacionando- os através de coeficientes de similaridade ou de distância. A análise fatorial procura interpretar a estrutura de um conjunto de dados multivariados, tanto em modo “Q” como em modo “R”, a partir da respectiva matriz de variâncias-covariâncias ou de

correlações, com a obtenção de “autovalores” e “autovetores”. Utiliza-se de dois procedimentos básicos: a " análise das componentes principais " e a " análise dos fatores ". O primeiro caso consiste numa transformação linear das "m" variáveis originais em "m" novas variáveis. No segundo, supõe-se que as relações existentes dentro de um conjunto de "m" variáveis seja o reflexo das correlações de cada uma dessas variáveis com "p" fatores, mutuamente não correlacionáveis entre si, sendo "p" menor que "m". A análise discriminante é aplicada quando em relação a um indivíduo, sobre o qual tenham sido feitas diversas medidas, é necessário decidir à qual de dois ou mais possíveis grupos, o mesmo pertence. A idéia básica é substituir o conjunto original das diversas mensurações por um único valor Di, definido como uma combinação linear delas. Para fornecer um único valor os termos são adicionados nessa função linear e esta transformação é realizada de tal modo a fornecer a razão mínima entre a diferença entre pares de médias multivariadas e a variância multivariada dentro dos dois grupos. Conhecido os Di's, estes serão comparados com um certo Do , ou seja, o valor situado, ao longo da linha expressa pela função discriminante, a meio caminho entre os centros dos grupos, com a finalidade de verificar a qual deles os indivíduos pertencem. Como salientado por Davis ( 1986 ), os métodos multivariados são poderosos, permitindo o pesquisador manipular diversas variáveis simultaneamente. São, porém, bastante complexos, tanto na sua estrutura teórica como na metodologia operacional. Em alguns casos os testes estatísticos a serem utilizados exigem requisitos muito rígidos e em outros, muitas vezes quando quer relacioná-los com problemas reais, não apresentam base estatística teórica e desse modo impossibilidade de testes de significância. De qualquer modo, são métodos extremamente promissores para a análise de dados geológicos tendo em vista que normalmente a maioria das situações geológica envolve um conjunto complexo de fatores atuando no sistema, sendo impossível isolá-los e estudá-los isoladamente. Exemplos de situações que apresentam dados multivariados são comuns em Geologia, como: análises geoquímicas de elementos maiores e/ou elementos traços; caracteres morfológicos medidos em fósseis; características físicas de rochas sedimentares, como distribuição granulométrica, porosidade, permeabilidade; conteúdo mineralógico em rochas; variáveis fluviais, como descarga, material em suspensão, profundidade, sólidos dissolvidos, pH e conteúdo em oxigênio, etc.. Em alguns casos trata-se de simples extensão de problemas ligados à estatística univariada e outros pertencem, todavia, a uma nova classe de problemas. As principais questões a serem enfrentadas por esse tipo de análise são as seguintes, segundo Pisani ( 1969 ):

  1. dependência: quando são utilizados, por exemplo, análise de regressão múltipla e correlação canônica;
  2. inferência : quando são utilizados extensões multivariadas de métodos estatísticos univariados, como o teste T de Hotelling ou a análise generalizada de variância;

INTRODUÇÃO

  1. redução e escala : quando são utilizadas análise das componentes principais, análise dos fatores, distância generalizada “D” de Mahalanobis , etc.;
  2. discriminação e classificação: quando são utilizadas funções discriminantes e as diversas técnicas de análise de agrupamentos.

A utilidade dos métodos multivariados pode ser apresentada em termos geométricos. Assim, observações univariadas podem ser assinaladas sobre uma linha reta e se essa linha for dividida em intervalos de classes e contando o número de observações em cada intervalo, um histograma poderá ser construído. Esse histograma irá requerer duas dimensões para a sua representação. Observações bivariadas podem ser assinaladas em um sistema de dispersão a duas dimensões. Se o diagrama for dividido em celas, o número de observações em cada cela pode ser contado e o respectivo histograma construído. Esse histograma requer três dimensões e pode ser representado por um mapa de isovalores. Observações trivariadas podem ser assinaladas em um gráfico de dispersão a três dimensões e a configuração nos pontos no espaço definirá uma elipsóide. Se o espaço tri-dimensional for dividido em cubos os números de observações dentro de cada figura geométrica poderão ser contados e obtida a distribuição de freqüências. Para a construção do respectivo histograma quatro dimensões serão necessárias. Em observações com quatro ou mais variáveis não é possível a representação gráfica segundo os métodos comuns, embora Mertie ( 1949 ) tenha proposto para tanto complicados hipertetraedros. Utilizando, assim, a interpretação geométrica em três dimensões para observações trivariadas, os seguintes exemplos de procedimentos em estatística multidimensional podem ser apresentados:

a) na regressão múltipla calcula-se um plano para uma regressão linear, ou superfícies curvas para regressões de ordem maior, que são ajustados às observações a fim de minimizar a soma das distâncias ao quadrado dos pontos no espaço medidos perpendicularmente em relação a essas superfícies;

b) na análise de variância generalizada é verificado se dois ou mais elipsóides tem o mesmo centro;

c) na análise discriminante localizam-se os centros dos elipsóides e calcula-se a distância entre pares de centros de elipsóides;

d) na análise fatorial é verificado se as observações multivariadas ocupam um número de dimensões igual ao número de variáveis medidas inicialmente ou se podem estar contidas em um número menor de dimensões; para tanto os eixos do elipsóide podem ser rotacionados de tal modo a colocar o centro do elipsóide coincidente com o centro do sistema de coordenadas.

A pretensão deste texto, escrito por um Professor de Geologia, é apresentar uma introdução aos métodos estatísticos multidimensionais que podem ser aplicados na análise de dados geológicos, sem uma abordagem matemática complexa. Existe à disposição uma variedade muito grande de livros e pacotes computacionais que tratam deste assunto e torna-se necessário um texto simples que permita ao usuário iniciar-se na Geologia Quantitativa. Entre os principais livros textos que tratam de métodos

INTRODUÇÃO

BIBLIOGRAFIA

AYRES, M.; AYRES JR., M.; AYRES, D. L. & SANTOS, A. S. (2000) – BioEstat 2.0: aplicações estatísticas nas áreas das ciências biológicas e médicas : Sociedade Civil Mamirauá, MCT-CNPq, [email protected]

DAVIS, J.C. (1973) - Statistics and Data Analysis in Geology : John Wiley and Sons.

DAVIS, J.C (1986) - Statistics and Data Analysis in Geology : 2nd ed., John Wiley and Sons.

GEOQUANT (1990) – Companhia de Pesquisa de Recursos Minerais, versão 3.0.

GRIFFITH, D.A. & AMRHEIN, C.G. (1997) – Multivariate Statistical Analysis for Geographers – Prentice Hall.

HARBAUGH, J.W. & MERRIAM, D.F. (1968) - Computer applications in Stratigraphic Analysis : John Wiley & Sons.

HOWARTH, R.J. & SINDING-LARSEN, R. (1985) - Multivariate analysis : in (G.J.S. Govett, ed.) “Statistics and Data Analysis in Geochemical Prospecting”, vol. 2:207-289, Elsevier.

JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis : Elsevier.

KENDALL, M.G. (1963) - Discrimination and Classification : C.E.I.R. Ltda.

KOCH JR, G.S. & LINK, .F. (1971) - Statistical analysis of geological data : vol. 2, John Wiley & Sons.

KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) - An introduction to Statistical Model in Geology : McGraw Hill Book.

LE MAITRE, R.W. (1982) - Numerical Petrology. Statistical Interpretation of Geochemical Data : Elsevier.

MERTIE JR, J.B. (1949) - Charting five and six variables on the bounding tetrahedral of hyper tetrahedral: Am. Mineralogist, 34 :706-716.

MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences : John Wiley and Sons.

MVSP – Multi-Variate Statistical Package : Kovach Computing Services, http://www.kovcomp.co.uk

PISANI, J.F. (1969) - Análise estatística multidimensional em Biologia : Ciência e Cultura, 21 (3):619-631.

REYMENT, R.A. & SAVAZZI, E. (1999) – Aspects of Multivariate Statistical Analysis in Geology - Elsevier.

SAS – SAS Institute, http://www.sas.com

SOKAL, R.R. & SNEATH, P.H.A. (1963) - Principles of numerical taxonomy : W.H. Freeman.

S-PLUS – Mathsoft, http://www.mathsoft.com

STATISTICA – StatSoft Inc., http://www.statsoft.com

SYSTAT – SPSS Inc., http://www.spss.com

XLSTAT – AddinSoft SARL, http://www.xlstat.com

EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS

2. EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS Entre os métodos da estatística descritiva univariada dois testes se destacam: o teste “ t ” e a análise de variância. O primeiro procura verificar hipóteses referentes à média populacional e o segundo, de aplicação bem mais ampla, procura dividir a variação total existente num conjunto de dados de acordo com as diversas fontes de variação presentes. Tais métodos são casos particulares daqueles pertencentes à estatística multidimensional. Entre eles podem ser exemplificados o “ teste T 2 ” de Hotteling” e a “análise generalizada de variâncias ”. Tem aplicação restrita em problemas geológicos, existindo outros métodos mais eficientes, mas são aqui apresentados apenas com o intuíto de demonstrar as relações entre testes univariados, comumente usados, e testes multivariados.

2.1. Teste T² de Hotteling 2.1.1.Para verificar se uma amostra multidimensional pertence a uma determinada população multidimensional. Seja, por exemplo, um conjunto de observações nas quais foram obtidas independentemente as

medidas X e Y e se deseja saber se x e y são significativamente diferentes de um par de valores

populacionais hipotéticos μx e μy. Se apenas a variável X for enfocada o teste recomendado é o "t" de Student, que verifica a probabilidade de uma amostra casual com n observações ser retirada de uma

população normal com média especificada μ x e variância desconhecida σ^2 , porem estimada (s^2 x):
t x^ n
s

x x

= (^ − μ 2 )
a amostra tem tamanho n de onde x foi obtida; se t ≥ t (n - 1,α), x será considerado diferente de μx ao nível

de significância α. Escolhido, por exemplo, α = 0,05 isso significa que se a verdadeira média da população de X's for

igual a μx a chance de ocorrer t ≥ t (n - 1,α), é uma em 20. Aplicando o mesmo teste para a variável Y, com o

mesmo risco de estar recusando a hipótese nula quando ela é verdadeira, a probabilidade de ambas X e Y não serem significantemente diferentes de μx e μy é (0,95)² = 0,9025. A probabilidade de ambas as médias serem significantemente diferentes de μx e μy é (0,05)² = 0,0025. A probabilidade de apenas uma das médias ser significantemente diferente é (2).(0,95).(0,05) = 0,0950. Assim a probabilidade de que pelo menos uma média ser considerada como significativamente diferente, quando na realidade não existe diferença, é de 0,0975. No caso de um problema a três variáveis, esta última probabilidade passa a ser 1- (0,95)³ = 0,1426. Esta situação, apresentada por Jackson (1959) , mostra que o uso de testes univariados para situações multivariadas pode fornecer pelo menos uma diferença significante, apenas por chance, em 50% ou mais de casos. Há necessidade, portanto, de um teste generalizado que verifique simultaneamente se dadas diversas amostras, qual a possibilidade delas serem significantemente diferentes de médias hipotéticas correspondentes fornecidas.

EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS

[ x^ x ][ x^ x ] n^ [ s^ ][^ A ]

 − − l −
^

multiplicando por A ':

[ ] [ ][ ] [ ]

[ ] [ ] [ ]

([ ]^ [ ])

[ ] [ ] [ ]

A x x A n −
A s A
A x n
A s A
' x x ' x

2 2

o que resulta: λ = t^2

Para a determinação de t², ou seja o máximo valor possível, deve-se encontrar o determinante λ

[ s^^2 ] [^ x^ ][^ x^ ]^ n^ [ ] I

^ −^1 − − − 0
^

λ = [ ] [ − μ ] [ − μ ]

tr s^2 x o x o n

1

onde tr = traço de matriz que é igual a soma das raízes características

T^2 n x [ x ] [ s^2 ] [ x x ]

1

Essa expressão é conhecida como “ teste T² de Hotteling ”, em homenagem ao estatístico que a formulou. Quando a hipótese nula é verdadeira, a quantidade 2

* T

mn

F n m

= − , apresenta uma distribuição F com graus de liberdade m e n - m, onde n é o

número de amostras e m o número de variáveis.

Aceita-se H o : μ o ,, quando

F * <. F ( α , m , n − m )

  • Exemplo : Os dados foram retirados do trabalho de Gomes et al. (1975) sobre a geoquímica de corpos graníticos da região do Ribeira, utilizando-se apenas 40 análises químicas obtidas do maciço de Itaóca, Vale do Ribeira (SP). Cada uma dessas análises exibe valores percentuais de de SiO 2 , TiO 2 , Al 2 O 3 , Fe 2 O 3 ,

FeO, MnO, MgO, CaO, Na 2 O, K 2 O e P 205 ( Tabela 2.1.) O maciço de Itaoca, aflorando ao sul da cidade de

Apiaí, possui forma irregular, levemente ovalada, e contatos tanto concordantes como discordantes com a estrutura regional, achando-se inteiramente encaixado em metassedimentos do Grupo Açungui. Do ponto de vista textural, as amostras estudadas são porfiróides, com desenvolvimento de cristais centimétricos de feldspato alcalino em meio à uma matriz fanerítica granular de dimensões submilimétrica à milimétrica. Sua mineralogia é marcada pela dominância total dos componentes alcalinos, quartzo e feldspato, aparecendo a biotita como principal composto ferromagnêsiano

EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS

    1. INTRODUÇÃO ÍNDICE
    1. EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS
    • 2.1. Teste T² de Hotteling
    • 2.2.. Análise generalizada de variância
    1. REGRESSÃO MÚLTIPLA
    1. ANÁLISE DE AGRUPAMENTOS (CLUSTER ANALYSIS)
    • 4.1. Introdução
    • 4.2. Métodos de classificação
    1. ANÁLISE DAS COMPONENTES PRINCIPAIS
    • 5.1. Análise das Coordenadas Principais
    • 5.2. Métodos robustos para Análise das Componentes Principais
    1. ANÁLISE FATORIAL
    • 6.1. Análise Fatorial pelo modo “R”
    • 6.2. Análise Fatorial pelo modo “Q”
    • 6.3. Exemplo numérico
    • 6.4. Análise das Correspondências (Análise das Associações)
    • 6.5. Análise Fatorial R-Q simultânea
    • 6.6. Exemplo
    1. ANÁLISE DISCRIMINANTE
    • 7.1. Funções Discriminantes multigrupos
    • 7.2.. Distância Generalizada D^2 de Mahalanobis
    • 7.3. Exemplo
    1. EXEMPLO DE ANÁLISE ESTATÍSTICA MULTIVARIADA INTEGRADA
    • 9.1. Adaptação de métodos estatísticos multivariados
    • 9.2. Metodologia específica para análise estatística multivariada espacial
      • SiO 2 TiO 2 Al 2 O 3 Fe 2 O 3 FeO MnO MgO CaO Na 2 O K 2 O P
    • 1 67.58 0.58 12.65 0.15 3.62 0.07 1.28 2.14 5.34 4.9 9 0.
    • 2 72.77 0.20 12.96 0.01 2.30 0.02 0.30 0.77 5.34 4.55 0.
    • 3 68.64 0.40 13.33 0.65 2.98 0.19 0.77 1.11 5.72 4.70 0.
    • 4 69.87 0.45 13.36 0.90 2.03 0.08 0.81 0.80 5.72 4.96 0.
    • 5 71.42 0.39 12.23 0.01 3.06 0.05 0.82 1.53 5.01 3.48 0.
    • 6 66.02 0.60 13.62 0.97 3.35 0.07 1.10 2.89 5.01 5.00 0.
    • 7 66.20 0.67 12.99 1.21 3.08 0.10 1.10 2.76 5.34 4.97 0.
    • 8 72.75 0.22 12.72 0.17 2.53 0.03 0.37 1.13 5.01 4.34 0.
    • 9 65.80 0.65 13.95 0.33 3.76 0.05 1.08 2.67 5.34 4.96 0.
  • 10 70.03 0.38 12.83 0.43 3.81 0.08 0.73 1.59 4.04 5.04 0.
  • 11 69.71 0.50 13.00 0.06 3.18 0.11 0.90 2.14 4.85 4.54 0.
  • 12 67.45 0.53 13.67 0.37 3.59 0.05 0.95 2.62 4.85 4.63 0.
  • 13 66.31 0.69 14.23 0.13 3.39 0.07 1.29 3.02 4.85 4.48 0.
  • 14 65.78 0.67 14.21 0.19 3.49 0.06 1.36 2.87 4.85 5.06 0.
  • 15 65.84 0.67 12.89 0.75 3.53 0.06 1.43 3.11 4.85 4.81 0.
  • 16 64.43 0.73 13.97 0.18 4.22 0.07 1.32 3.02 4.85 4.88 0.
  • 17 69.57 0.40 13.18 0.30 2.67 0.07 1.09 1.71 5.12 4.91 0.
  • 18 72.33 0.49 14.06 0.62 0.99 0.01 0.18 0.22 4.72 5.22 0.
  • 19 70.73 0.50 12.77 0.33 2.49 0.09 0.90 1.80 4.45 4.74 0.
  • 20 64.17 0.87 13.81 0.98 4.11 0.07 1.48 3.26 4.58 4.85 0.
  • 21 64.57 0.77 13.92 1.33 3.35 0.09 1.46 3.04 4.85 4.51 0.
  • 22 69.75 0.37 12.83 1.69 2.98 0.04 0.66 1.39 4.58 4.68 0.
  • 23 65.10 0.67 14.30 0.88 3.71 0.08 1.35 2.83 4.31 4.85 0.
  • 25 65.29 0.66 14.18 1.09 3.61 0.07 1.11 3.07 4.31 4.85 0.
  • 26 66.84 0.66 13.40 0.62 3.36 0.07 1.33 2.67 4.58 4.64 0.
  • 27 66.93 0.78 13.51 0.47 5.45 0.09 1.47 2.71 1.35 5.13 0.
  • 28 67.33 0.61 13.14 1.15 2.88 0.07 1.39 2.47 4.58 4.87 0.
  • 29 64.93 0.85 14.20 1.91 3.72 0.06 0.85 2.47 4.31 4.85 0.
  • 30 66.23 0.62 13.57 1.08 3.49 0.05 1.17 2.86 4.31 4.84 0.
  • 32 68.33 0.44 12.98 0.77 2.78 0.06 0.95 2.34 4.31 4.77 0.
  • 33 72.15 0.24 11.96 0.96 1.81 0.08 0.52 5.20 3.24 2.71 0.
  • 34 66.79 0.60 13.73 1.14 2.63 0.06 1.32 2.72 4.31 5.22 0.
  • 35 65.78 0.57 14.45 1.91 2.82 0.06 0.91 2.58 4.30 5.10 0.
  • 36 66.08 0.59 14.15 1.61 3.14 0.06 1.12 2.92 4.31 4.46 0.
  • 37 64.50 0.79 13.80 1.08 4.03 0.07 1.39 3.17 4.58 4.96 0.
  • 38 65.87 0.71 13.50 2.01 2.73 0.09 1.49 3.26 4.36 4.39 0.
  • 39 63.72 0.74 13.91 1.97 3.48 0.08 1.50 3.22 4.30 4.89 0.
  • 40 75.37 0.09 12.13 0.18 2.16 0.01 0.09 0.54 4.04 4.62 0.
  • 41 67.66 0.63 13.07 0.68 3.62 0.05 1.27 2.56 4.58 4.41 0.
  • 42 65.72 0.63 13.71 1.23 3.35 0.05 1.01 3.09 4.85 4.64 0.
  • 52 67.43 0.54 13.54 1.44 2.11 0.06 1.15 2.68 5.12 4.48 0.

EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS Tendo sido visto o caso de uma única amostra multidimensional comparada com um específico vetor de médias populacionais, uma outra situação seria a comparação entre duas médias populacionais multidimensionais. Presume-se que as duas amostras tenham sido retiradas de populações multi-normais, possuindo ambas a mesma matriz desconhecida de variâncias-covariâncias [ σ^2 ]. Deseja-se, portanto, testar a hipótese nula Ho : (^) [ μ (^) 1 ] =[ μ 2 ] Contra a alternativa H 1 : (^) [ μ 1 (^) ] ≠[ μ 2 ] Para o caso unidimensional usa-se o teste "t" para duas amostras:

t x^ x
sp n n

1 2

onde sp é a estimativa dos desvios padrões combinados de duas populações, baseada em ambas as amostras

Sp n^ s^ n^ s
n n

2 1 12 2 22 1 2

= −^ +^ −

No caso multidimensional, inicialmente computa-se para o cálculo da estimativa combinada [ Sp^2 ],

a matriz de variâncias e covariâncias de duas amostras multidimensionais, utilizando a soma de quadrados e produtos cruzados das m variáveis de ambas as amostras.

[ Sp^^2 ] n n (^ [^ S^ ]^ [^ S ])

1 2 1 2

S
SQX SPX X SPX X
SPX X SQX SPX X
SPX X SPX X SQX

m m

m m m

1

1 1 1 1 1 2 22 1

1 2 2

L
L
M
L

onde

SQX
x
x
n
n

i

n i

i

n a i

a

12

1 1

2 1 1 1

2

^

=

EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS

SPX X
x x
x x
n
n

i

n i i

i

n i (^) i

n a i

a a

1 2

1 1 2

1 1 1 2 1

=

(. ) −^ −

Em seguida encontra-se a diferença entre os dois vetores de médias (^) [ x (^) 1 ] − (^) [ x (^) 2 ] = (^) [ x 1 (^) − x 2 ]. O teste T² para o presente caso terá a forma

[ ] [ ] [ 1 2 ]

2 1 1 2 1 2

2 1.^2 x x '. Sp x x

n n

n n

T − −

A significância de T² será determinada por

F n^ n^ m
n n m
= +^ −^ − T

1 2 1 2

, com m e ( n (^) 1 + n (^) 2 − m − 1 )graus de liberdade.

Aceita-se Ho : μ 1 = μ 2 se

(;m;n n m 1) 2

T ≤ Fα 1 + 2 − −

  • Exemplo : O teste T^2 também pode ser aplicado quando se dispõe de duas amostras casuais independentes, retiradas, por suposição, de populações normais multivariadas e tendo ambas a mesma matriz desconhecida de variâncias e covariâncias e se deseja testar a igualdade entre seus vetores de média.

Ho : [ μ 1 ]= [ μ 2 ]

contra

H 1 : [ μ 1 ]≠ [ μ 2 ] Para este exemplo foram utilizadas as mesmas duas amostras provenientes do estudo geoquímico do maciço de Itaoca: a primeira, constituída por 13 análises químicas e a segunda, por 19 análises químicas. Em ambas as variáveis são as mesmas, ou seja porcentagens de 11 óxidos.

F

n n m

= n n m T

+ − =^

1 2 1 2

( ) ( 13 10 2 12 ) 1117389.^58973.

F tabelado, para um nível de significância de 0.05% e graus de liberdade 12(m) e 19

( n 1 n (^) 2 − m − 1 ), é igual a 2.27. Desse modo como F calculado é maior que F tabelado rejeita-se a hipótese

nula de que os dois vetores de médias das duas amostras consideradas sejam iguais. Isso já era esperado tendo em vista os resultados do exemplo 3.1.1. onde a primeira amostra revelou ter características de uma rocha adamellitica e a segunda não.

2.2. Análise generalizada de variâncias

EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS

χ^2 = MC −^1

Este valor aproximado de χ² tem graus de liberdade = ( 1 / 2 )( k - 1 )m( m + 1 ).

Se todos os grupos possuem o mesmo número de observações n, a transformação é simplificada para

( ) (^ )

C ( ) ( )

m m k

m k n

− = − +^ −^ +

1 2

O valor χ² deve ser usado apenas quando k e m não excedem 5 e cada matriz estimada de covariâncias é baseada em pelo menos 20 observações.

  • Exemplo : Para a aplicação do teste anterior, uma das suposições era a de que as amostras tivessem sido retiradas de populações com a mesma matriz de variâncias e covariâncias. Tal igualdade de matrizes de variâncias e covariâncias pode ser verificadas pela aplicação do teste das variâncias generalizadas, que é o teste multivariado equivalente ao teste F. Usando as mesmas amostras do teste anterior o resultado passa a ser: Teste M = 180,874847 ; Transformação C-1 = 0, Critério de Anderson corrigido: 101,812957% Como esta estatística tem distribuição próxima a do chi-quadrado (χ^2 ), com 78 graus de liberdade, comparou-se o valor calculado com valores críticos de uma tabela de χ². Para altos valores de graus de liberdade a seguinte fórmula aproximada para o cálculo de χ² pode ser usada

χ α^2^ ( 92 αν 92 )

= n 1 − + z^3

n n

χ (^2 0 01^ , ) = 78 1( − 9 *^2 78 + 2 326. ( ν 2 / 9 * 78 ) 3 )=109 92 ,

( ) 109 ,^97

2

Como o valor crítico, para um nível de significância 0,01, é maior que o calculado, aceita-se a hipótese nula, ou seja, ambas as amostras provém de populações com a mesma matriz de variâncias e covariâncias.

EXTENSÕES MULTIVARIADAS DE TESTES UNIVARIADOS

BIBLIOGRAFIA

GOMES, C.B; BERENHOLC, M.; HYPÓLITO, R. & ARRUDA, J.R. (1975) - Geoquímica de maciços graníticos da Região do Ribeira, Parte 1: elementos principais : An. Acad. Bra.s Ciênc., 47 :113-130.

JACKSON, J.E. (1959) - Some multivariate statistical tecniques used in color matching data : Jour. Opt. Soc. America, 49 :485-592.

LANDIM, P.M.B.; GOMES, C.B.; ARRUDA, J.R. & FULFARO, V.J. (1979) - Análise de agrupamentos (cluster analysis) aplicada ao estudo geoquímico do granito Itaóca, região da Ribeira : An. XXVIII Congr. Bras. Geologia, 7 :161-

MORRISON, D.F. (1967) - Multivariate statistical methods: McGraw-Hill.

NOCKOLDS, S.R. (1954) - Average chemical compositon of some igneous rocks : Geol. Soc. Am. Bull., 65 :1007-

REGRESSÃO MÚLTIPLA

A equação que representa a relação linear entre uma variável dependente (yi) e uma única variável independente (xi) é:

Y i = a o + a x 1 i

As equações normais que fornecem os valores de ao e a 1 são: 2

∑ Y 1 = ao n + a 1 ∑ x 1 (1)

∑ X i Yi = ao ∑ Xi + a 1 ∑ x 12 (2)

As equações ( 1 ) e ( 2 ) constituem um par de equações normais a duas incógnitas, as quais podem ser resolvidas para a obtenção dos coeficientes, por cálculo matricial, segundo:

XA Y

X A Y

[ ][ ]= [ ]

Multiplicando ambos os termos da equação pelo inverso de [X], isto é, [ X ]−^1 :

[ X ] −^1. [ X ]. [ A ] =[ X ]−^1 Y
Como [ X ] −^1. [ X ] =[ I ](matriz de identidade)
e [ I ]. [ A ] =[ A ]
[ A ]. [ X ] −^1 =[ Y ]

Por extensão, a análise de regressão múltipla linear de quaisquer m variáveis independentes sobre uma variável dependente, sendo expressa por:

Y i = a o + a X 1 1 i + a 2 X 2 i + L+ a m Xmi ,

pode ser resolvida segundo:

n x x
x x x x
x x x x x
x x x x
a
a
a
a
y
x y
x y
x y
X A Y

i mi i i i mi m

mi mi mi

o

m

i i i i i

mi i

1 1 12 1 2 2 1 2

1 2

1 2

1 2

L
L
L
M
L
[ ] [ ] [ ]

e, portanto,

[ A ] = [ X ] −^1 [ Y] ,

onde [A] é o vetor-coluna de incógnitas a ser determinado.

Uma das mais importantes aplicações da análise de regressão múltipla é a escolha, entre diversas variáveis independentes, daquelas mais úteis na previsão de Y e, para tanto, o método “passo a passo” ( stepwise multiple regression) é o mais recomendado. A variância total de Y é em parte "explicada" pelas diversas variáveis X's e o restante pela

variabilidade devido ao erro ( ε 1 ). É claro que o termo "explicada" tem apenas um significado numérico

REGRESSÃO MÚLTIPLA

não implicando necessariamente em um conhecimento causa-efeito sobre o porquê da relação existente. Os tamanhos relativos dessas duas componentes de variância são obviamente de grande interesse quando da aplicação da análise de regressão múltipla. A proporção da variância dos Y observados "explicada" por uma equação de regressão ajustada é representada pelo coeficiente de determinação R².

R^2 variância de Y explicada pela analise de regressao)
(variancia total)
sy *^2
sy^2
=^ (^ &^ =

Valores de R^2 irão dispor-se no intervalo [0-1], fornecendo uma medida dimensional de quantidade do ajuste do modelo de regressão múltipla aos dados. Se o valor de R² for próximo de 1 isso significa que as diversas variáveis X's medidas são responsáveis quase que totalmente pela variabilidade de Y. Caso contrário, R² apresentará um valor próximo a zero. Como os coeficientes de regressão são parciais devem ser obtidas as porcentagens explicadas da soma de quadrados de Y

segundo 2^ k^ − 1 combinações, onde k é o número de variáveis independentes. Finalmente verifica-se

a contribuição pura de cada variável independente por comparações sucessivas entre os diversos resultados. Outra maneira para a ordenação das variáveis pela sua importância na previsão da variável dependente é a padronização dos coeficientes de regressão parciais, convertendo-os em unidades de desvio padrão, ( Bk ) ( Li , 1964, p. 136):

B b S

k kS

k Y

= , onde bk = coeficiente de regressão parcial;

Sk= desvio padrão de Xk ; Sy= desvio padrão de Y. Pela comparação direta dos Bk determinam-se as variáveis mais eficientes. Embora a regressão múltipla seja multivariada no sentido de que mais de uma variável é medida simultaneamente em cada observação, trata-se na realidade de uma técnica univariada, pois o estudo é apenas em relação à variação da variável dependente Y, sem que o comportamento das variáveis independentes, Xs, seja objeto de análise. Finalmente, alguns cuidados que se deve tomar quando da utilização da análise de regressão: a) as relações entre as variáveis devem ser lineares; b) evitar um número inferior de casos em relação ao número de variáveis consideradas, sendo recomendado que tal relação seja da ordem de 10 a 20 vezes superior; c) evitar variáveis independentes redundantes, isto é, que tenham um alto coeficiente de correlação entre si; d) verificar, utilizando resíduos, a presença de valores anômalos

  • Exemplo: