Tópicos de Matrizes e Distribuição Normal Multivariada, Notas de estudo de Cultura
thiago-bentz-8
thiago-bentz-8

Tópicos de Matrizes e Distribuição Normal Multivariada, Notas de estudo de Cultura

23 páginas
50Números de download
1000+Número de visitas
Descrição
Tópicos de teoremas, definições e demonstrações sobre matrizes e distribuição normal multivariada.
50 pontos
Pontos de download necessários para baixar
este documento
Baixar o documento
Pré-visualização3 páginas / 23
Esta é apenas uma pré-visualização
3 mostrados em 23 páginas
Esta é apenas uma pré-visualização
3 mostrados em 23 páginas
Esta é apenas uma pré-visualização
3 mostrados em 23 páginas
Esta é apenas uma pré-visualização
3 mostrados em 23 páginas

Tópicos de matrizes e Distribuição Normal Multivariada

CAPÍTULO 1

Alguns resultados importantes

1.1 definições

In : matriz Identidade de dimensão (n× n) Jn : 11

t

1.1.1 Traço

Sejam Ap×p, Bp×p, Cp×p, Dp×p, xp×p e α :escalar.

Propriedades

1. Tr(α) = α

2. Tr(A + B) = Tr(A) + Tr(B)

3. Tr(αA) = αTr(A)

4. Tr(CD) = Tr(DC) = ∑

i,j cijdji

5. ∑

i x t iAxi = tr(AT ) onde T =

i xix

t i

6. tr(B−1AB) = tr(A)

1.1.2 Determinantes

A(p×p), C (constante)

1. Se A é diagonal ou triangular |A| = ∏pi=1 aii 2. |CA| = Cp |A| 3. |AB| = |A| |B| 4. |A| = |At| 5. Se cada elemento de uma linha (coluna) de A é zero, |A| = 0 6. Se quaisquer duas linhas (colunas) de A é zero, |A| = 0 7. Se quaisquer duas linhas (colunas) de A são id6enticas, |A| = 0 8. Se A é não-singular, |A| = 1/ |A−1| ou seja, |A| |A−1| = 1

9. Se A =

( A11 A12 A21 A22

) onde A11e A22 são matrizes quadradas, |A| = |A11|

∣∣∣A22 − A21A−111 A12 ∣∣∣ =

|A22| ∣∣∣A11 − A12A−122 A21

∣∣∣

DEFINIÇÕES 3

10. Sejam B(p×n), C(n×p) e A(p×p) não-singular. Temos |A + BC| = |A−1| |Ip + A−1BC| = |A−1| |In + CA−1B|

11. Sejam b(1), A(p×p) não-singular ,|A + bbt| = |A| |1 + btA−1b| 12. Se B(p×n) e C(n×p) então |Ip + BC| = |In + CB|

1.1.3 Inversa

Propriedades

1. (AB)1 = B−1A−1

2. A única solução de Ax = b x = A−1b

3. Sejam A(p×p), B(p×n), C(n×n) e D(n×p). Se todas as inversas necessárias existem, então (A + BCD)1 = A−1 − A−1B(C−1 + DA−1B)1DA−1 caso particular A(p×p), b(1) e c(1) , se A−1existe (A+ bct)1 = A−1− A−1bctA−11+ctA−1b

4. Se todas as matrizes inversas necessárias existem , então a matriz particionada A−1 é dada por :

A =

( A11 A12 A21 A22

) A−1 =

( A11 A12

A21 A22

)

A11 = (A11 − A12A−122 A21)1 A12 = −A11A12A−122 = −A−111 A12A22 A21 = −A22A21A−111 = −A−122 A21A11 A22 = (A22 − A21A−111 A12)1

1.1.4 Produto de Kronecker

Definição Sejam A = (aij) e B = (abij) matrizes de dimensão (m× n) e (p× q), respectivamente. O produto de Kronecker , indicado por A

B = (aijB) =

 a11B a12B . . . a1nB

... ...

... ...

am1B am1B . . . amnB

 

Def: Vec(A) Seja A uma matriz de dimensão (m×n) e a(i)a i-ésima coluna de A. V ec(A) é um vetor de dimensão (mn× 1) definido por :

V ec(A) =

 

a(1) a(2) ...

a(n)

 

Propriedades A,B,C,D : matrizes, x, y : vetores, α :escalar

1. α(A

B) = (αA) ⊗

B = A

(αB)

2. A

(B

C) = (A

B) ⊗

C = A

B

C

DEFINIÇÕES 4

3. (A

B)t = At

Bt

4. (A

B)(C

D) = (AC) ⊗

(BD)

5. (A

B)1 = (A−1 ⊗

B−1)

6. (A + B) ⊗

C = (A

C) + (B

C)

7. A

(B + C) = (A

B) + (A

C)

8. A(p×p), B(q×q), |A B| = |A|q |B|p 9. V ec(ABC) = (Ct

A)V ec(B), se ABCexiste

10. x

y = vec(yxt)

11. x

yt = xyt = yt

x

12. (V ec(A))tvec(B) = tr(AtB)

13. (V ec(A))t(B

C)V ec(D) = tr(AtCDBt)

1.1.5 Matrizes especiais

1. Matrizes ortogonais

Se A uma matriz quadrada, A é ortogonal se AAt = I

Propriedades

(a) A−1 = At

(b) AtA = I

(c) |A| = ±1 (d) at(i)a(j) = 0 se i 6= j

at(i)a(j) = 1 se i = j

(e) Se A e B são ortogonais C = AB é ortogonal.

2. Matriz de equicorrelação

E = (1− ρ)+ ρJp,

E =

 

1 ρ . . . ρ ρ 1 . . . ρ ...

... . . .

... ρ ρ . . . 1

 

, ρ : número real

E−1 = (1− ρ)1[(Iρ − ρ{1 + (p− 1)ρ}−1Jp |E| = (1− ρ)p−1{1 + ρ(p− 1)} De uma forma mais geral,

A =

 

c + b c . . . c c c + b . . . c ...

... ...

... c c . . . c + b

 

, A = cJn + bIn

DEFINIÇÕES 5

A−1 = 1 b In − c(nc+b)bJn

3. Matriz Idempotente

A é idempotente de A2 = A

4. Matriz Positiva definida e positiva semi-definida

A é positiva definida se xtAx > 0,∀x 6= 0 A é positiva semi-definida se xtAx ≥ 0,∀x 6= 0

1.1.6 Posto de uma matriz

O posto de uma matriz A(n×p) é definida como o número máximo linhas (colunas) linearmente independentes de A; ou é a ordem da maior submatriz quadrada de A com determinante não-nulo. Posto(A) : r(A)

Propriedades Seja uma matriz A(n×p) 1. 0 ≤ r(A) min(n, p) 2. r(A) = r(At)

3. r(A + B) ≤ r(A) + r(B) 4. r(AB) min{r(A), r(B)} 5. r(AtA) = r(AAt) = r(A)

6. Se B(n×n) e C(p×p) são não-singular, então r(BAC) = r(A)

7. Se n = p então r(A) = p se, e somente se, A é não singular.

Posto de alguns matrizes

1. A = diag(ai), r(A) =números de a ′ is 6= 0

2. r(H) = n− 1 3. A idempotente, r(A) = tr(A)

1.1.7 Autovalores e autovetores

Definição

Autovalores. Seja A uma matriz de dimensão (p × p)1, . . . λp que satisfazem a equação |A− λIp| = 0 são denominados autovalores da matriz A.Os autovalores podem ser complexos ou múltiplos.

Autovetores. Para todo autovalor λi existe um vetor γ 6= 0 tal que Aγ = λiγ onde γ é denominado autovetor de A associado ao autovalor λi.

Em geral vamos usar os autovetores normalizados ou seja γtγ = 1

A =

( 1 2 2 4

) λ1 = 0; λ2 = 5

γ1 =

( 2/√5 1/ √

5

) e γ2 =

( 1/ √

5

2/ √

5

)

DECOMPOSIÇÃO ESPECTRAL 6

Propriedades

1. Seja C(p×p) uma matriz não-singular A e CAC−1 tem os mesmos autovalores. Se γ é um autovetor de A para λi então ν = é um autovetor de CAC

1 para λi.

Prova. CAC−1 − λI = CAC−1 − λCC−1CC−1 = C(A− λI)C−1 |CAC−1 − λI| = |C| |A− λI| |C−1| = |A− λI| Aγ = λiγ CAγ = λiCγ CAC−1= λiCγ CAC−1ν = λiν

1. Seja α escalar. Então A + αI tem autovalores λi + α. Além disso, A e A + αI tem os mesmos autovetores.

2. Se A(p×p) é simétrica então todos os autovalores são reais.

1.2 Decomposição Espectral

Qualquer matriz simétrica A(p×p) pode ser escrita como A = ΓΛΓt = ∑p

i=1 λiγ(i)γ t (i)

onde Λ é a matriz diagonal dos autovalores de A e Γ é uma matriz ortogonal cujas colunas são os autovetores normalizados de A.

1.2.1 Propriedade

1. Se A(p×p) é uma matriz simétrica não-singular então para qualquer inteiro n, Λn = diag(λni ) e A

n = ΓΛnΓt.

2. Se todos os autovalores de A são positivos, Ar/s = ΓΛr/sΓt onde Λr/s = diag(λ r/s i ),

para inteiros s > 0 e r.

obs: Se alguns dos autovalores de A são iguais a zero, entõ os resultados anteriores são válidos se os expoentes forem não-negativos.

Prova. por indução

Casos Especiais A2 = ΓΛ2Γt ; A−1 = ΓΛt ; A−1/2 = ΓΛ1/t.

Propriedades de A−1/2

1. (A−1/2)t = A−1/2

2. A1/2A1/2 = A

3. A1/2A−1/2 = A−1/2A1/2 = I

4. A−1/2A−1/2 = A−1

5. Seja A simétrica então o posto de A é igual ao número de autovalores não nulo de A

FORMAS QUADRÁTICAS 7

Prova. A = ΓΛΓt

r(A) = r(ΓΛΓt) = r(Λ)

1. Se A(p×p) é simétrica , então :

2. tr(A) = ∑p

i=1 λi

3. det(A) = Πpi=1λi

4. Uma matriz simétrica A tem posto 1 se, e somente se, A = xxt para algum x. Então, o único autovalor de A não-nulo é dado por tr(A) = tr(xxt) = xxt.

5. Seja J = 11t. Temos que r(J) = 1 e que o único autovalor não-nulo de J é 1t1 = p e o autovetor correspondente é 1p.

Seja E = (1 − p)I + ρJ, os autovalores de E são λ1 = 1 + (p − 1)ρ, λ2 = . . . = λp = 1− ρ e seu autovetores de E são os mesmos de J

6. Se A, é simétrica e idempotente então λi = 0 ou 1,∀i.

1.3 Formas Quadráticas

Definição Uma forma quadrática no vetor x é uma função da forma : Q(x) = xtAx =

i

j xiaijxi onde A é um matriz simétrica.

Propriedades

1. Q(0) = 0

2. Q(x) é positiva definida se Q(x) > 0, ∀x 6= 0 3. A simétrica é p.d. (p.s.d) se Q(x) é p.d. (p.s.d.)

Para qualquer matriz simétrica A, existe um transformação ortogonal y = Γtx tal que xtAx =

i λiy

2 i .

Prova. Sabemos que A = ΓΛΓt , seja y = Γtx. Logo

Γ y = ΓΓtx ⇒ xt = ytΓt. xtAx = ytΓtAΓ y = ytΓtΓΛΓtΓy = ytΛy =

i λiy

2 i .

4. Se A > 0 então λi > 0,∀i 5. Se A ≥ 0 então λi ≥ 0,∀i 6. Se A > 0 então A é não-singular e |A| > 0 7. Se A > 0 então A−1 > 0

Prova. A−1 = ΓΛt

y = Γtx tal que xtA−1x = ∑

i 1 λi

y2i .

INVERSA GENERALIZADA 8

xtA−1x = ytΓtA−y = ytΓtΓΛtΓy = ytΛ1y = ∑

i 1 λi

y2i . > 0, pois λi > 0, y 6= 0.

8. Qualquer matriz A ≥ 0 pode ser escrita como A = B2 onde B é uma matriz simétrica.

Prova. Sabemos que A = ΓΛΓt, seja B = ΓΛ1/t então B2 = ΓΛ1/tΓΛ1/t = ΓΛΓt = A

9. Se A ≥ 0, A(p×p) então para qualquer matriz C de ordem (p×n) temos CtAC ≥ 0 10. Se A > 0 e C não-singular (p = n) então CtAC > 0

11. Se A ≥ 0 e B > 0 matrizes de ordem (p×p) então todas as ráızes caracteŕısticas não-nulas de B−1A são positivas.

Interpretação Geométrica Seja A uma matriz positiva definida. Então (x−α)tA−1(x− α) = C2 representa um elipsóide em dimensão p. O centro do elipsóıde é x = α.

1.4 Inversa Generalizada

Definição : Seja a matriz A(n×p). A− é a g-inversa ou inversa generalizada de A se AA−A = A. A g-inversa sempre existe, embora possa não ser única

1. Se r(A) = r e A(n×p) então as linhas e colunas podem ser rearranjadas de modo que A11(r × r) seja não-singular . Logo uma g-inversa é dada por A− =

( A−111 0 0 0

)

2. Se A(p×p) é não-singular então A− = A−1 e é única

Teorema Seja G uma g-inversa de X tX

1. Gt é uma g-inversa de X tX

2. GX t é uma g-inversa de X

3. XGX t não varia com G

4. XGX t é simétrica mesmo que G não o seja.

1.5 Diferenciação de Vetores e Matrizes

1. Seja a um vetor de constantes

atx = xta = λ; λ = a1x1 + a2x2 + . . . + apxp

∂λ ∂x

=

 

a1 ... ap

 

DIFERENCIAÇÃO DE VETORES E MATRIZES 9

2. x =

 

x1 ...

xp

  e A =

 

a11 . . . a1p ...

... ...

ap1 . . . app

 

xtA = (

λ1 λ2 . . . λp )

onde λi = ∑p

j=1 xjaji

∂xtA ∂x

=

 

∂λ1 ∂x1

. . . ∂λp ∂x1

... ...

... ∂λ1 ∂xp

. . . ∂λp ∂xp

  = A

3. Formas Quadráticas

Q(x) = xtAx, A simétrica

xtAx = a11x 2 1 + . . . + appx

2 p + 2a12x1x2 + . . . + 2a(p−1)pxp−1xp

∂xtAx ∂x

=

 

∂xtAx ∂x1 ...

∂xtAx ∂xp

  =

 

2a11x1 + 2a12x2 + . . . + 2a1pxp ...

2ap1x1 + 2ap2x2 + . . . + 2appxp

  = 2AX

1.5.1 Resultados

1. ∂A = 0

2. (αU) = αU

3. (U ± V ) = ∂U ± ∂V 4. (UV ) = (∂U)V + U(∂V )

5. ∂U t = (∂U)t

6. ∂vec(U) = vec(∂U)

7. ∂tr(U) = tr(∂U)

8. ∂A−1 = −A−1∂AA−1 9. (BtX) = B

10. (X tAy) = Ay

11. (X tX) = 2X

12. (X tAX) = 2AX se X é simétrica

13. (Y tAX) = Y Bt

14. (Y tXY ) = Y Y t

A é simétrica e a um vetor

1. (atXAX ta) = 2aatXA

2. (atXAY ta) = aatY A

3. (tr(Y X)) = Y t

4. (tr(Y XB)) = Y tBt

CAPÍTULO 2

Vetores Aleatórios

Um vetor aleatório é um vetor cujos elementos são variáveis aleatórias. Similarmen- te, uma matriz aleatória é uma matriz cujos elementos são variáveis aleatórias. Os vetores aleatórios são também chamados de variáveis aleatórias multidimensionais. O Valor esperado de uma matriz aleatória é uma matriz consistindo dos valores esperados de cada um de seus elementos. Seja X uma matriz aleatória p × n, X = (Xij), se existem os valores esperados E(Xij),

Se (a matriz de valores esperados)X e Y têm mesma dimensão p × n e são matrizes aleatórias e A e B são adequadas matrizes constantes,

E(X + Y ) = E(X) + E(Y )

E(AXB) = AE(X)B

2.1 Vetor de médias e Matriz de covariâncias

Seja X, 1 e E(Xi) = µi, i = 1, . . . , p, Cov(Xi, Xj) = σij, i, j = 1, 2, . . . , p, então

denotamos E(X) por µ =

 

µ1 µ2 ...

µp

 

e Cov(X) por Σ =

 

σ11 σ12 . . . σ1p σ21 σ22 . . . σ21 ...

... ...

... σp1 σp2 . . . σpp

 

.

Se Xi e Xj são independentes então Cov(Xi,Xj) = 0. Há situações em que Cov(Xi, Xj) = 0 mas Xi e Xj não são independentes.

Por definição E(X) = E

 

X1 X2 ...

Xp

 

=

 

E(X1) E(X2)

... E(Xp)

 

=

 

µ1 µ2 ...

µp

 

= µ e Cov(X) =

E(X − µ)(X − µ)t = E

 

X1 − µ1 X2 − µ2

... Xp − µp

 

(X1 − µ1) (X2 − µ2) . . . (Xp − µp) =

=E

 

(X1 − µ1)(X1 − µ1) (X1 − µ1)(X2 − µ2) . . . (X1 − µ1)(Xp − µp) (X2 − µ2)(X1 − µ1) (X2 − µ2)(X2 − µ2) . . . (X2 − µ2)(Xp − µp)

... ...

... ...

(Xp − µp)(X1 − µ1) (Xp − µp)(X2 − µ2) . . . (Xp − µp)(Xp − µp)

 

=

VETOR DE MÉDIAS E MATRIZ DE COVARIÂNCIAS 11

=E

 

(X1 − µ1)2 (X1 − µ1)(X2 − µ2) . . . (X1 − µ1)(Xp − µp) (X2 − µ2)(X1 − µ1) (X2 − µ2)2 . . . (X2 − µ2)(Xp − µp)

... ...

... ...

(Xp − µp)(X1 − µ1) (Xp − µp)(X2 − µ2) . . . (Xp − µp)2

 

=

 

σ11 σ11 . . . σ11 σ11 . . . σ11 ...

... ...

... σ11 σ11 . . . σ11

 

onde σii = σ 2 i , σij = σji.

2.1.1 Matriz de Correlação

Uma medida de correlação linear entre Xi e Xj é dada pelo coeficiente de correlação linear simples ρij =

σij√ σiiσjj

. O coeficiente de correlação é obtido da matriz de

covariância-variância Σ. A Matriz de correlação ρ =

 

1 ρ12 . . . ρ1p ... 1

. . . ...

ρp1 ρp2 . . . 1

 pode

ser obtida por ρ = [ (V 1/2)1Σ(V 1/2)1

] onde

V 1/2 =

 

√ σ11 0 . . . 0 0

√ σ22 . . . 0

... ...

. . . ...

0 0 . . . √

σpp

 

e

V −1/2 =

 

σ −1/2 11 0 . . . 0

0 σ −1/2 22 . . . 0

... ...

. . . ...

0 0 . . . σ−1/2pp

 

.

Outra relação importante é Σ = V 1/2ρV 1/2.Assim Σ pode ser obtida de Σ pode ser obtida de ρ e V 1/2 enquanto ρ pode ser obtida de Σ.

Matriz de covariância Particionada

Frequentemente as caracteŕısticas observadas num experimento podem ser clas- sificadas em dois grupos. Por exemplo, em observando-se estudantes as variáveis sócio-econômicas podem formar um grupo, enquanto o desempenho acadêmico é composto por outro grupo de variáveis. Em geral, particionando o vetor X em dois grupos de variáveis, digamos, X(1), (q × 1) e X(2), (p− q)× 1, obtém-se

E(X) = E

 

X(1)

. . . X(2)

  =

 

E(X(1)) . . .

E(X(2))

  =

 

µ(1)

. . . µ(2)

 

VETOR DE MÉDIAS E MATRIZ DE COVARIÂNCIAS 12

Cov(X) = Cov

 

X(1)

. . . X(2)

  = E(X − µ)(X − µ)t

= E

 

X(1) − µ(1) . . .

X(2) − µ(2)

 

( (X(1) − µ(1))t...(X(2) − µ(2))t

)

=E

 

(X(1) − µ(1))(X(1) − µ(1))t ... (X(1) − µ(1))(X(2) − µ(2))t . . . . . . . . .

(X(2) − µ(2))(X(1) − µ(1))t ... (X(2) − µ(2))(X(2) − µ(2))t

  =

 

Σ11 ... Σ12

. . . . . . . . .

Σ21 ... Σ22

 

Σ12 = Σ t 12

LISTA DE EXERĆıCIOS 13

2.2 Lista de exerćıcios

1. Seja a variável aleatória bidimensional X, 1, p = 2. X1 e X2 são v.a. discretas independentes com as seguintes funções de probabilidade,

(a)

x1 1 0 1 p(xi) 0, 3 0, 3 0, 4

x2 0 1

p(xi) 0, 8 0, 2

Calcule :

(b) E(X), Cov(X)

(c) E(AX), Cov(AX) para A =

( 1 1 1 1

)

(d) ρx

Comente

1. Verifique que para o vetor aleatório X = (X1, . . . , Xp) t

(a) Cov(Xi + a,Xj + b) = Cov(Xi, Xj), a e b constantes

(b) Cov(aXi, bXj) = abCov(Xi, Xj), a e b constantes

(c) Para combinações lineares das variáveis componentes de X, atX e btX, Cov(atX, btX) = at

b, forma bilinear.

2. Se A e B são matrizes constantes (r × p) e (s× p), respectivamente e Y = AX, Z = BX são duas transformações da variável aleatória X então :

Cov(Y, Y ) = AΣAt, Cov(Z,Z) = BΣBt, Cov(Y, Z) = AΣBt

3. Dado E(X) = µ, V ar(X) = Σ , Cov(Xi, Xj) = 0, ∀i 6= j Calcule |Σ|, (X − µ)tΣ1(X − µ) Verifique que ρ = (V (1/2))1Σ(V (1/2))1 com V (1/2) = diag(

√ σii), i = 1, . . . , p

4. Seja X tal que Σ =

 

25 2 4 2 4 1 4 1 9

 

(a) Calcule ρ , V (1/2) e Σ1. (b) Encontre os valores e vetores próprios de Σ

(c) Verifique que Σ = V (1/2)ρV (1/2)

(d) Encontre a correlação entre X1 e X2+X3

2 .

CAPÍTULO 3

Distribuição Normal Multivariada

A generalização da familiar densidade normal para várias dimensões tem um funda- mental papel na análise multivariada. Enquanto dados reais nunca são exatamente normal multivariados, a densidade normal é frequentemente uma útil aproximação para a veradadeira distribuição da população.

Uma vantagem da distribuição normal multivariada é que ela é matamaticamente atrativa, dela obtendo-se excelentes resultados. Mas estat́ısticamente, duas outras razões são as que indicam o uso da distribuição normal.

Primeira, distribuições amostrais de muitos estat́ısticos multivariados são aprox- imadamente normais, devido ao efeito do teorema do limite central. Em segundo lugar, a distribuição normal serve como modelo aproximado para certos fenômenos naturais.

3.1 Densidade e propriedades da distribuição normal multivariada

3.1.1 Definição 1

Sabemos que a distribuição normal univariada, com média µ e variância σ2, tem

função de densidade de probabilidade f(x) = 12πσ2

exp { 1

2

( x−µ

σ

)2} , −∞ < x <

∞. X ∼ N(µ, σ2) implica que P (µ − σ ≤ X ≤ µ + σ) = 0, 68 e P (µ − 2σ ≤ X ≤

µ + 2σ) = 0, 95. A densidade normal multivariada é a generalização da densidade normal univari-

ada para dimensões p ≥ 2. O termo (

x−µ σ

)2 = (x− µ)(σ2)1(x− µ) é generalizado

para (x − µ)tΣ1(x − µ) que é a distância quadrada generalizada (distância de Mahalanobis), quando Σ admite inversa. Em outro caso a densidade não é bem definida. Também o termo 1

2πσ2 = (2π)1/2(σ2)1/2 deve ser modificado para uma

constante mais geral para tornar o ‘ volume(no caso multivariado as probabil- idades são representadas por volumes sob a superf́ıcies na região definida) sob a superf́ıcie da função de densidade multivariada unitária para qualquer p. Essa constante será (2π)−p/2 |Σ|−1/2 .

Consequentemente, para Σ definida positiva, a função de densidade de uma variável X ∼ Np(µ, Σ) será

DENSIDADE E PROPRIEDADES DA DISTRIBUIÇÃO NORMAL MULTIVARIADA 15

f(x) = (2π)−p/2 |Σ|−1/2 exp { 1

2 (x− µ)tΣ1(x− µ)

} ,

−∞ < xi < ∞, i = 1, 2, . . . , p.

3.1.2 Definıção 2

Dizemos que X tem uma distribuição normal multivariada p−variada se e somente se atx tem distribuição normal univariada para todo a fixado.

Se X tem distribuição normal multivariada p−variada então cada um dos ele- mentos de X, ou seja, Xi , i = 1, . . . , p tem distribuição normal univariada.

Se todas as p(p − 1)/2 covariâncias são nulas, as p componentes de x são inde- pendentemente distribúıdas e

f(x) = f1(x1)f2(x2) . . . fp(xp), consequentemente,

F (x) = ∫ x1 −∞

· · · xp −∞

f(x)dx1 . . . dxp =

= ∫ x1 −∞

f(x1)dx1

x2 −∞

f(x2)dx2 · · · xp −∞

f(xp)dxp =

= F1(x1)F1(x1) . . . Fp(xp).

A densidade normal multivariada é constante nas superf́ıcies onde a distância (x− µ)tΣ1(x− µ) é constante. Esse corte é chamado de contorno.

O contorno de uma densidade de probabilidade constante é a superf́ıcie de um elipsóide centrado em µ e é igual ao conjunto de pontos {x : (x − µ)tΣ1(x − µ) = c2}. Esses elipsóides têm eixos ±c√λiei, onde (λiei) é um par de autovalor- autovetor da matriz Σ.

DENSIDADE E PROPRIEDADES DA DISTRIBUIÇÃO NORMAL MULTIVARIADA 16

As figuras a1 e a2 mostram as distribuições de duas binormais, na primeira X1 e X2 são independentes, na segunda X1 e X2 tem correlação de 0,75. As figuras b1 e b2 são contornos de 50% e 90% para duas N2(µ, Σ), X1 e X2 independentes ou correlacionadas. A figura b3 mostra contorno de densidade constante para uma normal bivariada com σ11 = σ22 e ρ12 > 0.

O elipsóide sólido dos x tais que (x− µ)tΣ1(x− µ) ≤ χ2p(α) tem probabilidade (1−α), para X ∼ Np(µ, Σ) e χ2p sendo o α−quantil superior da qui-quadrado com p graus de liberdade.

3.1.3 Propriedades da Distribuição normal multivariada

Seja X ∼ Np(µ, Σ) , então são verdades 1. Combinações lineares de componentes de X são distribúıdas normalmente :

X ∼ Np(µ, Σ) ⇒ atX ∼ N(atµ, atΣa)

2. Todo subconjunto de componentes de X tem distribuição normal multivariada.

X ∼ Np(µ, Σ), A(q×p) ⇒ AX ∼ Nq(Aµ,AΣAt)

3. Covariância zero implica que as correspondentes componentes são independen- temente distribúıdas.

X ∼ Np(µ, Σ) [cov(Xi, Xj) ⇐⇒ Xi independente Xj (a) Seja X ∼ Np(µ, Σ) e Y = Σ1/2(X−µ) onde Σ1/2 é a raiz quadrada simétrica

positiva definida de Σ1. Então Y1, Y2, . . . , Yp são independentes e Yi ∼ N(0, 1) para todo i.

(b) Se X ∼ Np(µ, Σ) então E(X) = µ, V ar(X) = Σ (c) Se X ∼ Np(µ, Σ) então U = (X − µ)tΣ1(X − µ) ∼ χ2p (d) Se X ∼ Np(µ, Σ) , A(q×p), C(1) e Y = AX + C ⇒ Y ∼ Nq(+ C,AΣAt)

Função caracteŕıstica

Seja X um vetor aleatório (1). A função caracteŕıstica de X é definida como :

φx(s) = E(e istx)

4. Seja X t = (X t1, X t 2). Os vetores aleatórios X1 e X2 são independentes se, e

somente se,

φx(s) = φX1(s1)φX2(s2) onde s t = (st1, s

t 2).

DENSIDADE E PROPRIEDADES DA DISTRIBUIÇÃO NORMAL MULTIVARIADA 17

5. Se X e Y são vetores aleatórios (1) independentes então φX+Y (s) = φX(s)+ φY (s)

6. Se X ∼ Np(µ, Σ) ⇐⇒ φX(s) = exp { istµ− 1

2 stΣs

}

7. Dois vetores conjuntamente multinormais são independentes se, e somente se são não correlacionados.

8. Se X ∼ Np(µ, Σ) então AX e BX são independentes se, e somente se AΣBt = 0. 9. Distribuições condicionais das componentes são multinormais :

X ∼ Np(µ, Σ) ⇒ X(1) | X(2) ∼ Nq(µ1|2, Σ1|2), onde µ1|2 = µ1 + Σ12Σ

1 22 (x2 − µ2),

Σ1|2 = Σ11 Σ12Σ122 Σ21.

10. X ∼ Np(µ, Σ), d um vetor de constantes (X + d) ∼ Np(µ + d, Σ). 11. Todos os subconjuntos de componentes de X são normalmente distribúıdas. Se

particionamos X, seu vetor de médias µ e matriz de covariância Σ. Seja X1 e X2 com dimensão q e p-q respectivamente, isto é

X =

 

X1 · · · X2

 , µ =

 

µ1 · · · µ2

 , Σ =

 

Σ11 ... Σ12

· · · · · · · · · Σ21

... Σ22

  então X1 ∼ Nq(µ1, Σ11) e

X2 ∼ Nq(µ2, Σ22) 12. X1 e X2 são independentes se e somente se Cov(X1 , X2) = Σ12 = 0.

13. Se X1 e X2 são independentes e X1 ∼ Nq1(µ1, Σ11) e X2 ∼ Nq2(µ2, Σ22) respec-

tivamente, então

 

X1 · · · X2

  ∼ Nq1+q2

 

 

µ1 · · · µ2

  , Σ =

 

Σ11 ... 0

· · · · · · · · · 0

... Σ22

 

  .

14. Se X ∼ Np(µ, Σ) e |Σ| > 0, então (x− µ)tΣ1(x− µ) ∼ χ2p 15. Se X ∼ Np(µ, Σ) e |Σ| > 0, então o elipsóide sólido { (x−µ)tΣ1(x−µ) ≤ χ2p(α)}

tem probabilidade (1−α), com χ2p(α) sendo o α−quantil superior da distribuição qui-quadrado com p graus de liberdade.

16. Se X1, X2, . . . , Xn são mutuamente independentes com Xj ∼ Np(µj, Σ), com mesma matriz de covariância Σ então V1 = c1X1+c2X2+. . .+cnXn ∼ Np(µV1 , ΣV1) com µV1 =

n j=1 cjµj e

V1 = (

n j=1 c

2 j. Além do mais V1 e V2 =

n j=1 bjXj

são conjuntamente normais multivariadas com matriz de covariâncias

( ( ∑n

j=1 c 2 jb

tcΣ btcΣ (

n j=1 b

2 j

)

DENSIDADE E PROPRIEDADES DA DISTRIBUIÇÃO NORMAL MULTIVARIADA 18

Consequentemente V1 e V2 são independentes se b tc =

n j=1 bjcj = 0,isto é , os

vetores b e c são perpendiculares. Considerando todos os posśıveis valores de x2, podemos escrever a variável µ1 +

Σ12Σ 1 22 (x2 − µ2) como predição da distribuição condicional de X1. A diferença

entre X1 e a predição da média da distribuição condicional de X1 é o vetor X1.2 é chamado de conjunto de variáveis residuais.

X1.2 = X1 − µ1 Σ12Σ122 (x2 − µ2)

Em populações multinormais as variáveis residuais e as fixadas são distribuidas independentemente.

LISTA 2 DE EXERĆıCIOS DE ANÁLISE MULTIVARIADA 19

3.2 Lista 2 de exerćıcios de Análise Multivariada

1. Considere uma população normal bivariada com µ1 = 0, µ2 = 2, σ11 = 2, σ22 = 1 e ρ12 = 0, 5.

(a) Escreva a densidade desta normal

(b) Apresente a expressão da distância quadrada generalizada (x−µ)tΣ1(x−µ) como uma função de x1 e x2.

(c) Determine o contorno de densidade constante que contém 50% de probabili- dade. Esboce o gráfico do contorno.

(d) Especifique a distribuição condicional de X1, dado X2 = x2 para a distribuição

2. Sejam X1 ∼ N(0, 1) e X2 = { −X1 , se − 1 ≤ X1 1 X1 , em outro caso.

(a) Mostre que X2 tem também distribuição normal

(b) Mostre que X1 e X2 não tem distribuição normal bivariada

3. Seja X ∼ N3(µ, Σ) com µ = (2,−3, 1)t e Σ =  

1 1 1 1 3 2 1 2 2

 

(a) Encontre a distribuição de 3X1 2X2 + X3 (b) Determine um vetor a(2×1), tal que X2 e

[ X2 − at

( X1 X3

)] são independentes.

(c) Determine a distribuição de X3 dado X1 = x1 e X2 = x2 (d) Verifique que na questão acima (X1, X2) é independente da variável residual.

CAPÍTULO 4

Amostras Aleatórias

4.1 Introdução

Uma observação multivariada é o conjunto de medidas de p diferentes variáveis na mesma unidade de análise. Tomando-se n observações, a massa de dados pode ser arranjada em uma matriz de dados X como

X(p×n) =

 

x11 x12 · · · x1p x11 x11 · · · x11 · · · · · · ... · · · xp1 xp2 · · · xpn

 

= (

x1, x2, . . . xn )

Cada coluna de X representa uma observação multivariada e a matriz X é uma amostra de tamanho n de uma população n de uma população p−variada. Cada coluna reoresenta um ponto num espaço p−dimensional, fornecendo informação sobre sua locação e variabilidade além de associação linear.

O vetor média amostral x é obtido como combinação linear das colunas de X, ou seja,

x(1) = 1

n

n

i=1

xi = X

 

1/n 1/n ...

1/n

 

= 1

n X 1

Se os pontos são considerados esferóıdes o vetor de médias, x, é o centro de gravidade. A matriz S de variância e covariâncias amostral indica a variação nas várias direções do sistema. O determinante da matriz de variância e covariâncias amostral é uma medida númerica da variabilidade total.

S =

[ 1

n− 1 n

i=1

xix t i − nxxt

] =

1

n− 1 n

i=1

(xi − x) (xi − x)t =

 

s11 s12 · · · s1p s21 s22 · · · s2p ...

... ...

... s1p s2p · · · spp

 

A matriz de covariância amostral contém p variâncias e 1 2 p(p − 1) covariâncias.

A variância amostral generalizada é o determinande de S e representa a variação

AMOSTRAS ALEATÓRIAS DE UMA DISTRIBUIÇÃO MULTINORMAL 21

expressa em S. A fragilidade da variância generalizada pode ser mostrada nas seguintes três matrizes de covariâncias as quais tem mesma variância generalizada e diferente estrutura de correlação, não detectada por det(S),

S1 =

( 5 4 4 5

) , S2 =

( 5 4 4 5

) , S3 =

( 3 0 0 3

)

ρ1 > 0, ρ2 < 0 e ρ3 = 0

A matriz de dados X pode ser considerada como uma observação da matriz

aleatória

 

X11 X12 · · · X1n X21 X22 · · · X2n ...

... ...

... Xp1 Xp2 · · · Xpn

 

composta dos vetores colunas (

X1 X2 · · · Xn ) .

Se os vetores colunas X1, . . . , Xn representam independentes observações de uma distribuição comum, com função de densidade f(x) = f(x1, . . . , xp), então X1, X2, . . . , Xn formam uma amostra aleatória de f(x). Então f(x1, . . . , xn) = f(x1).f(x2). . . . .f(xn) onde f(xj) = f(x1j, x2j, . . . , xpj)

As medidas das p variáveis em uma úınica observação X tj = (X1j, . . . , Xpj), serão em geral correlacionadas.

As medidas de diferentes observações devem ser no entanto independentes. A violação da hipótese de independência entre cada observação pode causar sérios

impactos na qualidade da inferência estat́ıstica. Observações através do tempo são um exemplo desta situação.

4.1.1 Resultados sobre a variância generalizada , |S| : 1. Em qualquer análise estat́ıstica, |S| = 0 significa que as medidas de algumas

variáveis devem ser removidas do estudo.

2. Se n ≤ p ( isto é, o número de observações é menor ou igual ao número de variáveis observadas), então |S| = 0 para todas as amostras.

3. Se a combinação linear atXj tem variância positiva para cada vetor constante a 6= 0 e se p < n, então S tem posto completo com probabilidade 1 e |S| > 0.

4.1.2 Variância Total Amostral

Outra generalização da variância é definida como a soma dos elementos sa diagonal principal e é chamada de variância total amostral,

p i=1 sii = s11 + s12 + . . . + spp.

4.2 Amostras Aleatórias de uma Distribuição Multinormal

Seja X1, X2, . . . , Xn uma amostra aleatória de uma população p−variada com o vetor de médias µ e matriz de covariância Σ. Desde que X1, X2, . . . , Xn são mu-

ESTIMAÇÃO DE MÁXIMA VEROSSIMILHAÇA DE µ E Σ PARA NP (µ, Σ). 22

tuamente independentes e com uma distribuição comum Np(µ, Σ), a função de densidade conjunta de todas as observações é o produto das densidades normais marginais,

fX1,...Xp(x1, . . . , xn) = fX1(x1).fX2(x2). . . . .fXn(xn) = n

j=1

fXj(xj) =

= n

j=1

  

1

(2π)p/2 |Σ|n/2 exp

  

1

2

n

j=1

(xj − µ)tΣ1(xj − µ)   

  

Quando considerada como uma função de µ e Σ esta função de densidade con- junta é a função de verossimilhança.

4.3 Estimação de Máxima verossimilhaça de µ e Σ para Np(µ, Σ).

Consideremos uma amostra aleatória de uma Np(µ, Σ). A função de verossimilhan- ça dada acima será denotada por L(µ, Σ) para ressaltar que é uma função de µ e Σ. Após algumas manipulações algébricas, podemos reescrever esta função como

L(µ, Σ) = (2π)−np/2 |Σ|−n/2 exp   

1

2 tr

 Σ1

 

n

j=1

(xj − x)(xj − x)t + n(x− µ)(x− µ)t  

 

  

Seja X1, X2, . . . , Xn uma amostra aleatória de uma população normal com média µ e covariância Σ. Então ,

µ̂ = X e Σ̂ = 1

n

n

j=1

(Xj −X)(Xj −X)t = n− 1 n

S,

são os estimadores de máxima verossimilhança de µ e Σ, respectivamente. Seus valores observados são

x e 1

n

n

j=1

(xj − x)(xj − x)t

Pela propriedade da invariância, se θ̂ é um estimador máxima verossimilhança de θ, então o estimador máxima verossimilhança de uma função de θ, seja h(θ), é dado por h(θ̂). Assim sendo o estimador máxima verossimilhança de ρ, mattriz de correlação de X ρ̂,ou seja,

ρ = diag(σ −1/2 ii diag(σ

1/2 ii ) = f(Σ)

ρ̂ = f(Σ̂) = diag(σ̂ −1/2 ii )Σdiag(σ̂

1/2 ii ), onde

ρ̂ij = σ̂ij

(σ̂iiσ̂ii) 1/2

ESTIMAÇÃO DE MÁXIMA VEROSSIMILHAÇA DE µ E Σ PARA NP (µ, Σ). 23

Propriedades

1. Se X(p×n) é uma matriz de dados da Np(µ, Σ) e X = n−1X1 então X = Np(µ, n

1Σ)

2. E(X) = µ e V ar(X) = 1 n Σ

3. E(Σ̂) = n n−1Σ, E(S) = Σ

4. Se X é uma matriz de dados da Np(µ, Σ) e se Y = AXB e Z = CXD, então os elementos de Y são independentes dos de Z se, e somente se,

BΣDt = 0 ou AtC = 0

Teorema do Limite Central

Sejam X1, X2, . . . , uma sequência infinita de vetores aleatórios indenticamente in- dependentemente distribuidas de uma distribuição com média µ e Σ. Então

n−1/2 n

r=1

(Xr − µ) = n−1/2(x− µ) D→ Np(0, Σ)

Até o momento nenhum comentário
Esta é apenas uma pré-visualização
3 mostrados em 23 páginas