Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis Multivariable, Apuntes de Análisis Matemático

Asignatura: Analisis, Profesor: , Carrera: Física, Universidad: UCM

Tipo: Apuntes

2013/2014

Subido el 07/03/2014

sergio314
sergio314 🇪🇸

4.4

(8)

3 documentos

1 / 286

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Análisis
Multivariante
Colección manuales uex - 59
Jesús
Montanero Fernández 59
Álgebra lineal y Geometría
50
50
9 788477 237471
ISBN 84-7723 -747-6
(E.E.E.S.)
ISBN 978-84-7723-747-1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Vista previa parcial del texto

¡Descarga Análisis Multivariable y más Apuntes en PDF de Análisis Matemático solo en Docsity!

Análisis

Multivariante

Colección manuales uex - 59

Jesús

Montanero Fernández

59

(E.E.E.S.)

MANUALES UEx

(E.E.E.S.)
Espacio
Europeo
Educación
Superior

ANÁLISIS

MULTIVARIANTE

JESÚS MONTANERO FERNÁNDEZ

A Lucía

Manuales

u

ex

Introducci´on

El an´alisis multivariante es una disciplina dif´ıcil de definir e incluso de delimitar. Bajo este sobrenombre se agrupan diversas t´ecnicas estad´ısticas que, si bien muchas de ellas fueron ideadas por autores que podemos denominar cl´asicos, deben su auge y puesta en pr´actica a la difusi´on del software estad´ıstico y a la creciente demanda que de ellas exige el desarrollo de otras disciplinas, como la Sociolog´ıa, Psicolog´ıa, Biolog´ıa o Econom´ıa. Es desde luego impensable poder aplicar procedimientos como el manova, el an´alisis factorial, el an´alisis cluster o el de correspondencias si no se dispone de un programa estad´ıstico adecuado. Y no es menos cierto, como hemos apuntado, que si nos preguntamos cu´al es el denominador com´un de los procedimientos mencionados, la respuesta no sea del todo convincente. Para muchos autores, hablar de an´alisis multivariante es simplemente hablar del estudio simult´aneo de m´as de dos variables (Hair et. al (1999)). Desde luego que esta definici´on se aproxima a la idea que tenemos la mayor´ıa, pero ello har´ıa de la regresi´on lineal m´ultiple una t´ecnica multivariante (dado que, en la pr´actica, no s´olo los valores de la variable dependiente sino tambi´en los valores explicativos suelen ser observaciones de variables aleatorias). En definitiva, estar´ıamos incluyendo el estudio del modelo lineal dentro del an´alisis multivariante. No queremos decir que sea mala idea, todo lo contrario. Ambas materias se encuentran estrechamente vinculadas desde el punto de vista epistemol´ogico. De hecho, este volumen est´a concebido como continuaci´on de otro primero dedicado al Modelo Lineal que debemos tener presente en todo momento. Pero al margen de estas disquisiciones, la misma definici´on anterior nos impedir´ıa aceptar como multivariante una t´ecnica tan de moda en nuestros d´ıas como es el an´alisis de correspondencias. Tambi´en habr´ıa que preguntarse por qu´e se conside- ra multivariante el an´alisis cluster, puesto que una clasificaci´on en conglomerados podr´ıa hacerse, estrictamente hablando, a partir de la observaci´on de una ´unica va- riable. Razonando en sentido contrario y si queremos llevar al extremo esta cr´ıtica f´acil, nos preguntamos por qu´e son necesarias al menos tres variables para hablar de multivariante. Desde luego, si admitimos dos, estar´ıamos incluyendo estudios como el

análisis Multivariante

Manuales

u

ex

ca en cuesti´on supone una generalizaci´on multivariante de otra an´aloga univariante (unidimensional) o no. De esta forma, el manova generaliza el anova; la regresi´on lineal multivariante generaliza la regresi´on lineal m´ultiple, que a su vez generaliza la simple; los coeficientes de correlaci´on can´onica generalizan el coeficiente de correlaci´on m´ultiple que a su vez generaliza el de correlaci´on simple; el test M de Box generaliza el de Barlett, etc. Sin embargo, los an´alisis de componentes principales y factorial no tienen sentido en dimensi´on uno. Los an´alisis discriminante y de correspondencias cabr´ıa incluirlos en este ´ultimo grupo, con algunas reservas.

El proceso a seguir en cualquier estudio estad´ıstico, y muy especialmente en an´ali- sis multivariante, es complejo y requiere, adem´as de los conocimientos te´oricos que puedan aportar el estudio acad´emico, de cierta experiencia en el manejo de datos en general y, por supuesto, de una buena dosis de humildad. Por desgracia, el pro- cedimiento dista mucho de ser un algoritmo que nos conduce del planteamiento del problema a la soluci´on del mismo. No obstante, en Anderson , Hair, Tatham, Black (2000), libro de car´acter eminentemente aplicado, se propone un proceso de modeli- zaci´on en seis pasos para resolver, o mejor dicho afrontar, un problema multivariante, que puede resultar orientativo: en primer lugar, se plantean la definici´on del proble- ma, objetivos y t´ecnica conveniente; a continuaci´on, el proyecto de an´alisis; le sigue la evaluaci´on de los supuestos b´asicos requeridos; posteriormente, se efect´ua la estima- ci´on del modelo y valoraci´on del ajuste del mismo; seguidamente, se lleva a cabo la interpretaci´on del valor te´orico; para finalizar, se procede a la validaci´on del modelo.

La validaci´on es necesaria en aras de garantizar cierto grado de generalidad al modelo obtenido. Esto puede conseguirse mediante diversos procedimientos, como la validaci´on cruzada, el jackknife o las t´ecnicas bootstrap.

La evaluaci´on de los supuestos b´asicos es uno de los asuntos m´as delicados de la Estad´ıstica en general y del an´alisis multivariante en especial. Decimos en es- pecial porque, si bien podemos aceptar, aunque a rega˜nadientes, que una variable aleatoria se ajuste satisfactoriamente a un modelo de distribuci´on normal, resulta m´as dif´ıcil aceptar la normalidad multivariante de un vector aleatorio de dimensi´on

  1. Adem´as, esta dependencia del an´alisis multivariante respecto a la distribuci´on normal queda patente ante la dificultad de traducir al lenguaje multivariante los pro- cedimientos cl´asicos de la estad´ıstica no param´etrica basados en los rangos (tests de Mann-Whitney, Kruskall-Wallis). No obstante, debemos anticipar que en algunos casos, no estaremos en condiciones de garantizar al lector una soluci´on plenamente satisfactoria del problema.

Para acabar esta introducci´on mencionaremos algunos aspectos particulares del programa que desarrollamos a continuaci´on. El lector podr´a tal vez reconocer en

jesús Montanero fernández

Manuales

u

ex

el mismo la influencia de The Theory of Lineal Models and Multivariate Analysis, S.F. Arnold (1981), ed. Wiley. Efectivamente, la visi´on que aporta este libro sobre el an´alisis multivariante queda bien patente en la estructura de este volumen en la del volumen dedicado a los Modelos Lineales; muy especialmente en todo lo referente al modelo lineal normal multivariante. Tambi´en han resultado de gran utilidad referen- cias como Rencher (1995), Bilodeau (1999), Flury (1997), Dillon, Goldstein (1984), sin olvidar otros cl´asicos como Anderson (1958) o Mardia et al. (1979). Cada uno de los cap´ıtulos consta de una introducci´on donde se comentan los as- pectos generales del mismo, la exposici´on de la materia correspondiente y una serie de cuestiones que se proponen como trabajo personal para el lector. La distribuci´on y secuenciaci´on de los mismos se ha realizado teniendo en cuenta las ideas aportadas por los autores anteriormente citados. El lector podr´a apreciar sin duda una evolu- ci´on en el estilo en funci´on del tema a tratar. As´ı, los primeros cap´ıtulos, dedicados a los distintos modelos de distribuci´on y al modelo lineal normal multivariante, pue- den resultar m´as te´oricos que los que se dedican a t´ecnicas concretas del an´alisis multivariante. Por ´ultimo, contamos con un ap´endice dedicado, en primer lugar, al Algebra de´ matrices. La demostraci´on de los resultados que aqu´ı se exponen puede encontrarse en el Ap´endice del volumen dedicado a la Modelos Lineales, mencionado anteriormente que, insistimos, debemos tener muy presente dado que ´este es una continuaci´on de aqu´el. En el ap´endice de dicho volumen puede encontrarse, adem´as, un breve repa- so de nociones fundamentales de la Probabilidad y Estad´ıstica que pueden ser de utilidad para el lector. No los hemos incluido en ´este por no resultar redundantes. Por ´ultimo, en la segunda secci´on de nuestro ap´endice podemos encontrar tambi´en la demostraci´on muy t´ecnica y extensa de un resultado correspondiente al cap´ıtulo 6.

jesús Montanero fernández Manuales u

    1. Distribuciones del an´alisis multivariante ´Indice general
    • 1.1. Distribuci´on normal multivariante
    • 1.2. Distribuci´on normal matricial.
    • 1.3. Distribuciones de Wishart y Hotelling
    1. Modelo lineal normal multivariante
    • 2.1. Estimaci´on
    • 2.2. Contrastes lineales sobre la media
    • 2.3. Test de Wilks
    • 2.4. Tests de Lawley-Hotelling y Pillay
    • 2.5. Test de Roy
    • 2.6. Estudio Asint´otico del Modelo
    • 2.7. Contraste de hip´otesis generalizado.
    1. Contrastes para la matriz de covarianzas.
    • 3.1. Test de correlaci´on.
    • 3.2. Test M de Box.
    • 3.3. Contraste para una matriz de covarianza.
    • 3.4. Test de esfericidad de Barlett.
    • 3.5. Ejemplos
    1. An´alisis Multivariante de la Varianza
    • 4.1. Contraste de una media
    • 4.2. Contraste de dos medias
    • 4.3. Manova con un factor
    • 4.4. An´alisis de perfiles
    1. Regresi´on Lineal Multivariante
    • 5.1. El modelo de Regresi´on
    • 5.2. Regresi´on y correlaci´on ex
    • 5.3. Estimaci´on de los par´ametros
    • 5.4. Tests de hip´otesis
    • 5.5. Estudio asint´otico.
    • 5.6. Regresi´on con variables ficticias. Mancova
    1. An´alisis de correlaci´on can´onica
    • 6.1. Definici´on
    • 6.2. Inferencias
    • 6.3. Relaci´on con el test de correlaci´on
    • 6.4. Relaci´on con regresi´on y manova
    • 6.5. Reducci´on de dimensi´on en correlaci´on lineal
    1. An´alisis de componentes principales
    • 7.1. Punto de vista probabil´ıstico
    • 7.2. Punto de vista muestral
    • 7.3. Relaci´on con las variables originales
    1. Aplicaciones de componentes principales
    • 8.1. Multicolinealidad
      • 8.1.1. Ejemplo
    • 8.2. An´alisis de correspondencias
      • 8.2.1. Ejemplo
    1. An´alisis discriminante I
    • 9.1. Ejes discriminantes
    • 9.2. An´alisis discriminate y correlaci´on can´onica
    • 9.3. Caso de dos grupos.
    • 9.4. Variables observadas y discriminaci´on.
  • 10.An´alisis discriminante II
    • 10.1. Dos grupos: planteamiento general.
    • 10.2. Dos normales con covarianzas com´un
    • 10.3. Caso general: r distribuciones p-normales
    • 10.4. Relaci´on con los ejes discriminantes.
    • 10.5. Caso de matriz de covarianzas distintas
    • 10.6. Validez de la estrategia.
    • 10.7. Estimaci´on de densidades
    • 10.8. Regresi´on log´ıstica

análisis Multivariante

Manuales

u

ex

17

10.9. k-proximidad............................... 236

11.An´alisis factorial 239 11.1. Planteamiento del problema....................... 240 11.2. M´etodo de componentes principales................... 245 11.3. Modelo basado en el concepto de factor................. 250 11.4. Ejemplo.................................. 256

12.An´alisis cluster 259 12.1. Medidas de afinidad............................ 260 12.2. Formaci´on de conglomerados....................... 261 12.3. Interpretaci´on de los conglomerados................... 263

13.Ap´endice 265

Manuales

u

ex

Cap´ıtulo 1

Distribuciones del an´alisis

multivariante

En este cap´ıtulo se estudiar´an cuatro distribuciones multidimensionales que desem- pe˜nar´an un papel fundamental en el modelo lineal normal multivariante: las distribu- ciones normal multivariante y matricial, la distribuci´on de Wishart y la distribuci´on T 2 de Hotelling. De la segunda y tercera podemos decir que son distribuciones matri- ciales, pues son generadas por matrices aleatorias. Este concepto de matriz aleatoria, recogido de Arnold (1981) y que trataremos a continuaci´on, no es ni mucho menos com´un a todos los textos consultados. No obstante, consideramos que facilita una elegante exposici´on del modelo lineal normal multivariante, teniendo en cuenta que n observaciones de datos p-dimensionales configuran una matriz de dimensi´on n×p. Ve- remos que, si las observaciones son independientes y generadas seg´un distribuciones normales p-variantes con matriz de covarianzas com´un, la matriz de datos sigue un modelo normal matricial^1. Igualmente, la distribuci´on de Wishart, que generaliza la χ^2 de Pearson, es inducida por matrices aleatorias definidas positivas, como puede ser un estimador de la matriz de covarianzas. El teorema 1.28 establece la importancia de esta distribuci´on en el modelo lineal normal multivariante. No obstante, dado que podemos establecer una identificaci´on natural entre las matrices de orden m × q y los vectores en Rmq, los conceptos de matriz aleatoria y distribuci´on matricial no son en esencia nuevos. Tampoco lo es la distribuci´on T 2 de Hotelling. El teorema 1.32 demuestra que esta distribuci´on, asociada siempre a la dis- tancia de Mahalanobis y que es, por lo tanto, univariante, difiere de la distribuci´on F Snedecor en una constante, siendo equivalente a una t de Student al cuadrado cuando consideramos una ´unica variable. De hecho, en el an´alisis multivariante aparece en

(^1) Realmente, el modelo lineal matricial es m´as general y no se restringe a este caso.

19

jesús Montanero fernández

Manuales

u

ex

20 CAP´ITULO 1. DISTRIBUCIONES DEL AN ALISIS MULTIVARIANTE´

las mismas situaciones donde en an´alisis univariante aparece la t de Student. En la primera parte del cap´ıtulo se aborda el estudio del modelo normal mul- tivariante (junto con las distribuciones relacionadas). Esta secci´on, aunque no es realmente espec´ıfica del An´alisis Multivariante, es fundamental pues el supuesto de normalidad multivariante de las observaciones es el pilar sobre el que se construyen la mayor´ıa de los modelos a estudiar. A continuaci´on se extender´a su estudio estudio al caso matricial, para definir a generalizaciones multivariantes de las distribuciones asociadas.

1.1. Distribuci´on normal multivariante

En esta secci´on se aborda el estudio de la distribuciones normal multivariante, haciendo especial hincapi´e en el caso esf´erico, junto con otras distribuciones relacio- nadas con esta ´ultima, como son la χ^2 , F -Snedecor y t-Student. Realmente, damos por hecho que todas ellas son de sobras conocidas, por lo que nos limitaremos a repa- sar las definiciones y propiedades fundamentales. Las demostraciones que se echen en falta pueden encontrarse en cualquier referencia cl´asica, o bien en el primer cap´ıtulo del volumen dedicado a los Modelos Lineales. Dados un vector μ ∈ Rn^ y una matriz Σ ∈ Mn×n sim´etrica y semidefinida positiva, se dice que un vector aleatorio Y : (Ω, A, P ) → Rn^ sigue un modelo de distribuci´on normal multivariante en dimensi´on n (o n-normal) con media μ y matriz de varianzas- covarianzas Σ, cuando su correspondiente funci´on caracter´ıstica es la siguiente

ϕY (t) = exp

 itμ − 1 2

tΣt

 , t ∈ Rn.

En ese caso, se denota Y ∼ Nn(μ, Σ). Un vector de este tipo puede construirse expl´ıcitamente como sigue: si Σ diagonaliza seg´un el teorema 13.4 mediante Σ = Γ∆Γ,

consideramos Zi, i = 1,... , n, independientes y con distribuciones normales de media 0 y varianza el elemento i-´esimo de la diagonal de ∆, δ i^2 , respectivamente. Si Z denota el vector aleatorio (Z 1 ,... , Zn), se tiene entonces que Y = μ + ΓZ (1.1)

sigue la distribuci´on deseada. Dado que E[Z] = 0 y Cov[Z] = ∆, y teniendo en cuenta que, en general,

E[AZ + b] = AE[Z] + b, Cov[AZ + b] = ACov[Z]A. (1.2)