




























































































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Analisis, Profesor: , Carrera: Física, Universidad: UCM
Tipo: Apuntes
1 / 286
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!





























































































Colección manuales uex - 59
59
MANUALES UEx
A Lucía
Manuales
u
ex
Introducci´on
El an´alisis multivariante es una disciplina dif´ıcil de definir e incluso de delimitar. Bajo este sobrenombre se agrupan diversas t´ecnicas estad´ısticas que, si bien muchas de ellas fueron ideadas por autores que podemos denominar cl´asicos, deben su auge y puesta en pr´actica a la difusi´on del software estad´ıstico y a la creciente demanda que de ellas exige el desarrollo de otras disciplinas, como la Sociolog´ıa, Psicolog´ıa, Biolog´ıa o Econom´ıa. Es desde luego impensable poder aplicar procedimientos como el manova, el an´alisis factorial, el an´alisis cluster o el de correspondencias si no se dispone de un programa estad´ıstico adecuado. Y no es menos cierto, como hemos apuntado, que si nos preguntamos cu´al es el denominador com´un de los procedimientos mencionados, la respuesta no sea del todo convincente. Para muchos autores, hablar de an´alisis multivariante es simplemente hablar del estudio simult´aneo de m´as de dos variables (Hair et. al (1999)). Desde luego que esta definici´on se aproxima a la idea que tenemos la mayor´ıa, pero ello har´ıa de la regresi´on lineal m´ultiple una t´ecnica multivariante (dado que, en la pr´actica, no s´olo los valores de la variable dependiente sino tambi´en los valores explicativos suelen ser observaciones de variables aleatorias). En definitiva, estar´ıamos incluyendo el estudio del modelo lineal dentro del an´alisis multivariante. No queremos decir que sea mala idea, todo lo contrario. Ambas materias se encuentran estrechamente vinculadas desde el punto de vista epistemol´ogico. De hecho, este volumen est´a concebido como continuaci´on de otro primero dedicado al Modelo Lineal que debemos tener presente en todo momento. Pero al margen de estas disquisiciones, la misma definici´on anterior nos impedir´ıa aceptar como multivariante una t´ecnica tan de moda en nuestros d´ıas como es el an´alisis de correspondencias. Tambi´en habr´ıa que preguntarse por qu´e se conside- ra multivariante el an´alisis cluster, puesto que una clasificaci´on en conglomerados podr´ıa hacerse, estrictamente hablando, a partir de la observaci´on de una ´unica va- riable. Razonando en sentido contrario y si queremos llevar al extremo esta cr´ıtica f´acil, nos preguntamos por qu´e son necesarias al menos tres variables para hablar de multivariante. Desde luego, si admitimos dos, estar´ıamos incluyendo estudios como el
análisis Multivariante
Manuales
u
ex
ca en cuesti´on supone una generalizaci´on multivariante de otra an´aloga univariante (unidimensional) o no. De esta forma, el manova generaliza el anova; la regresi´on lineal multivariante generaliza la regresi´on lineal m´ultiple, que a su vez generaliza la simple; los coeficientes de correlaci´on can´onica generalizan el coeficiente de correlaci´on m´ultiple que a su vez generaliza el de correlaci´on simple; el test M de Box generaliza el de Barlett, etc. Sin embargo, los an´alisis de componentes principales y factorial no tienen sentido en dimensi´on uno. Los an´alisis discriminante y de correspondencias cabr´ıa incluirlos en este ´ultimo grupo, con algunas reservas.
El proceso a seguir en cualquier estudio estad´ıstico, y muy especialmente en an´ali- sis multivariante, es complejo y requiere, adem´as de los conocimientos te´oricos que puedan aportar el estudio acad´emico, de cierta experiencia en el manejo de datos en general y, por supuesto, de una buena dosis de humildad. Por desgracia, el pro- cedimiento dista mucho de ser un algoritmo que nos conduce del planteamiento del problema a la soluci´on del mismo. No obstante, en Anderson , Hair, Tatham, Black (2000), libro de car´acter eminentemente aplicado, se propone un proceso de modeli- zaci´on en seis pasos para resolver, o mejor dicho afrontar, un problema multivariante, que puede resultar orientativo: en primer lugar, se plantean la definici´on del proble- ma, objetivos y t´ecnica conveniente; a continuaci´on, el proyecto de an´alisis; le sigue la evaluaci´on de los supuestos b´asicos requeridos; posteriormente, se efect´ua la estima- ci´on del modelo y valoraci´on del ajuste del mismo; seguidamente, se lleva a cabo la interpretaci´on del valor te´orico; para finalizar, se procede a la validaci´on del modelo.
La validaci´on es necesaria en aras de garantizar cierto grado de generalidad al modelo obtenido. Esto puede conseguirse mediante diversos procedimientos, como la validaci´on cruzada, el jackknife o las t´ecnicas bootstrap.
La evaluaci´on de los supuestos b´asicos es uno de los asuntos m´as delicados de la Estad´ıstica en general y del an´alisis multivariante en especial. Decimos en es- pecial porque, si bien podemos aceptar, aunque a rega˜nadientes, que una variable aleatoria se ajuste satisfactoriamente a un modelo de distribuci´on normal, resulta m´as dif´ıcil aceptar la normalidad multivariante de un vector aleatorio de dimensi´on
Para acabar esta introducci´on mencionaremos algunos aspectos particulares del programa que desarrollamos a continuaci´on. El lector podr´a tal vez reconocer en
jesús Montanero fernández
Manuales
u
ex
el mismo la influencia de The Theory of Lineal Models and Multivariate Analysis, S.F. Arnold (1981), ed. Wiley. Efectivamente, la visi´on que aporta este libro sobre el an´alisis multivariante queda bien patente en la estructura de este volumen en la del volumen dedicado a los Modelos Lineales; muy especialmente en todo lo referente al modelo lineal normal multivariante. Tambi´en han resultado de gran utilidad referen- cias como Rencher (1995), Bilodeau (1999), Flury (1997), Dillon, Goldstein (1984), sin olvidar otros cl´asicos como Anderson (1958) o Mardia et al. (1979). Cada uno de los cap´ıtulos consta de una introducci´on donde se comentan los as- pectos generales del mismo, la exposici´on de la materia correspondiente y una serie de cuestiones que se proponen como trabajo personal para el lector. La distribuci´on y secuenciaci´on de los mismos se ha realizado teniendo en cuenta las ideas aportadas por los autores anteriormente citados. El lector podr´a apreciar sin duda una evolu- ci´on en el estilo en funci´on del tema a tratar. As´ı, los primeros cap´ıtulos, dedicados a los distintos modelos de distribuci´on y al modelo lineal normal multivariante, pue- den resultar m´as te´oricos que los que se dedican a t´ecnicas concretas del an´alisis multivariante. Por ´ultimo, contamos con un ap´endice dedicado, en primer lugar, al Algebra de´ matrices. La demostraci´on de los resultados que aqu´ı se exponen puede encontrarse en el Ap´endice del volumen dedicado a la Modelos Lineales, mencionado anteriormente que, insistimos, debemos tener muy presente dado que ´este es una continuaci´on de aqu´el. En el ap´endice de dicho volumen puede encontrarse, adem´as, un breve repa- so de nociones fundamentales de la Probabilidad y Estad´ıstica que pueden ser de utilidad para el lector. No los hemos incluido en ´este por no resultar redundantes. Por ´ultimo, en la segunda secci´on de nuestro ap´endice podemos encontrar tambi´en la demostraci´on muy t´ecnica y extensa de un resultado correspondiente al cap´ıtulo 6.
jesús Montanero fernández Manuales u
análisis Multivariante
Manuales
u
ex
17
10.9. k-proximidad............................... 236
11.An´alisis factorial 239 11.1. Planteamiento del problema....................... 240 11.2. M´etodo de componentes principales................... 245 11.3. Modelo basado en el concepto de factor................. 250 11.4. Ejemplo.................................. 256
12.An´alisis cluster 259 12.1. Medidas de afinidad............................ 260 12.2. Formaci´on de conglomerados....................... 261 12.3. Interpretaci´on de los conglomerados................... 263
13.Ap´endice 265
Manuales
u
ex
Cap´ıtulo 1
Distribuciones del an´alisis
multivariante
En este cap´ıtulo se estudiar´an cuatro distribuciones multidimensionales que desem- pe˜nar´an un papel fundamental en el modelo lineal normal multivariante: las distribu- ciones normal multivariante y matricial, la distribuci´on de Wishart y la distribuci´on T 2 de Hotelling. De la segunda y tercera podemos decir que son distribuciones matri- ciales, pues son generadas por matrices aleatorias. Este concepto de matriz aleatoria, recogido de Arnold (1981) y que trataremos a continuaci´on, no es ni mucho menos com´un a todos los textos consultados. No obstante, consideramos que facilita una elegante exposici´on del modelo lineal normal multivariante, teniendo en cuenta que n observaciones de datos p-dimensionales configuran una matriz de dimensi´on n×p. Ve- remos que, si las observaciones son independientes y generadas seg´un distribuciones normales p-variantes con matriz de covarianzas com´un, la matriz de datos sigue un modelo normal matricial^1. Igualmente, la distribuci´on de Wishart, que generaliza la χ^2 de Pearson, es inducida por matrices aleatorias definidas positivas, como puede ser un estimador de la matriz de covarianzas. El teorema 1.28 establece la importancia de esta distribuci´on en el modelo lineal normal multivariante. No obstante, dado que podemos establecer una identificaci´on natural entre las matrices de orden m × q y los vectores en Rmq, los conceptos de matriz aleatoria y distribuci´on matricial no son en esencia nuevos. Tampoco lo es la distribuci´on T 2 de Hotelling. El teorema 1.32 demuestra que esta distribuci´on, asociada siempre a la dis- tancia de Mahalanobis y que es, por lo tanto, univariante, difiere de la distribuci´on F Snedecor en una constante, siendo equivalente a una t de Student al cuadrado cuando consideramos una ´unica variable. De hecho, en el an´alisis multivariante aparece en
(^1) Realmente, el modelo lineal matricial es m´as general y no se restringe a este caso.
19
jesús Montanero fernández
Manuales
u
ex
20 CAP´ITULO 1. DISTRIBUCIONES DEL AN ALISIS MULTIVARIANTE´
las mismas situaciones donde en an´alisis univariante aparece la t de Student. En la primera parte del cap´ıtulo se aborda el estudio del modelo normal mul- tivariante (junto con las distribuciones relacionadas). Esta secci´on, aunque no es realmente espec´ıfica del An´alisis Multivariante, es fundamental pues el supuesto de normalidad multivariante de las observaciones es el pilar sobre el que se construyen la mayor´ıa de los modelos a estudiar. A continuaci´on se extender´a su estudio estudio al caso matricial, para definir a generalizaciones multivariantes de las distribuciones asociadas.
1.1. Distribuci´on normal multivariante
En esta secci´on se aborda el estudio de la distribuciones normal multivariante, haciendo especial hincapi´e en el caso esf´erico, junto con otras distribuciones relacio- nadas con esta ´ultima, como son la χ^2 , F -Snedecor y t-Student. Realmente, damos por hecho que todas ellas son de sobras conocidas, por lo que nos limitaremos a repa- sar las definiciones y propiedades fundamentales. Las demostraciones que se echen en falta pueden encontrarse en cualquier referencia cl´asica, o bien en el primer cap´ıtulo del volumen dedicado a los Modelos Lineales. Dados un vector μ ∈ Rn^ y una matriz Σ ∈ Mn×n sim´etrica y semidefinida positiva, se dice que un vector aleatorio Y : (Ω, A, P ) → Rn^ sigue un modelo de distribuci´on normal multivariante en dimensi´on n (o n-normal) con media μ y matriz de varianzas- covarianzas Σ, cuando su correspondiente funci´on caracter´ıstica es la siguiente
ϕY (t) = exp
itμ − 1 2
tΣt
, t ∈ Rn.
En ese caso, se denota Y ∼ Nn(μ, Σ). Un vector de este tipo puede construirse expl´ıcitamente como sigue: si Σ diagonaliza seg´un el teorema 13.4 mediante Σ = Γ∆Γ,
consideramos Zi, i = 1,... , n, independientes y con distribuciones normales de media 0 y varianza el elemento i-´esimo de la diagonal de ∆, δ i^2 , respectivamente. Si Z denota el vector aleatorio (Z 1 ,... , Zn), se tiene entonces que Y = μ + ΓZ (1.1)
sigue la distribuci´on deseada. Dado que E[Z] = 0 y Cov[Z] = ∆, y teniendo en cuenta que, en general,
E[AZ + b] = AE[Z] + b, Cov[AZ + b] = ACov[Z]A. (1.2)