



Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
En este documento, el profesor julian de la horra de la universidad autónoma de méxico (uam) presenta una introducción a la estadística descriptiva de dos variables cuantitativas, x e y. El objetivo fundamental es encontrar la relación más sencilla posible entre ellas, suponiendo que sea de tipo lineal y expresable mediante la recta de regresión de y sobre x. Se estudian conceptos básicos, el planteamiento de las observaciones, la representación gráfica, la covarianza y el modelo de regresión lineal.
Tipo: Apuntes
1 / 5
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!




Juli´an de la Horra Departamento de Matem´aticas U.A.M.
En muchos casos estaremos interesados en hacer un estudio conjunto de varias caracter´ısticas de una poblaci´on. Para fijar ideas y para no complicar la notaci´on supongamos que deseamos estudiar dos caracter´ısticas cuantitativas X e Y de una poblaci´on (consideramos variables cuantitativas porque los conceptos que se van a definir, s´olo tienen sentido para ellas). X e Y pueden ser la longitud y la anchura de una especie de insectos, la tasa de inflaci´on y la tasa de desempleo de un pa´ıs a lo largo de una serie de a˜nos, etc. El objetivo fundamental en este cap´ıtulo ser´a encontrar una funci´on lo m´as sencilla posible que exprese (de manera resumida) la relaci´on que se observe entre X e Y a partir de los datos obtenidos. Nos centraremos en el caso en que esta relaci´on sea de tipo lineal y pueda expresarse razonablemente bien mediante la recta de regresi´on de Y sobre X. Esta recta de regresi´on es muy ´util porque puede ser utilizada para muchas relaciones no lineales, mediante sencillos cambios de las variables originales.
Para hacer el estudio conjunto de las variables cuantitativas X e Y , supon- dremos que disponemos de una muestra de n pares de observaciones de X e Y : (x 1 , y 1 ),... , (xn, yn)
Es decir, para el elemento i-´esimo de la muestra observamos lo que valen las variables X e Y. Esto es fundamental para poder decir algo sensato sobre la posible relaci´on entre las variables. Igual que en el cap´ıtulo dedicado a la Estad´ıstica Descriptiva de una variable, no se har´a ninguna menci´on sobre c´omo se ha obtenido la muestra. Tenemos en mente la idea de que representa a la poblaci´on total (de alguna forma), pero esta idea ni se precisar´a ni se necesitar´a (de momento). Por supuesto, se puede hacer un estudio de cada variable por separado y calcular, en particular, medidas de centralizaci´on y de dispersi´on como x, v¯ x, y, v¯ y. Adem´as, estos valores los necesitaremos m´as adelante. Pero, como ya hemos indicado, no es ´este el objetivo fundamental.
Antes de hacer cualquier c´alculo, conviene representar en el plano los pares de valores obtenidos. Con esto obtenemos un diagrama de dispersi´on con una nube de puntos, que nos puede dar una idea visual de las posibles relaciones existentes. Adem´as de los conceptos ya estudiados de media y varianza, vamos a necesitar en nuestro estudio el concepto de covarianza; este concepto utiliza las dos variables a la vez.
Definici´on.- La covarianza muestral entre las observaciones de X e Y se define como
covx,y =
n
∑^ n
i=
(xi − x¯)(yi − y¯) •
La manera m´as sencilla de calcular la covarianza es haciendo un desarrollo similar al de la varianza:
covx,y =
n
∑^ n
i=
(xi − x¯)(yi − ¯y) =
n
( (^) n ∑
i=
xiyi − x¯
∑^ n
i=
yi − y¯
∑^ n
i=
xi + nx¯¯y
)
n
( (^) n ∑ i=
xiyi − nx¯y¯
)
La covarianza va a aparecer de manera natural al obtener rectas de re- gresi´on (un poco m´as adelante). De momento, es f´acil ver que existe una relaci´on entre el signo de la covarianza y el tipo de asociaci´on que hay entre X e Y :
Se puede comprobar (pero no lo haremos) que esta soluci´on corresponde a un m´ınimo de la funci´on. Por tanto, la recta de regresi´on de Y sobre X es:
y = a + bx = ¯y −
covx,y vx
¯x +
covx,y vx
x
En definitiva, la recta de regresi´on de Y sobre X se puede escribir de la siguiente forma:
y − ¯y =
covx,y vx
(x − x¯)
La recta de regresi´on de Y sobre X que acabamos de estudiar se puede obtener para cualquier conjunto de datos pero, obviamente, en unos casos, esta recta resumir´a muy bien la nube de puntos (buen ajuste), y en otros casos, la resumir´a peor (mal ajuste). La herramienta num´erica que se suele utilizar para evaluar la bondad de este ajuste es el coeficiente de correlaci´on lineal, que se define a continuaci´on.
Definici´on.- El coeficiente de correlaci´on lineal entre X e Y se define como: r =
covx,y √ vxvy
El problema inicial del coeficiente de correlaci´on es que, a partir de la definici´on, no se sabe cu´al es su significado. Este significado quedar´a muy claro en cuanto veamos que el error cuadr´atico medio cometido con la recta de regresi´on de Y sobre X se puede expresar en funci´on del coeficiente de correlaci´on lineal:
“Error cuadr´atico medio cometido con la recta de regresi´on”
=
n
∑^ n
i=
( yi − ¯y +
covx,y vx
x ¯ −
covx,y vx
xi
) 2
n
( (^) n ∑ i=
(yi − y¯)^2 +
( (^) cov x,y vx
) (^2) ∑n
i=
(xi − x¯)^2 − 2
covx,y vx
∑n i=
(xi − x¯)(yi − ¯y)
)
= vy −
(covx,y)^2 vx
= vy
[ 1 −
(covx,y)^2 vxvy
] = vy(1 − r^2 )
Ahora es f´acil decir varias cosas sobre el significado de r, y sobre sus posibles valores: