






Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Capítulo 3 del libro trata sobre covariancia, transformación de datos, regresión lineal y correlación. Se explica la definición de covariancia y su relación con la varianza. Se describe cómo transformar datos y cómo afecta la media y la varianza. Se presenta el concepto de regresión lineal y se explica cómo determinar la recta de regresión para minimizar los errores. Se discute el coeficiente de correlación de pearson y sus propiedades.
Tipo: Apuntes
1 / 10
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!







Este tema 3 corresponde a la Lecci´on 11 del libro.
La covarianza de dos variables X, Y se define como
sXY =
∑ (X − X)(Y − Y ) n
En la pr´actica se usa esta otra f´ormula equivalente:
sXY =
∑ XY n
que se lee: media de los productos menos producto de las medias.
Nota: La covarianza de una variable consigo misma es la varianza:
sXX =
∑ X^2 n
− (X)^2 = s^2 X.
Nota: Hay que tener cuidado en no confundir
∑ X^2 (suma de cuadrados) con (
∑ X)^2 (cuadrado de la suma). Tampoco se debe confundir
∑ XY (suma de productos) con (
∑ X)(
∑ Y ) (producto de las sumas).
Si tenemos unos datos X con media X y varianza s^2 X , en ocasiones ser´a ne- cesario transformarlos (por ejemplo para cambiar de unidades o de escala). Sean Y = bX + a
los datos transformados. Entonces se tiene:
La media se transforma igual que los datos,
Y = bX + a.
La varianza, como es una medida de dispersi´on, s´olo cambia de escala con el valor absoluto de b, pero no le influye ni el signo de b ni el desplazamiento a. La f´ormula exacta es
s^2 Y = b^2 s^2 X.
Para la desviaci´on t´ıpica, al hacer la ra´ız cuadrada queda
sY = |b|sX ;
recordemos que no puede ser negativa, por eso aparece el valor absoluto.
Ejemplo Las siguientes temperaturas en grados Celsius
X : 22 , 30 , 26 , 29 , 22 , 29 , 23 , 27 , 29 , 27 , 29 , 29 , 21 ,
tienen media X = 26′38 y desviaci´on t´ıpica sX = 3′25. Al pasarlas a grados Fahrenheit,
Y =
tenemos los nuevos datos
Y : 71 ′ 6 ; 86 ′ 0 ; 78 ′ 8 ; 84 ′ 2 ; 71 ′ 6 ; 84 ′ 2 ; 73 ′ 4 ; 80 ′ 6 ; 84 ′ 2 ; 80 ′ 6 ; 84 ′ 2 ; 84 ′ 2 ; 69 ′ 8.
Si tenemos unos pares de observaciones
(X 1 , Y 1 ),... , (Xn, Yn)
de dos variables X e Y , queremos encontrar una relaci´on del tipo
Yˆ = bX + a.
Distinguimos Yˆ (la estimaci´on que vamos a hacer te´oricamente) de Y (el valor que hemos obtenido experimentalmente). Llamaremos errores de estimaci´on (o ((valores residuales))) a las diferencias
e = Y − Y .ˆ
Queremos encontrar una recta (((recta de regresi´on))) que cumpla las siguien- tes condiciones:
La media de los errores es cero, e = 0. Esto quiere decir que unos errores se compensan con otros.
La varianza s^2 e de los errores es m´ınima. Esto quiere decir que los errores est´an lo m´as concentrados posible.
Nota: En general no se puede conseguir que s^2 e = 0, pues ´esto significar´ıa que todos los errores son iguales entre s´ı e iguales a la media e = 0, es decir que todos los e = 0, lo que s´olo es cierto si los puntos de los datos est´an perfectamente alineados.
Con las dos condiciones anteriores, la recta de regresi´on existe y es ´unica, como se comprueba usando el llamado m´etodo de m´ınimos cuadrados (ver m´as adelante). Se obtienen las siguientes f´ormulas:
a = Y − bX,
b =
sXY s^2 X
donde sXY es la covarianza.
Nota: La f´ormula para a significa que la recta de ajuste siempre pasa por el punto (X, Y ). Entonces la ecuaci´on de la recta puede escribirse tambi´en como ( Yˆ − Y ) =
sXY s^2 X
M´ınimos cuadrados* Veamos c´omo se obtienen las f´ormulas de la regre- si´on. Como Y = Yˆ + e, al calcular las medias se obtiene que la media de las estimaciones Yˆ es la misma que la de las observaciones Y , pues la media de los errores es cero. Por tanto, por la f´ormula de transformaci´on de datos que vimos en el apartado 3.1.2 tiene que ser
Y¯ = b X¯ + a.
De ah´ı sacamos la f´ormula de a. Ahora la varianza de los errores es
s^2 e =
∑ e^2 n
y vamos a buscarle un m´ınimo absoluto al variar b. Usando la f´ormula de a, es e = Y − Yˆ = Y − (bX + a) = (Y − Y ) − b(X − X)
Para abreviar llamemos x = X − X¯ e y = Y − Y¯. Entonces e = y − bx. Tenemos e^2 = (y − bx)^2 = y^2 − 2 bxy + b^2 x^2
luego
s^2 e =
n
∑ y^2 − 2 b
∑ xy + b^2
∑ x^2 ) = s^2 y − 2 bsxy + b^2 s^2 x (3.1)
y al derivar queda ds^2 e db
= − 2 sxy + 2bs^2 x.
Al igualar a cero, 0 = −sxy + bs^2 x,
luego
b =
sxy s^2 x
y a = Y − bX = 38′ 59 − 9 ′ 51 × 3 = 10′ 07 ,
con lo que la ecuaci´on de la regresi´on de v sobre t es
ˆv = 9′ 51 t + 10′ 07.
Nota: Deben explicitarse siempre todas las f´ormulas para detectar m´as facilmente posibles errores de c´alculo.
Estimaci´on Podemos comparar los valores estimados por esta f´ormula con los valores experimentales v de la velocidad: por ejemplo si t = 3, ˆv = 38′ 6 aunque v = 36′76. Tambi´en podemos estimar que al cabo de t = 10 segundos la velocidad de ca´ıda ser´a ˆv ∼= 105′17.
El coeficiente de correlaci´on de Pearson viene dado por la f´ormula
r =
sXY sX sY
Es un indicador de si el ajuste lineal que hemos realizado es bueno o malo. Su cuadrado r^2 se llama coeficiente de determinaci´on.
Propiedades
El coeficiente de correlaci´on r tiene el mismo signo que b, porque
r = b
sX sY
El coeficiente de correlaci´on tiene que estar comprendido entre −1 y +1: − 1 ≤ r ≤ +.
Interpretaci´on Cuando r = ±1 la varianza de los errores es nula (ver f´ormula 3.4), lo que quiere decir que nuestros datos se ajustan perfectamente a la recta. Como el signo de r es el mismo que el de b, una r = +1 quiere decir que el ajuste es perfecto y positivo (al crecer X crece Y ), mientras que si r = −1 el ajuste es perfecto pero b < 0, es decir al crecer X disminuye Y. Una r ∼ 0 significa que el ajuste es malo.
Varianza explicada Veamos por qu´e es cierta esa interpretaci´on del coe- ficiente de correlaci´on r. Por la f´ormula (3.1) y la de transformaci´on de datos se tiene
s^2 e = s^2 Y − s^2 Yˆ.
Esto se interpreta as´ı: la variabilidad de la variable dependiente Y tiene dos partes s^2 Y = s^2 Yˆ + s^2 e. (3.3)
Una es la variabilidad de las estimaciones Yˆ , que se deducen directamente de la variable independiente X por la f´ormula de regresi´on (esta parte se llama variabilidad ((explicada))). La otra parte es la variabilidad debida a los errores de estimaci´on, que no controlamos. Por tanto el ajuste es mejor o peor seg´un sea la proporci´on s^2 Yˆ /s^2 Y entre la varianza explicada y la varianza total. Pero por la relaci´on entre r y b de la f´ormula (3.2) tenemos que esa proporci´on es
s^2 Yˆ s^2 Y
b^2 s^2 X s^2 Y
= r^2 ,
es decir el coeficiente de determinaci´on. Por eso cuando r = ±1 (es decir r^2 = 1) significa que el ajuste es perfecto, pues el 100 % de la varianza estar´ıa explicada por la regresi´on y no habr´ıa errores de estimaci´on. Por otro lado, una r pr´oxima a cero indicar´ıa un ajuste malo, pues la mayor proporci´on de la varianza procede del error.
Varianza de los errores Ya vimos que la varianza de los errores de esti- maci´on e = Y − Yˆ es
s^2 e = s^2 Y − 2 bsXY + b^2 s^2 X.
Como, por la f´ormula de b, es sXY = bs^2 X queda
s^2 e = s^2 Y − b^2 s^2 X.
1.55 1.6 1.65 1.7 1.75 1.8 1.
60
80
100
120
140
160
Figura 3.2: ´Indices de masa corporal para un adulto de 20 a 30 a˜nos: imc adecuado en verde (20–25). Para otras edades, a˜nadir un punto al ´ındice por cada diez a˜nos.