Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Capítulo 3: Covariancia, Transformación de Datos, Regresión y Correlación - Prof. 6742, Apuntes de Matemáticas

Capítulo 3 del libro trata sobre covariancia, transformación de datos, regresión lineal y correlación. Se explica la definición de covariancia y su relación con la varianza. Se describe cómo transformar datos y cómo afecta la media y la varianza. Se presenta el concepto de regresión lineal y se explica cómo determinar la recta de regresión para minimizar los errores. Se discute el coeficiente de correlación de pearson y sus propiedades.

Tipo: Apuntes

2013/2014

Subido el 06/05/2014

nereaconde-1
nereaconde-1 🇪🇸

3.9

(29)

11 documentos

1 / 10

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Cap´ıtulo 3
Semana 9. Sesiones Expositivas
17-18
Este tema 3 corresponde a la Lecci´on 11 del libro.
3.1. Nociones previas
3.1.1. Covarianza
La covarianza de dos variables X, Y se define como
sXY =P(XX)(YY)
n.
En la pr´actica se usa esta otra ormula equivalente:
sXY =PX Y
n(X)(Y),
que se lee: media de los productos menos producto de las medias.
Nota: La covarianza de una variable consigo misma es la varianza:
sXX =PX2
n(X)2=s2
X.
1
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Capítulo 3: Covariancia, Transformación de Datos, Regresión y Correlación - Prof. 6742 y más Apuntes en PDF de Matemáticas solo en Docsity!

Cap´ıtulo 3

Semana 9. Sesiones Expositivas

Este tema 3 corresponde a la Lecci´on 11 del libro.

3.1. Nociones previas

3.1.1. Covarianza

La covarianza de dos variables X, Y se define como

sXY =

∑ (X − X)(Y − Y ) n

En la pr´actica se usa esta otra f´ormula equivalente:

sXY =

∑ XY n

− (X)(Y ),

que se lee: media de los productos menos producto de las medias.

Nota: La covarianza de una variable consigo misma es la varianza:

sXX =

∑ X^2 n

− (X)^2 = s^2 X.

Nota: Hay que tener cuidado en no confundir

∑ X^2 (suma de cuadrados) con (

∑ X)^2 (cuadrado de la suma). Tampoco se debe confundir

∑ XY (suma de productos) con (

∑ X)(

∑ Y ) (producto de las sumas).

3.1.2. Transformaci´on de datos

Si tenemos unos datos X con media X y varianza s^2 X , en ocasiones ser´a ne- cesario transformarlos (por ejemplo para cambiar de unidades o de escala). Sean Y = bX + a

los datos transformados. Entonces se tiene:

La media se transforma igual que los datos,

Y = bX + a.

La varianza, como es una medida de dispersi´on, s´olo cambia de escala con el valor absoluto de b, pero no le influye ni el signo de b ni el desplazamiento a. La f´ormula exacta es

s^2 Y = b^2 s^2 X.

Para la desviaci´on t´ıpica, al hacer la ra´ız cuadrada queda

sY = |b|sX ;

recordemos que no puede ser negativa, por eso aparece el valor absoluto.

Ejemplo Las siguientes temperaturas en grados Celsius

X : 22 , 30 , 26 , 29 , 22 , 29 , 23 , 27 , 29 , 27 , 29 , 29 , 21 ,

tienen media X = 26′38 y desviaci´on t´ıpica sX = 3′25. Al pasarlas a grados Fahrenheit,

Y =

X + 32,

tenemos los nuevos datos

Y : 71 ′ 6 ; 86 ′ 0 ; 78 ′ 8 ; 84 ′ 2 ; 71 ′ 6 ; 84 ′ 2 ; 73 ′ 4 ; 80 ′ 6 ; 84 ′ 2 ; 80 ′ 6 ; 84 ′ 2 ; 84 ′ 2 ; 69 ′ 8.

3.2.2. Recta de regresi´on

Si tenemos unos pares de observaciones

(X 1 , Y 1 ),... , (Xn, Yn)

de dos variables X e Y , queremos encontrar una relaci´on del tipo

Yˆ = bX + a.

Distinguimos Yˆ (la estimaci´on que vamos a hacer te´oricamente) de Y (el valor que hemos obtenido experimentalmente). Llamaremos errores de estimaci´on (o ((valores residuales))) a las diferencias

e = Y − Y .ˆ

Queremos encontrar una recta (((recta de regresi´on))) que cumpla las siguien- tes condiciones:

La media de los errores es cero, e = 0. Esto quiere decir que unos errores se compensan con otros.

La varianza s^2 e de los errores es m´ınima. Esto quiere decir que los errores est´an lo m´as concentrados posible.

Nota: En general no se puede conseguir que s^2 e = 0, pues ´esto significar´ıa que todos los errores son iguales entre s´ı e iguales a la media e = 0, es decir que todos los e = 0, lo que s´olo es cierto si los puntos de los datos est´an perfectamente alineados.

Con las dos condiciones anteriores, la recta de regresi´on existe y es ´unica, como se comprueba usando el llamado m´etodo de m´ınimos cuadrados (ver m´as adelante). Se obtienen las siguientes f´ormulas:

a = Y − bX,

b =

sXY s^2 X

donde sXY es la covarianza.

Nota: La f´ormula para a significa que la recta de ajuste siempre pasa por el punto (X, Y ). Entonces la ecuaci´on de la recta puede escribirse tambi´en como ( Yˆ − Y ) =

sXY s^2 X

(X − X).

M´ınimos cuadrados* Veamos c´omo se obtienen las f´ormulas de la regre- si´on. Como Y = Yˆ + e, al calcular las medias se obtiene que la media de las estimaciones Yˆ es la misma que la de las observaciones Y , pues la media de los errores es cero. Por tanto, por la f´ormula de transformaci´on de datos que vimos en el apartado 3.1.2 tiene que ser

Y¯ = b X¯ + a.

De ah´ı sacamos la f´ormula de a. Ahora la varianza de los errores es

s^2 e =

∑ e^2 n

y vamos a buscarle un m´ınimo absoluto al variar b. Usando la f´ormula de a, es e = Y − Yˆ = Y − (bX + a) = (Y − Y ) − b(X − X)

Para abreviar llamemos x = X − X¯ e y = Y − Y¯. Entonces e = y − bx. Tenemos e^2 = (y − bx)^2 = y^2 − 2 bxy + b^2 x^2

luego

s^2 e =

n

∑ y^2 − 2 b

∑ xy + b^2

∑ x^2 ) = s^2 y − 2 bsxy + b^2 s^2 x (3.1)

y al derivar queda ds^2 e db

= − 2 sxy + 2bs^2 x.

Al igualar a cero, 0 = −sxy + bs^2 x,

luego

b =

sxy s^2 x

y a = Y − bX = 38′ 59 − 9 ′ 51 × 3 = 10′ 07 ,

con lo que la ecuaci´on de la regresi´on de v sobre t es

ˆv = 9′ 51 t + 10′ 07.

Nota: Deben explicitarse siempre todas las f´ormulas para detectar m´as facilmente posibles errores de c´alculo.

Estimaci´on Podemos comparar los valores estimados por esta f´ormula con los valores experimentales v de la velocidad: por ejemplo si t = 3, ˆv = 38′ 6 aunque v = 36′76. Tambi´en podemos estimar que al cabo de t = 10 segundos la velocidad de ca´ıda ser´a ˆv ∼= 105′17.

3.2.3. Coeficiente de correlaci´on

El coeficiente de correlaci´on de Pearson viene dado por la f´ormula

r =

sXY sX sY

Es un indicador de si el ajuste lineal que hemos realizado es bueno o malo. Su cuadrado r^2 se llama coeficiente de determinaci´on.

Propiedades

El coeficiente de correlaci´on r tiene el mismo signo que b, porque

r = b

sX sY

El coeficiente de correlaci´on tiene que estar comprendido entre −1 y +1: − 1 ≤ r ≤ +.

Interpretaci´on Cuando r = ±1 la varianza de los errores es nula (ver f´ormula 3.4), lo que quiere decir que nuestros datos se ajustan perfectamente a la recta. Como el signo de r es el mismo que el de b, una r = +1 quiere decir que el ajuste es perfecto y positivo (al crecer X crece Y ), mientras que si r = −1 el ajuste es perfecto pero b < 0, es decir al crecer X disminuye Y. Una r ∼ 0 significa que el ajuste es malo.

Varianza explicada Veamos por qu´e es cierta esa interpretaci´on del coe- ficiente de correlaci´on r. Por la f´ormula (3.1) y la de transformaci´on de datos se tiene

s^2 e = s^2 Y − s^2 Yˆ.

Esto se interpreta as´ı: la variabilidad de la variable dependiente Y tiene dos partes s^2 Y = s^2 Yˆ + s^2 e. (3.3)

Una es la variabilidad de las estimaciones Yˆ , que se deducen directamente de la variable independiente X por la f´ormula de regresi´on (esta parte se llama variabilidad ((explicada))). La otra parte es la variabilidad debida a los errores de estimaci´on, que no controlamos. Por tanto el ajuste es mejor o peor seg´un sea la proporci´on s^2 Yˆ /s^2 Y entre la varianza explicada y la varianza total. Pero por la relaci´on entre r y b de la f´ormula (3.2) tenemos que esa proporci´on es

s^2 Yˆ s^2 Y

b^2 s^2 X s^2 Y

= r^2 ,

es decir el coeficiente de determinaci´on. Por eso cuando r = ±1 (es decir r^2 = 1) significa que el ajuste es perfecto, pues el 100 % de la varianza estar´ıa explicada por la regresi´on y no habr´ıa errores de estimaci´on. Por otro lado, una r pr´oxima a cero indicar´ıa un ajuste malo, pues la mayor proporci´on de la varianza procede del error.

Varianza de los errores Ya vimos que la varianza de los errores de esti- maci´on e = Y − Yˆ es

s^2 e = s^2 Y − 2 bsXY + b^2 s^2 X.

Como, por la f´ormula de b, es sXY = bs^2 X queda

s^2 e = s^2 Y − b^2 s^2 X.

1.55 1.6 1.65 1.7 1.75 1.8 1.

60

80

100

120

140

160

Figura 3.2: ´Indices de masa corporal para un adulto de 20 a 30 a˜nos: imc adecuado en verde (20–25). Para otras edades, a˜nadir un punto al ´ındice por cada diez a˜nos.