Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Docsity AI

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

Manejo de Datos Bidimensionales, Ejercicios de Estadística

Universidad Central Estadística

5.1 Medidas de Tendencia Central. 5.2. Medidas de Dispersión. 6.1 Variables Bidimensionales de Datos no Agrupados. • 6.1.1. Medias Aritméticas: Vector de Medias. 6.1.2. Varianzas. 6.2 Correlación Lineal 6.3. Regresión Lineal.

Tipo: Ejercicios

2019/2020

Subido el 05/12/2020

eusebio-sejas 🇧🇴

5 documentos

1 / 31

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

Estadística Aplicada Tema 3

1 / 31

TEMA 3: DISTRIBUCIONES BIDIMENSIONALES.

CORRELACIÓN Y REGRESIÓN.

1. VARIABLES ESTADÍSTICAS BIDIMENSIONALES.

DISTRIBUCIONES BIDIMENSIONALES.

En esta unidad estudiaremos el comportamiento estadístico conjunto de dos características o

variables estadísticas unidimensionales sobre un mismo colectivo o población. Por ejemplo:

− Horas de estudio y calificaciones en alumnos de bachillerato.

− Calificaciones en matemáticas y lengua para los mismos alumnos.

− Dinero gastado en publicidad y dinero obtenido por las ventas de cierta empresa.

Variable estadística bidimensional es el conjunto de pares de valores de dos caracteres o variables

estadísticas unidimensionales X e Y sobre una misma población.

La variable estadística bidimensional se representa por el símbolo (X, Y) y cada uno de los

individuos de la población viene caracterizado por la pareja (x

i

, y

i

), en el cual x

i

representa los datos,

valores o marcas de clase x

1

, x

2

, ..., x

n

de la variable X; e y

i

representa los datos, valores o marcas de

clase y

1

, y

2

, ..., y

m

de la variable Y.

Se denominan distribuciones bidimensionales a las tablas estadísticas bidimensionales formadas por

todas las frecuencias absolutas de todos los posibles valores de la variable estadística bidimensional

(X, Y).

Las tablas estadísticas bidimensionales pueden ser:

a) Simples.

b) De doble entrada.

a) Las tablas estadísticas bidimensionales simples adoptan la siguiente forma:

Variable X

Variable Y

Frecuencia absoluta

x

1

y

1

f

1

x

2

y

2

f

2

M

x

i

y

i

f

i

M

x

n

y

m

f

n

i

f N

=

∑

Ejemplo: A cada uno de los trabajadores de una empresa se les talla y pesa. Se trata de dos variables

cuantitativas. X (tallas en m) 1,70 1,70 1,69 1,68

Y (peso en kg) 67 75 70 66

En este caso no aparecen las frecuencias absolutas porque habría un recluta con cada peso y talla, se

podría añadir la fila correspondiente (o columna) con cada frecuencia absoluta igual a uno.

Descubre Ejercicios de Estadística Universidad Central

Documentos relacionados

Análisis de Tablas Bidimensionales de Frecuencias - Prof. 15359

Conceptos básicos de distribuciones bidimensionales y correlación

Distribuciones bidimensionales

Estadística de Variables Bidimensionales: Covariancia y Correlación

Distribución de Frecuencias Bidimensionales: Análisis de Dos Variables

Análisis de Distribuciones Bidimensionales: Conceptos Básicos

Tema 3: Distribuciones bidimensionales - EINA

Grupos puntuales bidimensionales.

Análisis estadístico de variables bidimensionales

Análisis de datos bidimensionales: Tablas, distribuciones y correlación.

(4)

Distribuciones bidimensionales - Matemáticas CCSSI - 1º Bachillerato

Vista previa parcial del texto

¡Descarga Manejo de Datos Bidimensionales y más Ejercicios en PDF de Estadística solo en Docsity!

TEMA 3: DISTRIBUCIONES BIDIMENSIONALES.

CORRELACIÓN Y REGRESIÓN.

1. VARIABLES ESTADÍSTICAS BIDIMENSIONALES.

DISTRIBUCIONES BIDIMENSIONALES.

En esta unidad estudiaremos el comportamiento estadístico conjunto de dos características o variables estadísticas unidimensionales sobre un mismo colectivo o población. Por ejemplo: − Horas de estudio y calificaciones en alumnos de bachillerato. − Calificaciones en matemáticas y lengua para los mismos alumnos. − Dinero gastado en publicidad y dinero obtenido por las ventas de cierta empresa.

Variable estadística bidimensional es el conjunto de pares de valores de dos caracteres o variables estadísticas unidimensionales X e Y sobre una misma población.

La variable estadística bidimensional se representa por el símbolo ( X , Y ) y cada uno de los individuos de la población viene caracterizado por la pareja ( xi , yi ), en el cual xi representa los datos, valores o marcas de clase x 1 , x 2 , ..., xn de la variable X ; e yi representa los datos, valores o marcas de clase y 1 , y 2 , ..., ym de la variable Y.

Se denominan distribuciones bidimensionales a las tablas estadísticas bidimensionales formadas por todas las frecuencias absolutas de todos los posibles valores de la variable estadística bidimensional ( X , Y ).

Las tablas estadísticas bidimensionales pueden ser: a) Simples. b) De doble entrada.

a) Las tablas estadísticas bidimensionales simples adoptan la siguiente forma: Variable X Variable Y Frecuencia absoluta x 1 y 1 f 1 x 2 y 2 f 2 M M M xi yi fi M M M xn ym fn i i

∑^ f^ = N

Ejemplo : A cada uno de los trabajadores de una empresa se les talla y pesa. Se trata de dos variables cuantitativas. X (tallas en m) 1,70 1,70 1,69 1, Y (peso en kg) 67 75 70 66

En este caso no aparecen las frecuencias absolutas porque habría un recluta con cada peso y talla, se podría añadir la fila correspondiente (o columna) con cada frecuencia absoluta igual a uno.

b) Las tablas estadísticas bidimensionales de doble entrada adoptan la siguiente forma: X Y x 1 x 2 · · · xi · · · xn F. absoluta de la variable Y y 1 f 1 1 f 2 1 · · · f (^) i 1 · · · fn 1 f • 1 y 2 f 1 2 f 2 2 · · · f (^) i 2 · · · fn 2 f • 2 M M M M M M M M yj f 1 j f 2 j · · · f (^) i j · · · fn j f • j M M M M M M M M ym f 1 m f 2 m · · · fi m · · · fn m f • m F. absoluta de la variable X f^1 •^ f^2 •^ · · ·^ fi^ •^ · · ·^ fn^ •^

N

Denotamos por f (^) ij a la frecuencia absoluta correspondiente al par ( xi , yj ) y por N al número total de individuos.

Ejemplo : Los datos obtenidos al estudiar las variables X = “número de goles marcados” e Y = “número de goles recibidos”, en 40 partidos jugados por el equipo campeón de la liga de fútbol sala, son: (5, 4), (4, 2), (6, 3), (4, 4), (3, 2), (6, 4), (3, 1), (4, 2), (4, 2), (6, 4), (4, 2), (5, 3), (3, 1), (2, 2), (4, 3), (3, 1), (4, 2), (5, 3), (5, 3), (4, 2), (3, 3), (1, 1), (4, 2), (5, 3), (3, 2), (5, 3), (6, 4), (4, 2), (5, 3), (2, 1), (3, 2), (6, 4), (5, 3), (4, 2), (4, 2), (3, 3), (3, 1), (2, 2), (6, 4), (5, 3)

Elaboramos la tabla de doble entrada siguiendo estos pasos:

− Construimos una tabla con tantas columnas como valores tome X y con tantas filas como valores tome Y en la distribución. Si observamos los datos, X toma los valores 1, 2, 3, 4, 5 y 6, e Y toma los valores 1, 2, 3 y 4. En este caso, la tabla constará de 6 columnas y 4 filas.

− Hallamos la frecuencia absoluta de cada par de valores de la variable ( X , Y ). Para ello contamos el número de veces que se repite ese par de valores en la distribución y lo anotamos en la casilla correspondiente. Así, por ejemplo, observa que el par (5, 4) aparece una sola vez; el (4, 2) aparece diez veces; y el (6, 1), ninguna.

X

Y

1 2 3 4 5 6 Total 1 1 1 4 0 0 0 6 2 0 2 3 10 0 0 15 3 0 0 2 1 8 1 12 4 0 0 0 1 1 5 7 Total 1 3 9 12 9 6 40

Fíjate en que:

La suma de las frecuencias absolutas de una columna es la frecuencia absoluta del valor de X correspondiente a esa columna.
La suma de las frecuencias absolutas de una fila es la frecuencia absoluta del valor de Y correspondiente a esa fila.

Ejercicio 1 : En una clase compuesta por 30 alumnos, se ha hecho un estudio sobre el número de horas diarias de estudio X y el número de suspensos Y , obteniéndose los siguientes resultados: (2, 0), (2, 2), (0, 5), (2, 1), (1, 2), (2, 1), (3, 1) (4, 0), (0, 4), (2, 2) (2, 1), (2, 1), (4, 0), (3, 1), (2, 4), (2, 1), (1, 2), (2, 1), (2, 0), (3, 0) (3, 2), (2, 2), (2, 2), (2, 1), (0, 5), (1, 3), (2, 2), (2, 1), (1, 3), (1, 4) Construye la tabla estadística bidimensional de doble entrada, y las tablas de las distribuciones marginales. Solución :

xi 0 1 2 3 4 Total fi 3 5 16 4 2 30

X Y^0 1 2 3 4 Totales 0 0 0 2 1 2 5 1 0 0 8 2 0 10 2 0 2 5 1 0 8 3 0 2 0 0 0 2 4 1 1 1 0 0 3 5 2 0 0 0 0 2 Totales 3 5 16 4 2 30

yi 0 1 2 3 4 5 Total fi 5 10 8 2 3 2 30

Considerando las distribuciones marginales, como distribuciones unidimensionales es posible calcular los siguiente parámetros:

Medias marginales:

x =

i i i

x f

N

; y =

j j j

y f

N

donde N es el número total de pares.

En una distribución bidimensional al punto ( x , y ) se le llama centro de gravedad de la distribución.

Varianzas

σ x^2 =

( )^2

i i i

x x f

N

2 2 i i i

x f x N

−

; σ y^2 =

( )^2

j j j

y y f

N

2 2

j j j

y f y N

−

Desviaciones típicas σ x = + σ (^) x^2 σ y = + σ y^2

Veamos un nuevo parámetro:

Covarianza: Se llama covarianza de una variable bidimensional ( X , Y ) a la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas. Se representa por σ xy.

σ xy =

i j i j i i i j i j i j

x x y y f x y f x y N N

A la covarianza también se le llama varianza conjunta de las variables X e Y. Más adelante veremos el significado de este parámetro, así como su interpretación según el signo.

Ejemplo : Para las variables X = “número de goles marcados” e Y = “número de goles recibidos” del ejemplo que venimos siguiendo, podemos calcular sus parámetros.

Variable X (^) f (^) i • 1 2 3 4 5 6 1 3 9 12 9 6 40 = N Tabla de frecuencias marginales de la variable X

x =

σ x^2 =

2 2 2 2 2 2 1 ·1 2 ·3 3 ·9 4 ·12 5 ·9 6 ·6 (^) (4, 075) 2 40

Variable Y (^) f (^) • j 1 2 3 4

40 = N

Tabla de frecuencias marginales de la variable Y

y =

σ y^2 =

2 2 2 2 1 ·6 2 ·12 3 ·15 4 ·7 (^) (2,575) 2 40

Para calcular la covarianza, podemos escribir la tabla de doble entrada como una tabla simple:

Variable ( X , Y ) f (^) i j (1, 1) (2, 1) (2, 2) (3, 1) (3, 2) (3, 3) (4, 2) (4, 3) (4, 4) (5, 3) (5, 4) (6, 3) (6, 4)

40 = N

σ xy =

L

Ejercicio 2 : El número de horas dedicadas al estudio de una asignatura y la calificación final obtenida en el correspondiente examen por ocho personas vienen dados en la tabla de la derecha. Halla la media y la varianza de X , la media y la varianza de Y , y la covarianza. Solución : x = 24; σ x^2 = 36,75; y = 7,75; σ y^2 = 1,31; σ xy = 5,

X : Horas de estudio

Y :

Calificación del examen 20 16 34 23 27 32 18 22

Ejemplo : El número de horas dedicadas al estudio de una asignatura y la calificación final obtenida en el correspondiente examen por seis personas vienen dados en la tabla de la derecha. La nube de puntos o diagrama de dispersión es:

0

2

4

6

8

10

15 20 25 30 35 Horas de estudio

Nota en el examen

X : Horas de estudio

Y :

Calificación del examen 20 26 34 23 27 32

Ejemplo : En el caso de que cada par de valores ( xi , yj ) tenga una frecuencia mayor que uno, se suele dibujar el punto de modo que su tamaño sea proporcional a su frecuencia. Para el ejemplo anterior de X = “número de goles marcados” e Y = “número de goles recibidos” en 40 partidos, se obtiene el siguiente diagrama de dispersión:

0

1

2

3

4

5

0 1 2 3 4 5 6 7 Goles marcados

Goles recibidos

Ejercicio 4 : Realiza un diagrama de dispersión para los datos del ejercicio anterior en el que se relacionaban el número de horas diarias de estudio X y el número de suspensos Y , de 30 alumnos. Solución :

4. DEPENDENCIA O CORRELACIÓN

La etapa final de un estudio estadístico es el análisis de los datos con el fin de extraer conclusiones que puedan ser de interés. En especial, puede interesarnos estudiar si las dos variables unidimensionales que forman una variable bidimensional presentan algún tipo de relación entre ellas y cuáles son las características de esta relación.

Consideremos el siguiente ejemplo para entender mejor la relación entre variables. En una muestra de familias formadas por padre, madre y dos hijos, hemos estudiado las variables:

X = estatura del padre (cm) Y = gasto anual en energía eléctrica (€) Z = consumo anual de energía eléctrica (kW · h) W = ingresos familiares anuales (€)

Los valores de Y pueden determinarse exactamente a partir de los valores de Z si conocemos las tarifas de la compañía eléctrica.

Entre dos variables estadísticas existe dependencia funcional si están relacionadas de forma que sea posible determinar con exactitud los valores que toma una de ellas a partir de los que toma la otra.

Consideremos ahora las variables W y Z. Los valores de Z no pueden calcularse exactamente sólo conociendo los de W. Sin embargo, podemos suponer que consumirán menos energía eléctrica las familias con ingresos más modestos y, por el contrario, que consumirán más las familias con mayores recursos. Así pues, cabe esperar algún tipo de relación entre ambas variables, aunque no sea una relación exacta como en el caso anterior.

Entre dos variables estadísticas existe dependencia estadística o correlación cuando los valores que toma una de ellas están relacionados con los valores que toma la otra, pero no de manera exacta.

Finalmente, parece razonable pensar que no existe ninguna relación entre los valores de W y los de X.

Dos variables estadísticas son independientes si no puede establecerse ninguna relación entre los valores que toma una de ellas y los que toma la otra.

Ejercicio 5 : Determina si entre los siguientes pares de variables existe dependencia funcional o estadística, o bien, si son independientes. a) Talla de zapatos y estatura. b) Color de cabello y profesión. c) Radio y longitud de la circunferencia. d) Cociente intelectual y peso. Solución : a) Dependencia estadística. b) Independientes. c) Dependencia funcional. d) Independientes.

4.1 Interpretación gráfica de la relación entre variables.

Hemos visto que la estudiar la relación entre dos variables pueden darse tres casos: independencia, dependencia funcional y una situación intermedia a la que llamamos dependencia estadística o correlación.

Ejercicio 6 : En una empresa de transportes trabajan 4 conductores. Los años de antigüedad de sus permisos de conducir y las infracciones cometidas en el último año por cada uno son los siguientes: X : Años de antigüedad 3 4 5 6 Y : Infracciones 4 3 2 1 Representa gráficamente los datos anteriores. Razona si estos muestran correlación positiva o negativa. Solución : Según se aprecia en el diagrama de dispersión, existe una relación lineal negativa funcional.

Ejercicio 7 : En la siguiente tabla se recoge la evolución del IPC (índice de precios al consumo) y el precio del barril de petróleo (brent) durante el segundo semestre de 2007. IPC (%) 2,4 2,2 2,2 2,7 3,6 4, Precio del barril ($) 71,54 77,01 70,73 76,87 82,50 90, ¿Se puede asegurar que la evolución del IPC está directamente relacionada con el precio del petróleo? Solución : Sí, existe una correlación lineal positiva fuerte.

Como acabamos de ver, si se representan sobre unos ejes de coordenadas la nube de puntos correspondiente a la variable bidimensional, se puede apreciar de forma visual la existencia o no de relación entre las dos variables. Si la nube de puntos se condensa en torno a una recta, existe una correlación lineal entre las variables. Para muchos fenómenos y aplicaciones es de gran interés cuantificar de forma más objetiva y precisa esta correlación.

La covarianza, σ xy , es un indicador numérico del grado de relación lineal que existe entre las dos variables. Además su signo nos indica el sentido de la correlación. Veámoslo. Si se calcula el centro

de gravedad ( x , y ) y se toman unos ejes con el origen en este centro, se observa:

Si ambas variables tienen una relación directa, los puntos están en el 1 er^ y 3er^ cuadrantes, y por tanto los productos ( xi – x )( yi – y ) mayoritariamente son positivos, con lo cual la covarianza tomará un valor positivo.
Si la relación es inversa, los puntos están en el 2º y 4º cuadrantes, y por tanto los productos ( xi – x )( yi – y ) mayoritariamente son negativos, con lo cual la covarianza tomará un valor negativo, aunque su valor absoluto sea alto.
En el caso de que exista poca relación entre las variables, las diferencias serán aleatoriamente positivas y negativas y tenderán a compensarse, con lo cual la covarianza tendrá un valor pequeño en términos absolutos.

5. CORRELACIÓN LINEAL. COEFICIENTE DE CORRELACIÓN DE PEARSON

A pesar de que la covarianza es un indicador de la asociación lineal entre las dos variables, esta presenta dificultades:

Puede verse influenciada por los puntos de la nube alejados del centro de gravedad, que distorsionan el resultado.
Su valor depende de las unidades de medida de las variables y, en consecuencia, necesitamos un indicador que no dependa de las unidades.

Por tanto, la covarianza no indica de forma precisa la medida de la relación entre las dos variables. Para salvar estas dificultades, se define un nuevo parámetro que nos cuantifica correctamente la dependencia. Es el llamado coeficiente de correlación lineal de Pearson.

El coeficiente de correlación de Pearson se representa por r y es el cociente entre la covarianza y el producto de las desviaciones típicas marginales de X e Y :

r = x y x y

σ σ σ

–0,

0 0,

1

Dependencia funcional negativa (^) Correlación negativa fuerte

Correlación negativa débil

Correlación positiva débil

Correlación positiva fuerte

Dependencia funcional positiva

Correlación negativa moderada

Correlación positiva moderada

Ninguna correlación

Así, podemos resumir en el siguiente diagrama el grado de correlación lineal:

Ejemplo : La cotización en bolsa (en cientos de euros) de dos empresas A y B , a lo largo de 6 días de sesión son los siguientes: X = Empresa A 8 7 6 5 7 8 Y = Empresa B 6 5 4,5 4 4,5 5 Calcula el coeficiente de correlación de Pearson e interpreta el resultado.

En primer lugar debemos calcular las medias y desviaciones típicas de cada una de las empresas, así como la covarianza:

x = = 6,833 ;

y = = 4,

(^2 287) 6,833 2 6

σ (^) x = − = 1,143 ⇒ σ (^) x = 1,143 = 1,

2 142,5^ 4,833 2 6

σ (^) y = − = 0,392 ⇒ σ (^) y = 0,392 = 0,

σ (^) xy =

Así, el coeficiente de correlación de Pearson es:

r = x y x y

σ σ σ

El valor de este coeficiente indica una correlación lineal positiva fuerte por su proximidad a 1, lo que debe interpretarse como que ambos valores cotizan al alza o a la baja simultáneamente.

Ejercicio 8 : Los números 0; 0,8 y 1 son los valores absolutos del coeficiente de correlación de las distribuciones bidimensionales cuyas nubes de puntos aparecen a continuación:

Asigna a cada diagrama su coeficiente de correlación, cambiando el signo cuando sea necesario. Solución : Primero: 0,8; Segundo: –1; Tercero: 0

Ejercicio 9 : Las puntuaciones en Matemáticas y Física de siete alumnos han sido las siguientes: Matemáticas 8 8 6 7 8 6 2 Física 7 7,5 5 7 7,5 5 7 Calcula el coeficiente de correlación de esas dos variables para los siete alumnos. Solución : Medias: x = 6,43; y = 6,57; Varianzas: σ x^2 = 3,959; σ y^2 = 1,031; Covarianza: σ xy = 0,4694; Coeficiente de correlación: r = 0,

6. REGRESIÓN LINEAL

Uno de los objetivos que se persiguen, al estudiar conjuntamente dos variables X e Y , es encontrar alguna manera de predecir los valores de una de ellas conocidos los de la otra. En este sentido, es lógico pensar que, si hay una curva en torno a la cual se agrupan los puntos de un diagrama de dispersión, ésta ha de dar una aproximación de los valores reales.

Al análisis que pretende determinar la curva que mejor aproxima un diagrama de dispersión se le llama regresión. En este curso estudiaremos el caso de la regresión lineal, es decir, la determinación de la recta que mejor aproxima una nube de puntos.

Es fácil hallar una recta que se ajuste aproximadamente a una distribución. Basta con dibujar la que a simple vista nos parezca más representativa de la nube de puntos. Sin embargo, éste es un método subjetivo. Para evitar este problema se considera algún criterio que permita determinar objetivamente la recta que se ajusta mejor a la distribución. Estas rectas se determinan haciendo que se cumplan las siguientes condiciones:

a) Tienen que pasar por el centro de gravedad ( x , y ).

b) Las sumas de los cuadrados de las distancias, ∑ d i^2 , debe ser mínima, siendo di = yi – yi ,

donde yi es el valor de la ordenada de cada punto de la nube e yi es la ordenada del punto de la recta (criterio de los mínimos cuadrados ).

Aclaremos esta segunda condición:

Sea $ y = mx + n la ecuación de la recta que mejor se aproxima a la nube de puntos. Al valor xi de la variable X le corresponde el valor yi = mxi + n. El error cometido por la aproximación es la diferencia di = yi – yi. La condición para calcular m y n es que la suma de los errores al cuadrado sea mínima. Se demuestra que dicha suma es mínima si:

m =^ x y 2 x

σ σ

y n =^ x y 2 x

y x

σ − σ

La ecuación de la recta de regresión de Y sobre X es:

2 (^ )

x y x

y y x x

σ − = − σ

6.2 Valoración de las predicciones.

La recta de regresión nos permite predecir valores de una variable a partir de los de la otra. No obstante, hay que tener siempre presente que existen las siguientes limitaciones:

Las predicciones realizadas a partir de una recta de regresión no son fiables si entre X e Y no hay un alto grado de correlación lineal, es decir, si r no es, en valor absoluto, cercano a 1.
Las predicciones deben hacerse con valores próximos a los pares considerados. Las estimaciones obtenidas para valores próximos al centro de gravedad de la distribución son más fiables que las obtenidas para valores muy alejados de él.
La fiabilidad de una recta de regresión es mayor cuanto mayor sea el número de datos considerados para calcularla.

Ejercicio 13: ¿Cuál sería la fiabilidad de un ajuste bidimensional con r = 0,7? ¿Y con r = –0,8? ¿Y con r = 0,9? Solución : 49 %, 64 % y 81 %, respectivamente.

Ejemplo : Las notas obtenidas por cinco alumnos en matemáticas y música son las siguientes: Matemáticas ( X ) 6 4 8 5 3, Música ( Y ) 6,5 4,5 7 5 4 a) Determina la recta de regresión de Y sobre X y represéntala. b) Halla la nota de música de un alumno que tiene 7,5 en matemáticas. c) Determina la recta de regresión de X sobre Y y represéntala. d) Halla la nota de matemáticas de un alumno que tiene 6 en música.

Primero representamos la nube de puntos. Los datos se agrupan en torno a una recta, por tanto tiene sentido calcular la recta de regresión. Para hallar las rectas de regresión calculamos los parámetros marginales de X e Y y la covarianza. 26, 5

x = = 5,3 ;

y = = 5,

2 153, 25^ 5,3 2 x 5 σ = − = 2,56 ⇒ σ (^) x = 2,56 = 1,

2 152,5^ 5, 4 2 y 5 σ = − = 1,34 ⇒ σ (^) y = 1,34 = 1,

σ (^) xy =

a) Recta de regresión de Y sobre X :

y – 5,4 = 0,7 ( x – 5,3) ⇒ y = 0,7 x + 1,

b) Se sustituye x = 7,5 en la ecuación obtenida:

y = 0,7 · 7,5 + 1,69 = 6,

Es decir, si un alumno obtuvo un 7,5 en matemáticas, se espera que obtenga un 6,94 en música.

c) Recta de regresión de X sobre Y :

x – 5,3 = 1,33 ( y – 5,4) ⇒ x = 1,33 y – 1,

d) Se sustituye y = 6 en la ecuación obtenida:

x = 1,33 · 6 – 1,88 = 6,

Es decir, si un alumno obtuvo un 6 en música, se espera que obtenga un 6,1 en matemáticas.

Ejercicio 10 : En cierto país, el tipo de interés y el índice de la Bolsa en los últimos seis meses vienen dados por la siguiente tabla: Tipo de interés (%) 8 7,5 7,2 6 5,5 5 Índice 120 130 134 142 150 165 Halla el índice previsto de la Bolsa en el séptimo mes, suponiendo que el tipo de interés en ese mes fue del 4,1 %, y analiza la fiabilidad de la predicción, según el valor del coeficiente de correlación. Solución : x = 6,53; σ x = 1,12; y = 140,17; σ y = 14,48; σ xy = –15,01; y = –12,008 x + 218,58; y (4,1) = 169,35 es el índice de Bolsa esperado para el siguiente mes; r = –0,93 ⇒ el resultado obtenido es fiable.

Ejercicio 11 : Como consecuencia de un estudio estadístico realizado sobre 100 universitarios, se ha obtenido una estatura media de 155 cm, con una desviación típica de 15,5 cm. Además se obtuvo la recta de regresión y = 80 + 1,5 x (siendo X el peso e Y la altura). Determina el peso medio de estos 100 universitarios. Solución : x = 50 kg.

6.3 Comparación de las dos rectas de regresión.

En general, la recta de regresión de Y sobre X y la de X sobre Y no coinciden. Sin embargo, siempre se cumple que:

Las rectas de regresión se cortan en el centro de gravedad, ( x , y ).
Las pendientes de las rectas de regresión son del mismo signo y coinciden en signo con el coeficiente de correlación.
El ángulo que forman las dos rectas de regresión varía según sea la correlación que hay entre las variables:

o Si | r | es próximo a 1, las rectas prácticamente coinciden. Coinciden exactamente cuando hay dependencia funcional entre las variables X e Y ( r = 1).

o Si r es próximo a cero, es decir, la correlación es casi nula, el ángulo que forman las rectas es casi un ángulo recto. Si X e Y son independientes, las rectas son perpendiculares entre sí y paralelas a los ejes.

Observa que la pendiente de la recta de regresión de Y sobre X es:

B =^ x y 2 x

σ σ

La variable Y toma dos valores, 1 y 2, que están muy alejados del resto. En la figura se ha representado la recta de regresión de Y sobre X y se aprecia su mal ajuste de la nube de puntos.

La recta de Tukey se calcula del siguiente modo:

Se ordenan los datos en orden creciente de las abcisas.
Se divide el conjunto ordenado de los datos en tres grupos:

G 1 = {(1, 9), (2, 11), (3, 13), {5, 13)} ; G 2 = {(6, 15), (7, 14), (8, 16), (9, 1)}

G 3 = {(10, 16), (12, 14), (14, 19), (21, 2)}

Para cada grupo Gi se halla el punto Pi = ( xi , yi ); donde xi e yi son, respectivamente, las medianas de las abscisas y de las ordenadas del grupo Gi , es decir:

Abscisas de G 1 : (1, 2, 3, 5) ⇒ x 1 = 2, Ordenadas de G 1 : (9, 11, 13, 13) ⇒ y 1 = 12

⇒ P 1 = (2,5; 12)

Abscisas de G 2 : (6, 7, 8, 9) ⇒ x 2 = 7, Ordenadas de G 2 : (1, 14, 15, 16) ⇒ y 2 = 14,

⇒ P 2 = (7,5; 14,5)

Abscisas de G 3 : (10, 12, 14, 21) ⇒ x 3 = 13 Ordenadas de G 3 : (2, 14, 16, 19) ⇒ y 3 = 15

⇒ P 3 = (13; 15)

La recta de Tukey pasa por el baricentro del triángulo P 1 , P 2 , P 3 y tiene la pendiente de la recta que pasa por P 1 y P 3.

Baricentro: xG =

= 7,67 ; yG =

El baricentro tiene por coordenadas G = (7,67; 13,83).

La pendiente de la recta que pasa por P 1 y P 3 es: m =

La ecuación de la recta de Tukey es:

y – 13,83 = 0,286 ( x – 7,67) ⇒ y = 0,286 x + 11,

Nota : Observa que el número de datos en este caso es n = 12, múltiplo de 3, y, por tanto, cada grupo está formado por 4 datos. Si el número de datos n no es múltiplo de 3, puede ocurrir que:

Sea múltiplo de 3 más 1; en este caso, el grupo G 2 se deja con un dato más.
Sea múltiplo de 3 más 2; en este caso, el grupo G 2 se deja con un dato menos.

Ejercicio 14 : Sea la variable bidimensional dada por la siguiente tabla. X 1 2 3 4 5 6 7 8 9 Y 5 6 8 11 1 13 14 14 17 a) Halla la recta de Tukey. b) Halla la recta de regresión de Y sobre X. c) Representa la nube de puntos y las dos rectas obtenidas.

Solución : a) y = 4 11 3 3

x + ; b) y = 1,43 x + 2,74; c)