























Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
5.1 Medidas de Tendencia Central. 5.2. Medidas de Dispersión. 6.1 Variables Bidimensionales de Datos no Agrupados. • 6.1.1. Medias Aritméticas: Vector de Medias. 6.1.2. Varianzas. 6.2 Correlación Lineal 6.3. Regresión Lineal.
Tipo: Ejercicios
1 / 31
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
























En esta unidad estudiaremos el comportamiento estadístico conjunto de dos características o variables estadísticas unidimensionales sobre un mismo colectivo o población. Por ejemplo: − Horas de estudio y calificaciones en alumnos de bachillerato. − Calificaciones en matemáticas y lengua para los mismos alumnos. − Dinero gastado en publicidad y dinero obtenido por las ventas de cierta empresa.
Variable estadística bidimensional es el conjunto de pares de valores de dos caracteres o variables estadísticas unidimensionales X e Y sobre una misma población.
La variable estadística bidimensional se representa por el símbolo ( X , Y ) y cada uno de los individuos de la población viene caracterizado por la pareja ( xi , yi ), en el cual xi representa los datos, valores o marcas de clase x 1 , x 2 , ..., xn de la variable X ; e yi representa los datos, valores o marcas de clase y 1 , y 2 , ..., ym de la variable Y.
Se denominan distribuciones bidimensionales a las tablas estadísticas bidimensionales formadas por todas las frecuencias absolutas de todos los posibles valores de la variable estadística bidimensional ( X , Y ).
Las tablas estadísticas bidimensionales pueden ser: a) Simples. b) De doble entrada.
a) Las tablas estadísticas bidimensionales simples adoptan la siguiente forma: Variable X Variable Y Frecuencia absoluta x 1 y 1 f 1 x 2 y 2 f 2 M M M xi yi fi M M M xn ym fn i i
Ejemplo : A cada uno de los trabajadores de una empresa se les talla y pesa. Se trata de dos variables cuantitativas. X (tallas en m) 1,70 1,70 1,69 1, Y (peso en kg) 67 75 70 66
En este caso no aparecen las frecuencias absolutas porque habría un recluta con cada peso y talla, se podría añadir la fila correspondiente (o columna) con cada frecuencia absoluta igual a uno.
b) Las tablas estadísticas bidimensionales de doble entrada adoptan la siguiente forma: X Y x 1 x 2 · · · xi · · · xn F. absoluta de la variable Y y 1 f 1 1 f 2 1 · · · f (^) i 1 · · · fn 1 f • 1 y 2 f 1 2 f 2 2 · · · f (^) i 2 · · · fn 2 f • 2 M M M M M M M M yj f 1 j f 2 j · · · f (^) i j · · · fn j f • j M M M M M M M M ym f 1 m f 2 m · · · fi m · · · fn m f • m F. absoluta de la variable X f^1 •^ f^2 •^ · · ·^ fi^ •^ · · ·^ fn^ •^
Denotamos por f (^) ij a la frecuencia absoluta correspondiente al par ( xi , yj ) y por N al número total de individuos.
Ejemplo : Los datos obtenidos al estudiar las variables X = “número de goles marcados” e Y = “número de goles recibidos”, en 40 partidos jugados por el equipo campeón de la liga de fútbol sala, son: (5, 4), (4, 2), (6, 3), (4, 4), (3, 2), (6, 4), (3, 1), (4, 2), (4, 2), (6, 4), (4, 2), (5, 3), (3, 1), (2, 2), (4, 3), (3, 1), (4, 2), (5, 3), (5, 3), (4, 2), (3, 3), (1, 1), (4, 2), (5, 3), (3, 2), (5, 3), (6, 4), (4, 2), (5, 3), (2, 1), (3, 2), (6, 4), (5, 3), (4, 2), (4, 2), (3, 3), (3, 1), (2, 2), (6, 4), (5, 3)
Elaboramos la tabla de doble entrada siguiendo estos pasos:
− Construimos una tabla con tantas columnas como valores tome X y con tantas filas como valores tome Y en la distribución. Si observamos los datos, X toma los valores 1, 2, 3, 4, 5 y 6, e Y toma los valores 1, 2, 3 y 4. En este caso, la tabla constará de 6 columnas y 4 filas.
− Hallamos la frecuencia absoluta de cada par de valores de la variable ( X , Y ). Para ello contamos el número de veces que se repite ese par de valores en la distribución y lo anotamos en la casilla correspondiente. Así, por ejemplo, observa que el par (5, 4) aparece una sola vez; el (4, 2) aparece diez veces; y el (6, 1), ninguna.
1 2 3 4 5 6 Total 1 1 1 4 0 0 0 6 2 0 2 3 10 0 0 15 3 0 0 2 1 8 1 12 4 0 0 0 1 1 5 7 Total 1 3 9 12 9 6 40
Fíjate en que:
Ejercicio 1 : En una clase compuesta por 30 alumnos, se ha hecho un estudio sobre el número de horas diarias de estudio X y el número de suspensos Y , obteniéndose los siguientes resultados: (2, 0), (2, 2), (0, 5), (2, 1), (1, 2), (2, 1), (3, 1) (4, 0), (0, 4), (2, 2) (2, 1), (2, 1), (4, 0), (3, 1), (2, 4), (2, 1), (1, 2), (2, 1), (2, 0), (3, 0) (3, 2), (2, 2), (2, 2), (2, 1), (0, 5), (1, 3), (2, 2), (2, 1), (1, 3), (1, 4) Construye la tabla estadística bidimensional de doble entrada, y las tablas de las distribuciones marginales. Solución :
xi 0 1 2 3 4 Total fi 3 5 16 4 2 30
X Y^0 1 2 3 4 Totales 0 0 0 2 1 2 5 1 0 0 8 2 0 10 2 0 2 5 1 0 8 3 0 2 0 0 0 2 4 1 1 1 0 0 3 5 2 0 0 0 0 2 Totales 3 5 16 4 2 30
yi 0 1 2 3 4 5 Total fi 5 10 8 2 3 2 30
Considerando las distribuciones marginales, como distribuciones unidimensionales es posible calcular los siguiente parámetros:
x =
i i i
x f
N
; y =
j j j
y f
N
donde N es el número total de pares.
En una distribución bidimensional al punto ( x , y ) se le llama centro de gravedad de la distribución.
σ x^2 =
i i i
x x f
N
2 2 i i i
x f x N
; σ y^2 =
j j j
y y f
N
2 2
j j j
y f y N
Veamos un nuevo parámetro:
σ xy =
i j i j i i i j i j i j
x x y y f x y f x y N N
A la covarianza también se le llama varianza conjunta de las variables X e Y. Más adelante veremos el significado de este parámetro, así como su interpretación según el signo.
Ejemplo : Para las variables X = “número de goles marcados” e Y = “número de goles recibidos” del ejemplo que venimos siguiendo, podemos calcular sus parámetros.
Variable X (^) f (^) i • 1 2 3 4 5 6 1 3 9 12 9 6 40 = N Tabla de frecuencias marginales de la variable X
x =
σ x^2 =
2 2 2 2 2 2 1 ·1 2 ·3 3 ·9 4 ·12 5 ·9 6 ·6 (^) (4, 075) 2 40
Variable Y (^) f (^) • j 1 2 3 4
Tabla de frecuencias marginales de la variable Y
y =
σ y^2 =
2 2 2 2 1 ·6 2 ·12 3 ·15 4 ·7 (^) (2,575) 2 40
Para calcular la covarianza, podemos escribir la tabla de doble entrada como una tabla simple:
Variable ( X , Y ) f (^) i j (1, 1) (2, 1) (2, 2) (3, 1) (3, 2) (3, 3) (4, 2) (4, 3) (4, 4) (5, 3) (5, 4) (6, 3) (6, 4)
σ xy =
Ejercicio 2 : El número de horas dedicadas al estudio de una asignatura y la calificación final obtenida en el correspondiente examen por ocho personas vienen dados en la tabla de la derecha. Halla la media y la varianza de X , la media y la varianza de Y , y la covarianza. Solución : x = 24; σ x^2 = 36,75; y = 7,75; σ y^2 = 1,31; σ xy = 5,
X : Horas de estudio
Calificación del examen 20 16 34 23 27 32 18 22
Ejemplo : El número de horas dedicadas al estudio de una asignatura y la calificación final obtenida en el correspondiente examen por seis personas vienen dados en la tabla de la derecha. La nube de puntos o diagrama de dispersión es:
0
2
4
6
8
10
15 20 25 30 35 Horas de estudio
Nota en el examen
X : Horas de estudio
Calificación del examen 20 26 34 23 27 32
Ejemplo : En el caso de que cada par de valores ( xi , yj ) tenga una frecuencia mayor que uno, se suele dibujar el punto de modo que su tamaño sea proporcional a su frecuencia. Para el ejemplo anterior de X = “número de goles marcados” e Y = “número de goles recibidos” en 40 partidos, se obtiene el siguiente diagrama de dispersión:
0
1
2
3
4
5
0 1 2 3 4 5 6 7 Goles marcados
Goles recibidos
Ejercicio 4 : Realiza un diagrama de dispersión para los datos del ejercicio anterior en el que se relacionaban el número de horas diarias de estudio X y el número de suspensos Y , de 30 alumnos. Solución :
La etapa final de un estudio estadístico es el análisis de los datos con el fin de extraer conclusiones que puedan ser de interés. En especial, puede interesarnos estudiar si las dos variables unidimensionales que forman una variable bidimensional presentan algún tipo de relación entre ellas y cuáles son las características de esta relación.
Consideremos el siguiente ejemplo para entender mejor la relación entre variables. En una muestra de familias formadas por padre, madre y dos hijos, hemos estudiado las variables:
X = estatura del padre (cm) Y = gasto anual en energía eléctrica (€) Z = consumo anual de energía eléctrica (kW · h) W = ingresos familiares anuales (€)
Los valores de Y pueden determinarse exactamente a partir de los valores de Z si conocemos las tarifas de la compañía eléctrica.
Consideremos ahora las variables W y Z. Los valores de Z no pueden calcularse exactamente sólo conociendo los de W. Sin embargo, podemos suponer que consumirán menos energía eléctrica las familias con ingresos más modestos y, por el contrario, que consumirán más las familias con mayores recursos. Así pues, cabe esperar algún tipo de relación entre ambas variables, aunque no sea una relación exacta como en el caso anterior.
Finalmente, parece razonable pensar que no existe ninguna relación entre los valores de W y los de X.
Ejercicio 5 : Determina si entre los siguientes pares de variables existe dependencia funcional o estadística, o bien, si son independientes. a) Talla de zapatos y estatura. b) Color de cabello y profesión. c) Radio y longitud de la circunferencia. d) Cociente intelectual y peso. Solución : a) Dependencia estadística. b) Independientes. c) Dependencia funcional. d) Independientes.
4.1 Interpretación gráfica de la relación entre variables.
Hemos visto que la estudiar la relación entre dos variables pueden darse tres casos: independencia, dependencia funcional y una situación intermedia a la que llamamos dependencia estadística o correlación.
Ejercicio 6 : En una empresa de transportes trabajan 4 conductores. Los años de antigüedad de sus permisos de conducir y las infracciones cometidas en el último año por cada uno son los siguientes: X : Años de antigüedad 3 4 5 6 Y : Infracciones 4 3 2 1 Representa gráficamente los datos anteriores. Razona si estos muestran correlación positiva o negativa. Solución : Según se aprecia en el diagrama de dispersión, existe una relación lineal negativa funcional.
Ejercicio 7 : En la siguiente tabla se recoge la evolución del IPC (índice de precios al consumo) y el precio del barril de petróleo (brent) durante el segundo semestre de 2007. IPC (%) 2,4 2,2 2,2 2,7 3,6 4, Precio del barril ($) 71,54 77,01 70,73 76,87 82,50 90, ¿Se puede asegurar que la evolución del IPC está directamente relacionada con el precio del petróleo? Solución : Sí, existe una correlación lineal positiva fuerte.
Como acabamos de ver, si se representan sobre unos ejes de coordenadas la nube de puntos correspondiente a la variable bidimensional, se puede apreciar de forma visual la existencia o no de relación entre las dos variables. Si la nube de puntos se condensa en torno a una recta, existe una correlación lineal entre las variables. Para muchos fenómenos y aplicaciones es de gran interés cuantificar de forma más objetiva y precisa esta correlación.
La covarianza, σ xy , es un indicador numérico del grado de relación lineal que existe entre las dos variables. Además su signo nos indica el sentido de la correlación. Veámoslo. Si se calcula el centro
de gravedad ( x , y ) y se toman unos ejes con el origen en este centro, se observa:
A pesar de que la covarianza es un indicador de la asociación lineal entre las dos variables, esta presenta dificultades:
Por tanto, la covarianza no indica de forma precisa la medida de la relación entre las dos variables. Para salvar estas dificultades, se define un nuevo parámetro que nos cuantifica correctamente la dependencia. Es el llamado coeficiente de correlación lineal de Pearson.
El coeficiente de correlación de Pearson se representa por r y es el cociente entre la covarianza y el producto de las desviaciones típicas marginales de X e Y :
r = x y x y
σ σ σ
–0,
0 0,
1
Dependencia funcional negativa (^) Correlación negativa fuerte
Correlación negativa débil
Correlación positiva débil
Correlación positiva fuerte
Dependencia funcional positiva
Correlación negativa moderada
Correlación positiva moderada
Ninguna correlación
Así, podemos resumir en el siguiente diagrama el grado de correlación lineal:
Ejemplo : La cotización en bolsa (en cientos de euros) de dos empresas A y B , a lo largo de 6 días de sesión son los siguientes: X = Empresa A 8 7 6 5 7 8 Y = Empresa B 6 5 4,5 4 4,5 5 Calcula el coeficiente de correlación de Pearson e interpreta el resultado.
En primer lugar debemos calcular las medias y desviaciones típicas de cada una de las empresas, así como la covarianza:
x = = 6,833 ;
y = = 4,
(^2 287) 6,833 2 6
σ (^) x = − = 1,143 ⇒ σ (^) x = 1,143 = 1,
2 142,5^ 4,833 2 6
σ (^) y = − = 0,392 ⇒ σ (^) y = 0,392 = 0,
σ (^) xy =
Así, el coeficiente de correlación de Pearson es:
r = x y x y
σ σ σ
El valor de este coeficiente indica una correlación lineal positiva fuerte por su proximidad a 1, lo que debe interpretarse como que ambos valores cotizan al alza o a la baja simultáneamente.
Ejercicio 8 : Los números 0; 0,8 y 1 son los valores absolutos del coeficiente de correlación de las distribuciones bidimensionales cuyas nubes de puntos aparecen a continuación:
Asigna a cada diagrama su coeficiente de correlación, cambiando el signo cuando sea necesario. Solución : Primero: 0,8; Segundo: –1; Tercero: 0
Ejercicio 9 : Las puntuaciones en Matemáticas y Física de siete alumnos han sido las siguientes: Matemáticas 8 8 6 7 8 6 2 Física 7 7,5 5 7 7,5 5 7 Calcula el coeficiente de correlación de esas dos variables para los siete alumnos. Solución : Medias: x = 6,43; y = 6,57; Varianzas: σ x^2 = 3,959; σ y^2 = 1,031; Covarianza: σ xy = 0,4694; Coeficiente de correlación: r = 0,
Uno de los objetivos que se persiguen, al estudiar conjuntamente dos variables X e Y , es encontrar alguna manera de predecir los valores de una de ellas conocidos los de la otra. En este sentido, es lógico pensar que, si hay una curva en torno a la cual se agrupan los puntos de un diagrama de dispersión, ésta ha de dar una aproximación de los valores reales.
Al análisis que pretende determinar la curva que mejor aproxima un diagrama de dispersión se le llama regresión. En este curso estudiaremos el caso de la regresión lineal, es decir, la determinación de la recta que mejor aproxima una nube de puntos.
Es fácil hallar una recta que se ajuste aproximadamente a una distribución. Basta con dibujar la que a simple vista nos parezca más representativa de la nube de puntos. Sin embargo, éste es un método subjetivo. Para evitar este problema se considera algún criterio que permita determinar objetivamente la recta que se ajusta mejor a la distribución. Estas rectas se determinan haciendo que se cumplan las siguientes condiciones:
a) Tienen que pasar por el centro de gravedad ( x , y ).
donde yi es el valor de la ordenada de cada punto de la nube e yi es la ordenada del punto de la recta (criterio de los mínimos cuadrados ).
Aclaremos esta segunda condición:
Sea $ y = mx + n la ecuación de la recta que mejor se aproxima a la nube de puntos. Al valor xi de la variable X le corresponde el valor yi = mxi + n. El error cometido por la aproximación es la diferencia di = yi – yi. La condición para calcular m y n es que la suma de los errores al cuadrado sea mínima. Se demuestra que dicha suma es mínima si:
m =^ x y 2 x
σ σ
y n =^ x y 2 x
y x
σ − σ
La ecuación de la recta de regresión de Y sobre X es:
x y x
y y x x
σ − = − σ
6.2 Valoración de las predicciones.
La recta de regresión nos permite predecir valores de una variable a partir de los de la otra. No obstante, hay que tener siempre presente que existen las siguientes limitaciones:
Ejercicio 13: ¿Cuál sería la fiabilidad de un ajuste bidimensional con r = 0,7? ¿Y con r = –0,8? ¿Y con r = 0,9? Solución : 49 %, 64 % y 81 %, respectivamente.
Ejemplo : Las notas obtenidas por cinco alumnos en matemáticas y música son las siguientes: Matemáticas ( X ) 6 4 8 5 3, Música ( Y ) 6,5 4,5 7 5 4 a) Determina la recta de regresión de Y sobre X y represéntala. b) Halla la nota de música de un alumno que tiene 7,5 en matemáticas. c) Determina la recta de regresión de X sobre Y y represéntala. d) Halla la nota de matemáticas de un alumno que tiene 6 en música.
Primero representamos la nube de puntos. Los datos se agrupan en torno a una recta, por tanto tiene sentido calcular la recta de regresión. Para hallar las rectas de regresión calculamos los parámetros marginales de X e Y y la covarianza. 26, 5
x = = 5,3 ;
y = = 5,
2 153, 25^ 5,3 2 x 5 σ = − = 2,56 ⇒ σ (^) x = 2,56 = 1,
2 152,5^ 5, 4 2 y 5 σ = − = 1,34 ⇒ σ (^) y = 1,34 = 1,
σ (^) xy =
a) Recta de regresión de Y sobre X :
y – 5,4 = 0,7 ( x – 5,3) ⇒ y = 0,7 x + 1,
b) Se sustituye x = 7,5 en la ecuación obtenida:
y = 0,7 · 7,5 + 1,69 = 6,
Es decir, si un alumno obtuvo un 7,5 en matemáticas, se espera que obtenga un 6,94 en música.
c) Recta de regresión de X sobre Y :
x – 5,3 = 1,33 ( y – 5,4) ⇒ x = 1,33 y – 1,
d) Se sustituye y = 6 en la ecuación obtenida:
x = 1,33 · 6 – 1,88 = 6,
Es decir, si un alumno obtuvo un 6 en música, se espera que obtenga un 6,1 en matemáticas.
Ejercicio 10 : En cierto país, el tipo de interés y el índice de la Bolsa en los últimos seis meses vienen dados por la siguiente tabla: Tipo de interés (%) 8 7,5 7,2 6 5,5 5 Índice 120 130 134 142 150 165 Halla el índice previsto de la Bolsa en el séptimo mes, suponiendo que el tipo de interés en ese mes fue del 4,1 %, y analiza la fiabilidad de la predicción, según el valor del coeficiente de correlación. Solución : x = 6,53; σ x = 1,12; y = 140,17; σ y = 14,48; σ xy = –15,01; y = –12,008 x + 218,58; y (4,1) = 169,35 es el índice de Bolsa esperado para el siguiente mes; r = –0,93 ⇒ el resultado obtenido es fiable.
Ejercicio 11 : Como consecuencia de un estudio estadístico realizado sobre 100 universitarios, se ha obtenido una estatura media de 155 cm, con una desviación típica de 15,5 cm. Además se obtuvo la recta de regresión y = 80 + 1,5 x (siendo X el peso e Y la altura). Determina el peso medio de estos 100 universitarios. Solución : x = 50 kg.
6.3 Comparación de las dos rectas de regresión.
En general, la recta de regresión de Y sobre X y la de X sobre Y no coinciden. Sin embargo, siempre se cumple que:
o Si | r | es próximo a 1, las rectas prácticamente coinciden. Coinciden exactamente cuando hay dependencia funcional entre las variables X e Y ( r = 1).
o Si r es próximo a cero, es decir, la correlación es casi nula, el ángulo que forman las rectas es casi un ángulo recto. Si X e Y son independientes, las rectas son perpendiculares entre sí y paralelas a los ejes.
B =^ x y 2 x
σ σ
La variable Y toma dos valores, 1 y 2, que están muy alejados del resto. En la figura se ha representado la recta de regresión de Y sobre X y se aprecia su mal ajuste de la nube de puntos.
La recta de Tukey se calcula del siguiente modo:
Abscisas de G 1 : (1, 2, 3, 5) ⇒ x 1 = 2, Ordenadas de G 1 : (9, 11, 13, 13) ⇒ y 1 = 12
Abscisas de G 2 : (6, 7, 8, 9) ⇒ x 2 = 7, Ordenadas de G 2 : (1, 14, 15, 16) ⇒ y 2 = 14,
Abscisas de G 3 : (10, 12, 14, 21) ⇒ x 3 = 13 Ordenadas de G 3 : (2, 14, 16, 19) ⇒ y 3 = 15
Baricentro: xG =
= 7,67 ; yG =
El baricentro tiene por coordenadas G = (7,67; 13,83).
La pendiente de la recta que pasa por P 1 y P 3 es: m =
La ecuación de la recta de Tukey es:
y – 13,83 = 0,286 ( x – 7,67) ⇒ y = 0,286 x + 11,
Nota : Observa que el número de datos en este caso es n = 12, múltiplo de 3, y, por tanto, cada grupo está formado por 4 datos. Si el número de datos n no es múltiplo de 3, puede ocurrir que:
Ejercicio 14 : Sea la variable bidimensional dada por la siguiente tabla. X 1 2 3 4 5 6 7 8 9 Y 5 6 8 11 1 13 14 14 17 a) Halla la recta de Tukey. b) Halla la recta de regresión de Y sobre X. c) Representa la nube de puntos y las dos rectas obtenidas.
Solución : a) y = 4 11 3 3
x + ; b) y = 1,43 x + 2,74; c)