









Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
El análisis estadístico bidimensional a través de la construcción de tablas de frecuencias, la obtención de distribuciones marginales y condicionales, y la realización de regresiones lineales. Se incluyen ejemplos con datos de hijos y hijas de empleados, donde se calculan la media, covarianza y recta de regresión.
Tipo: Apuntes
1 / 16
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










30-50 50-70 70-90 90-110 Total 1.30-1.50 6 0 0 0 6 1.50-1.70 0 15 3 0 18 1.70-1.90 0 1 12 3 16 1.90-2.10 0 0 1 9 10 Total 6 16 16 12 50
Cuadro 2.1: Tabla de doble entrada por intervalos.
También es posible dar los datos con una tabla lineal. La que damos a continuación se refiere también al caso de los hijos e hijas de los empleados de la empresa. Los valores se han tomado de la tabla de doble entrada.
X = hijos 0 0 0 1 1 2 2 3 Y = hijas 0 1 2 0 1 0 1 1 frecuencias 1 1 1 2 1 1 2 1
Si llamamos X a la primera variable, que puede tomar los valores x 1 , x 2 ,... , xr y llamamos Y a la segunda variable, pudiendo tomar los valores y 1 , y 2 ,... , ys, la tabla de doble entrada sería de la siguiente forma:
y 1 y 2... yj... ys x 1 n 11 n 12... n 1 j... n 1 s n 1 • x 2 n 21 n 22... n 2 j... n 2 s n 2 • .. .
xi ni 1 ni 2... nij... nis ni• .. .
xr nr 1 nr 2... nrj... nrs nr• n• 1 n• 2... n•j... n•s N = n Donde nij representa el número de veces que se presenta la observación (xi, yj ). La última fila se obtiene sumando los elementos de la columna correspondiente y la última columna sumando los elementos de su misma fila:
ni• =
j
nij n•j =
i
nij
La suma de los ni• coincide con la suma de los n•j y vale N , el número total de pares de elementos de la muestra. En el caso de que sean muchos los posibles valores que pueda tomar la variable, agru- pamos los datos en intervalos. Obtendremos entonces una tabla de doble entrada equiva- lente a las tablas de tipo III para la variable unidimensional. La tabla de doble entrada que puede verse en la tabla 2.1 corresponde a la distribución conjunta de las variables Talla y Peso de los alumnos del instituto cuyos datos están en la tabla ?? de la página ??. Los datos se han clasificado en cuatro intervalos para el peso y otros cuatro para la talla.
También podemos construir tablas de frecuencias relativas sin más que dividir todos los elementos de la tabla por el número total de datos N. Así pues, denominamos frecuencia relativa de la pareja (xi, yj ) a
fr(xi, yj ) = fij =
nij N Es evidente comprobar que la suma de todas las frecuencias relativas es 1. Análoga- mente se pueden definir las cantidades fi• y f•j.
fi• =
j
fij =
ni• N f•j =
i
fij =
n•j N
La tabla de frecuencias relativas correspondiente a las variables peso y talla es la siguiente
30 − 50 50 − 70 70 − 90 90 − 110 T otal 1 , 30 − 1 , 50 0 , 12 0 0 0 f 1 • = 0, 12 1 , 50 − 1 , 70 0 0 , 30 0 , 06 0 f 2 • = 0, 36 1 , 70 − 1 , 90 0 0 , 02 0 , 24 0 , 06 f 3 • = 0, 32 1 , 90 − 2 , 10 0 0 0 , 02 0 , 18 f 4 • = 0, 2 T otal f• 1 = 0, 12 f• 2 = 0, 32 f• 3 = 0, 32 f• 4 = 0, 24 1
La representación gráfica más usual es la llamada Nube de Puntos o Diagrama de Dispersión. En el plano delimitado por dos ejes que sirvan para representar las variables X e Y se dibuja un punto (x, y) por cada vez que las variables tomen este par de valores. Si coinciden varias observaciones en un mismo punto puede optarse por dibujar un pequeño círculo de radio proporcional a su frecuencia o indicar en la gráfica esta frecuencia al lado del punto. Otra manera de representar los datos es mediante un diagrama de barras tridi- mensional. Sobre cada punto del plano se levanta una barra de altura proporcional a su frecuencia. Queda por tanto un gráfico tridimensional. En el caso de que los datos vengan agrupados en intervalos se dibuja un histograma tridimensional, también llamado estereograma. Sobre cada uno de los rectángulos de- terminados por un intervalo de X y otro de Y se levanta un paralepípedo rectángulo. En este caso, su volumen ha de ser proporcional a la frecuencia con que aparecen los puntos contenidos en dicho rectángulo. A continuación aparece un estereograma para las variables Talla y Peso correspondientes a la tabla 2.1 de la página 3.
asociadas a los distintos valores xi de la variable X son las ni• y las de los yj son las n•j. Así pues, la distribución marginal de X se obtiene tomando, en la tabla de doble entrada, la primera y última columnas
x 1 n 1 • x 2 n 2 • .. .
xi ni• .. .
xr nr• N y la marginal de Y tomando la primera y última fila.
y 1 y 2... yj... ys n• 1 n• 2... n•j... n•s N Las frecuencias relativas de las distribuciones marginales se obtendrán dividiendo las frecuencias absolutas entre el número total de observaciones N. Es decir, la frecuencia relativa de xi será: f r(xi) = ni• N
= fi•
y la frecuencia relativa de yj será:
fr(yj ) =
n•j N = f•j
Las tablas de frecuencia relativa para la marginal correspondiente a la variable talla sería
Talla frec. relativa 1 , 30 − 1 , 50 f 1 • = 0, 12 1 , 50 − 1 , 70 f 2 • = 0, 36 1 , 70 − 1 , 90 f 3 • = 0, 32 1 , 90 − 2 , 10 f 4 • = 0, 2 Total 1
y la de la variable peso:
Peso frec. relativa 30 − 50 f• 1 = 0, 12 50 − 70 f• 2 = 0, 32 70 − 90 f• 3 = 0, 32 90 − 110 f• 4 = 0, 24 Total 1
En otras ocasiones nos interesará analizar los datos obtenidos por una de las variables cuando se presenta exactamente un determinado valor de la otra variable. Esta idea da lugar a las llamadas distribuciones condicionadas de frecuencias. Podemos estudiar la distribución de X condicionada a que la variable Y tome el valor yj. A esta variable la denotaremos por X/yj , obteniéndose a partir de la primera columna y la correspondiente al valor yj.
x 1 n 1 j x 2 n 2 j .. .
xi nij .. .
xr nrj T otal n•j También podemos estudiar la distribución de Y condicionada a que la variable X tome el valor xi. A esta variable la denotaremos por Y /xi, obteniéndose a partir de la primera fila y la correspondiente al valor xi.
y 1 y 2... yj... ys T otal ni 1 ni 2... nij... nis ni• Las frecuencias relativas de las distribuciones condicionadas se obtendrán dividiendo las frecuencias absolutas entre el número total de observaciones que cumplen la condición requerida, que en los casos anteriores son, respectivamente, n•j y ni•. Es decir, la frecuencia relativa de xi/yj será:
f r(xi/yj ) = nij n•j
fij f•j
y la frecuencia relativa de yj /xi será:
fr(yj /xi) =
nij ni•
fij fi•
La distribución del peso, condicionada a que la talla esté en el intervalo 1.70-1.90 viene dada en la tabla siguiente, donde se muestran la frecuencias absolutas de cada uno de los pesos de los individuos de cuya talla está en el intervalo de 1.70 a 1.90.
P eso 30 − 50 50 − 70 70 − 90 90 − 110 T otal F recuencia absoluta 0 1 12 3 16
Para obtener la tabla de frecuencias relativa hay que dividir estas frecuencias por el total de individuos de la talla considerada, que en este caso son 16. La tabla de frecuencias relativa para la distribución condicionada resulta:
P eso 30 − 50 50 − 70 70 − 90 90 − 110 T otal F recuencia relativa 0 161 = 0,0 625 1216 = 0. 75 163 = 0. 187 5 1616 = 1
2.2. Regresión y Correlación
Dos variables estadísticas se dicen dependientes cuando el conocimiento de que se ha presentado una determinada ocurrencia en una de ellas condiciona en algún sentido el valor que pueda tomar la otra. Así si observamos la nube de puntos de las variable peso
E[Y /xi] =
∑^ s
j=
f ij fi• yj
Es inmediato deducir que si X e Y son independientes se verifica que
E[X/yj ] = E[X] E[Y /xi] = E[Y ]
Las medidas vistas hasta ahora corresponden a distribuciones unidimensionales. Tam- bién existen parámetros conjuntos para ambas variables, característicos de la distribución bidimensional y que, como veremos más adelante, van a estar ligados a la dependencia de las variables. Una de estas medidas recibe el nombre de covarianza de las variables X e Y :
cov(X, Y ) = SXY =
∑^ r
i=
∑^ s
j=
fij (xi − X)(yj − Y )
Esta fórmula puede simplificarse hasta quedar:
cov(X, Y ) =
∑^ r
i=
∑^ s
j=
fij xiyj − X Y
Si las dos variables son independientes, se verifica que
cov(X, Y ) = 0
Nota: El recíproco no es cierto, pues si cov(X, Y ) = 0, entonces no significa que X e Y sean independientes. En muchas situaciones prácticas es frecuente encontrar que existe una cierta depen- dencia de tipo estadístico entre dos variables. Así, si estudiamos el peso de un coche y su gasto de combustible observaremos que guardan una cierta relación. Una relación de dependencia es de tipo funcional cuando podemos encontrar una función matemática de modo que para cada valor de X podamos encontrar el valor correspondiente de Y. En las dependencias de tipo estadístico, sin embargo, no es posible establecer tal función, y lo normal es que a un valor determinado de X le puedan corresponder distintos valores de Y. Si se representa la nube de puntos correspondiente a los datos observados es posible establecer la relación de dependencia entre las variables. En los casos de dependencia fun- cional se podría encontrar una función cuya gráfica pasara por todos los puntos dibujados. En el caso de la dependencia estadística se podría encontrar una función de modo que la distancia entre la nube de puntos y su gráfica sean pequeños. En la figura 2.2 se consideran ejemplos de nubes de puntos entre los que existe depen- dencia estadística de tipo lineal entre variables. En la figura 2.3 hay un primer diagrama en el que no existe dicha dependencia estadística y otro ejemplo en el que existiendo de- pendencia estadística no es de tipo lineal.
Consideramos N observaciones que son pares de valores del tipo (xi, yi). Si tomamos como variable independiente a X y como variable dependiente a Y , debemos de hallar
Figura 2.2: Dependencia estadistica de tipo lineal entre variables
Figura 2.3: No existe dependencia estadistica entre variables o bien no es lineal
(^) (^)
^ ^ ^
(^) (^) (^)
Operando obtenemos que las ecuaciones se convierten en:
i=
yi = b
i=
xi + N a
∑^ N
i=
yixi = b
i=
x^2 i + a
i=
xi
que recibe el nombre de sistema de ecuaciones normales. Dividiendo ambas ecuaciones por N obtenemos:
∑^ Y^ =^ b^ X^ +^ a N i=1 yixi N =^ b
i=1 x^2 i N +^ aX Para calcular los valores de a y b que son la únicas incognitas de este sistema hay que resolverlo. La primera ecuación del sistema
Y = a + bX (2.1)
nos indica que la recta de regresión de Y sobre X pasa por el punto (X, Y ), que es el centro de gravedad de la nube de puntos. Despejando en esta ecuación el valor de a y sustituyendo en la segunda ecuación del sistema obtenemos:
b =
que nos indica que el parámetro b de la recta de regresión puede calcularse como el cociente entre la covarianza y la varianza de la variable independiente. Este parámetro, llamado coeficiente de regresión de Y sobre X, representa la pendiente de la recta. Por tanto una expresión de la recta de regresión es
y − Y =
(x − X) (2.3)
que se obtiene usando la ecuación punto-pendiente de una recta. Usando las expresiones 2.1 y 2.2, o también operando en la ecuación 2.3 obtenemos que
a = Y −
Calculamos ahora la covarianza y la recta de regresión correspondiente a los datos de la siguiente tabla que se refieren a los hijos e hijas de los empleados de la empresa.
0 1 2 Marginal de X 0 1 1 1 3 1 2 1 0 3 2 1 2 0 3 3 0 1 0 1 Marginal de Y 4 5 1 total = 10
Comenzamos hallando la media de X e Y, ya que son necesarias para evaluar la cova- rianza e igualmente los coeficientes de la recta de regresión.
∑r i=
∑s j=1 fij^ (xi^ −^ X)(yj^ −^ Y^ ) = = 101 (0 − 1 ,2)(0 − 0 ,7) + 101 (0 − 1 ,2)(1 − 0 ,7) + 101 (0 − 1 ,2)(2 − 0 ,7)+
Para hallar la recta de regresión calculamos también la varianza de X. Usando la expresión alternativa de la varianza:
1 n
∑^ k
i=
nix^2 i − x^2 =
La recta de regresión es
(y − 0 ,7) = − 00 , 96 ,^04 (x − 1 ,2) y = − 4. 166 7 × 10 −^2 x + 0,7 5
Si calculamos la recta de regresión correspondiente a la nube de puntos representada en la figura 2.1 de la página 5, obtenemos
T alla = 0, 0094 × peso + 1, 038
La representación gráfica de esta última recta de regresión puede verse en la siguiente figura:
Recta de Regresión de la TALLA sobre el PESO
PESO
TALLA
33 53 73 93 113
Recta de regresión de y sobre x
x
y
0 0.5 1 1.5 2 2.5 3
0
2
Si cálculamos ambos parámetros en el caso de regresión lineal de la variable talla sobre la variable peso de los alumnos del instituto obtendremos:
r = coeficiente de Correlación = 0. R^2 = r^2 = coeficiente de Determinación = 0.
Como estos valores son cercanos al valor 1, nos indican un buen ajuste de los puntos a la recta de regresión. El signo de r coincide con el de SXY. Si r > 0 la recta tiene pendiente positiva, es decir cuando una variable crece la otra también. Si r < 0 cuando una variable crece la otra decrece. Si las variables son independientes, la covarianza es nula, y por tanto r = 0. El recíproco no tiene por qué ser cierto. La teoría de regresión nos permite hacer predicciones del valor que tomará la variable dependiente conociendo el valor que toma la variable independiente, sustituyendo el valor de esta última en la función de regresión. Hay que tener en cuenta, sin embargo, que las predicciones tienen mayor validez si se consideran valores de la variable cercanos a su media. Conforme los valores van estado más alejados de la media más arriesgada será la predicción, y por tanto existen riesgos en las extrapolaciones.
En la parte correspondiente a los ejercicios y ejemplos de este tema, vamos a describir otros tipos de ajustes como los parabólicos, logarítmicos, exponenciales, hiperbólicos, etc.