























Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Ejercicios bidimensional, con 2 variables y calcular medidas de tendencia central
Tipo: Ejercicios
1 / 31
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
























Con frecuencia, nos encontramos con un fenómeno que tiene dos o más características
observables con la intención de explicar el comportamiento de una de ellas a partir de otra u otras. Así
por ejemplo, podemos considerar el fenómeno familia y dentro de él una serie de variables, a saber:
renta, consumo, número de hijos, nivel educativo de los padres, edad del cabeza de familia, lugar de
residencia, número de teléfonos móviles, etc., pudiendo estar interesados en estudiar el consumo de “k”
familias en función de la renta de las mismas, inicialmente, para después ir añadiendo otras variables
explicativas.
En otras ocasiones, se trata de relacionar dos fenómenos distintos, como por ejemplo mercado
de capitales y empresa, observando la influencia del nivel de tipos de interés sobre el volumen de
inversión de cierta empresa a través de los datos de los últimos “n” trimestres
1
Pues bien, se llama variable estadística bidimensional al conjunto de pares de valores (X,Y) en
que se puede concretar una observación conjunta cualquiera, ya sea procedente de dos características
de un mismo fenómeno o de dos fenómenos.
Esta variable estadística bidimensional puede presentarse de dos formas:
a) Con observaciones sin agrupar:
ୀଵ..ே
Describiendo los N pares de observaciones repetidos o no.
b) Con observaciones agrupadas por frecuencias:
ୀଵ.. ୀଵ..
Describiendo cualquier par de observaciones (x i
, y j
) observado n ij
veces de la variable (X,Y)
1
En el primer ejemplo estaríamos hablando de datos de sección cruzada o de corte transversal, porque
se toman en un mismo momento, mientras que en el segundo se trataría de datos tomados en distintos
periodos de tiempo o en series temporales.
Fórmula 4.
ୀଵ
Paralelamente, la última fila incluye el número de pares de observaciones en los que la segunda
componente del par ha sido el valor y j
correspondiente de la variable Y, también llamado frecuencia
absoluta marginal del valor y j
que se calcula como sigue:
Fórmula 4.
ଵ
ଶ
ୀଵ
Obtendremos tantas frecuencias marginales de Y como valores presenta la variable.
De igual modo, la suma de todas las frecuencias absolutas marginales de Y nos proporcionará
en número total de pares de observaciones consideradas:
Fórmula 4.
ୀଵ
Cuando las frecuencias absolutas conjuntas n ij
se dividen entre N se obtienen frecuencias
relativas conjuntas, ofreciendo otra forma de definir una distribución conjunta de frecuencias:
ୀଵ.. ୀଵ..
Tabla 4.2: Tabla de correlación o contingencia de frecuencias relativas
y 1
y 2 ...
y j ...
y k f i
x 1 f 11 f 12 … f1j … f1k f 1.
x 2 f 21 f 22 … f2j … f2k f 2.
xi fi1 fi2 … fij … fik fi.
xh fh1 fh2 … fhj … fhk fh.
f.j f. 1 f. 2 … f.j … f.k 1
Cumpliéndose que la suma de todas las frecuencias relativas conjuntas es la unidad:
Fórmula 4.
ୀଵ
ୀଵ
Ahora, la última columna de la tabla contiene las frecuencias relativas marginales de los
distintos valores de la variable X, que se obtendrán como suma de las respectivas frecuencias relativas
conjuntas:
Fórmula 4.
ଵ
ଶ
ୀଵ
O como cociente entre la frecuencia absoluta correspondiente y la frecuencia total:
Fórmula 4.
La suma de todas las frecuencias relativas marginales de los valores de la variable X dará como
resultado la unidad:
Fórmula 4.
ୀଵ
Por su parte, la última fila de la tabla incluye las frecuencias relativas marginales de los
diferentes valores de la variable Y, cuyo cálculo se obtiene como suma de frecuencias relativas
conjuntas o como cociente entre la frecuencia absoluta respectiva y la frecuencia total:
Fórmula 4.
ଵ
ଶ
ୀଵ
Fórmula 4.
Igualmente, la suma de las frecuencias relativas marginales de los distintos valores de la
variable Y da como resultado la unidad:
Son distribuciones unidimensionales que surgen al fijar en una variable bidimensional (X,Y)
un valor de una de las variables (condicionante) y considerar la distribución de valores de la otra
(condicionada). Se obtienen así, k distribuciones condicionadas de X y h de Y; en total h+k:
X/Y=y j
para j=1…k. La distribución está constituida por los pares de observaciones
(X,Y) en los que la segunda componente del par es y j
. Se fija y j
en la tabla de
correlación o de contingencia y se consideran los valores de la variable condicionada
(X) con las frecuencias conjuntas respectivas:
y 1
y 2 ...
y j ...
y k ni.
x 1
n 11
n 12
… n 1j
… n 1k
n 1
x 2
n 21
n 22
… n 2j
… n 2k
n 2
x i
n i
n i
… n ij
… n ik
n i
x h
n h
n h
… n hj
… n hk
n h
n. j
n. 1
n. 2
… n. j
… n. k
La distribución resultante es la siguiente:
Tabla 4.5: Distribución condicionada de X por el valor y j
de Y
xi/yj ni/j fi/j
x 1 n1j f1/j
x 2
n 2j
f 2/j
xi nij fi/j
xh nhj fh/j
Suma n.j 1
Donde la suma de las frecuencias absolutas condicionadas será igual al número de pares en los
que la segunda componente del par es y j
, es decir, la frecuencia absoluta marginal de y j
, que se obtiene
a partir de la Fórmula 4.4. Por su parte, la frecuencia relativa condicionada se calcula a partir del
cociente entre la frecuencia absoluta respectiva y la frecuencia absoluta marginal de y j
Fórmula 4.
/
Y/X=xi para i=1…h. La distribución está constituida por los pares de observaciones
(X,Y) en los que x i
aparece como primera componente del par. De forma análoga al
caso anterior, se fija x i
en la tabla de correlación o de contingencia y se consideran los
valores de la variable condicionada (Y) con las frecuencias conjuntas respectivas:
y 1 y 2 ... yj ... yk n i
x 1 n 11 n 12 … n1j … n1k n 1.
x 2 n 21 n 22 … n2j … n2k n 2.
xi ni1 ni2 … nij … nik ni.
xh nh1 nh2 … nhj … nhk nh.
n.j n. 1 n. 2 … n.j … n.k N
La distribución que se obtiene es la siguiente:
Tabla 4.6: Distribución condicionada de Y por el valor xi de X
y j
/x i
n j/i
f j/i
y 1
n i
f 1/i
y 2 ni2 f2/i
y j
n ij
f j/i
y k
n ik
f k/i
Suma n i
El número total de pares de valores (X,Y) en los que x i
es el primer componente del par, es
decir, la frecuencia absoluta marginal de x i
será el resultado obtenido al sumar las frecuencias absolutas
de la distribución condicionada, según se documenta en la Fórmula 4.2; en tanto que la frecuencia
relativa condicionada se calcula como sigue:
Fórmula 4.
/
Si medimos el peso de los pares de observaciones (X,Y) en términos relativos, el resultado es el
siguiente:
Y
X 0 1 2 3 4 fi.
1 0,0286 0,1714 0,0571 0 0 0,
2 0 0,0571 0,1714 0,0286 0 0,
3 0 0 0,1429 0,0857 0,0286 0,
4 0 0 0,0857 0,1143 0,0286 0,
f.j 0,0286 0,2286 0,4571 0,2286 0,0571 1
En virtud de ello, podemos decir, por ejemplo, que la situación más frecuente en la variable
bidimensional estudiada es la de familias con un solo miembro y un único teléfono móvil o familias con
dos miembros y dos teléfonos. Obsérvese, asimismo, que ahora las frecuencias relativas suman la
unidad.
A continuación, con la primera columna de cualquiera de las tablas de contingencia elaboradas y las de
las frecuencias marginales (n i
. y f i
.) elaboraríamos la distribución marginal de la variable X, en tanto
que con la primera y últimas filas de las tablas construiríamos la distribución marginal de la variable Y,
con las interpretaciones ya efectuadas:
x i
n i.
f i.
1 9 0,
2 9 0,
3 9 0,
4 8 0,
Suma 35 1
yj n.j f.j
0 1 0,
1 8 0,
2 16 0,
3 8 0,
4 2 0,
Suma 35 1
Además, podemos estar interesados en construir la distribución condicionada de Y al valor x i
= 2 de X,
lo que es tanto como decir que nos vamos a fijar en el número de teléfonos móviles que han declarado
tener las familias de dos miembros. Una herramienta que nos puede ayudar es fijar en la tabla de
correlación el valor x i
= 2 y observar las frecuencias conjuntas para cada valor de Y:
Y
X 0 1 2 3 4 n i.
1 1 6 2 0 0 9
2
0 2 6 1 0 9
3 0 0 5 3 1 9
4 0 0 3 4 1 8
n.j 1 8 16 8 2 35
El número de teléfonos móviles constituiría los valores de la variable en la distribución condicionada,
en tanto que las frecuencias que aparecen en la fila fijada serían las que habría que considerar para las
frecuencias absolutas condicionadas. Las frecuencias relativas respectivas se obtendrían por cociente
entre las frecuencias absolutas condicionadas y la frecuencia absoluta marginal, haciendo uso de la
Fórmula 4.14:
ଵ/ୀଶ
ଶ/ୀଶ
ଷ/ୀଶ
y j
n j/i=
f j/i=
0 0 0
1 2 0,
2 6 0,
3 1 0,
4 0 0
Suma 9 1
Se dice que la variable Y es independiente de la variable X cuando las “h” distribuciones
condicionadas Y/X=x i
son iguales entre sí e iguales, a su vez, a la distribución marginal de Y, lo que
probaría que la variable X no afecta a la variable Y. Esta condición implica la igualdad entre las frecuencias
relativas respectivas, como se expone a continuación:
Fórmula 4.
/ଵ
/ଶ
/
/
Que se podría resumir en la expresión:
/
Expresión que a partir de la Fórmula 4.14 y de la Fórmula 4.11 podemos poner como:
Fórmula 4.
Y que resulta equivalente a:
Fórmula 4.
Igualdad que, a partir de la Fórmula 4.13 y de la Fórmula 4.8 se puede poner como:
Fórmula 4.
/
Que desarrollando para j nos lleva a:
/ଵ
/ଶ
/
/
Condición que implica la igualdad entre las “k” distribuciones condicionadas X/Y=y j
y la
distribución marginal de X, o lo que es lo mismo, que la variable X es independiente de la variable Y. Por
lo tanto, queda demostrado que la independencia es recíproca, es decir, que si Y no depende de X tampoco
X va a depender de Y.
Por otro lado, si despejamos la frecuencia absoluta conjunta de la Fórmula 4.17 quedaría:
Fórmula 4.
Y dividiendo por N a ambos lados de la ecuación resulta la condición necesaria y suficiente de
independencia para distribuciones bidimensionales agrupadas por frecuencias:
Fórmula 4.
Que consiste en que toda frecuencia relativa conjunta se debe poder calcular como producto de las
frecuencias relativas marginales. Si se cumple esta condición, aplicable tanto a variables cuantitativas como
cualitativas, podemos afirmar que las variables X e Y son independientes. Sin embargo, en la práctica es
muy difícil que se de esta situación, aunque las variables no tengan nada que ver, debido a que es una
condición muy exigente. Con que haya una de las frecuencias relativas conjuntas que no verifique dicha
igualdad, las variables no serán independientes.
En el lado opuesto se sitúa la dependencia funcional entre variables cuantitativas o la asociación
perfecta entre atributos. Pasamos a continuación a valorar aquella, dejando para el epígrafe siguiente el
estudio del grado de asociación entre variables cualitativas.
La dependencia funcional se establece a partir de una relación matemática. En este sentido,
decimos que la variable Y depende funcionalmente de la variable X si a cada valor x i
de X le corresponde
un único valor y i
a la Y, pero al menos un valor de Y está relacionado con más de un valor de X. Esta
situación se traduce en una tabla de correlación en la que existiría una única frecuencia relativa conjunta
distinta de cero en cada fila, pero al menos una columna con más de una frecuencia distinta de cero:
Tabla 4.7: Ejemplo de tabla de correlación donde Y depende funcionalmente de X
y 1
y 2
y 3 f i
x 1
0 f 12
≠0 0 f 1
.=f 12
x 2
0 f 22
≠0 0 f 2
.=f 22
x 3
f 31
≠0 0 0 f 3
.=f 31
x 4
0 0 f 43
≠0 f 4
.=f 43
f. j
f. 1
f. 2
f. 3
Paralelamente, se dice que la variable X depende funcionalmente de la variable Y si a cada valor
y j
de Y le corresponde un único x i
de X, pero al menos un valor de X está relacionado con más de un valor
de Y. La tabla de correlación consiguiente tendría una única frecuencia relativa conjunta no nula en cada
columna pero al menos una fila con más de una frecuencia relativa conjunta distinta de cero:
Gráfico 4.1: Independencia y dependencia funcional lineal
Ahora bien, cuando tratamos de valorar la relación existente entre el consumo de una familia y su
nivel de renta o entre el volumen de inversión de una empresa y el tipo de interés nos vamos a encontrar
con situaciones intermedias, entre la ausencia total de relación y la dependencia funcional, en las que
diremos que las variables consideradas mantienen una dependencia estadística, que habrá que analizar,
tanto en lo que respecta a la forma de la función que las liga (regresión), como al grado de intensidad de la
misma (correlación):
Gráfico 4.2: La relación de dependencia entre dos variables cuantitativas
También hay que decir que en algunos casos nos encontraremos con distribuciones
bidimensionales en las que los pares de observaciones son únicos, en el sentido de que ninguno de sus
valores se repiten, como en el caso del fenómeno familia comentado anteriormente, cuando estudiamos las
variables consumo y renta o en el fenómeno empresa si analizamos la inversión de una compañía y sus
consumos energéticos. Estas situaciones se producen por el carácter continuo de las variables, por lo que
no podemos aceptar la dependencia funcional biunívoca entre las mismas aunque formalmente se dé dicha
condición. Como tampoco cumplirán la condición de independencia, procederemos a estudiar la
dependencia estadística.
X e Y son independientes Y depende funcionalmente de X
𝑦 = 𝑓(𝑥) = 𝑎 + 𝑏𝑥
Dependencia
funcional
Independencia
estadística
Dependencia
estadística
Esta dependencia no exacta, no matemática es el tipo de relación que mantienen las variables que
se estudian en el ámbito de las ciencias sociales, en las que los modelos nunca recogen todas las posibles
variables explicativas de un cierto fenómeno, porque, en última instancia, contienen un comportamiento
aleatorio que se deriva de la naturaleza humana del tipo de fenómenos que analizan y que incluyen, además,
errores de medida.
Ejemplo 4.
Vamos a discutir la dependencia o independencia de las variables contempladas en el Ejemplo 4.1,
empleando dos vías. En la primera vamos a elaborar otra distribución condicionada y a comprobar si se
verifica la igualdad entre las frecuencias condicionadas y las marginales (condición de independencia); en
la segunda veremos si se cumple la condición necesaria y suficiente de independencia.
a) Construimos la distribución Y/X=4:
yj nj/i=4 fj/i=
0 0 0
1 0 0
2 3 0,
3 4 0,
4 1 0,
Suma 8 1
Al comparar esta distribución condicionada con la anterior Y/X=2 del citado ejemplo podemos
observar que sólo son iguales las frecuencias condicionadas de la observación y 1
(cero en ambos casos), ya
que para el resto de las observaciones las frecuencias condicionadas son diferentes. Al no cumplirse esta
condición ya podríamos afirmar que las variables X e Y no cumplen la condición de independencia. El
cuadro siguiente con la totalidad de las frecuencias condicionadas y marginales de la variable Y permite,
no obstante, una comparativa completa en la que se aprecia el incumplimiento de la condición de
independencia expresada con la Fórmula 4.15:
y j
f j/i=
f j/i=
f j/i=
f j/i=
f j
.
0 0,1111 0 0 0 0,
1 0,6667 0,2222 0 0 0,22 86
2 0,2222 0,6667 0,5556 0,375 0,
3 0 0,1111 0,3333 0,5 0,
4 0 0 0,1111 0,125 0,
Suma 1 1 1 1 1
b) Para comprobar el cumplimiento de la condición necesaria y suficiente de independencia de la
Fórmula 4.20 recurrimos a la tabla de correlación, expresada en sus frecuencias relativas:
ଷହ
ଷ
ହ
ଵଷ
ଵ
ଷ
Por consiguiente, en esta situación habríamos concluido que las variables son independientes.
Antes de adentrarnos en el estudio de la dependencia estadística en variables cuantitativas, lo que
haremos en el tema siguiente, vamos a analizar algunos estadísticos utilizados para medir el grado de
asociación existente entre dos atributos X e Y que se presentan con h y k categorías, respectivamente, y
cuyas frecuencias conjuntas, absolutas o relativas, se incluirán en una tabla de contingencia como la Tabla
4.1 y cuyo grado de asociación puede variar desde la independencia estadística, algo que se dará si se
cumple la condición dada por la Fórmula 4.20, hasta la asociación perfecta.
4.5.1.1. Coeficiente Chi-cuadrado de Pearson (𝝌
𝟐
Si designamos por 𝐸
las frecuencias esperadas conjuntas de una tabla de contingencia de dos
atributos que fueran independientes, dichas frecuencias deberían de cumplir la condición dada por la
Fórmula 4.19:
Fórmula 4.
En consecuencia, dos atributos cuyas frecuencias conjuntas 𝑛
se alejaran de 𝐸
nos inducirían a
pensar en la existencia de asociación entre ambos, tanto más intensa cuanto mayores fueran las diferencias.
Pues bien, el coeficiente Chi-cuadrado de Pearson se define como:
Fórmula 4.
ଶ
ଶ
ୀଵ
ୀଵ
De tal forma que cuando 𝜒
ଶ
= 0 las variables son independientes, mientras que cuanto más alto
sea su valor más fuerte será el grado de vinculación entre las variables consideradas. No obstante, esta
medida presenta el inconveniente de que su valor máximo depende de N y del número de categorías de las
variables, a partir de lo siguiente:
ଶ
𝑑𝑜𝑛𝑑𝑒: 𝑚 = 𝑚í𝑛(ℎ; 𝑘)
4.5.1.2. Coeficiente de contingencia de Pearson (C)
Es una medida derivada de la anterior, que se formula así:
Fórmula 4.
ଶ
ଶ
Y cuyo máximo también depende del número de categorías de las variables estudiadas:
𝑑𝑜𝑛𝑑𝑒: 𝑚 = 𝑚í𝑛(ℎ; 𝑘)
4.5.1.3. La V de Cramer
Estadístico que también procede de la Chi-cuadrado de Pearson y que obedece a la siguiente
expresión:
Fórmula 4.
ଶ
Cuya virtud radica en que, al margen del tamaño muestral y del número de filas y columnas de la
tabla de contingencia, el valor mínimo que puede tomar es cero (indicando independencia), en tanto que el
máximo es uno (en caso de asociación perfecta).
4.5.1.4. La Q de Yule
Es una medida aplicable a tablas de contingencia cuadradas en las que cada variable se presenta
con sólo dos modalidades