Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Docsity AI

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

Ejercicios bidimensional, Ejercicios de Estadística Aplicada

Universidad Rey Juan Carlos (URJC)Estadística Aplicada

Ejercicios bidimensional, con 2 variables y calcular medidas de tendencia central

Tipo: Ejercicios

2021/2022

Subido el 01/06/2023

elena-garcia-a2j 🇪🇸

7 documentos

1 / 31

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

“Estadística para los Grados en Ciencias Sociales” © Julio Hernández March

CAPÍTULO 4: ANÁLISIS DE DATOS BIDIMENSIONALES

Descubre Ejercicios de Estadística Aplicada Universidad Rey Juan Carlos (URJC)

Documentos relacionados

Estadística bidimensional

(1)

Ejercicios bidimensional

tipo test análisis bidimensional

Distribución Bidimensional

analisis bidimensional

Análisis de una variable bidimensional: Distribuciones, Momentos y Dependencia

(4)

Análisis Estadístico Bidimensional: Correlación y Regresión

FORMULAS BIDIMENSIONAL

(1)

TEMA 2. ANALÍSIS ESTADÍSTICO BIDIMENSIONAL

Análisis de la Relación entre Dos Variables: Correlación Bidimensional y Regresión Lineal

Variable bidimensional

movimiento bidimensional

Vista previa parcial del texto

¡Descarga Ejercicios bidimensional y más Ejercicios en PDF de Estadística Aplicada solo en Docsity!

CAPÍTULO 4: ANÁLISIS DE DATOS BIDIMENSIONALES

Con frecuencia, nos encontramos con un fenómeno que tiene dos o más características

observables con la intención de explicar el comportamiento de una de ellas a partir de otra u otras. Así

por ejemplo, podemos considerar el fenómeno familia y dentro de él una serie de variables, a saber:

renta, consumo, número de hijos, nivel educativo de los padres, edad del cabeza de familia, lugar de

residencia, número de teléfonos móviles, etc., pudiendo estar interesados en estudiar el consumo de “k”

familias en función de la renta de las mismas, inicialmente, para después ir añadiendo otras variables

explicativas.

En otras ocasiones, se trata de relacionar dos fenómenos distintos, como por ejemplo mercado

de capitales y empresa, observando la influencia del nivel de tipos de interés sobre el volumen de

inversión de cierta empresa a través de los datos de los últimos “n” trimestres

Pues bien, se llama variable estadística bidimensional al conjunto de pares de valores (X,Y) en

que se puede concretar una observación conjunta cualquiera, ya sea procedente de dos características

de un mismo fenómeno o de dos fenómenos.

Esta variable estadística bidimensional puede presentarse de dos formas:

a) Con observaciones sin agrupar:

௜

௜ୀଵ..ே

Describiendo los N pares de observaciones repetidos o no.

b) Con observaciones agrupadas por frecuencias:

௜

௝

௜௝

௜ୀଵ..௛ ௝ୀଵ..௞

Describiendo cualquier par de observaciones (x i

, y j

) observado n ij

veces de la variable (X,Y)

En el primer ejemplo estaríamos hablando de datos de sección cruzada o de corte transversal, porque

se toman en un mismo momento, mientras que en el segundo se trataría de datos tomados en distintos

periodos de tiempo o en series temporales.

Fórmula 4.

௜

௛

௜ୀଵ

Paralelamente, la última fila incluye el número de pares de observaciones en los que la segunda

componente del par ha sido el valor y j

correspondiente de la variable Y, también llamado frecuencia

absoluta marginal del valor y j

que se calcula como sigue:

Fórmula 4.

௝

ଵ௝

ଶ௝

௜௝

௛௝

௜௝

௛

௜ୀଵ

Obtendremos tantas frecuencias marginales de Y como valores presenta la variable.

De igual modo, la suma de todas las frecuencias absolutas marginales de Y nos proporcionará

en número total de pares de observaciones consideradas:

Fórmula 4.

௝

௞

௝ୀଵ

Cuando las frecuencias absolutas conjuntas n ij

se dividen entre N se obtienen frecuencias

relativas conjuntas, ofreciendo otra forma de definir una distribución conjunta de frecuencias:

௜

௝

௜௝

௜ୀଵ..௛ ௝ୀଵ..௞

௜௝

Tabla 4.2: Tabla de correlación o contingencia de frecuencias relativas

Y

X

y 1

y 2 ...

y j ...

y k f i

x 1 f 11 f 12 … f1j … f1k f 1.

x 2 f 21 f 22 … f2j … f2k f 2.

xi fi1 fi2 … fij … fik fi.

xh fh1 fh2 … fhj … fhk fh.

f.j f. 1 f. 2 … f.j … f.k 1

Cumpliéndose que la suma de todas las frecuencias relativas conjuntas es la unidad:

Fórmula 4.

௜௝

௞

௝ୀଵ

௛

௜ୀଵ

Ahora, la última columna de la tabla contiene las frecuencias relativas marginales de los

distintos valores de la variable X, que se obtendrán como suma de las respectivas frecuencias relativas

conjuntas:

Fórmula 4.

௜

௜ଵ

௜ଶ

௜௝

௜௞

௜௝

௞

௝ୀଵ

O como cociente entre la frecuencia absoluta correspondiente y la frecuencia total:

Fórmula 4.

௜

La suma de todas las frecuencias relativas marginales de los valores de la variable X dará como

resultado la unidad:

Fórmula 4.

௜

௛

௜ୀଵ

Por su parte, la última fila de la tabla incluye las frecuencias relativas marginales de los

diferentes valores de la variable Y, cuyo cálculo se obtiene como suma de frecuencias relativas

conjuntas o como cociente entre la frecuencia absoluta respectiva y la frecuencia total:

Fórmula 4.

௝

ଵ௝

ଶ௝

௜௝

௛௝

௜௝

௛

௜ୀଵ

Fórmula 4.

௝

Igualmente, la suma de las frecuencias relativas marginales de los distintos valores de la

variable Y da como resultado la unidad:

4.3 DISTRIBUCIONES CONDICIONADAS

Son distribuciones unidimensionales que surgen al fijar en una variable bidimensional (X,Y)

un valor de una de las variables (condicionante) y considerar la distribución de valores de la otra

(condicionada). Se obtienen así, k distribuciones condicionadas de X y h de Y; en total h+k:

 X/Y=y j

para j=1…k. La distribución está constituida por los pares de observaciones

(X,Y) en los que la segunda componente del par es y j

. Se fija y j

en la tabla de

correlación o de contingencia y se consideran los valores de la variable condicionada

(X) con las frecuencias conjuntas respectivas:

Y

X

y 1

y 2 ...

y j ...

y k ni.

x 1

n 11

n 12

… n 1j

… n 1k

n 1

x 2

n 21

n 22

… n 2j

… n 2k

n 2

x i

n i

… n ij

… n ik

n i

x h

n h

… n hj

… n hk

n h

n. j

n. 1

n. 2

… n. j

… n. k

N

La distribución resultante es la siguiente:

Tabla 4.5: Distribución condicionada de X por el valor y j

de Y

xi/yj ni/j fi/j

x 1 n1j f1/j

x 2

n 2j

f 2/j

xi nij fi/j

xh nhj fh/j

Suma n.j 1

Donde la suma de las frecuencias absolutas condicionadas será igual al número de pares en los

que la segunda componente del par es y j

, es decir, la frecuencia absoluta marginal de y j

, que se obtiene

a partir de la Fórmula 4.4. Por su parte, la frecuencia relativa condicionada se calcula a partir del

cociente entre la frecuencia absoluta respectiva y la frecuencia absoluta marginal de y j

Fórmula 4.

௜/௝

௜௝

௝

 Y/X=xi para i=1…h. La distribución está constituida por los pares de observaciones

(X,Y) en los que x i

aparece como primera componente del par. De forma análoga al

caso anterior, se fija x i

en la tabla de correlación o de contingencia y se consideran los

valores de la variable condicionada (Y) con las frecuencias conjuntas respectivas:

Y

X

y 1 y 2 ... yj ... yk n i

x 1 n 11 n 12 … n1j … n1k n 1.

x 2 n 21 n 22 … n2j … n2k n 2.

xi ni1 ni2 … nij … nik ni.

xh nh1 nh2 … nhj … nhk nh.

n.j n. 1 n. 2 … n.j … n.k N

La distribución que se obtiene es la siguiente:

Tabla 4.6: Distribución condicionada de Y por el valor xi de X

y j

/x i

n j/i

f j/i

y 1

n i

f 1/i

y 2 ni2 f2/i

y j

n ij

f j/i

y k

n ik

f k/i

Suma n i

El número total de pares de valores (X,Y) en los que x i

es el primer componente del par, es

decir, la frecuencia absoluta marginal de x i

será el resultado obtenido al sumar las frecuencias absolutas

de la distribución condicionada, según se documenta en la Fórmula 4.2; en tanto que la frecuencia

relativa condicionada se calcula como sigue:

Fórmula 4.

௝/௜

௜௝

௜

Si medimos el peso de los pares de observaciones (X,Y) en términos relativos, el resultado es el

X 0 1 2 3 4 fi.

1 0,0286 0,1714 0,0571 0 0 0,

2 0 0,0571 0,1714 0,0286 0 0,

3 0 0 0,1429 0,0857 0,0286 0,

4 0 0 0,0857 0,1143 0,0286 0,

f.j 0,0286 0,2286 0,4571 0,2286 0,0571 1

En virtud de ello, podemos decir, por ejemplo, que la situación más frecuente en la variable

bidimensional estudiada es la de familias con un solo miembro y un único teléfono móvil o familias con

dos miembros y dos teléfonos. Obsérvese, asimismo, que ahora las frecuencias relativas suman la

unidad.

A continuación, con la primera columna de cualquiera de las tablas de contingencia elaboradas y las de

las frecuencias marginales (n i

. y f i

.) elaboraríamos la distribución marginal de la variable X, en tanto

que con la primera y últimas filas de las tablas construiríamos la distribución marginal de la variable Y,

con las interpretaciones ya efectuadas:

X:

x i

n i.

f i.

1 9 0,

2 9 0,

3 9 0,

4 8 0,

Suma 35 1

Y:

yj n.j f.j

0 1 0,

1 8 0,

2 16 0,

3 8 0,

4 2 0,

Suma 35 1

Además, podemos estar interesados en construir la distribución condicionada de Y al valor x i

= 2 de X,

lo que es tanto como decir que nos vamos a fijar en el número de teléfonos móviles que han declarado

tener las familias de dos miembros. Una herramienta que nos puede ayudar es fijar en la tabla de

correlación el valor x i

= 2 y observar las frecuencias conjuntas para cada valor de Y:

X 0 1 2 3 4 n i.

1 1 6 2 0 0 9

0 2 6 1 0 9

3 0 0 5 3 1 9

4 0 0 3 4 1 8

n.j 1 8 16 8 2 35

El número de teléfonos móviles constituiría los valores de la variable en la distribución condicionada,

en tanto que las frecuencias que aparecen en la fila fijada serían las que habría que considerar para las

frecuencias absolutas condicionadas. Las frecuencias relativas respectivas se obtendrían por cociente

entre las frecuencias absolutas condicionadas y la frecuencia absoluta marginal, haciendo uso de la

Fórmula 4.14:

ଵ/௜ୀଶ

ଶ/௜ୀଶ

ଷ/௜ୀଶ

Y/X=2:

y j

n j/i=

f j/i=

0 0 0

1 2 0,

2 6 0,

3 1 0,

4 0 0

Suma 9 1

4.4. DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA

Se dice que la variable Y es independiente de la variable X cuando las “h” distribuciones

condicionadas Y/X=x i

son iguales entre sí e iguales, a su vez, a la distribución marginal de Y, lo que

probaría que la variable X no afecta a la variable Y. Esta condición implica la igualdad entre las frecuencias

relativas respectivas, como se expone a continuación:

Fórmula 4.

௝/ଵ

௝/ଶ

௝/௜

௝/௞

௝

Que se podría resumir en la expresión:

௝/௜

௝

Expresión que a partir de la Fórmula 4.14 y de la Fórmula 4.11 podemos poner como:

Fórmula 4.

௜௝

௜

௝

Y que resulta equivalente a:

Fórmula 4.

௜௝

௝

௜

Igualdad que, a partir de la Fórmula 4.13 y de la Fórmula 4.8 se puede poner como:

Fórmula 4.

௜/௝

௜

Que desarrollando para j nos lleva a:

௜/ଵ

௜/ଶ

௜/௝

௜/௞

௜

Condición que implica la igualdad entre las “k” distribuciones condicionadas X/Y=y j

y la

distribución marginal de X, o lo que es lo mismo, que la variable X es independiente de la variable Y. Por

lo tanto, queda demostrado que la independencia es recíproca, es decir, que si Y no depende de X tampoco

X va a depender de Y.

Por otro lado, si despejamos la frecuencia absoluta conjunta de la Fórmula 4.17 quedaría:

Fórmula 4.

௜௝

௜

௝

Y dividiendo por N a ambos lados de la ecuación resulta la condición necesaria y suficiente de

independencia para distribuciones bidimensionales agrupadas por frecuencias:

Fórmula 4.

௜௝

௜

௝

௜௝

௜

௝

Que consiste en que toda frecuencia relativa conjunta se debe poder calcular como producto de las

frecuencias relativas marginales. Si se cumple esta condición, aplicable tanto a variables cuantitativas como

cualitativas, podemos afirmar que las variables X e Y son independientes. Sin embargo, en la práctica es

muy difícil que se de esta situación, aunque las variables no tengan nada que ver, debido a que es una

condición muy exigente. Con que haya una de las frecuencias relativas conjuntas que no verifique dicha

igualdad, las variables no serán independientes.

En el lado opuesto se sitúa la dependencia funcional entre variables cuantitativas o la asociación

perfecta entre atributos. Pasamos a continuación a valorar aquella, dejando para el epígrafe siguiente el

estudio del grado de asociación entre variables cualitativas.

La dependencia funcional se establece a partir de una relación matemática. En este sentido,

decimos que la variable Y depende funcionalmente de la variable X si a cada valor x i

de X le corresponde

un único valor y i

a la Y, pero al menos un valor de Y está relacionado con más de un valor de X. Esta

situación se traduce en una tabla de correlación en la que existiría una única frecuencia relativa conjunta

distinta de cero en cada fila, pero al menos una columna con más de una frecuencia distinta de cero:

Tabla 4.7: Ejemplo de tabla de correlación donde Y depende funcionalmente de X

Y

X

y 1

y 2

y 3 f i

x 1

0 f 12

≠0 0 f 1

.=f 12

x 2

0 f 22

≠0 0 f 2

.=f 22

x 3

f 31

≠0 0 0 f 3

.=f 31

x 4

0 0 f 43

≠0 f 4

.=f 43

f. j

f. 1

f. 2

f. 3

Paralelamente, se dice que la variable X depende funcionalmente de la variable Y si a cada valor

y j

de Y le corresponde un único x i

de X, pero al menos un valor de X está relacionado con más de un valor

de Y. La tabla de correlación consiguiente tendría una única frecuencia relativa conjunta no nula en cada

columna pero al menos una fila con más de una frecuencia relativa conjunta distinta de cero:

Gráfico 4.1: Independencia y dependencia funcional lineal

Ahora bien, cuando tratamos de valorar la relación existente entre el consumo de una familia y su

nivel de renta o entre el volumen de inversión de una empresa y el tipo de interés nos vamos a encontrar

con situaciones intermedias, entre la ausencia total de relación y la dependencia funcional, en las que

diremos que las variables consideradas mantienen una dependencia estadística, que habrá que analizar,

tanto en lo que respecta a la forma de la función que las liga (regresión), como al grado de intensidad de la

misma (correlación):

Gráfico 4.2: La relación de dependencia entre dos variables cuantitativas

También hay que decir que en algunos casos nos encontraremos con distribuciones

bidimensionales en las que los pares de observaciones son únicos, en el sentido de que ninguno de sus

valores se repiten, como en el caso del fenómeno familia comentado anteriormente, cuando estudiamos las

variables consumo y renta o en el fenómeno empresa si analizamos la inversión de una compañía y sus

consumos energéticos. Estas situaciones se producen por el carácter continuo de las variables, por lo que

no podemos aceptar la dependencia funcional biunívoca entre las mismas aunque formalmente se dé dicha

condición. Como tampoco cumplirán la condición de independencia, procederemos a estudiar la

dependencia estadística.

Y Y

X X

X e Y son independientes Y depende funcionalmente de X

𝑦 = 𝑓(𝑥) = 𝑎 + 𝑏𝑥

Dependencia

funcional

Independencia

estadística

Dependencia

estadística

Esta dependencia no exacta, no matemática es el tipo de relación que mantienen las variables que

se estudian en el ámbito de las ciencias sociales, en las que los modelos nunca recogen todas las posibles

variables explicativas de un cierto fenómeno, porque, en última instancia, contienen un comportamiento

aleatorio que se deriva de la naturaleza humana del tipo de fenómenos que analizan y que incluyen, además,

errores de medida.

Ejemplo 4.

Vamos a discutir la dependencia o independencia de las variables contempladas en el Ejemplo 4.1,

empleando dos vías. En la primera vamos a elaborar otra distribución condicionada y a comprobar si se

verifica la igualdad entre las frecuencias condicionadas y las marginales (condición de independencia); en

la segunda veremos si se cumple la condición necesaria y suficiente de independencia.

a) Construimos la distribución Y/X=4:

yj nj/i=4 fj/i=

0 0 0

1 0 0

2 3 0,

3 4 0,

4 1 0,

Suma 8 1

Al comparar esta distribución condicionada con la anterior Y/X=2 del citado ejemplo podemos

observar que sólo son iguales las frecuencias condicionadas de la observación y 1

(cero en ambos casos), ya

que para el resto de las observaciones las frecuencias condicionadas son diferentes. Al no cumplirse esta

condición ya podríamos afirmar que las variables X e Y no cumplen la condición de independencia. El

cuadro siguiente con la totalidad de las frecuencias condicionadas y marginales de la variable Y permite,

no obstante, una comparativa completa en la que se aprecia el incumplimiento de la condición de

independencia expresada con la Fórmula 4.15:

y j

f j/i=

f j

0 0,1111 0 0 0 0,

1 0,6667 0,2222 0 0 0,22 86

2 0,2222 0,6667 0,5556 0,375 0,

3 0 0,1111 0,3333 0,5 0,

4 0 0 0,1111 0,125 0,

Suma 1 1 1 1 1

b) Para comprobar el cumplimiento de la condición necesaria y suficiente de independencia de la

Fórmula 4.20 recurrimos a la tabla de correlación, expresada en sus frecuencias relativas:

ଷହ

ଷ

ହ

O:

ଵଷ

ଵ

ଷ

Por consiguiente, en esta situación habríamos concluido que las variables son independientes.

4.5.1. MEDIDAS DE ASOCIACIÓN EN VARIABLES CUALITATIVAS

Antes de adentrarnos en el estudio de la dependencia estadística en variables cuantitativas, lo que

haremos en el tema siguiente, vamos a analizar algunos estadísticos utilizados para medir el grado de

asociación existente entre dos atributos X e Y que se presentan con h y k categorías, respectivamente, y

cuyas frecuencias conjuntas, absolutas o relativas, se incluirán en una tabla de contingencia como la Tabla

4.1 y cuyo grado de asociación puede variar desde la independencia estadística, algo que se dará si se

cumple la condición dada por la Fórmula 4.20, hasta la asociación perfecta.

4.5.1.1. Coeficiente Chi-cuadrado de Pearson (𝝌

𝟐

Si designamos por 𝐸

௜௝

las frecuencias esperadas conjuntas de una tabla de contingencia de dos

atributos que fueran independientes, dichas frecuencias deberían de cumplir la condición dada por la

Fórmula 4.19:

Fórmula 4.

௜௝

௜

௝

En consecuencia, dos atributos cuyas frecuencias conjuntas 𝑛

௜௝

se alejaran de 𝐸

௜௝

nos inducirían a

pensar en la existencia de asociación entre ambos, tanto más intensa cuanto mayores fueran las diferencias.

Pues bien, el coeficiente Chi-cuadrado de Pearson se define como:

Fórmula 4.

ଶ

௜௝

ଶ

௜௝

௞

௝ୀଵ

௛

௜ୀଵ

De tal forma que cuando 𝜒

ଶ

= 0 las variables son independientes, mientras que cuanto más alto

sea su valor más fuerte será el grado de vinculación entre las variables consideradas. No obstante, esta

medida presenta el inconveniente de que su valor máximo depende de N y del número de categorías de las

variables, a partir de lo siguiente:

ଶ

𝑑𝑜𝑛𝑑𝑒: 𝑚 = 𝑚í𝑛(ℎ; 𝑘)

4.5.1.2. Coeficiente de contingencia de Pearson (C)

Es una medida derivada de la anterior, que se formula así:

Fórmula 4.

ଶ

Y cuyo máximo también depende del número de categorías de las variables estudiadas:

𝑑𝑜𝑛𝑑𝑒: 𝑚 = 𝑚í𝑛(ℎ; 𝑘)

4.5.1.3. La V de Cramer

Estadístico que también procede de la Chi-cuadrado de Pearson y que obedece a la siguiente

expresión:

Fórmula 4.

ଶ

Cuya virtud radica en que, al margen del tamaño muestral y del número de filas y columnas de la

tabla de contingencia, el valor mínimo que puede tomar es cero (indicando independencia), en tanto que el

máximo es uno (en caso de asociación perfecta).

4.5.1.4. La Q de Yule

Es una medida aplicable a tablas de contingencia cuadradas en las que cada variable se presenta

con sólo dos modalidades