Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis de Tablas de Frecuencias y Regresión Lineal en Estadística Bidimensional, Apuntes de Estadística

El análisis estadístico bidimensional a través de la construcción de tablas de frecuencias, la obtención de distribuciones marginales y condicionales, y la realización de regresiones lineales. Se incluyen ejemplos con datos de hijos y hijas de empleados, donde se calculan la media, covarianza y recta de regresión.

Tipo: Apuntes

Antes del 2010

Subido el 22/12/2008

josellle
josellle 🇪🇸

4.4

(60)

148 documentos

1 / 16

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estadística y Probabilidad I
Estadística Interactiva en la Red.
Laboratorio Virtual de Estadística.
Contenidos Tricos Unidad Temática 2.
Estadística Descriptiva Bidimensional.
A. Gámez, L.M. Marín, R. Huertas y S. Fandiño
Noviembre - 2005
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Vista previa parcial del texto

¡Descarga Análisis de Tablas de Frecuencias y Regresión Lineal en Estadística Bidimensional y más Apuntes en PDF de Estadística solo en Docsity!

Estadística y Probabilidad I

Estadística Interactiva en la Red.

Laboratorio Virtual de Estadística.

Contenidos Teóricos Unidad Temática 2.

Estadística Descriptiva Bidimensional.

A. Gámez, L.M. Marín, R. Huertas y S. Fandiño

Noviembre - 2005

Índice general

  1. Estadística Descriptiva Bidimensional 2 2.1. Introducción: Tablas Bidimensionales, Diagramas, Distribuciones marginales y condicionadas.................................. 2 2.1.1. Introducción: distribución conjunta y tablas de doble entrada.... 2 2.1.2. Representaciones gráficas........................ 4 2.1.3. Distribuciones marginales. Distribuciones condicionadas....... 5 2.2. Regresión y Correlación............................. 7 2.2.1. Independencia de variables estadísticas. Dependencia funcional y de- pendencia estadística........................... 7 2.2.2. Medias, varianzas y covarianzas..................... 8 2.2.3. Ajustes. Método de mínimos cuadrados................ 9 2.2.4. Regresión lineal mínimo cuadrática................... 11 2.2.5. Coeficiente de determinación. Coeficiente de correlación lineal.... 14

30-50 50-70 70-90 90-110 Total 1.30-1.50 6 0 0 0 6 1.50-1.70 0 15 3 0 18 1.70-1.90 0 1 12 3 16 1.90-2.10 0 0 1 9 10 Total 6 16 16 12 50

Cuadro 2.1: Tabla de doble entrada por intervalos.

También es posible dar los datos con una tabla lineal. La que damos a continuación se refiere también al caso de los hijos e hijas de los empleados de la empresa. Los valores se han tomado de la tabla de doble entrada.

X = hijos 0 0 0 1 1 2 2 3 Y = hijas 0 1 2 0 1 0 1 1 frecuencias 1 1 1 2 1 1 2 1

Si llamamos X a la primera variable, que puede tomar los valores x 1 , x 2 ,... , xr y llamamos Y a la segunda variable, pudiendo tomar los valores y 1 , y 2 ,... , ys, la tabla de doble entrada sería de la siguiente forma:

y 1 y 2... yj... ys x 1 n 11 n 12... n 1 j... n 1 s n 1 • x 2 n 21 n 22... n 2 j... n 2 s n 2 • .. .

xi ni 1 ni 2... nij... nis ni• .. .

xr nr 1 nr 2... nrj... nrs nr• n• 1 n• 2... n•j... n•s N = n Donde nij representa el número de veces que se presenta la observación (xi, yj ). La última fila se obtiene sumando los elementos de la columna correspondiente y la última columna sumando los elementos de su misma fila:

ni• =

j

nij n•j =

i

nij

La suma de los ni• coincide con la suma de los n•j y vale N , el número total de pares de elementos de la muestra. En el caso de que sean muchos los posibles valores que pueda tomar la variable, agru- pamos los datos en intervalos. Obtendremos entonces una tabla de doble entrada equiva- lente a las tablas de tipo III para la variable unidimensional. La tabla de doble entrada que puede verse en la tabla 2.1 corresponde a la distribución conjunta de las variables Talla y Peso de los alumnos del instituto cuyos datos están en la tabla ?? de la página ??. Los datos se han clasificado en cuatro intervalos para el peso y otros cuatro para la talla.

También podemos construir tablas de frecuencias relativas sin más que dividir todos los elementos de la tabla por el número total de datos N. Así pues, denominamos frecuencia relativa de la pareja (xi, yj ) a

fr(xi, yj ) = fij =

nij N Es evidente comprobar que la suma de todas las frecuencias relativas es 1. Análoga- mente se pueden definir las cantidades fi• y f•j.

fi• =

j

fij =

ni• N f•j =

i

fij =

n•j N

La tabla de frecuencias relativas correspondiente a las variables peso y talla es la siguiente

30 − 50 50 − 70 70 − 90 90 − 110 T otal 1 , 30 − 1 , 50 0 , 12 0 0 0 f 1 • = 0, 12 1 , 50 − 1 , 70 0 0 , 30 0 , 06 0 f 2 • = 0, 36 1 , 70 − 1 , 90 0 0 , 02 0 , 24 0 , 06 f 3 • = 0, 32 1 , 90 − 2 , 10 0 0 0 , 02 0 , 18 f 4 • = 0, 2 T otal f• 1 = 0, 12 f• 2 = 0, 32 f• 3 = 0, 32 f• 4 = 0, 24 1

2.1.2. Representaciones gráficas

La representación gráfica más usual es la llamada Nube de Puntos o Diagrama de Dispersión. En el plano delimitado por dos ejes que sirvan para representar las variables X e Y se dibuja un punto (x, y) por cada vez que las variables tomen este par de valores. Si coinciden varias observaciones en un mismo punto puede optarse por dibujar un pequeño círculo de radio proporcional a su frecuencia o indicar en la gráfica esta frecuencia al lado del punto. Otra manera de representar los datos es mediante un diagrama de barras tridi- mensional. Sobre cada punto del plano se levanta una barra de altura proporcional a su frecuencia. Queda por tanto un gráfico tridimensional. En el caso de que los datos vengan agrupados en intervalos se dibuja un histograma tridimensional, también llamado estereograma. Sobre cada uno de los rectángulos de- terminados por un intervalo de X y otro de Y se levanta un paralepípedo rectángulo. En este caso, su volumen ha de ser proporcional a la frecuencia con que aparecen los puntos contenidos en dicho rectángulo. A continuación aparece un estereograma para las variables Talla y Peso correspondientes a la tabla 2.1 de la página 3.

asociadas a los distintos valores xi de la variable X son las ni• y las de los yj son las n•j. Así pues, la distribución marginal de X se obtiene tomando, en la tabla de doble entrada, la primera y última columnas

x 1 n 1 • x 2 n 2 • .. .

xi ni• .. .

xr nr• N y la marginal de Y tomando la primera y última fila.

y 1 y 2... yj... ys n• 1 n• 2... n•j... n•s N Las frecuencias relativas de las distribuciones marginales se obtendrán dividiendo las frecuencias absolutas entre el número total de observaciones N. Es decir, la frecuencia relativa de xi será: f r(xi) = ni• N

= fi•

y la frecuencia relativa de yj será:

fr(yj ) =

n•j N = f•j

Las tablas de frecuencia relativa para la marginal correspondiente a la variable talla sería

Talla frec. relativa 1 , 30 − 1 , 50 f 1 • = 0, 12 1 , 50 − 1 , 70 f 2 • = 0, 36 1 , 70 − 1 , 90 f 3 • = 0, 32 1 , 90 − 2 , 10 f 4 • = 0, 2 Total 1

y la de la variable peso:

Peso frec. relativa 30 − 50 f• 1 = 0, 12 50 − 70 f• 2 = 0, 32 70 − 90 f• 3 = 0, 32 90 − 110 f• 4 = 0, 24 Total 1

En otras ocasiones nos interesará analizar los datos obtenidos por una de las variables cuando se presenta exactamente un determinado valor de la otra variable. Esta idea da lugar a las llamadas distribuciones condicionadas de frecuencias. Podemos estudiar la distribución de X condicionada a que la variable Y tome el valor yj. A esta variable la denotaremos por X/yj , obteniéndose a partir de la primera columna y la correspondiente al valor yj.

x 1 n 1 j x 2 n 2 j .. .

xi nij .. .

xr nrj T otal n•j También podemos estudiar la distribución de Y condicionada a que la variable X tome el valor xi. A esta variable la denotaremos por Y /xi, obteniéndose a partir de la primera fila y la correspondiente al valor xi.

y 1 y 2... yj... ys T otal ni 1 ni 2... nij... nis ni• Las frecuencias relativas de las distribuciones condicionadas se obtendrán dividiendo las frecuencias absolutas entre el número total de observaciones que cumplen la condición requerida, que en los casos anteriores son, respectivamente, n•j y ni•. Es decir, la frecuencia relativa de xi/yj será:

f r(xi/yj ) = nij n•j

fij f•j

y la frecuencia relativa de yj /xi será:

fr(yj /xi) =

nij ni•

fij fi•

La distribución del peso, condicionada a que la talla esté en el intervalo 1.70-1.90 viene dada en la tabla siguiente, donde se muestran la frecuencias absolutas de cada uno de los pesos de los individuos de cuya talla está en el intervalo de 1.70 a 1.90.

P eso 30 − 50 50 − 70 70 − 90 90 − 110 T otal F recuencia absoluta 0 1 12 3 16

Para obtener la tabla de frecuencias relativa hay que dividir estas frecuencias por el total de individuos de la talla considerada, que en este caso son 16. La tabla de frecuencias relativa para la distribución condicionada resulta:

P eso 30 − 50 50 − 70 70 − 90 90 − 110 T otal F recuencia relativa 0 161 = 0,0 625 1216 = 0. 75 163 = 0. 187 5 1616 = 1

2.2. Regresión y Correlación

2.2.1. Independencia de variables estadísticas. Dependencia funcional y

dependencia estadística

Dos variables estadísticas se dicen dependientes cuando el conocimiento de que se ha presentado una determinada ocurrencia en una de ellas condiciona en algún sentido el valor que pueda tomar la otra. Así si observamos la nube de puntos de las variable peso

E[Y /xi] =

∑^ s

j=

f ij fi• yj

Es inmediato deducir que si X e Y son independientes se verifica que

E[X/yj ] = E[X] E[Y /xi] = E[Y ]

Las medidas vistas hasta ahora corresponden a distribuciones unidimensionales. Tam- bién existen parámetros conjuntos para ambas variables, característicos de la distribución bidimensional y que, como veremos más adelante, van a estar ligados a la dependencia de las variables. Una de estas medidas recibe el nombre de covarianza de las variables X e Y :

cov(X, Y ) = SXY =

∑^ r

i=

∑^ s

j=

fij (xi − X)(yj − Y )

Esta fórmula puede simplificarse hasta quedar:

cov(X, Y ) =

∑^ r

i=

∑^ s

j=

fij xiyj − X Y

Si las dos variables son independientes, se verifica que

cov(X, Y ) = 0

Nota: El recíproco no es cierto, pues si cov(X, Y ) = 0, entonces no significa que X e Y sean independientes. En muchas situaciones prácticas es frecuente encontrar que existe una cierta depen- dencia de tipo estadístico entre dos variables. Así, si estudiamos el peso de un coche y su gasto de combustible observaremos que guardan una cierta relación. Una relación de dependencia es de tipo funcional cuando podemos encontrar una función matemática de modo que para cada valor de X podamos encontrar el valor correspondiente de Y. En las dependencias de tipo estadístico, sin embargo, no es posible establecer tal función, y lo normal es que a un valor determinado de X le puedan corresponder distintos valores de Y. Si se representa la nube de puntos correspondiente a los datos observados es posible establecer la relación de dependencia entre las variables. En los casos de dependencia fun- cional se podría encontrar una función cuya gráfica pasara por todos los puntos dibujados. En el caso de la dependencia estadística se podría encontrar una función de modo que la distancia entre la nube de puntos y su gráfica sean pequeños. En la figura 2.2 se consideran ejemplos de nubes de puntos entre los que existe depen- dencia estadística de tipo lineal entre variables. En la figura 2.3 hay un primer diagrama en el que no existe dicha dependencia estadística y otro ejemplo en el que existiendo de- pendencia estadística no es de tipo lineal.

2.2.3. Ajustes. Método de mínimos cuadrados

Consideramos N observaciones que son pares de valores del tipo (xi, yi). Si tomamos como variable independiente a X y como variable dependiente a Y , debemos de hallar

Figura 2.2: Dependencia estadistica de tipo lineal entre variables

















































































  

 









  

 









   













   











Figura 2.3: No existe dependencia estadistica entre variables o bien no es lineal

















































































  

 









  

 









   













   











     



































 (^)  (^)  

 ^ ^ ^



 (^)  (^)   (^) 



 

 

  



  















 

 



 



 















Operando obtenemos que las ecuaciones se convierten en:   

  

∑^ N

i=

yi = b

∑^ N

i=

xi + N a

∑^ N

i=

yixi = b

∑^ N

i=

x^2 i + a

∑^ N

i=

xi

que recibe el nombre de sistema de ecuaciones normales. Dividiendo ambas ecuaciones por N obtenemos:

∑^ Y^ =^ b^ X^ +^ a N i=1 yixi N =^ b

∑N

i=1 x^2 i N +^ aX Para calcular los valores de a y b que son la únicas incognitas de este sistema hay que resolverlo. La primera ecuación del sistema

Y = a + bX (2.1)

nos indica que la recta de regresión de Y sobre X pasa por el punto (X, Y ), que es el centro de gravedad de la nube de puntos. Despejando en esta ecuación el valor de a y sustituyendo en la segunda ecuación del sistema obtenemos:

b =

SXY

S^2 X

que nos indica que el parámetro b de la recta de regresión puede calcularse como el cociente entre la covarianza y la varianza de la variable independiente. Este parámetro, llamado coeficiente de regresión de Y sobre X, representa la pendiente de la recta. Por tanto una expresión de la recta de regresión es

y − Y =

SXY

S X^2

(x − X) (2.3)

que se obtiene usando la ecuación punto-pendiente de una recta. Usando las expresiones 2.1 y 2.2, o también operando en la ecuación 2.3 obtenemos que

a = Y −

SXY

S X^2

X

Calculamos ahora la covarianza y la recta de regresión correspondiente a los datos de la siguiente tabla que se refieren a los hijos e hijas de los empleados de la empresa.

0 1 2 Marginal de X 0 1 1 1 3 1 2 1 0 3 2 1 2 0 3 3 0 1 0 1 Marginal de Y 4 5 1 total = 10

Comenzamos hallando la media de X e Y, ya que son necesarias para evaluar la cova- rianza e igualmente los coeficientes de la recta de regresión.

X = 3 ×0+3×1+3 10 ×2+1×^3 = 1. 2

Y = 4 ×0+5 10 ×1+1 ×^2 = 0. 7

SXY =

∑r i=

∑s j=1 fij^ (xi^ −^ X)(yj^ −^ Y^ ) = = 101 (0 − 1 ,2)(0 − 0 ,7) + 101 (0 − 1 ,2)(1 − 0 ,7) + 101 (0 − 1 ,2)(2 − 0 ,7)+

  • 102 (1 − 1 ,2)(0 − 0 ,7) + 101 (1 − 1 ,2)(1 − 0 ,7)+
  • 101 (2 − 1 ,2)(0 − 0 ,7) + 102 (2 − 1 ,2)(1 − 0 ,7)+
  • 101 (3 − 1 ,2)(1 − 0 ,7) = − 0 ,0 4

Para hallar la recta de regresión calculamos también la varianza de X. Usando la expresión alternativa de la varianza:

1 n

∑^ k

i=

nix^2 i − x^2 =

(3 × 02 + 3 × 12 + 3 × 22 + 1 × 32 ) − 1 , 22 = 0. 96

La recta de regresión es

(y − 0 ,7) = − 00 , 96 ,^04 (x − 1 ,2) y = − 4. 166 7 × 10 −^2 x + 0,7 5

Si calculamos la recta de regresión correspondiente a la nube de puntos representada en la figura 2.1 de la página 5, obtenemos

T alla = 0, 0094 × peso + 1, 038

La representación gráfica de esta última recta de regresión puede verse en la siguiente figura:

Recta de Regresión de la TALLA sobre el PESO

PESO

TALLA

33 53 73 93 113

Recta de regresión de y sobre x

x

y

0 0.5 1 1.5 2 2.5 3

0

2

Si cálculamos ambos parámetros en el caso de regresión lineal de la variable talla sobre la variable peso de los alumnos del instituto obtendremos:

r = coeficiente de Correlación = 0. R^2 = r^2 = coeficiente de Determinación = 0.

Como estos valores son cercanos al valor 1, nos indican un buen ajuste de los puntos a la recta de regresión. El signo de r coincide con el de SXY. Si r > 0 la recta tiene pendiente positiva, es decir cuando una variable crece la otra también. Si r < 0 cuando una variable crece la otra decrece. Si las variables son independientes, la covarianza es nula, y por tanto r = 0. El recíproco no tiene por qué ser cierto. La teoría de regresión nos permite hacer predicciones del valor que tomará la variable dependiente conociendo el valor que toma la variable independiente, sustituyendo el valor de esta última en la función de regresión. Hay que tener en cuenta, sin embargo, que las predicciones tienen mayor validez si se consideran valores de la variable cercanos a su media. Conforme los valores van estado más alejados de la media más arriesgada será la predicción, y por tanto existen riesgos en las extrapolaciones.

En la parte correspondiente a los ejercicios y ejemplos de este tema, vamos a describir otros tipos de ajustes como los parabólicos, logarítmicos, exponenciales, hiperbólicos, etc.