












































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Estadística I, Profesor: , Carrera: Ciències Empresarials, Universidad: URV
Tipo: Apuntes
1 / 52
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!













































Jesús Sánchez Fernández
En el capítulo anterior nos hemos interesado por el análisis y descripción de una sola variable. Para ello hemos definido un proceso de reducción de la información inicialmente disponible. Esta reducción ha dado como resultado la construcción de una tabla estadística donde se daba la distribución de frecuencias de la variable. Posteriormente se ha analizado la forma, se han definido medidas de tendencia central, medidas de dispersión, de simetría y curtosis. También se ha estudiado el problema de la concentración. Pero este análisis es de tipo unidimensional, pues de todos los caracteres de los elementos de una población solo nos ha preocupado observar un de ellos que, por lo regular, siempre ha sido de tipo cuantitativo. Pero que duda cabe que los elementos de una población cualquiera gozan de más de un carácter susceptible de ser observado. En este sentido, imaginemos que los elementos observados son las empresas. En ellas se pude observar de forma conjunta los beneficios y los costes de las mismas o cualquier otro par de caracteres. Así podríamos pensar en los gastos en publicidad y sus beneficios, o los costes y el número de empleados. El número de ejemplos que podríamos dar es tan amplio que no merece la pena seguir mencionándolos.
El objetivo de este capitulo será similar al del anterior, pero ahora buscando el análisis conjunto de dos variables o análisis bidimensional. Para ello se procederá a la observación de dos características de todos los elementos de una población. Inicialmente supondremos que esas características son de naturaleza cuantitativa. El resultado de esa observación conjunta será la definición de dos variables a las que llamaremos X e Y , las cuales pueden ser discretas o continuas, y nuestra primera preocupación será la de presentar de forma conjunta las frecuencias de los pares de valores de esas variables ( xi, yj ). El instrumento que se utiliza para alcanzar ese objetivo es lo que se conoce como tabla de doble entrada, tabla de correlaciones o tabla de contingencia. Esta última denominación se reserva especialmente para los casos de caracteres cualitativos. De todas las denominaciones que hemos señalado, usaremos la de tabla de doble entrada, pues la denominación de tabla de correlaciones tiene un significado que va más allá de la mera representación numérica de las la distribución conjunta de frecuencias.
Jesús Sánchez Fernández
Una tabla de doble entrada no es más que la representación de ( xi, yj, nij ) en la forma que se muestra en la Tabla 1.
Tabla 1. Distribución conjunta de dos variables Y y 1 y 2 ...... yj ........ yk ni. x 1 n 11 n 12 ...... n1j ....... n1k n1. x 2 n 21 n 22 ...... n2j ........ n2k n2. . . .
. . .
. . .
. ..... .
. . .
. ..... .
. . .
. . . xi ni1 ni2 nij nik ni. . . .
. . .
. . .
. ..... .
. ..... .
. . .
. . . xh nh1 nh2 ..... nhi ..... nhk nh.
X
n.j n.1 n.2 ..... n.j ..... n.k N
La lectura del contenido de esta tabla sería el siguiente. El valor nij nos da la frecuencia conjunta con la que se presentan el valor xi de X y el valor yj de Y. A su vez ni1 da la frecuencia conjunta de xi y de y 1. De forma similar habría que leer e interpretar el resto de las frecuencias conjuntas que son las que están dentro del cuerpo central de la tabla, es decir, las que llevan un doble subíndice alfanumérico.
Mención aparte merecen la última fila y la última columna. A esa fila y a esa columna se les conoce como distribuciones marginales de Y y de X , respectivamente. Se trata de la distribución de frecuencias de cada una de las variables tomadas por separado. Así pues la distribución marginal de X vendría dada por los pares ( xi, ni. ), mientras que la marginal de Y vendría dada por los pares ( yj, n.j ), es decir:
Jesús Sánchez Fernández valores de esta distribución son los de la marginal de Y , pero las frecuencias son distintas y se representa por nj/i. Estas nuevas distribuciones aparecen en la Tabla 3.
Tabla 3. Distribuciones condicionales de X y de Y
X/yj ni/j Y/xi nj/i x 1 x 2 . . xi . . xh
n1j n2j . . nij . . nhj
y 1 y 2 . . yj . . yk
ni ni . . nij . . nik
La distribución condicional no es única, al el contrario de lo que ocurre con la marginal. Habrá tantas como valores pueda tomar la variable condicionante. Así, para variables continuas el número de distribuciones condicionales será infinito.
Todas y cada una de esta nuevas distribuciones univariantes que se han definido es posible tratarlas con los instrumentos de análisis definidos en las lecciones anteriores. Además, aunque la tabla de doble entrada que se ha diseñado antes lo es para variables de tipo cuantitativo, también es posible hablar de tablas de doble entrada para variables de tipo cualitativo o mixto, en cuyo caso se les conoce como tablas de contingencia. Por otro lado, en la Tabla 1 se recogen dos variables discretas con frecuencias unitarias o mayores que la unidad. Sin embargo ese diseño de tabla de doble entrada es también válido para el caso de variables continuas. Bastaría con sustituir los valores puntuales de cada variable por intervalos.
A continuación vamos a dar un ejemplo que permita aclarar todos estos conceptos.
Jesús Sánchez Fernández Ejemplo 1. Para un conjunto de 2005 empresas de menos de 9 empleados se han observado dos caracteres de las mismas. El número de sus empleados (X) y el número de días perdidos por bajas (Y) en esas empresas. Los resultados son los que se dan en la siguiente tabla de doble entrada:
Y 0 1 2 3 4 5 6 7 8 ni. 1^50 45 40 30 20 15 10 5 5 2^40 50 45 40 30 20 15 10 5 3^20 40 50 40 35 25 20 15 10 4^15 30 30 50 40 30 25 20 15 5^10 20 20 40 50 40 40 35 30 6^5 10 15 30 40 50 45 40 35 7^5 5 10 20 30 40 50 45 40 8^5 5 5 10 20 30 45 50 50
X
n.j^150 205 215 260 255 250 250 220 200
A partir de esos datos, obtenga
a) La marginal de X y la condicional de X/y=5. b) La marginal de Y y la condicional de Y/x=
a) b) Marginal de X
Condicional de X/y=
Marginal de Y
Condicional de Y/x= xi ni. xi/y=5 ni/y=5 y n.j yj/x=3 nj/x= 1 2 3 4 5 6 7 8 220 255 255 255 285 270 245 220
Jesús Sánchez Fernández
En el apartado anterior hemos presentado una distribución frecuencias conjunta para dos variables. En ese apartado se ha señalado que tipo de distribuciones unidimensionales o univariantes se pueden definir a partir de la bivariante, y se ha indicado que las mismas podían ser tratadas con los instrumentos definidos en lecciones anteriores. Sin embargo, el interés de este capitulo no es precisamente el de realizar un análisis individualizado de todas y cada una de las distintas distribuciones univariantes que se pueda definir a partir de una distribución bivariante. Ahora, nuestro objetivo es el análisis conjunto de las dos variables que se definen en tabla de doble entrada.
Ya no se trata de estudiar solo los promedios y las medidas de dispersión de cada una de esas variables. El siguiente paso que se pretende dar con este capítulo es el análisis de la relación o dependencia que pueda existir entre dos variables. A esa relación la vamos a denominar covariación o variación conjunta.
La covariación es un fenómeno bastante habitual entre variables de carácter económico y de otra naturaleza. La covariación que puede darse entre dos variables X e Y cualesquiera puede ser de distinto tipo. Así puede hablarse de:
1º Dependencia causal unilateral. Este tipo de covariación se da cuando una variable influye en la otra y no al contrario. Es decir las variaciones de una variable pueden explicarse por las variaciones de otra, pero no a la inversa.
En este tipo de análisis, a la variable que ejerce influencia en la otra se le llama variable independiente, explicativa, variable causa o exógena. A la otra variable se le llama dependiente, explicada, variable efecto o endógena. Generalmente a la independiente se
le suele representar por la letra X , mientras que a la dependiente se le representa por la letra Y.
A título de ejemplo se puede señalar los siguientes pares de variables: los impuestos y la renta, los benéficos empresariales y el volumen de ventas, los salarios y la cualificación profesional, etc.
Jesús Sánchez Fernández 2º Interdependencia. Esta situación se da cuando la influencia es recíproca entre las dos variables. En este caso se habla de una relación causal bilateral o interdependencia.
Un ejemplo muy claro en Economía de este tipo de relación se encuentra entre precio y producción de un bien. Es bien conocido que, en un sistema de mercado en régimen de competencia perfecta, estas dos variables están interrelacionadas.
3º Dependencia indirecta. Este tipo de covariación se da cuando existe una tercera variable que influye simultáneamente sobre X e Y. En estos casos no existe una relación de causalidad entre esas variables. Sin embargo, la presencia de una tercera que influye en ambas hace que ellas se muevan de forma sincronizada. Pensemos en la superficie quemada por incendios forestales y el número de viajeros en zonas turísticas. Estas dos variables se comportan a lo largo del año de una forma parecida. Pero no puede hablarse de una relación causa efecto entre ellas. En realidad es la variable temperatura climatológica la que condiciona su evolución paralela.
4º Concordancia. A veces se sabe que las variables X e Y son por naturaleza independientes. Sin embargo puede que muestren un movimiento sincronizado, lo que nos llevaría a pensar en un cierta dependencia. Tal podría ser el caso el resultado de las opiniones de un panel de expertos relativas a expectativas de crecimiento de la economía de un conjunto de países.
5º Covariación casual o espúrea. Ocurre cuando dos variable se mueven de forma sincronizada pero sin que exista una relación de causalidad entre ellas.
Es conveniente señalar que el tipo de relación que pueda existir entre dos variables no se puede determinar fácilmente mediante instrumentos estadísticos, por lo que ese tipo de covariación habrá que buscarla en el conocimiento previo que se tenga de esas variables. Lo que si puede hacer la Estadística, en cualquier caso, es cuantificar y formalizar matemáticamente la relación o covariación previamente señalada, con el fin de confirmar tal relación y utilizarla luego para describir el fenómeno, para explicarlo y para realizar predicciones.
Jesús Sánchez Fernández
Mediante este método gráfico lo que se consigue es descubrir la posible relación que existe entre las variables. Esto representa un paso importante para un instrumento tan sencillo como es un simple gráfico.
En la Figura 1, denominada como covariación directa, se detecta una relación lineal positiva o directa. La Figura 2 nos advierte de una relación lineal negativa o inversa; la tercera nos indica que entre las variables X e Y no existe relación evidente de tipo alguno; finalmente, la última gráfica nos pone de manifiesto una relación que no es lineal.
Que duda cabe que estos cuatro modelos de diagramas de dispersión no son los únicos, pero si los más representativos.
Una vez agotada la vía gráfica para el estudio de la covariación, hay que recurrir a otros procedimientos que nos permitan cuantificar la covariación. Los dos procedimientos más utilizados son la correlación y la regresión.
Antes de finalizar este epígrafe sería conveniente resaltar que para los distintos tipos de covariación que hemos definido hay un concepto que aparece de forma recurrente. Se trata de la independencia o dependencia entre variables. Para definir este concepto en términos estadísticos haremos uso a la tabla de doble entrada que se vio en el apartado anterior. Con la terminología utilizada en esa tabla, se dice que dos variables X e Y son estadísticamente independientes si se cumple la siguiente relación:
nij/N = (ni./N).(n.j./N) (3.4)
es decir, que la frecuencia relativa conjunta sea igual al producto de las frecuencias relativas marginales.
Otra forma de dar el concepto de independencia estadística es haciendo uso de las distribuciones condicionales. En este caso se dice que dos variables son estadísticamente independientes si las frecuencias relativas condicionales son iguales a sus correspondientes frecuencias relativas marginales.
Jesús Sánchez Fernández
fi/j = nij/n.j = (ni./N) = fi. (3.5)
fj/i = nij/ni. = (n.j/N) = f.j (3.6)
Ejemplo 3. Estudie si las variables del ejemplo 1 son o no independientes.
En este caso, como en otros de naturaleza similar, para determinar si esas dos variables son o no independientes se procederá a aplicar alguna de las condiciones de independencia dadas con anterioridad. Para ello nos centraremos en un punto del espacio de X e Y, por ejemplo el par de valores (x=3, y=6). En este caso se tiene que
20/2005 = f 36 ≠ (f3.)( f.6) = (255/2005)(250/2005)
(255/2005) = (f3.) ≠ ( f (^) 3/y ) = 25/
Lo anterior nos lleva a concluir que esas variables no son independientes. La selección del par (x, y) es indiferente, pues basta que para un par no se cumpla la condición de independencia para que se pueda concluir que las variables no son independientes.
A la independencia estadística definida de esta forma se le llama determinista, frente a la estocástica.
De los distintos diagramas de dispersión que hemos mostrado en el epígrafe anterior, dos de ellos implicaban una covariación de tipo lineal, en un caso directa y en el otro indirecta o inversa. También se dijo anteriormente que una forma de cuantificar la covariación entre dos variables es mediante el análisis de la correlación. Pues bien, en lo que sigue vamos a definir un instrumento que nos va a permitir cuantificar el grado de covariación lineal entre dos variables. Se trata del coeficiente de correlación lineal.
Jesús Sánchez Fernández c) el producto xiyi del tercer cuadrante será positivo d) el producto xiyi del cuarto cuadrante será negativo.
Teniendo en cuata esos resultados, resulta que Σixiyi sirve como medida de covariación
entre X e Y. Esto es así porque si esa suma es positiva, la mayor parte de los puntos estarán en los cuadrantes I y III, con lo que la relación será directa. Por el contrario, si la mayoría de los puntos están en los cuadrantes II y IV, la suma será negativa y la relación será inversa. En cambio si los puntos están muy repartidos entre los cuatro cuadrantes, la suma será pequeña, tendente a cero, lo que nos informará de que no hay relación lineal alguna.
Pero ese indicador del grado de asociación lineal entre dos variables adolece de dos defectos. Por un lado bastaría con cambiar el número de pares de valores de X e Y para que el mismo fuera distinto. Por otro, el mismo viene influido por las unidades de medida de X e Y. La forma de corregir estos inconvenientes es promediar la suma (se elimina el primer problema) y expresarla en términos de la desviación estándar de X y de Y. El resultado es
(3.7 ) X Y
XY X Y
i i i
S S
xy
r = =
∑
que se conoce como coeficiente de correlación lineal.
Al numerador del coeficiente de correlación se le llama covariancia ( SXY ), siendo SX la desviación estándar de X y SY la de Y. Como las expresiones de cálculo de las desviaciones estándares las conocemos, habrá que dar ahora la correspondiente a la covariancia.
( )( ) (3.8 ) N
Y n N
Xn N
XYn N
X X Y Yn N
xyn S i i i i i i i i i i i i i i i i i i XY
∑ ∑ ∑ ∑ ∑ = −
Jesús Sánchez Fernández
Mediante el coeficiente de correlación lineal lo que se busca es un número que indique, de forma objetiva, el grado de variación lineal conjunta entre las dos variables. El signo de este coeficiente puede ser positivo o negativo, según cual sea el de la covariancia. Los valores de este coeficiente oscilan entre menos uno y más uno. La forma de interpretar el significado de esos valores es la siguiente:
a) Si r =1 , la correlación lineal es perfecta y directa, o sea, la nube de puntos se sitúa sobre una línea recta creciente.
b) Si r = -1 , la correlación lineal es perfecta y inversa, o sea, la nube de puntos se sitúa sobre una linera recta decreciente.
c) Si r = 0 , no existe relación lineal, bien porque no exista covariación entre las variables o porque ésta no sea lineal. En este caso decimos que las variables están incorrelacionadas linealmente, lo que no significa que necesariamente sean independientes. Si el coeficiente de correlación lineal es cero, entonces las variables puede que sean independientes o bien que no lo sean y que presenten otro tipo de covariación distinto al lineal. En cambio si las variables son independientes, entonces el coeficiente de correlación lineal será siempre cero.
d) En los demás casos se puede hablar de una correlación débil o fuerte según que el valor de r esté próximo a 0 o a ± 1.
En cuanto a las propiedades del coeficiente de correlación lineal, hay que indicar que el mismo es invariante frente a cambios de origen y de escala. Para probar que esta afirmación es cierta se estudiará el comportamiento de la covariancia frente a cambios de origen y de escala en las variables X e Y , pues ya se sabe cual es la respuesta de la desviación estándar frente a este tipo de cambios. Supóngase que se definen las siguientes variables: X’ = h + kX e Y’ = f + gY. Entonces:
Jesús Sánchez Fernández
xi yi xi^2 yi^2 xiyi 3 10 9 1 2 4 6 5 7 7
3 9 10 4 1 2 5 6 7 9
9 100 81 1 4 16 36 25 49 49
9 81 100 16 1 4 25 36 49 81
9 90 90 4 2 8 30 30 49 63 54 56 370 402 375
=∑ −∑^ ∑ =^375 − =
i i i i i i i i i XY
( ) 2 , 8
2
=^ ∑^ − x = −
i i x
( ) (^2) , 97
2
=^ ∑^ − y = −
i i y
( )( )
X Y
XY S S r S
Jesús Sánchez Fernández Ejemplo 5. Obtenga el coeficiente de correlación lineal para las variables que se recogen en la tabla siguiente.
Y 1 2 3 4 1^10 8 5 2^7 12 6 3^6 8 8
X
4^1 4 5
En este caso, se trata de obtener el coeficiente de correlación cuando las frecuencias de los distintos pares de valores de las variables no son unitarias y, además, todos esos pares tienen frecuencias distintas de cero, cosa que no ocurría en el Ejemplo 4. Para calcular la correlación existente entre X e Y, es aconsejable, cuando se tiene una distribución de frecuencias como la presente, determinar previamente las marginales y después dar esa tabla de doble entrada en forma de pares de valores. Todo ello nos lleva a que:
xi ni xini xi^2 ni 1 2 3 4 Total
( ) 1 , 077
2
=^ ∑^ − x = −
i i x
( ) (^1) , 058
2
=^ ∑^ − y = −
i i y
yi ni yini yi^2 ni 1 2 3 4 Total
Jesús Sánchez Fernández línea que intentará resumir toda la nube de puntos del diagrama de dispersión. Como tal tendrá un carácter de línea media, y esta línea nos medirá la dependencia estadística existente entre las variables. Este tipo de dependencia es distinta a la dependencia funcional o exacta. La diferencia entre las mismas radica en que en el primer caso, aunque las variables estén fuertemente relacionadas, las observaciones suelen tener una componente aleatoria que les impide que la nube de puntos aparezca exactamente distribuida a lo largo de una línea. Pero esa falta de alineación perfecta no impide que esos puntos tiendan a agruparse con mayor o menor intensidad en torno a esa línea “ideal” o media de la que se ha hablado.
Pues bien, el análisis de regresión consiste en obtener esa línea “ideal” o media, línea de regresión, hacia la cual tienden los puntos de un diagrama de dispersión. De lo que se trata, en realidad, es de determinar la dependencia exacta que se haya contenida en la dependencia estadística observada mediante la eliminación de los factores aleatorios.
Para centrar un poco estas ideas se hará uso de la Figura 6. Admitamos de entrada que esa línea media es conocida y que es la que se ha representado en el mismo como AB^1. En ese gráfico podemos comprobar como para un determinado valor de X ( x 1 ) observado, la variable Y puede tomar, y de hecho los toma en este caso, más de una valor ( y 11 e y 12 ), mientras que por la línea de regresión le correspondería solo uno (y* 1 ). Este paso de la dependencia estadística a la dependencia exacta implica que a cada valor de la variable independiente le asignemos uno solo de la variable dependiente. Ese valor de la variable dependiente, dado por la línea de regresión, tiene categoría de valor medio, pues como ya hemos indicado, la línea de regresión tiene ese carácter de línea media.
(^1) Pese a que en el gráfico la línea media o línea de regresión se ha representado como una recta, la misma puede ser una curva cualquiera.
Jesús Sánchez Fernández
Figura 6. Diagrama de dispersión
0
16
0 14
Mediante este gráfico también es posible comprobar como cada valor de yi observado se puede descomponer en dos partes. Una de ellas viene dada por el valor de la línea de regresión, yi*= f(xi) , y la otra sería la diferencia entre el valor observado y el asignado por nuestra relación funcional exacta a la que llamaremos error o residuo, ei. Formalmente tendríamos:
yi = f(xi) + ei = yi* + ei. (3.9)
En consecuencia el análisis de regresión lo que persigue es obtener los valores medios y*i de la variable dependiente que corresponden a los valores xi observados.
El siguiente paso en el análisis de la regresión es definir los procedimientos que nos permitan obtener esa línea media que es la línea de regresión. No vamos a entrar a describir todos los posibles métodos que existen para determinar esa línea de regresión. Solo vamos a mencionar tres. El primero es el más sencillo y consiste en trazar la línea que más se ajuste a la nube de puntos. Este procedimiento gráfico, frente a su sencillez, tiene en su contra la falta de rigor.