









Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Estadistica I, Profesor: Eugenia Eugenia, Carrera: Marketing e Investigación de Mercados, Universidad: UMA
Tipo: Apuntes
1 / 16
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










Al considerar simultáneamente dos caracteres de una determinada población o muestra, a un elemento observado le corresponde un par de valores o modalidades, según que los caracteres considerados sean variables o atributos. Nos vamos a centrar en caracteres de tipo cuantitativo o variables.
Se puede, evidentemente, estudiar separadamente la distribución de la población según la variable X o la variable Y, pero puede ser interesante considerar simultáneamente las dos variables, para estudiar las posibles relaciones entre ellas.
Para la presentación de los datos se va a distinguir, igual que en el caso de una sola variable, dos tipos de distribuciones bidimensionales.
Distribuciones con datos sin agrupar : Hay pocas parejas de valores distintos. Cada par de valores (xi, yj) se repite nij veces. Se puede reducir de dos formas:
xi yj nij x 1 y 1 n 11 x 1 y 2 n 12 x 1 y 3 n 13 x 2 y 1 n 21 . . xk
yh
nkh N
Más útil es construir una tabla de doble entrada:
X Y y^1 y^2 …^ yj^ …^ yh x 1 n 11 n 12 … n1j … n 1 h x 2 n 21 n 22 … n2j … n 2 h … xi ni1 ni2 … nij … nih … xk nk 1 nk 2 … nkj … nkh
Distribuciones con datos agrupados en intervalos en una o en las dos variables: Si el número de observaciones es muy elevado y el número de parejas distintas también, se utiliza una tabla de doble
X Y L 0 -L 1 L 1 -L 2 … Lj-1-Lj … Lh-1-Lh x 1 n 11 n 12 … n1j … n 1 h x 2 n 21 n 22 … n2j … n 2 h … xi ni1 ni2 … nij … nih … xk nk 1 nk 2 … nkj … nkh
a) Al número de veces que se presenta conjuntamente el par de valores (xi,yj) se le denomina
frecuencia absoluta bidimensional y se le representa por nij; se cumple que: 1 1
k h i j i j
n N = =
b) La frecuencia relativa bidimensional fij , N
n f (^) ij = ij , es el cociente entre la frecuencia absoluta
correspondiente y la suma de frecuencias absolutas bidimensionales, N. Se cumple que
= =
k
i
h
j
fij 1 1
c) Si la distribución bidimensional es de variables, a la tabla de doble entrada se le llama tabla de correlación. Si la Si la distribución bidimensional es de atributos, la tabla de doble entrada se llama de contingencia.
d) La tabla de correlación es una tabla formada por k×h casillas, de manera que hay k filas y h columnas. La casilla denotada de forma general por el subíndice ij hará referencia a los elementos que presentan simultáneamente las modalidades xi e yj.
Distribuciones marginales: Son las distribuciones de las variables consideradas aisladamente, individualmente.
Para hallar la distribución marginal de X habrá que ver las frecuencias con que se repiten cada uno de los valores observados de X. Para ello tendremos que sumar los valores de cada fila de frecuencias. (OJO, si en un ejercicio piden la distribución marginal de X, hay que dar la distribución aparte).
Para hallar la distribución marginal de Y habrá que ver las frecuencias con que se repiten cada uno de los valores observados de Y. Para ello tendremos que sumar los valores de cada columna de frecuencias. (OJO, si en un ejercicio piden la distribución marginal de Y, hay que dar la distribución aparte).
Distribuciones condicionadas: Son otro tipo de distribuciones unidimensionales en las que previamente hace falta definir una condición. Si se quiere tener la distribución de X condicionada a que Y tome un valor concreto yj, veremos que sus frecuencias absolutas serán precisamente las de la columna j.
En la distribución de Y condicionada a que X tome un valor xi, sus frecuencias absolutas serán precisamente las de la fila i.
Las distribuciones marginales y condicionadas son distribuciones unidimensionales, por lo que podemos analizar sus características como medidas de posición central, dispersión, forma, concentración….
1 1
k h i j ij i j xy
= =
Que en caso de que todas las frecuencias sean unitarias quedaría:
x x y y S
n
i
i i xy
=
Si
0 ohayrelación lineal
0 Relaciónlinealnegativaoinversa
0 Relaciónlinealpositivaodirecta
xy
xy
xy
Nota: Pueden verse gráficamente, tras trasladar el origen de coordenadas al centro de gravedad de la
en cada cuadrante resultante:
Cuadrante I + + + Cuadrante II - + - Cuadrante III - - + Cuadrante IV + - -
Fuente: Bioéstadística: Métodos y Aplicaciones. F.Ríus,, F. J,. Barón, E. Sánchez y L. Parras.
a) Cambio de origen: No le AFECTA. Si en la distribución de frecuencias se suman a todos los valores de las dos variables una constante (igual o diferente), la covarianza no varía.
x x y y S
n
i
i i xy
=
x (^) i ' = xi + c
y (^) i ' = yi + d
xy
n
i
i i
n
i
i i xy (^) N S
x c x c y d y d
N
x x y y S =
= 1 = 1
b) Cambio de escala: Le AFECTA. Si en la distribución de frecuencias se multiplican todos los valores de las dos variables por una constante (igual o diferente), la covarianza varía.
x x y y S
n
i
i i xy
=
x (^) i ' = xi ⋅ c
y (^) i ' = yi ⋅ d
xy
n
i
i i
n
i
i i xy (^) N c d S
x c x c y d y d
N
x x y y S = ⋅ ⋅
= 1 = 1
(Edad) ni.^ xi^ xini 18-25 40 21,5 860 25-40 33 32,5 1072, 40-65 27 52,5 1417, TOTAL 100 3350
(Salario/hora) n.j^ yj^ yjnj 6-10 38 8 304 10-30 40 20 800 30-50 22 40 880 TOTAL 100 1984
(^1 3350) 33, 5 euros 100
n i i i
x n x N
(^1 1984) 19,84 años 100
n i i i
y n y N
( 33 , 5 19 , 84 ) 131 , 68 años euros 100
= = (^) xy N
xy n S
k
i
h
j
i j ij xy
Sxy > 0 ⇒Relaciónlinealpositivao directa
x y
xy xy (^) SS
r =
Puede verse que tendrá siempre el signo de la covarianza, ya que el denominador es siempre positivo.
Si
0 Nohayrelación lineal
1 Relaciónlinealperfectanegativaoinversa
1 Relaciónlinealperfectapositivaodirecta
xy
xy
xy
r
r
r
Estos son los casos extremos. Correlación lineal positiva (entre 0 y 1) indica que hay relación lineal directa entre las variables, y a medida que se acerca al 1, más fuerte es la relación lineal directa. Correlación lineal negativa (entre -1 y 0) indica que hay relación lineal inversa entre las variables, y a medida que se acerca a -1, más fuerte es la relación lineal inversa.
Calculamos ahora el coeficiente de correlación lineal entre las dos variables en el ejemplo que se está considerando:
x y
xy xy (^) SS
r =
(Edad)
ni. xi xini xi^2 xi^2 ni (^2 33) , 52 155 , 4 años 2 100
Sx = − =
Sx = 12 , 47 años
(Salario/hora)
n.j yj yjnj yj^2 yj^2 nj (^) 2 2 2 19 , 84 142 , 69 euros 100
Sy = − =
Sy = 11 , 95 euros
Sxy = 131 , 68 euros⋅ años
12,47años11,95euros
⋅
x y
xy xy (^) SS
r
Al ser positivo hay una relación lineal directa o positiva. Al no estar muy alejada de 1, puede hablarse de una relación lineal relativamente fuerte.
a) Cambio de origen: NO AFECTA. Si en la distribución de frecuencias se suman a todos los valores de las dos variables una constante (igual o diferente), el coeficiente de correlación lineal no varía.
x (^) i ' = xi + c
y (^) i '^ = yi + d
Ya conocemos que:
xy xy
x x y y
xy x y
xy x y
xy xy (^) SS r
r = = = ' '
b) Cambio de escala: NO AFECTA. Si en la distribución de frecuencias se multiplican todos los valores de las dos variables por una constante (igual o diferente), la covarianza no varía.
x (^) i ' = xi ⋅ c
y (^) i '^ = yi ⋅ d Ya conocemos que:
xy xy
x x y y
xy x y
xy x y
xy xy (^) c S d S r
c d S S S
r = ⋅ ⋅ ⋅
Así como la dependencia funcional no admite grados, la dependencia estadística si los admite, ya que pueden existir dependencias más o menos fuertes.
En la dependencia estadística, a pesar de que las variables estén relacionadas, las observaciones suelen contener una componente aleatoria o error.
El análisis de regresión consiste en obtener la línea “ideal” (denominada línea de regresión) hacia la cual tienden los puntos en el diagrama de dispersión o nube de puntos. Se trata de determinar la dependencia exacta que se halla contenida en la dependencia estadística observada.
Se va a utilizar el método analítico, que consiste en encontrar una función matemática que explique la dependencia causal exacta que existe implícitamente entre las dos variables observadas.
A la abscisa xi le corresponde un punto con ordenada yi. Sin embargo, para esa abscisa, la línea ideal o
factores aleatorios de perturbación.
dependencia entre las dos variables (y que será la línea de regresión).
¿Qué función se elige? Dependerá de la forma que tenga la nube de puntos, o de la teoría que conozcamos al respecto. Nos vamos a centrar en el caso lineal.
El método más utilizado para la determinación de los parámetros (a y b) es el método de los mínimos cuadrados que proporciona unos valores numéricos para los parámetros con la condición de minimizar la suma de los errores al cuadrado:
N
i
= 1
2
Se deduce por las expresiones anteriores que:
Para n parejas de valores observados (xi , yi ) se calculan las condiciones de primer orden para conseguir la función objetivo. El resultado final es:
1 1
= =
N
i
i
N
i
1 1
= =
N
i
i i i
N
i
cero)
Resolviendo este sistema de ecuaciones se obtienen los valores de a y b.
2
xy x
a y bx b S
Interpretación de los parámetros a y b:
La varianza de la variable dependiente Y es igual a la suma de la varianza explicada por el modelo 2
2
2
2 2
2 2 2
2 2 *
y
e y
y e
y
y
( )
( )
2 2 2 2
2 2 2 2
y e y
y y e
R Ajuste muy malo S S S
R Ajuste perfecto S S S
xy (^) x x y y
R r b S S S
La fórmula que se utilizará en la práctica para calcular el coeficiente de determinación es precisamente la que se deriva de esta relación.
(ya que x
y
es un cociente de desviaciones típicas y por tanto, siempre tiene valor positivo).
La recta de regresión puede usarse para realizar predicciones. Para ello basta con dar en la recta de regresión el valor x para el que queremos predecir y ver el resultado de la estimación.
Importante: la predicción se hace siempre en términos medios, sobre la recta de regresión, puesto que el error es impredecible.
La recta de regresión se ha obtenido a partir de un conjunto de parejas de valores, luego puede calcularse el Recorrido de la variable independiente, X. (Recordamos que R = xmax - xmin)
Si el valor de X para el que se quiere predecir su valor de Y está dentro del recorrido de la X, se trata de una interpolación. Si el valor de X para el que se quiere predecir su valor de Y está fuera del recorrido de la X, se trata de una extrapolación.
En las interpolaciones, se estudia el R^2 para ver como era la bondad del ajuste y valorar la fiabilidad de la predicción
En las extrapolaciones, hay que considerar que fuera de la nube de puntos se mantiene la misma relación que dentro de ella. A medida que nos alejemos de la nube de puntos, menos confianza se tendrá en las predicciones realizadas.
Se recuerda que en la recta de regresión, en muchas ocasiones el parámetro a es una extrapolación, si la nube de puntos está alejada del eje de ordenadas.
Ejemplos:
Obtenga la línea de regresión en la que el salario sea función de la edad y de una medida de bondad de ajuste.
y^ * = a + bx
2
xy x
a y bx b S
Hemos calculado ya:
(^1 3350) 33, 5 euros 100
n i i i
x n x N
(^1 1984) 19,84 años 100
n i i i
y n y N
( 33 , 5 19 , 84 ) 131 , 68 años euros 100
= = (^) xy N
xy n S
k
i
h
j
i j ij xy
x y
y^ * = a + bx
2
xy x
a y bx b S
2
xy x
b S
a = y − bx = 6, 77 - 0,861 × 6, 59 =1, 096
y^ *^ = 1, 096 +0,861 x
( ) (^ )
2 2 2 2 3, 9127^2 0, 9213 0 ' 4, 5409 3, 9721
xy xy x y
R r S S