






Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: estadística descriptiva, Profesor: , Carrera: Economía, Universidad: UAM
Tipo: Apuntes
1 / 12
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!







En oferta
Estadística Descriptiva Bidimensional Facultad Ciencias Económicas y Empresariales Departamento de Economía Aplicada Profesor: Santiago de la Fuente Fernández
Cuando se consideran situaciones en la que el estadístico realiza la observación simultanea de dos
caracteres en el individuo, se obtienen pares de resultados.
Los distintos valores de las modalidades que pueden adoptar estos caracteres forman un conjunto de
pares, que representamos por (X, Y), y llamaremos variable estadística bidimensional.
Los dos caracteres observados no tienen por qué ser de la misma clase, pudiendo presentarse
distintas situaciones:
Dos caracteres cualitativos: El sexo y color del pelo de una persona.
Dos caracteres cuantitativos: El peso y la estatura de una persona.
Uno cuantitativo y otro cualitativo: La profesión y los años de servicio.
Las variables (X, Y) que representan los valores de dos caracteres cuantitativos, pueden clasificarse:
El par (X, Y) es la unidad del estudio y dos pares serán repetidos solo cuando sus respectivas
componentes sean iguales. De otra parte, el número de modalidades que adopta el carácter X no
tiene por qué ser el mismo que el que adopta el carácter Y:
X =(x 1 ,x 2 ," ,xk) Y=(y 1 ,y 2 ,",ym )
Para ordenar los datos se utiliza una tabla de doble entrada donde tengan cabida los k valores
distintos de la variable X y los m valores distintos de la variable Y. En la tabla se puede expresar el
número de veces que se repite cada para de valores posibles (x (^) i ,yj)formado en el producto
cartesiano de los dos conjuntos numéricos.
y 1 y 2 … y^ j … ym
x 1 n 11 n 12 … … … n 1 m
x 2 n 21 n 22 … … … n 2 m
x i (^) …… …… …… … nij … nim
x k nk 1 nk (^2) … … nkm
N ≡ número total observaciones
nij ≡ frecuencia absoluta, número de
veces que aparece repetido el par
(x (^) i ,yj).
La frecuencia relativa del par se
define: N
n f
ij ij =
y 1 y 2 … y (^) j … ym ni•
x 1 n 11 n 12 … n 1 j … n 1 m n 1 •
x 2 n 21 n 22 … n 2 j … n 2 m n 2 •
x i ni 1 ni (^2) … nij (^) … nim ni•
x k nk 1 nk (^2) … nkj (^) … nkm nk•
n• j n• 1 n• 2 … n• j … n•m ∑ ∑
=
=
m
j 1
j
k
i 1
N ni n
x.y.n
a
k
i 1
m
j 1
i j ij
11
∑∑ = = = s (^) yx = a 11 −a 10 .a 01 = a 11 − x.y (covarianza)
X x 1 x 2 …^ xi^ …^ xk
ni (^) • n 1 • n 2 • … ni (^) • … nk•
n f
i i
f f 2 • … fi (^) • … fk•
k
i 1
N ni
f 1
k
i 1
x.n
a x
k
i 1
i i
10
= = N
x .n
a
k
i 1
i
2 i
20
=
2 20
2 20 10
2 m 20 =sx =a −(a ) = a −(x)
Y y 1 y 2 …^ y^ j …^ ym
n• j n• 1 n• 2 … n• j … n•m
n f
j j
f• f• (^2) … f• j … f•m
m
j 1
N n j
f 1
m
j 1
y.n
a y
m
j 1
j j
01
= = N
y .n
a
m
j 1
j
2 j
02
=
2 02
2 02 01
2 m 02 =sy =a −(a ) = a −(y)
Las variables (X, Y) son independientes cuando: i,j N
n
n
N
n (^) j ij (^) i ∀ ⎟
Se define el momento respecto al par de valores (c, v) de órdenes r y s:
(x c)(y v) n
M (c,v)
k
i 1
ij
s j
m
j 1
r i
rs
∑∑ = =
Tienen especial interés dos casos particulares para los valores c y v
x.y .n
(x 0 )(y 0 ) n
a
k
i 1
ij
s j
m
j 1
r i
k
i 1
ij
s j
m
j 1
r i
rs
∑∑ ∑∑ = = = = =
de interés son los particulares:
n
x .y .n
a
k
i 1
ij
m
j 1
k
i 1
ij
0 j
m
j 1
0 i
∑∑ ∑∑ = = = =
N
x .y .n
a
k
i 1
ij
1 j
m
j 1
1 i
11
∑∑ = = =
x N
xn
xn
x .y .n
a
k
i 1
i i
k
i 1
ij
m
j 1
i
k
i 1
ij
0 j
m
j 1
1 i
= = = = y N
yn
yn
x .y .n
a
m
j 1
j j
k
i 1
ij
m
j 1
j
k
i 1
ij
1 j
m
j 1
0
= = = =
x n
x n
x .y .n
a
k
i 1
i
2 i
k
i 1
ij
m
j 1
2 i
k
i 1
ij
0 j
m
j 1
2 i
20
= = = = = = = N
y n
y n
x .y .n
a
m
j 1
j
2 j
k
i 1
ij
m
j 1
2 j
k
i 1
ij
2 j
m
j 1
0
02
= = = = = = =
(x x)(y y) n
m
k
i 1
ij
s j
m
j 1
r i
rs
∑∑ = =
de interés son los particulares:
s covarianza N
(x x)(y y)n
m s xy
k
i 1
j ij
m
j 1
i
11 yx =
∑∑ = =
s varianzade X N
(x x) n
(x x) n
(x x) (y y) n
m
2 x
k
i 1
i
2 i
k
i 1
ij
m
j 1
2 i
k
i 1
ij
0 j
m
j 1
2 i
= = = =
s varianzadeY N
(y y) n
(y y) n
(x x) (y y) n
m
2 y
m
j 1
j
2 j
k
i 1
m
j 1
ij
2 j
k
i 1
ij
2 j
m
j 1
0 i
= = = =
Se demuestra fácilmente que, a a .a a x.y N
(x x)(y y) n
m s 11 10 01 11
k
i 1
j ij
m
j 1
i
11 xy = − = −
∑∑ = =
11 11 11 10 01
k
i 1
m
j 1
ij
m
j 1
j j
k
i 1
i i
k
i 1
ij
m
j 1
i j
k
i 1
m
j 1
ij
k
i 1
ij
m
j 1
j
k
i 1
ij
m
j 1
i
k
i 1
ij
m
j 1
i j
k
i 1
ij
m
j 1
i j i j
k
i 1
j ij
m
j 1
i
11 xy
a y.x x.y x.y a x.y a a .a
n
x.y. N
y .n
x. N
x.n
y. N
x.y .n
n
x.y. N
y .n
x. N
x.n
y. N
x.y .n
(x.y x.y x.y x.y)n
(x x)(y y) n
m s
∑∑ ∑ ∑ ∑∑
∑∑ ∑∑ ∑∑ ∑∑
∑∑ ∑∑
= = =
= =
= = = = = = = =
= = = =
Al observar dos caracteres en cada individuo se presenta el problema de determinar la existencia de
algún tipo de dependencia entre ellos. En este sentido, conviene destacar dos tipos de dependencia:
Dependencia funcional: Entre dos variables X e Y existe dependencia funcional cuando hay una
expresión matemáticas que las relacione. Por ejemplo, los radios de una circunferencia (X) y las
longitudes (Y).
Dependencia aleatoria: Entre dos variables X e Y existe dependencia aleatoria cuando no existe
una expresión matemática que las relacione. Por ejemplo, la edad de los niños (X) y la edad (Y).
Señalar que existen variables entre las que no existe ningún tipo de dependencia, lo que conlleva a
decir que los dos conceptos anteriores no son complementarios.
La observación de una variable estadística bidimensional (X, Y) comporta la representación de los
puntos obtenidos en una nube o diagrama de dispersión. El problema general de regresión se plantea
en el intento de ajustar una función de ecuación conocida (recta, parábola, exponencial, hipérbola,
polinómica, etc.) a la nube de puntos con el interés de poder obtener una predicción aproximada de
una de las variables a partir de la otra.
Naturalmente, que entre todas las funciones que se pueden elegir para ajustar a la nube de puntos,
hemos de seleccionar la óptima, esto es, la que mejor encaje sobre los puntos que tenemos, para lo
cual recurriremos al método de los mínimos cuadrados.
MÉTODO: Dependiendo de la forma que adopte la nube de puntos, en un principio sabremos si
hemos de emplear una recta, una parábola, una función mixta, etc.
∑ ∑
∑ ∑
ϑ
ϑ
ϑ
ϑ
i, j
i j i i,j
i j i
i,j
i j i,j
i j
2 (a bx y)(x) 0 (a bx y)(x) 0 b
2 (a bx y) 0 (a bx y) 0 a
Por las propiedades del sumatorio, se obtienen las ecuaciones normales de la regresión:
∑ ∑ ∑
∑ ∑ ∑
∑ ∑ ∑
∑ ∑ ∑
i i,j
i j
2 i i
i
i i j
i j
i i,j
i j
2 i i
i
i i j
i j
a x b x x y
a b x y
a x b x x y 0
a b x y 0
Dividiendo las expresiones anteriores por N (número total de datos), habiendo supuesto que la
frecuencia absoluta de cada par (X, Y) es la unidad, resulta:
∑ ∑ ∑
∑ ∑ ∑
x y
x
b N
x
a
y
x
b N
a
i,j
i j i
2 i i
i
j
j i
i i Considerando los momentos, se tiene: ⎩
ax ba 20 a 11
a bx y
a =y−bx
sustituyendo en la ecuación a x+ ba 20 =a 11 , resulta:
(y bx)x ba a 6 b(a x ) a 11 xy 6
2 − + 20 = 11 20 − = − 2 x
xy 2 20
11
s
s
a x
a xy b = −
x s
s a y 2 x
xy = −
Finalmente, sustituyendo los valores obtenidos en la ecuación de la recta y =a+bx
= − + x ⇒ s
s x s
s y y 2 x
xy 2 x
xy (x x) s
s y y 2 x
xy − = −
NOTA.‐ En el supuesto de que no hubiéramos partido de las hipótesis iniciales para el desarrollo, es
decir, si hay multiplicidades de (x (^) i ,yj)y si cada par se repite nij veces, la ecuación a minimizar sería
=∑ = ∑ + − i, j
ij
2 ij i j i,j
2 M di, jn (a bx y ) n
Si en lugar de tomar las distancias dij sobre las verticales
(esto es, sobre la Y) se toman sobre las horizontales ( sobre la
X) y se utiliza el mismo método de los mínimos cuadrados,
por un proceso idénticamente igual se llega a la ecuación de
regresión de X sobre Y :
(y y) s
s x x 2 y
xy − = −
s
s y y 2 x
xy − = − , donde el coeficiente de regresión lineal
2 x
xy yx s
s b = (^) es la pendiente de la recta.
Recta de regresión de Y sobre X , según el coeficiente de regresión
⎪ ⎩
0 decrecient e
0 horizontal
0 creciente
b (^) yx
s
s x x 2 y
xy − = − , donde el coeficiente de regresión lineal
2 y
yx xy s
s b = (^) es la pendiente de la recta.
Recta de regresión de X sobre Y , según el coeficiente de regresión
⎪ ⎩
0 decrecient e
0 vertical
0 creciente
b (^) xy
Así como la regresión estudia la posible predicción de los valores de una variable a partir de la otra, la
correlación estudia el tipo de dependencia que existe entre ambas variables, intentando cuantificarla
mediante el cálculo de los coeficientes de correlación.
A continuación se estudian los coeficientes de determinación y correlación lineal.
El coeficiente de correlación lineal R es un número abstracto que determina el grado de ajuste
entre una nube de puntos y una recta de regresión. Se define como la media geométrica de los
coeficientes de correlación lineal
x y
xy 2 y
xy 2 x
xy yx xy s s
s
s
s
s
s r = b .b = =
Con las hipótesis planteadas:
(x = 0 ,y= 0 ) 2 x
xy
s
s b = ⎪ ⎩
02
2 02
2 y
20
2 20
2 x
xy 11 11
s a y a
s a x a
s a xy a
Con lo cual,
ij
i j j
2 j i
2 i
2
i,j
i j
2 j
2 i
2
i,j
2 i j ij
2 i j i,j
2 di, j (yˆ y ) (bx y) (b x y 2 bx y ) b x y 2 b x y
yx
2 y
2 x
2 20 02 11
ij 2
i j j
2 j i
2 i i,j 2
2 i,j 2 r b a a^2 ba b s s^2 bs N
x y
2 b N
y
x
b N
d
s = = + − = + − = + −
2 2 2 y y
2 x
2 2 xy y
2 2 y x
2 2 xy 2 xy xy y x
xy
2 xy y
2 2 x x
xy 2 x
2 xy xy y
2 yx x
2 y
2 x
2 2 r
s 1 r s s
s s s 1 s
s s 2 s s s
s
s 2 s s s
s
s
s s b s s 2 bs b(bs 2 s ) s
9 La cota máxima de la varianza residual
2 s (^) r es la varianza que tratamos de explicar mediante el
modelo de regresión, es decir, la varianza de la variable dependiente. En este caso,
2 y
2 sr = s , hecho
que sucede cuando r = 0 , esto es cuando las variables son incorreladas.
9 La cota mínima de la varianza residual
2 s (^) r se obtendrá cuando las variables tienen una
dependencia funcional r 1
2 y
2 r
s
s % variacionesnoexplicado= 100
9 Una forma de definir el coeficiente de determinación : 2 y
2 2 r
s
s r = 1 − 0 r 1
2 ≤ ≤
Se hace una interpretación a partir de la relación con la varianza residual s s ( 1 r )
2 2 y
2 r =^ − :
2 y
2 = ⇒ r = = =.
Las dos rectas son perpendiculares y las variables son INCORRELADAS
2 = ⇒ r =.
Todos los puntos se encuentran situados sobre la recta de regresión, existiendo
entre las dos variables una DEPENDENCIA FUNCIONAL (recta de regresión
creciente).
2 = − ⇒ r =.
Todos los puntos se encuentran situados sobre la recta de regresión, existiendo
entre las dos variables una DEPENDENCIA FUNCIONAL (recta de regresión
decreciente).