Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Teoría bidimensional, Apuntes de Estadística Descriptiva

Asignatura: estadística descriptiva, Profesor: , Carrera: Economía, Universidad: UAM

Tipo: Apuntes

2012/2013
En oferta
30 Puntos
Discount

Oferta a tiempo limitado


Subido el 23/12/2013

pabloparra91
pabloparra91 🇪🇸

4.2

(19)

9 documentos

1 / 12

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
1
EstadísticaDescriptivaBidimensional
FacultadCienciasEconómicasyEmpresariales
DepartamentodeEconomíaAplicada
Profesor:SantiagodelaFuenteFernández
VARIABLEESTADÍSTICABIDIMENSIONAL
Cuandoseconsideransituacionesenlaqueelestadísticorealizalaobservaciónsimultaneadedos
caracteresenelindividuo,seobtienenparesderesultados. 
Losdistintosvaloresdelasmodalidadesquepuedenadoptarestoscaracteresformanunconjuntode
pares,querepresentamospor(X,Y),yllamaremosvariableestadísticabidimensional.
Losdoscaracteresobservadosnotienenporquéserdelamismaclase,pudiendopresentarse
distintassituaciones:
Doscaracterescualitativos:Elsexoycolordelpelodeunapersona.
Doscaracterescuantitativos:Elpesoylaestaturadeunapersona.
Unocuantitativoyotrocualitativo:Laprofesiónylosañosdeservicio.
Lasvariables(X,Y)querepresentanlosvaloresdedoscaracterescuantitativos,puedenclasificarse:
XdiscretaeYdiscreta:Númerodehijosynúmerodehermanosdeunapersona.
XcontinuaeYcontinua:Perímetrocranealyperímetrotorácicodeunapersona.
XdiscretaeYcontinua:Hijosdeunafamiliayestaturadelpadre.
XcontinuaeYdiscreta:Temperaturaypulsaciones.
ORDENACIÓNDELOSDATOS:TABLADEDOBLEENTRADA
Elpar(X,Y)eslaunidaddelestudioydosparesseránrepetidossolocuandosusrespectivas
componentesseaniguales.Deotraparte,elnúmerodemodalidadesqueadoptaelcarácterXno
tieneporquéserelmismoqueelqueadoptaelcarácterY:
 )y,,y,y(Y)x,,x,x(X m21k21 ""
=
=
Paraordenarlosdatosseutilizaunatabladedobleentradadondetengancabidaloskvalores
distintosdelavariableXylosmvaloresdistintosdelavariableY.Enlatablasepuedeexpresarel
númerodevecesqueserepitecadaparadevaloresposibles)y,x( ji formadoenelproducto
cartesianodelosdosconjuntosnuméricos.
TABLADEDOBLEENTRADA
Y
X1
y2
yj
ym
y
1
x11
n12
n
m1
n
2
x21
n22
n
m2
n
………
……
i
x…… …… …… ij
nim
n
……… ……
k
x1k
n2k
n……
km
n
Nnúmerototalobservaciones
ij
nfrecuenciaabsoluta,númerode
vecesqueaparecerepetidoelpar
)y,x( ji .
Lafrecuenciarelativadelparse
define:
N
n
fij
ij =
pf3
pf4
pf5
pf8
pf9
pfa
Discount

En oferta

Vista previa parcial del texto

¡Descarga Teoría bidimensional y más Apuntes en PDF de Estadística Descriptiva solo en Docsity!

Estadística Descriptiva Bidimensional Facultad Ciencias Económicas y Empresariales Departamento de Economía Aplicada Profesor: Santiago de la Fuente Fernández

VARIABLE ESTADÍSTICA BIDIMENSIONAL

Cuando se consideran situaciones en la que el estadístico realiza la observación simultanea de dos

caracteres en el individuo, se obtienen pares de resultados.

Los distintos valores de las modalidades que pueden adoptar estos caracteres forman un conjunto de

pares, que representamos por (X, Y), y llamaremos variable estadística bidimensional.

Los dos caracteres observados no tienen por qué ser de la misma clase, pudiendo presentarse

distintas situaciones:

ƒ Dos caracteres cualitativos: El sexo y color del pelo de una persona.

ƒ Dos caracteres cuantitativos: El peso y la estatura de una persona.

ƒ Uno cuantitativo y otro cualitativo: La profesión y los años de servicio.

Las variables (X, Y) que representan los valores de dos caracteres cuantitativos, pueden clasificarse:

  • X discreta e Y discreta: Número de hijos y número de hermanos de una persona.
  • X continua e Y continua: Perímetro craneal y perímetro torácico de una persona.
  • X discreta e Y continua: Hijos de una familia y estatura del padre.
  • X continua e Y discreta: Temperatura y pulsaciones.

ORDENACIÓN DE LOS DATOS: TABLA DE DOBLE ENTRADA

El par (X, Y) es la unidad del estudio y dos pares serán repetidos solo cuando sus respectivas

componentes sean iguales. De otra parte, el número de modalidades que adopta el carácter X no

tiene por qué ser el mismo que el que adopta el carácter Y:

X =(x 1 ,x 2 ," ,xk) Y=(y 1 ,y 2 ,",ym )

Para ordenar los datos se utiliza una tabla de doble entrada donde tengan cabida los k valores

distintos de la variable X y los m valores distintos de la variable Y. En la tabla se puede expresar el

número de veces que se repite cada para de valores posibles (x (^) i ,yj)formado en el producto

cartesiano de los dos conjuntos numéricos.

TABLA DE DOBLE ENTRADA

Y

X

y 1 y 2 … y^ j … ym

x 1 n 11 n 12 … … … n 1 m

x 2 n 21 n 22 … … … n 2 m

x i (^) …… …… …… … nij … nim

x k nk 1 nk (^2) … … nkm

N ≡ número total observaciones

nij ≡ frecuencia absoluta, número de

veces que aparece repetido el par

(x (^) i ,yj).

La frecuencia relativa del par se

define: N

n f

ij ij =

DISTRIBUCIONES MARGINALES

Y

X

y 1 y 2 … y (^) j … ym ni•

x 1 n 11 n 12 … n 1 j … n 1 m n 1 •

x 2 n 21 n 22 … n 2 j … n 2 m n 2 •

x i ni 1 ni (^2) … nij (^) … nim ni•

x k nk 1 nk (^2) … nkj (^) … nkm nk•

n• j n• 1 n• 2 … n• j … n•m ∑ ∑

=

=

m

j 1

j

k

i 1

N ni n

N

x.y.n

a

k

i 1

m

j 1

i j ij

11

∑∑ = = = s (^) yx = a 11 −a 10 .a 01 = a 11 − x.y (covarianza)

  • DISTRIBUCIÓN MARGINAL DE LA VARIABLE X

X x 1 x 2 …^ xi^ …^ xk

ni (^) • n 1 • n 2 • … ni (^) • … nk•

N

n f

i i

  • =^1 •

f f 2 • … fi (^) • … fk•

k

i 1

N ni

f 1

k

i 1

∑i =

N

x.n

a x

k

i 1

i i

10

= = N

x .n

a

k

i 1

i

2 i

20

=

2 20

2 20 10

2 m 20 =sx =a −(a ) = a −(x)

  • DISTRIBUCIÓN MARGINAL DE LA VARIABLE Y

Y y 1 y 2 …^ y^ j …^ ym

n• j n• 1 n• 2 … n• j … n•m

N

n f

j j

  • =^1

f• f• (^2) … f• j … f•m

m

j 1

N n j

f 1

m

j 1

∑ j =

N

y.n

a y

m

j 1

j j

01

= = N

y .n

a

m

j 1

j

2 j

02

=

2 02

2 02 01

2 m 02 =sy =a −(a ) = a −(y)

Las variables (X, Y) son independientes cuando: i,j N

n

N

n

N

n (^) j ij (^) i ∀ ⎟

MOMENTOS

Se define el momento respecto al par de valores (c, v) de órdenes r y s:

N

(x c)(y v) n

M (c,v)

k

i 1

ij

s j

m

j 1

r i

rs

∑∑ = =

Tienen especial interés dos casos particulares para los valores c y v

  • MOMENTOS RESPECTO AL ORIGEN (c, v) = (0, 0)

N

x.y .n

N

(x 0 )(y 0 ) n

a

k

i 1

ij

s j

m

j 1

r i

k

i 1

ij

s j

m

j 1

r i

rs

∑∑ ∑∑ = = = = =

de interés son los particulares:

N

n

N

x .y .n

a

k

i 1

ij

m

j 1

k

i 1

ij

0 j

m

j 1

0 i

∑∑ ∑∑ = = = =

N

x .y .n

a

k

i 1

ij

1 j

m

j 1

1 i

11

∑∑ = = =

x N

xn

N

xn

N

x .y .n

a

k

i 1

i i

k

i 1

ij

m

j 1

i

k

i 1

ij

0 j

m

j 1

1 i

∑∑ ∑∑ ∑

= = = = y N

yn

N

yn

N

x .y .n

a

m

j 1

j j

k

i 1

ij

m

j 1

j

k

i 1

ij

1 j

m

j 1

0

∑∑ ∑∑ ∑

= = = =

N

x n

N

x n

N

x .y .n

a

k

i 1

i

2 i

k

i 1

ij

m

j 1

2 i

k

i 1

ij

0 j

m

j 1

2 i

20

∑∑ ∑∑ ∑

= = = = = = = N

y n

N

y n

N

x .y .n

a

m

j 1

j

2 j

k

i 1

ij

m

j 1

2 j

k

i 1

ij

2 j

m

j 1

0

02

∑∑ ∑∑ ∑

= = = = = = =

  • MOMENTOS CENTRALES O RESPECTO A LAS MEDIAS (c ,v)=(x,y)

N

(x x)(y y) n

m

k

i 1

ij

s j

m

j 1

r i

rs

∑∑ = =

de interés son los particulares:

s covarianza N

(x x)(y y)n

m s xy

k

i 1

j ij

m

j 1

i

11 yx =

∑∑ = =

s varianzade X N

(x x) n

N

(x x) n

N

(x x) (y y) n

m

2 x

k

i 1

i

2 i

k

i 1

ij

m

j 1

2 i

k

i 1

ij

0 j

m

j 1

2 i

∑∑ ∑∑ ∑

= = = =

s varianzadeY N

(y y) n

N

(y y) n

N

(x x) (y y) n

m

2 y

m

j 1

j

2 j

k

i 1

m

j 1

ij

2 j

k

i 1

ij

2 j

m

j 1

0 i

∑∑ ∑∑ ∑

= = = =

‰ Se demuestra fácilmente que, a a .a a x.y N

(x x)(y y) n

m s 11 10 01 11

k

i 1

j ij

m

j 1

i

11 xy = − = −

∑∑ = =

11 11 11 10 01

k

i 1

m

j 1

ij

m

j 1

j j

k

i 1

i i

k

i 1

ij

m

j 1

i j

k

i 1

m

j 1

ij

k

i 1

ij

m

j 1

j

k

i 1

ij

m

j 1

i

k

i 1

ij

m

j 1

i j

k

i 1

ij

m

j 1

i j i j

k

i 1

j ij

m

j 1

i

11 xy

a y.x x.y x.y a x.y a a .a

N

n

x.y. N

y .n

x. N

x.n

y. N

x.y .n

N

n

x.y. N

y .n

x. N

x.n

y. N

x.y .n

N

(x.y x.y x.y x.y)n

N

(x x)(y y) n

m s

∑∑ ∑ ∑ ∑∑

∑∑ ∑∑ ∑∑ ∑∑

∑∑ ∑∑

= = =

=

= =

= = = = = = = =

= = = =

DEPENDENCIA ENTRE LAS VARIABLES (X, Y)

Al observar dos caracteres en cada individuo se presenta el problema de determinar la existencia de

algún tipo de dependencia entre ellos. En este sentido, conviene destacar dos tipos de dependencia:

ƒ Dependencia funcional: Entre dos variables X e Y existe dependencia funcional cuando hay una

expresión matemáticas que las relacione. Por ejemplo, los radios de una circunferencia (X) y las

longitudes (Y).

ƒ Dependencia aleatoria: Entre dos variables X e Y existe dependencia aleatoria cuando no existe

una expresión matemática que las relacione. Por ejemplo, la edad de los niños (X) y la edad (Y).

Señalar que existen variables entre las que no existe ningún tipo de dependencia, lo que conlleva a

decir que los dos conceptos anteriores no son complementarios.

REGRESIÓN O AJUSTE

La observación de una variable estadística bidimensional (X, Y) comporta la representación de los

puntos obtenidos en una nube o diagrama de dispersión. El problema general de regresión se plantea

en el intento de ajustar una función de ecuación conocida (recta, parábola, exponencial, hipérbola,

polinómica, etc.) a la nube de puntos con el interés de poder obtener una predicción aproximada de

una de las variables a partir de la otra.

Naturalmente, que entre todas las funciones que se pueden elegir para ajustar a la nube de puntos,

hemos de seleccionar la óptima, esto es, la que mejor encaje sobre los puntos que tenemos, para lo

cual recurriremos al método de los mínimos cuadrados.

MÉTODO: Dependiendo de la forma que adopte la nube de puntos, en un principio sabremos si

hemos de emplear una recta, una parábola, una función mixta, etc.

∑ ∑

∑ ∑

ϑ

ϑ

ϑ

ϑ

i, j

i j i i,j

i j i

i,j

i j i,j

i j

2 (a bx y)(x) 0 (a bx y)(x) 0 b

M

2 (a bx y) 0 (a bx y) 0 a

M

Por las propiedades del sumatorio, se obtienen las ecuaciones normales de la regresión:

∑ ∑ ∑

∑ ∑ ∑

∑ ∑ ∑

∑ ∑ ∑

i i,j

i j

2 i i

i

i i j

i j

i i,j

i j

2 i i

i

i i j

i j

a x b x x y

a b x y

a x b x x y 0

a b x y 0

Dividiendo las expresiones anteriores por N (número total de datos), habiendo supuesto que la

frecuencia absoluta de cada par (X, Y) es la unidad, resulta:

∑ ∑ ∑

∑ ∑ ∑

N

x y

N

x

b N

x

a

N

y

N

x

b N

a

i,j

i j i

2 i i

i

j

j i

i i Considerando los momentos, se tiene: ⎩

ax ba 20 a 11

a bx y

a =y−bx

sustituyendo en la ecuación a x+ ba 20 =a 11 , resulta:

(y bx)x ba a 6 b(a x ) a 11 xy 6

2 − + 20 = 11 20 − = − 2 x

xy 2 20

11

s

s

a x

a xy b = −

x s

s a y 2 x

xy = −

Finalmente, sustituyendo los valores obtenidos en la ecuación de la recta y =a+bx

= − + x ⇒ s

s x s

s y y 2 x

xy 2 x

xy (x x) s

s y y 2 x

xy − = −

NOTA.‐ En el supuesto de que no hubiéramos partido de las hipótesis iniciales para el desarrollo, es

decir, si hay multiplicidades de (x (^) i ,yj)y si cada par se repite nij veces, la ecuación a minimizar sería

=∑ = ∑ + − i, j

ij

2 ij i j i,j

2 M di, jn (a bx y ) n

RECTA DE REGRESIÓN DE X SOBRE Y

Si en lugar de tomar las distancias dij sobre las verticales

(esto es, sobre la Y) se toman sobre las horizontales ( sobre la

X) y se utiliza el mismo método de los mínimos cuadrados,

por un proceso idénticamente igual se llega a la ecuación de

regresión de X sobre Y :

(y y) s

s x x 2 y

xy − = −

COEFICIENTES DE REGRESIÓN LINEAL

  • La recta de regresión de Y sobre X : (x x)

s

s y y 2 x

xy − = − , donde el coeficiente de regresión lineal

2 x

xy yx s

s b = (^) es la pendiente de la recta.

Recta de regresión de Y sobre X , según el coeficiente de regresión

⎪ ⎩

0 decrecient e

0 horizontal

0 creciente

b (^) yx

  • La recta de regresión de X sobre Y : (y y)

s

s x x 2 y

xy − = − , donde el coeficiente de regresión lineal

2 y

yx xy s

s b = (^) es la pendiente de la recta.

Recta de regresión de X sobre Y , según el coeficiente de regresión

⎪ ⎩

0 decrecient e

0 vertical

0 creciente

b (^) xy

CORRELACIÓN

Así como la regresión estudia la posible predicción de los valores de una variable a partir de la otra, la

correlación estudia el tipo de dependencia que existe entre ambas variables, intentando cuantificarla

mediante el cálculo de los coeficientes de correlación.

A continuación se estudian los coeficientes de determinación y correlación lineal.

COEFICIENTE DE CORRELACIÓN LINEAL

ƒ El coeficiente de correlación lineal R es un número abstracto que determina el grado de ajuste

entre una nube de puntos y una recta de regresión. Se define como la media geométrica de los

coeficientes de correlación lineal

x y

xy 2 y

xy 2 x

xy yx xy s s

s

s

s

s

s r = b .b = =

Con las hipótesis planteadas:

(x = 0 ,y= 0 ) 2 x

xy

s

s b = ⎪ ⎩

02

2 02

2 y

20

2 20

2 x

xy 11 11

s a y a

s a x a

s a xy a

Con lo cual,

ij

i j j

2 j i

2 i

2

i,j

i j

2 j

2 i

2

i,j

2 i j ij

2 i j i,j

2 di, j (yˆ y ) (bx y) (b x y 2 bx y ) b x y 2 b x y

yx

2 y

2 x

2 20 02 11

ij 2

i j j

2 j i

2 i i,j 2

2 i,j 2 r b a a^2 ba b s s^2 bs N

x y

2 b N

y

N

x

b N

d

s = = + − = + − = + −

[ ] [ ]

2 2 2 y y

2 x

2 2 xy y

2 2 y x

2 2 xy 2 xy xy y x

xy

2 xy y

2 2 x x

xy 2 x

2 xy xy y

2 yx x

2 y

2 x

2 2 r

s 1 r s s

s s s 1 s

s s 2 s s s

s

s 2 s s s

s

s

s s b s s 2 bs b(bs 2 s ) s

9 La cota máxima de la varianza residual

2 s (^) r es la varianza que tratamos de explicar mediante el

modelo de regresión, es decir, la varianza de la variable dependiente. En este caso,

2 y

2 sr = s , hecho

que sucede cuando r = 0 , esto es cuando las variables son incorreladas.

9 La cota mínima de la varianza residual

2 s (^) r se obtendrá cuando las variables tienen una

dependencia funcional r 1

2

2 y

2 r

s

s % variacionesnoexplicado= 100

9 Una forma de definir el coeficiente de determinación : 2 y

2 2 r

s

s r = 1 − 0 r 1

2 ≤ ≤

INTERPRETACIÓN COEFICIENTE DE CORRELACIÓN LINEAL

Se hace una interpretación a partir de la relación con la varianza residual s s ( 1 r )

2 2 y

2 r =^ − :

  • Si r 0 s s y byx 0 y bxy 0

2 y

2 = ⇒ r = = =.

Las dos rectas son perpendiculares y las variables son INCORRELADAS

  • Si r 1 s 0

2 = ⇒ r =.

Todos los puntos se encuentran situados sobre la recta de regresión, existiendo

entre las dos variables una DEPENDENCIA FUNCIONAL (recta de regresión

creciente).

  • Si r 1 s 0

2 = − ⇒ r =.

Todos los puntos se encuentran situados sobre la recta de regresión, existiendo

entre las dos variables una DEPENDENCIA FUNCIONAL (recta de regresión

decreciente).

  • Si − 1