Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Diapositivas tema 2, Diapositivas de Estadística

Asignatura: Estadistica I, Profesor: irene riboó, Carrera: Administración y Dirección de Empresas, Universidad: URJC

Tipo: Diapositivas

2016/2017

Subido el 17/10/2017

didi_urjc
didi_urjc 🇪🇸

3.6

(18)

10 documentos

1 / 19

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
1
1
TEMA 2
ANÁLISIS ESTADÍSTICO
BIDIMENSIONAL
2
PROGRAMA
ESTADÍSTICA DESCRIPTIVA
Tema 1: Análisis estadístico unidimensional
Tema 2: Análisis estadístico bidimensional
Tema 3: Números índices
Tema 4: Introducción a las series temporales
TEORÍA DE LA PROBABILIDAD
Tema 5: Teoría de la probabilidad. Aspectos generales
Tema 6: Variables aleatorias unidimensionales
Tema 7: Variables aleatorias bidimensionales
Tema 8: Características de las distribuciones de probabilidad
Tema 9: Distribuciones de probabilidad discretas y continuas
Tema 10: Convergencia
3
OTROS EJEMPLOS
1. Estudio de dos características de un mismo elemento de la población.
2. Tabulación de variables estadísticas bidimensionales.
3. Cálculo de medidas que sintetizan esta información.
4. Interrelación entre variables.
PRINCIPALES OBJETIVOS DEL TEMA
OTROS EJEMPLOS
Tablade cor relación.
Frecuencias: conjunta, marginales y condicionadas.
Principales medidas de posición, dispersión y forma.
Independencia estadística y funcional.
Covarianza.
Correlación.
Regresión.
PRINCIPALES CONCEPTOS DEL TEMA
4
OTROS EJEMPLOS
1. Introducción.
2. Tipos de frecuencias.
3. Medidas de posición y dispersión.
4. Momentos bidimensionales.
5. Independencia.
6. Correlación.
7. Regresión.
ESTRUCTURA DEL TEMA
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Vista previa parcial del texto

¡Descarga Diapositivas tema 2 y más Diapositivas en PDF de Estadística solo en Docsity!

1

TEMA 2

ANÁLISIS ESTADÍSTICO

BIDIMENSIONAL

2

PROGRAMA

ESTADÍSTICA DESCRIPTIVA

Tema 1: Análisis estadístico unidimensional Tema 2: Análisis estadístico bidimensional Tema 3: Números índices Tema 4: Introducción a las series temporales

TEORÍA DE LA PROBABILIDAD Tema 5: Teoría de la probabilidad. Aspectos generales Tema 6: Variables aleatorias unidimensionales Tema 7: Variables aleatorias bidimensionales Tema 8: Características de las distribuciones de probabilidad Tema 9: Distribuciones de probabilidad discretas y continuas Tema 10: Convergencia

3

OTROS EJEMPLOS

  1. Estudio de dos características de un mismo elemento de la población.
  2. Tabulación de variables estadísticas bidimensionales.
  3. Cálculo de medidas que sintetizan esta información.
  4. Interrelación entre variables.

PRINCIPALES OBJETIVOS DEL TEMA

OTROS EJEMPLOS

  • Tabla de correlación.
  • Frecuencias: conjunta, marginales y condicionadas.
  • Principales medidas de posición, dispersión y forma.
  • Independencia estadística y funcional.
  • Covarianza.
  • Correlación.
  • Regresión.

PRINCIPALES CONCEPTOS DEL TEMA

4

OTROS EJEMPLOS

  1. Introducción.
  2. Tipos de frecuencias.
  3. Medidas de posición y dispersión.
  4. Momentos bidimensionales.
  5. Independencia.
  6. Correlación.
  7. Regresión.

ESTRUCTURA DEL TEMA

5

OBSERVACIONES
DE DOS O MÁS VARIABLES
MASA DE DATOS
MULTIDIMENSIONAL

Ejemplos: talla y peso de una población

salario y antigüedad de los trabajadores de una empresa volumen de importación de maquinaria y producción durante ese año en una empresa.

Si estudiamos conjuntamente más de una variable sobre una misma población, a cada elemento observado de dicha población le corresponden tantos valores observados como variables estudiadas.

1. INTRODUCCIÓN

6

En el caso particular de observar dos variables X e Y sobre un mismo elemento, tendremos para él el par de observaciones (xi , yj). Así, estamos ante una variable bidimensional (X,Y), par de variables observadas simultáneamente, de forma que:

*La variable X presenta n valores de los cuales k son distintos *La variable Y presenta m valores de los cuales h son distintos

El conjunto de pares (xi,yj) con sus respectivas frecuencias se denomina distribución bidimensional de frecuencias de la variable (X,Y).

De esta variable bidimensional, se pueden estudiar medidas de posición, dispersión y forma, se puede representar gráficamente, ...

NUBE DE PUNTOS o DIAGRAMA DE DISPERSION

Consiste en representar en el eje de abscisas los valores de

X y en el eje de ordenadas los valores de Y de forma que

cada observación (xi,yj) queda representada por un punto en

plano.

7 Salario inicial

Salario actual 0 20000 40000 60000 80000 100000

140000 120000 100000 80000 60000 40000 20000 (^0 )

El estudio de una variable bidimensional es útil para:

  • Conocer el comportamiento de cada componente, ignorando el resto de variables, es decir, conocer lo que se denomina distribuciones marginales.
  • Conocer la distribución de una variable cuando el resto toma unos valores dados, se originan así las distribuciones condicionadas.
  • Conocer la posible interrelación entre los valores de la variables, lo cual nos lleva al tema de correlación (intensidad de la relación) y regresión (estructura).

13

   

k i

i

h j

f j f

1

. 1

Frecuencia relativa marginal de xi es la proporción de individuos que presentan dicho valor:

f f nN i k

h j

i ij i^1 ,...,

1

. ^    

Análogamente, la frecuencia relativa marginal de yj :

j h

N

f k f n

i

j

j ij^1 ,...,

1

. ^    

Observación:

14

3) FRECUENCIAS MARGINALES ACUMULADAS

Frecuencia absoluta marginal acumulada de xi es:

N n i k

i (^) r i r

. ^  ^1 ,...,

  Análogamente, la frecuencia absoluta marginal acumulada de yj :

N n j h

j (^) r j r

. ^  ^1 ,...,

  Frecuencia relativa marginal acumulada de xi es:

F i.  NNi   i  1 ,..., k

Frecuencia relativa marginal acumulada de yj es:

F. j  NN  j  j  1 ,..., h

15

Tabla de correlación o tabla de doble entrada

X \ Y y 1 y 2 ... yj ... ym ni· fi· Ni· Fi·

x 1 n 11 n 12 … n1j … n1m n1· f1· N1· F1·

x 2 n 21 n 22 ... n2j ... n2m n2· f2· N2· F2·

xi ni1 ni2 ... nij ... nim ni· fi· Ni· Fi·

xn nn1 nn2 ... nnj ... nnm nn· fn· Nn·=N Fn·=

n·j n·1 n·2 ... n·j ... n·m N 1

f·j f·1 f·2 ... f·j ... f·m 1

N·j N·1 N·2 ... N·j ... N·m=N

F·j F·1 F·2 ... F·j ... F·m=1 16

Ejemplo: Dada la siguiente distribución bidimensional sobre los ingresos mensuales de 100 familias (X en unidades monetarias) y el número de miembros integrantes de cada familia (Y), complete la tabla de correlación con las frecuencias marginales absolutas, relativas, absolutas acumuladas y relativas acumuladas.

X\Y 2 3 4 ni. fi. Ni. Fi. 100 21 20 0 41 0,41 41 0, 200 5 15 5 25 0,25 66 0, 300 10 5 19 34 0,34 100 1 n.j 36 40 24 100 1 f.j 0,36 0,4 0,24 1 N.j 36 76 100 F.j 0,36 0,76 1

17

X/yj nij x 1 n1j x 2 n2j ... … xn nnj n.j

Y/xi nij y 1 ni y 2 ni … … ym nim ni.

Distribuciones Condicionadas: distribuciones de una de las componentes cuando la otra toma un valor o valores fijos (cumple una condición)

4) FRECUENCIAS CONDICIONADAS

Distribución de X condicionada por yj

Observaciones:

Frecuencia absoluta de xi condicionada a yj ni/j

Frecuencia relativa de xi condicionada a yj fi/j = ni/j / n.j

1

 /^  

n i

fij

X/ yj

n nj N

n i

i j   

. 1

/ 18

Ejemplo: Con los datos del ejercicio anterior obtenga las distribuciones condicionadas: X/y=4 ; Y/ x<250.

X\Y 2 3 4 ni. 100 21 20 0 41 200 5 15 5 25 300 10 5 19 34 n.j 36 40 24

X/y=4 ni 100 0 200 5 300 19 24

Y/x<250 n1j +n2j 2 26 3 35 4 5 66

19

N

yn y

N

xn X

h

j

j j

k

i

ii

( )

( )

y N

yn

N

y y n S

X N

xn

N

x X n S

h

j

j j

h

j

j j y

k

i

i i

k

i

i i x

 

 

 

 

 

 

3. MEDIDAS DE POSICIÓN Y DISPERSIÓN

1. DISTRIBUCIONES MARGINALES:

2 2 2

y
S
CV
S
y
N
S yn
N
yn
y

y y

y

y j j

jj

2

2 2

x
CV S
S
N x
xn
S
N
xn
x

x^ x

x

ii x

ii

Y es más homogénea

Ejemplo: Con los datos del ejercicio anterior estudie cuál de las dos distribuciones es más homogénea.

xi ni. xi ni. xi^2 ni xi^2

yi n.j yi n.j yj^2 nj yj^2

25

*momentos respecto a la media o centrales:

ij
k
i
h
j
s
j
r

r s xi x y y n N

m (^) 

  

, ( ) ( )

1

m0,0= 1
m1,0= 0 ; m0, 1= 0
m2,0= S^2 x ; m0,2= S^2 y
m1,1= Sxy covarianza

26

COVARIANZA
  • Es una medida de variabilidad conjunta entre dos variables, que recoge la variación de ambas variables respecto a sus medias respectivas.
  • Es la media aritmética del producto de las variaciones respecto a la media. Interpretación de la Covarianza: Sxy >0 La asociación entre X e Y es directamente proporcional, es decir que cuando X aumenta Y también aumenta; y viceversa. Sxy <0 La asociación entre X e Y es inversamente proporcional, es decir que cuando X aumenta Y disminuye; y viceversa. Sxy =0 No existe asociación lineal entre X e Y, están incorreladas linealmente.

11 10 01 1 1

1 1

1 , 1

xyn xy a a a

N

x x y yn

N

S m

ij

k

i

h

j

i j

ij

k

i

h

j

xy i j





 

 

27

Ejemplo: En una empresa la retribución semanal (X, en euros) de

cada obrero y la antigüedad (Y, en años) en la empresa, son los

siguientes:

1 1

 (^)     

xyn x y

N

S ij

n

i

m

j

xy i j

y

x

X/Y 1 3 5 ni xini

nj 4 4 2 10 750

yjnj 4 12 10 26

PRODUCTO 1 3 5

28

PROPIEDADES:
  • Cambio de escala y origen. No le afectan los cambios de origen pero sí de escala del siguiente modo:
  • Inconveniente: no da, a priori, una medida de la importancia relativa de la correlación (depende de la escala utilizada).
  • Desigualdad de Cauchy-Schwarz vinculada a la covarianza se traduciría:

S ' (^) xya 1 a 2 Sxy

xy xy xy

xy x y

N

i

i

N

i

i

N

i

i i

SS S S S

S S S

x x y y x x y y

^ 

^ 

      2 2 2

1 1

2

1

Dividiendo entre N: Campo de variación:

29

Si hay algún tipo de relación entre las variables, es decir cuando el comportamiento de una de ellas influye en el comportamiento de la otra se dice que son dependientes y en caso contrario se habla de independencia. La dependencia o independencia puede ser estadística o funcional.

5. INDEPENDENCIA

si no existe relación entre las variables

independientes funcionalmente dependientes

estadísticamente dependientes

si existe una función que relacione las dos variables

término medio

sueldos por categorías: mecánicos=x, vendedores=1’3x, y directivos=2x

salario y altura

altura-peso edad altura ...

30

Dependencia Funcional:

  • X depende funcionalmente de Y si a cada valor o modalidad yj de Y le corresponde un único valor o modalidad posible de X. Es decir, cada columna de la tabla de correlación tendrá, un único término distinto de cero.
  • Para que sea recíproca, los dos caracteres deben tener el mismo número de valores o modalidades y sólo puede haber un único término distinto de cero tanto por filas como por columnas. Ejemplo: En una empresa la retribución semanal (X, en euros) de cada obrero y la antigüedad (Y, en años) en la empresa, son los siguientes:

X\Y 1 3 5 7 100 15 0 0 0 120 0 20 0 0 140 0 0 30 0 160 0 0 0 25

X\Y 1 2 3 4 5 100 20 0 0 5 0 120 0 26 0 0 0 140 0 0 28 0 12 160 0 0 0 10 0

FUNCIONAL NO FUNCIONAL

La dependencia estadística no es una

dependencia funcional

La influencia de la variable independiente

en la dependiente no determina

exactamente sus valores, solo los limita

31 32

INDEPENDENCIA ESTADÍSTICA:

Caso en que las variables ni son independientes, ni existe dependencia funcional. La definición de dependencia estadística está asociada a las frecuencias, por lo que podemos exponer su definición de distintos modos:

  1. Decimos que dos variables X e Y son estadísticamente independientes si cada una de las frecuencias relativas conjuntas es igual al producto de las correspondientes frecuencias relativas marginales:
  2. En términos de frecuencias absolutas:

f ij  fi  f  j  i , j

N

n

N

n

ff

N

n

f

i^ j i j

ij ij

 ^ 

..^ *

ij

N

nn

n

N

n

N

n

N

n i j

ij

ij  i *  j  . .;,

37

Nube de puntos: representación gráfica de gran utilidad.

(Información que nos proporcionaba la covarianza)

Relación lineal positiva

Relación no lineal

Relación lineal negativa

Ausencia de relación lineal

38

39

Coeficiente de correlación lineal simple de Pearson: cociente entre la covarianza y el producto de las desviaciones típicas de las dos variables.

 ;  1  rxy  1

SxSy

Sxy

rxy

Interpretación del coeficiente de correlación lineal: rxy =1: Relación lineal perfecta y directa entre X e Y rxy =-1: Relación lineal perfecta e indirecta entre X e Y rxy =0 ; Incorrelación lineal entre X e Y rxy  1 ; Fuerte relación lineal directa entre X e Y rxy  - 1 ; Fuerte relación lineal indirecta entre X e Y rxy  0 ; Poca relación lineal entre X e Y 40

Propiedades del coeficiente de correlación lineal:

  • Su campo de variación es el intervalo [-1, 1].
  • Mantiene el signo de la covarianza.
  • Si no hay relación lineal la covarianza es nula y el coeficiente de correlación lineal es, por tanto, igual a 0.

Independencia Estadística Cov=0^ Incorrelación lineal

41

  • No se ve afectado por cambios de origen en las variables.
  • No se ve afectado, en magnitud, por cambios de escala, aunque sí puede cambiar de signo.

 rxy

si c y d tienen el mismo signo.

si c y d tienen signos opuestos. (^42)

  86 , 319224 ,^16  0 , 7652  0 , 44

xy

xy xy

SS
S
r

Relación directa de intensidad media

Ejemplo: Con los datos del primer ejercicio estudie la intensidad de la relación lineal existente entre las variables.

43

Puede comprobarse que existen distintas alternativas para predecir el valor de una variable a partir de sus valores observados. Cualquiera de ellas conlleva el incurrir en errores ya que se trata de predicciones. Definimos el error cometido al estimar la observación j-ésima de la variable estimada como la diferencia entre el valor observado y el estimado:

Así, la suma de los cuadrados de los errores es:  (^)   i j

SCE yj y nij

( ˆ )^2

7. REGRESIÓN

44

Ej.- Dada la cantidad demandada de un bien en un establecimiento durante ocho semanas, 50,48, 39, 52, 47, 51, 46, 43, realice la predicción de la demanda en la novena semana sin más información.

y  j  y

Mínimo por

teorema de König

y  47

SCE = 132

1. Predicción mediante la media aritmética:

Mínimo error que en esta situación puedo cometer

( )^22 y

i j j^ ij

SCE  (^)  yy nNS

TIEMPO^49

0 10 20 30 40 50 60

VIRUS

300

200

100

0 T 50

Y 0 10 20

500

400

300

200

100

0

Y=X^3

Y=X^2

Y=X

FUNCIONES POLINÓMICAS:

51

FUNCIONES POTENCIALES (pendiente menor que la unidad):

T

Y1 0 5 10 15 20

5 4 3 2 1 0

Y^4 X

Y^3 X

YX

52

FUNCIONES POTENCIALES (pendiente negativa):

T

Y2 0 5 10 15 20

1,

,

,

,

,

0,

Y=1/X

53

FUNCIONES EXPONENCIALES:

X

Y -30 -20 -10 0 10 20 30

60 50 40 30 20 10 0

Y=e-X Y=eX

Si el tipo de función para la relación entre X e Y es una función

lineal, estamos ante la REGRESIÓN LINEAL SIMPLE (una

sola variable explicativa).

El objetivo es seleccionar de entre las infinitas funciones (rectas)

que pasan por la nube de puntos, la que mejor se “adapte” o más

se “acerque” a la nube de puntos.

Dicha técnica matemática se conoce como AJUSTE.

El tipo de ajuste que vamos a estudiar es el Método de los

Mínimos Cuadrados , que identifica la función (recta) que

reduce al mínimo la suma de los errores cometidos.

55

Error cometido al estimar la observación j-ésima de la variable

yj

y  (^) j

Y: regresando, var. explicada, dependiente o de respuesta X: regresor, var. explicativa o independiente)

56

Evitar compensación Método de mínimos cuadrados

Tratamos de minimizar la siguiente función:

¿Qué valores de a y b hacen Φ mínimo?

El criterio será minimizar la suma de los errores cometidos en

todas las observaciones disponibles.

SCE

61

De forma análoga …. LINEA DE REGRESION DE X SOBRE Y (X/Y) : descrita por las medias de las distribuciones de X condicionadas por valores de Y

j y

xy y

xy

i j S y

S

y

S

S

x ˆ  a  b  y  x  2  2

Propiedad de las rectas de regresión

Se cortan en el punto de las medias :

x y^ ,

y

x

Ambas rectas pasan por el centro de gravedad de la nube de puntos, es decir, el puntox;y

63

Interpretación de los parámetros

parámetro a es la ordenada en el origen, el valor medio que

tomaría la variable explicada cuando la variable explicativa tomara

el valor 0.

parámetro b se denomina coeficiente de regresión y representa la

pendiente de la recta; su valor indica el incremento o disminución

que se producirá en la variable explicada ante un incremento

unitario de la variable explicativa.

signo b signo Sxy

siendo este pronóstico tanto más acertado cuanto más fuerte sea

la dependencia (lineal) estadística.

estructura

valores de X

predicción

Posiciones relativas de las rectas de regresión

Crecientes Correlación lineal directa

Decrecientes Correlación lineal inversa

Perpendiculares Incorrelación lineal

65

CORRELACION

PERFECTA

DIRECTA

CORRELACION

PERFECTA

INVERSA

66

Variaciones de otros fenómenos relacionados con Y o por azar

Varianza residual y varianza explicada. Coeficiente de determinación.

Variación de Y

Variación de X

Nos planteamos calcular el porcentaje de variabilidad de la variable explicada que se debe a la variabilidad de la variable explicativa.

Se puede demostrar que, en la regresión lineal de Y sobre X, la varianza de la variable Y puede descomponerse en la suma de la varianza explicada y la varianza residual:

67

Varianza explicada, de los valores teóricos o debida a la regresión (S^2 r )

Varianza residual o de los errores (S^2 e )

Varianza de los valores observados o varianza total (S^2 y )

68

Coeficiente de determinación R2 : Medida de bondad del ajuste efectuado^2

2 2

2

y

e y

r

S

S

S

R  S  

Si R^2 ~ 0 Con la función seleccionada se está explicando un bajo porcentaje de las variaciones de Y. La bondad del ajuste realizado es baja. Si R^2 ~ 1 Con la función seleccionada se está explicando un alto porcentaje de las variaciones de Y. La bondad del ajuste realizado es elevada.

R^2 = 0
R^2 = 1

Dependencia nula. Ausencia de relación según este modelo

Dependencia funcional perfecta

Mayor grado de dependencia

0 ≤ R^2 ≤ 1

73

Coeficiente de correlación lineal entre el número de horas no trabajadas por vacaciones y festivos (variable Y) y el tamaño del centro (variable X).

xi (marca de clase)

y j x^2 i y^2 j x i y j 2,5 232,0 6,25 53824,00 580 7,5 226,5 56,25 51302,25 1698, 17,5 224,6 306,25 50445,16 3930, 37,5 221,5 1406,25 49062,25 8306, 75 218,3 5625 47654,89 16372, 150 216,7 22500 46958,89 32505 350 209,7 122500 43974,09 73395 640 1549,3 152400 343221,5 136788

74

Realizamos los mismos cálculos para el número de horas no trabajadas por causas ocasionales

75

Recta de regresión Y = a + b X

2 ( x x ) S

S y y

x
xy

  

Sxy  694 ' 612 Sx^2  13. 412 ' 24

x  91 ' 4286 y  221 ' 3286

( 91 ' 4286 )

  1. 412 ' 24

694 ' 612 221 ' 3286 

y   x

ˆ y   0 ' 05179 x  226 ' 0636

vacaciones

tamaño

x  1. 000 trabajadores y ˆ  174 ' 2736 horasdevacaciones^76

Recta de regresión Y = a + b X

2 ( x x ) S

S y y x

xy   

Sxy  1787 ' 066 S^2 x^  13. 412 ' 24

x  91 ' 4286 y  50 ' 4286

( 91 ' 4286 )

  1. 412 ' 24

1787 ' 066 y  50 ' 4286  x

y ˆ  01332 ' x  38 ' 2465

horas no trabajadas

tamaño

x  1. 000 trabajadores ˆ y  171 ' 4465 horasfaltadas