Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Tema 2 estadística, Apuntes de Estadística

Asignatura: Estadistica I, Profesor: Eugenia Eugenia, Carrera: Marketing e Investigación de Mercados, Universidad: UMA

Tipo: Apuntes

2013/2014

Subido el 28/03/2014

cristinagallego
cristinagallego 🇪🇸

3.3

(7)

5 documentos

1 / 16

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
1
ESTADÍSTICA I
TEMA 2.- ANÁLISIS CONJUNTO DE DOS VARIABLES.
2.1. INTRODUCCIÓN.
2.2. DISTRIBUCIÓN BIDIMENSIONAL DE FRECUENCIAS.
2.3. DISTRIBUCIONES MARGINALES Y CONDICIONADAS DE FRECUENCIAS.
2.4. CORRELACIÓN LINEAL ENTRE VARIABLES.
2.5. REGRESIÓN LINEAL SIMPLE.
2.1. INTRODUCCIÓN.
Al considerar simultáneamente dos caracteres de una determinada población o muestra, a un elemento
observado le corresponde un par de valores o modalidades, según que los caracteres considerados sean
variables o atributos. Nos vamos a centrar en caracteres de tipo cuantitativo o variables.
Se puede, evidentemente, estudiar separadamente la distribución de la población según la variable X o
la variable Y, pero puede ser interesante considerar simultáneamente las dos variables, para estudiar
las posibles relaciones entre ellas.
2.2. DISTRIBUCIÓN BIDIMENSIONAL DE FRECUENCIAS.
Para la presentación de los datos se va a distinguir, igual que en el caso de una sola variable, dos tipos
de distribuciones bidimensionales.
Distribuciones con datos sin agrupar: Hay pocas parejas de valores distintos. Cada par de valores
(x
i
, y
j
) se repite n
ij
veces. Se puede reducir de dos formas:
x
i
y
j
n
ij
x
1
y
1
n
11
x
1
y
2
n
12
x
1
y
3
n
13
x
2
y
1
n
21
.
.
x
k
.
.
y
h
.
.
n
kh
N
Más útil es construir una tabla de doble entrada:
X
Y
y
1
y
2
y
j
y
h
x
1
n
11
n
12
n
1j
n
1
h
x
2
n
21
n
22
n
2j
n
2
h
x
i
n
i1
n
i2
n
ij
n
i
h
x
k
n
k
1
n
k
2
n
k
n
k
h
Distribuciones con datos agrupados en intervalos en una o en las dos variables: Si el número de
observaciones es muy elevado y el número de parejas distintas también, se utiliza una tabla de doble
entrada. Una o las dos variables pueden agruparse en intervalos. Por ejemplo
:
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Vista previa parcial del texto

¡Descarga Tema 2 estadística y más Apuntes en PDF de Estadística solo en Docsity!

ESTADÍSTICA I

TEMA 2.- ANÁLISIS CONJUNTO DE DOS VARIABLES.

2.1. INTRODUCCIÓN.

2.2. DISTRIBUCIÓN BIDIMENSIONAL DE FRECUENCIAS.

2.3. DISTRIBUCIONES MARGINALES Y CONDICIONADAS DE FRECUENCIAS.

2.4. CORRELACIÓN LINEAL ENTRE VARIABLES.

2.5. REGRESIÓN LINEAL SIMPLE.

2.1. INTRODUCCIÓN.

Al considerar simultáneamente dos caracteres de una determinada población o muestra, a un elemento observado le corresponde un par de valores o modalidades, según que los caracteres considerados sean variables o atributos. Nos vamos a centrar en caracteres de tipo cuantitativo o variables.

Se puede, evidentemente, estudiar separadamente la distribución de la población según la variable X o la variable Y, pero puede ser interesante considerar simultáneamente las dos variables, para estudiar las posibles relaciones entre ellas.

2.2. DISTRIBUCIÓN BIDIMENSIONAL DE FRECUENCIAS.

Para la presentación de los datos se va a distinguir, igual que en el caso de una sola variable, dos tipos de distribuciones bidimensionales.

Distribuciones con datos sin agrupar : Hay pocas parejas de valores distintos. Cada par de valores (xi, yj) se repite nij veces. Se puede reducir de dos formas:

xi yj nij x 1 y 1 n 11 x 1 y 2 n 12 x 1 y 3 n 13 x 2 y 1 n 21 . . xk

yh

nkh N

Más útil es construir una tabla de doble entrada:

X Y y^1 y^2 …^ yj^ …^ yh x 1 n 11 n 12 … n1j … n 1 h x 2 n 21 n 22 … n2j … n 2 h … xi ni1 ni2 … nij … nih … xk nk 1 nk 2 … nkj … nkh

Distribuciones con datos agrupados en intervalos en una o en las dos variables: Si el número de observaciones es muy elevado y el número de parejas distintas también, se utiliza una tabla de doble

entrada. Una o las dos variables pueden agruparse en intervalos. Por ejemplo:

X Y L 0 -L 1 L 1 -L 2 … Lj-1-Lj … Lh-1-Lh x 1 n 11 n 12 … n1j … n 1 h x 2 n 21 n 22 … n2j … n 2 h … xi ni1 ni2 … nij … nih … xk nk 1 nk 2 … nkj … nkh

a) Al número de veces que se presenta conjuntamente el par de valores (xi,yj) se le denomina

frecuencia absoluta bidimensional y se le representa por nij; se cumple que: 1 1

k h i j i j

n N = =

b) La frecuencia relativa bidimensional fij , N

n f (^) ij = ij , es el cociente entre la frecuencia absoluta

correspondiente y la suma de frecuencias absolutas bidimensionales, N. Se cumple que

= =

k

i

h

j

fij 1 1

c) Si la distribución bidimensional es de variables, a la tabla de doble entrada se le llama tabla de correlación. Si la Si la distribución bidimensional es de atributos, la tabla de doble entrada se llama de contingencia.

d) La tabla de correlación es una tabla formada por k×h casillas, de manera que hay k filas y h columnas. La casilla denotada de forma general por el subíndice ij hará referencia a los elementos que presentan simultáneamente las modalidades xi e yj.

2.3. DISTRIBUCIONES MARGINALES Y CONDICIONADAS DE FRECUENCIAS.

Distribuciones marginales: Son las distribuciones de las variables consideradas aisladamente, individualmente.

Para hallar la distribución marginal de X habrá que ver las frecuencias con que se repiten cada uno de los valores observados de X. Para ello tendremos que sumar los valores de cada fila de frecuencias. (OJO, si en un ejercicio piden la distribución marginal de X, hay que dar la distribución aparte).

Para hallar la distribución marginal de Y habrá que ver las frecuencias con que se repiten cada uno de los valores observados de Y. Para ello tendremos que sumar los valores de cada columna de frecuencias. (OJO, si en un ejercicio piden la distribución marginal de Y, hay que dar la distribución aparte).

Distribuciones condicionadas: Son otro tipo de distribuciones unidimensionales en las que previamente hace falta definir una condición. Si se quiere tener la distribución de X condicionada a que Y tome un valor concreto yj, veremos que sus frecuencias absolutas serán precisamente las de la columna j.

En la distribución de Y condicionada a que X tome un valor xi, sus frecuencias absolutas serán precisamente las de la fila i.

Las distribuciones marginales y condicionadas son distribuciones unidimensionales, por lo que podemos analizar sus características como medidas de posición central, dispersión, forma, concentración….

2.4. CORRELACIÓN LINEAL ENTRE VARIABLES.

COVARIANZA

  • La covarianza es una medida estadística para cuantificar la relación lineal entre dos variables.
  • Expresión de la covarianza:

1 1

k h i j ij i j xy

x x y y n

S

N

= =

Que en caso de que todas las frecuencias sean unitarias quedaría:

N

x x y y S

n

i

i i xy

=

  • Unidad de medida: unidades de X por unidades de Y
  • No está acotada, toma valores entre −∞ e ∞

Si  

0 ohayrelación lineal

0 Relaciónlinealnegativaoinversa

0 Relaciónlinealpositivaodirecta

S N

S

S

xy

xy

xy

Nota: Pueden verse gráficamente, tras trasladar el origen de coordenadas al centro de gravedad de la

nube de puntos (el punto ( x , y )), los signos que toma la covarianza para un punto que se encontrara

en cada cuadrante resultante:

Cuadrante Signo^ (^ xi −^ x ) Signo^ (^ yi −^ y ) Signo covarianza

Cuadrante I + + + Cuadrante II - + - Cuadrante III - - + Cuadrante IV + - -

El gráfico de la izquierda presenta covarianza positiva, Sxy > 0 , mientras que en el gráfico de la

derecha hay covarianza negativa, Sxy < 0.

Fuente: Bioéstadística: Métodos y Aplicaciones. F.Ríus,, F. J,. Barón, E. Sánchez y L. Parras.

En estas dos imágenes se ve cómo S xy = 0 no necesariamente implica independencia.

  • Efectos de cambio de origen y de escala en la covarianza:

a) Cambio de origen: No le AFECTA. Si en la distribución de frecuencias se suman a todos los valores de las dos variables una constante (igual o diferente), la covarianza no varía.

N

x x y y S

n

i

i i xy

=

x (^) i ' = xi + c

y (^) i ' = yi + d

xy

n

i

i i

n

i

i i xy (^) N S

x c x c y d y d

N

x x y y S =

= 1 = 1

b) Cambio de escala: Le AFECTA. Si en la distribución de frecuencias se multiplican todos los valores de las dos variables por una constante (igual o diferente), la covarianza varía.

N

x x y y S

n

i

i i xy

=

x (^) i ' = xic

y (^) i ' = yid

xy

n

i

i i

n

i

i i xy (^) N c d S

x c x c y d y d

N

x x y y S = ⋅ ⋅

= 1 = 1

X

(Edad) ni.^ xi^ xini 18-25 40 21,5 860 25-40 33 32,5 1072, 40-65 27 52,5 1417, TOTAL 100 3350

Y

(Salario/hora) n.j^ yj^ yjnj 6-10 38 8 304 10-30 40 20 800 30-50 22 40 880 TOTAL 100 1984

(^1 3350) 33, 5 euros 100

n i i i

x n x N

(^1 1984) 19,84 años 100

n i i i

y n y N

( 33 , 5 19 , 84 ) 131 , 68 años euros 100

1 1 79.^632

= = (^) xy N

xy n S

k

i

h

j

i j ij xy

Sxy > 0 ⇒Relaciónlinealpositivao directa

COEFICIENTE DE CORRELACIÓN LINEAL

  • El coeficiente de correlación lineal es una medida estadística adimensional para cuantificar la relación lineal entre dos variables, cuya fórmula es la siguiente:

x y

xy xy (^) SS

S

r =

Puede verse que tendrá siempre el signo de la covarianza, ya que el denominador es siempre positivo.

  • Unidad de medida: es adimensional
  • Toma valores entre − 1 ≤ rxy ≤ 1

Si  

0 Nohayrelación lineal

1 Relaciónlinealperfectanegativaoinversa

1 Relaciónlinealperfectapositivaodirecta

xy

xy

xy

r

r

r

Estos son los casos extremos. Correlación lineal positiva (entre 0 y 1) indica que hay relación lineal directa entre las variables, y a medida que se acerca al 1, más fuerte es la relación lineal directa. Correlación lineal negativa (entre -1 y 0) indica que hay relación lineal inversa entre las variables, y a medida que se acerca a -1, más fuerte es la relación lineal inversa.

Calculamos ahora el coeficiente de correlación lineal entre las dos variables en el ejemplo que se está considerando:

x y

xy xy (^) SS

S

r =

X

(Edad)

ni. xi xini xi^2 xi^2 ni (^2 33) , 52 155 , 4 años 2 100

Sx = − =

Sx = 12 , 47 años

TOTAL 100 3350 127765

Y

(Salario/hora)

n.j yj yjnj yj^2 yj^2 nj (^) 2 2 2 19 , 84 142 , 69 euros 100

Sy = − =

Sy = 11 , 95 euros

TOTAL 100 1984 53632

Sxy = 131 , 68 euros⋅ años

12,47años11,95euros

131 , 68 años euros

x y

xy xy (^) SS

S

r

Al ser positivo hay una relación lineal directa o positiva. Al no estar muy alejada de 1, puede hablarse de una relación lineal relativamente fuerte.

  • Efectos de cambio de origen y de escala en el coeficiente de correlación lineal:

a) Cambio de origen: NO AFECTA. Si en la distribución de frecuencias se suman a todos los valores de las dos variables una constante (igual o diferente), el coeficiente de correlación lineal no varía.

x (^) i ' = xi + c

y (^) i '^ = yi + d

Ya conocemos que:

xy xy

x x y y

S S

S S

S S

^ =

xy x y

xy x y

xy xy (^) SS r

S

S S

S

r = = = ' '

b) Cambio de escala: NO AFECTA. Si en la distribución de frecuencias se multiplican todos los valores de las dos variables por una constante (igual o diferente), la covarianza no varía.

x (^) i ' = xic

y (^) i '^ = yid Ya conocemos que:

xy xy

x x y y

S c d S

S c S

S d S

^ =^ ⋅^ ⋅

 =^ ⋅

xy x y

xy x y

xy xy (^) c S d S r

c d S S S

S

r = ⋅ ⋅ ⋅

Así como la dependencia funcional no admite grados, la dependencia estadística si los admite, ya que pueden existir dependencias más o menos fuertes.

En la dependencia estadística, a pesar de que las variables estén relacionadas, las observaciones suelen contener una componente aleatoria o error.

El análisis de regresión consiste en obtener la línea “ideal” (denominada línea de regresión) hacia la cual tienden los puntos en el diagrama de dispersión o nube de puntos. Se trata de determinar la dependencia exacta que se halla contenida en la dependencia estadística observada.

Se va a utilizar el método analítico, que consiste en encontrar una función matemática que explique la dependencia causal exacta que existe implícitamente entre las dos variables observadas.

A la abscisa xi le corresponde un punto con ordenada yi. Sin embargo, para esa abscisa, la línea ideal o

de regresión da una ordenada igual a y i *. La diferencia entre yi − y i *se llama error, y es debido a los

factores aleatorios de perturbación.

y i = yi + e i

La función matemática será: y *^ = f ( x )

En cada punto concreto se tendrá: y * i = f ( x i )

Un aspecto importante es el problema de seleccionar la función matemática f ( x ) que va a definir la

dependencia entre las dos variables (y que será la línea de regresión).

¿Qué función se elige? Dependerá de la forma que tenga la nube de puntos, o de la teoría que conozcamos al respecto. Nos vamos a centrar en el caso lineal.

y *= f ( x )= a + bx

El método más utilizado para la determinación de los parámetros (a y b) es el método de los mínimos cuadrados que proporciona unos valores numéricos para los parámetros con la condición de minimizar la suma de los errores al cuadrado:

e mínimo

N

i

∑ i =

= 1

2

Se deduce por las expresiones anteriores que:

y i = yi + e i

e i = yi − yi * = yi − ( a + bxi )

Para n parejas de valores observados (xi , yi ) se calculan las condiciones de primer orden para conseguir la función objetivo. El resultado final es:

1 1

∑ −^ − = ⇒∑^ =

= =

N

i

i

N

i

yi a bxi e (la media de los errores es cero)

1 1

∑ −^ − = ⇒∑^ =

= =

N

i

i i i

N

i

yi a bxi x ex (la covarianza entre los errores y la variable explicativa es

cero)

Resolviendo este sistema de ecuaciones se obtienen los valores de a y b.

2

xy x

S

a y bx b S

Interpretación de los parámetros a y b:

  • El parámetro b de la recta se denomina coeficiente de regresión.
  • Unidades de medida: unidad de medida de la variable Y entre la unidad de medida de la variable X.
  • Importante: el signo de b es el mismo de la covarianza.
  • Su valor expresa la variación media de Y cuando X aumenta en una unidad (aumento o disminución por término medio que se produce en la variable Y cuando la variable X aumenta en una unidad). - Si b toma un valor positivo, la variable Y crece al crecer X y la recta es creciente. Se trata de dependencia lineal directa. - Si b toma un valor negativo, la recta es decreciente, y la dependencia es lineal inversa. - Si b toma el valor cero, la recta es horizontal y no hay dependencia lineal.
  • Matemáticamente: b es la pendiente de la recta.
    • Si b > 0, es una recta con pendiente positiva.
    • Si b < 0, es una recta con pendiente negativa.
  • El parámetro a
  • Unidades de medida: unidades de medida de la variable Y
  • Es el valor que toma la variable Y cuando la variable X toma el valor 0.
  • Matemáticamente a es la ordenada en el origen (punto de corte de la recta con el eje de ordenadas).

Se cumple que: S y^2 = Sy^2 *+ S e^2

La varianza de la variable dependiente Y es igual a la suma de la varianza explicada por el modelo 2

S y *y la varianza de los errores

2

S e (no explicada por el modelo).

2

2 2

2 2 2

2 2 *

y

e y

y e

y

y

S

S

S

S S

S

S

R = −

  • Unidad de medida: es adimensional.
  • Valores que puede tomar: 0 ≤ R^2 ≤ 1
  • En los valores extremos vemos su significado:

( )

( )

2 2 2 2

2 2 2 2

y e y

y y e

R Ajuste muy malo S S S

R Ajuste perfecto S S S

  • En el caso de que el coeficiente de determinación sea igual a 0, los errores están explicando todas las variaciones de la variable dependiente, Y.
  • En el caso de que el coeficiente de determinación sea igual a 1, el modelo explica todas las variaciones de la variable dependiente, Y.
  • Relación entre el coeficiente de determinación, de regresión y el coeficiente de correlación lineal. (^2 ) 2 2 2 2 2 2

xy (^) x x y y

S S

R r b S S S

La fórmula que se utilizará en la práctica para calcular el coeficiente de determinación es precisamente la que se deriva de esta relación.

  • Los cambios de origen y de escala no afectan al coeficiente de determinación (no afectaban como se vio al coeficiente de correlación lineal, por lo que no afectan al coeficiente de determinación, que es el cuadrado de aquél).
  • Coeficiente de correlación (rxy) y coeficiente de regresión (b) siempre tienen el mismo signo

(ya que x

y

S

S

es un cociente de desviaciones típicas y por tanto, siempre tiene valor positivo).

PREDICCIÓN

La recta de regresión puede usarse para realizar predicciones. Para ello basta con dar en la recta de regresión el valor x para el que queremos predecir y ver el resultado de la estimación.

Importante: la predicción se hace siempre en términos medios, sobre la recta de regresión, puesto que el error es impredecible.

La recta de regresión se ha obtenido a partir de un conjunto de parejas de valores, luego puede calcularse el Recorrido de la variable independiente, X. (Recordamos que R = xmax - xmin)

Si el valor de X para el que se quiere predecir su valor de Y está dentro del recorrido de la X, se trata de una interpolación. Si el valor de X para el que se quiere predecir su valor de Y está fuera del recorrido de la X, se trata de una extrapolación.

En las interpolaciones, se estudia el R^2 para ver como era la bondad del ajuste y valorar la fiabilidad de la predicción

En las extrapolaciones, hay que considerar que fuera de la nube de puntos se mantiene la misma relación que dentro de ella. A medida que nos alejemos de la nube de puntos, menos confianza se tendrá en las predicciones realizadas.

Se recuerda que en la recta de regresión, en muchas ocasiones el parámetro a es una extrapolación, si la nube de puntos está alejada del eje de ordenadas.

Ejemplos:

  1. La distribución de salarios por hora (variable Y, en euros) según el intervalo de edad (variable X , en años) de un grupo de 100 trabajadores se presenta en la siguiente tabla:

Obtenga la línea de regresión en la que el salario sea función de la edad y de una medida de bondad de ajuste.

y^ * = a + bx

2

xy x

S

a y bx b S

Hemos calculado ya:

(^1 3350) 33, 5 euros 100

n i i i

x n x N

(^1 1984) 19,84 años 100

n i i i

y n y N

( 33 , 5 19 , 84 ) 131 , 68 años euros 100

1 1 79.^632

= = (^) xy N

xy n S

k

i

h

j

i j ij xy

x y

y^ * = a + bx

2

xy x

S

a y bx b S

2

xy x

S

b S

a = ybx = 6, 77 - 0,861 × 6, 59 =1, 096

y^ *^ = 1, 096 +0,861 x

( ) (^ )

2 2 2 2 3, 9127^2 0, 9213 0 ' 4, 5409 3, 9721

xy xy x y

S

R r S S

  ^ × 