tema 6 Estadistica II, Ejercicios de Matemáticas y Estadística Aplicada. Universidad Complutense de Madrid (UCM)
maria_yanguas-1
maria_yanguas-1

tema 6 Estadistica II, Ejercicios de Matemáticas y Estadística Aplicada. Universidad Complutense de Madrid (UCM)

12 páginas
11Número de visitas
Descripción
Asignatura: Estadística Aplicada a la Psicología II, Profesor: Sergio Escorial, Carrera: Psicología, Universidad: UCM
20 Puntos
Puntos necesarios para descargar
este documento
Descarga el documento
Vista previa3 páginas / 12
Esta solo es una vista previa
3 páginas mostradas de 12 páginas totales
Descarga el documento
Esta solo es una vista previa
3 páginas mostradas de 12 páginas totales
Descarga el documento
Esta solo es una vista previa
3 páginas mostradas de 12 páginas totales
Descarga el documento
Esta solo es una vista previa
3 páginas mostradas de 12 páginas totales
Descarga el documento

TEMA 6. CORRELACIÓN Y REGRESIÓN LINEAL

INTRODUCCIÓN

El objetivo es someter a comprobación estadística la relación entre una variable dependiente cuantitativa y una o varias variables independientes cuantitativas consideradas conjuntamente. Es necesario tener medidas de todos los sujetos en todas las vv.

Si sólo existe una variable independiente se habla de regresión lineal simple, si hay más de una variable independiente se habla de regresión lineal múltiple.

CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE

MÉTODO DE MÍNIMOS CUADRADOS

Selecciona los estimadores de α y β que hacen mínimo el error cuadrático medio

Tiene en cuenta el error que se comete al predecir mediante la recta de regresión

RECTA DE REGRESIÓN

Para poder aplicar el modelo es necesario comprobar que los puntos en el diagrama de dispersión se sitúan en torno a una línea recta > La recta de ajuste es lo que nos indica cómo se distribuyen los puntos

La recta de regresión se estima a partir de los datos de los sujetos en la muestra, todos los sujetos tienen que ser medidos tanto en X como en Y.

Una vez construida puede ser aplicada a todos los sujetos de la población a la que pertenece la muestra, en este caso es suficiente medir al sujeto en X y utilizando la ecuación de la recta de regresión podemos predecir su puntuación en Y

ECUACIÓN DE LA RECTA REGRESIÓN LINEAL EN PUNTUACIONES TÍPICAS

En puntuaciones típicas la ordenada en el origen vale 0 porque la media de las puntuaciones es igual a 0

CONTRASTE DE HIPÓTESIS. PENDIENTE

En la salida que nos da el SPSS tenemos varios contrastes de hipótesis, el primero que vamos a ver es el más importante: el de la pendiente

H0: β=0 (el modelo no es predictivo) // H1: β≠0

SUPUESTOS

1. Independencia. En la regresión todos los sujetos deben estar medidos en todas las variables, por eso solo tenemos 1 m.a.s.

2. Normalidad. La normalidad está condicionada al tener más de una VD

3. Homocedasticidad. La homocedasticidad también está condicionada.

ESTADÍSTICO DE CONTRASTE

REGIÓN CRÍTICA Y CRITERIO DE DECISIÓN

Siempre es un contraste bilateral por como formulamos la hipótesis alternativa.

INTERVALO DE CONFIANZA

SPSS

Como rechazamos la H0 de abajo, podemos decir que el modelo es predictivo // en el examen para formular la ecuación de regresión solo hay que meter aquellos valores de la columna B en los que rechazamos la H0 // el valor de correlación de Pearson es igual al valor de la pendiente en puntuaciones típicas

CONTRASTE DE HIPÓTESIS. ρXY

H0:ρXY=0 (el modelo no es predictivo) // H1: ρXY≠0

SUPUESTOS

1. Independencia

2. Normalidad bivariada

ESTADÍSTICO DE CONTRASTE REGIÓN CRÍTICA Y CRITERIO

INTERVALO DE CONFIANZA(usamos tablas o programas de ordenador)

SPSS

Esto es la correlación de Pearson, en la múltiple será la correlación múltiple // r2 también se denomina coeficiente de determinación que nos va a indicar el porcentaje de varianza que comparten ambas variables (cuanto más alto sea este, mayor será nuestra fiabilidad)

COMPROBACIÓN DEL MODELO DE REGRESIÓN MEDIANTE EL ANÁLISIS DE VARIANZA.

En ausencia de más información a cada sujeto le predeciríamos con la puntuación media, en este caso, predeciré que cualquier trabajador se ausentará por término medio 7 días al año. Y = 7 días

Si conocemos que la ausencia al trabajo está relacionada con alguna variable, en este caso el número de cigarrillos que se fuma al día, podemos predecir de forma particular a todos aquellos sujetos que fuman el mismo número de cigarrillos (la persona fuma 8)

Y' = 2,8714 + 0,2429 Xi = 2,8714 + 0,2429 (8) = 4,81

El error cometido al utilizar la media para pronosticar:

εi = (Yi −Y) = 4 − 7 = −3

El error cometido al utilizar la recta de regresión:

Siempre cometemos menos error al utilizar la recta de regresión

Para informar del efecto debemos utilizar el coeficiente de determinación corregido

RELACIONES ENTRE EL COEFICIENTE DE CORRELACIÓN LINEAL Y LA RECTA DE REGRESIÓN LINEAL SIMPLE

INTERPRETACIÓN DEL COEFICIENTE DE DETERMINACIÓN

Varianza de los pronósticos / varianza de la VI // estima el tamaño del efecto, cuanto más cercano a 1 mejor es el modelo // indica también el nivel de ajuste de los puntos a la recta de regresión (cuanto más se acerque a 1 más cercano van a estar a la recta)

La varianza de los pronósticos siempre será menor o igual (solo en casos ideales) que la varianza total (si fuera mayor explicaría más del 100%, lo que es imposible)

• Si no se dispone de más información, la forma habitual de predecir la puntuación de un sujeto en una variable es asignarle la media de la población a la que pertenece. El error de predicción que se comete con cada sujeto

será:

• Si se utiliza la recta de regresión, es decir se utiliza la puntuación del sujeto en X para predecir su valor en Y,

cometeremos menos error:

• Coeficiente de determinación: Proporción de error que dejamos de cometer al pronosticar con la recta de regresión en lugar de pronosticar con la media de Y

FACTORES QUE AFECTAN AL VALOR DE ρxy

1. Variabilidad del grupo: restricción del rango (opera cuando los sujetos con los que trabajamos tienen un valor de variabilidad menor que la población). Si la variabilidad es reducida en una o ambas variables el valor de ρxy puede verse reducido.

2. Influencia de otras variables: mediación y moderación

3.

Existencia de valores atípicos bivariados (podemos eliminarlos o explicarlos)

REGRESIÓN LINEAL MÚLTIPLE

La VD sigue siendo cuantitativa, pero ahora tenemos muchas VI

Los valores de la recta de regresión estimada se sacan de las tablas del SPSS, pero aunque tengamos muchas VI, no todas se van a incluir en la recta de regresión, solamente se incluyen las que sean estadísticamente significativas (mirar la sig.). Al sustituir para hallar la puntuación de un sujeto tenemos que tener cuidado // e = error de predicción asociado al modelo

PUNTUACIONES TÍPICAS (hay que tipificar todas las puntuaciones)

MODELO DE REGRESIÓN

CONTRASTE DE HIPÓTESIS

Vamos a decir que un modelo no es predictivo cuando todas las pendientes son nulas, con que una sea predictiva ya rechazamos la H0. Nunca vamos a mantener la H0 porque entonces no tenemos nada más que hacer.

SUPUESTOS

• Independencia 1 m.a.s

• Normalidad multivariada, en la VD pero evaluada respecto a cada una de las VI

• Homocedasticidad, en la VD pero evaluada respecto a cada una de las VI

• Linealidad

ESTADÍSTICO DE CONTRASTE

El estadístico es una F // k es el número de VI (solo aquellas que metemos en la ecuación de regresión, sino no las incluimos menos en el método introducir)

COEFICIENTE DE DETERMINACIÓN

• Proporción de varianza de la variable Y asociada conjuntamente a todas las variables independientes

• Proporción de error cuadrático medio reducido al pronosticar mediante la recta de regresión en lugar de utilizar la media de Y

• Es muy sensible al número de predictores, basta incluir un predictor más en la ecuación de regresión, aunque sea irrelevante, para que el valor del coeficiente de correlación múltiple aumente

• Se utiliza como estimador el coeficiente de correlación ajustado o corregido:

Un 77,6% de la variabilidad de la nota media académica se puede predecir a partir de la capacidad de resolución problemas, riqueza de vocabulario, C.I. Total, originalidad, riqueza expresiva y creatividad global consideradas conjuntamente.

Si se rechaza la hipótesis nula en el contraste del modelo de regresión, y por tanto se concluye que el modelo en su conjunto es estadísticamente significativo, se tienen que comprobar las hipótesis nulas referidas a cada uno de los pesos o coeficientes de las variables predictoras y a la constante

Los coeficientes tipificados solo van de -1 a 1, no es así con los coeficientes no estandarizados

COMPROBACIÓN DE LOS SUPUESTOS

NORMALIDAD histograma de residuos // gráfico P-P de residuos tipificados

LINEALIDAD Y HOMOCEDASTICIDAD gráfico de dispersión

Se cumplen ambos supuestos Se cumple homocedasticidad pero no linealidad

Se cumple linealidad pero no homocedasticidad No se cumple ninguno de los dos

También podemos encontrarnos con la existencia de datos atípicos

ROBUSTEZ DE F FRENTE AL INCUMPLIMIENTO DE LOS SUPUESTOS

• Los estadísticos de la regresión son muy robustos frente al incumplimiento del supuesto de normalidad

• Las distribuciones muestrales no siguen exactamente el modelo propuesto si se incumplen la independencia, la existencia de atípicos o la multicolinealidad (asumir que entre las VI y la VD hay una relación lineal y que las VI no tienen relación entre ellas)

CORRELACIÓN MÚLTIPLE, PARCIAL Y SEMIPARCIAL

MODELO CON 2 PREDICTORES

CORRELACIÓN PARCIAL: es la relación entre las variables (al menos 3: 2VI 1VD) cuando de ellas eliminamos el efecto de una de ellas. [(A – C) + (B – C)]

La relación entre la VD y una VI, eliminando de ambas la influencia de otra VI

Incremento porcentual (en lo que queda por explicar de VD) en R2 al incluir X2 (consiste en elevar al cuadrado la correlación parcial)

CORRELACIÓN SEMIPARCIAL: es la relación entre la VD y una VI cuando solamente hemos extraído la influencia de otra VI de esta primera VI. [A + (B – C)]

La relación entre la VD y una VI, eliminando de la VI la influencia de otra VI

Incremento en R2 al incluir X2

MODELO CON K PREDICTORES

CORRELACIÓN PARCIAL

CORRELACIÓN SEMIPARCIAL

MULTICOLINEALIDAD

En un modelo de regresión lineal múltiple, al existir varias variables independientes, es frecuente que también algunas de ellas estén correlacionadas

Si la correlación entre las variables independientes es alta, el error típico de estimación de los pesos es alto, por tanto, puede haber mucha variación al estimar la ecuación de regresión en muestras diferentes

Para medir la relación entre las variables independientes se calcula el índice de tolerancia para cada una de ellas

Si una variable independiente tiene mucha colinealidad con el resto no debe incluirse en el modelo

MÉTODO DE SELECCIÓN DE VARIABLES

El objetivo es conseguir una ecuación que explique el mayor porcentaje de variabilidad de la variable dependiente con el menor número posible de predictores: principio de parsimonia.

Existen distintos procedimientos de selección de variables que pueden estimar modelos de rectas de regresión diferentes a partir del mismo conjunto de predictores.

El modelo resultante depende tanto de las variables que han sido consideradas para formar parte de la ecuación como de las que no han sido consideradas, pero tienen relación con la VD.

TIPOS:

INTRODUCIR PASOS SUCESIVOS STEPWISE

HACIA DELANTE FORWARD

HACIA ATRÁS BASCKWARD TODOS LOS MODELOS REGRESIÓN JERÁRQUICA

STEPWISE (PASOS SUCESIVOS)

1. Se escoge como primera variable predictora la que tiene mayor correlación lineal simple con la variable dependiente y se calcula si la ecuación de regresión con esta variable es predictiva. Si no se rechaza la hipótesis nula, se termina el proceso; si la ecuación es predictiva se pasa al punto 2.

2. Se escoge de entre las restantes variables aquella que tiene mayor correlación parcial con la variable dependiente una vez que se elimina el efecto de la variable que ya está en la ecuación. Se comprueba si el incremento en el coeficiente de correlación múltiple al introducir esta nueva variable es estadísticamente significativo. Si no lo es, se termina el proceso; si lo es, se pasa al punto 3.

3. Se evalúa si sacar de la ecuación la variable que ya estaba en el paso anterior se produce una disminución estadísticamente significativa del coeficiente de correlación múltiple. Si no se produce una disminución significativa del R2, entonces se elimina la variable que entró en el paso anterior, si por el contrario sacar de la ecuación dicha variable produce una disminución significativa del R2, entonces dicha variable no se elimina del modelo. En cualquiera de las dos circunstancias se pasa al punto 4.

4. Se escoge de entre las restantes variables aquella que tiene mayor corrección parcial con la variable dependiente una vez que se elimina el efecto de las variables que están en la ecuación. Se comprueba si el incremento en el coeficiente de correlación múltiple al introducir esta nueva variable en la ecuación es estadísticamente significativo. Si no lo es, se termina el proceso; si lo es se pasa al punto 3.

EJEMPLO

Primer paso de la selección Segundo paso de la selección

Aquí vemos de donde sale la ecuación de regresión:

Con esta tabla podemos saber cuál de las VI se va a introducir primero la que tenga mayor correlación de Pearson// no hay modelo tres ya que las VI no incrementan la correlación, de haberlo la VI que metemos sería “riqueza expresiva” // en el modelo 2 nos vamos a guiar por la correlación parcial ya que tenemos que excluir la acción de la VI que hemos añadido ya

Esta es la matriz de correlaciones donde podemos cuales son las VI que correlacionan con la VD y que más correlacionan entre sí

INTERPRETACIÓN DE LOS PESOS EN LA ECUACIÓN DE REGRESIÓN

No está del todo resuelto el problema de la importancia relativa de las variables en la ecuación, puesto que el peso depende tanto del resto de variables que están en la ecuación como de variables que no están en la ecuación y podrían haber entrado.

Hay que ser cautelosos a la hora de interpretar la importancia relativa, sólo podría interpretarse adecuadamente a partir del peso de los coeficientes estandarizados si las variables independientes no tuvieran ninguna relación entre ellas, pero en la práctica este caso es muy raro.

Antes de hacer un análisis de regresión conviene mirar la matriz de correlaciones para ver si tenemos colinealidad entre las VI.

**El hecho de que una variable haya quedado fuera de la ecuación no quiere decir necesariamente que no tenga relación con la variable dependiente, puede ser que lo que explica dicha variable ya esté explicado por otras variables**

No hay comentarios
Esta solo es una vista previa
3 páginas mostradas de 12 páginas totales
Descarga el documento