Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Tema 9. Modelos predictivos., Apuntes de Análisis de Datos y Métodos Estadísticos

Tema 9 de la asignatura modelos estadísticos y psicométricos

Tipo: Apuntes

2021/2022

Subido el 24/06/2023

sara-estupinan-viera
sara-estupinan-viera 🇪🇸

3 documentos

1 / 8

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TEMA 9. MODELOS PREDICTIVOS.
1. DISTINCIÓN ENTRE MODELOS PREDICTIVOS Y MODELOS EXPLICATIVOS.
La estimación de un modelo de regresión se puede hacer con una de 2 finalidades
diferentes según los objetivos de investigación:
Modelo con finalidad predictiva: obtener el mejor modelo que permita
predecir la respuesta de interés en sujetos nuevos y con el mínimo error
posible. Los mejores modelos predictivos son los que minimizan el error
(varianza residual o parte no explicada) con el menor número posible de
predictores (principio de parsimonia).
Ejemplo se quiere predecir, en el momento de ingresar, el nivel de
ansiedad al cabo de una semana de estancia en un centro hospitalario de los
pacientes psicóticos, utilizando como predictores su edad, dosis de fármaco
antipsicótico, número de brotes durante el último año, apoyo social y familiar
y nivel socioeconómico.
Modelo con finalidad explicativa: se trata de construir un modelo de
regresión para evaluar la magnitud del efecto de una exposición concreta de
interés (X) sobre la respuesta (Y). Este uso del modelo implica una estrategia
de selección de variables más compleja, ya que se debe tener en cuenta dos
fenómenos centrales en la investigación: interacción y confusión.
Ejemplo se quiere conocer cómo influencian los años de duración de la
enfermedad en el nivel de ansiedad de los pacientes psicóticos al cabo de
una semana de estar ingresados en un centro hospitalario.
pf3
pf4
pf5
pf8

Vista previa parcial del texto

¡Descarga Tema 9. Modelos predictivos. y más Apuntes en PDF de Análisis de Datos y Métodos Estadísticos solo en Docsity!

TEMA 9. MODELOS PREDICTIVOS.

1. DISTINCIÓN ENTRE MODELOS PREDICTIVOS Y MODELOS EXPLICATIVOS.

La estimación de un modelo de regresión se puede hacer con una de 2 finalidades diferentes según los objetivos de investigación: ● Modelo con finalidad predictiva : obtener el mejor modelo que permita predecir la respuesta de interés en sujetos nuevos y con el mínimo error posible. Los mejores modelos predictivos son los que minimizan el error (varianza residual o parte no explicada) con el menor número posible de predictores (principio de parsimonia). Ejemplo → se quiere predecir, en el momento de ingresar, el nivel de ansiedad al cabo de una semana de estancia en un centro hospitalario de los pacientes psicóticos, utilizando como predictores su edad, dosis de fármaco antipsicótico, número de brotes durante el último año, apoyo social y familiar y nivel socioeconómico. ● Modelo con finalidad explicativa: se trata de construir un modelo de regresión para evaluar la magnitud del efecto de una exposición concreta de interés (X) sobre la respuesta (Y). Este uso del modelo implica una estrategia de selección de variables más compleja, ya que se debe tener en cuenta dos fenómenos centrales en la investigación: interacción y confusión. Ejemplo → se quiere conocer cómo influencian los años de duración de la enfermedad en el nivel de ansiedad de los pacientes psicóticos al cabo de una semana de estar ingresados en un centro hospitalario.

2. MODELOS PREDICTIVOS.

En las investigaciones con finalidad predictiva se tiene como objetivo seleccionar el conjunto de predictores o variables independientes que mejor predice la variable dependiente. Para obtener el mejor modelos se deben equilibrar dos principios básicos de la investigación: ● Principio de menor error (ausencia de sesgo). Busca predecir la VD con el menor error y mayor precisión posible. ● Principio de parsimonia : Persigue seleccionar el modelo más simple posible. De acuerdo a este principio el mejor modelo predictivo no incluiría ningún predictor. Hay diferentes estrategias que equilibran los dos principios anteriores: la selección automática mediante pasos sucesivos (Stepwise) y la selección mediante todos los posibles subconjuntos (all subsets). 2.1. Selección del mejor modelo predictivo mediante “pasos sucesivos”. Hay 2 métodos de selección por pasos sucesivos: eliminación hacia atrás (backward elimination) e inclusión hacia delante (forward selection). Método de eliminación hacia atrás:

  1. Establecer un modelo máximo que contiene todos los potenciales predictores.
  2. Eliminar el predictor que tenga un valor p más grande siempre y cuando sea p>0.05, y reestimar el modelo sin este predictor.
  3. Repetir el paso 2 hasta que no esté en el modelo ningún predictor con valor p>0.05. Método de inclusión hacia delante:
  4. Establecer un modelo nulo que no contiene ningún predictor e indicar el conjunto de todos los potenciales predictores.
  5. Añadir el predictor que tenga un valor p más pequeño siempre y cuando p>0.05, y reestimar el modelo con este predictor.
  6. Repetir el paso 2 hasta que no quede fuera del modelo ningún predictor con valor p>0.05. La selección del mejor modelo por pasos sucesivos (backward y forward) se realiza con la comanda xi: stepwise. Para introducir un predictor politómico se debe escribir el nombre del predictor con el prefijo “i.” entre paréntesis, para forzar que el conjunto de c-1 ficticios se valore conjuntamente. Es indiferente qué categoría se ponga como referencia, ya que R2A no cambia al cambiar la categoría de referencia.

El mejor modelo predictivo obtenido con el método backward es: En modelos con finalidad predictiva la interpretación de los coeficientes es secundaria, el objetivo principal es utilizar la ecuación para realizar predicciones en casos nuevos que no están en la muestra. Si en lugar de utilizar el método de eliminación hacia atrás (backward) se aplica el método de inclusión hacia delante (forward) (la única diferencia en la comanda es poner “pe” en lugar de “pr”), se llega al mismo resultado: En el primer paso se añade Afronta, que es el predictor con valor p más pequeño y <0.05, y en el segundo paso se añade Resid que es, de los 3 que quedan, el predictor con valor p más pequeño y <0.05. Los 2 predictores que no se han introducido tienen valores p>0.05. El modelo seleccionado con los predictores Afronta y Resid tiene una capacidad predictiva extraordinaria (R2A=0.91). 2.2. Selección del mejor modelo predictivo mediante “Todos los posibles subconjuntos”. Cuando el modelo inicial contiene un número elevado de predictores y/o interacciones entre predictores, la mejor estrategia de selección del mejor modelo predictivo es el método de todos los posibles subconjuntos (all subsets). Consiste en construir todos los posibles submodelos combinando entre sí todos los predictores, y valorar para cada submodelo su capacidad predictiva utilizando el R2A (valor + grande = mejor) o el Cp de Mallows (valor + pequeño = mejor). Comanda allsets realiza este proceso de selección construyendo en primer lugar todos los modelos con un predictor, después todos los modelos con dos predictores y así sucesivamente hasta el modelo máximo que contiene todos los predictores.

Para cada subconjunto se presenta información de los diferentes indicadores de capacidad predictiva (Cp, R2A, etc.) Ejemplo : estimar el mejor modelo predictivo del estrés a partir de los 4 predictores Afrontamiento, Grado de experiencia previa, Inteligencia emocional y Tipo de residencia, y de las interacciones de primer orden entre Afrontamiento y los otros 3 predictores. Efectos principales: Afronta, Gexper, IE, Resid. Efectos de interacción: AfrontaxGexper, AfrontaxIE, AfrontaxResid. Recordamos que para introducir interacciones con Stata se debe utilizar el operador “#”, el prefijo “c.” en cada predictor cuantitativo y el prefijo “i.” en cada predictor categórico. La comanda allsets evalúa solo subconjuntos que cumplan el criterio jerárquico. El listado indica que se han evaluado un total de 34 submodelos, que el menor valor Cp es 2.58 y el mayor valor R2A es 0.052. Para ver el detalle de los 34 submodelos se debe abrir el archivo de datos “allsets_results.dta”, que contiene la información de los 34 submodelos, ordenador por Cp en orden creciente. El primer modelo es el mejor modelo predictivo:

Predecir la variable dependiente de los casos que forman parte de la muestra es absurdo, porque ya se tiene el valor real. La predicción se debe hacer para casos nuevos que no estén en la muestra original. Estos casos nuevos se deben añadir a la matriz de datos y deben tener valor en los predictores del modelo y no deben tener valor en la VD. Es incorrecto hacer predicciones para valores de X que se encuentren fuera del rango de valores observados en la muestra ya que, como se ilustra en la imagen siguiente, la relación entre X e Y puede ser diferente a la estimada más allá de estos límites. Ejemplo: utilizando el mejor modelo seleccionado con la estrategia de todos los posibles subconjuntos, predecir el valor de estrés de los siguientes sujetos: A. Vive en ámbito Rural y tiene puntuación de 80 en Afrontamiento. B. Vive en ámbito Urbano y tiene puntuación de 20 en Afrontamiento. C. Vive en ámbito Rural y tiene puntuación de 95 en Afrontamiento. La predicción para el sujeto C. no se puede hacer, ya que su valor de Afrontamiento=95 está fuera del rango de valores de Afrontamiento observados en la muestra (15-87). Para hacer la predicción de los sujetos A. y B., en primer lugar se deben añadir los 2 casos nuevos al final de la matriz de datos con los valores indicados en los 2 predictores:

A continuación se ejecuta la sintaxis que calcula la predicción puntual y los intervalos de predicción de la puntuación y de confianza de la media (son comandas post-estimación, por tanto hay que asegurarse de que el último modelo estimado es el mejor modelo predictivo): Al calcular las predicciones con Stata se añaden a la matriz de datos nuevas variables que contienen la predicción puntual y los límites inferior y superior de los dos intervalos: Se concluye que un sujeto que vive en entorno Rural y tiene una puntuación el Afrontamiento =80 tiene un valor predicho de 8.71 puntos, con un intervalo de predicción del 95% entre 0 y 20.35 puntos. La media de estrés predicha de estos sujetos es de 8.71 puntos con un intervalo de confianza del 95% entre 3.28 y 14. puntos.