









Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
regresión logistica multinomial Spss
Tipo: Guías, Proyectos, Investigaciones
1 / 17
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










Descripción de los datos Ejemplos de regresión logística multinomial Ejemplo 1. Las elecciones ocupacionales de las personas pueden estar influenciadas por las ocupaciones de sus padres y su propio nivel de educación. Podemos estudiar la relación de la elección de ocupación con el nivel educativo y la ocupación del padre. Las elecciones ocupacionales serán la variable de resultado que consiste en categorías de ocupaciones. Ejemplo 2. Un biólogo puede estar interesado en las elecciones de alimentos que hacen los caimanes. Los caimanes adultos pueden tener preferencias diferentes a las de los jóvenes. La variable de resultado aquí serán los tipos de alimentos, y las variables predictoras podrían ser el tamaño de los caimanes y otras variables ambientales. Ejemplo 3. Los estudiantes que ingresan a la escuela secundaria eligen programas entre el programa general, el programa vocacional y el programa académico. Su elección podría modelarse utilizando su puntaje de escritura y su estatus socioeconómico. Para nuestro ejemplo de análisis de datos, ampliaremos el tercer ejemplo utilizando el conjunto de datos hsbdemo. Primero leamos los datos. use https://stats.idre.ucla.edu/stat/data/hsbdemo, borre El conjunto de datos contiene variables sobre 200 estudiantes. La variable de resultado es prog , tipo de programa. Las variables predictoras son el estatus socioeconómico, ses, una variable categórica de tres niveles y el puntaje de escritura , escribir, una variable continua. Comencemos por obtener algunas estadísticas descriptivas de las variables de interés. Analisis progreso de pestañas, chi tipo de | ses programa | bajo medio alto | Total -----------+---------------------------------+---- ------ generales | 16 20 9 | 45 académico | 19 44 42 | 105 vocación | 12 31 7 | 50 -----------+---------------------------------+---- ------ totales | 47 95 58 | 200 Pearson chi2(4) = 16,6044 Pr = 0, tabla prog, con (escritura media escritura sd)
tipo de | programa | media (escribir) sd (escribir) ----------+------------------------- generales | 51.33333 9. académico | 56.25714 7. vocación | 46.76 9.
Regresión logística multinomial A continuación, usamos el comando mlogit para estimar un modelo de regresión logística multinomial. el yo antes de ses indica que ses es una variable indicadora (es decir, una variable categórica) y que debe incluirse en el modelo. También hemos usado la opción " base " para indicar la categoría que nos gustaría usar para el grupo de comparación de referencia. En el modelo a continuación, hemos optado por utilizar el tipo de programa académico como categoría de referencia. mlogit prog i.ses escribe, base(2) Iteración 0: verosimilitud logarítmica = -204, Iteración 1: verosimilitud logarítmica = -180, Iteración 2: verosimilitud logarítmica = -179, Iteración 3: verosimilitud logarítmica = -179, Iteración 4: verosimilitud logarítmica = -179, Regresión logística multinomial Número de obs = 200 LR chi2(6) =
Prob > chi2 =
programa | coef. estándar Errar. zP>|z| [95% de conf. Intervalo]
donde B son los coeficientes de regresión. Un aumento de una unidad en la variable escritura está asociado con una disminución de 0,058 en las probabilidades logarítmicas relativas de estar en un programa general frente a un programa académico. Un aumento de una unidad en la variable escritura se asocia con una disminución de 0,1136 en las probabilidades logarítmicas relativas de estar en un programa vocacional frente a un programa académico. Las probabilidades logarítmicas relativas de estar en un programa general frente a un programa académico disminuirán en 1,163 si se pasa del nivel más bajo de ses ( ses == 1) al nivel más alto de ses ( ses == 3). La proporción de la probabilidad de elegir una categoría de resultado sobre la probabilidad de elegir la categoría de referencia a menudo se denomina riesgo relativo (y también a veces se denomina probabilidades, ya que acabamos de describir los parámetros de regresión anteriores). El riesgo relativo se puede obtener exponenciando las ecuaciones lineales anteriores, lo que produce coeficientes de regresión que son razones de riesgo relativo para un cambio de unidad en la variable predictora. Podemos usar la opción rrr para el comando mlogit para mostrar los resultados de la regresión en términos de índices de riesgo relativo. mlogit, rrr Regresión logística multinomial Número de obs = 200 LR chi2(6) = 48. Prob > chi2 = 0. Verosimilitud logarítmica = -179,98173 Pseudo R2 = 0,
programa | RRR Est. Errar. zP>|z| [95% de conf. Intervalo]
generales | ses | 2 | .586671 .2603248 -1.20 0.229 .2458607 1. 3 | .3125996 .1607448 -2.26 0.024 .1140996. | escribir | .9437175 .0202059 -2.71 0.007 .9049342. _contras | 17,32562 20,20928 2,45 0,014 1,761221 170, -------------+----------------------------------------------------
académico | (resultado básico) -------------+----------------------------------------------------
vocación | ses | 2 | 1.338291 .6375264 0.61 0.541 .5260904 3. 3 | .3743103 .2229268 -1.65 0.099 .1164888 1. | escribir | .8926126 .0198338 -5.11 0.000 .8545734. _contras | 184.6016 214.793 4.48 0.000 18.87213 1805.
La relación de riesgo relativo para un aumento de una unidad en la escritura variable es 0,9437 (exp(-0,0579284) del resultado del primer comando mlogit anterior) por ser un programa general frente a un programa académico. La relación de riesgo relativo al cambiar de ses = 1 a 3 es .3126 por estar en un programa general versus un programa académico. En otras palabras, el riesgo esperado de permanencia en el programa general es menor para los sujetos con ses alta. Podemos probar un efecto general de ses usando el comando de prueba. A continuación vemos que el efecto general de ses es estadísticamente significativo.
3.ses = .29 (media) escribir = 52.775 (media)
---------------- | método delta | Margen estándar Errar. zP>|z| [95% de conf. Intervalo] -------------+---------------------------------------------------- ses | 1 | .3581927 .0726423 4.93 0.000 .2158163. 2 | .2283338 .0451162 5.06 0.000 .1399075. 3 | .1784932 .0540486 3.30 0.001 .0725598.
márgenes ses, atmeans predecir (resultado (2)) Predicciones ajustadas Número de obs = 200 Modelo VCE : OIM Expresión: Pr(prog==académico), predecir(resultado(2)) en : 1.ses = .235 (media) 2.ses = .475 (media) 3.ses = .29 (media) escribir = 52.775 (media)
| método delta | Margen estándar Errar. zP>|z| [95% de conf. Intervalo] -------------+---------------------------------------------------- ses | 1 | .4396842 .0779925 5.64 0.000 .2868217. 2 | .4777488 .0552593 8.65 0.000 .3694426. 3 | .7009021 .0663042 10.57 0.000 .5709483.
márgenes ses, atmeans predecir (resultado (3)) Predicciones ajustadas Número de obs = 200 Modelo VCE : OIM Expresión: Pr(prog==vocación), predecir(resultado(3)) en : 1.ses = .235 (media) 2.ses = .475 (media) 3.ses = .29 (media) escribir = 52.775 (media)
| método delta | Margen estándar Errar. zP>|z| [95% de conf. Intervalo] -------------+---------------------------------------------------- ses | 1 | .2021232 .0599647 3.37 0.001 .0845945. 2 | .2939174 .0503617 5.84 0.000 .1952103. 3 | .1206047 .04643 2.60 0.009 .0296037.
Podemos usar el comando marginsplot para trazar las probabilidades pronosticadas por ses para cada categoría de prog. Los gráficos creados por marginsplot se basan en la última ejecución del comando margins. Además, podemos combinar los tres diagramas de márgenes en un solo gráfico para facilitar la comparación mediante el comando de combinación de gráficos. A medida que se genera, a cada diagrama de margen se le debe dar un nombre, que será utilizado por la combinación de gráficos. Además, nos gustaría que los ejes Y tuvieran el mismo rango, por lo que usamos la opción ycommon con combinación gráfica. márgenes ses, atmeans predecir (resultado (1)) marginsplot, nombre (general) márgenes ses, atmeans predecir (resultado (2))
4._at: escribir = 60 5._at : escribir = 70
| método delta | Margen estándar Errar. zP>|z| [95% de conf. Intervalo] -------------+---------------------------------------------------- _en | 1 | .2130954 .0774327 2.75 0.006 .0613302. 2 | .2569932 .0529761 4.85 0.000 .1531619. 3 | .2543008 .0336297 7.56 0.000 .1883878. 4 | .2057855 .0371536 5.54 0.000 .1329658. 5 | .1423089 .0481683 2.95 0.003 .0479007.
márgenes, en (escribir = (30 (10) 70)) predecir (resultado (2)) vsquish Márgenes predictivos Número de obs = 200 Modelo VCE : OIM Expresión: Pr(prog==académico), predecir(resultado(2)) 1._at : escribir = 30 2._at : escribir = 40 3._at: escribir = 50 4._at: escribir = 60 5._at : escribir = 70
| método delta | Margen estándar Errar. zP>|z| [95% de conf. Intervalo]
_en | 1 | .1348408 .0525979 2.56 0.010 .0317507. 2 | .2808143 .0553213 5.08 0.000 .1723867. 3 | .4773283 .0397591 12.01 0.000 .399402. 4 | .6680752 .0434689 15.37 0.000 .5828776. 5 | .8075124 .0545504 14.80 0.000 .7005956.
márgenes, en (escribir = (30 (10) 70)) predecir (resultado (3)) vsquish Márgenes predictivos Número de obs = 200 Modelo VCE : OIM Expresión: Pr(prog==vocación), predecir(resultado(3)) 1._at : escribir = 30 2._at : escribir = 40 3._at: escribir = 50 4._at: escribir = 60 5._at : escribir = 70
| método delta | Margen estándar Errar. zP>|z| [95% de conf. Intervalo] -------------+---------------------------------------------------- _en | 1 | .6520638 .0944041 6.91 0.000 .4670353. 2 | .4621925 .0614388 7.52 0.000 .3417747. 3 | .2683708 .0342932 7.83 0.000 .2011575. 4 | .1261393 .03019 4.18 0.000 .0669679. 5 | .0501787 .0216863 2.31 0.021 .0076744.
También es posible que deseemos ver medidas de qué tan bien se ajusta nuestro modelo. Esto puede ser particularmente útil cuando se comparan modelos de la competencia. El comando escrito por el usuario fitstat produce una variedad de estadísticas de ajuste. Puede encontrar más información sobre fitstat y descargar el programa usando el comando search fitstat en Stata (consulte ¿Cómo puedo usar el comando de búsqueda para buscar programas y obtener ayuda adicional? para obtener más información sobre el uso de la búsqueda ).
fitstat Medidas de ajuste para mlogit de prog encajar Solo intercepción de Log-Lik: -204.097 Modelo completo de Log-Lik: -179. D(185): 359.963 LR(6): 48. Prob > LR: 0. R2 de McFadden: 0,118 R2 ajustado de McFadden: 0, ML (Cox-Snell) R2: 0,214 Cragg-Uhler (Nagelkerke) R2: 0, Recuento R2: 0,610 Recuento ajustado R2: 0, AIC: 1.950 AIC*n: 389. BIC: -620.225 BIC': -16. BIC utilizado por Stata: 402.350 AIC utilizado por Stata: 375. CONCIDERACIONES Métodos de análisis que podría considerar Regresión logística multinomial: el enfoque de esta página. Regresión probit multinomial: similar a la regresión logística multinomial pero con términos de error normales independientes. Análisis de función discriminante de grupos múltiples: un método multivariante para variables de resultado multinomiales Análisis de regresión logística múltiple, uno para cada par de resultados: un problema con este enfoque es que cada análisis se ejecuta potencialmente en una muestra diferente. El otro problema es que sin restringir los modelos logísticos, podemos terminar con la probabilidad de elegir todas las categorías de resultados posibles mayores que 1. Colapsar el número de categorías a dos y luego hacer una regresión logística: este enfoque adolece de pérdida de información y cambia las preguntas de investigación originales a otras muy diferentes. Regresión logística ordinal: si la variable de resultado está verdaderamente ordenada y si también satisface el supuesto de probabilidades
modelo actual. No transmite la misma información que el R-cuadrado para la regresión lineal, aunque sigue siendo "cuanto más alto, mejor". Tamaño de la muestra: la regresión multinomial utiliza un método de estimación de máxima verosimilitud, requiere un tamaño de muestra grande. También utiliza ecuaciones múltiples. Esto implica que requiere un tamaño de muestra aún mayor que la regresión logística binaria o ordinal. Separación completa o casi completa: la separación completa implica que la variable de resultado separa completamente una variable predictora, lo que lleva a una predicción perfecta por parte de la variable predictora. A diferencia de ejecutar un modelo logit , Stata no ofrece una advertencia cuando esto sucede. En su lugar, continúa calculando iterativamente y requiere una salida manual para detener el proceso. La predicción perfecta significa que solo un valor de una variable predictora está asociado con un solo valor de la variable de respuesta. Pero se puede decir a partir de la salida de los coeficientes de regresión que algo anda mal. Luego puede hacer una tabulación bidireccional de la variable de resultado con la variable problemática para confirmar esto y luego volver a ejecutar el modelo sin la variable problemática. Celdas vacías o celdas pequeñas: debe buscar celdas vacías o pequeñas haciendo una tabulación cruzada entre los predictores categóricos y la variable de resultado. Si una celda tiene muy pocos casos (una celda pequeña), el modelo puede volverse inestable o incluso puede que no se ejecute en absoluto. Quizás sus datos no cumplan perfectamente con las suposiciones y sus errores estándar estén fuera de lugar. Es posible que desee ver nuestra página que muestra métodos alternativos para calcular los errores estándar que ofrece Stata. A veces, las observaciones se agrupan en grupos (p. ej., personas dentro de las familias, estudiantes dentro de las aulas). En tales casos, es posible que desee ver nuestra página sobre la no independencia dentro de los clústeres.