Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


análisis de datos dos, Apuntes de Psicología

Asignatura: analisis de datos II, Profesor: Ricardo Olmos, Carrera: Psicología, Universidad: UAM

Tipo: Apuntes

2013/2014

Subido el 19/05/2014

saris22-1
saris22-1 🇪🇸

3.8

(59)

15 documentos

1 / 18

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TEMA 3 ANÁLISIS DE DATOS
En los contrastes que se ven en este tema participan siempre dos variables de un mismo tipo:
ambas categóricas (sexo, color de ojos, estado civil, grupo control-experimental, categoría
laboral, carrera escogida, tipo de trastorno, etc.).
Tabla de contingencias:
Es una tabla que permite describir conjuntamente dos variables categóricas (p.ej., sexo y
tabaquismo):
NOTACION: primer subíndice filas, segundo subíndice columnas.
Dimensiones de la tabla: I x J
Tabla de dimensiones I = 2 x J = 3 donde
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12

Vista previa parcial del texto

¡Descarga análisis de datos dos y más Apuntes en PDF de Psicología solo en Docsity!

TEMA 3 ANÁLISIS DE DATOS

En los contrastes que se ven en este tema participan siempre dos variables de un mismo tipo: ambas categóricas ( sexo , color de ojos , estado civil , grupo control-experimental , categoría laboral , carrera escogida , tipo de trastorno , etc.).

Tabla de contingencias:

Es una tabla que permite describir conjuntamente dos variables categóricas (p.ej., sexo y tabaquismo ):

NOTACION: primer subíndice filas, segundo subíndice columnas.

Dimensiones de la tabla: I x J

Tabla de dimensiones I = 2 x J = 3 donde

Asociación entre dos variables categóricas

La finalidad de combinar dos variables categóricas en una tabla de contingencias es averiguar si las dos variables son independientes o están relacionadas.

Decimos que dos variables categóricas son independientes cuando las distribuciones condicionales de cualquiera de ellas son iguales en todas las categorías de la otra.

La prueba χ^2 de Pearson sobre independencia

La hipótesis nula que ponemos a prueba es precisamente la de independencia en la población entre las dos variables categóricas.

6. Regla de decisión

Se rechaza H 0 si el estadístico X^2 cae en la zona crítica (zona de rechazo); en caso contrario, se mantiene. Si se rechaza H (^) 0 se concluye que las variables X e Y están relacionadas.

En el ejemplo concreto, como X^2 = 19,67 > , concluimos que las variables Sexo y Tabaquismo están relacionadas en la población.

7. Nivel crítico (valor p ): p = P ( X^2 ≥ 19,67 ), es decir, la probabilidad de obtener un estadístico X^2 como el que hemos obtenido o mayor. No aparece en las tablas, pero sabemos que P ( X^2 ≥ 19,67 ) < 0,001.

Medidas de asociación

Las medidas de asociación dan respuesta a cosas que el estadístico X^2 no da. Son medidas del tamaño del efecto.

Por ejemplo, X^2 nos permite decidir si dos variables categóricas están relacionadas en la población, pero nada nos dice sobre hasta qué punto están relacionadas las dos variables.

X^2 depende del tamaño muestral. Tamaños muestrales grandes arrojan valores X^2 grandes, sin que ello signifique mayor relación entre las variables categóricas.

Las medidas de asociación nos permiten cuantificar la fuerza de la relación entre las dos variables categóricas sin que medie el tamaño muestral.

Ambas medidas oscilan entre 0 y un máximo próximo a 1 (pero que no llega porque n siempre es positivo).

Nos permiten comparar la fuerza de la asociación entre distintos grupos para una misma tabla de contingencia, entre diferentes tablas de contingencia donde participa siempre una variable, en tablas de contingencia en diferentes momentos temporales…

Interpreta estos residuos tipificados corregidos:

Esquema para analizar tablas de contingencias con la prueba χ 2 de Pearson sobre independencia

Ejercicio. En un contraste de hipótesis sobre independencia de dos variables categóricas X e Y, se ha obtenido un estadístico X^2 = k tal que P ( X^2 k ) = 0,98.

¿Qué decisión debemos tomar en relación a H (^) 0 (α = 0,05)?

¿Cuánto vale el nivel crítico ( p )****?

pregunta es: ¿la proporción de gente a favor del aborto difiere de la proporción de gente a favor de la eutanasia?

La hipótesis de independencia es equivalente a ver si 60/80 (del total de hombres, qué proporción fuman) difiere significativamente de 40/120 (del total de mujeres, qué proporción fuman)

La hipótesis de homogeneidad marginal es equivalente a ver si 80/200 (la proporción de gente a favor del aborto) difiere significativamente de 90/200 (la proporción de gente a favor de la eutanasia). Fijarse en que son proporciones relacionadas porque se calculan en la misma muestra.

En estudios longitudinales, el contraste sobre homogeneidad marginal también puede entenderse no solamente sobre si dos proporciones relacionadas difieren, sino sobre si se ha producido un cambio significativo.

Opinión aborto después

Opinión aborto antes A favor En contra Total

A favor 60 20 80

En contra 30 90 120

Total 90 110 200

En estos estudios longitudinales con tablas 2x2 a la hipótesis de homogeneidad marginal se la conoce como hipótesis de simetría.

Por lo tanto, la hipótesis de homogeneidad marginal surge habitualmente al menos en dos contextos:

Cuando tenemos tablas 2x2 con las mismas categorías (por ejemplo, si queremos ver si la proporción de gente a favor de la eutanasia difiere de la proporción de gente a favor del aborto) o cuando tenemos tablas 2x2 que responden a estudios longitudinales (por ejemplo, difiere la proporción de gente antes de una campaña de concienciación ante la eutanasia respecto a la proporción de gente después de esa campaña).

Y (después)

X (antes) A favor En contra Total

A favor n (^) 11 n (^) 12 n 1+

En contra n (^) 21 n (^) 22 n 2+

Total n (^) +1 n (^) +2 n

En cualquiera de los casos lo que interesa es si π 1+ difiere de π +1 , por lo que las hipótesis siempre van a ser:

  1. Hipótesis

H (^) 0 : π 1+ = π +1 ; H (^) 0 : π A Favor Aborto Antes = π (^) A Favor Aborto Después

H (^) 1 : π 1+ ≠ π (^) +1 ; H (^) 1 : π A Favor Aborto Antes ≠ π (^) A Favor Aborto Después

  1. Supuestos : muestra aleatoria de n sujetos en la que se ha medido una variable dicotómica en dos momentos distintos o dos variables dicotómicas con las mismas categorías.
  1. Nivel crítico (valor p )

p = P (χ 21 ≥ X^2 McNemar)

p = P (χ 21 ≥ 1,62) = 0,203 (obtenido por SPSS, no tenemos este valor tabulado en la tabla χ 2 )

Ejercicio. Se clasifican a 250 sujetos por su preferencia antes y después de un debate televisado. Estamos interesados en averiguar si las preferencias de los sujetos han cambiado tras el debate, es decir, si la proporción de personas que prefieren al líder A y la de personas que prefieren al líder B son o no las mismas antes y después del debate (α = 0,05).

Preferencia después

Preferencia antes Líder A Líder B Total

Líder A 49 21 70

Líder B 63 117 180

Total 112 138 250

Ejercicio. Se clasifican a 300 sujetos en EE.UU. según manifiestan una opinión favorable o desfavorable hacia la pena de muerte ( X ) y según manifiestan una opinión favorable o desfavorable hacia la tenencia de armas. Queremos averiguar si la proporción de gente a favor de la pena de muerte es la misma que a favor hacia la tenencia de armas. ¿Qué puedes concluir con los siguientes datos (α = 0,01)?

Índices de riesgo

Los índices de riesgo es un tercer tipo de estudio en tablas de contingencia. Necesitamos dos variables categóricas con dos niveles cada una: es decir, los índices de riesgo, como la prueba de homogeneidad marginal, tiene sentido en tablas 2x2.

Hay dos tipos de estudio que estudian el riesgo:

Estudios hacia delante llamamos prospectivos o de cohortes. En estos estudios se clasifica a los sujetos en el factor (si fuman o no fuman) y tras un periodo de seguimiento (por ejemplo, 5 años) se estudia si han sufrido o no el desenlace (si han tenido o no un infarto).

Estudio hacia atrás, llamados retrospectivos o de casos y controles. Se forman dos grupos de sujetos basándonos en el desenlace (sujetos que han sufrido un infarto y sujetos sano) y hacia atrás se rastrea su presencia o no en factores desencadenantes (por ejemplo, si fuman o no fuman).

Riesgo relativo: En los diseños hacia delante o de cohortes estudiamos el riesgo relativo ( R (^) R ).

Consiste en estudiar la proporción del desenlace entre los que fuman y compararlo con los que no fuman.

Infarto

Tabaquismo Sí No Total

Fumadores 51 374 425

Odds ratio. En los diseños hacia atrás o de casos controles estudiamos la odds ratio ( OR ).

La diferencia es que ahora se fijan los totales de columna. Es decir, se cogen sujetos con infarto (casos) y sujetos sanos (controles).

¿Es significativa la Odds ratio?

Igual que antes, se tiene que calcular el IC de forma que si incluye el valor 1 concluimos que no hay significativamente más OR en un grupo que en otro. Al contrario, si encontramos que el IC no incluye el valor 1 podemos determinar con una confianza dada que un grupo tiene más OR que el otro.

Podemos interpretarlo igual que el riesgo relativo pues la OR es una estimación de aquel.

Causalidad

Los índices de riesgo (y en general los datos estadísticos) tienden a interpretarse en términos causales. Eso está mal. La causalidad solo puede venir determinada por el diseño de investigación (diseños experimentales o teorías muy bien fundadas), pero no por resultados estadísticos.

¿Podemos inferir que como entre los fumadores la proporción de tener un infarto es mayor que entre los no fumadores, entonces fumar provoca más infartos?

No se puede inferir causalidad a no ser que estemos en el marco de los diseños experimentales con asignación aleatoria de los sujetos a las condiciones del estudio (fumadores y no fumadores). Los estudios de riesgo son observacionales, no experimentales.

En estos estudios no hay control sobre variables extrañas (factores de confusión) que pueden estar detrás de los datos, pero que nos pasan desapercibidas.

La falacia ecológica

Tendemos a interpretar los índices de riesgo para las personas, pero en realidad es un estadístico aplicado a grupos.

Ejercicio. Un equipo de epidemiólogos estudia si en un grupo de 90 hipertensos si lleva o no una vida sedentaria. Selecciona también a 360 sujetos sanos de forma que se parezcan en edad y otras características censales a los hipertensos y los clasifica también como sedentarios y no sedentarios.