Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Tema 2: Tablas de Contingencia, Diapositivas de Probabilidad

Una tabla de contingencia (o tabla de clasificación cruzada), con I filas y J columnas se denomina una tabla I × J. Ejemplo.

Tipo: Diapositivas

2021/2022

Subido el 10/10/2022

furiaroja
furiaroja 🇪🇸

4.5

(147)

73 documentos

1 / 44

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Tema 2: Tablas de Contingencia
Introducci´on
Una tabla de contingencia es una de las formas as comunes de resumir datos ca-
teg´oricos. En general, el inter´es se centra en estudiar si existe alguna asociaci´on entre una
variable denominada fila y otra variable denominada columna y se calcula la intensidad
de dicha asociaci´on.
De manera formal, se consideran XeYdos variables categ´oricas con IyJcategor´ıas
respectivamente. Una observaci´on puede venir clasificada en una de las posibles I×J
categor´ıas que existen.
Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se deno-
mina tabla de contingencia, ermino que fue introducido por Pearson en 1904.
Una tabla de contingencia (o tabla de clasificaci´on cruzada), con Ifilas y Jcolumnas
se denomina una tabla I×J.
Ejemplo
Por ejemplo, se considera la distribuci´on conjunta de dos variables y la correspondiente
tabla de contingencia en una muestra de pacientes de un hospital. Se tiene la siguiente
tabla donde se consideran el riesgo de ataque al coraz´on respecto a la toma de aspirinas:
XSe toma aspirina o placebo (I= 2).
YSe sufre ataque card´ıaco o no (J= 3).
Mortal No mortal No ataque Totales
Placebo 18 171 10845 11034
Aspirina 5 99 10933 11037
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c

Vista previa parcial del texto

¡Descarga Tema 2: Tablas de Contingencia y más Diapositivas en PDF de Probabilidad solo en Docsity!

Tema 2: Tablas de Contingencia

Introducci´on

Una tabla de contingencia es una de las formas m´as comunes de resumir datos ca- teg´oricos. En general, el inter´es se centra en estudiar si existe alguna asociaci´on entre una variable denominada fila y otra variable denominada columna y se calcula la intensidad de dicha asociaci´on. De manera formal, se consideran X e Y dos variables categ´oricas con I y J categor´ıas respectivamente. Una observaci´on puede venir clasificada en una de las posibles I × J categor´ıas que existen. Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se deno- mina tabla de contingencia , t´ermino que fue introducido por Pearson en 1904. Una tabla de contingencia (o tabla de clasificaci´on cruzada), con I filas y J columnas se denomina una tabla I × J.

Ejemplo

Por ejemplo, se considera la distribuci´on conjunta de dos variables y la correspondiente tabla de contingencia en una muestra de pacientes de un hospital. Se tiene la siguiente tabla donde se consideran el riesgo de ataque al coraz´on respecto a la toma de aspirinas:

X ≡ Se toma aspirina o placebo ( I = 2). Y ≡ Se sufre ataque card´ıaco o no ( J = 3).

Mortal No mortal No ataque Totales Placebo 18 171 10845 11034 Aspirina 5 99 10933 11037

Como resumen de la informaci´on que presenta la tabla, de los 11034 enfermos que tomaron un placebo, 18 tuvieron un ataque al coraz´on, mientras que de los 11037 que tomaron aspirina, 5 tuvieron ataques al coraz´on. La distribuci´on conjunta de dos variables categ´oricas determina su relaci´on. Esta dis- tribuci´on tambi´en determina las distribuciones marginales y condicionales.

Distribuci´on conjunta

La distribuci´on conjunta viene dada por πij = P ( X = i, Y = j )

con i = 1 ,... , I y j = 1 , ,... , J. Es la probabilidad de ( X, Y ) en la casilla de la fila i y la columna j.

Distribuci´on marginal

Las distribuciones marginales son πi + = P ( X = i ) = ∑^ J j = P ( X = i, Y = j ) = ∑^ J j = πij

π + j = P ( Y = j ) = ∑^ I i = P ( X = i, Y = j ) = ∑^ I i = πij es decir, el s´ımbolo + indica la suma de las casillas correspondientes a un ´ındice dado. Se cumple siempre que ∑ j π + j = ∑ i πi + = ∑ i

j πij = 1

Distribuci´on condicional

En muchas ocasiones en las tablas de contingencia, como en el ejemplo anterior, una de las variables, digamos Y , es una variable respuesta y la otra variable X es una variable explicativa o predictora. En esta situaci´on no tiene sentido hablar de distribuci´on conjunta. Cuando se considera una categor´ıa fija de X , entonces Y tiene una distribuci´on de probabilidad que se expresa como una probabilidad condicionada. As´ı, se puede estudiar el cambio de esta distribuci´on cuando van cambiando los valores de X.

Ejemplo con SAS

Muchas veces, los datos categ´oricos se presentan en forma de tablas de contingencia como la anterior. Supongamos, por ejemplo:

Tratamiento Favorable Desfavorable Placebo 16 48 Test 40 20

En SAS el modo de introducir esta tabla ser´ıa:

/ * O P T I O N S n o d a t e l s = 7 5 f o r m c h a r = ’ | - - - - | + | - - - + = | - / \ < > * ’; * / OPTIONS nodate ls =75; / * P a r a S A S U n i v e r s i t y * / ODS rtf file = ’/ folders / myfolders / resultado. rtf ’ style = minimal startpage = no ; DATA respira ; INPUT treat $ outcome $ count ; DATALINES ; placebo f 16 placebo u 48 test f 40 test u 20 ; PROC freq ; weight count ; tables treat * outcome ; RUN ; ODS rtf close ;

Estos datos tambi´en se podr´ıan presentar tambi´en en forma de matriz de datos, donde cada individuo est´e representado por una fila con valores en distintas variables. En ese caso el programa en SAS ser´ıa semejante al anterior, pero NO se tendr´ıa que usar el comando weight ya que los datos se presentar´ıan en forma de dos columnas con las dos variables.

Ejemplo sobre otro tratamiento cl´ınico con dos variables: tipo de tratamiento y tipo de respuesta. El siguiente programa funciona tambi´en con SAS University.

OPTIONS nodate ls =75; / * P a r a S A S U n i v e r s i t y * / ODS rtf file = ’/ folders / myfolders / resultado. rtf ’ style = minimal startpage = no ; DATA respira ; INPUT treat $ outcome $ @@ ; DATALINES ; placebo f placebo f placebo f placebo f placebo f placebo u placebo u placebo u placebo u placebo u placebo u placebo u test f test f test f test f test f test u test u test u

El mismo programa se puede escribir en SAS est´andar:

/ * O p c i o n S A S e s t a n d a r * / OPTIONS nodate ls =75 formchar = ’ | - - - -|+| - - -+=| -/\ < > * ’; / * F i j o e l d i r e c t o r i o d e t r a b a j o * / x ’ cd " e :\ Categoricos " ’; / * S e g r a b a n l o s r e s u l t a d o s e n u n f i c h e r o r t f o e n u n o p d f * / / * O D S p d f f i l e = ’ c o s a. pdf ’ s t y l e = m i n i m a l s t a r t p a g e = n o ; * / ODS rtf file = ’ cosa. rtf ’ style = minimal startpage = no ; DATA respira ; INPUT treat $ outcome $ @@ ; DATALINES ; placebo f placebo f placebo f placebo f placebo f placebo u placebo u placebo u placebo u placebo u placebo u placebo u test f test f test f test f test f test u test u test u test u test u test u test u test u test u test u test u ;

PROC freq ; tables treat * outcome ; RUN ; PROC GCHART DATA = respira ; VBAR outcome ; RUN ; PROC GCHART DATA = respira ; HBAR outcome / DISCRETE ; RUN ; PROC GCHART DATA = respira ; PIE outcome / DISCRETE VALUE = INSIDE PERCENT = INSIDE SLICE = OUTSIDE ; RUN ; ODS rtf close ; / * O D S p d f c l o s e ; * /

El mismo programa se puede escribir en SAS est´andar incluyendo varios gr´aficos con GCHART:

/ * O p c i o n S A S e s t a n d a r * / OPTIONS nodate ls =75 formchar = ’ | - - - -|+| - - -+=| -/\ < > * ’; / * F i j o e l d i r e c t o r i o d e t r a b a j o * / x ’ cd " cd " e :\ Categoricos " ’; / * S e g r a b a n l o s r e s u l t a d o s e n u n f i c h e r o r t f o e n u n o p d f * / / * O D S p d f f i l e = ’ c o s a. pdf ’ s t y l e = m i n i m a l s t a r t p a g e = n o ; * / ODS rtf file = ’ cosa. rtf ’ style = minimal startpage = no ; DATA artritis ; INPUT genero $ tratamiento $ mejora $ recuento @@ ; DATALINES ; mujer activo activo 16 mujer activo escasa 5 mujer activo ninguno 6 mujer placebo activo 6 mujer placebo escasa 7 mujer placebo ninguno 19 hombre activo activo 5 hombre activo escasa 2 hombre activo ninguno 7 hombre placebo activo 1 hombre placebo escasa 0 hombre placebo ninguno 10 ; RUN ; PROC freq order = data ; weight recuento ; tables genero * tratamiento * mejora / nocol nopct ; RUN ; PROC GCHART DATA = artritis ; pie3d mejora / sumvar = recuento ; RUN ; PROC GCHART DATA = artritis ; hbar3d mejora / sumvar = recuento patternid = midpoint group = genero ; RUN ; ODS rtf close ; / * O D S p d f c l o s e ; * /

Cell Contents | - - - - - - - - - - - - - - - - - - - - - - - - -|| N | || (^) Chi - square contributionExpected N || | N / Row Total | || (^) N N/ /Table Col TotalTotal || | - - - - - - - - - - - - - - - - - - - - - - - - -|

Total Observations in Table : 124

| Situacion

                    • - - -| - - - - - - - - - - -| - - - - - - - - - - -| - - - - - - - - - - -|Tratamiento^ |^ Favor^ |^ Desfavor^ |^ Row^ Total^ | Placebo || (^) 28 .903 16 || (^) 35 .097 48 || 64 || | 5 .760 | 4 .744 | | || 0 .2500 .286 || 0 .7500 .706 || 0 .516 || | 0 .129 | 0 .387 | | - - - - - - - - - - - - -| - - - - - - - - - - -| - - - - - - - - - - -| - - - - - - - - - - -|Test | 40 | 20 | 60 | | 27 .097 | 32 .903 | | || 6 .1440 .667 || 5 .0600 .333 || (^) 0 .484 || | 0 .714 | 0 .294 | | - - - - - - - - - - - - -| - - - - - - - - - - -| - - - - - - - - - - -| - - - - - - - - - - -||^ 0 .323^ |^ 0 .161^ |^ | Column Total || (^) 0 .452 56 || (^) 0 .548 68 || 124 || - - - - - - - - - - - - -| - - - - - - - - - - -| - - - - - - - - - - -| - - - - - - - - - - -| Statistics for All Table Factors Pearson ’s Chi - squared test Chi ˆ2- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - = 21 .70868 d.f. = 1 p = 3 .173515e - Pearson ’s- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Chi - squared test with Yates ’ continuity correction Chi ˆ2 = 20 .05886 d.f. = 1 p = 7 .509491e -

Distribuci´on multinomial en tablas 2 × 2

Cuando se consideran tablas de contingencia, es habitual asumir que los recuentos de las casillas en las tablas se distribuyen como una multinomial. En el muestreo multinomial, fijamos el tama˜no total n pero no los totales de filas y columnas. Es decir, solo el tama˜no muestral est´a fijado previamente en el experimento. As´ı, si se tienen observaciones en I × J casillas, la distribuci´on de probabilidad de los recuentos es n! n 11! · · · nIJ!

i

j πn ijij. En otros casos, las observaciones de una variable respuesta Y aparecen de manera separada seg´un el nivel de una variable explicativa X. En este caso se consideran los totales por filas como fijos. De este modo, se simplifica la notaci´on como ni + = ni y suponemos que dado un nivel fijo de i de X , las ni observaciones de Y son independientes entre s´ı y con distribuci´on de probabilidad { π 1 | i,... , πJ | i } . Los recuentos { nij , j = 1 ,... , J } tal que ∑ j nij = ni se distribuyen como ∏^ ni! j^ nij^!

j^ π jn | iji.^ (1)

As´ı, cuando las muestras que se toman en diferentes niveles de X son independientes, la distribuci´on conjunta de todos los datos es el producto de distribuciones multinomiales (1) para cada nivel i de X. Este esquema se denomina muestreo multinomial independiente o muestreo de pro- ductos de multinomiales.

( iii) La raz´on de plausibilidad odds : θ = π π^12 // (1(1^ −−^ ππ^12 ))

Ejemplo:

Influencia de la toma de aspirina respecto a los ataques card´ıacos:

Ataque No ataque Placebo 189 10845 Aspirina 104 10933

Para contrastar H 0 : pa = pp (igual probabilidades de ataque al coraz´on por grupo), se puede usar el comando prop.test. Para contrastar una hip´otesis unilateral, H 0 : papp frente a H 1 : pa < pp se hace usando la opci´on alternative.

x = c (104 , 189) # aspirina y placebo n = c ((104+10933) , (189+10845)) prop.test (x , n )

2 - sample test for equality of proportions with continuity correction data :X - squared x out= 24 .429 ,of n df = 1 , p - value = 7 .71e - 95 alternative percent confidencehypothesis : interval :^ two.sided -0 .010814914 -0. sampleprop estimates : 1 prop 2 0 .00942285 0.

prop.test (x , n , alt = " less " )

2 - sample test for equality of proportions with continuity correction data :X - squared x out= 24 .429 ,of n df = 1 , p - value = 3 .855e - 95 alternative percent confidencehypothesis : interval :^ less -1 .000000000 -0. sampleprop estimates : 1 prop 2 0 .00942285 0.

Se pueden obtener las proporciones a partir del componente estimate que en este caso es un vector num´erico de longitud 2. As´ı, la diferencia de las proporciones se calcula como: temp = prop.test (x , n ) names ( temp $ estimate ) = NULL

Diferencia de las proporciones

temp $ estimate [1] - temp $ estimate [2] [1] -0.

Se puede calcular tambi´en el riesgo relativo y la raz´on de odds:

Riesgo relativo

temp $ estimate [2] / temp $ estimate [1] [1] 1.

Razon de odds

x [2] * ( n [1] - x [1]) / ( x [1] * ( n [2] - x [2])) [1] 1.

Para programar las razones de odds en SAS, se usa:

/ * O P T I O N S n o d a t e l s = 6 5 f o r m c h a r = ’ | - - - - | + | - - - + = | - / \ < > * ’; * / OPTIONS nodate ls =75; / * P a r a S A S U n i v e r s i t y * / ODS rtf file = ’/ folders / myfolders / resultado. rtf ’ style = minimal startpage = no ; DATA riesgos ; INPUT ataque $ medica $ cuenta ; DATALINES ; ataque placebo 189 ataque aspirina 104 NOataque placebo 10845 NOataque aspirina 10933 ; PROC freq order = data ; weight cuenta ;

Odds y raz´on de odds

Si π es la probabilidad de ´exito entonces los odds se definen como Ω = (^1) − π π

o de modo equivalente π = (^) Ω + 1Ω. Se tiene que Ω > 1 cuando un ´exito es m´as probable que un fallo. Por ejemplo, cuando π = 0 , 75 , entonces Ω =^00 ,,^7525 = 3

es decir un ´exito es tres veces m´as probable que un fallo. Si se tiene una tabla 2 × 2 se pueden definir los odds en la fila i : Ω i = (^1) − πi πi. El cociente de los odds de las dos filas se denomina raz´on de odds : θ = Ω Ω^12 = π π^12 //^ (1(1^ −−^ ππ^12 ))

y se obtiene de manera equivalente, cuando se tiene distribuciones conjuntas, πij que

θ = π π^1112 ππ^2221

por lo que tambi´en se denomina cociente de los productos cruzados.

Propiedades

Puede ser cualquier valor positivo. θ = 1 significa que NO hay asociaci´on entre X e Y. Valores de θ alejados de 1 indican una asociaci´on mayor. Se suele trabajar con log θ ya que el valor que se obtiene es sim´etrico respecto a cero. La raz´on de odds no cambia cuando se intercambian filas y columnas.

Raz´on de odds condicionales y marginales

Las asociaciones marginales y condicionales pueden ser descritas mediante la raz´on de odds. Supongamos una tabla 2 × 2 × K , si denominamos μijk a la frecuencia esperada en la celda correspondiente. Fijamos Z = k , y se define la raz´on de odds condicional como θXY ( k ) = μ μ^1112 kkμμ^2221 kk

y la raz´on de odds marginal como

θXY = μ μ 11+12+ μμ 22+21+ Un valor a 1 en la raz´on de odds supone, o bien independencia marginal, o bien condicionada a que Z = k , es decir, cuando θXY ( k ) = 1.

NOTA:

La independencia condicional cuando Z = k es equivalente a que P ( Y = j | X = i, Z = k ) = P ( Y = j | Z = k )

para todo i, j. Si se cumple para todo valor de la variable Z , entonces se dice que X e Y son condi- cionalmente independientes dado Z y se obtiene que

πijk = πi π + k ++ π + kjk

para cualquier i, j, k. La independencia condicional no implica la independencia marginal.