




































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Una tabla de contingencia (o tabla de clasificación cruzada), con I filas y J columnas se denomina una tabla I × J. Ejemplo.
Tipo: Diapositivas
1 / 44
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!





































Una tabla de contingencia es una de las formas m´as comunes de resumir datos ca- teg´oricos. En general, el inter´es se centra en estudiar si existe alguna asociaci´on entre una variable denominada fila y otra variable denominada columna y se calcula la intensidad de dicha asociaci´on. De manera formal, se consideran X e Y dos variables categ´oricas con I y J categor´ıas respectivamente. Una observaci´on puede venir clasificada en una de las posibles I × J categor´ıas que existen. Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se deno- mina tabla de contingencia , t´ermino que fue introducido por Pearson en 1904. Una tabla de contingencia (o tabla de clasificaci´on cruzada), con I filas y J columnas se denomina una tabla I × J.
Ejemplo
Por ejemplo, se considera la distribuci´on conjunta de dos variables y la correspondiente tabla de contingencia en una muestra de pacientes de un hospital. Se tiene la siguiente tabla donde se consideran el riesgo de ataque al coraz´on respecto a la toma de aspirinas:
X ≡ Se toma aspirina o placebo ( I = 2). Y ≡ Se sufre ataque card´ıaco o no ( J = 3).
Mortal No mortal No ataque Totales Placebo 18 171 10845 11034 Aspirina 5 99 10933 11037
Como resumen de la informaci´on que presenta la tabla, de los 11034 enfermos que tomaron un placebo, 18 tuvieron un ataque al coraz´on, mientras que de los 11037 que tomaron aspirina, 5 tuvieron ataques al coraz´on. La distribuci´on conjunta de dos variables categ´oricas determina su relaci´on. Esta dis- tribuci´on tambi´en determina las distribuciones marginales y condicionales.
Distribuci´on conjunta
La distribuci´on conjunta viene dada por πij = P ( X = i, Y = j )
con i = 1 ,... , I y j = 1 , ,... , J. Es la probabilidad de ( X, Y ) en la casilla de la fila i y la columna j.
Distribuci´on marginal
Las distribuciones marginales son πi + = P ( X = i ) = ∑^ J j = P ( X = i, Y = j ) = ∑^ J j = πij
π + j = P ( Y = j ) = ∑^ I i = P ( X = i, Y = j ) = ∑^ I i = πij es decir, el s´ımbolo + indica la suma de las casillas correspondientes a un ´ındice dado. Se cumple siempre que ∑ j π + j = ∑ i πi + = ∑ i
∑ j πij = 1
Distribuci´on condicional
En muchas ocasiones en las tablas de contingencia, como en el ejemplo anterior, una de las variables, digamos Y , es una variable respuesta y la otra variable X es una variable explicativa o predictora. En esta situaci´on no tiene sentido hablar de distribuci´on conjunta. Cuando se considera una categor´ıa fija de X , entonces Y tiene una distribuci´on de probabilidad que se expresa como una probabilidad condicionada. As´ı, se puede estudiar el cambio de esta distribuci´on cuando van cambiando los valores de X.
Ejemplo con SAS
Muchas veces, los datos categ´oricos se presentan en forma de tablas de contingencia como la anterior. Supongamos, por ejemplo:
Tratamiento Favorable Desfavorable Placebo 16 48 Test 40 20
En SAS el modo de introducir esta tabla ser´ıa:
/ * O P T I O N S n o d a t e l s = 7 5 f o r m c h a r = ’ | - - - - | + | - - - + = | - / \ < > * ’; * / OPTIONS nodate ls =75; / * P a r a S A S U n i v e r s i t y * / ODS rtf file = ’/ folders / myfolders / resultado. rtf ’ style = minimal startpage = no ; DATA respira ; INPUT treat $ outcome $ count ; DATALINES ; placebo f 16 placebo u 48 test f 40 test u 20 ; PROC freq ; weight count ; tables treat * outcome ; RUN ; ODS rtf close ;
Estos datos tambi´en se podr´ıan presentar tambi´en en forma de matriz de datos, donde cada individuo est´e representado por una fila con valores en distintas variables. En ese caso el programa en SAS ser´ıa semejante al anterior, pero NO se tendr´ıa que usar el comando weight ya que los datos se presentar´ıan en forma de dos columnas con las dos variables.
Ejemplo sobre otro tratamiento cl´ınico con dos variables: tipo de tratamiento y tipo de respuesta. El siguiente programa funciona tambi´en con SAS University.
OPTIONS nodate ls =75; / * P a r a S A S U n i v e r s i t y * / ODS rtf file = ’/ folders / myfolders / resultado. rtf ’ style = minimal startpage = no ; DATA respira ; INPUT treat $ outcome $ @@ ; DATALINES ; placebo f placebo f placebo f placebo f placebo f placebo u placebo u placebo u placebo u placebo u placebo u placebo u test f test f test f test f test f test u test u test u
El mismo programa se puede escribir en SAS est´andar:
/ * O p c i o n S A S e s t a n d a r * / OPTIONS nodate ls =75 formchar = ’ | - - - -|+| - - -+=| -/\ < > * ’; / * F i j o e l d i r e c t o r i o d e t r a b a j o * / x ’ cd " e :\ Categoricos " ’; / * S e g r a b a n l o s r e s u l t a d o s e n u n f i c h e r o r t f o e n u n o p d f * / / * O D S p d f f i l e = ’ c o s a. pdf ’ s t y l e = m i n i m a l s t a r t p a g e = n o ; * / ODS rtf file = ’ cosa. rtf ’ style = minimal startpage = no ; DATA respira ; INPUT treat $ outcome $ @@ ; DATALINES ; placebo f placebo f placebo f placebo f placebo f placebo u placebo u placebo u placebo u placebo u placebo u placebo u test f test f test f test f test f test u test u test u test u test u test u test u test u test u test u test u ;
PROC freq ; tables treat * outcome ; RUN ; PROC GCHART DATA = respira ; VBAR outcome ; RUN ; PROC GCHART DATA = respira ; HBAR outcome / DISCRETE ; RUN ; PROC GCHART DATA = respira ; PIE outcome / DISCRETE VALUE = INSIDE PERCENT = INSIDE SLICE = OUTSIDE ; RUN ; ODS rtf close ; / * O D S p d f c l o s e ; * /
El mismo programa se puede escribir en SAS est´andar incluyendo varios gr´aficos con GCHART:
/ * O p c i o n S A S e s t a n d a r * / OPTIONS nodate ls =75 formchar = ’ | - - - -|+| - - -+=| -/\ < > * ’; / * F i j o e l d i r e c t o r i o d e t r a b a j o * / x ’ cd " cd " e :\ Categoricos " ’; / * S e g r a b a n l o s r e s u l t a d o s e n u n f i c h e r o r t f o e n u n o p d f * / / * O D S p d f f i l e = ’ c o s a. pdf ’ s t y l e = m i n i m a l s t a r t p a g e = n o ; * / ODS rtf file = ’ cosa. rtf ’ style = minimal startpage = no ; DATA artritis ; INPUT genero $ tratamiento $ mejora $ recuento @@ ; DATALINES ; mujer activo activo 16 mujer activo escasa 5 mujer activo ninguno 6 mujer placebo activo 6 mujer placebo escasa 7 mujer placebo ninguno 19 hombre activo activo 5 hombre activo escasa 2 hombre activo ninguno 7 hombre placebo activo 1 hombre placebo escasa 0 hombre placebo ninguno 10 ; RUN ; PROC freq order = data ; weight recuento ; tables genero * tratamiento * mejora / nocol nopct ; RUN ; PROC GCHART DATA = artritis ; pie3d mejora / sumvar = recuento ; RUN ; PROC GCHART DATA = artritis ; hbar3d mejora / sumvar = recuento patternid = midpoint group = genero ; RUN ; ODS rtf close ; / * O D S p d f c l o s e ; * /
Cell Contents | - - - - - - - - - - - - - - - - - - - - - - - - -|| N | || (^) Chi - square contributionExpected N || | N / Row Total | || (^) N N/ /Table Col TotalTotal || | - - - - - - - - - - - - - - - - - - - - - - - - -|
Total Observations in Table : 124
| Situacion
Cuando se consideran tablas de contingencia, es habitual asumir que los recuentos de las casillas en las tablas se distribuyen como una multinomial. En el muestreo multinomial, fijamos el tama˜no total n pero no los totales de filas y columnas. Es decir, solo el tama˜no muestral est´a fijado previamente en el experimento. As´ı, si se tienen observaciones en I × J casillas, la distribuci´on de probabilidad de los recuentos es n! n 11! · · · nIJ!
∏ i
∏ j πn ijij. En otros casos, las observaciones de una variable respuesta Y aparecen de manera separada seg´un el nivel de una variable explicativa X. En este caso se consideran los totales por filas como fijos. De este modo, se simplifica la notaci´on como ni + = ni y suponemos que dado un nivel fijo de i de X , las ni observaciones de Y son independientes entre s´ı y con distribuci´on de probabilidad { π 1 | i,... , πJ | i } . Los recuentos { nij , j = 1 ,... , J } tal que ∑ j nij = ni se distribuyen como ∏^ ni! j^ nij^!
∏ j^ π jn | iji.^ (1)
As´ı, cuando las muestras que se toman en diferentes niveles de X son independientes, la distribuci´on conjunta de todos los datos es el producto de distribuciones multinomiales (1) para cada nivel i de X. Este esquema se denomina muestreo multinomial independiente o muestreo de pro- ductos de multinomiales.
( iii) La raz´on de plausibilidad odds : θ = π π^12 // (1(1^ −−^ ππ^12 ))
Ejemplo:
Influencia de la toma de aspirina respecto a los ataques card´ıacos:
Ataque No ataque Placebo 189 10845 Aspirina 104 10933
Para contrastar H 0 : pa = pp (igual probabilidades de ataque al coraz´on por grupo), se puede usar el comando prop.test. Para contrastar una hip´otesis unilateral, H 0 : pa ≥ pp frente a H 1 : pa < pp se hace usando la opci´on alternative.
x = c (104 , 189) # aspirina y placebo n = c ((104+10933) , (189+10845)) prop.test (x , n )
2 - sample test for equality of proportions with continuity correction data :X - squared x out= 24 .429 ,of n df = 1 , p - value = 7 .71e - 95 alternative percent confidencehypothesis : interval :^ two.sided -0 .010814914 -0. sampleprop estimates : 1 prop 2 0 .00942285 0.
prop.test (x , n , alt = " less " )
2 - sample test for equality of proportions with continuity correction data :X - squared x out= 24 .429 ,of n df = 1 , p - value = 3 .855e - 95 alternative percent confidencehypothesis : interval :^ less -1 .000000000 -0. sampleprop estimates : 1 prop 2 0 .00942285 0.
Se pueden obtener las proporciones a partir del componente estimate que en este caso es un vector num´erico de longitud 2. As´ı, la diferencia de las proporciones se calcula como: temp = prop.test (x , n ) names ( temp $ estimate ) = NULL
temp $ estimate [1] - temp $ estimate [2] [1] -0.
Se puede calcular tambi´en el riesgo relativo y la raz´on de odds:
temp $ estimate [2] / temp $ estimate [1] [1] 1.
x [2] * ( n [1] - x [1]) / ( x [1] * ( n [2] - x [2])) [1] 1.
Para programar las razones de odds en SAS, se usa:
/ * O P T I O N S n o d a t e l s = 6 5 f o r m c h a r = ’ | - - - - | + | - - - + = | - / \ < > * ’; * / OPTIONS nodate ls =75; / * P a r a S A S U n i v e r s i t y * / ODS rtf file = ’/ folders / myfolders / resultado. rtf ’ style = minimal startpage = no ; DATA riesgos ; INPUT ataque $ medica $ cuenta ; DATALINES ; ataque placebo 189 ataque aspirina 104 NOataque placebo 10845 NOataque aspirina 10933 ; PROC freq order = data ; weight cuenta ;
Si π es la probabilidad de ´exito entonces los odds se definen como Ω = (^1) − π π
o de modo equivalente π = (^) Ω + 1Ω. Se tiene que Ω > 1 cuando un ´exito es m´as probable que un fallo. Por ejemplo, cuando π = 0 , 75 , entonces Ω =^00 ,,^7525 = 3
es decir un ´exito es tres veces m´as probable que un fallo. Si se tiene una tabla 2 × 2 se pueden definir los odds en la fila i : Ω i = (^1) − πi πi. El cociente de los odds de las dos filas se denomina raz´on de odds : θ = Ω Ω^12 = π π^12 //^ (1(1^ −−^ ππ^12 ))
y se obtiene de manera equivalente, cuando se tiene distribuciones conjuntas, πij que
θ = π π^1112 ππ^2221
por lo que tambi´en se denomina cociente de los productos cruzados.
Propiedades
Puede ser cualquier valor positivo. θ = 1 significa que NO hay asociaci´on entre X e Y. Valores de θ alejados de 1 indican una asociaci´on mayor. Se suele trabajar con log θ ya que el valor que se obtiene es sim´etrico respecto a cero. La raz´on de odds no cambia cuando se intercambian filas y columnas.
Las asociaciones marginales y condicionales pueden ser descritas mediante la raz´on de odds. Supongamos una tabla 2 × 2 × K , si denominamos μijk a la frecuencia esperada en la celda correspondiente. Fijamos Z = k , y se define la raz´on de odds condicional como θXY ( k ) = μ μ^1112 kkμμ^2221 kk
y la raz´on de odds marginal como
θXY = μ μ 11+12+ μμ 22+21+ Un valor a 1 en la raz´on de odds supone, o bien independencia marginal, o bien condicionada a que Z = k , es decir, cuando θXY ( k ) = 1.
NOTA:
La independencia condicional cuando Z = k es equivalente a que P ( Y = j | X = i, Z = k ) = P ( Y = j | Z = k )
para todo i, j. Si se cumple para todo valor de la variable Z , entonces se dice que X e Y son condi- cionalmente independientes dado Z y se obtiene que
πijk = πi π + k ++ π + kjk
para cualquier i, j, k. La independencia condicional no implica la independencia marginal.