Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Inferencia Estadística para Parámetros Binomiales, Resúmenes de Probabilidad

Teoría y conceptos básicos de inferencia estadística para parámetros binomiales. Se abordan conceptos como la distribución binomial, la función de masa de probabilidad, el estimador de máxima verosimilitud, el error estándar, el estadístico de Wald y el intervalo de confianza. Además, se discuten pruebas de hipótesis y la prueba de razón de verosimilitud.

Tipo: Resúmenes

2021/2022

Subido el 10/10/2022

mariposa88
mariposa88 🇪🇸

4.2

(517)

372 documentos

1 / 65

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Facultad de Matem´aticas
Departamento de Estad´ıstica e
Investigaci´on Operativa
TRABAJO FIN DE GRADO
Tablas de
Contingencia
Inmaculada Mill´an D´ıaz
Sevilla, Septiembre 2017
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41

Vista previa parcial del texto

¡Descarga Inferencia Estadística para Parámetros Binomiales y más Resúmenes en PDF de Probabilidad solo en Docsity!

Facultad de Matem´aticas

Departamento de Estad´ıstica e

Investigaci´on Operativa

TRABAJO FIN DE GRADO

Tablas de

Contingencia

Inmaculada Mill´an D´ıaz

Sevilla, Septiembre 2017

´Indice general

    1. Introducci´on: Variables Categ´oricas
    • 1.1. Clasificaci´on de las Variables Categ´oricas
    • 1.2. Distribuciones para Datos Categ´oricos
    • 1.3. Inferencia Estad´ıstica para Datos Categ´oricos
      • 1.3.1. Inferencia Estad´ıstica para Par´ametros Binomiales
      • 1.3.2. Inferencia Estad´ıstica para Par´ametros Multinomiales
    1. Descripci´on de Tablas de Contingencia
    • 2.1. Estructura de Probabilidad para Tablas de Contingencia
    • 2.2. Tipos de Estudios
    • 2.3. Tablas Estratificadas
    1. Inferencia para Tablas de Contingencia
    • 3.1. Intervalos de Confianza
    • 3.2. Test de Independencia en Tablas de Doble Entrada
    • 3.3. Test de Independencia para Muestras Peque˜nas
    1. Tablas de Contingencia y R

Cap´ıtulo 1

Introducci´on: Variables

Categ´oricas

Una variable categ´orica tiene una escala de medida que consiste en un conjunto de categor´ıas. Por ejemplo, la ideolog´ıa pol´ıtica, que a menudo se mide como liberal, moderada o conservadora.

El desarrollo de m´etodos para variables categ´oricas fue estimulado por estudios de investigaci´on en las ciencias sociales y biom´edicas, aunque no est´an restrin- gidas a estas ´areas. Aparecen de forma frecuente en las ciencias del compor- tamiento (ej. tipo de enfermedad mental, con las categor´ıas de esquizofrenia, depresi´on y neurosis), gen´etica (ej. tipo de alelo heredado por una descenden- cia) o educaci´on (ej. respuesta de los estudiantes frente a una pregunta de un examen, con las categor´ıas de correcto e incorrecto). Ocurren en otros campos como las ciencias de la ingenier´ıa o el control de calidad industrial.

1.1. Clasificaci´on de las Variables Categ´oricas

Podemos distinguir las variables categ´oricas entre variables de repuesta y va- riables explicativas. Por ejemplo, los modelos de regresi´on describen como var´ıa la variable de respuesta frente a los distintos valores de la variable explicativa. Como ocurre con el precio de una vivienda seg´un sus metros cuadrados o su localizaci´on.

Las variables categ´oricas tienen dos tipos principales de escala. Las varia-

8 1.1. CLASIFICACI ON DE LAS VARIABLES CATEG ´ ORICAS´

bles que tienen categor´ıas sin un ordenamiento natural se llaman nomina- les. Como por ejemplo la afiliaci´on religiosa (Cat´olica, Protestante, Jud´ıa, Musulmana,.. .), el modo de transporte (coche, bicicleta, autob´us, metro,.. .) o el tipo favorito de m´usica (cl´asica, jazz, pop, rock,.. .). Para variables nomina- les, el orden de las categor´ıas es irrelevante. El an´alisis estad´ıstico no depende de dicho ordenamiento. Muchas variables categ´oricas tienen categor´ıas ordenadas. Estas variables son´ llamadas ordinales. Algunos ejemplos son el tama˜no de un coche (subcom- pacto, compacto, mediano o grande), la clase social (alta, media o baja) o la condici´on de un paciente (buena, normal o grave). Las variables ordinales tie- nen categor´ıas ordenadas, pero las distancias entre las distintas categor´ıas son desconocidas. Aunque una persona categorizada como moderada es m´as libe- ral que una persona categorizada como conservadora, ning´un valor num´erico describe cu´anto m´as liberal es una persona. Una variable intervalo es aquella que tiene distancias num´ericas entre dos va- lores cualesquiera. Por ejemplo, el nivel de presi´on arterial, los ingresos anuales o el tiempo de vida funcional de un electrodom´estico. La forma en la que se mide una variable determina su clasificaci´on. Por ejem- plo, “educaci´on” es una variable nominal cuando se mide s´olo como escuela privada o p´ublica; es una variable ordinal cuando se mide por el grado m´as alto alcanzado, usando las categor´ıas de ninguno, escuela secundaria, grado, m´aster o doctorado; o es una variable intervalo cuando se mide por el n´umero de a˜nos estudiados, usando los n´umeros enteros 0,1,2,...

Las variables se clasifican como continuas o discretas seg´un el n´umero de valores que puedan tomar. La medida real de todas las variables se produce de forma discreta, debido a las limitaciones de precisi´on en los instrumentos de medida. La clasificaci´on continua-discreta, en la pr´actica, distingue entre variables que toman muchos valores y variables que toman pocos valores. Por ejemplo, los estad´ısticos a menudo tratan variables discretas que tienen un gran n´umero de valores (tales como las puntuaciones de un examen) como variables continuas.

Las variables nominales son cualitativas —las distintas categor´ıas difieren en cualidad, no en cantidad. Las variables intervalo son cuantitativas —los dis- tintos niveles tienen diferentes caracter´ısticas de inter´es. La posici´on de las variables ordinales es difusa en esta clasificaci´on aunque se suelen clasificar co- mo cuantitativas asignando puntuaciones num´ericas a las distintas categor´ıas.

10 1.3. INFERENCIA ESTAD´ISTICA PARA DATOS CATEG ORICOS´

p(n 1 , n 2 ,... , nc− 1 ) =

n! n 1 !n 2!... nc!

πn 1 1 π 2 n 2... πn c c (1.1)

Como E(nj ) = nπj y var(nj ) = nπj (1 − πj ) la distribuci´on marginal de cada nj es una binomial con par´ametros n y πj. Estas variables no son´ independientes puesto que cov(ni, nj ) = −nπiπj.

  1. Distribuci´on de Poisson:

A veces los datos de recuento no resultan de un n´umero fijo de ensayos. Por ejemplo, si y = n´umero de muertes debidas a un accidente automovil´ıstico en Italia durante la pr´oxima semana, no hay l´ımite superior n fijo para y. Dado que y debe ser un n´umero entero no negativo, su distribuci´on debe colocar su masa en ese rango. La distribuci´on m´as simple es la de Poisson. Sus probabilidades dependen de un s´olo par´ametro, la media μ. La funci´on de masa de probabilidad de Poisson es:

p(y) =

e−μμy y!

, y = 0, 1 , 2 ,...

Satisface E(Y ) = var(Y ) = μ. La distribuci´on de Poisson se utiliza para los conteos de sucesos que ocurren aleatoriamente en el tiempo o en el espacio, cuando los resultados en periodos o regiones disjuntas son independientes.

1.3. Inferencia Estad´ıstica para Datos

Categ´oricos

La elecci´on de la distribuci´on para la variable respuesta es s´olo un paso del an´alisis de los datos. En la pr´actica, esta distribuci´on tiene los valores de los par´ametros desconocidos.

En esta secci´on veremos m´etodos para hacer inferencia sobre los par´ametros.

Funci´on de Probabilidad y Estimador de M´axima Verosimilitud

Para la estimaci´on de los par´ametros usaremos la m´axima verosimilitud. Bajo condiciones de regularidad d´ebil los estimadores de m´axima verosimilitud tie-

CAP´ITULO 1. INTRODUCCI ON: VARIABLES CATEG ´ ORICAS´ 11

nen propiedades deseables. Tienen distribuciones normales para grandes mues- tras, son asint´oticamente consistentes, convergiendo al par´ametro cuando n aumenta, y son asint´oticamente eficientes, produciendo errores est´andar pa- ra muestras grandes no mucho m´as grandes que los de los otros m´etodos de estimaci´on.

Dado los datos, para una distribuci´on de probabilidad elegida, la funci´on de verosimilitud es la probabilidad de esos datos tratados como una funci´on del par´ametro desconocido. El estimador de m´axima verosimilitud es el valor del par´ametro que maximiza esta funci´on. Este es el valor del par´ametro bajo el cual los datos observados tienen la mayor probabilidad de ocurrencia. El valor del par´ametro que maximiza la funci´on de verosimilitud tambi´en ma- ximiza el logaritmo de esa funci´on. Es m´as f´acil maximizar el logaritmo de verosimilitud ya que es una suma en lugar de un producto de t´erminos.

Al par´ametro lo denotamos por β y a su estimador de m´axima verosimilitud por βˆ. La funci´on de verosimilitud es (β) y el logaritmo de la funci´on de verosimilitud es L(β) = log[(β)].

Para muchos modelos L(β) tiene una forma c´oncava y βˆ es el punto en el cual la derivada es igual a 0. El estimador de m´axima verosimilitud es entonces la soluci´on de la ecuaci´on ∂L(β)/∂β = 0.

Cuando β es multidimensional se denota por β, y βˆ es la soluci´on de un conjunto de ecuaciones de verosimilitud.

Dado SE (standard error) denota el error est´andar de βˆ, y cov( βˆ) la matriz de covarianza asint´otica de βˆ. Bajo condiciones de regularidad, cov( βˆ) es la inversa de la matriz de informaci´on.

El elemento (j,k) de la matriz de informaci´on es:

− E

∂^2 L(β) ∂βj ∂βk

Los errores est´andar son las ra´ıces cuadradas de los elementos diagonales de la inversa de la matriz de informaci´on. Cuanto mayor es la curvatura del logaritmo de la verosimilitud, menores ser´an los errores est´andar. Es razonable dado que la gran curvatura implica que el logaritmo de la verosimilitud disminuye r´apidamente a medida que β se aleja de βˆ; por lo tanto los valores tendr´ıan m´as probabilidades de ocurrir si β toma un valor cercano a βˆ.

CAP´ITULO 1. INTRODUCCI ON: VARIABLES CATEG ´ ORICAS´ 13

Construcci´on de los Intervalos de Confianza

En la pr´actica es m´as informativo construir intervalos de confianza para los par´ametros que probar hip´otesis sobre sus valores. Un intervalo de confian- za resulta de invertir un contraste de hip´otesis. Por ejemplo, un intervalo de confianza al 95 % para β es el conjunto de β 0 para los cuales el contraste H 0 : β = β 0 tiene un p-valor mayor que 0.05.

Para α ∈ (0, 1), zα denota el percentil 100(1 − α) % de la distribuci´on normal est´andar, es decir, zα verifica P (Z > zα) = α, donde Z ∼ N(0,1). Los intervalos de confianza al 100(1−α) % basados en el uso de la normalidad asint´otica usan zα/ 2. Por ejemplo, z0.025 = 1.96 para una confianza del 95 %.

De forma similar χ^2 df(α) es el percentil 100(1 − α) % de una distribuci´on χ^2 con df grados de libertad.

El intervalo de confianza de Wald es el conjunto de β 0 para los cuales | βˆ − β 0 | / SE < zα/ 2. Esto da el intervalo βˆ ± zα/ 2 (SE).

El intervalo de confianza basado en la raz´on de verosimilitudes es el conjunto de β 0 para los cuales -2(L(β 0 ) − L( βˆ)) < χ^21 (α). Recalcamos que χ^21 (α) = z α/^22.

Cuando βˆ tiene una distribuci´on normal el logaritmo de la funci´on de vero- similitud tiene una forma parab´olica. Para muestras peque˜nas con datos ca- teg´oricos, βˆ puede estar lejos de la normalidad y el logaritmo de la funci´on de verosimilitud puede estar lejos de una curva sim´etrica parab´olica. Esto tambi´en puede ocurrir con muestras de moderadas a grandes cuando un modelo contie- ne muchos par´ametros. En estos casos la inferencia basada en la normalidad asint´otica de βˆ puede tener un rendimiento inadecuado.

1.3.1. Inferencia Estad´ıstica para Par´ametros

Binomiales

En este apartado presentaremos pruebas e intervalos de confianza para el par´ametro binomial π, basado en y ´exitos en n ensayos independientes.

La funci´on de masa de probabilidad era: p(y) =

(n y

πy(1 − π)n−y. Los coefi-

cientes

(n y

no influyen sobre donde ocurre el m´aximo con respecto a π. Un equivalente al logaritmo de la verosimilitud ser´ıa:

14 1.3. INFERENCIA ESTAD´ISTICA PARA DATOS CATEG ORICOS´

L(π) = log[πy(1 − π)n−y] = y log(π) + (n − y) log(1 − π)

Derivando con respecto a π:

∂L(π) ∂π

y π

n − y 1 − π

y − nπ π(1 − π)

Igualando esto a 0 obtenemos la ecuaci´on de verosimilitud, cuya soluci´on es el estimador de m´axima verosimilitud ˆπ = y/n, la proporci´on muestral de ´exitos para los n ensayos.

Se tiene que:

E

∂^2 L(π) ∂π^2

n π(1 − π)

Por tanto, el error est´andar de ˆπ es σ(ˆπ) =

π(1 − π) n

Adem´as, dado que E(Y ) = nπ y ˆπ = Y /n, la media es E(ˆπ) = π.

Consideremos ahora H 0 : π = π 0. El estad´ıstico de Wald es:

zW =

πˆ − π 0 SE

πˆ − π 0 √ πˆ(1 − πˆ)/n

Usa el error est´andar evaluado en ˆπ.

Una prueba de significaci´on simplemente indica si un valor particular de π es probable. Es mejor usar un intervalo de confianza para determinar el rango de valores probables.

Invertir el estad´ıstico de prueba de Wald da el intervalo de valores de π 0 para los cuales |zW | < zα/ 2 , es decir:

ˆπ ± zα/ 2

ˆπ(1 − ˆπ) n

16 1.3. INFERENCIA ESTAD´ISTICA PARA DATOS CATEG ORICOS´

derivando L(π) con respecto a πj da la ecuaci´on de verosimilitud:

∂L(π) ∂πj

nj πj

nc πc

La soluci´on de m´axima verosimilitud satisface ˆπj /πˆc = nj /nc. Ahora,

j

π ˆj = 1 =

ˆπc

j nj

nc

πˆcn nc

As´ı que ˆπc = nc/n y entonces ˆπj = nj /n ∀j. Los estimadores de m´axima verosimilitud de {πj } son las proporciones de la muestra.

Estad´ıstico Chi-Cuadrado de Pearson

La prueba de Pearson eval´ua si los par´ametros multinomiales son iguales a ciertos valores espec´∑ ıficos. Consideramos H 0 : πj = πj 0 , j = 1,.. .,c, donde

j πj^0 = 1. Cuando^ H^0 es cierto, los valores esperados de^ {nj^ }, llamadas frecuencias esperadas, son μj = nπj 0 , j = 1,.. .,c.

Pearson propuso el estad´ıstico:

X^2 =

j

(nj − μj )^2 μj

Diferencias mayores de {nj − μj } producen valores grandes de X^2.

Si X 02 denota el valor observado de X^2 , el p-valor es el valor bajo la hip´otesis nula de P (X^2 ≥ X 02 ). Esto es igual a la suma de las probabilidades multino- miales de todos los vectores de conteo con X^2 ≥ X 02.

Para muestras grandes, X^2 tiene aproximadamente una distribuci´on chi-cuadrado con c − 1 grados de libertad. El p-valor est´a aproximado por P

χ^2 c− 1 ≥ X 02

donde χ^2 c− 1 denota una variable aleatoria chi-cuadrado con c − 1 grados de libertad.

CAP´ITULO 1. INTRODUCCI ON: VARIABLES CATEG ´ ORICAS´ 17

Estad´ıstico Chi-Cuadrado de Raz´on de Verosimilitudes

Una prueba alternativa para par´ametros multinomiales usa el test de raz´on de verosimilitudes. El n´ucleo de la verosimilitud multinomial es (1.3). Bajo H 0 la verosimilitud es m´axima cuando ˆπj = πj 0. En un caso general, el m´aximo se obtiene cuando ˆπj = nj /n. La raz´on de verosimilitudes es igual a:

j (πj^0 )

nj ∏ j (nj^ /n)

nj

El estad´ıstico de raz´on de verosimilitudes es:

G^2 = −2 log Λ = 2

nj log (nj /nπj 0 )

Cuanto mayor sea el valor de G^2 , mayor ser´a la evidencia contra H 0.

En el caso general, el espacio de par´∑ ametros est´a formado por {πj } sujeto a

j πj^ = 1 con dimensionalidad^ c−1. Para^ n^ grande,^ G

(^2) tiene aproximadamente

una distribuci´on chi-cuadrado con c − 1 grados de libertad.

Cuando H 0 es cierta, X^2 y G^2 tienen distribuciones asint´oticas chi-cuadrado con c − 1 grados de libertad. De hecho, son asint´oticamente equivalentes ya que X^2 − G^2 converge en probabilidad a cero. Cuando H 0 es falsa, tienden a crecer proporcionalmente a n.

Para c fijo, a medida que n aumenta, la distribuci´on de X^2 converge a una chi-cuadrado m´as r´apidamente que la de G^2. La aproximaci´on chi-cuadrado es generalmente pobre para G^2 cuando n/c < 5. Cuando c es grande, puede ser decente para X^2 para n/c tan peque˜no como 1 si la tabla no contiene frecuencias esperadas muy peque˜nas y moderadamente grandes.

Cap´ıtulo 2

Descripci´on de Tablas de

Contingencia

En este cap´ıtulo hablaremos de tablas que muestran relaciones entre variables categ´oricas. Tambi´en definiremos par´ametros que resumen su asociaci´on. Nos centraremos en variables binarias, las cuales tienen dos categor´ıas.

Primero, introduzcamos una terminolog´ıa b´asica y notaci´on.

2.1. Estructura de Probabilidad para Tablas

de Contingencia

Una tabla de contingencia es una de las formas m´as comunes de resumir datos categ´oricos. En general, el inter´es se centra en estudiar si existe alguna asocia- ci´on entre una variable fila y otra variable columna y/o calcular la intensidad de dicha asociaci´on.

Sean X e Y dos variables categ´oricas de respuesta, X con I categor´ıas e Y con J categor´ıas. Un sujeto puede venir clasificado en una de las I × J categor´ıas, que es el n´umero posible de categor´ıas que existe. Las respuestas (X,Y ) de un sujeto elegido aleatoriamente de alguna poblaci´on tiene una distribuci´on de probabilidad. Una tabla rectangular que tiene I filas para las categor´ıas de X y J columnas para las categor´ıas de Y muestra esta distribuci´on.

Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se

20 2.1. ESTRUCTURA DE PROBABILIDAD PARA TABLAS DE CONTINGENCIA

denomina tabla de contingencia, t´ermino que fue introducido por Karl Pearson en 1904.

Una tabla de contingencia (o tabla de clasificaci´on cruzada), con I filas y J columnas se denomina tabla I × J.

Por ejemplo, se considera la distribuci´on conjunta de dos variables y la corres- pondiente tabla de contingencia en una muestra de pacientes de un hospital. Se tiene la siguiente tabla:

X: Se toma aspirina o placebo (I=2).

Y : No se sufre un ataque card´ıaco o bien se sufre y es mortal o no (J=3).

Infarto de Miocardio Ataque Mortal Ataque No Mortal No Ataque Placebo 18 171 10. Aspirina 5 99 10.

Cuadro 2.1: Clasificaci´on Cruzada de Uso de Aspirina y Ataque Card´ıaco.

El Cuadro 2.1, una tabla de contingencia 2 × 3, relaciona el uso de aspirina y los ataques al coraz´on. Esto fue un estudio aleatorizado sobre si la ingesta regular de aspirina reduce la mortalidad por enfermedad cardiovascular. Los pacientes del hospital tomaban una tableta de apirina o placebo. El estudio era ciego, los pacientes no sab´ıan si tomaban aspirina o no. De los 11.034 pacientes que tomaron placebo, 18 sufrieron un ataque mortal al coraz´on, mientras que de los 11.037 pacientes que tomaron aspirina, 5 sufrieron un ataque fatal al coraz´on.

Distribuci´on Conjunta

Si πij denota la probabilidad de que (X,Y ) ocurra en la casilla de la fila i y la columna j, la distribuci´on de probabilidad {πij } es la distribuci´on conjunta de X e Y.

La distribuci´on conjunta viene dada por:

πij = P (X = i, Y = j) con i = 1,... , I y j = 1,... , J