Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


matriz de varianza, Apuntes de Criminología

Asignatura: estadsitica, Profesor: raul raul, Carrera: Derecho + Criminología, Universidad: UEM

Tipo: Apuntes

2014/2015

Subido el 25/11/2015

dandy_paola
dandy_paola 🇪🇸

1 documento

1 / 30

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
ESTADÍSTICA ESPAÑOLA
Vol. 48, Núm. 162, 2006, págs. 241 a 270
Métodos de inferencia estadística con
datos faltantes. Estudio de simulación
sobre los efectos en las estimaciones
por
JUAN GÓMEZ GARCÍA
Departamento de Métodos Cuantitativos para la Economía. Universidad de Murcia
JAVIER PALAREA ALBALADEJO
Departamento de Informática de Sistemas Universidad Católica. San Antonio
JOSEP ANTONI MARTÍN FERNÁNDEZ
Departament d'Informática i Matemática Aplicada. Universitat de Girona
RESUMEN
En la práctica estadística es frecuente encontrar muestras con da-
tos que no han podido observarse. En este artículo se comparan me-
diante un ejercicio de simulación el rendimiento y las propiedades de
distintas estrategias de inferencia a partir de muestras con datos fal-
tantes según un patrón arbitrario. Se estudian desde métodos heurís-
ticos hasta métodos basados en verosimilitudes, bajo distintos meca-
nismos para la no respuesta y con variables de características dispa-
res. Se analiza el efecto sobre las estimaciones puntuales y la cober-
tura de los intervalos de confianza. Finalmente, se extraen conclusio-
nes de utilidad para la práctica del análisis de datos.
Palabras clave: datos faltantes, imputación múltiple, inferencia esta-
dística.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e

Vista previa parcial del texto

¡Descarga matriz de varianza y más Apuntes en PDF de Criminología solo en Docsity!

ESTADÍSTICA ESPAÑOLA Vol. 48, Núm. 162, 2006, págs. 241 a 270

Métodos de inferencia estadística con

datos faltantes. Estudio de simulación

sobre los efectos en las estimaciones

por JUAN GÓMEZ GARCÍA Departamento de Métodos Cuantitativos para la Economía. Universidad de Murcia JAVIER PALAREA ALBALADEJO Departamento de Informática de Sistemas Universidad Católica. San Antonio JOSEP ANTONI MARTÍN FERNÁNDEZ Departament d'Informática i Matemática Aplicada. Universitat de Girona

RESUMEN

En la práctica estadística es frecuente encontrar muestras con da- tos que no han podido observarse. En este artículo se comparan me- diante un ejercicio de simulación el rendimiento y las propiedades de distintas estrategias de inferencia a partir de muestras con datos fal- tantes según un patrón arbitrario. Se estudian desde métodos heurís- ticos hasta métodos basados en verosimilitudes, bajo distintos meca- nismos para la no respuesta y con variables de características dispa- res. Se analiza el efecto sobre las estimaciones puntuales y la cober- tura de los intervalos de confianza. Finalmente, se extraen conclusio- nes de utilidad para la práctica del análisis de datos.

Palabras clave : datos faltantes, imputación múltiple, inferencia esta- dística.

242 ESTADÍSTICA ESPAÑOLA

Clasificación AMS : 62-07, 62F99.

1. INTRODUCCIÓN Y OBJETIVOS

En el desarrollo teórico de la mayoría de técnicas y modelos estadísticos no se tienen en cuenta algunas cuestiones que surgen en su aplicación práctica, en concreto, un problema al que con seguridad se ha enfrentado cualquier analista de datos es el de los datos faltantes, también denominados perdidos o incompletos. Cuando se toma una muestra, en general con k variables, de tamaño n obtenemos una matriz de datos de dimensiones n × k. Habitualmente esa matriz es incompleta en el sentido de que faltan datos sobre alguna o algunas de las variables para alguno o algunos de los casos, u observaciones, de la muestra. El estudio sistemá- tico y la formalización de este problema desde un punto de vista probabilístico no se inicia hasta mediados de los años setenta, destacando principalmente el trabajo de Rubin (1976). Aún hoy, se tiende a infravalorar el efecto de eliminar de la matriz de datos aquellos casos con valores perdidos o a sustituirlos por valores que intuitivamente parecen razonables con el fin de eludir el problema y disfrutar de una nueva matriz completa sobre la cual aplicar los análisis pertinentes. De hecho, muchos de los programas informáticos de análisis de datos de uso generalizado incorporan dichas pseudo-soluciones en sus versiones estándar, de modo que son las empleadas por la mayor parte de los usuarios no especialistas.

Hasta hace relativamente poco, los únicos métodos generalmente utilizados pa- ra tratar el problema de los datos perdidos eran métodos como la eliminación del caso con valores perdidos, la sustitución/imputación de éstos por valores plausibles como la media de la variable o la predicción obtenida mediante regresión sobre las demás variables del vector, etc. Este tipo de métodos clásicos no suelen tener una base teórica sólida y, aunque fáciles de implementar y adecuados en situaciones concretas, presentan en general importantes inconvenientes y carencias, especial- mente en contextos multivariantes. Los principales problemas inferenciales asocia- dos son ineficiencia, aparición de sesgos, distorsión de la estructura de covarian- zas; además de no incorporar la incertidumbre asociada a los datos faltantes.

Frente a estos métodos clásicos, en los últimos años, y de forma paralela a la formalización del problema de los datos faltantes, se han ido desarrollando métodos con una base teórica más sólida. Así, en Dempster, Laird y Rubin (1977) se esta- blece una formulación general y rigurosa para la inferencia en presencia de datos faltantes mediante el algoritmo EM. Por otro lado, Rubin (1987) desarrolla una nueva metodología de propósito general, flexible y fundamentada que denomina imputación múltiple, y que salva muchos de los inconvenientes asociados al trata- miento tradicional de los datos faltantes.

244 ESTADÍSTICA ESPAÑOLA

es univariante(1) tendremos una realización de una variable aleatoria binaria unidi- mensional indicando si un valor concreto es observado o perdido. Si el patrón es arbitrario(2), tendremos entonces una matriz de dimensiones n × k con elementos

r ij tomando valor 0, si xij es observado, ó 1, si xij es no observado.

Si denotamos mediante Χ a una muestra multidimensional de X podemos hacer una partición de forma que Χ = (Xobs , Xper), donde Xobs y Xper denotan la parte obser- vada y la parte no observada, o perdida, respectivamente. Se dice que los datos faltantes son de tipo MAR ( missing at random ) si la probabilidad de que un valor no se observe depende de los valores de los datos observados, pero no de los faltan- tes. Esto es, si P[ R |Xobs ,Xper,ξ] =P[R |Xobs,ξ], siendo ξ un vector de parámetros desconocidos del mecanismo de no respuesta. Como indican los resultados de Rubin (1976), no es necesario que se satisfaga para todas las posibles realizacio- nes de R , basta con que se verifique en la muestra dada. Por otro lado, se dice que los datos faltantes son de tipo MCAR si P[ R |Xobs ,Xper,ξ] =P[R |ξ]. La hipótesis MCAR ( missing completely at random ) es más restrictiva ya que implica que R y X son independientes, algo difícil de mantener en muchas situaciones prácticas. Por último, se dice que los datos faltantes son de tipo NMAR ( not missing at random ) si el mecanismo de no respuesta depende del verdadero valor del dato perdido (es decir, depende de Xper), o de variables no observables. La hipótesis NMAR es la más general, pero al mismo tiempo es la más difícil de modelizar ya que exige la especificación de un modelo para R, por lo que es frecuente hablar de mecanismo de no respuesta no ignorable.

Sobre la hipótesis MAR descansan la mayoría de las técnicas actuales para da- tos faltantes, sin embargo no existen procedimientos generales para contrastarla sobre un conjunto de datos incompletos. Nos interesarán por lo tanto métodos que ofrezcan resultados robustos frente a posibles desviaciones. La sensibilidad de las respuestas obtenidas a partir de una muestra incompleta frente a supuestos débiles o injustificables es un problema básico asociado al análisis de datos incompletos, especialmente en el caso NMAR. En muchas aplicaciones lo prudente será consi- derar distintos modelos plausibles para el mecanismo de no respuesta y realizar un análisis de sensibilidad de las estimaciones. Aún así, como destacan Molenberghs et al (2001), esta estrategia puede llevar a conclusiones equivocadas. Podemos encontrar una revisión de las técnicas de análisis de sensibilidad en Serrat (2001), en el contexto del análisis de supervivencia. Por último, destacar el trabajo de

(1) Se habla de patrón univariante cuando los valores perdidos sólo aparecen en una de las variables del vector aleatorio. (2) Se habla de patrón arbitrario o general cuando los valores perdidos pueden aparecer en cualquier variable y observación de la muestra.

MÉTODOS DE INFERENCIA ESTADÍSTICA CON DATOS FALTANTES. ESTUDIO DE SIMULACIÓN SOBRE LOS EFECTOS … 245

Troxel et al (2004), el que se presenta un índice de sensibilidad a la no ignorabili- dad, una medida del potencial impacto de la no ignorabilidad en un análisis.

3. PRIMEROS MÉTODOS HEURÍSTICOS

En esta sección nos ocuparemos de las soluciones habitualmente utilizadas en la práctica ante una matriz de datos con valores perdidos. Aunque intuitivamente pueden parecer soluciones razonables y cuando la cantidad de información perdida es pequeña, pueden funcionar relativamente bien en algunos casos, veremos en la sección 8 que no son procedimientos generalmente aceptables.

3.1 Análisis de casos completos

Dada una muestra Χ de k variables y n casos, supongamos que n per < n de es-

tos casos presentan al menos un valor perdido para alguna de las k variables. Como su propio nombre indica, mediante este método se descartan los nper casos y sólo se aplica la técnica o análisis sobre aquellos con valores observados para todas las variables. De este modo se pasa a trabajar con una muestra de datos completa de tamaño n - nper. Las consecuencias de esta medida dependerán fundamentalmente de la cantidad de información que se pierda al descartar los casos con faltantes, del mecanismo según el cual faltan los datos y de la relación entre los casos completos e incompletos. La pérdida de información relevante se traducirá en sesgo y falta de precisión de las estimaciones si los faltantes no son una muestra aleatoria de la mues- tra completa, es decir, si no se verifica la hipótesis MCAR. Como ventajas destacare- mos su simplicidad y el hecho de que todos los estadísticos se calculan utilizando el mismo tamaño muestral, lo que permite su comparación.

3.2 Análisis de casos disponibles

Si para el i-ésimo caso de una muestra se observan p de las k variables, al apli- car análisis de casos completos estamos perdiendo la información que sobre las k - p variables restantes contiene dicho caso. Una alternativa natural es utilizar para cada cálculo toda la información disponible en la muestra. Por ejemplo, a la hora de calcular la media o varianza de las variables X (^) i y Xj se utilizarán los n (^) i y n (^) j datos disponibles sobre cada una de ellas respectivamente. O bien, para calcular la covarianza entre las dos variables X (^) i y Xj se considerarán los casos h para los que los pares (xhi, xhj) son observados. Es obvio que ello implicará en general trabajar con distintos tamaños muestrales e incluso combinarlos en el cálculo de un mismo estadístico. Como puede verse en Little y Rubin (2002) es posible entonces que resulten correlaciones fuera del intervalo [-1,1] o matrices de correlaciones no definidas positivas, condición requerida por diversas técnicas multivariantes.

MÉTODOS DE INFERENCIA ESTADÍSTICA CON DATOS FALTANTES. ESTUDIO DE SIMULACIÓN SOBRE LOS EFECTOS … 247

4.3 Imputación mediante regresión estocástica

Al imputar mediante regresión se está reemplazando el valor perdido por una media condicionada, por lo que, como destacábamos en el caso de imputación mediante la media, se tiende sistemáticamente a subestimar la variabilidad. Una sencilla alternativa para atenuar este efecto consiste en añadir al valor predicho por la regresión una perturbación aleatoria, con lo que se obtiene una realización de la distribución predictiva de los valores perdidos condicionada a los valores observa- dos. Esto es, en vez de imputar mediante [4.1], utilizar:

lj li ji

xˆ^ li = βˆ 0 obs+∑βˆjobsx +ε ≠

⋅ ⋅ [4.2]

donde εli ~ N( 0 ,σ^2 resid), siendo σ^2 resid la varianza residual de la regresión de Xi sobre

Xj, ∀j ≠i.

5. MÉTODOS BASADOS EN VEROSIMILITUDES

En esta sección nos centramos en métodos que se basan en funciones de vero- similitud, y que son por lo tanto métodos bajo los que subyace un modelo probabi- lístico. A continuación revisaremos el marco formal, debido a Rubin (1976), que da soporte a estos métodos y que se mantiene en la actualidad.

5.1 Un marco formal para la inferencia basada en muestras incompletas

Consideremos un fenómeno multivariante real cuyo comportamiento viene des- crito por un vector aleatorio k-dimensional X = (X 1 ,...,Xk)∈Rk^ con distribución de

probabilidad P[ X;θ], siendo θ el vector de parámetros desconocidos.

Cuando se dispone de una muestra completa de X, una amplia clase de méto- dos de inferencia se justifican en la interpretación de P[ X;θ]como una función de verosimilitud que resume la evidencia que sobre θ hay en los datos. Pero en presencia de valores perdidos sólo disponemos de X (^) obs cuya distribución se obtiene como

P [ X (^) obs ;θ] =∫ P[X ;θ]dX (^) per [5.1]

Si pretendemos hacer inferencia sobre θ a partir de la parte observada, es ne- cesario comprobar que (5.1) es una verosimilitud adecuada. Rubin (1976) identifica

248 ESTADÍSTICA ESPAÑOLA

las condiciones para que así sea, estableciendo que basta con que se verifique la hipótesis MAR como comprobamos a continuación.

Según se ha formalizado el problema de las muestras incompletas, es necesario especificar un modelo para X, P[ X;θ], y un modelo para la no respuesta, P [ R |Xobs ,Xper,ξ]. Mediante el producto P[ R |Xobs ,Xper,ξ] P [X ;θ] obtenemos la

distribución conjunta P[ X,R;θ,ξ]. La verosimilitud basada en la parte observada puede expresarse como

P [ X (^) obs ,R;θ ,ξ] =∫ P[ X,R;θ,ξ]dX (^) per=∫P[R |Xobs,Xper,ξ] [PX ;θ]dXper [5.2]

Bajo el supuesto MAR, [5.2] queda como

P [ X (^) obs ,R;θ ,ξ] =P[R |Xobs,ξ]∫ P[ X;θ]dX (^) per=P[R |Xobs,ξ] [P Xobs;θ] [5.3]

De modo que la verosimilitud [5.2] bajo el supuesto MAR queda factorizada en dos partes, una relativa al vector θ y otra relativa al vector ξ. Si además θ y ξ son distinguibles (3), entonces las inferencias sobre θ basadas en verosimilitudes no se verán afectadas por P[ R |Xobs ,ξ], esto es, el mecanismo de no respuesta puede ser ignorado y la función de verosimilitud L de θ será L( θ |Xobs ) α P[ X (^) obs ;θ]. Este resultado pone de relieve que bajo ignorabilidad podemos realizar inferencias sobre el vector de parámetros θ de la distribución de X a partir de la verosimilitud L ( θ |Xobs ).

Por otro lado, desde una perspectiva bayesiana, todas las inferencias se basan en la distribución de probabilidad a posteriori de los parámetros desconocidos, que puede escribirse utilizando el Teorema de Bayes como

[ ] [^ ] ∫ ∫ [^ θξ]ϕθξ θ ξ

θξ = θξϕθξ PR,X | , (,)d d

P , |R,X PR,X | , (,)

obs

obs obs [5.4]

donde ϕ denota la distribución a priori de ( θ, ξ). Bajo el supuesto MAR, podemos

sustituir [5.3] en [5.4], obteniendo que P[ θ, ξ|R,Xobs] es proporcional a

P^ [ R^ |Xobs ,ξ] [ PX^ obs|θ]ϕ^ (θ,ξ). Si además θ y ξ son distinguibles, entonces la distribución marginal a posteriori de θ queda como

(3) En la práctica este supuesto implica que ε proporciona poca información sobre θ , y

viceversa.

250 ESTADÍSTICA ESPAÑOLA

y

H(θ ;θ(t^ ))=∫ logP [ Xper|Xobs,θ] [PX (^) per|Xobs,θ(t)]dXper

El paso E ( expectation ) del algoritmo EM calcula Q( θ; θ(t)), reemplazando los

valores perdidos, o una función de ellos, por su esperanza condicionada dados X (^) obs y θ( t). El paso M ( maximization ) simplemente determina el EMV θ( t^ +^1 ) que maximi-

za Q( θ; θ(t))como si no hubiera datos perdidos. Los pasos E y M se repiten alterna-

tivamente generando una sucesión de estimadores { θ ( t)}. La diferencia en el valor de

la log-verosimilitud log L(θ |Xobs)en dos iteraciones sucesivas viene dada por

H( ; ) H( ; )

logL( |X ) logL( |X ) Q( ; ) Q( ; ) (t) (t) (t 1 ) (t)

(t 1 ) (t) (t) (t) obs

(t) obs

(t 1 )

  • θ θ − θ θ

θ − θ = θ θ − θ θ

Como el estimador θ (t^ +^1 ) se escoge de manera que Q( θ( t^ +^1 );θ(t))≥Q(θ(t);θ(t)), y

H( θ( t);θ(t))≥H(θ(t+^1 );θ(t) ), lo cual se deduce de la desigualdad de Jensen y la con-

cavidad de la función logarítmica, tenemos que logL (θ |Xobs)se va incrementando en cada iteración con lo que se converge hacia el EMV de θ.

En McLachlan y Krishnan (1996) o Little y Rubin (2002), pueden encontrarse re- sultados teóricos y condiciones acerca de la convergencia del algoritmo. Un criterio de convergencia habitual en la práctica consiste en detener el proceso cuando la diferencia entre dos estimaciones sucesivas de θ sea suficientemente pequeña.

Es sencillo emplear el algoritmo EM como método de imputación. Una vez que se ha producido la convergencia, basta con dar un nuevo paso E y obtener las esperanzas matemáticas de los valores no observados condicionadas a los valores observados dado el EMV del vector de parámetros θ.

Para profundizar en los detalles, la base teórica y extensiones del algoritmo EM nos remitimos a la monografía de McLachlan y Krishnan (1996).

5.3 El método de imputación múltiple

Mediante imputación múltiple se reemplaza cada valor perdido por un conjunto de valores simulados con el fin de incorporar a la estimación la incertidumbre debida a la presencia de datos faltantes. La referencia básica sobre imputación múltiple es Rubin (1987), aunque podemos encontrar una variedad de trabajos relevantes como por ejemplo Rubin (1996), Schafer (1997), Little y Rubin (2002) o Zhang (2003).

MÉTODOS DE INFERENCIA ESTADÍSTICA CON DATOS FALTANTES. ESTUDIO DE SIMULACIÓN SOBRE LOS EFECTOS … 251

Esta metodología ha permanecido durante algunos años en un segundo plano por su limitada aplicabilidad, debido principalmente a la inexistencia de herramien- tas computacionales adecuadas para poder crear las imputaciones. El desarrollo tecnológico de las últimas décadas ha permitido la implementación de algoritmos y procedimientos de cálculo computacionalmente intensivos necesarios para dar solución a problemas intratables analíticamente. En concreto, durante la década de los 90 se han popularizado los algoritmos MCMC (Markov Chain Monte Carlo) (véase p. ej. Gilks, Richardson y Spiegelhalter, 1996 ó Palarea, 2003) que permiten una modelización estadística más compleja al tiempo que realista. Este tipo de algoritmos también han encontrado su aplicación en el ámbito de los datos faltan- tes, en concreto, su incorporación al contexto de la imputación múltiple (Schafer,

  1. ha convertido este procedimiento en un destacado método para el análisis de datos incompletos.

El método consta de tres etapas:

  1. IMPUTACIÓN: en esta etapa cada valor perdido se reemplaza por un conjun- to de m valores simulados a partir de la distribución predictiva de X (^) pe r dado un modelo de probabilidad para X y una distribución a priori para θ. Dicha distribución P [ X (^) per |Xobs]puede obtenerse como

P [ X (^) per |Xobs] = (^) ∫ P[ Xper|Xobs,θ] [Pθ |Xobs]d θ [5.6]

En [5.6] se refleja tanto la incertidumbre sobre Xper dado el vector de parámetros θ , como la propia incertidumbre asociada a θ. Destacar que en las imputaciones así generadas no interviene R, se elude el mecanismo de no respuesta. En conse- cuencia, como estudiamos en la subsección 5.1, esta forma de proceder sólo será teóricamente apropiada bajo la hipótesis MAR.

En general, P[ θ |Xobs]y los cálculos donde interviene resultan intratables analí- ticamente, especialmente en contextos multidimensionales. Es aquí donde intervie- nen de forma natural los algoritmos MCMC dentro de esta metodología. En concre- to, se utiliza el algoritmo de Aumento de Datos (Tanner y Wong, 1987) adaptado a este contexto para simular valores de [5.6] con los que realizar las imputaciones. El algoritmo de Aumento de Datos responde al siguiente esquema iterativo:

Dado θn Repetir Generar Xnper +^1 ~P[X (^) per|Xobs,θn]

θn^ +^1 ~ P^ [θ^ |Xobs,Xnper+^1 ]

Incrementar n

MÉTODOS DE INFERENCIA ESTADÍSTICA CON DATOS FALTANTES. ESTUDIO DE SIMULACIÓN SOBRE LOS EFECTOS … 253

6.1 El modelo para los datos

Se han generado por simulación 5000 muestras de tamaño 150 de un vector aleatorio (X 1 ,X 2 ,X 3 ) que se distribuye según una normal 3-dimensional con las siguientes características: vector de medias μ =[ 30 15100 ]', vector de desviacio-

nes típicas σ =[ 4 0. 530 ]', y matriz de correlaciones

ρ=

  1. 5 0. 2 1

Efectivamente, nos hemos centrado en variables de tipo continuo y normalmen- te distribuidas y esto puede parecer, en principio, una restricción importante. No consideramos que sea así ya que en la mayoría de modelos y técnicas estadísticas utilizadas en la práctica, y en sus implementaciones en distintos paquetes informá- ticos, subyace el supuesto de normalidad. Por lo tanto, las conclusiones obtenidas serán aplicables a una gran parte de los problemas prácticos de análisis de datos.

La determinación de los parámetros del modelo responde al interés por generar valores de un vector aleatorio cuyas componentes presentaran distintos niveles de variabilidad (alta, media y baja) e interrelación entre sí (positiva, negativa; fuerte, media, débil), y que los valores se concentraran en distintos intervalos de la recta real. Si calculamos los coeficientes de variación (CV) de cada componente del vector tenemos que: CVX 1 = 0. 133 , CV (^) X 2 = 0. 033 y CV (^) X 3 = 0. 3.

6.2 Implementación de las hipótesis MCAR, MAR y NMAR

Una vez generadas las muestras nos disponemos a eliminar artificialmente valo- res de cada una de ellas según los distintos mecanismos de no respuesta descritos en la sección 2 y siguiendo un patrón arbitrario. Como resultado tendremos tres conjuntos de 5.000 muestras con datos faltantes, uno para cada una de las hipóte- sis MCAR, MAR y NMAR.

A la hora de determinar el número de valores a eliminar por muestra se ha teni- do en cuenta que la proporción final de valores perdidos resultase realista, un tanto elevada para acentuar las diferencias entre los métodos, y evitando además mues- tras con un excesivo número de casos con muchos valores perdidos. Los porcenta- jes promedio de casos con al menos un valor perdido para cada una de las hipóte- sis son: 42.12% para las muestras con perdidos bajo la hipótesis MCAR, 41.99% para las muestras bajo MAR y 40.11% para las muestras bajo NMAR.

254 ESTADÍSTICA ESPAÑOLA

Para implementar la hipótesis MCAR simplemente se han eliminado valores de cada matriz de datos original de forma aleatoria. Para la hipótesis MAR, a partir de las muestras originales, se ha seguido el siguiente criterio: eliminar xi 1 si x (^) i 2 > 18 ó x (^) i 3 > 130 , eliminar xi 2 si x (^) i 1 < 27 y x (^) i 3 < 90 y eliminar xi 3 si x (^) i 1 > 33 ó x (^) i 2 < 14. Para la hipótesis NMAR, el criterio ha sido: eliminar xi 1 si x (^) i 1 > 33. 9 , eliminar x (^) i 2 si x (^) i 2 < 14. 5 , eliminar x (^) i 3 si 80 < xi 3 < 90. Estos criterios se basan en los valores cuartiles para cada muestra, aunque ajustados para alcanzar los por- centajes de perdidos recogidos en el párrafo anterior. Hay que tener en cuenta que las situaciones MCAR, MAR y NMAR aquí consideradas son, por decirlo de alguna manera, muy “puras”, en la práctica es de esperar que se presenten situaciones combinadas y que los efectos sean menos radicales, pero ahora mismo lo que nos interesa es acentuar las diferencias.

6.3 Implementación de los métodos de inferencia para muestras incompletas

Para implementar los distintos procedimientos y automatizar el proceso de apli- cación a cada una de las muestras han sido programadas varias rutinas y funciones utilizando el paquete S-PLUS.

La aplicación de análisis de casos completos, análisis de casos disponibles e imputación mediante la media se ha efectuado según lo descrito en las subseccio- nes 3.1, 3.2 y 4.1.

Respecto a los métodos de regresión, descritos en las subsecciones 4.2 y 4.3, tenemos que para cada matriz de datos se han estimado ecuaciones de regresión lineal de cada variable sobre el resto, imputando los faltantes en un caso con la predicción obtenida a partir de los valores observados para dicha caso(4). Para aplicar regresión estocástica se ha añadido a los valores imputados una perturba- ción aleatoria normal de media cero y varianza igual a la varianza de los residuos de las regresiones sobre casos completos.

El algoritmo EM, tal y como se ha descrito en la subsección 5.2, converge hacia las estimaciones máximo-verosímiles de los parámetros. A partir de estas estima- ciones para cada muestra, hemos ejecutado una iteración más del algoritmo con el fin de imputar los datos faltantes mediante las esperanzas condicionadas.

El método de imputación múltiple (subsección 5.3) requiere un tratamiento más detallado. Para simular valores de la distribución predictiva [5.6] recurrimos al algoritmo de Aumento de Datos, el cual genera una cadena de Markov que conver- ge a [5.6] tras un número suficientemente grande de iteraciones. No existen por el

(4) En ningún caso se han empleado valores imputados de una variable como predicto- res para las demás, siempre se parte de la matriz original.

256 ESTADÍSTICA ESPAÑOLA

Respecto a los intervalos de confianza, se han utilizado los conocidos intervalos para la media con varianza desconocida basado en la distribución t de Student y para la desviación típica con media desconocida basado en la distribución χ^2 (pueden encontrarse en p. ej. Casella y Berger, 2001), todos ellos a un nivel de confianza ( 1 − α)de 0.95. Como intervalo de confianza para la correlación lineal, ρ , se ha considerado aquel basado en la transformación de Fisher z = tanh−^1 (r)con z ± 1. 96 (n− 3 )−^1 /^2 a un nivel 1 − α= 0. 95 , siendo r la correlación muestral. Dados los límites del intervalo de la transformación de Fisher, basta aplicar la función tangente hiperbólica sobre ellos para obtener los límites del intervalo para ρ.

En el caso particular del método de imputación múltiple debemos obtener inter- valos de confianza combinados a partir de las m matrices imputadas, de forma que la variabilidad debida a la presencia de datos faltantes quede incorporada correc- tamente. Estos intervalos se basan en una distribución t de Student con v grados de libertad y se construyen a partir de las m estimaciones puntuales y sus respecti- vas varianzas, combinadas según [5.7], y con

( )[ ( ( ) )]

2 m

1

v m 11 Um / 1 m B

El intervalo de confianza resultante para una cantidad Q es Q ± tv, 1 −α/ 2 T con

un nivel de confianza, ( 1 − α),el cual se deduce de la teoría sobre la distribución normal.

Para construir los intervalos de confianza combinados necesitamos las varian- zas de los estimadores. Con el estimador media muestral, x , de la media poblacio- nal, μ, esto no es un problema, sin embargo para el estimador varianza muestral, , s^2 de la varianza poblacional, α 2 , la cuestión no es tan inmediata. Siguiendo a Schafer (1997) podemos obtener imputaciones múltiples válidas utilizando estima- dores máximo-verosímiles y sus varianzas asintóticas. Así, la varianza asintótica de

s 2 basada en la teoría de la distribución normal viene dada por la expresión

2 ( ) /(n 1 )

2 2

σ − (véase p. ej. Vélez y García, 1993). Para estimar σ 2 en esta expre-

sión utilizaremos s 2 (en su versión insesgada). Otra posibilidad, más adecuada si el ajuste de los datos a la distribución normal no fuera bueno, sería aproximar la varianza de s 2 mediante métodos de remuestreo (véase p. ej. Casella y Berger, 2002). Para las correlaciones, tomamos como estimador Q =tanh−^1 ( )r

y como varianza del estimador U = (n − 3 ) −^1 , deshaciendo después la transformación para obtener el intervalo combinado para ρ.

Una vez construidos los intervalos obtenemos la cobertura real a lo largo de ca- da conjunto de muestras MCAR, MAR y NMAR, y la comparamos con la cobertura nominal (en este caso, el 95%). Hemos calculado también las amplitudes medias

MÉTODOS DE INFERENCIA ESTADÍSTICA CON DATOS FALTANTES. ESTUDIO DE SIMULACIÓN SOBRE LOS EFECTOS … 257

de los intervalos, aunque las diferencias observadas no son relevantes y decidimos no incluirlas en este trabajo.

8. RESULTADOS

8.1 Estimaciones puntuales e intervalos de confianza

La tabla 1 recoge de forma sintética las estimaciones puntuales y la cobertura (en %) de los intervalos de confianza calculados con cada método(6). En general, se observa que las estimaciones puntuales y la cobertura van empeorando desde la situación MCAR a la NMAR, y van mejorando desde ACC hasta IMU o IEM. Para cualquiera de los tipos de parámetros y de mecanismos de no respuesta, los méto- dos que peores resultados arrojan son ACC, ACD y IME. En la situación MCAR las diferencias entre los métodos son menos acusadas, especialmente en el caso de las medias.

Los datos faltantes provocan un efecto de subcobertura de los intervalos de con- fianza respecto al nivel nominal del 95%, aunque mucho menor, o casi nulo, cuan- do se verifica la hipótesis MCAR. Bajo las hipótesis MAR o NMAR la situación empeora, y en varios casos de manera notable llegando a coberturas nulas. Como ocurre con las estimaciones puntuales, el grupo formado por los métodos IMU y IEM es el que mejores resultados proporcionan, mientras que el método ACC es el que globalmente presenta un peor comportamiento.

A continuación, aumentamos el nivel de detalle analizando los resultados para cada tipo de parámetro y variable.

Estimación e intervalos de confianza para μ 1 , μ 2 yμ 3

En la situación MCAR presentan un sesgo casi nulo con cualquiera de los méto- dos, aunque también hay que tener en cuenta la varianza de los estimadores. Por ejemplo, la subestimación de las desviaciones típicas obtenidas con los métodos IME, IRE y IEM, llevará a sobrevalorar la precisión de sus estimadores para las medias. Bajo la hipótesis MAR los métodos IMU, IEM, IRE y IRS siguen proporcio- nando una estimación promedio ajustada, mientras que con el resto el sesgo se hace patente. En la situación NMAR todos los métodos producen estimaciones sesgadas, siendo de nuevo IMU, IEM, IRE y IRS los que ofrecen los mejores

(6) Se han utilizado las siguientes abreviaturas: ACC (análisis de casos completos), ACD (análisis de casos disponible), IME (imputación mediante la media), IRE (imputación median- te regresión), IRS (imputación mediante regresión estocástica), IEM (imputación mediante algoritmo EM), IMU (imputación múltiple).

MÉTODOS DE INFERENCIA ESTADÍSTICA CON DATOS FALTANTES. ESTUDIO DE SIMULACIÓN SOBRE LOS EFECTOS … 259

apenas afectado por la subcobertura. En un escalón más abajo se sitúan los méto- dos IRS, IRE, IEM.

A lo largo de esta sección hemos hecho referencia al inesperado comportamien- to de las distintas estimaciones cuando el parámetro en cuestión se refería a la variable X 3 o bien ésta intervenía en su cálculo. Al describir el diseño del experimento de simulación veíamos que para imponer la hipótesis NMAR se eliminaban de cada una de las muestras los valores de X 3 en el intervalo (80;90). Dado que

μ 3 = 100 yσ 3 = 30 y, dicho intervalo se sitúa en la zona central de la distribución con

mayor masa de probabilidad. Sin embargo, para X 1 y X 2 se eliminaban valores situados principalmente en las colas de la distribución. Al eliminar valores sólo del centro, hasta cierto punto se preservan las características de variabilidad de la distribución, y esto afecta positivamente a las estimaciones por cualquiera de los métodos, especialmente a varianzas y correlaciones. Además los métodos de imputación generarán con mayor probabilidad valores cercanos a los valores no observados. Por lo tanto, lo que está ocurriendo es que la imputación de los valores de X 3 está siendo muy buena y, por ello, la diferencia entre las estimaciones y los valores reales disminuye cuando el cálculo se ve afectado por X 3. En cuanto a los métodos que no reemplazan los valores perdidos (ACC y ACD), las estimaciones mejoran porque la parte perdida es la menos influyente en el cálculo de los estadísticos.

260 ESTADÍSTICA ESPAÑOLA

VALORES REALES, ESTIMACIONES PUNTUALES Y COBERTURA REAL

DE LOS INTERVALOS DE CONFIANZA

(Continúa)

MCAR

30 15 30 15

 - Tabla 
  • ACC mu X REAL EST. RECM COB
    • mu X
    • mu X - 30, - 15, - 99, - 0, - 0, - 3, - 94, - 95, - 95,
    • sigma X
    • sigma X
    • sigma X - 0, - 3, - 0, - 29, - 0, - 0, - 2, - 95, - 95, - 95,
    • rho
    • rho
    • rho - 0,
      • -0,
      • -0, - 0, - -0, - -0, - 0, - 0, - 0, - 94, - 94,
  • ACD mu X
    • mu X
    • mu X - 30, - 15, - 99, - 0, - 0, - 2, - 94, - 95, - 94,
    • sigma X
    • sigma X
    • sigma X - 0, - 3, - 0, - 29, - 0, - 0, - 1, - 95, - 94, - 95,
    • rho
    • rho
    • rho - 0,
      • -0,
      • -0, - 0, - -0, - -0, - 0, - 0, - 0, - 94, - 95, - 95,