











Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
La función de verosimilitud en estadística, su interpretación como función de densidad conjunta para una muestra representativa, la integral sobre el espacio muestral y el resultado de normalidad asintótica. Se derivan resultados sobre el vector gradiente, la matriz de varianzas y covarianzas, y la convergencia del gradiente normalizado hacia su valor esperado.
Tipo: Apuntes
Subido el 30/09/2008
3.8
(109)33 documentos
1 / 19
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!












Licenciatura: ECONOMICAS
TEMA 7: ESTIMACIÓN DE MÁXIMA VEROSIMILITUD
Curso Académico: 2006/
1.- El método de máxima verosimilitud. El enfoque máximo-verosímil ocupa una posición central en la metodología econométrica. No está asociado a ningún tópico particular (estimación, verificación, ...) sino a todos ellos y esta es su principal virtud: debe entenderse como una metodología básica de investigación en Econometría a la cual podemos recurrir en cualquier situación. El método de Mínimos Cuadrados Ordinarios (MCO) es poderoso bajo determinadas circunstancias, pero a menudo debemos trabajar con modelos que presentan problemas de especificación (la perturbación no es un ruido blanco, la hipótesis de normalidad no puede sostenerse,...). En estas situaciones, el mantenimiento del enfoque MCO es cuestionable puesto que conduce a malos estimadores o de propiedades desconocidas. Una alternativa en estos casos es el método de máxima verosimilitud (MV), del cual el método MCO es un caso particular. En términos generales, el método MV puede considerarse superior al MCO al menos en el sentido de que no está condicionado a un conjunto estricto de hipótesis básicas como en el último caso. En la discusión de este tema asumiremos el conjunto de hipótesis habitual, pero únicamente para facilitar la obtención de los resultados por lo que no deben entenderse como una restricción. Si quebramos esas hipótesis o las sustituimos por otras, los resultados finales serán analíticamente diferentes pero no las bases del planteamiento MV. Otra cuestión a tener en cuenta es que este enfoque alcanza su máxima potencia en un contexto asintótico. Bajo condiciones relativamente débiles podremos invocar tanto la LGN como el TCL, lo que nos brindará una gran autonomía con respecto a las hipótesis que asumamos inicialmente. A medida que aumentamos el tamaño muestral, tenemos mayor capacidad para sustituir información teórica (no contrastada) por información puramente muestral, con lo que los datos tendrán más libertad para 'hablar'. Esto no significa que la teoría deje de ser importante. Por el contrario, continúa desempeñando un papel esencial controlando y dando sentido a todo el análisis econométrico (de contrastación de teorías, en definitiva). Sin embargo, el disponer de grandes volúmenes de información muestral nos permitirá desvincularnos de determinados supuestos auxiliares, por lo que los resultados estarán menos contaminados por hipótesis apriorísticas.
estimación propiamente dicha. La información muestral nos sirve para cuantificar los valores de los parámetros desconocidos del DGP del cual procede la muestra. Es evidente que únicamente podremos estimar modelos en los que no exista confusión en su estructura paramétrica; esto es, que se encuentren identificados. Un modelo no identificado puede ser el siguiente:
yt = β 1 + β 2 xtβ^3 + u (^) t
donde la perturbación verifica todas las propiedades usuales. Si hacemos β 2 = 0,
cualquier valor de β 3 puede ser compatible con la misma información muestral. Por
otro lado, al tomar β 3 = 0, no hay forma de diferenciar β 1 de β 2. Este ejemplo sirve
para poner en evidencia que un problema de falta de identificación no puede ser solucionado aportando más información muestral, dado que las carencias son de orden teórico (hay una insuficiente fundamentación teórica del modelo) y necesitan ser resueltas aportando más información teórica. 1.2.- La función de verosimilitud muestral La función de verosimilitud es el elemento básico de todo el enfoque MV. Continuando con la discusión anterior sobre el problema de la identificación, podría definirse como una función de densidad incompleta. Un DGP contiene todas las especificaciones necesarias para caracterizar el proceso estocástico que está generando los datos. Es decir, se trata de una función de densidad conjunta plenamente caracterizada. Esta función generará un tipo particular de muestras que serán compatibles con esa función de densidad. Un modelo, como colección de DGP, no está totalmente identificado dado que carece de alguna especificación, por lo que puede ser compatible con (posiblemente) infinitas funciones de densidad conjunta. En este caso, podemos decir que un modelo se asocia a una familia de funciones de densidad. En consecuencia, el problema de encontrar el DGP que ha generado la muestra observada es equivalente al de identificar una función de densidad concreta, dentro de esa familia de funciones compatibles con el modelo. La función de verosimilitud refleja esta situación. Hemos caracterizado la familia de funciones de densidad con el grado de precisión que nos permite nuestro conocimiento sobre el tema, y hemos obtenido una muestra de las variables relevantes. Con esta información construimos la función de densidad en la que determinados parámetros serán desconocidos, y la denominamos función de verosimilitud. La
intuición que empleamos es que, si la muestra obtenida es representativa, observando sus características seremos capaces de identificar la función de densidad concreta que la ha generado, simplemente porque será aquella que le otorgue la mayor verosimilitud, la máxima probabilidad de ser observada. Expresado con más rigor, la función de verosimilitud es una correspondencia entre el hiperespacio generado por el cruce del espacio muestral (compuesto por todas las posibles realizaciones muestrales de tamaño T que podríamos haber obtenido: y T) con el espacio paramétrico de rango k (compuesto por todos los posibles vectores de parámetros: Θ) sobre R, la recta real:
L: y T^ x Θ → R Si las observaciones son independientes entre sí la función de verosimilitud muestral se puede factorizar tal como:
L(yT,θ) = f(y 1 , y2 ... yT,θ) = (^) tΠ
T = 1 ft(y^ t,θ) =^ Π t
T = 1 Lt(y^ t,θ)^ (1.1) siendo ft(yt,θ) la densidad de yt (∀ t=1, 2, ... T) y Lt(y (^) t,θ) la contribución de la t-ésima
observación a la verosimilitud conjunta de la muestra. La función de verosimilitud, por definición, es una función de T variables aleatorias y k parámetros, por lo que ella misma se convierte en una variable aleatoria. Por otra parte, es habitual resolver todo el análisis no sobre la función de verosimilitud original sino sobre su transformada logarítmica, o log-verosimilitud: l(yT,θ) =
lgL(yT,θ). Esta transformación es monótona creciente por lo que la información contenida en la función original se traslada íntegramente a su logaritmo (tendencias, puntos de inflexión, puntos extremos, ....), y simplifica notablemente los resultados. La log-verosimilitud es, obviamente, otra variable aleatoria. 1.3.- Estimador máximo-verosímil (MV) Se pueden proponer dos definiciones de estimador máximo-verosímil: Definición I : El estimador máximo-verosímil θ~^ ∈ Θ, dada la muestra y T^ = {y 1 , y ... y (^) T}, es aquel para el que se cumple que: l(yT, θ~ ) ≥ l(y T,θ) ∀ θ ∈ Θ (1.2) Es decir, es el máximo absoluto de la función de verosimilitud en el espacio paramétrico. Usando esta definición, el estimador MV puede no existir a no ser que impongamos ciertas condiciones. En concreto, el espacio paramétrico
El primer resultado que obtenemos es que el valor esperado del vector gradiente
es cero: E[g(y T,θ)] = E[dl(yT,θ)] = 0. Volviendo a diferenciar otra vez:
d^2 L t y^ t dy^ t 1 d l^2 t y^ t L t y^ t dy^1 [ dl y^ ][ dl y^ ]L y^ dy^0
T t t^ t^ t^ t^ t^ t ( , θ) ( , θ) ( , θ) T ( , θ) ( , θ) ' ( , θ) −∞
+∞ −∞
+∞ = (^) −∞
+∞ ∫ =^ ∑^ ∫ +∑= ∫ =
⇒ V[dl(yT,θ)] = E{dl(yT,θ)][dl(yT,θ)]'} = -E[d 2 l(yT,θ)] (1.6)
obtenemos la matriz de covarianzas del gradiente, que denominaremos matriz de información muestral (es de orden (kxk)). Esta matriz se iguala a la esperanza negativa de la matriz de segundas derivadas de la log-verosimilitud, o matriz Hessiana. Ambas matrices, por tratarse de una matriz de covarianzas, serán semidefinidas positivas. Los resultados de (1.4), (1.5) y (1.6) son válidos para todo tamaño muestral y, a pesar de su simplicidad, son esenciales en todo este enfoque. En concreto, en (1.5) hemos dicho que el valor esperado del gradiente es el vector cero, de orden (kx1). Pero el gradiente, en la expresión (1.3), resulta ser una suma de T vectores (kx1) mutuamente independiente entre sí. Es evidente que en este caso podemos aplicar la LGN para garantizar la convergencia en probabilidad, o de forma casi segura, del gradiente normalizado hacia su valor esperado:
[ ] (^0) T plimgyT, T
θ = →∞ El resultado de convergencia que subyace en (1.6) no es tan inmediato reviste gran importanacia. Para apreciarla, examinaremos algunas definiciones previas: Matriz de información de la observación t-ésima : I (^) t(θ)
I t (θ)^ = ∫ [dl^ t(yt,θ)][dl^ t(yt,θ)]'^ Lt(yt,θ)dy=V[dl^ t(yt,θ)]
+∞ −∞
Se trata de la matriz de varianzas y covarianzas, de orden (kxk), de la componente t-ésima del vector gradiente. Mide la información aportada exclusivamente por esa observación al problema de estimación MV.
Matriz de información muestral : I T(θ)
I T^ (θ)^ =t∑ T= 1 It(θ)=V^ [g^ (yT,θ)]^ (1.8) Observando la definición de (1.6), está claro que se corresponde con la matriz de varianzas y covarianzas del gradiente. Mide la información total existente en la muestra.
Matriz de información muestral media : I T(θ)
T
T I T^ θ^ =t∑^ =^1 t θ = θ (1.9) Es la media de la matriz de información muestral. Mide la información aportada, en promedio, por cada información existente en la muestra. Matriz de información asintótica : I (θ)
T ( ) lim ( ) limIT( ) T
T T θ = θ =^ θ I (^) →∞ I →∞ (1.10) Es el límite asintótico de la matriz de información muestral media. Mide la información que esperaríamos encontrar en cada observación cuando dispusiésemos de una muestra de tamaño infinito. Utilizando estas definiciones y normalizando por el número de términos en (1.6):
[ ] (^) plim ( ) ( ) T V[dl(y )] plimI ( ) T plim^1 '
gy , T plim 1 T T
T , T T T
T T = θ =^ θ = θ = θ ∂θ
∂ θ →∞ →∞ →∞ →∞ I^ I (1.11) Debe recordarse que si las observaciones muestrales (variables aleatorias en definitiva) son independientes, también lo son las contribuciones individuales al gradientes y las derivadas de estas últimas. El supuesto de independencia permite utilizar la LGN en este contexto. La suma de todos estos resultados parciales conduce a un resultado fundamental: [ ] (^) N[ 0 , ( )] T
dl(y; ) T
gy , as
T t 1
Tθ =∑ t t θ → θ =^ I^ (1.12) En este caso se ha aplicado un TCL estándar en su versión matricial: el gradiente se compone de T vectores (kx1) independientes entre sí, con valor esperado igual para todos ellos (E[dl (^) t(yt,θ)]=0) y matriz de varianzas y covarianzas bien definida (es la matriz de información de la observación t-ésima, It(θ)), cuya media muestral converge
( (^) Tlim →∞ (^) t∑T= 1 ItT(θ)= I (θ)).
Sin embargo, la LGN sí que nos permite decir que a medida que aumentemos el tamaño de la muestra, el gradiente tenderá a hacerse cero en un punto cada vez más próximo al vector de parámetros del DGP. Este razonamiento está en la base del resultado de consistencia de los EMV, que podemos expresar como:
plim ( θ~ - θ) = 0 ⇒ plim θ~ = θ (2.1) Normalidad asintótica Ya ha sido mencionado que los estimadores MV θ~^ son consistentes con respecto al vector de parámetros del DGP θ ó ,lo que es lo mismo, que convergen en probabilidad a un límite no estocástico: plim θ~^ = θ. El resultado de normalidad asintótica implica que, cuando multiplicamos la diferencia entre el estimador MV y su
límite asintótico por T , obtenemos una variable aleatoria que no degenera asintóticamente porque se convierte en una normal (multivariante), con momentos finitos. Es decir:
T [~θ −θ] (^) as~N(A,B) (2.2) Esta propiedad, así como las expresiones concretas de los momentos de primer y segundo orden, depende de las características del gradiente. Entre ambos elementos puede obtenerse la siguiente relación:
T [~θ −θ] =[ I ( θ)]− 1 g(Tθ) (2.3)
y recordando que:
podemos plantear el resultado final de que:
T [~θ −θ] ~as N( 0 ,[ I (θ)]− 1 ) (2.5) Las condiciones que garantizan este resultado de normalidad asintótica son:
Resultados adicionales basados en el supuesto de normalidad asintótica El siguiente bloque de resultados se derivan de la distribución asintótica obtenida para los dos vectores aleatorios fundamentales en (2.4) y (2.5):
(^1 ) 2 2
as as T T as
Tg^ g^ k T k l y l y k
θ θ θ χ θ θ θ θ θ χ θ θ (^) χ
Estas tres distribuciones son la base para la obtención de los contrastes LR ó razón de verosimilitudes, W ó de Wald y LM ó del Multiplicador de Lagrange. Eficiencia asintótica La eficiencia es otra propiedad deseable de cualquier estimador. Nos interesa construir estimadores consistentes, pero también que sean lo más informativos posible en el sentido de que su varianza sea muy reducida. En general, cuando aumentamos el tamaño muestral, la varianza del estimador consistente se reducirá progresivamente hasta desaparecer, lo que nos conduce al concepto de eficiencia asintótica, para la que podemos proponer la siguiente definición:
matrices de covarianzas asintóticas:
Tlim →∞^ E[T^ (θ^ ˆ−θ)(θ^ ˆ−θ)']^ =Vas[^ T(θˆ−θ)]^ =B
Tlim →∞^ E[T^ (θ^ −θ)(^ θ−θ)']^ =Vas[^ T(θ^ −θ)]^ =A
positiva. La propiedad de eficiencia depende de la distribución asintótica del estimador (más estrictamente, la eficiencia asintótica es una propiedad de la distribución asintótica), por lo que es necesario relativizar el concepto: dado que la distribución asintótica es el resultado final de un proceso de convergencia (en distribución), pueden existir varios estimadores, diferentes pero consistentes todos ellos, que converjan hacia la misma distribución límite. En tal caso, se deberá hablar de "un estimador eficiente" en lugar de "el estimador eficiente". Otro aspecto importante a reseñar es que la propiedad de eficiencia hace referencia a un tipo particular de estimadores: a los
W = l(yT,θ) - m(θ)’ λ (3.1) donde λ'= [λ 1 λ 2 ... λr ] es el vector de r multiplicadores de Lagrange. La solución del
problema de optimización anterior requiere la obtención del conjunto de ecuaciones necesarias, planteando lo que denominaremos ecuaciones máximo-verosímiles restringidas (EMVR).
∂∂λ = θ =
∂∂θ = θ − λ= W m( ) 0
W (^) dl(yT, ) M' 0 (3.2)
En esta expresión M es una matriz de orden rxk de primeras derivadas del vector
de restricciones con respecto a θ: M = ∂m∂θ(θ'):
∂θ
∂ θ ∂θ
∂ θ ∂θ
∂ θ
∂θ
∂ θ ∂θ
∂ θ ∂θ
∂ θ
∂θ
∂ θ ∂θ
∂ θ ∂θ
∂ θ
⇒ =∂∂θθ = ⎥
θ
θ
θ θ =
k
r 2
r 1
r
k
2 2
2 1
2
k
1 2
1 1
1
r
2
1
m( ) m ( ) m( )
m ( ) m ( ) m ( )
m( ) m( ) m( )
M m( ) m( )
m ( )
m( ) m( )
…
Los estimadores MVR son los que verifican simultáneamente: dl(yT, (^) θ^ ~R ) = M’ λ~^ y m( (^) θ^ ~R )= 0 Obsérvese que si θ, el vector de parámetros del DGP, pertenece a ω entonces el
máximo global de l(yT,θ) coincidirá con el máximo relativo de l(yT,θ) sujeto a m(θ)=0. Es decir, si θ ∈ ω se verificará que dl(yT,θ) ≅ 0 y, por tanto, λ ≅ 0 junto con m(θ) ≅ 0 (segunda condición necesaria), lo que conduce al cumplimiento de la primera condición
necesaria: dl(yT,θ) ≅ M’ λ. Por otro lado, la estimación MV no restringida (o libre) produce siempre estimadores consistentes:
dl(yT,^ ~ θ) = 0 ⇒ plim θ~ = θ Si θ pertenece al subespacio ω, la maximización MV restringida debería conducir a un ~θR tal que:
dl(yT, (^) θ^ ~R ) = M’ λ~ y m( ~θR )= 0 ⇒ plim (^) θ^ ~R = θ Puesto que las restricciones son ciertas el estimador MVR debe ser igualmente consistente. En consecuencia, en este caso deberá verificarse que:
Es decir, ~θR debe converger en distribución a ~ θ. El análisis de las propiedades estocásticas de los estimadores MVR puede completarse examinando su distribución asintótica. No vamos a entrar en los detalles del proceso de obtención, cuyo resultado final es que:
λ θ
θ−θ θ − θ θ θ −
− −
− − − −
1
1 1 as
1 1 1 1 as I
Donde la matriz M está evaluada también en el vector de parámetros del DGP. 4.- Contrastes asintóticos: LR, W y LM El tipo de hipótesis que se desea contrastar es el tipo: H 0 : m(θ) = 0 vs. HA : m(θ) ≠ 0
donde m(-) se compone de r (r ≤ k) restricciones sobre los elementos del vector θ de orden k. Los tres principios de contraste son el ratio de verosimilitudes, el contraste de Wald y el método del scoring o Multiplicador de Lagrange. Suponemos que ya hemos resuelto el problema de la estimación máximo- verosímil, tanto libre como restringida. Del problema de optimización libre obtenemos los estimadores MV: Max l(yT,θ) ⇒ ~θ Por otro lado, la solución al problema de optimización restringida proporciona los estimadores MVR:
θ =∑ θ ⇒ θ θ = = θ= Max l(y , ) Tlogf(y, )^ ~R t 1 t
T sa m() (^0) sa m() 0
donde la función de verosimilitud cumple las condiciones habituales de regularidad. 4.1.- El ratio de verosimilitudes o contraste LR La definición del estadístico es la siguiente:
LR 2 log R R^ θ ⎥= θ − ⎦
θ
= θ
La intuición que subyace al contraste es que, si la restricción es cierta, la verosimilitud obtenida con la estimación MV libre no tiene por qué verse afectada por la inclusión del conjunto de restriciones m(θ). Es decir, l( θ~ ) y l( (^) θ^ ~R ) tendrán que ser
La última cuestión a considerar es que en la expresión del estadístico LM interviene la matriz de información asintótica. Esa matriz, en general, no es observable, aunque podemos utilizar la siguiente cadena de implicaciones:
θ = →∞ θ = →∞ θ = →∞ ∑= θ T t 1
t T
T T
T T (^) T lim I( ) T I ( ) lim I ( ) limI ( ) (4.5)
para reescribir el LM como:
( ) (^) [ ( )] λ ⎥⎥ λ=λ θ ⎦
= λ ⎡^ θ − − '^ ~ T M~ '~ ~'M~ I ~ M~
1 T (^) R R T R
T (4.6)
Cuando el tamaño de la muestra tiende a infinito, la matriz de información muestral media de (4.6) converge hacia la matriz de información asintótica de (4.5) y el estadístico LM (^) T de (4.6) lo hace hacia el de la expresión (4.2). En la expresión (4.6)
utilizamos el subíndice T para indicar que el estadístico se ha obtenido sobre una muestra de tamaño T. La distribución del estadístico LM (^) T de (4.6) será, en general, desconocida para un T finito, aunque (suponiendo que se cumple 4.5) cuando T tiende a infinito el estadístico se comporta como en (4.2). 4.3.- El contraste de Wald ó contraste W En el contraste de Wald se propone analizar directamente el valor de las restricciones impuestas en el proceso de estimación. Para ello se utiliza la estimación MV libre del modelo, con la cual se evalúan las restricciones. Si son ciertas, el estimador consistente θ~^ de θ no tendría que dar un valor significativamente diferente del supuesto bajo la hipótesis nula del contraste. La definición del estadístico es la siguiente:
W = Tm(~θ)' [M ~' I (~θ)−^1 M^ ~]− 1 m(~θ)as~χ^2 (r) (4.7) La obtención de su distribución probabilística es sencilla, sin más que utilizar la distribución asintótica del estimador consistente θ~ :
T (~θ −θ)as~N [ 0 , I ( θ)−^1 ]
y la relacionamos con el resultado relativo a distribuciones de transformaciones de una variable aleatoria. En este caso:
T [m (~) m( )] ~as N 0 , m(') ( )^1 m( )'⎥=N[ 0 ,M (θ)^1 M'] ⎦
∂θ θ ∂ θ ∂θ θ − θ ∂ θ I −^ I −
Cuando construimos una forma cuadrática sobre este estadístico, introducimos la hipótesis nula de que m(θ)=0 y lo evaluamos en la estimación MV, obtenemos el estadístico de (4.7). Nuevamente se plantéa el problema de la estimación de la matriz de información asintótica de la expresión (4.7). La solución, en este caso, consiste en utilizar la misma aproximación planteada en el caso del LM en términos de la matriz de información muestral:
T ) M~' m(~) m(~)' M~^ (I^ (~))^ M~' as~ (r)
W Tm(~)' M~^2
(^11) T T^1
T 1 ⎥⎥ θ = θ ⎢⎣⎡^ θ ⎥⎦⎤^ χ ⎦
= θ ⎛^ θ −^ − −
− (4.8)
4.4.- Relaciones y propiedades de los contrastes En la Figura 1 aparece una lectura intuitiva de los tres contrastes. El LR toma como punto de referencia la diferencia entre la verosimilitud obtenida para la estimación MV y la correspondiente a la estimación MVR. Cuanto mayor sea esa diferencia más improbable será que se acepte la hipótesis nula. El contraste de Wald examina directamente la diferencia entre ambas estimaciones, MV y MVR. De la misma forma, cuanto más alejada se halle la última de la primera, más difícil será aceptar la hipótesis nula. Por último, el contraste LM se basa en la pendiente de la función de verosimilitud correspondiente al punto de la estimación MVR. Cuanto menor sea esa pendiente, más próximo estará el punto obtenido de ser un óptimo en la función de verosimilitud y más fácil será la aceptación de la hipótesis nula. Al contrario, si la pendiente es pronunciada ello quiere decir que la verosimilitud de la estimación MVR puede mejorarse sensiblemente si nos movemos en el sentido positivo de la pendiente, por lo que será difícil la aceptación de la hipótesis nula.
verificándose que: Max π(x) |H 0
= α
π(x) |H A
π(y) |H A para cualquier otro contraste alternativo y.
APENDICE I: Condiciones de regularidad de la función de verosimilitud. Este conjunto de condiciones garantiza no solo la existencia y unicidad del estimador MV, con independencia de qué definición adoptemos, sino que también permiten utilizar la Ley de los Grandes Números (LGN) y el Teorema Central del Límite (TCL) en un contexto asintótico. El listado de condiciones puede ser más o menos extenso, aunque las habituales son las siguientes: CR1: El rango de la muestra no depende de θ. El espacio de valores muestrales no debe depender de los valores del vector de parámetros que intervengan en la generación de la muestra. CR2: La función de verosimilitud debe ser continua en el espacio paramétrico. Es decir, deben existir las derivadas de la función de verosimilitud con respecto a θ (∀ θ ∈ Θ), al menos, hasta el tercer orden: j T j
∂ l y θ ∂ θ
( , ) (^) para j = 1, 2, 3.
CR3: Las derivadas de la función de verosimilitud deben tener un buen comportamiento en el espacio muestral, al menos hasta el tercer orden: j T j j
∂ l y^ θ h y ∂ θ
donde h 1 (y) y h 2 (y) son funciones integrables en el espacio muestral y la esperanza de h 3 (y) es finita:
−∞h^ j( )y dy
+∞ ∫ ≤ ∞
−∞h^3 ( )y L y^ ( ,^ θ)dy^ H
+∞ ∫ ≤^ ≤ ∞ siendo H independiente de θ.