




























































































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: español, Profesor: Hidatidosis Hidatidosis, Carrera: Ingeniero Técnico Agrícola, especialidad Explotaciones Agropecuarias, Universidad: UNAVARRA
Tipo: Apuntes
1 / 200
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!





























































































Sea X variable aleatoria con distribuci´on de probabilidad dada por la funci´on de distribuci´on F. Diremos que la v.a. X sigue un modelo pa- ram´etrico si su distribuci´on de probabilidad F pertenece a una familia de distribuciones indexada por un par´ametro θ de dimensi´on finita:
X ∼ F ∈ FΘ = {Fθ : θ ∈ Θ ⊆ Rk}.
La familia de distribuciones FΘ recibe el nombre de modelo estad´ıstico param´etrico. Diremos que la v.a. X sigue un modelo estad´ıstico no param´etrico si sobre su distribuci´on F ´unicamente se suponen algunas condiciones de regularidad. Algunos ejemplos de estas condiciones son los siguientes:
F es una funci´on de distribuci´on absolutamente continua,
F es sim´etrica en torno a su mediana,
F tiene funci´on de densidad f con dos derivadas continuas.
Las restricciones impuestas sobre F indican que esta distribuci´on pertenece a un subconjunto de todas las posibles distribuciones de probabilidad, pero este subconjunto tiene dimensi´on infinita (no se puede indexar por un par´ametro de dimensi´on finita).
Son m´etodos de inferencia estad´ıstica v´alidos cuando no se hacen hip´otesis param´etricas sobre la distribuci´on de los datos. Distinguiremos dos familias de m´etodos. La primera fue desarrollada principalmente en las d´ecadas de los 40 y 50 del siglo XX, y la segunda en el ´ultimo tercio de ese siglo.
v
vi PREFACIO
Tienen por objetivo hacer inferencia sobre la distribuci´on de probabilidad F de X o sobre alguna caracter´ıstica suya que est´e bien definida sea cual sea la distribuci´on F (por ejemplo, la mediana o el rango intercuart´ılico de F ). Como no se conoce la distribuci´on F los m´etodos que se proponen se basan en estad´ısticos cuya distribuci´on en el muestreo no depende de F. Por ello se conocen como m´etodos libres de la distribuci´on de los da- tos, o m´etodos de distribuci´on libre (una mala traducci´on del t´ermino distribution-free en ingl´es). Estos son los m´´ etodos que trataremos en el Cap´ıtulo 1. Concretamente nos centraremos en contrastes de hip´otesis no param´etricos.
Son t´ecnicas que permiten estimar funciones relacionadas con la distri- buci´on de probabilidad de los datos. Por ejemplo se puede tener inter´es en estimar la funci´on de distribuci´on F (x), la funci´on de densidad f (x), la tasa de fallo λ(x) = f (x)/(1 − F (x)), la funci´on de regresi´on m(x) = E(Y |X = x) o la varianza condicional σ^2 (x) = V (Y |X = x). A estas t´ecnicas se dedicar´an los restantes cap´ıtulos.
Para ello se dispone de una muestra aleatoria simple (m.a.s.) X 1 ,... , Xn de X. Tambi´en consideramos las hip´otesis alternativas unilaterales H 1 : F (x) > F 0 (x) para todo x, o H 1 : F (x) < F 0 (x) para todo x. Vamos a estudiar el contraste de Kolmogorov-Smirnov (existen otras for- mas de realizar contrastes de bondad de ajuste, por ejemplo los contrastes de la χ^2 , basados en la categorizaci´on de los datos). El contraste de Kolmogorov-Smirnov se basa en calcular una distancia entre la funci´on de distribuci´on emp´ırica de los datos, Fn, y la funci´on de distribuci´on F 0 postulada bajo H 0. Recordemos la definici´on y propiedades de la funci´on de distribuci´on emp´ırica.
Sea la variable aleatoria X con funci´on de distribuci´on F. Consideramos una muestra aleatoria simple de tama˜no n de X, es decir, X 1 ,... , Xn v.a.i.i.d. con distribuci´on dada por F. Sea x 1 ,... , xn una realizaci´on de esa m.a.s. Se llama funci´on de distribuci´on emp´ırica a la funci´on
Fn(x) =
n
#{xi ≤ x : i = 1... n} =
n
∑^ n
i=
I(−∞,x](xi),
donde
I(−∞,x](xi) =
1 , si xi ≤ x 0 , si xi > x,
que a cada n´umero real x le asigna la proporci´on de valores observados que son menores o iguales que x. Es inmediato comprobar que la funci´on Fn as´ı definida es una funci´on de distribuci´on:
Concretamente, Fn es la funci´on de distribuci´on de una variable aleatoria discreta (que podemos llamar Xe) que pone masa 1/n en cada uno de los n puntos xi observados:
xi x 1 x 2 · · · xn pi = P(Xe = xi) 1 /n 1 /n · · · 1 /n
A la distribuci´on de Xe se le llama distribuci´on emp´ırica asociada al conjunto de valores {x 1 ,... , xn}. Obs´ervese que si fijamos el valor de x y dejamos variar la muestra, lo que obtenemos es una variable aleatoria. En efecto, se tiene entonces que
Fn(x) =
n
∑^ n
i=
I(−∞,x](Xi),
donde
I(−∞,x](Xi) =
1 , si Xi ≤ x 0 , si Xi > x
y, por lo tanto, cada t´ermino I(−∞,x](Xi) es una variable aleatoria de Bernoulli con probabilidad de ´exito
p = P(I(−∞,x](Xi) = 1) = P(Xi ≤ x) = F (x).
De ah´ı se deduce que Fn es una variable aleatoria y que nFn(x) tiene distri- buci´on binomial con par´ametros n y p = F (x). De lo anterior se sigue que la funci´on de distribuci´on emp´ırica es un pro- ceso estoc´astico: si consideramos un espacio probabil´ıstico (Ω, A, P ) donde est´an definidas las sucesiones de variables aleatorias {Xn}n≥ 1 a partir de las cuales definiremos la funci´on de distribuci´on emp´ırica, tenemos que
Fn : (Ω, A, P ) × (R, B) −→ [0, 1] (ω, x) −→ Fn(x)(ω) = (^1) n
∑n i=1 I(−∞,x](Xi(ω)).
Fijado x, Fn(x)(·) : (Ω, A, P ) −→ [0, 1] es una variable aleatoria. Fijado ω, Fn(·)(ω) : R −→ [0, 1] es una funci´on de distribuci´on (en la notaci´on usual se omite la dependencia de ω ∈ Ω). Por lo tanto, la funci´on de distribuci´on emp´ırica es una funci´on de distribuci´on aleatoria. El siguiente teorema recoge algunas de las propiedades de la funci´on de distribuci´on emp´ırica.
Teorema 1.1 Sea {Xn}n≥ 1 , sucesi´on de variables aleatorias independientes e id´enticamente distribuidas definidas en el espacio de probabilidad (Ω, A, P ) con funci´on de distribuci´on com´un F. Se denota por Fn la funci´on de distri- buci´on emp´ırica obtenida de las n primeras variables aleatorias X 1 ,... , Xn. Sea x ∈ R. Se verifica lo siguiente:
(a) P(Fn(x) = jn ) =
(n j
F (x)j^ (1 − F (x))n−j^ , j = 0,... , n.
y los sucesos de A siguientes:
Ajk = Axjk = {w ∈ Ω : Fn(xjk) −→ F (xjk)}
Bjk = Bxjk = {w ∈ Ω : Fn(x− jk) −→ F (x− jk)}
Dk =
⋂^ k
j=
(Ajk ∩ Bjk), D =
k=
Dk.
Dk es el suceso definido por la condici´on de que la funci´on de distribuci´on emp´ırica converja a la te´orica para todos los puntos xjk (y tambi´en para los l´ımites por la izquierda), para un k fijo. D es el suceso en que esto ocurre simult´aneamente para todo k. Seg´un la ley fuerte de los grandes n´umeros, P(Ajk) = P(Bjk) = 1 para todo j y todo k, luego P(Dk) = 1 para todo k y, por tanto, P(D) = 1. Obs´ervese que si x ∈ [xjk, x(j+1)k), por ser F y Fn funciones de distribu- ci´on se tiene que
F (xjk) ≤ F (x) ≤ F (x− (j+1)k), y Fn(xjk) ≤ Fn(x) ≤ Fn(x− (j+1)k).
Como adem´as F (x− (j+1)k) − F (xjk) ≤ 1 /k,
Fn(x) − F (x) ≤ Fn(x− (j+1)k) − F (xjk) ≤ Fn(x− (j+1)k) − F (x− (j+1)k) +
k
y
Fn(x) − F (x) ≥ Fn(xjk) − F (x− (j+1)k) ≥ Fn(xjk) − F (xjk) −
k
con lo cual, si δ( nk )es la mayor entre todas las diferencias |Fn(xjk) − F (xjk)| y |Fn(x− jk) − F (x− jk)| (para n y k fijos), se tiene que
Fn(x) − F (x) ≤ δ( nk )+
k
y Fn(x) − F (x) ≥ −δ n(k )−
k
As´ı, para cualquier k ∈ IN,
sup x∈R
|Fn(x) − F (x)| ≤ δ( nk )+
k
Obs´ervese que si se verifica el suceso D, para cualquier k ∈ IN y cualquier ε > 0, se tiene que δ( nk )< ε a partir de un cierto n, de forma que
sup x∈R
|Fn(x) − F (x)| < ε +
k
a partir de cierto n. Por lo tanto,
sup x∈R
|Fn(x) − F (x)| −→n 0
siempre que se verifique D. Como P(D) = 1, se sigue que
sup x∈R
|Fn(x) − F (x)| −→n 0 casi seguro.
2
Ejemplo 1. En la figura siguiente se muestra la funci´on de distribuci´on de una variable aleatoria N (0, 1) y la funci´on de distribuci´on emp´ırica de dos muestras de esa variable aleatoria una de tama˜no n = 10 (la m´as alejada de la te´orica) y la otra de tama˜no n = 100. Se aprecia que cuando n crece la proximidad entre la funci´on de distribuci´on emp´ırica y la te´orica es cada vez mayor.
−3 −2 −1 0 1 2 3
F.distr. de la N(0,1) y f.distr.emp. de dos muestras (n=10, n=100)
x
Fx
Si X ∼ F 0 entonces F 0 (X) ∼ U ([0, 1]).
Si U ∼ U ([0, 1]) entonces F 0 − 1 (U ) ∼ F 0.
Observar que la funci´on de distribuci´on emp´ırica puede reescribirse as´ı:
Fn(x) =
n
∑^ n
i=
I(−∞,x](Xi) =
n
∑^ n
i=
I(−∞,x](F 0 − 1 (Ui)) =
n
∑^ n
i=
I(−∞,F 0 (x)](Ui) = Fn U (F 0 (x)),
donde U 1 ,... , Un es una m.a.s. de una U ([0, 1]) y F (^) nU es su funci´on de distri- buci´on emp´ırica. As´ı,
Dn = sup x∈R
|Fn(x) − F 0 (x)| = sup x∈R
|F (^) nU (F 0 (x)) − F 0 (x)| = sup u∈[0,1]
|F (^) nU (u) − u|,
que es el valor del estad´ıstico de Kolmogorov-Smirnov calculado a partir de una m.a.s. de una U ([0, 1]). Por lo tanto la distribuci´on de Dn no depende de F 0. An´alogos argumentos pueden hacerse para D+ n y D− n. 2
Distribuci´on exacta. La distribuci´on exacta de Dn, D+ n y D− n puede calcularse para cualquier ta- ma˜no muestral n utilizando t´ecnicas est´andar de c´alculos de probabilidades a partir de la funci´on de densidad conjunta de la variable aleatoria multi- variante (U 1 ,... , Un). Tambi´en pueden aproximarse esas distribuciones me- diante simulaci´on. Estas distribuciones est´an tabuladas en muchos libros de estad´ıstica (ver Gibbons 1997 o Hollander y Wolfe 1999, por ejemplo). Obs´ervese que la distribuci´on de D− n coincide con la de D n+ para cualquier tama˜no muestral.
Distribuci´on asint´otica. Si el tama˜no muestrral n es grande (en la pr´actica, n ≥ 30 es suficiente), la distribuci´on de los estad´ısticos Dn, D+ n y D n− bajo H 0 puede aproximarse seg´un indica la sigiente proposici´on.
Proposici´on 1.2 1. Para z > 0
l´ım n−→∞
nDn ≤ z) = 1 − 2
i=
(−1)i−^1 e−^2 i^2 z^2.
nD n+ ≤ z) = 1 − e−^2 z^2.
4 n(D n+ )^2 ≈ χ^22.
Dn,α ≈
n
, D+ n,α = D− n,α ≈
n
Se trata de contrastar
H 0 : F = Fθ para alg´un θ ∈ Θ, frente a H 1 : F 6 = Fθ para ning´un θ ∈ Θ.
Sea θˆ el estimador m´aximo veros´ımil de θ calculado a partir de la muestra observada. El estad´ıstico del contraste de Kolmogorov-Smirnov queda modi- ficado como sigue: Dˆn = sup x∈R
|Fn(x) − Fθˆ(x)|.
La distribuci´on de este estad´ıstico no coincide con la de Dn. Adem´as esa dis- tribuci´on depende de la familia param´etrica que se especifica en la hip´otesis nula. Algunos casos concretos est´an tabulados (por ejemplo, en el caso de contrastar normalidad este test se conoce como test de Lilliefors).
1.3. Contrastes de localizaci´on en una mues-
tra o en dos muestras apareadas
En sta secci´on nos planteamos contrastar si la mediana de una muestra es un valor dado, y si la diferencia entre los datos de dos muestras tiene mediana igual a 0. Sea X 1 ,... , Xn m.a.s. de X ∼ F. Sea M = mediana(F ), desconocida, y sea M 0 un valor conocido. Se desea contrastar
H 0 : M = M 0 frente a H 1 : M 6 = M 0 (o H 1 : M > M 0 , o H 1 : M < M 0 ).
En el caso de datos apareados, (X 1 , Y 1 ),... , (Xn, Yn) es una m.a.s. de (X, Y ) y se desea contrastar la hip´otesis nula
H 0 : MD = M 0 ,
donde MD es la mediana de la variable diferencia D = X − Y. En este caso el valor M 0 que se contrasta usualmente es M 0 = 0.
se asigna un signo + a cada observaci´on Xi > M 0 , y un signo - si Xi < M 0. Se usa como estad´ıstico del contraste
S = n´umero de signos +.
Obs´ervese que bajo H 0
Yi = I{Xi > M 0 } ∼ Bernoulli(p = 0,5)
y que
S =
∑^ n
i=
Yi ∼ B(n, p = 0,5),
con lo que queda perfectamente determinada la distribuci´on exacta del estad´ıstico del contraste para cualquier tama˜no muestral. Obs´ervese que esta distribuci´on es independiente de la distribuci´on F de los datos: el test del signo es de distribuci´on libre. Para n grande (n > 20 es suficiente) se puede aproximar la distribuci´on exacta de S por la distribuci´on normal de par´ametros μ = n/2 y σ^2 = n/4. Es recomendable usar una correcci´on por continuidad en esta aproximaci´on asint´otica:
P (S ≤ r) ≈ P
r − n/2 + 0, 5 √ n/ 4
donde Z ∼ N (0, 1). La siguiente tabla resume la forma de llevar a cabo el test del signo:
Hip´otesis Hip´otesis nula alternativa Rechazar H 0 si ... p-valor M = M 0 M > M 0 SObs grande P (S ≥ SObs) M = M 0 M < M 0 SObs peque˜no P (S ≤ SObs) M = M 0 M 6 = M 0 SObs lejos de n/ 2 2 m´ın{ 1 / 2 , P (S ≥ SObs), P (S ≤ SObs)}
Vale la pena mencionar que el test del signo puede adaptarse trivialmente para contrastar si el cuantil p de la distribuci´on F , al que llamaremos Qp(F ), es igual a un valor dado Q 0 frente a que es ditinto, mayor o menor que Q 0. El caso de la mediana corresponde a p = 0,5. Por ´ultimo se˜nalemos que en el caso (muy improbable, al suponerse F absolutamente continua) de que alguna observaci´on sea igual a M 0 , se elimina ´esta y se reduce el tama˜no muestral n consecuentemente.
El test del signo s´olo utiliza la informaci´on de si cada dato es mayor o menor que la mediana M 0 propuesta bajo H 0 , pero desaprovecha la informa- ci´on relativa a la magnitud de la diferencia entre las observaciones y M 0. El test de Wilcoxon de los rangos signados s´ı tiene en cuenta esa informaci´on. Para poder aplicarlo se requiere una hip´otesis adicional: la distribuci´on F de X ha de ser sim´etrica alrededor de su mediana M. La hip´otesis de simetr´ıa de X alrededor de su mediana permite reexpresar esta variable como X ∼ M + (2Z − 1)A,
donde Z ∼ Bernoulli(1/2), A ∼ |X − M |, y Z y A son variables aleatorias independientes. Observar que (2Z − 1) toma los valores 1 y −1 con probabi- lidades 1/2. Dada la muestra X 1 ,... , Xn de X ∼ F , que se supone absolutamente continua y sim´etrica alrededor de su mediana M , y planteada la hip´otesis nula H 0 : M = M 0 , se descompone la informaci´on contenida en cada Xi en dos partes:
Se asigna un signo + a cada observaci´on Xi > M 0 , y un signo - si Xi < M 0 , como en el test del signo. De forma equivalente se puede definir Zi = I{Xi > M 0 }.
Se calcula Ai = |Xi − M 0 |.
Bajo la hip´otesis nula, Ai y Zi son independientes y, por lo tanto, es como si los signos + y - se hubiesen asignado aleatoriamente, sin guardar relaci´on con el tama˜no de Ai. Por el contrario, si H 0 es falsa (para fijar ideas podemos suponer que M > M 0 ) los signos + tender´an a acompa˜nar a valores grandes de Ai y los signos - corresponder´an a valores peque˜nos de Ai. As´ı, tiene sentido basar el contraste de H 0 en los siguientes estad´ısticos:
T +, definido como la suma de los rangos de los Ai a los que corres- ponden signos +.
T −, definido como la suma de los rangos de los Ai a los que corres- ponden signos -.
En estas definiciones, el rango de un valor Ai = |Xi − M 0 | es el lugar que ocupa este valor en la lista ordenada de los valores A 1 ,... , An. M´as formalmente, sea A(1) < A(2) < · · · < A(n)