Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


tema 1 econometria, Apuntes de Econometría

Asignatura: econometria, Profesor: gina gina, Carrera: Administración y Dirección de Empresas, Universidad: UNEX

Tipo: Apuntes

2012/2013

Subido el 13/10/2013

patatin24
patatin24 🇪🇸

4.1

(24)

14 documentos

1 / 28

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estadística e Introducción a la Econometría Curso Académico 2013/14
1
TEMA 2: ESTIMACIÓN PARAMÉTRICA
2.1. ESTIMACIÓN Y ESTIMADOR
Según puede verse en el tema anterior, un estadístico muestral es una función de las
observaciones muestrales; por tanto, es una función de variables aleatorias que no depende de
los parámetros desconocidos.
Mediante la inferencia estadística seleccionamos y utilizamos un estadístico muestral a
partir del cual, y usando la información que nos proporciona una muestra aleatoria, podemos
sacar conclusiones sobre características poblacionales.
Cualquier conclusión sobre una población se apoyará en la información proporcionada por
una muestra; concretamente, por un estadístico muestral. La elección del estadístico dependerá
del parámetro poblacional objeto de interés; en cada caso se utilizará la medida análoga al
parámetro.
Tipo de Modelo
de Distribución
de la Población
Parámetros de interés en la
inferencia paramétrica
Estadísticos muestrales a
emplear
Una
población
),(
σ
µ
NX
1)Media: µ 1)Media:
X
2)Varianza: σ
2
2)Varianza:
2
ˆ
S
Dos
poblaciones
),(
xx
NX
σµ
),(
yy
NY
σ
µ
1)Diferencia de medias:
yx
µ
µ
1)Diferencia de medias:
YX
2)Diferencia de Varianzas:
2
2
y
x
σ
σ
2)Diferencia de Varianzas:
2
2
ˆ
ˆ
y
x
S
S
Las inferencias acerca del valor de un parámetro poblacional (
θ
), inferencias paramétricas,
se pueden realizar mediante dos procedimientos:
a) Contrastación de hipótesis: Un contraste es una regla de decisión, que se aplica para
aceptar o rechazar una afirmación acerca del valor de un parámetro
θ
, parcialmente
conocido, sobre la base de la evidencia empírica proporcionada por una muestra. Nos
ocuparemos de los contrastes en el tema siguiente.
b) Estimación: Estimar es aproximar el valor real desconocido de un parámetro poblacional
mediante el valor empírico de un estadístico muestral, en una muestra concreta. Podemos
diferenciar dos tipos de estimación:
a. Estimación puntual, que obtiene un único valor, y
b. Estimación por intervalos, que acota la posible magnitud entre dos valores con
una probabilidad asociada.
Dada una población con función de distribución F(x,θ) , siendo θ un parámetro poblacional
desconocido a estimar. Utilizada una muestra aleatoria simple de tamaño n, (X
1
, X
2
,…., X
n
), con
el propósito de estimar θ, se denomina estimador
al estadístico muestral utilizado para
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c

Vista previa parcial del texto

¡Descarga tema 1 econometria y más Apuntes en PDF de Econometría solo en Docsity!

TEMA 2: ESTIMACIÓN PARAMÉTRICA

2.1. ESTIMACIÓN Y ESTIMADOR

Según puede verse en el tema anterior, un estadístico muestral es una función de las observaciones muestrales; por tanto, es una función de variables aleatorias que no depende de los parámetros desconocidos. Mediante la inferencia estadística seleccionamos y utilizamos un estadístico muestral a partir del cual, y usando la información que nos proporciona una muestra aleatoria, podemos sacar conclusiones sobre características poblacionales. Cualquier conclusión sobre una población se apoyará en la información proporcionada por una muestra; concretamente, por un estadístico muestral. La elección del estadístico dependerá del parámetro poblacional objeto de interés; en cada caso se utilizará la medida análoga al parámetro. Tipo de Modelo de Distribución de la Población

Parámetros de interés en la inferencia paramétrica

Estadísticos muestrales a emplear

Una población

XN (μ, σ ) 1)Media:^ μ^ 1)Media: X

2)Varianza: σ^2 2)Varianza: S ˆ 2

Dos poblaciones XN (^ μ x ,^ σ x ) YN ( μ y , σ y )

1)Diferencia de medias: μ (^) x − μ y

1)Diferencia de medias: X − Y

2)Diferencia de Varianzas: (^2)

2

y

x σ

σ 2)Diferencia de Varianzas: (^2)

2

y

x

S

S

Las inferencias acerca del valor de un parámetro poblacional ( θ), inferencias paramétricas,

se pueden realizar mediante dos procedimientos: a) Contrastación de hipótesis : Un contraste es una regla de decisión, que se aplica para

aceptar o rechazar una afirmación acerca del valor de un parámetro θ , parcialmente

conocido, sobre la base de la evidencia empírica proporcionada por una muestra. Nos ocuparemos de los contrastes en el tema siguiente. b) Estimación: Estimar es aproximar el valor real desconocido de un parámetro poblacional mediante el valor empírico de un estadístico muestral, en una muestra concreta. Podemos diferenciar dos tipos de estimación: a. Estimación puntual , que obtiene un único valor, y b. Estimación por intervalos , que acota la posible magnitud entre dos valores con una probabilidad asociada. Dada una población con función de distribución F(x,θ) , siendo θ un parámetro poblacional desconocido a estimar. Utilizada una muestra aleatoria simple de tamaño n, ( X 1 , X 2 ,…., Xn ), con el propósito de estimar θ, s e denomina estimador  al estadístico muestral utilizado para

estimar un parámetro y estimación  al valor de un estimador aplicado a una muestra concreta.

Siendo el estimador: ^ = g(X 1 , X 2 ,…., Xn) Y la estimación:  = g(X1ex , X2ex,…., Xnex) De manera que el estimador es una variable aleatoria, que depende de la información de la muestra, para aproximar el valor real de un parámetro poblacional desconocido y la estimación el valor numérico del estimador en una muestra concreta. Como de una población pueden extraerse diferentes muestras, para un parámetro podrán obtenerse diferentes estimaciones, dependiendo de los valores experimentales de la muestra seleccionada. Parámetro poblacional Estimador^ Estimación Puntual

1) Media μ

n

X

X

n i i

∑ μ^ ˆ = = =^1

n

X

X

n

ex ex i iex

∑ μ^ ˆ = = =^1

  1. (^) Varianza σ 2 (^ )

ˆ ˆ^1

2 2 2

n

X X

S

n i

i σ

( )

ˆ ˆ^1

2 2 2

∑=

n

X X

S

n

σ ex ex i iex ex

  1. Diferencia de medias: μ (^) x − μ y

y

n j

j

x

n i i

x y

n

Y

n

X

X Y

x^ Y ∑ ∑

1 1

μˆ μ ˆ

y

n j

j

x

n i iex

xex y ex ex

n

Y

n

X

X Y

Y ex

x

ex

∑ ∑

1 1

μˆ μ^ ˆ

  1. Diferencia de Varianzas:

2

2

y

x σ

σ

( )

( )

1

2

1

2

2

2 2

2

=

=

y

n

i i

x

n i

i

y

x y

x

n

X X

n

X X

S

S

y

x

σ

σ

( )

( )

1

2

1

2

2

2 2

2

=

=

y

n j jex ex

x

n i iex ex

yex

xex yex

xex

n

Y Y

n

X X

S

S

y

x

σ

σ

Ejemplo: Las ventas de una muestra aleatoria de diez establecimientos comerciales de Extremadura el día 5 de enero de 2011 fueron respectivamente, 16, 10, 8, 12, 4, 6, 5, 4, 10, y 5 en miles de euros. Obtener estimaciones puntuales de las ventas medias y de la varianza de las ventas de todos los establecimientos comerciales.

((^ ((^ ))))^ ((((^ ))))^ ((((^ ))))^ ((((^ ))))^ ((((^ ))))^ 14 , 2

n

X X

ˆ S

2 2 2 2

n i 1

2 2 iex ex ex

2

ex ====

∑∑ ∑∑ σσσσ^ ====^ LL

Esta nueva estimación aproxima el valor real desconocido del parámetro varianza a 14,2.

2.1.ESTIMACIÓN PUNTUAL: PROPIEDADES DESEABLES DE

LOS ESTIMADORES PUNTUALES.

La elección de los estimadores se apoya en la analogía entre las medidas características muestrales y los parámetros poblacionales correspondientes. No es una selección arbitraria, sino que se apoya en ciertas propiedades deseables para que un estimador sea considerado bueno.

Sea una población con función de distribución F (^) ( x ; θ (^) ), cuyo parámetro θ es desconocido.

Con el propósito de estimar dicho parámetro se utilizará el estimador: θ^ ˆ = g (^) ( X 1 (^) , X (^) 2 , K , Xn ), a

partir de una muestra aleatoria simple de tamaño n , ( X 1 (^) , X (^) 2 , K, Xn )

Dicho estimador es un estadístico muestral y, por tanto, una variable aleatoria que tendrá su correspondiente distribución muestral, y sus parámetros. Es necesario establecer qué propiedades debe tener la función de distribución de un estimador para garantizar una buena aproximación del parámetro poblacional. Dichas propiedades serán: insesgadez, eficiencia, consistencia, suficiencia y robustez.

1. Estimador insesgado:

Un estimador puede tomar un conjunto de valores posibles con una probabilidad determinada en función de su distribución. Es deseable que por término medio su valor coincida con el valor real del parámetro a estimar; es decir, que su distribución esté centrada en el valor poblacional. En ese caso diremos que el estimador es insesgado.

Por tanto, un estimador es insesgado si cumple: E ( θˆ (^) )= θ.

En otro caso, el sesgo del estimador será: Sesgo (^) ( θˆ (^) ) = E ( θˆ (^) )− θ. Si el sesgo es positivo el estimador sobrevalora el valor del parámetro, mientras que si es negativo infravalora dicho parámetro.

Estimador sesgado

Estimador insesgado

2. Estimador eficiente:

La propiedad de insesgadez no es suficiente para garantizar una buena estimación. Entre dos estimadores insesgados siempre seleccionaremos aquel con menor dispersión ya que la distribución estará más concentrada respecto al parámetro. Por tanto, el estimador más eficiente entre un grupo de estimadores insesgados será el que tenga menor varianza.

a. Error cuadrático medio (ECM)

En ocasiones tenemos que elegir entre dos estimadores sesgados de un parámetro θ, y dado que nos interesa encontrar el mejor estimador del parámetro poblacional, un criterio razonable es tomar aquel que cometa en promedio el menor error en la estimación. Dado que los errores pueden ser por defecto o por exceso, se establece como objetivo a minimizar la esperanza de la

diferencia entre el estadístico θˆ^ y el parámetro θ en valores absolutos, a fin de impedir que los

valores positivos y negativos de error se compensen o anulen mutuamente:

E [ θˆ − θ] Este operador presenta el inconveniente de que la función valor absoluto es complicada de manejar desde un punto de vista matemático. Por dicha razón, suele utilizarse el error

cuadrático medio (ECM) de un estimador θˆ^ , definido como sigue:

( ) [( )]

ˆ ˆ^2

ECM θ = E θ− θ El mejor estimador de un parámetro será el de menor cuadrático medio. Una propiedad interesante del ECM es que puede descomponerse como la suma de dos componentes: la varianza del estimador más su sesgo al cuadrado:

( ) [( )] ( ) ( ( ))

ˆ ˆ^2 ˆ ˆ^2

ECM θ = E θ−θ = Var θ + Sesgo θ Por tanto, en el caso de comparar diversos estimadores centrados, o insesgados, de un

parámetro θ, el ECM coincidirá con sus varianzas. Con lo que el estimador con menor ECM

coincidirá con el de menor varianza y por tanto será el más eficiente.

En las líneas que siguen se puede estudiar la demostración de la expresión anterior:

Un estimador será consistente en media cuadrática si el valor de su ECM

disminuye a medida que se incrementa el tamaño muestral.

lim → ^   lim → ^    0

( ) ( ) ( )

ˆ ˆ ˆ^2

lim n →∞ ECM θ n = lim n →∞ Var θ n + lim n →∞  ^ Sesgo θ n  = 0

4. Estimador asintóticamente eficiente:

Aunque un estimador consistente no alcance la varianza mínima para tamaños muestrales pequeños, es deseable que dicha varianza tienda al valor mínimo a medida que se incrementa dicho tamaño. En dicho caso estaremos hablando de un estimador asintóticamente eficiente.

5. Estimador suficiente:

Dado que los estimadores de los parámetros poblacionales son funciones de las observaciones muestrales. Al sustituir dichas observaciones por el valor del estadístico puede producirse una pérdida de la información que proporciona la muestra.

Un estimador es suficiente para el parámetro θ si utiliza toda la información relevante

sobre el parámetro contenida en la muestra, es decir si ningún otro estimador puede proporcionar más información sobre el parámetro.

Se dice que un estimador θˆ^ es suficiente si utiliza toda la información relevante de la

muestra para estimar el parámetro θ de la población. Es decir, un estimador θˆ^ es suficiente si todo el conocimiento que se obtiene acerca del parámetro θ es mediante la especificación real de todos los valores de la muestra.

Ejemplo. Se tiene una muestra aleatoria (X1, X2, ..., Xn) tomada de una población normal , f(X; μ,σ) , , donde μ es un parámetro desconocido. Se consideran los dos estadísticos siguientes:

n

X X X Xn

X X

= + + +^ +

=^ +

1 2 3 L

2

1 1 2

μ

μ

El estadístico μ^ ˆ 1 no es un estimador suficiente del parámetro por no utilizar toda la

información muestral mientras que μ^ ˆ 2 sí lo es pues utiliza toda la información muestral.

Para comprobar si un estadístico es un estimador suficiente de un parámetro, se

puede aplicar el teorema de factorización de Fisher-Neyman. Establece que el

estadístico θˆ^ es un estimador suficiente del parámetro θ si y sólo si la función de

probabilidad o de densidad conjunta para muestras aleatorias de tamaño n se puede

factorizar de manera que:

f ( X 1 , X 2 ,L, Xn ;θ) = g (θ ˆ, θ) × h ( X 1 , X 2 ,L, Xn )

Donde g (θ ˆ , θ)es una función que sólo depende del parámetro y de la muestra –de θ y θˆ^ -

y h ( X 1 , X 2 ,L , Xn )es una función no negativa que no depende de θ para todo posible valor

de θ

Si un estimador insesgado, θˆ^ , de un parámetro, θ, es función de un estadístico suficiente,

entonces tendrá la varianza más pequeña entre todos los estimadores insesgados de θ. Es decir, si existe el estimador más eficiente de θ, éste será un estadístico suficiente.

Ejemplo: Sea una población normal de media, μ, desconocida y varianza σ^2 conocida, se va

a demostrar que el estadístico media muestral, X , es un estimador suficiente.

Información a tener en cuenta: 1) Población: 2) Muestra: 1_1) X: …. 1-2) XN ( μ; σ) 1-3) P. F: μ desconocid ; σ^2 conocido

1_1) Xi: …, ∀ i : 1 ,K, n

1-2) X (^) iN (μ; σ)∀ i

1-3) E.M: X ; S ˆ^2 estimadores de los

parámetros μ y σ^2 , respectivamente

Se va a observar si la función de densidad conjunta de las observaciones muestrales se

puede factorizar según el Teorema de Fisher Neyman:

f ( X 1 , X 2 ,L , Xn ;θ) = g (θ ˆ, θ) × h ( X 1 , X 2 ,L, Xn )

Las observaciones muestrales son variables aleatorias independientes, por lo que su función

de densidad conjunta es igual al producto de las marginales.

n f X X K X (^) n = f X f X L f (^) n X (^) n = (^) ∏ i = fi

( )

× × × =

= × × × =

−^ −  −^ −  − 21 ^ − ^2 2

2 2

1 2

2 2

1 2

1 2 1 1 2 2

(^1) σμ (^2) σμ σμ πσ πσ πσ

θ μ μ μ X X X n

n n n

e e e

f X X X f X f X f X

L

L L

Reagrupamos los términos:

∑^ (^ )

 − =^ −

n i

n Xi

e^12

2 21

Sabemos que: (^) ∑ ( X (^) i − μ ) 2 =∑( XiX )^2 + n ( X − μ)^2 Sustituimos en la ecuación anterior:

1

∂^ ∂ θ^ L^ =^0

2

∂^ ∂ θ^ L^ =^0 KK^0

n

L

En muchas ocasiones realizamos una transformación logarítmica por las complicaciones al derivar dicha función. Además, por un lado, nos aseguramos de que no existan valores negativos, ya que la función de verosimilitud es una función probabilidad, y, por otro, tanto la función de verosimilitud como su transformación alcanzan el máximo en el mismo punto.

Ejemplo: El volumen de ventas anuales del sector textil se aproxima a una Normal de parámetros desconocidos. Se dispone de una muestra de 16 empresas del sector de las que se obtiene los siguientes valores (expresados en millones de euros):

120

16 1 ∑^ = i = iex

X ( ) 200

16 2 1 ∑ −^ = i = i^ ex ex

X X

Calcule los estimadores de los dos parámetros por el método de la Máxima

Verosimilitud, así como sus valores para las observaciones muestrales disponibles.

¿Cuál será el error de estimación para μˆ si la media poblacional es 7,4?

Información a tener en cuenta: 1) Población: 2) Muestra: 1_1) X:Volumen de ventas… 1-2) XN ( μ; σ) 1-3) P. F: μ desconocid ; σ^2 desconocid

1_1) Xi: Volumen de ventas…; ∀ i : 1 ,K, 16

1-2) X (^) iN (μ; σ)∀ i 1-3) E.M: ∑ ∑^ (^ ) = =

16 1

2 ,

16 1 ,^

i

iex ex i ex

Xi X X

Se ha de resolver: a) Obtener un estimador de la media de la población y un estimador de la varianza de la población

La función de densidad para una variable normal: ( )^

21 (^2 )^2

−^ −

X i

f x e

Para una muestra de tamaño n, la función de verosimilitud es:

( )

( )

( )

( )

( )

∑^ (^ )

=  − = − − = − − =^ −

n i

n i i

n i i

i X n

X n

n X

L e e e^12

2 1 2

2 1 2

2 21 (^22)

21 2

21 2

2

,^1 σμ σμ^ σμ

El logaritmo del a función de verosimilitud será:

( ) (^) {( ) ( ) (^ )^ {( )

( ) ( ) (^ )

( ) =− ( ) − ( ) − ∑ ( − )

=

=

=

n i i

n i

i

n i

i

L n n X

L n X

L n X e

1

2 (^222)

1 2

2 2 2

(^1 )

2 2 0

2

ln^1

ln 2

ln ,

ln 2 1

ln , 2

ln , ln 1 2 ln 2 21 ln

A continuación, se va a optimizar el logaritmo de la función de verosimilitud con el propósito de obtener un estimador de máxima verosimilitud del parámetro media.

( ) (^) ( ) ( )

( )

( ) ( ) ( ) ( )

( )

n^ X

X

Despejamos yobtenemosunestimadordemáximaverosimilituddelparámetromedia

X X X n

X X

L

L X

n

MV i i

n i i

n i

n i i

n i i

n i i

n i i

n i i

=

= = (^) = =

= =

=

1

1 1 1 1

(^2121)

2

(^21)

2

2 ) ln , 0

1 ) ln , 2 1

De nuevo se va a optimizar el logaritmo de la función de verosimilitud, esta vez para obtener un estimador de máxima verosimilitud del parámetro varianza.

( ) (^) ( )

( )

( )

( )

( ) n

X

Despejamos yobtenemosunestimadordemáximaverosimilituddelparámetro ianza

n X

n X

L

L n X

n i i

n i i

n i i

n i i

MV

=

=

=

=

1

2 2

2

1

2 2

1

2 2 4

2

2

1

2 2 2 4

2

3 ) var

2 ) ln , 0

1 ) ln ,

μ σ

σ

σ μ

σ σ μ

σ

μσ

σμσ σ σ μ

Los estadísticos muestrales

ˆ ˆ^2

μ (^) MV y σ MV son, respectivamente, los estimadores de

máxima verosimilitud para los parámetros media y varianza.

Para los valores experimentales de la muestra, las estimaciones puntuales toman los siguientes valores:

Parámetro a estimar Estimador Distribucion Intervalo de confianza Media de una N(μ, σ ): μ

  • σ^2 conocida n

X X

n

= ∑ i =^1 i 

  →  X N n μ, σ

n

X Z α 2 σ Media de una N(μ, σ ): μ

  • σ^2 desconocida
  • n≥30 (^) n

X X

n

= ∑ i =^1 i 

  →  n X N μ, S ˆ

n

X Z S ˆ

α 2 Media de una • σ (^2) desconocida N(μ, σ ): μ

  • n<30 (^) n

X X

n

= ∑ i =^1 i^ ˆ^ →(^ −^1 )

− (^) tn n

S

X μ

( ) (^ )^ 

n X t S n

α 2 1

Varianza de una N(μ, σ ): σ^2

  • μ desconocida
  • n<30 (^ ) ˆ (^1) 1

2 2 −

= ∑= n

X X S

n i i

( n − 12 ) S ˆ^2 → χ( 2 n − 1 )

σ

( ) ( )

( ) ( ) 

 

 

 

 (^) − − − −^22 , − 1

2 (^2) , 1 (^12)

(^2 1) ˆ 1 ˆ ; n n

n S n S χ α χ α

Varianza de una • μ conocida N(μ, σ ): σ^2 n<

n

∑ i^ n =^ Xi^ −

= 1

2 σ^ ˆ 2 μ (^ )

n^ ˆ 2 2 χ (^2) n σ

σ (^) → ( ) ( ) ( ) ( ) 

 

 

 −^22 ,

2 (^2) , (^12)

(^2) ˆ ˆ ; n n

n n α^ χ α

σ χ

σ

Diferencia de medias poblaciones normales: μ (^) X − μ Y

  • σ X^2 , σ Y^2 conocidas

XY  

 

 (^) − + Y

Y X X Y X N n n

2 2 μ μ , σ^ σ (^ )^ ( ) (^)  

 

 (^) − ± + Y

Y X

X X Y Z n n

2 2 2 α σ^ σ

Diferencia de medias poblaciones normales: μ (^) X − μ Y

  • σ X^2 , σ Y^2 desconocidas
  • nX + nY ≥ 30

XY  

 

N XY nSXX + nS YY ˆ^2 ˆ^2 μ μ, ( ) (^) ( ) (^)  

 

XY ± Z nSXX + nS YY

2 2 2

ˆ ˆ α

poblaciones normales:^ Diferencia de medias μ (^) X − μ Y

  • (^) σ (^) X^2 = σ Y^2 desconocidas
  • nX + nY < 30

XY

2

2 1 ˆ^21 ˆ^2

2 2 2

  • − = − + −

− − − +−

X Y p X X Y Y

nn Y

p X

p

X Y

n n S n S n S

t n

S n

S

X Y μ μ X Y

( ) (^) ( ) ( ) (^)  

 

XY ± t nX + nYnSXp + nS Yp

2 2 α 2 , 2

Diferencia de medias poblaciones normales: μ (^) X − μ Y

  • σ (^) X^2 ≠ σ Y^2 desconocidas
  • nX + nY < (^30) XY

( ) ( ) (^) ( )

1

ˆ

1

ˆ

ˆ ˆ

ˆ ˆ

2 2 2 2

2 2 2

2 2



 

−^ +



 



 

 (^) +

− − −

Y

Y

Y X

X

X

Y

Y X

X

v Y

Y X

X

X Y

n

n

S n

n

S

n

S n

S v

t n

S n

S

X Y μ μ

( ) (^) ( ) ( ) (^)  

 

 − ± + Y

Y X v X n

S n X Y t S^22 2 , ˆ^ ˆ α

Diferencia de varianzas poblaciones normales: 2

2 Y

X σ

σ

  • μ^ X desconocidas,^ μ Y
  • nX + nY < 30

2

2 ˆ

ˆ Y

X S

S (^) 22 : 22 ( 1 )( 1 ) ˆ

ˆ SSYX σ σ (^) YXFnXnY − ( )( )( ) ( )( )( ) (^)   

 − − − 2 2 − 1 − 1

2 2 1 2 1 1

2 ˆˆ : X Y ;ˆˆ^ : nX n Y Y n n X Y

X (^) F S F S S

S α α

2.3. INTERVALOS DE CONFIANZA PARA LA MEDIA Y PARA LA VARIANZA DE
UNA DISTRIBUCIÓN NORMAL.

Los valores de los parámetros desconocidos de una población se pueden aproximar a través de la estimación puntual calculando el valor del estimador para una muestra concreta. Este valor generalmente difiere del verdadero valor del parámetro. Se denomina error de estimación a dicha diferencia

En los procedimientos de estimación se ha de proporcionar, junto al estimador, una medida del posible error asociado a dicha estimación.

El propósito de la estimación por intervalo de confianza es construir un rango de valores, a partir de la distribución del estimador puntual, que proporcione dos límites entre los cuales esté comprendido el valor real desconocido del parámetro. El objetivo es obtener un intervalo de poca amplitud y con una probabilidad alta (en general: 0,90, 0,95 y 0,99) de contener al valor

real desconocido del parámetro θ.

P ( θˆ (^) I ≤ θ ≤ θˆ (^) S )= 1 −α A continuación se van a aclarar los conceptos empleados en esta expresión analítica: 1-α: Nivel de confianza es la probabilidad de que un intervalo de confianza contenga el valor real del parámetro desconocido a estimar. Indica, además, la proporción de muestras extraídas de una población que contendrían en sus estimaciones el valor real desconocido del parámetro a estimar α: Nivel de significación es la probabilidad que se está dispuesto a aceptar de que el valor real del parámetro a estimar no esté contenido entre los límites de un intervalo. También indica la proporción de muestras de una población que no contendrán el valor real del parámetro en sus estimaciones. Los extremos inferior y superior de un intervalo de confianza son valores del estadístico muestral correspondiente que dependen de la muestra seleccionada, y por tanto son variables aleatorias.

θ θ α θ θ^ α

P ^ > α derecha = P ^ ≤ α derecha = −

θ θ α θ θ^ α

P ^ < α izquierda = P ^ ≥ α izquierda = −

Se va a desarrollar la ecuación (1) para encontrar la expresión analítica del intervalo:

2 2 1 P z x z α n α

P (^) ( − z (^) α 2 σ nx − μ ≤ z (^) α 2 σ n )= 1 −α

P (^) ( − xz (^) α 2 σ n ≤ −μ ≤ − x + z (^) α 2 σ n )= 1 −α

P x ( + z α (^) 2 σ n ≥ μ≥ xz (^) α 2 σ n )= 1 −α

P x ( − z (^) α 2 σ n ≤ μ≤ x + z (^) α 2 σ n )= 1 −α

El intervalo buscado es: I μ= ^ x − z α 2 σ n , x + z α 2 σ n 

Aplicada a los valores empíricos de los estadísticos muestrales, proporciona dos valores del estadístico media muestral, entre los cuales puede estar comprendido el valor real del parámetro desconocido media de la población, con una probabilidad igual al nivel de confianza. Es decir, existe una probabilidad de (1-α) de que el intervalo contenga el valor real de la media en sus estimaciones; o el 100(1-α) por ciento de las muestras extraídas de una población contendrán en sus estimaciones el valor real de la media. Cuando aumenta el tamaño de la muestra, disminuye la amplitud del intervalo y, por consiguiente, aumenta la precisión de la estimación. En cambio, cuando aumenta la desviación típica o el nivel de confianza, aumenta la amplitud y, por tanto, disminuye la precisión de la estimación.

Ejemplo 1: De una población N ( μ, 6 (^) )se selecciona una muestra aleatoria cuya media es 25.

Obtener un intervalo de confianza para la media poblacional μ cuando el tamaño de la muestra

es 16 y el nivel de confianza del 90%. Información a tener en cuenta: 1) Población: 2) Muestra: 1_1) X: … 1-2) XN ( μ; 6 ) 1-3) P. F: μ desconocid ; σ^2 = 62

1_1) Xi: …; ∀ i : 1 ,K, 16

1-2) X (^) iN ( μ; 6 )∀ i

1-3) E.M: Xex = 25

Se ha de resolver: a) Estimar un intervalo de confianza para el valor desconocido de la media de la población.

1 − α= 0,90 ⇒ α 2 = 0, 05 ⇒^ Z 0,05 =1, 645

[ ]

25 1, 645 6 , 25 1, 645^6

I = ^ x − z α σ n x + z α σ n =

= ^ − + =

Ecuación (1)

El valor real del parámetro media estará comprendido entre los valores 22,54 y 27,46 con una probabilidad del 90 por ciento. De otro modo: el 90 por ciento de las muestras estimará el valor real de la media entre los límites 22,54 y 27,46.

Ejemplo 2: El director de una empresa de montaje de un determinado electrodoméstico de la línea blanca, desea estimar el tiempo medio necesario para completar el proceso de montaje por unidad, pues si el tiempo medio estimado es superior a 3 días, cambiará la maquinaria para reducir costes de producción. A partir de una muestra de 200 unidades, con una media de 2, días y desviación típica de 0,7 días, calcule el intervalo de confianza para el tiempo medio de montaje con una probabilidad del 95%. Información a tener en cuenta: 1) Población: 2) Muestra: 1_1) X: Tiempo… 1-2) XN ( μ; σ) 1-3) P. F: μ desconocid ; σ^2 = desconocid

1_1) Xi: Tiempo…; ∀ i : 1 ,K, 200

1-2) XiN (μ; σ)∀ i

1-3) E.M: Xex = 2 , 8 ; S ˆ ex = 0 , 7

Se ha de resolver: b) Estimar un intervalo de confianza para el valor desconocido de la media de la población. Como el tamaño muestral es muy grande, la distribución de la media muestral se aproxima a una normal.

n

X Z S

n

P X Z S μ

2,8 1,96 0, 7^ 2,8 1,96 0, 7 0,

P^ ^ − ≤ μ≤ + =

I = [ 2, 703 , 2,897] Al no superar los tres días el tiempo medio estimado, no se producirán cambios en la máquina de montaje.

A) INTERVALO DE CONFIANZA PARA EL PARÁMETRO MEDIA (μ) DE UNA DISTRIBUCIÓN NORMAL b. Con parámetro varianza (σ^2 ) desconocido Dada una población N ( μ σ, (^) ) siendo μ y σ^2 parámetros desconocidos, deseamos construir

un intervalo de confianza para μ al nivel de confianza del 100 1( − α)%. Suponemos una muestra

aleatoria de menos de 30 observaciones.

Ejemplo: El jefe de la sección de personal de una entidad financiera con una plantilla total de 3000 trabajadores dispone de la siguiente información: examinada una muestra de 30 empleados se observó que éstos faltaron por motivos de enfermedad un promedio de 7,2 días con una desviación de 0,9 días, durante el último año. Si asumimos que la variable “días de baja por enfermedad” se aproxima a una normal, estime un intervalo de confianza para el valor real del promedio de días de baja por enfermedad en un año para todos los trabajadores de la plantilla, a un nivel de confianza del 99 por ciento Información a tener en cuenta: 1) Población: 2) Muestra: 1_1) X: Dias de baja por enfermedad… 1-2) XN ( μ; σ) 1-3) P. F: μ y σ^2 , desconocidos

1_1) Xi: Dias de baja por enfermedad…;

∀ i : 1 ,K, 30 ; n=

1-2) X (^) iN (μ; σ)∀ i

1-3) E.M: Xex = 7 , 2 ; S ˆ ex^2 = 0 , 92

Al ser la varianza poblacional desconocida, la distribución de la media muestral se transforma a una t 29.

( )( ) ( )( ) 0 ,^99

n

X t S n

P X t S ex

ex ex^ μ ex

[ ]

7, 2 2, 756 0,9^ , 7, 2 2, 7560,

I μ = ^ − + =   = Por término medio, cada trabajador de la empresa faltará entre 6 y 8 días al año por motivos de enfermedad.

B) INTERVALO DE CONFIANZA PARA EL PARÁMETRO VARIANZA (σ^2 ) DE UNA DISTRIBUCIÓN NORMAL a. Con parámetro media (μ) desconocido Dada una población N ( μ σ, (^) )en la que son desconocidos los parámetros μ y σ^2 , se va a

construir un intervalo de confianza para la varianza, σ ,^2 al nivel de confianza del 100 1( − α)%.

El estadístico que depende del parámetro σ 2 y de su estimador pero cuya distribución

muestral no depende de σ 2 es:

( ) ( )

2 2 1

1 ˆ^2

n

n S χ σ

Hemos de encontrar los dos valores del estadístico muestral que determinen el intervalo de

confianza.

De manera que: χ(α )( )^ (^ σ)^ χ( α)( )= − α 

− − −^1

(^2121) 2 2 2 n^1 n P n^ S

( )( ) (^ )^ ( )( )

χ σ χ^ α

α α

− − −

ˆ^11

2 (^2121)

2 2 2 n^^1 n S n

P

( ) ( )( )

( ) ( )( )

α χ

σ χα α

− − −

2 1 2 1

2 2 2 2 1

2

n n

P n S n^ S

( ) ( )( )

( ) ( )( )

α χ

σ χ α α

− − −

2 2 1

2 2 2 1 2 1

2

n n

P n S n^ S

La expresión analítica del intervalo de confianza para el parámetro varianza de una

población normal al 100(1-α)% de confianza es:

Ejemplo: Un fabricante de botes de pintura quiere analizar la variabilidad del nivel de disolvente que presenta cada recipiente. Observa que en 25 botes hay una desviación típica de la concentración del disolvente del 3,2%. Calcule el intervalo de confianza para la desviación típica poblacional al 95% de probabilidad suponiendo una población normal. Información a tener en cuenta: 1) Población: 2) Muestra: 1_1) X: Concentración disolvente… 1-2) XN (μ; σ) 1-3) P. F: μ y σ^2 , desconocidos

1_1) Xi: Concentración disolvente…;

∀ i : 1 ,K, 25 ; n=

1-2) X (^) iN (μ; σ)∀ i

1-3) E.M: X yS ˆ^ ex^2 = 3 , 22

( )

( )

 

 

 

 (^) − −

− − −

2 2 1

2 2 1 2 1

(^2 1) ˆ ; 1 ˆ 2 n n

I n S n^ S σ χ α χ α

f ( χ n^2 − 1 )

2 1 2 1

2 1

2 1 2 1

2 1 χ χ α χ χ^ α

P ^ n − > −α n − = P ^ n − ≤ − α n − = −

2 2 1

2 1

2 2 1

2 1 χ χ α χ χ^ α

α = ^ ≥ α = −

P n − n − P n − n −

χ n^2 − 1