Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


tema1, Apuntes de Estadística

Asignatura: estadistica, Profesor: gina gina, Carrera: Administración y Dirección de Empresas, Universidad: UNEX

Tipo: Apuntes

2012/2013

Subido el 28/12/2013

univ_ade
univ_ade 🇪🇸

2

(2)

2 documentos

1 / 27

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estadística e Introducción a la Econometría Curso Académico 2013/14
1
TEMA 1: INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
1.1. CONCEPTO DE INFERENCIA ESTADÍSTICA
Se pueden contemplar diferentes definiciones del término inferencia. Según la RAE
inferencia es “sacar una consecuencia o deducir algo de otra cosa”; en otros textos se conceptúa
como “la acción y efecto de inferir, deducir o sacar una conclusión a partir de las proposiciones o
antecedentes de los que se dispone”; es decir, cualquier proceso por el que se obtienen
conclusiones sobre la base de información conocida. Existen dos tipos generales de inferencia: la
deductiva, que concluye desde lo general a lo particular, y la inductiva, que concluye desde lo
particular a lo general.
La inferencia estadística es aquella rama de la estadística cuyo propósito es obtener
conclusiones generales para una población en estudio, a partir de la información suministrada
por una muestra representativa de la misma1. Dicho de otro modo: la inferencia estadística son
procedimientos probabilísticos que hacen posible pasar desde la información obtenida en una
muestra concreta (datos particulares de la realidad) a establecer afirmaciones generalizables a la
población global (leyes, teorías, conocimientos en definitiva). Es un tipo de razonamiento
inductivo, pues procede desde lo particular a lo general, que constituye la base del método
científico.2
Se define la estadística como la tecnología del método científico, apta para la toma de
decisiones en ambiente de riesgo, cuando éste puede medirse en términos de probabilidad; se
puede considerar a la inferencia estadística como la estadística moderna.
Las conclusiones derivadas de un proceso de inferencia se refieren a las características de
interés en una población que pueden ser de dos tipos: paramétricas y no paramétricas. En las
paramétricas los objetivos centrales del análisis son los parámetros poblaciones, como la media
y la varianza, y en las no paramétricas otros aspectos relevantes de la población tales como el
modelo de distribución, la forma o relaciones de dependencia de las variables, entre otras. En
este tema nos ocuparemos de la inferencia paramétrica.
En cualquier población se distinguen los siguientes elementos de partida: una variable
aleatoria de interés, que sigue un modelo de distribución de probabilidad, generalmente
conocido, y uno o varios parámetros fundamentales, que pueden ser conocidos, parcialmente
conocidos o desconocidos; éstos constituyen el objeto de estudio de la inferencia paramétrica.
En la muestra, las herramientas fundamentales para inferir acerca de los parámetros
poblacionales son los estadísticos muestrales.
Los procedimientos de la inferencia estadística posibilitan aplicar la estadística descriptiva
a las observaciones muestrales y generalizar a la población los resultados obtenidos en términos
de probabilidad.
1 Para que una muestra sea representativa ha de ser seleccionada aleatoriamente de manera que se
tenga una alta probabilidad de acierto, y un alto grado de confianza acerca de la veracidad de las
conclusiones.
2 También se denomina “estadística inductiva” o “inferencia inductiva” a la inferencia estadística.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b

Vista previa parcial del texto

¡Descarga tema1 y más Apuntes en PDF de Estadística solo en Docsity!

TEMA 1: INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

1.1. CONCEPTO DE INFERENCIA ESTADÍSTICA

Se pueden contemplar diferentes definiciones del término inferencia. Según la RAE

inferencia es “sacar una consecuencia o deducir algo de otra cosa”; en otros textos se conceptúa

como “la acción y efecto de inferir, deducir o sacar una conclusión a partir de las proposiciones o

antecedentes de los que se dispone”; es decir, cualquier proceso por el que se obtienen

conclusiones sobre la base de información conocida. Existen dos tipos generales de inferencia: la

deductiva, que concluye desde lo general a lo particular, y la inductiva, que concluye desde lo

particular a lo general.

La inferencia estadística es aquella rama de la estadística cuyo propósito es obtener

conclusiones generales para una población en estudio, a partir de la información suministrada

por una muestra representativa de la misma 1. Dicho de otro modo: la inferencia estadística son

procedimientos probabilísticos que hacen posible pasar desde la información obtenida en una

muestra concreta (datos particulares de la realidad) a establecer afirmaciones generalizables a la

población global (leyes, teorías, conocimientos en definitiva). Es un tipo de razonamiento

inductivo, pues procede desde lo particular a lo general, que constituye la base del método

científico.^2

Se define la estadística como la tecnología del método científico, apta para la toma de

decisiones en ambiente de riesgo, cuando éste puede medirse en términos de probabilidad; se

puede considerar a la inferencia estadística como la estadística moderna.

Las conclusiones derivadas de un proceso de inferencia se refieren a las características de

interés en una población que pueden ser de dos tipos: paramétricas y no paramétricas. En las

paramétricas los objetivos centrales del análisis son los parámetros poblaciones, como la media

y la varianza, y en las no paramétricas otros aspectos relevantes de la población tales como el

modelo de distribución, la forma o relaciones de dependencia de las variables, entre otras. En

este tema nos ocuparemos de la inferencia paramétrica.

En cualquier población se distinguen los siguientes elementos de partida: una variable

aleatoria de interés, que sigue un modelo de distribución de probabilidad, generalmente

conocido, y uno o varios parámetros fundamentales, que pueden ser conocidos, parcialmente

conocidos o desconocidos; éstos constituyen el objeto de estudio de la inferencia paramétrica.

En la muestra, las herramientas fundamentales para inferir acerca de los parámetros

poblacionales son los estadísticos muestrales.

Los procedimientos de la inferencia estadística posibilitan aplicar la estadística descriptiva

a las observaciones muestrales y generalizar a la población los resultados obtenidos en términos

de probabilidad.

(^1) Para que una muestra sea representativa ha de ser seleccionada aleatoriamente de manera que se

tenga una alta probabilidad de acierto, y un alto grado de confianza acerca de la veracidad de las

conclusiones. (^2) También se denomina “estadística inductiva” o “inferencia inductiva” a la inferencia estadística.

Tipo de Modelo de

Distribución de la Población: Normal

Parámetros de interés

en la inferencia

Una población X  N (, ) 1)Media: μ

2)Varianza: σ^2

Dos poblaciones (^) ( , ) x x

X  N  

YN (  y ,  y )

1)Diferencia de medias:  (^) x   y

2)Diferencia de Varianzas: 2

2

y

x

A continuación se va a mostrar un ejemplo de los conceptos enumerados en éstas últimas

líneas en relación con la población. Se va a suponer que un investigador desea conocer la

ganancia media salarial para el conjunto de nuestro país en el año 2009, utilizando como

elementos de observación las distintas comunidades autónomas (CC.AA.). Por lo tanto, se

considerará que:

a) La población estará constituida por el conjunto de las comunidades autónomas

españolas; es decir sus elementos son las distintas comunidades:

Andalucía

Aragón

Asturias, Principado de

Balears, Illes

Canarias

Cantabria

Castilla y León

Castilla-La Mancha

Cataluña

Comunitat Valenciana

Extremadura

Galicia

Madrid, Comunidad de

Murcia, Región de

Navarra, Comunidad Foral de

País Vasco

Rioja, La

2. La variable aleatoria de interés ‘X’ será la ‘ganancia salarial por comunidad autónoma’.

Esta variable es observable en cada uno de los elementos de la población; es decir, sobre

cada una de las comunidades.

3. La variable aleatoria X sigue un modelo de distribución de probabilidad normal:

X  N (,  )

4. Sus parámetros fundamentales son la media y la varianza:

μ: Ganancia salarial media de las CC.AA.

σ^2 = Variabilidad salarial de las CC.AA.

1.2.TÉCNICAS DE MUESTREO

El procedimiento de selección de la muestra es de fundamental importancia pues la

correcta elección de la muestra garantiza que ésta sea representativa de la población. Se pueden

distinguir tres tipos de muestreo:

  1. Muestreo probabilístico: es aquel en el que cada muestra tiene la misma probabilidad de ser

elegida.

  1. Muestreo intencional u opinático: en el que la persona que selecciona la muestra es quien

procura que sea representativa, dependiendo de su intención u opinión, siendo por tanto la

representatividad subjetiva.

  1. Muestreo sin norma: se toma la muestra sin norma alguna, de cualquier manera, siendo la

muestra representativa si la población es homogénea y no se producen sesgos de selección.

Nosotros supondremos muestreo probabilístico en todos los procedimientos, pues

asegura la representatividad de la muestra y permite el cálculo de la estimación de los errores

que se cometen. Dentro del muestreo probabilístico podemos diferenciar entre los siguientes:

 Muestreo aleatorio con y sin reemplazo.

 Muestreo estratificado.

 Muestreo por conglomerados.

El muestreo con reemplazamiento consiste en seleccionar mediante mecanismos aleatorios

a los elementos de la población que entran a formar parte de la muestra devolviendo cada

elemento a la población una vez observada la característica.

En el muestreo sin reemplazamiento, los elementos de la población que forman parte de la

muestra se seleccionan aleatoriamente pero después de observar la característica no se devuelve

el elemento a la población.

La probabilidad de seleccionar una muestra concreta de n elementos será:

Extracciones

1ª 2ª

  n-ésima

M. con reemplazamiento

1

N

1

N

 

1

N

M. sin reemplazamiento

1

N

1

N  1

 

1

Nn  1

Cuando el tamaño de la población tiende a infinito no existe diferencia significativa entre

ambos tipos de muestreo. Por tanto nos referir000emos a poblaciones de tamaño infinito, o

muy grandes, en el desarrollo del tema.

1.3.MUESTRA ALEATORIA

Es un subconjunto de la población al que tenemos acceso y sobre el que realmente hacemos

las observaciones ó mediciones. Está formada por elementos seleccionados de la población:

individuos, unidades experimentales… Como ya se ha indicado, una muestra ha de ser

representativa; para garantizar su representatividad se ha de seleccionar mediante

procedimientos aleatorios o probabilísticos.

Como las n variables aleatorias que componen una muestra son independientes entre sí, se

cumple que la distribución conjunta es el producto de las distribuciones marginales.

Si X es discreta: (^1 1 2 2 1 1 2 ) 1

( , , , ) ( ) ( ) ( )

n

n n n n i i

P X x X x X x P X x P X x P X x p

          (^) 

Si X es continua: (^1 2 1 1 2 ) 1

( , , , ) ( ) ( ) ( )

n

n n n i i

f X X X f X f X f X f

    (^) 

Al seleccionar una determinada muestra se obtienen valores numéricos reales observados

que corresponden a cada una de las observaciones muestrales, por consiguiente se pasa de una

muestra aleatoria (sucesión de variables aleatorias) a la realización de una muestra aleatoria

concreta, conjunto de valores numéricos observados (^ x 1^ ,^ x 2^ ,^ ,^ xn ), que denominaremos valores

empíricos o experimentales.

. ESTADÍSTICOS MUESTRALES

Los parámetros poblacionales son valores numéricos que caracterizan la distribución

poblacional. Un parámetro es una constante fija cuyo valor generalmente es desconocido ó

parcialmente conocido. En la distribución Normal los parámetros son la media poblacional, , y

la varianza poblacional, ^2.

En la mayoría de los modelos probabilísticos nos encontramos parámetros cuyos valores

tenemos que fijar para especificar completamente el modelo y poder calcular las probabilidades

deseadas. Si deseamos estudiar una población con función de distribución F x ( ,  )donde la

forma de la función es conocida pero el parámetro  es desconocido es necesario seleccionar

una muestra aleatoria simple ( X 1 (^) , X 2 , , Xn )de tamaño n de la población y calcular para las

observaciones de la muestra el valor de alguna función que represente o estime el parámetro

desconocido .

Un estadístico muestral es cualquier función real de las observaciones de una muestra

aleatoria en la que no aparece ningún parámetro desconocido. Se representa por

g X ( 1 (^) , X (^) 2 , , Xn )

Un estadístico será una variable aleatoria por expresarse en función de variables aleatorias

ya que para cada muestra el estadístico tomará un valor diferente. A modo de ejemplo algunos

estadísticos serán:

1 2 1 (^1 ,^2 ,^ ,^ )^

n n

X X X g X X X n

   

  ;

2 2 2 1 2 2 (^1 ,^2 ,^ ,^ )^

n n

X X X g X X X n

   

 

     

2 2 2 1 2 3 (^1 ,^2 ,^ ,^ )^

n n

X X X X X X g X X X n

      

 

En cada proceso de inferencia paramétrica utilizaremos la información de la muestra para

obtener conclusiones acerca de un parámetro poblacional, θ ; el estadístico muestral análogo al

parámetro de interés, que representaremos mediante 

, será la herramienta sobre la que se

apoyen las inferencias, bien se trate de estimación o de contraste de hipótesis. En la tabla

siguiente se muestran los estadísticos muestrales a utilizar en los contextos poblacionales

considerados; se puede observar que se trata en todos los casos de la medida característica

análoga.

A continuación se van a presentar algunos ejemplos de estadísticos muestrales:

  1. Un investigador desea conocer la ganancia media salarial para el conjunto de nuestro

país en el año 2009.

Ganancia media anual por comunidad autónoma (miles de euros). Año 2009

Código Identificación

TOTAL del PAÍS ¿?

1,00 Andalucía 2,00 Aragón 3,00 Asturias, Principado de 4,00 Balears, Illes 5,00 Canarias 6,00 Cantabria 7,00 Castilla y León 8,00 Castilla-La Mancha 9,00 Cataluña 10,00 Comunitat Valenciana 11,00 Extremadura 12,00 Galicia 13,00 Madrid, Comunidad de 14,00 Murcia, Región de 15,00 Navarra, Comunidad Foral de 16,00 País Vasco 17,00 Rioja, La

Para ello va a extraer una muestra aleatoria simple de seis entre las 17 comunidades

autónomas con el propósito de observar sus ganancias medias y calcular un estadístico

muestral. Aplicado un procedimiento aleatorio de muestreo han resultado seleccionadas las

comunidades cuyos códigos son: 9, 2, 5, 4, 14, 11. Es decir:

Ganancia media anual por comunidad autónoma (miles de euros). Año 2009

Código Identificación

TOTAL del PAÍS ¿?

1 Andalucía 2 Aragón ¿ X 2? 3 Asturias, Principado de 4 Balears, Illes ¿ X 4? 5 Canarias ¿ X 3? 6 Cantabria 7 Castilla y León 8 Castilla-La Mancha 9 Cataluña ¿ X 1? 10 Comunitat Valenciana 11 Extremadura ¿ X 6? 12 Galicia 13 Madrid, Comunidad de 14 Murcia, Región de ¿ X 5? 15 Navarra, Comunidad Foral de 16 País Vasco 17 Rioja, La

Observadas las ganancias medias de estas regiones se han obtenido los siguientes valores

empíricos o experimentales, expresados en miles de euros:

Código Identificación

TOTAL del PAÍS ¿?

1 Andalucía 2 Aragón 22,13 = (x 2 ) 3 Asturias, Principado de 4 Balears, Illes 21,07 = (x 4 ) 5 Canarias 18,93 = (x 3 ) 6 Cantabria 7 Castilla y León 8 Castilla-La Mancha 9 Cataluña 23,85 = (x 1 ) 10 Comunitat Valenciana 11 Extremadura 19,10 = (x 6 ) 12 Galicia 13 Madrid, Comunidad de 14 Murcia, Región de 20,43 = (x 5 ) 15 Navarra, Comunidad Foral de 16 País Vasco 17 Rioja, La

Es decir:

x 1 = 23,85; x 2 = 22,13; x 3 = 18,93; x 4 = 21,07; x 5 = 20,43; x 6 = 19,

El valor del estadístico muestral:

݃ ଵ ܺሺ (^) ଵ ܺ , (^) ଶ , … ,ܺ (^) ଺ ሻ ൌ ܺ

ଵ ܺ൅^ ଶ ൅ ⋯ ൅ܺ^ ଺

6

23,85 ൅ 22,13 ൅ 18,93 ൅ 21,07 ൅ 20,43 ൅ 19,

6

125,

6

ൌ 20,

Este valor, promedio de las ganancias de las regiones que componen de la muestra, es una

estimación del valor real del parámetro desconocido ‘ ganancia media de la población’. Dicha

estimación es una aproximación al valor del parámetro, no va a coincidir necesariamente con él.

Si posteriormente, se averigua que el valor de la media poblacional es de 21,67, el error

cometido al de la media muestral será 0,75. Se denomina error muestral a la diferencia entre el

valor del estadístico muestral y el valor real del parámetro a estimar. En este caso:

Error muestral = X - μ

Este error se produce como consecuencia de trabajar con una parte de la población y no con

todos sus elementos.

1.4. DISTRIBUCIÓN MUESTRAL DE ESTADÍSTICOS

Un estadístico muestral, como toda variable aleatoria, tiene asociada una distribución de

probabilidad, que dependerá de la distribución de la población, del tamaño de la muestra y de

que sean conocidos o desconocidos otros parámetros poblacionales, y que denominaremos

distribución muestral del estadístico.

Parámetro y estadístico son conceptos diferentes. Mientras el parámetro es una constante

que una vez conocida determina completamente el modelo probabilístico, el estadístico es una

variable aleatoria cuyo valor dependerá de las observaciones muestrales. Así si la medida

En los epígrafes siguientes se muestran las distribuciones de los estadísticos muestrales a

utilizar en los procedimientos de inferencia que se desarrollan en los temas siguientes.

La tabla adjunta muestra un resumen de las distribuciones de dichos estadísticos:

Parámetro de interés Estadístico Muestral

Distribucion Estadístico Muestral Media de una N(μ, σ ): μ  σ^2 conocida

Media

n

X X

n

i

i  ^1

  

   

  n

X N

 ,

Media de una N(μ, σ ): μ  σ^2 desconocida  n≥ 30

Media

n

X X

n

i

i  ^1

 

 

 

  n

S X N

ˆ ,

Media de una N(μ, σ ): μ  σ^2 desconocida  n<

Media

n

X X

n

i

i   1

ˆ ^ ^ ^1 

tn

n

S

X

Varianza de una N(μ, σ ): σ^2  μ desconocida  n<

Varianza

 

1

ˆ 1

2 2 

 

n

X X S

n

i

i

 

2 2 1

1 ˆ^2  

n

n S  

Varianza de una N(μ, σ ): σ^2  μ conocida n<

Varianza

 

n

X

n

i

i

  1

2

ˆ^2

 

 

2 2

2 ˆ n

n  

 

Diferencia de medias poblaciones normales:  (^) X   Y

 2 2  X ,  Y conocidas

Diferencia de medias XY

   Y

Y

X

X X Y n n

N

2 2 ,

   

Diferencia de medias poblaciones normales:  (^) X   Y

 2 2  X ,  Y desconocidas  nXnY  30

Diferencia de medias XY

   Y

Y

X

X X Y n

S

n

S N

ˆ^2 ˆ^2  ,

Diferencia de medias poblaciones normales:  (^) X   Y

 (^)  (^2) X   Y^2 desconocidas  nXnY  30

Diferencia de medias XY

     

2

1 ˆ^21 ˆ^2 2

2 2 2

 

   

   

X Y

X X Y Y p

nn

Y

p

X

p

X Y

n n

n S n S S

t

n

S

n

S

X Y X Y

 

Diferencia de medias poblaciones normales:  (^) X   Y

  (^2) X   Y^2 desconocidas  n (^) XnY  30 Diferencia de medias XY

     

1

ˆ

1

ˆ

ˆ ˆ

ˆ ˆ

2 2 2 2

2 2 2

2 2

 

 

 

 

 

 

 

 

 

 

  

Y

Y

Y

X

X

X

Y

Y

X

X

v

Y

Y

X

X

X Y

n

n

S

n

n

S

n

S

n

S

v

t

n

S n

S

X Y  

Diferencia de varianzas

poblaciones normales: (^2)

2

Y

X

X Y  ,  desconocidas  nXnY  30

Diferencia de varianzas 2

2

ˆ

ˆ

Y

X S

S 2  1  1 

2

2

2 : ˆ

ˆ  (^) nXnYY

X

Y

X F S

S

1.4.1. DISTRIBUCIÓN MUESTRAL DE LA MEDIA DE LA MUESTRA

a) Con parámetro varianza, σ^2 , conocido

Sea una población normal en la que se analiza una determinada característica, X, de la que

se obtiene una muestra aleatoria ( X 1 (^) , X (^) 2 , , Xn )definimos el estadístico media de la muestra

como:

n

X

X

n

i

 i

 

1

Siendo E(X (^) i ) = E(X) = μ y Var(X (^) i ) = Var(X) = σ^2

(Media y varianza de la población)

Al estar todas las observaciones de la muestra distribuidas según el comportamiento de la

población, el valor esperado de la media muestral será:

   

n

n

n n

E X

n

E X

n

X

E X E

n

i 1

n

i 1

n

i 1

i

n

i 1

i

Esto es, por término medio la media de la muestra es igual al valor real del parámetro

media. Tanto la distribución poblacional como la muestral tienen el mismo valor medio.

La varianza muestral será.

n n

n

n n

VarX

n

Var X

n

X

VarX Var

2

2

2

2

2

n

i 1 2

n

i 1 2

n

i 1

i

n

i 1

i

   

La varianza de la media muestral sólo coincidirá con la varianza de la población si el

tamaño de la muestra es 1. A medida que el tamaño muestral aumente, disminuirá la magnitud

de la varianza muestral tendiendo a cero en el límite.

A la desviación típica ó estándar del estadístico X se le llama error estándar de la media :

2

d e. .( X ) n (^) n

   

Si (^ X 1^ ,^ X^ 2 ,^ ,^ Xn ), una muestra aleatoria simple de tamaño n , procede de una población

N (  ,  ), la distribución del estadístico media muestral tendrá una distribución normal

n

X N

n

X

X

n

i

i  ; ,

1

Y como consecuencia:

X

Z N

n

.

La probabilidad buscada es del 80,98 por ciento.

Ejemplo 2: La ganancia media anual por comunidad autónoma en nuestro país es una

variable que se aproxima a una distribución Normal. Siendo la media nacional de 21,67 miles

euros, con una desviación estándar de 2,063 miles de euros. Si se analiza una muestra aleatoria

de 6 comunidades autónomas, calcule:

  1. La probabilidad de que la ganancia media anual sea superior a 23,40 miles de euros.

  2. ¿Cuál debe ser el tamaño muestral para que con una probabilidad del 95 por ciento, la

ganancia media muestral no difiera de la poblacional en más de 0,5 miles de euros?

Información a tener en cuenta del ejercicio:

3) Población: 4) Muestra:

1_1) X: Ganancia media anual de las CC.AA.

1-2) X  N ( 21 , 67 ; 2 , 063 )

1-3) P. F: 2 2  x  21 , 67 ;  x  2 , 063

1_1) X (^) i: Ganancia media anual de las CC.AA.

 i : 1 ,, 6

1-2) X (^) iN ( 21 , 67 ; 2 , 063 ),i

1-3) E.M:

ˆ^2

X ; S

Se ha de averiguar P^ ^ X ^23 ,^40 .

La distribución del estadístico muestral es:

; N 21 , 67 ;

n

X N ^ 

Por consiguiente, habrá que transformar a una ZN ( 0 , 1 )

 0 ; 1 

N

X

n

X

Z 

 

 2  1  2  1 0 , 9772 0 , 0228

X X

PZ PZ

n

X

PX P

La probabilidad de que la media de la muestra sea mayor que 23,40 es del 2,28 por ciento.

  1. A continuación se va a resolver la segunda cuestión: determinar el tamaño de muestra

‘n’ necesario para que se cumpla el requisito que establece el problema:

Para encontrar el valor de n es necesario resolver la siguiente probabilidad:

PX   0 , 5   P   0 , 5  X  0 , 5 

La distribución muestral del estadístico será:

; N 21 , 67 ;

n

X N ^ 

En este caso n es, lógicamente, desconocida

   

n n

X

n

P

P X P X

n

 0 , 5

n   2

2 2

n   n  65 , 41  66

El tamaño muestral requerido para que la diferencia entre el valor real del parámetro

media y el del estadístico muestral sea inferior a 0,5 será de 66 observaciones.

1.4.2. DISTRIBUCIÓN MUESTRAL DE LA VARIANZA DE LA MUESTRA.

Sea una población normal en la que se analiza una determinada característica poblacional

X, de la que se obtiene una muestra aleatoria ( X 1 (^) , X (^) 2 , , Xn )El estadístico varianza muestral

viene dado por:

 

2

i 2

n 1

X X

(1)

En el ámbito teórico este estadístico no es de utilidad directa para realizar inferencias, sin

embargo sí que la tiene una proporción del mismo. Según el teorema de Fisher:

  2 n 1

2

2

n

i 1

Xi X

∑ -

(2)

De la expresión (1) se deduce:

   

n^2

i 1

i

2 S X X

n 1 ∑ - 

Dividiendo ambos términos por el parámetro varianza de la población, se obtiene:

 

  2 n 1

2

2

n

i 1

i

2

2 X X

S

n 1

  

∑ -

Es decir, que el estadístico varianza de la muestra puede transformarse a una Chi-cuadrado

de n-1 grados de libertad al multiplicarse por el término constante

  2

n 1

  (^) 2 2 n^1

2 n 1 Sˆ  

 

(4)

Al despejar el estadístico

2 Sˆ^ de la expresión (4), cómo:

n 1

Sˆ^

2 n 1

2 2

(5)

   

2 1

2 n 1

2 n

2 1

2

2 n 1

2

n^2

i 1

i

2 n

n

i 1

2 i n X

X X

X

  

 

  

    

      

∑ -

Y como:

    2

2

2

n^2

i 1

i n 1 Sˆ

X X

∑ -

;

  (^) 2 2 n^1

2 S

n 1  

 

Ejemplo: Si de una población Normal (0, 1) se extrae una muestra de 24 individuos. ¿Cuál

es la probabilidad de que la relación entre las varianzas muestral y poblacional no supere a 1,40?

Información a tener en cuenta del ejercicio:

5) Población: 6) Muestra:

1_1) X: …

1-2) (^) XN ( 0 ; 1 )

1-3) P. F: 0 ; 1

2  x   x

1_1) X (^) i: …,i : 1 ,, 24

1-2) X i  N ( 0 ; 1 ), i

1-3) E.M:

ˆ^2

X ; S

La probabilidad a resolver es: 

2

2

S

P

Transformaremos el estadístico 2

ˆ^2

S

al estadístico

  2

ˆ^2

nS cuyo modelo de distribución es

conocido,

2  (^) n  1 ..

   32 , 2  0 , 90 1

2 2 23

2

2

2    

P

n S P

S

P

La probabilidad buscada es del 90 por ciento

1.4.3. DISTRIBUCIÓN MUESTRAL DE LA MEDIA DE LA MUESTRA

CUANDO NO SE CONOCE LA VARIANZA POBLACIONAL

b) Con parámetro varianza, σ^2 , desconocido y n≥ 30

Sea una población normal en la que se analiza una determinada variable, X, de la que se

obtiene una muestra aleatoria (^ X 1^ ,^ X^ 2 ,^ ,^ Xn ). La mayoría de las veces el parámetro varianza

poblacional es un valor desconocido; al disponer de una muestra aleatoria de tamaño n

podemos calcular la varianza muestral

ˆ^2

S y utilizarla en lugar del parámetro varianza

desconocido.

Cuando el tamaño de la muestra es grande, n^ ^30 , el estadístico media muestral sigue

una distribución normal. En este caso: 

 

n

; X N ,

n

X

X

n

i 1

i

Y por tanto: N( 0 , 1 )

n

S

X

, usamos ^ por ser el parámetro

2  desconocido.

b) Con parámetro varianza, σ^2 , desconocido y n<

Sin embargo, cuando el tamaño de la muestra es pequeño, n<30, los valores de la varianza

muestral tienen mayor variación de muestra en muestra y la distribución del estadístico no es de

tipo normal, aunque tiende a normal.

Con el objeto de obtener una expresión en la que no aparezca la varianza poblacional

consideramos conjuntamente las dos distribuciones siguientes:

N( 0 , 1 )

n

X

y

  (^) 2 2 n^1

2 S

n 1  

 

Definimos la siguiente variable por cociente de las dos anteriores:

 

 

n 1

2

2

t

n

S

X

n 1

n 1 Sˆ

n

X

Ejemplo: El volumen de gastos en innovación tecnológica de las empresas del sector

alimentario a nivel nacional tiene asociada una distribución Normal con un volumen medio de

77 millones de euros. Si se dispone de una muestra aleatoria relativa de 27 empresas del sector,

que poseen un volumen medio de gastos en innovación de 74 millones de euros con una

desviación estándar muestral de 5,1 millones de euros. Determine la probabilidad de que el

gasto medio muestral esté comprendido entre 75 y 78 millones de euros.

Información a tener en cuenta del ejercicio:

7) Población: 8) Muestra:

1_1) X: Gastos innov

1-2) X^  N (^77 ;^ )

1-3) P. F:

2

  77 ;  desconocido

1_1) X (^) i: Gastos innov,i : 1 ,, 27

1-2) X i  N ( 77 ; ), i

1-3) E.M: 74 ; ˆ 26 , 01

2 XexSex

  1. Se ha de averiguar P  75  X  78 .

La distribución del estadístico muestral es:

1 ˆ

tn

n

S

X 

, pues la varianza de la población es desconocida y n<

Por consiguiente, habrá que transformar a una t (^) 26:

La probabilidad de que la media de la muestra tome valores comprendidos entre 75 y 78 es

del 82,5 por ciento.