Estadística tema 9 - Apuntes de Estadística

ESTADÍSTICA INFERENCIAL __________________________________________________________ BONDAD DE AJUSTE

Mª del Mar González-Tablas Sastre 72

9 TÉCNICAS NO PARAMÉTRICAS: BONDAD DE AJUSTE

La Estadística Inferencial en sus inicios, parte de unos supuestos muy rígidos como son:

Normalidad de la población, tamaño muestral grande, homogeneidad y variable cuantitativa

continua. Todas las técnicas que permiten contrastar hipótesis basadas en estos supuestos reciben el

nombre de Paramétricas. La necesidad de tener pruebas potentes que no se vieran restringidas por

supuestos difíciles de alcanzar por los datos empíricos dio lugar al desarrollo de nuevas técnicas

estadísticas que no suponen la concurrencia de una distribución subyacente y se denominan

técnicas no paramétricas o de distribución libre.

El mayor desarrollo de los métodos estadísticos no paramétricos, se produjo a mediados del

S. XX. Sus inicios fueron dispersos, encontrando resultados en R. Fisher, C. Spearman, M.

Friedman, E. Pitman , H. Hotelling, etc. El trabajo desarrollado en paralelo por F. Wilcoxon y por

H.B. Mann y D.R. Whitney marca el comienzo de su intenso desarrollo moderno.

En este curso vamos a ver sólo una técnica no paramétrica: la técnica de bondad de ajuste χ2.

9.1 Técnica de bondad de ajuste χ2

Dentro de las técnicas no paramétricas de bondad de ajuste, la de χ2 es una de las más

utilizadas. Es una técnica de contrastación de hipótesis. Como hipótesis se plantea una forma de

distribución explicitada para la población de donde se extraen los datos. Esta distribución puede ser

de cualquier de forma, aunque la hipótesis más habitual suele ser para contrastar que los datos

provienen de una población normalmente distribuida.

Pasos a seguir:

1.- Planteamiento de la hipótesis. Es un proceso en cierta manera laborioso porque supone

hacer explicita la distribución que teóricamente creemos tiene la población. Dicha población puede

estar medida en una escala cualitativa o cuantitativa, tanto continua como discreta. La técnica sin

embargo, va a tratar a la variable siempre como si fuera cualitativa.

Ejemplos de planteamiento de hipótesis:

- La distribución del color de los ojos de los españoles es un 25% negros, un 40% marrones,

un 15% azules, un 10% verdes y un 10% de otros colores. La definición de la población tiene que

establecer categorías que sean exhaustivas y mutuamente excluyentes, de tal manera que ninguno

de los valores pueda estar clasificado en dos categorías o haya algún valor que no sea clasificable.

- Un ejemplo para variable cuantitativa discreta sería: La distribución de la población de

estudiantes universitarios en autoestima medido por la escala X es: el valor 1 se da en el 3% de la

población, el valor 2 en el 15% , el valor 3 en el 40%, el valor 4 en el 40% y el 5 en el 2%. Las

Vista previa parcial del texto

¡Descarga Estadística tema 9 y más Apuntes en PDF de Estadística solo en Docsity!

9 TÉCNICAS NO PARAMÉTRICAS: BONDAD DE AJUSTE

La Estadística Inferencial en sus inicios, parte de unos supuestos muy rígidos como son:

Normalidad de la población, tamaño muestral grande, homogeneidad y variable cuantitativa

continua. Todas las técnicas que permiten contrastar hipótesis basadas en estos supuestos reciben el

nombre de Paramétricas. La necesidad de tener pruebas potentes que no se vieran restringidas por

supuestos difíciles de alcanzar por los datos empíricos dio lugar al desarrollo de nuevas técnicas

estadísticas que no suponen la concurrencia de una distribución subyacente y se denominan

técnicas no paramétricas o de distribución libre.

El mayor desarrollo de los métodos estadísticos no paramétricos, se produjo a mediados del

S. XX. Sus inicios fueron dispersos, encontrando resultados en R. Fisher, C. Spearman, M.

Friedman, E. Pitman , H. Hotelling, etc. El trabajo desarrollado en paralelo por F. Wilcoxon y por

H.B. Mann y D.R. Whitney marca el comienzo de su intenso desarrollo moderno.

En este curso vamos a ver sólo una técnica no paramétrica: la técnica de bondad de ajuste χ^2.

9.1 Técnica de bondad de ajuste χ^2

Dentro de las técnicas no paramétricas de bondad de ajuste, la de χ^2 es una de las más

utilizadas. Es una técnica de contrastación de hipótesis. Como hipótesis se plantea una forma de

distribución explicitada para la población de donde se extraen los datos. Esta distribución puede ser

de cualquier de forma, aunque la hipótesis más habitual suele ser para contrastar que los datos

provienen de una población normalmente distribuida.

Pasos a seguir:

1.- Planteamiento de la hipótesis. Es un proceso en cierta manera laborioso porque supone

hacer explicita la distribución que teóricamente creemos tiene la población. Dicha población puede

estar medida en una escala cualitativa o cuantitativa, tanto continua como discreta. La técnica sin

embargo, va a tratar a la variable siempre como si fuera cualitativa.

Ejemplos de planteamiento de hipótesis:

- La distribución del color de los ojos de los españoles es un 25% negros, un 40% marrones,

un 15% azules, un 10% verdes y un 10% de otros colores. La definición de la población tiene que

establecer categorías que sean exhaustivas y mutuamente excluyentes, de tal manera que ninguno

de los valores pueda estar clasificado en dos categorías o haya algún valor que no sea clasificable.

- Un ejemplo para variable cuantitativa discreta sería: La distribución de la población de

estudiantes universitarios en autoestima medido por la escala X es: el valor 1 se da en el 3% de la

población, el valor 2 en el 15% , el valor 3 en el 40%, el valor 4 en el 40% y el 5 en el 2%. Las

condiciones que debe cumplir la escala ordinal deben ser las mismas, puesto que se consideran

como categorías, es decir deben ser exhaustivas y mutuamente excluyentes.

Ejemplo para variable cuantitativa continua: Los datos proceden de una población

normalmente distribuida con media 21,5 y desviación típica 11

Ho: ∀ Xi ∈ N(21,5; 11 2 )

En los dos primeros ejemplos las hipótesis están perfectamente especificadas, mientras que en

la tercera la hipótesis hay que hacerla explícita. Vamos a seguir con el primer ejemplo.

9.1.1 Ejemplo 1

La distribución del color de los ojos de los españoles es un 25% negros, un 40% marrones, un

15% azules, un 10% verdes y un 10% de otros colores. En una muestra de tamaño n=500 se han

obtenido las frecuencias que se recogen en la Tabla 9.1. ¿La muestra procede de la población de

color de ojos de los españoles? α=0,

Tabla 9. 1 Frecuencias observadas del color de ojos en una muestra de tamaño n= Xi=color de ojos f. observada Negros 132 Marrones 218 Azules 70 Verdes 42 Otros 38 500

1º Se hace explícita la hipótesis y se decide el tamaño de muestra a utilizar (Tabla 9.1). Este

tamaño de muestra viene determinado en primer lugar porque no puede superar el 5% de la

población para poder considerar a esta como infinita, y en segundo lugar por las condiciones que

impone un modelo χ^2 (ninguna frecuencia teórica puede ser 0 y las frecuencias teóricas no deben

ser inferiores a 5, en caso de no ser posible, sólo se admite un máximo de un 25% de frecuencias

teóricas inferiores a 5). En nuestro ejemplo decidimos una muestra de tamaño n=500.

Tabla 9. 2 Distribución teórica de la población propuesta para la hipótesis según el tamaño muestral

Xi=color de ojos Porcentaje f. teórica Negros 25% 125 Marrones 40% 200 Azules 15% 75 Verdes 10% 50 Otros 10% 50 100% 500

2º Extraemos de la población una muestra, de forma aleatoria, de tamaño n=500.

3º Las frecuencias observadas en cada una de las categorías son (Tabla 9.2):

Tabla 9. 5 Frecuencias observadas en la muestra Xi 1 2 3 4 5 Frecuencia observada 50 100 95 60 45

1º Igual que hicimos en el caso anterior empezamos haciendo explícita la hipótesis y

decidiendo que el tamaño de muestra sea igual a n=350.

Tabla 9. 6 Distribución teórica de la población propuesta para la hipótesis según el tamaño muestral

Xi=valores Porcentaje f. teórica 1 20% 70, 2 35% 122, 3 20% 70, 4 15% 52, 5 10% 35, 100% 350

2º Extraemos de la población una muestra, de forma aleatoria, de tamaño n=

3º Las frecuencias observadas en cada una de las categorías son:

Tabla 9. 7 Distribuciones teórica de la población y observada en la muestra

Xi=valores Porcentaje f. Teórica f. observada 1 20% 70,0 50 2 35% 122,5 100 3 20% 70,0 95 4 15% 52,5 60 5 10% 35,0 45 100% 350 350

4º Contraste de hipótesis. Utilizamos la distribución χ^2 con número de niveles o de categorías

menos uno grados de libertad, es decir χ^24. Ahora transformamos los valores de frecuencia a la

escala χ^24. Para ello utilizamos la ecuación: χ^2 c-1=Σ[(fo - ft) 2 /ft]

Tabla 9. 8 Procedimiento de transformación a valores Chi-cuadrado

Xi=valores Porcentaje ft fo (fo – ft)^2 (fo – ft)^2 /ft 1 20% 70,0 50 400,00 5, 2 35% 122,5 100 506,25 4, 3 20% 70,0 95 625,00 8, 4 15% 52,5 60 56,25 1, 5 10% 35,0 45 100,00 2, 100% 350,0 350 χ^24 =22,

El estadístico de contraste es χ^24 =22,70. Acudimos a tablas de χ^24 con un nivel de confianza

del 1% y obtendremos los puntos críticos de χ^24 correspondiente a los percentiles 0,5 y 99,5.

4 =0,207^ 0,995 χ

Acudiendo a tablas de χ^24 =22,70, vemos que supera el percentil 99,9, luego el área que dejará

por encima de sí será menor que 0,001. Como estamos en una prueba de dos colas la probabilidad

asociada será menor que 0,001·2, es decir, menor que 0,002.

5º Decisión: Rechazar Ho

6º Conclusión: Como se ha controlado la probabilidad de cometer Error Tipo I, nuestros datos

nos permiten afirmar que la muestra procede de una población diferente a la planteada.

pa<0,002<α

9.1.3 Ejemplo 3

¿Los datos proceden de una población normalmente distribuida con media 21,5 y desviación

típica 11, si en una muestra de tamaño n=700 se han obtenido las frecuencias que se recogen en la

Tabla 9.9? α=0,05.

Tabla 9. 9 Frecuencias observadas en la muestra

fo 0 55 92 120 120 92 75 76 48 19 3

En este caso la hipótesis Ho: ∀ Xi ∈ N(21,5; 11 2 ) hay que hacerla explícita. Desconocemos las

frecuencias teóricas que corresponden a cada intervalo o categoría y habrá que recurrir a áreas bajo

la distribución normal para determinarlas.

En general se suelen aceptar entre 11 y 14 intervalos como adecuados para una prueba de

bondad de ajuste, teniendo presente que la frecuencia teórica, aunque nunca va a ser cero, puede

darnos un porcentaje muy elevado de frecuencias inferiores a 5 si el tamaño de muestra no es

suficientemente grande. Una vez fijado el número de intervalos, se determina el tamaño de muestra,

disminuyendo el número de intervalos en el caso de que haya muchas categorías con frecuencias

teóricas inferiores a 5.

Hay que tener en cuenta el rango de la variable, de tal manera que la puntuación más

baja se situaría en la distribución normal estandarizada en z= -∞ y la puntuación más alta se situaría

en la distribución normal estandarizada en z= +∞. Para transformar a valores z se utilizan los

valores de parámetro según la hipótesis: μ =21,5; σ =11.

1º Se hace explícita la hipótesis y se decide el tamaño de muestra a utilizar (n=700).

Tabla 9. 10 Distribución teórica de la población propuesta para la hipótesis según el tamaño muestral

Xi z P acum. P ocurrencia ft 0–5,62 - ∞–-1,44 0,075 0,075 52, 5,62–10,65 -1,44–-0,98 0,161 0,086 60, 10,65–15,69 -0,98–-0,53 0,298 0,137 95,

Estadística tema 9, Apuntes de Estadística

Documentos relacionados

Vista previa parcial del texto

¡Descarga Estadística tema 9 y más Apuntes en PDF de Estadística solo en Docsity!

9 TÉCNICAS NO PARAMÉTRICAS: BONDAD DE AJUSTE

La Estadística Inferencial en sus inicios, parte de unos supuestos muy rígidos como son:

Normalidad de la población, tamaño muestral grande, homogeneidad y variable cuantitativa

continua. Todas las técnicas que permiten contrastar hipótesis basadas en estos supuestos reciben el

nombre de Paramétricas. La necesidad de tener pruebas potentes que no se vieran restringidas por

supuestos difíciles de alcanzar por los datos empíricos dio lugar al desarrollo de nuevas técnicas

estadísticas que no suponen la concurrencia de una distribución subyacente y se denominan

técnicas no paramétricas o de distribución libre.

El mayor desarrollo de los métodos estadísticos no paramétricos, se produjo a mediados del

S. XX. Sus inicios fueron dispersos, encontrando resultados en R. Fisher, C. Spearman, M.

Friedman, E. Pitman , H. Hotelling, etc. El trabajo desarrollado en paralelo por F. Wilcoxon y por

H.B. Mann y D.R. Whitney marca el comienzo de su intenso desarrollo moderno.

En este curso vamos a ver sólo una técnica no paramétrica: la técnica de bondad de ajuste χ^2.

9.1 Técnica de bondad de ajuste χ^2

Dentro de las técnicas no paramétricas de bondad de ajuste, la de χ^2 es una de las más

utilizadas. Es una técnica de contrastación de hipótesis. Como hipótesis se plantea una forma de

distribución explicitada para la población de donde se extraen los datos. Esta distribución puede ser

de cualquier de forma, aunque la hipótesis más habitual suele ser para contrastar que los datos

provienen de una población normalmente distribuida.

Pasos a seguir:

1.- Planteamiento de la hipótesis. Es un proceso en cierta manera laborioso porque supone

hacer explicita la distribución que teóricamente creemos tiene la población. Dicha población puede

estar medida en una escala cualitativa o cuantitativa, tanto continua como discreta. La técnica sin

embargo, va a tratar a la variable siempre como si fuera cualitativa.

Ejemplos de planteamiento de hipótesis:

- La distribución del color de los ojos de los españoles es un 25% negros, un 40% marrones,

un 15% azules, un 10% verdes y un 10% de otros colores. La definición de la población tiene que

establecer categorías que sean exhaustivas y mutuamente excluyentes, de tal manera que ninguno

de los valores pueda estar clasificado en dos categorías o haya algún valor que no sea clasificable.

- Un ejemplo para variable cuantitativa discreta sería: La distribución de la población de

estudiantes universitarios en autoestima medido por la escala X es: el valor 1 se da en el 3% de la

población, el valor 2 en el 15% , el valor 3 en el 40%, el valor 4 en el 40% y el 5 en el 2%. Las

condiciones que debe cumplir la escala ordinal deben ser las mismas, puesto que se consideran

como categorías, es decir deben ser exhaustivas y mutuamente excluyentes.

normalmente distribuida con media 21,5 y desviación típica 11

Ho: ∀ Xi ∈ N(21,5; 11 2 )

En los dos primeros ejemplos las hipótesis están perfectamente especificadas, mientras que en

la tercera la hipótesis hay que hacerla explícita. Vamos a seguir con el primer ejemplo.

La distribución del color de los ojos de los españoles es un 25% negros, un 40% marrones, un

15% azules, un 10% verdes y un 10% de otros colores. En una muestra de tamaño n=500 se han

obtenido las frecuencias que se recogen en la Tabla 9.1. ¿La muestra procede de la población de

color de ojos de los españoles? α=0,

1º Se hace explícita la hipótesis y se decide el tamaño de muestra a utilizar (Tabla 9.1). Este

tamaño de muestra viene determinado en primer lugar porque no puede superar el 5% de la

población para poder considerar a esta como infinita, y en segundo lugar por las condiciones que

impone un modelo χ^2 (ninguna frecuencia teórica puede ser 0 y las frecuencias teóricas no deben

ser inferiores a 5, en caso de no ser posible, sólo se admite un máximo de un 25% de frecuencias

teóricas inferiores a 5). En nuestro ejemplo decidimos una muestra de tamaño n=500.

2º Extraemos de la población una muestra, de forma aleatoria, de tamaño n=500.

3º Las frecuencias observadas en cada una de las categorías son (Tabla 9.2):

1º Igual que hicimos en el caso anterior empezamos haciendo explícita la hipótesis y

decidiendo que el tamaño de muestra sea igual a n=350.

2º Extraemos de la población una muestra, de forma aleatoria, de tamaño n=

3º Las frecuencias observadas en cada una de las categorías son:

4º Contraste de hipótesis. Utilizamos la distribución χ^2 con número de niveles o de categorías

menos uno grados de libertad, es decir χ^24. Ahora transformamos los valores de frecuencia a la

escala χ^24. Para ello utilizamos la ecuación: χ^2 c-1=Σ[(fo - ft) 2 /ft]

El estadístico de contraste es χ^24 =22,70. Acudimos a tablas de χ^24 con un nivel de confianza

del 1% y obtendremos los puntos críticos de χ^24 correspondiente a los percentiles 0,5 y 99,5.

4 =0,207^ 0,995 χ

Acudiendo a tablas de χ^24 =22,70, vemos que supera el percentil 99,9, luego el área que dejará

por encima de sí será menor que 0,001. Como estamos en una prueba de dos colas la probabilidad

asociada será menor que 0,001·2, es decir, menor que 0,002.

5º Decisión: Rechazar Ho

6º Conclusión: Como se ha controlado la probabilidad de cometer Error Tipo I, nuestros datos

nos permiten afirmar que la muestra procede de una población diferente a la planteada.

pa<0,002<α

¿Los datos proceden de una población normalmente distribuida con media 21,5 y desviación

típica 11, si en una muestra de tamaño n=700 se han obtenido las frecuencias que se recogen en la

Tabla 9.9? α=0,05.

En este caso la hipótesis Ho: ∀ Xi ∈ N(21,5; 11 2 ) hay que hacerla explícita. Desconocemos las

frecuencias teóricas que corresponden a cada intervalo o categoría y habrá que recurrir a áreas bajo

la distribución normal para determinarlas.

En general se suelen aceptar entre 11 y 14 intervalos como adecuados para una prueba de

bondad de ajuste, teniendo presente que la frecuencia teórica, aunque nunca va a ser cero, puede

darnos un porcentaje muy elevado de frecuencias inferiores a 5 si el tamaño de muestra no es