Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


anova un factor de matematica, Apuntes de Estadística Matemática

anova para estadistica, axiliará en la investigacion

Tipo: Apuntes

2018/2019

Subido el 03/02/2019

orlando-sevillano
orlando-sevillano 🇵🇪

4

(1)

3 documentos

1 / 10

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
1
Anova un factor y Kruskal-Wallis
Introducción
El análisis de la varianza (Anova) se debe al estadístico-genético Sir Ronald Aylmer Fisher (1890-1962),
autor del libro "Statistics Methods for Research Workers" publicado en 1925 y pionero de la aplicación
de métodos estadísticos en el diseño de experimentos, introduciendo el concepto de aleatorización.
El Anova se puede utilizar en las situaciones en las que nos interesa analizar una respuesta cuantitativa,
llamada habitualmente variable dependiente, medida bajo ciertas condiciones experimentales
identificadas por una o más variables categóricas (por ejemplo tratamiento, sexo), llamadas variables
independientes. Cuando hay una sola variable que proporciona condiciones experimentales distintas, el
análisis recibe el nombre de Anova de un factor.
Entre las pruebas de comparación múltiples a posteriori, que se utilizan a continuación de las técnicas
del Anova, se encuentra la prueba HSD de Tukey. John Tukey es, asímismo, conocido por introducir la
transformación rápida de Fourier, aunque trabajó en muchas áreas incluyendo sobre todo la filosofía de
la estadística.
Cuando el análisis de la varianza no es aplicable debido a incumplimientos de las suposiciones del modelo,
es necesario aplicar la prueba de Kruskal-Wallis para el contraste de k medianas. Esta prueba es una
ampliación de la prueba de Mann-Whitney-Wilcoxon para dos medianas.
La prueba de Kruskal-Wallis fue propuesta por William Henry Kruskal (1919- ) y W. Allen Wallis (1912-
1998) en el artículo "Use of ranks in one-criterion variance analysis" publicado en el “Journal of
American Statistics Association” en 1952.
R. A. Fisher
John Tukey
William H. Kruskal W. Allen Wallis
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga anova un factor de matematica y más Apuntes en PDF de Estadística Matemática solo en Docsity!

Anova un factor y Kruskal-Wallis

Introducción

El análisis de la varianza (Anova) se debe al estadístico-genético Sir Ronald Aylmer Fisher (1890-1962), autor del libro "Statistics Methods for Research Workers" publicado en 1925 y pionero de la aplicación de métodos estadísticos en el diseño de experimentos, introduciendo el concepto de aleatorización.

El Anova se puede utilizar en las situaciones en las que nos interesa analizar una respuesta cuantitativa, llamada habitualmente variable dependiente, medida bajo ciertas condiciones experimentales identificadas por una o más variables categóricas (por ejemplo tratamiento, sexo), llamadas variables independientes. Cuando hay una sola variable que proporciona condiciones experimentales distintas, el análisis recibe el nombre de Anova de un factor.

Entre las pruebas de comparación múltiples a posteriori, que se utilizan a continuación de las técnicas del Anova, se encuentra la prueba HSD de Tukey. John Tukey es, asímismo, conocido por introducir la transformación rápida de Fourier, aunque trabajó en muchas áreas incluyendo sobre todo la filosofía de

la estadística. Cuando el análisis de la varianza no es aplicable debido a incumplimientos de las suposiciones del modelo, es necesario aplicar la prueba de Kruskal-Wallis para el contraste de k medianas. Esta prueba es una ampliación de la prueba de Mann-Whitney-Wilcoxon para dos medianas.

La prueba de Kruskal-Wallis fue propuesta por William Henry Kruskal (1919- ) y W. Allen Wallis (1912-

  1. en el artículo "Use of ranks in one-criterion variance analysis" publicado en el “Journal of

American Statistics Association” en 1952.

R. A. Fisher John Tukey

William H. Kruskal W. Allen Wallis

Fórmulas básicas

En el análisis de la varianza, la variación en la respuesta se divide en la variación entre los diferentes niveles del factor (los diferentes tratamientos) y la variación entre individuos dentro de cada nivel. Suponiendo que las medias de los grupos son iguales, la variación entre grupos es comparable a la variación entre individuos. Si la primera es mucho mayor que la segunda, puede indicar que las medias en realidad no son iguales.

El objetivo principal del Anova es contrastar si existen diferencias entre las diferentes medias de los niveles de las variables (factores). Cuando sólo hay dos medias, el Anova es equivalente a la prueba t- Student para el contraste de dos medias.

La variación observada en la respuesta se asume que es debida al efecto de las variables categóricas, aunque también se asume que existe cierto error aleatorio independiente que explica la variación residual. Se asume también que dicho error aleatorio sigue una distribución normal con media 0 y varianza constante. Estas asunciones son análogas a las exigidas para la prueba t-Student para contrastar la igualdad de dos medias, donde se asumía normalidad de la respuesta en cada grupo e igualdad de varianzas (contrastada mediante la F-Snedecor).

Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediante el estudio de los residuos (valores predichos - valores observados): normalidad, tendencias, etc. y la realización de un contraste de homocedasticidad (homogeneidad de varianzas entre los grupos).

Para el estudio de la normalidad de los errores, se puede recurrir al estudio de la normalidad de cada grupo (al igual que en la prueba t-Student) pero no es recomendable, debido a que puede requerir un gran número de pruebas. La solución utilizada habitualmente es el estudio del gráfico de dispersión entre los residuos y los valores predichos. Este gráfico permite estudiar la simetría, si existen patrones de comportamiento, la independencia entre observaciones y tendencias en general. Si se observa algún comportamiento de los mencionados, el modelo no es válido y se debe cambiar de modelo, de técnica estadística o transformar las variables.

Uno de los posibles contrastes para la homocedasticidad es la prueba de Barlett propuesta por Barlett en 1937. Esta prueba presupone que los datos provienen de variables con distribución normal. Otra alternativa menos sensible a la falta de normalidad y por este motivo recomendada por diversos autores es la prueba de Levene propuesta por Levene en 1960.

En general, el Anova es un procedimiento muy robusto que ofrece buenas aproximaciones en el caso que las premisas del modelo no se cumplan rigurosamente.

Muchas veces interesa saber qué medias difieren entre sí después de realizar el Anova. Para realizar contrastes a posterior es necesario ajustar el error alfa, y para este objetivo existen diferentes métodos, siendo la corrección de Tukey propuesta por el matemático John Tukey (1915-2000) la más habitual de todas ellas.

Los contrastes de comparaciones múltiples (o comparaciones a posteriori) proporcionan información detallada sobre las diferencias entre las medias dos a dos. Para este objetivo una primera intuición nos llevaría a realizar los correspondientes pruebas t-Student (o pruebas de Mann-Whitney-Wilcoxon para medianas) entre todas las posibles parejas de grupos. El problema reside en la repetición de múltiples contrastes. Si se tienen 5 medias, se necesitaría realizar 10 comparaciones 2 a 2 y cada una de ellas tendría un error alfa o de tipo I (probabilidad de rechazar la hipótesis nula cuando en realidad es

Cálculo de la suma de cuadrados

Las sumas de cuadrados son un paso previo para el cálculo del Anova. Si se denotan por r al número de

grupos, por nj el número de individuos en cada grupo j = 1,…,r, x .jla media de cada grupo y x ..la media

global. La suma de cuadrados entre grupos SCE, la suma de cuadrados dentro de grupos SDE y la suma de cuadrados total SCT se calculan del siguiente modo:

∑^ (^ )

=

r

j 1

2

SCE nj x.j x..

∑ ∑ (^ )^ ∑ ∑ ∑

= = = = =

r

j 1

r

j 1

2 j .j

n

i 1

2 ij

r

j 1

n

i 1

2

SCD xij x.j x n x

j j

∑∑^ (^ )

= =

r

j 1

n

i 1

2 ij ..

j

SCT x x

Utilizando la siguiente igualdad que permite expresar las desviaciones entre los datos observados xij y

la media total (“grand mean”) x ..como suma de las desviaciones de la media del grupo x .jy la media

total más las desviaciones entre los datos observados y la media del grupo, de forma que:

x ij −x..= (x .j−x..) +( xij−x.j)

se puede demostrar que SCT = SCE + SCD y por tanto la variabilidad de los datos (dada por SCT) se expresa como la suma de la variabilidad debida a los grupos (a las medias) o variabilidad explicada (dada por SCE) más la variabilidad dentro de los grupos (variabilidad residual) o variabilidad no explicada (dada por SCD).

Cálculo de los grados de libertad

Los grados de libertad entre grupos GLE, dentro de los grupos GLD y total GLT se calculan de la manera siguiente: GLE = r - 1 GLD = n - r GLT = n - 1

Cálculo de los cuadrados medios

El cuadrado medio entre grupos CME y el cuadrado medio dentro de grupos se calculan de la manera siguiente:

GLE

SCE

CME =

GLD

SCD

CMD =

Estadístico de contraste F

El estadístico de contraste para realizar la prueba Anova se construye de la forma siguiente:

CMD

CME

F =

que se distribuye según una F-Snedecor con GLE grados de libertad del numerador y GLD grados de libertad del denominador.

Cálculo del coeficiente de determinación

Una medida relativa de la variabilidad explicada por los grupos es el cociente:

SCT

SCE

R 2 =

que se denomina coeficiente de determinación , este coeficiente estará entre cero y uno. Queda claro que cuanto más próximo esté de uno, más variabilidad explica el modelo, y por tanto menos variabilidad no explicada o residual.

Tabla del Anova

La información anterior se suele disponer en forma de tabla: Suma de Cuadrados G.L. Cuadrado Medio F-valor p-valor Entre Grupos SCE GLE CME F p Dentro Grupos SCD GLD CMD Total SCT GLT

Kruskal-Wallis

La prueba de Kruskal-Wallis es el método más adecuado para comparar poblaciones cuyas distribuciones no son normales. Incluso cuando las poblaciones son normales, este contraste funciona muy bien. También es adecuado cuando las desviaciones típicas de los diferentes grupos no son iguales entre sí, sin embargo, el Anova de un factor es muy robusto y sólo se ve afectado cuando las desviaciones típicas difieren en gran magnitud.

La hipótesis nula de la prueba de Kruskal-Wallis es: H 0 : Las k medianas son todas iguales H 1 : Al menos una de las medianas es diferente

Cálculo de los rangos para cada observación

Para cada observación se le asigna el rango según el orden que ocupa la observación en el conjunto total de los datos, asignando el rango medio en caso de empates.

Cálculo de la suma de rangos Rm

Para cada grupo m = 1,…,r, siendo r el número de grupos, se define Rm como la suma de rangos de cada grupo m

Cálculo del valor medio de los rangos E[Rm] y de los rangos medios – Rm

El valor medio de los rangos E[Rm] se calcula como:

[ ]

( )

n n 1

E Rm m

y el rango medio R mcomo:

m

m m

n

R

R =

Estadístico de contraste H’

El estadístico de contraste de Kruskal-Wallis H’ se calcula como:

Ejemplos

Anova de un factor

Se tienen los siguientes datos experimentales, correspondientes a 40 individuos de los que se ha recogido información de dos variables: la variable explicativa Status es nominal y la variable respuesta Fc2 es cuantitativa. Los datos se presentan de forma que en las filas hay varios individuos para facilitar la lectura:

Fc2 Status Fc2 Status Fc2 Status Fc2 Status 155 1 144 1 126 2 120 3 154 1 136 1 160 2 126 3 148 1 134 1 136 2 116 3 132 1 142 1 158 2 142 3 126 1 138 1 142 2 144 3 132 1 140 1 134 2 112 3 156 1 136 1 148 2 116 3 138 1 165 2 146 2 120 3 158 1 148 2 126 3 122 3 144 1 128 2 128 3 132 3

Calcular la prueba Anova de comparación de medias para los datos anteriores.

Cálculo de la suma de cuadrados

Las sumas de cuadrados son un paso previo para el cálculo del Anova. Si se denotan por r al número de

grupos, por nj el número de individuos en cada grupo j = 1,…,r, x. jla media de cada grupo y x ..la media

global. La suma de cuadrados entre grupos SCE, la suma de cuadrados dentro de grupos SDE y la suma de cuadrados total SCT se calculan del siguiente modo:

SCE n x x 17 141. 9412 137. 7 11 144. 6364 137. 7

2

r 2 2

j 1

2 j .j ..

=

SCD x x x n x

2 2 2

r

j 1

r

j 1

2 j .j

n

i 1

2 ij

r

j 1

n

i 1

2 ij .j

j j

= = = = =

SCT ( x x ) SCE SCD 6878. 4

r

j 1

n

i 1

2 ij ..

j

= =

Cálculo de los grados de libertad

Los grados de libertad entre grupos GLE, dentro de los grupos GLD y total GLT se calculan de la manera siguiente: GLE = r - 1 = 2 GLD = n - r = 40 - 3 = 37 GLT = n – 1 = 40 - 1 = 39

Cálculo de los cuadrados medios

El cuadrado medio entre grupos CME y el cuadrado medio dentro de grupos se calculan de la manera siguiente:

GLE

SCE

CME = =

GLD

SCD

CMD = =

Estadístico de contraste F

El estadístico de contraste para realizar la prueba Anova se construye de la forma siguiente:

CMD

CME

F = =

que se distribuye según una F-Snedecor con GLE = 2 grados de libertad del numerador y GLD = 37 grados de libertad del denominador, que tiene asociado un p-valor de 0.

Cálculo del coeficiente de determinación

Una medida relativa de la variabilidad explicada por los grupos es el cociente:

SCT

SCE

R 2 = =

con lo que se tendría, al igual que en modelos de regresión, que el modelo Anova, o más específicamente, la variable que forma los grupos, explica un 39% de la variabilidad de la variable respuesta.

Kruskal-Wallis

Se tienen los siguientes datos experimentales, correspondientes a 22 individuos de los que se ha recogido información de dos variables: una variable explicativa Exp nominal y otra variable respuesta Rta cuantitativa. Los datos se presentan de forma que en las filas hay varios individuos para facilitar la lectura:

Rta Exp Rta Exp 15 1 28 2 15 1 28 2 25 1 28 2 25 1 35 2 25 1 43 2 33 1 13 3 43 1 15 3 15 2 25 3 16 2 25 3 16 2 35 3 25 2 28 2

Calcular la prueba de Kruskal-Wallis de comparación de medianas para los datos anteriores.

Cálculo de los rangos para cada observación

Para cada observación se le asigna el rango según el orden que ocupa la observación en el conjunto total de los datos, asignando el rango medio en caso de empates:

Estadístico de contraste H’

El estadístico de contraste H’ se calcula como:

( )

[ [ ]]

( )

n n

d d

R ER

n

nn 1

H'

3

k

j 1

j

3 j

r

m 1

2 m m m

=

=

siendo dj el número de empates en j = 1,…,k siendo k el número de valores distintos de la variable respuesta, que para los datos del ejemplo resulta ser:

(d d ) ( 43 4 ) ( 23 2 ) ( 6 3 6 ) ( 4 3 4 ) ( 2 3 2 ) ( 2 3 2 ) 348

k

j 1

j

3 ∑ j − = − + − + − + − + − + − = = con lo que:

[ ] [ ] [ ]

H'

3

2 2 2

que sigue una distribución Chi-Cuadrado con r –1 = 2 grados de libertad, que tiene asociada un p-valor de 0.