Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Modelos lineales generalizados, Ejercicios de Biología

Asignatura: Bioestadística, Profesor: , Carrera: Biologia, Universidad: UB

Tipo: Ejercicios

2017/2018

Subido el 29/05/2018

bili77
bili77 🇪🇸

4.8

(10)

4 documentos

1 / 36

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Modelos lineales: Regresi´on, ANOVA y ANCOVA
Luis Cayuela
Octubre de 2015
´
Area de Biodiversidad y Conservaci´on, Universidad Rey Juan Carlos,
Departamental 1 DI. 231, c/ Tulip´an s/n. E-28933 ostoles (Madrid),
Espa˜na. E-mail: [email protected].
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24

Vista previa parcial del texto

¡Descarga Modelos lineales generalizados y más Ejercicios en PDF de Biología solo en Docsity!

Modelos lineales: Regresi´on, ANOVA y ANCOVA

Luis Cayuela

Octubre de 2015

Area de Biodiversidad y Conservaci´^ ´ on, Universidad Rey Juan Carlos, Departamental 1 – DI. 231, c/ Tulip´an s/n. E-28933 M´ostoles (Madrid), Espa˜na. E-mail: [email protected].

Modelos lineales: Regresi´on, ANOVA y ANCOVA (versi´on

Publicado por: Luis Cayuela

Se autoriza a cualquier persona a utilizar, copiar, distribuir y modificar esta obra con las siguientes condiciones: (1) que se reconozca la autor´ıa de la misma; (2) que no se utilice con fines comerciales; y (3) que si se altera la obra original, el trabajo resultante sea distribuido bajo una licencia similar a ´esta.

Para cualquier comentario o sugerencia por favor remitirse al autor de la obra.

  1. Conceptos estad´ısticos b´asicos

¿Qu´e es una regresi´on? ¿Y un ANOVA? ¿Cu´al es la principal diferencia entre ambos? ¿Qu´e supuestos estad´ısticos debemos asumir cuando llevemos a cabo este tipo de an´alisis? Estas y otras preguntas son cr´ıticas en la aplicaci´on de modelos lineales a la resoluci´on de problemas estad´ısticos. Por ello, la primera parte de esta sesi´on la dedicaremos a aclarar dichos conceptos.

El an´alisis de regresi´on se usa para explicar o modelar la relaci´on entre una variable continua Y, llamada variable respuesta o variable dependiente, y una o m´as variables continuas X1,.....,Xp, llamadas variables explicativas o independientes. Cuando p = 1, se denomina regresi´on simple y cuando p > 1 se denomina regresi´on m´ultiple. Cuando hay m´as de una variable respuesta Y, entonces el an´alisis se denomina regresi´on m´ultiple multivariada. Cuando las Y son totalmente independientes entre s´ı, entonces hacer una regresi´on m´ultiple multivariada ser´ıa el equivalente a realizar tantas regresiones m´ultiples univariadas como Y’s haya.

Si la(s) variable(s) explicativas son categ´oricas en vez de continuas entonces nos enfrentamos ante un caso t´ıpico de an´alisis de la varianza o ANOVA (ADEVA en espa˜nol). Al igual que antes, si p = 1, el an´alisis se denomina ANOVA unifactorial, mientras que si p > 1 el an´alisis se denomina ANOVA multifactorial. Si en vez de una variable respuesta continua tenemos dos o m´as Y, entonces el an´alisis se denomina ANOVA multivariado (MANOVA) de uno o varios factores. Este tipo de an´alisis tambi´en queda fuera del ´ambito de esta sesi´on.

Por ´ultimo, es posible que en el mismo an´alisis aparezcan tanto variables explicativas continuas como categ´oricas, y en este caso el an´alisis pasar´ıa a denominarse an´alisis de la covarianza o ANCOVA. Aqu´ı ya no har´ıamos distinci´on entre ´unico o m´ultiple ya que este an´alisis se compone siempre de, al menos, dos variables explicativas (una continua y una categ´orica).

A pesar de la abundancia de terminolog´ıa, todos estos modelos caen dentro de la categor´ıa de modelos lineales. En esta sesi´on nos centraremos ´unicamente en las t´ecnicas univariadas (regresi´on, ANOVA y ANCOVA). En R todos los an´alisis univariados de este tipo se ajustan utilizando una ´unica funci´on, la funci´on lm(), ya que la forma de ajustar cualquiera de estos modelos es id´entica, independientemente de que tengamos una o m´as variables explicativas y de que ´estas sean continuas o categ´oricas.

Figura 1: Esquema conceptual de los pasos que deben seguirse a la hora de ajustar un modelo lineal univariante.

Sin entrar en muchos detalles, cabe recordar que los modelos lineales se basan en una serie de supuestos, algunos de los cuales pueden y deben comprobarse una vez ajustado el modelo. Estos son:

  1. Independencia. Los sujetos muestrales y, por tanto, los residuos del modelo, son independientes entre s´ı.
  2. Linealidad. La respuesta de Y frente a X es lineal.
  3. Normalidad. Los residuos del modelo son normales, es decir, siguen una distribuci´on de tipo gaussiana (campana de Gauss).
  4. Homocedasticidad. La varianza residual tiene que ser constante.
  5. Cosas importantes antes de empezar

La estad´ıstica comienza con un problema, continua con la recogida de datos, y termina con el an´alisis de los mismos, lo que conduce a unas conclusiones sobre

summary(lm.cars)

Call: lm(formula = dist ~ speed, data = cars)

Residuals: Min 1Q Median 3Q Max -29.069 -9.525 -2.272 9.215 43.

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -17.5791 6.7584 -2.601 0.0123 * speed 3.9324 0.4155 9.464 1.49e-12 ***


Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 15.38 on 48 degrees of freedom Multiple R-squared: 0.6511, Adjusted R-squared: 0. F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-

Aqu´ı podemos ver muchas de las cosas que nos interesan para responder a nuestra pregunta. En primer lugar tenemos los coeficientes del modelo ajustado y su significaci´on (Pr(>|t|)). El modelo no s´olo tiene un coeficiente que modela la relaci´on lineal entre la variable respuesta (dist) y la variable explicativa (speed), sino que adem´as tiene una constante, que es lo que R denomina Intercept o punto de corte con el eje Y, es decir el valor que toma Y cuando X = 0. Si este valor no es muy distinto de 0 entonces el Intercept suele no ser significativo^1. En este caso, s´ı es significativo y toma un valor de -17.5791. Esto indicar´ıa te´oricamente que cuando la velocidad del coche es 0, su distancia de frenado es -17.5791 pies, si bien como todos sabemos, esta aseveraci´on no tiene sentido alguno. El problema est´a en los supuestos de los modelos lineales, ya que la relaci´on entre muchas variables es lineal s´olo en un determinado rango de los valores de X y no puede extrapolarse m´as all´a de estos valores, tal es el caso de nuestro ejemplo. Para representar gr´aficamente la recta de regresi´on, podemos usar la funci´on gr´afica de bajo nivel abline().

(^1) La significaci´on es un valor que nos indica con que probabilidad la relaci´on observada es distinta de la hip´otesis nula (en este ejemplo la hip´otesis nula ser´ıa que el punto de corte con el eje Y es cero).

plot(cars$dist ~ cars$speed, xlab="Velocidad", ylab="Distancia de frenado") abline(lm.cars)

l

l l

l l l

l

l

l

l

l

l

l l l (^) l

ll

l

l

l

l

l

l

l

l

l

l l

l

l l

l

l

l

l

l

l

l

l l l

l l l

l

ll

l

l

5 10 15 20 25

0

20

40

60

80

100

120

Velocidad

Distancia de frenado

M´as all´a de la interpretaci´on que hagamos de la constante, lo que interesar´ıa m´as ser´ıa la significaci´on de la variable explicativa speed, que en este caso concreto toma un valor muy bajo (Pr(>|t|) = 1.49e-12). Esto significa que hay una probabilidad muy baja de que el coeficiente estimado de speed en el modelo lineal est´e dentro de una distribuci´on aleatoria de valores “nulos”, es decir, de coeficientes obtenidos aleatoriamente pero que en realidad no son distintos de cero. Por tanto rechazar´ıamos la hip´otesis nula de que este coeficiente es cero.

Por ´ultimo, interesa ver el coeficiente de determinaci´on del modelo o R^2. Este coeficiente indica la cantidad de variabilidad explicada por el modelo. Cuanto mayor sea este coeficiente m´as predecible es la variable respuesta en funci´on de la variable o variables explicativas. El R^2 ajustado corrige el R^2 por el n´umero de par´ametros (variables explicativas) del modelo ya que, en general, cuantas m´as variables explicativas est´en incluidas en el modelo, mayor es el R^2 , independientemente de que dichas variables sean o no relevantes para el modelo. En nuestro modelo, el R^2 corregido es 0.6438, lo que significa que el 64 % de la variabilidad de la distancia de frenado se puede explicar por la velocidad a la que va el coche.

Los dos par´ametros β 0 y β 1 son desconocidos. Pero hay tambi´en otro par´ametro desconocido, εi, que representa el t´ermino error. Mientras que β 0 y β 1 son constantes en el modelo, εi es una variable aleatoria que sigue una distribuci´on normal. Esta distribuci´on tiene un valor esperado (media) de 0 , y una varianza equivalente a σ^2 , que puede ser conocida o desconocida. Si todos nuestros datos caen perfectamente a lo largo de una ´unica l´ınea recta, entonces la σ^2 = 0, y ser´a una cuesti´on f´acil conectar todos los puntos y medir el intercepto (β 0 ) y la pendiente (β 1 ) de esa recta directamente de la l´ınea. Sin embargo, la mayor´ıa de los datos ecol´ogicos exhiben un cierto grado de variaci´on, y nuestros datos aparecer´an dispersos formando una nube en lugar de una l´ınea recta perfecta. Cuanto mayor sea el valor de σ^2 , mayor ser´a el ruido o error de los datos en torno a la recta de regresi´on.

Si observamos la figura del ejemplo anterior, vemos que hay una clara relaci´on entre la distancia de frenado de un coche y su velocidad, pero los puntos no caen a lo largo de una l´ınea recta perfecta. ¿D´onde deber´ıamos colocar la recta de regresi´on? Intuitivamente, parece que la l´ınea de la recta de regresi´on deber´ıa de pasar por el centro de la nube de datos, definida por los puntos (X, Y ). Para nuestro ejemplo, el centro corresponder´ıa a los puntos:

meanX <- mean(cars$speed) meanY <- mean(cars$dist) meanX; meanY

[1] 15.

[1] 42.

Ahora podemos rotar la l´ınea en torno a este punto central hasta que llegemos al mejor ajuste posible. Pero ¿c´omo definimos el “mejor ajuste posible”? Para entender ´esto, vamos a definir primero los residuos cuadrados d^2 i , como la diferencia entre el valor observado de Y (Yi) y el valor Y predicho por la ecuaci´on de regresi´on ( Yˆi). Los residuos cuadrados d^2 i se calculan de la siguiente forma:

d^2 i = (Yi − Yˆi)^2

Se calcula el cuadrado de los residuos porque estamos interesados en la magnitud, y no en el signo, de la diferencia entre el valor observado y el valor predicho. Para cualquier valor observado de Y, podr´ıamos hacer pasar la recta de regresi´on por ese punto, de tal manera que minimiz´aramos su residuo (di = 0). Pero la l´ınea de la recta de regresi´on tiene que ajustarse a todos los datos de forma colectiva, por lo que habr´a que tener en cuenta la suma de todos los residuos, que es lo que se conoce como la suma de cuadrados residual, abreviado como RSS (del ingl´es residual sum of squares).

RSS =

∑n i=1(Yi^ −^ Yˆi)^2

La l´ınea de regresi´on que mejor se ajuste a los datos ser´a aquella que minimice la suma de cuadrados residual (RSS). Minimizando la suma de cuadrados residual, aseguramos que la recta de regresi´on resulte en la menor diferencia entre cada valor observado de Yi y cada valor Yˆi predicho por el modelo de regresi´on.

Pero esto sigue sin explicar c´omo elegimos la recta de regresi´on que mejor se ajusta. Podr´ıamos hacer que la l´ınea de regresi´on pase por el punto central (X, Y ), y luego girarla hasta que encontremos una pendiente y un intercepto que minimice la suma de cuadrados residual. Esto implicar´ıa numerosas estimaciones de la pendiente y el intercepto. Por suerte, hay una forma m´as f´acil de estimar estos par´ametros, pero antes vamos a explicar brevemente qu´e es la varianza y la covarianza.

3.2.2. Varianzas y covarianzas

La suma de cuadrados de una variable Y (SSY ) es una medida de cuanta variabilidad existe en esa variable o, dicho de otra forma, de cuanto se desv´ıa cada una de las observaciones hechas sobre la media de las observaciones.

SSY =

∑n i=1(Yi^ −^ Y^ i) 2

Si dividimos esta suma por (n-1) obtenemos la formula de la varianza (s^2 Y ):

s^2 Y = (^) n−^11

∑n i=1(Yi^ −^ Y^ i) 2

Si en lugar de tener una ´unica variable Y, tenemos dos variables X e Y, en lugar de la suma de cuadrados de una variable, podemos definir la suma de sus productos (SSXY ) de la siguiente forma:

SSXY =

∑n i=1(Xi^ −^ Xi)(Yi^ −^ Y^ i)

Y la covarianza de la muestra (sXY ):

sXY = (^) n−^11

∑n i=1(Xi^ −^ Xi)(Yi^ −^ Y^ i)

La varianza, al ser una suma de cuadrados, siempre es un n´umero positivo. Sin embargo, esto no es necesariamente cierto para la covarianza. Si valores altos de X se asocian con valores altos de Y, entonces la suma de sus productos generar´a una covarianza grande. Si por el contrario no existe una relaci´on clara entre X e Y, ocurrir´a que algunos valores altos de X estar´an asociados con valores peque˜nos o incluso negativos de Y. Esto generar´a al final una colecci´on muy heterog´enea de t´erminos de covarianza, algunos con s´ımbolo positivo y otros con s´ımbolo negativo. La suma de todos estos t´erminos estar´a muy pr´oxima a cero.

Vamos a calcular la varianza y la covarianza para nuestro ejemplo anterior:

s.x2 <- sum((cars$speed - meanX)^2)/(n-1) B1 <- s.xy/s.x B

[1] 3.

Y, como observamos, se trata del mismo valor que obten´ıamos cuando us´abamos la funci´on lm(). Este valor indicar´ıa que por cada incremento unitario en la velocidad (expresada en millas/hora), tendr´ıamos un incremento estimado de la distancia de frenado de 3.93 pies.

Para calcular el intercepto en la ecuaci´on s´olo hay que tener en cuenta que la l´ınea de regresi´on ha de pasar a trav´es del centro de la nube de puntos, definida por (X, Y ). Esto permite resolver la siguiente ecuaci´on.

βˆ 0 = Y − β 1 ˆX

que para nuestro ejemplo, se calcular´ıa en R de la siguiente forma:

B0 <- meanY-(B1*meanX) B

[1] -17.

El intercepto coincide exactamente con el valor estimado utilizando la funci´on lm() en el apartado 3.1.

Todav´ıa nos quedar´ıa un ´ultimo par´ametro por estimar: el t´ermino error (εi). El error tiene una distribuci´on normal con media 0 y varianza σ^2. ¿C´omo podemos estimar σ^2? Lo primero que hay que observar es que cuanto m´as peque˜no sea σ^2 , los datos estar´an m´as pr´oximos a la recta de regresi´on. Si σ^2 = 0 entonces no habr´a desviaci´on con respecto a las predicciones, es decir, que todos los datos caer´an sobre la recta de regresi´on. Esta descripci´on es muy similar a la de la suma de cuadrados residuales (RSS), que mide la desviaci´on cuadrada de cada observaci´on con respecto al valor predicho por el modelo. Recordemos que la varianza de la muestra mide la desviaci´on promedio de cada observaci´on con respecto a la media. De forma similar, nuestra estima de la varianza del t´ermino error (o varianza residual de la muestra) es la desviaci´on promedio de cada observaci´on con respecto al valor predicho.

σˆ^2 = RSSn− 2 =

∑n i=1(Yi−^ Yˆi)^2 n− 2 =

∑n i=1[Yi−( βˆ 0 + β 1 Xˆi)]^2 n− 2

La ra´ız cuadrada de la varianza del t´ermino error, ˆσ, es el error est´andar de la regresi´on. F´ıjate que en el denominador de la f´ormula utilizamos (n-2) en vez de (n-1), como hac´ıamos antes en el caso de la varianza de la muestra. El denominador indica el n´umero de grados de libertad, es decir, el n´umero de piezas de informaci´on independientes utilizadas en el c´alculo de la varianza. En este caso, ya hemos utilizado dos grados de libertad para estimar el intercepto y la pendiente de la recta de regresi´on. Para nuestro ejemplo, la varianza residual, la varianza residual de la muestra y el error est´andar de la regresi´on se calcular´ıa manualmente de la siguiente forma:

RSS <- sum((cars$dist - (B0 + B1*cars$speed))^2) RMS <- RSS/(n-2) sterror <- RMS^0. RMS

[1] 236.

sterror

[1] 15.

El valor de la varianza residual de la muestra es lo que se denomina cuadrados medios residuales (RMS) en la tabla anova, que se obtendr´ıa en R con la funci´on anova(). Y la varianza residual (total) es el equivalente a las sumas de cuadrados (RSS).

anova(lm.cars)

Analysis of Variance Table

Response: dist Df Sum Sq Mean Sq F value Pr(>F) speed 1 21186 21185.5 89.567 1.49e-12 *** Residuals 48 11354 236.


Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1

Como vemos, los n´umeros coinciden perfectamente.

3.2.4. Componentes de la varianza y el coeficiente de determinaci´on

Una t´ecnica fundamental en los an´alisis param´etricos es la de la partici´on de la suma de cuadrados en diferentes componentes. Empezando con los datos en bruto, considera que la suma de cuadrados de la variable Y (SSY ) representa la variaci´on total que estamos intentando particionar.

Uno de los componentes de esta variaci´on total es el error aleatorio. Esta variaci´on no puede ser atribuida a ninguna fuente espec´ıfica y se estima a partir de la suma de cuadrados residual (RSS). La variaci´on restante en Yi no es aleatoria. Algunos valores de Yi son altos porque est´an asociados con valores altos de Xi. La fuente de esta variaci´on queda expresada en la relaci´on de regresi´on Yi = β 0 + β 1 Xi. De esta forma, conociendo la variaci´on total (SSY ) y la varianza residual (RSS) podemos calcular la varianza atribuida al modelo de regresi´on de la siguiente forma:

SSreg = SSY − RSS

En particular, el supuesto que subyace a la relaci´on causa-efecto de nuestras variables X e Y est´a contenido en el par´ametro de la pendiente. La magnitud de β 1 mide la fuerza de la respuesta de Y a cambios en X. Nuestra hip´otesis nula es que β 1 no es diferente de cero. Si no podemos rechazar la hip´otesis nula, entonces no tenemos evidencias para establecer una relaci´on entre las variables X e Y. Las hip´otesis nula y alternativa se formular´ıan de la siguiente forma:

β 1 = 0 (Hip´otesis nula)

β 1 6 = 0 (Hip´otesis alternativa)

Para comprobar la hip´otesis nula se deben de organizar los datos en la tabla del an´alisis de la varianza (ANOVA). Aunque una tabla ANOVA se asocia de forma natural con el an´alisis de la varianza (secci´on4), la partici´on de la suma de cuadrados es com´un al ANOVA, a la regresi´on y al ANCOVA, adem´as de a otros modelos lineales generalizados.

La tabla ANOVA tiene una serie de columnas que resumen la partici´on de la suma de cuadrados, como ya hemos ido viendo a lo largo de esta secci´on. En las filas aparecer´an las diferentes fuentes de variaci´on. Si el modelo tiene una ´unica variable explicativa, entonces aparecer´an dos filas: X y residual. Si hubiera m´as variables explicativas, entonces habr´a tantas filas como variables haya en el modelo m´as la habitual de la varianza residual.

En lo que respecta a la comprobaci´on de la hip´otesis nula establecida anteriormente, ´esta se lleva a cabo utilizando un estad´ıstico denominado F (F-ratio). Este se calcula diviendo los cuadrados medios del modelo por los´ cuadrados medios residuales, o lo que es lo mismo:

F − ratio = (^) RSS/SSreg(n^ /−^1 2)

El F-ratio se compara con una distribuci´on del estad´ıstico F generada bajo el supuesto de que β 1 = 0. Esta distribuci´on se genera conociendo los grados de libertad en el denominador y en el numerador. Si nuestro F-ratio queda probabil´ısticamente muy alejada de la distribuci´on del estad´ıstico F, entonces podremos decir con cierta seguridad que rechazamos la hip´otesis nula, con lo que β 1 6 = 0. El p-valor, que se genera a partir del F-ratio conociendo la funci´on de distribuci´on del estad´ıstico F, es por tanto la probabilidad de obtener un test estad´ıstico (F-ratio) tan extremo como el observado, asumiendo que la hip´otesis nula es cierta. Si el p-valor es de 0.8, quiere decir que 8 de cada 10 veces obtendremos por azar un F-ratio igual al que hemos obtenido a partir de las relaciones observadas entre X e Y. ¿C´omo saber cuando esta probabilidad es suficientemente peque˜na como para rechazar la hip´otesis nula? Pues bien, esto tenemos que definirlo a priori y es lo que se conoce como nivel de significaci´on, α. Normalmente α = 0,05. Si p-valor < α entonces rechazaremos la hip´otesis nula. Si por el contrario el p-valor = α, aceptaremos la hip´otesis nula, por lo que no tendremos evidencia suficiente para decir que β 1 6 = 0.

Vamos a calcular el F-ratio y ver d´onde estar´ıa situado dentro de una distribuci´on del estad´ıstico F asumiendo la hip´otesis nula.

F.ratio <- (SSreg/1)/(RSS/(n-2)) plot(density(rf(n=10000, df1=1, df2=n-2)), xlim=c(0,F.ratio+5),

  • main="", xlab="F-value")

title("Distribuci´on del estad´ıstico F. gl(1, 48)") abline(v=F.ratio, lwd=2, lty=3)

0 20 40 60 80

F−value

Density

Distribución del estadístico F. gl(1, 48)

3.3. Evaluaci´on de los supuestos del modelo: Exploraci´on

de los residuos

Una parte muy importante de la construcci´on de modelos estad´ısticos param´etricos es la comprobaci´on de los supuestos del modelo. En concreto, nos interesa comprobar las hip´otesis de normalidad y homocedasticidad (homogeneidad de varianzas).

La funci´on plot() dibuja los gr´aficos de los residuos cuando el argumento principal es un objeto del tipo lm.

Podemos tambi´en comprobar la hip´otesis de normalidad con el test “RESET”. Este test comprueba si X e Y se relacionan de forma lineal o, si por el contrario, existe una relaci´on no lineal entre ellas definida por potencias de la variable respuesta, la variable explicativa o el primer componente principal de X. La hip´otesis nula es que se relacionan de modo lineal. Si el p-valor es muy bajo (< 0.05) se rechaza la hip´otesis nula, lo que indicar´ıa alg´un tipo de relaci´on no lineal. Para comprobar esta hip´otesis podemos usar la funci´on resettest() del paquete lmtest, que habr´a que instalar previamente.

library(lmtest) resettest(lm.cars)

RESET test

data: lm.cars RESET = 1.5554, df1 = 2, df2 = 46, p-value = 0.

En principio podemos asumir que hay linealidad.

3.4. Ejercicios

  1. El archivo gala (accesible como archivo de datos de R dentro del paquete faraway) contiene informaci´on sobre la riqueza de especies en 30 islas del archipi´elago de las Gal´apagos. Queremos saber si hay un efecto de las variables ´area de la isla (Area), elevaci´on m´axima de la isla (Elevation) y distancia a la isla m´as pr´oxima (Nearest) sobre la riqueza de especies (Species). Se aconseja seguir los siguientes pasos:

◦ Instalar y cargar el paquete faraway.

◦ Representar gr´aficas exploratorias de la variable respuesta (Species) con respecto a cada una de las variables explicativas.

◦ Ajustar el modelo lineal.

◦ Interpretar los resultados del modelo.

◦ Comprobar los supuestos del modelo.

  1. An´alisis de la varianza (ANOVA)

Supongamos ahora que nuestra variable explicativa no es cuantitativa sino categ´orica, con tres niveles: velocidad baja, velocidad media y velocidad alta.

speed.cat<-cut(cars$speed, breaks=c(0, 12, 18, 26)) levels(speed.cat)<-c("Baja", "Media", "Alta")

La pregunta sigue siendo la misma ¿Depende la distancia de frenado de la velocidad del coche? Lo que cambia aqu´ı es la naturaleza de la variable explicativa y por ello el an´alisis se denomina an´alisis de la varianza en vez de an´alisis de regresi´on, aunque en esencia, ambos procedimientos son pr´acticamente iguales. De hecho, la funci´on que utilizaremos para ajustar un modelo ANOVA es la misma funci´on que se utiliza para ajustar un modelo de regresi´on: la funci´on lm().

lm.cars2<-lm(cars$dist~speed.cat) summary(lm.cars2)

Call: lm(formula = cars$dist ~ speed.cat)

Residuals: Min 1Q Median 3Q Max -33.467 -12.392 -1.833 8.925 54.

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 18.200 4.717 3.859 0.000347 *** speed.catMedia 26.500 6.240 4.247 0.000101 *** speed.catAlta 47.267 6.670 7.086 6.05e-09 ***


Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.27 on 47 degrees of freedom Multiple R-squared: 0.518, Adjusted R-squared: 0. F-statistic: 25.25 on 2 and 47 DF, p-value: 3.564e-

¿C´omo se interpretan aqu´ı los resultados? Para entender ´esto, hay primero que entender c´omo se ajusta el modelo en el caso de tener variables explicativas categ´oricas. Cuando una de las variables explicativas es categ´orica, el modelo entiende que hay tantos coeficientes en el modelo como niveles del factor -1. Es decir, que si el factor tiene tres niveles, el modelo tendr´a dos par´ametros m´as el punto de corte con el eje Y o Intercept. Este ´ultimo recoger´ıa el valor que toma la variable respuesta cuando los dos niveles del factor para los cuales se ha estimado un coeficiente son cero, es decir, que representar´ıa el tercer nivel del factor, no representado de manera expl´ıcita en el modelo. Por tanto, una variable categ´orica con tres niveles representa en realidad a tres variables explicativas que toman valores 0 `o 1. A este tipo de variables se les denomina variables dummy.