Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


GLM, Ejercicios de Biología

Asignatura: Anàlisi avançada de dades, Profesor: stephania stephania, Carrera: Biologia, Universidad: UdG

Tipo: Ejercicios

2017/2018

Subido el 08/03/2018

caramorea98
caramorea98 🇪🇸

4

(3)

4 documentos

1 / 3

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Models Lineals Generalitzats (GLM)
Objectius:
Explicar el màxim de variància de la variable resposta (Y) en funció dels predictors (Xs).
Estimar els paràmetres de l’equació (a i b) per entendre com els predictors (Xs) es
relacionen amb la resposta (Y)
Les regressions, ANOVAs i ANCOVAs són tipus particulars de models lineals:
Les difèrencies es troben
en el tipus de variables
predictores.
La majoria de tests estadístics (regressió, ANOVA, ANCOVA) assumeixen:
Varància constant de la variable resposta (“Y”; variable dependent) = heteroscedasticitat
Erros segueixen una dstribucio Normal.
Si aquests supòsits no es compleixen, es transformen les dades, però poden complicar la
interpretació, no funcionar o que el resultat de la transformació dóna variables sense sentit biològic.
Llavors fem un GLM. Davant els possibles erros que hem trobat:
1. Variables binaries. (ex. mort/supervivència, presència/absència. èxit/fracàs), on la variable
resposta només pot assolir dos valors (0 o 1).
2. counts”. (ex. abundància d’individus, riquesa d’espècies, etc...), on la variable resposta
compren números integres, sovint conté molts zeros i la variància típicament augmenta amb
la mitjana).
3. Proporcions . (ex. proporció d’insectes que sobreviuen a un pesticida), on la variància
arriba a un màxim a valors entremitjos de la mitjana.
GLMs permeten ampliar l'ús de models lineals a variables amb variància heterogènia i amb error
amb distribució diferent de la normal (ex. Poisson, binomial o gamma).
Volem determinar els factors relacionats amb la presència-absència d'una sp. Llavors dóna lloc a
una binomial. Aquest model equival a: Ln [Prob (presència)/Prob (absència)]
Overdispersion?
En models amb error Binomial o Poisson, s’assumeix que existeix una relació determinada entre la
variància i la mitjana de la variable resposta. P.ex. model Poisson → variància i mitjana haurien de
tenir valors semblants
Quan la deviance d’un model és més gran que els graus de llibertat residuals, aquesta assumpció és
invalida → Overdispersion
Y= a + b
1
X
1
+ b
2
X
2
+
Error
Continua Continua
Regressió Lineal
Y= a + b
1
X
1
+ b
2
X
2
+
Error
Categòrica Categòrica
Normal
ANOVA
Y= a + b
1
X
1
+ b
2
X
2
+
Error
Categòrica Continua
ANCOVA
Normal
Normal
pf3

Vista previa parcial del texto

¡Descarga GLM y más Ejercicios en PDF de Biología solo en Docsity!

Models Lineals Generalitzats (GLM)

Objectius:

  • Explicar el màxim de variància de la variable resposta (Y) en funció dels predictors (Xs).
  • Estimar els paràmetres de l’equació (a i b) per entendre com els predictors (Xs) es relacionen amb la resposta (Y) Les regressions, ANOVAs i ANCOVAs són tipus particulars de models lineals: Les difèrencies es troben en el tipus de variables predictores. La majoria de tests estadístics (regressió, ANOVA, ANCOVA) assumeixen:
  • Varància constant de la variable resposta (“Y”; variable dependent) = heteroscedasticitat
  • Erros segueixen una dstribucio Normal. Si aquests supòsits no es compleixen, es transformen les dades, però poden complicar la interpretació, no funcionar o que el resultat de la transformació dóna variables sense sentit biològic. Llavors fem un GLM. Davant els possibles erros que hem trobat:
  1. Variables binaries. (ex. mort/supervivència, presència/absència. èxit/fracàs), on la variable resposta només pot assolir dos valors (0 o 1).
  2. counts ”. (ex. abundància d’individus, riquesa d’espècies, etc...), on la variable resposta compren números integres, sovint conté molts zeros i la variància típicament augmenta amb la mitjana).
  3. Proporcions. (ex. proporció d’insectes que sobreviuen a un pesticida), on la variància arriba a un màxim a valors entremitjos de la mitjana. GLMs permeten ampliar l'ús de models lineals a variables amb variància heterogènia i amb error amb distribució diferent de la normal (ex. Poisson, binomial o gamma). Volem determinar els factors relacionats amb la presència-absència d'una sp. Llavors dóna lloc a una binomial. Aquest model equival a: Ln [Prob (presència)/Prob (absència)] Overdispersion? En models amb error Binomial o Poisson, s’assumeix que existeix una relació determinada entre la variància i la mitjana de la variable resposta. P.ex. model Poisson → variància i mitjana haurien de tenir valors semblants Quan la deviance d’un model és més gran que els graus de llibertat residuals, aquesta assumpció és invalida → Overdispersion Y = a + b 1 X 1 + b 2 X 2 + Error Continua Continua Regressió Lineal Y = a + b 1 X 1 + b 2 X 2 + Error Categòrica Categòrica Normal ANOVA Y = a + b 1 X 1 + b 2 X 2 + Error Categòrica Continua ANCOVA Normal Normal

Per saber si tenim, o no, “overdispersion” cal calcular el coeficient de overdispersion (φ): residual deviance/degrees of freedom El valor de φ s’utilitza per convertir els valors de Chi2 a F, si no hi ha “overdispersion” el valor és =1. Si φ >1, hi ha “overdispersion”. Llavors, si no ho tenim en compte alhora de calcular els p- valors, estem “inflant” les significacions (augmentem les probabilitats d’error de tipus I: rebutjar una Ho quan és certa). Si φ < 1 hi ha “underdispersion”. Llavors estem “inflant” l’error de tipus II (acceptar Ho quan es falsa). Les correccions modifiquen les significacions (p-valors) però no alteren els coeficients. Overdispersion pot aparèixer quan:

  • No hem inclòs precitors importants en el model
  • Les assumpcions del model que s'utilitza no són correctes. La solució és: “quasi-likelihood” distribució d'error (quasibinomial, quasipoisson). Estimen el paràmetre de dispersió directament de les dades. Exemple en el R: Ajust de models (R^2 ?) En GLMs s’obte un valor de “deviance”. La “deviance” mesura la discrepància que hi ha entre el model que hem estimat i les dades reals. Correspon a la part de la variació en la variable resposta que el nostre model no és capaç d’explicar (Valors més grans indiquen més variació que queda per explicar). Una altra forma de quantificar l’ajust del model és el Akaike information criterion (AIC). Valor més baixos del AIC indiquen millor ajust del model. Molt útil quan comparem diferents models en que la Y és la mateixa i el que canvia són les Xs (quan canvia la Y, l’AIC no serveix ja que no és una mesura relativa). Per calcular el percentatge de variància explicada pel model McFadden's R squared in R: [(deviance Mo – deviance Mi)/deviance Mo] * 100 Mo = Model buit = model sense cap variable predictora (x) Mi = Model amb les variables predictores