











Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
4rt treball entregable d'Rcloud que demanen a AAD
Tipo: Ejercicios
1 / 19
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!












Cal que feu una anàlisi per veure si el fet de trobar o no una espècie invasora es pot relacionar amb els diferents blocs d’un índex que mesura l’estat de conservació d’una llacuna.
En total hi ha 5 blocs: bloc1 (fa referència a la morfologia de la llacuna); bloc2 (activitat humana, valors alts indiquen poca activitat); bloc3 (aspecte de l’aigua); bloc4 (vegetació emergent); bloc5 (vegetació aquàtica). Quan més alt és el valor més ben conservat està aquell aspecte a la llacuna. Les dades les trobareu a l’arxiu: (entregable_4.xlsx).
heu de tenir en compte que si no podeu fer una simplificació automàtica del model, i tot i així cal simplificar per arribar al model òptim, l’haureu de fer manualment. Ho podeu fer, si és necessari, seguint el procediment descrit per la regressió multiple a les sessions d’R"
Especifiqueu en les seccions corresponents les comandes utilitzades en cada cas, afegiu els comentaris pertinents i responeu les preguntes quan calgui.
RESPOSTA: En aquest cas la variable resposta és la “sp_invasora”. Pren valors de 0 i 1, així que té una distribució binomial.
RESPOSTA: Tenim 5 variables explicatives: “bloc1”, “bloc2”, “bloc3”, “bloc4” i “bloc5”.
Abans d’entrar les dades en R, pensa si cal organitzar de manera diferent l’arxiu d’excel. Un cop tinguis les dades organitzades correctament entra les dades a l’R i guardar l’arxiu en format R.
IMPORTAR DADES load("entregable_4.RData")
GUARDAR DADES save(entregable_4,file="entregable_4.RData")
Ara, per tal de verificar que s’han entrat correctament demana un petit resum de les dades i la seva estructura.
RESUM DADES summary(entregable_4)
ESTRUCTURA DE LES DADES str(entregable_4)
RESPOSTA: No, la variable “sp_invasora” conta com si fos una variable numèrica hi hauria de ser un factor ja que només indica presència i absència però amb els números 1 i 0. Per tal de que les dades siguin adients, haurem de transformar-la i guardar-la al document perquè l’Rstudio la pugui llegir bé: sp_invasora_factor <- factor(entregable_4$sp_invasora) entregable_4$sp_invasora <- factor(entregable_4$sp_invasora)
Finalment, comprovem que ara sí es llegeix com un factor: summary(entregable_4)
Sí, ja no calcula res i només ens diu la quantitat de 0 i 1 que té la variable “sp_invasora”.
Finalment necessitem un gràfic que mostri la distribució dels valors de totes les variables i que et pugui donar una idea de possibles relacions entre elles.
GRÀFIC pairs(~entregable_4$sp_invasora+entregable_4$bloc1+entregable_4$bloc2+entregable_4$bloc3+entregable_4$bl
Només les variables amb un p-valor < 0.05 són significatives. En aquest cas, en primera instància, només trobariem la variable “bloc2” (0.0111). Aixó pot ser degut a que les variables han de ser transformades. Probarem a transformar-les amb logaritmes i elevant-les al quadrat en el PAS 2. Però també podem fer un gràfic del model per veure si compleix o no els supòsits.
plot(sp_invasora_glm)
22
19
14
22
19
14
22
19 14
Histogram of entregable_4$bloc
hist(log(entregable_4$bloc1), xlab='log.bloc1')
Histogram of log(entregable_4$bloc1)
hist(sqrt(entregable_4$bloc1), xlab='sqrt.bloc1')
Histogram of sqrt(entregable_4$bloc1)
A la vari- able “bloc1” no hi ha canvis significatius així que la deixarem sense transformar.
hist(entregable_4$bloc2, xlab='bloc2')
Histogram of entregable_4$bloc
hist(entregable_4$bloc3, xlab='bloc3')
Histogram of entregable_4$bloc
hist(log(entregable_4$bloc3), xlab='log.bloc3')
Histogram of log(entregable_4$bloc3)
hist(sqrt(entregable_4$bloc3), xlab='sqrt.bloc3')
Histogram of sqrt(entregable_4$bloc3)
A la vari- able “bloc3” no hi ha canvis significatius així que la deixarem sense transformar.
hist(entregable_4$bloc4, xlab='bloc4')
Histogram of entregable_4$bloc
hist(entregable_4$bloc5, xlab='bloc5')
Histogram of entregable_4$bloc
hist(log(entregable_4$bloc5), xlab='log.bloc5')
Histogram of log(entregable_4$bloc5)
hist(sqrt(entregable_4$bloc5), xlab='sqrt.bloc5')
Histogram of sqrt(entregable_4$bloc5)
A la vari- able “bloc5” no hi ha canvis significatius així que la deixarem sense transformar. Finalment veiem que no val la pena transformar cap variable i les deixarem tal i com les teníem al principi. PAS 3 Passem a mirar ara si tenim problemes de col·linealitat ja que quan es fa una regressió múltiple sempre s’ha de vigilar de no tenir col·linealitat. Per fer-ho utilitzarem el variance inflation factor. Com que la variable “bloc3” és constant, no sortirà.
(AQUÍ VAIG POSAR LA FUNCIÓ “vif(sp_invasora_glm)” I EM VA SORTIR LA TAULA VIF, PERÒ AL PASSAR-HO A PDF EM SORTIA “Error in vif(sp_invasora_glm) : could not find function”vif" Calls:... handle -> withCallingHandlers -> withVisible -> eval -> eval Execution halted AIXÍ QUE US POSSARÉ ELS VALORS QUE M’HA DONAT LA TAULA VIF I HO BORRARÉ PER PODER VER EL PDF): bloc1: 1.244701 bloc2: 1.256663 bloc4: 1.150236 bloc5: 1.009136 No hi ha cap variable que tingui el vif per sobre de 5, així que podem assumir que no tenim problemes de col·linealitat. PAS 4 Ara em de veure si tenim overdispresion (o underdispersion). summary(sp_invasora_glm)
summary(sp_invasora_glm)
Com hem vist al principi, només la variable “bloc2” és la que té un p-valor menor de 0.05, o sigui que és la única variable significativa. Això ens mostra que podem significar el model. Ho farem a partir del mètode del model únic.
PAS 8 Per fer-ho utilitzarem la simplificació automàtica via la funció “stepAIC”.
step(sp_invasora_glm, method="bacward")
Observem com passem d’un AIC de 62.14 a un de 57.97 (com més petit aquest valor, millor és el model) progressivament mentres va eliminant les variables que no són significatives. Doncs, el model final ajustat només tindrà la variable “bloc2” com a variable explicativa de la nostra variable resposta “sp_invasora_factor”.
PAS 9 Fem el model final.
sp_invasora_glm_final<-glm(sp_invasora_factor~bloc2,family="binomial",data=entregable_4) summary(sp_invasora_glm_final)
petits) trobem menys presència de la espècie invasora a la llacuna estudiada.