

















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Pràctiques Rcomander 1r estadística
Tipo: Ejercicios
1 / 25
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!


















Data: Categòrica Ordinal
Riquesa: Numèrica Categòrica Discreta
Conductivitat: Numèrica contigua
Riquesa_unitat_esforç: Numèrica
Tipus_aigua: Categòrica Ordinal
Estació: Categòrica
Categòric : Gràfic de sectors i Gràfic de barres.
Numèric : Histograma, Caixa de dispersió i Gràfic de tiges i fulles.
Variable Categòrica
Si tenim 5 o més variables NO fem servir gràfic de sectors perquè es comença a veure malament. Millor el de barres.
Dada màxima: Percentil 100
Dada mínima: Percentil 0
Mitjana: Mean
Rang: Distància entre dada gran i dada petita
Desviació estàndard: sd
Mediana: Percentil 50
Variable numèrica
Tenim 3 casos:
Tipus Variables Eines gràfiques Eines numèriques
Dues categòriques
Gràfics de barres o sectors per categories
Taules de contingència o taules dels creuaments
Categòrica i Numèrica
Diagrames de caixa múltiple. Una caixa per a cada categoria sobre un
Comparativa dels resums numèrics separadament per cada categoria
Estadístics Taula de contingència Introduir i analitzar una taula
Indiquem primer les fileres i les columnes, omplim la taula i seleccionem imprimeix les freqüències esperades.
La independència es basa en comparar les freqüències absolutes observades en cada casella amb freqüències absolutes esperades, en el supòsit d’independència de les dues variables categòriques.
Estudi conjunt d’una variable numèrica i un factor
Com que es tracta d’una variable numèrica i d’un factor o variable categòrica, haurem de treballar i comparar les dades grup a grup.
Resum numèric: Estadístics Resums Resums numèrics Resum numèric segons grups
Caixa de dispersió: Gràfics Caixa de dispersió Gràfic segons grups
Estudi conjunt de dues variables numèriques
Diagrama de dispersió: Gràfics Diagrama de dispersió (Desactivem opció de Caixes de dispersió marginals, Línia de mínims quadrats i Línia suavitzada.
S’observa una relació positiva entre les dues variables, tot i que sembla molt lineal, també es poden detectar individus atípics allunyats del patró general.
Ex: D'entre tots els gràfics hem de valorar quin és el que mostra un millor ajust lineal. És de suposar que després d'aquesta primera anàlisi gràfica arribareu a la conclusió que les gràfiques de coll_cir i de pit_circ són les que presenten una millor relació lineal. Si us fixeu bé però, a la gràfica i de pit_circ els punts presenten menys dispersió. Per aquest motiu direm que gràficament la longitud de la circumferència del pit és la millor de les variables morfològiques per explicar el pes d'un ós.
Es poden fer tots els gràfics de dispersió en un sol gràfic: Gràfics Matriu de diagrames de dispersió.
Coeficient de correlació: (Anàlisi numèrica) Estadístics Resums Matriu de correlacions Com millorem correlació entre dues variables? Dades Modifica variables Calcula una nova variable. Ex: “Nom de la variable”= log.cos_lon i “Expressió”= log(cos_lon). Model de regressió
Aquest model es planteja quan dues variables sembla que estan ben correlacionades linealment: Ens permetrà fer estimacions d’una variable a partir del coneixement de l’altre variable. Estadístics Ajustament de models Regressió lineal. Valor ordenada en l’origen (b0): Coefficients Estimate intercept
Valor del pendent (b1): Coefficients Estimate (nom variable) Per veure la recta de regressió juntament amb el núvol de punts: Gràfics Diagrama de dispersió. (Desactivarem les opcions de Caixes de dispersió marginals i Línia suavitzada). Dades influents i atípiques: Models Gràfics Gràfics bàsics de diagnòstic. Ens fixarem en: Residuals vs Fitted i Residuals vs Leverage. Fixem-nos ara en el gràfic de Residuals vs Leverage, per a les dades influents. En aquest ens dibuixa “corbes de nivell” de l’estadístic Distància de Cook. Per defecte només posa la línia de Cook per al valor 0 en vermell. Si hi ha dades atípiques ens dibuixaria les línies de distància de Cook de 0.5, 1, 1,5... Aquells valors amb distància de Cook superior a 1 són influents. Valor predit per l’equació: predict(RegModel.1,list(pit_circ=100)) Valor de X pel que volem la predicció de Y.
Representació conjunta de múltiples variables Gràfic de línies de coordenades paral·leles, Gràfics d’estrella o teranyina
Pg. 10 Sessió 3 Representació conjunta de variables composicionals ternàries
P[X<13], Acumularíem cap a la dreta si ens demanessin la probabilitat de tenir més de 13) Per calcular la probabilitat que tingui una longitud entre 4 i 16 haurem de calcular la probabilitat acumulada fins a 16 i restar-li la probabilitat acumulada fins a 4: P(4^ F 0A 3 XF 0A 3 16)= P(XF 0A 3 16)-P(XF 0A 3 4) Aquesta la podríem obtenir amb el mateix menú anterior canviant l’opció de Cua a la esquerra i dient que els valors són 16 i 4. Quina és longitud màxima que fan el 95% de les extremitats? (Ens estan demanant quin valor és el quantil 95) Distribucions Distribucions contínues Distribució Normal Quantils normals (Probabilitat: 0.95, acumularem a l’esquerra)
Model Poisson + relació amb Binomial (Loteria, boles blanques, probabilitats d’èxit molt baixes)
Funció de densitat: Distribucions Distribucions discretes Distribució Binomial Traça una distribució (BINOMIAL) Funció de densitat: Distribucions Distribucions discretes Distribució Poisson Traça una distribució (POISSON)
Estimació de la mitjana a partir d’una mostra:
Nivell de confiança del 95%, quin interval obtindrem?
Donat que desconeixem la desviació estàndard poblacional, caldrà estimar-la a partir de la desviació estàndard corregida de la mostra per la qual cosa l'estimació de la mitjana poblacional caldrà fer-la a partir d'una distribució t- Student. Abans, però, fem una descriptiva de la variable
Estadístics Resums Resums numèrics (Desactivem opció dels quantils) Estadístics Mitjanes t-test per una variable
N'hi ha prou que indiqueu la variable ’Sucres’ que conté les dades de la mostra. Observeu que, per defecte, R ja considera que l'estimació es vol fer a un nivell de confiança del 95% (vegeu el valor .95 del Nivell de confiança) Calcula t (^) /2,n-1=t0.025,15 usant el quantil corresponent de la distribució t-Student:
Distribucions Distribucions continues Distribucions t Quantils t A la pràctica, molt poques vegades us trobareu en la necessitat d'estimar o contrastar la mitjana d'una població de desviació estàndard sigma coneguda. Si fos així, sabeu per teoria que l'estimació es fa a partir de la distribució normal estàndard en comptes de la distribució t-Student i la desviació de la mitjana mostral ve donada per : sigma/arrel de n. Estimació d’una proporció
Descriptiva de la variable: Estadístics Resums Distribucions de freqüències
Interval de confiança al voltant de la proporció mostral: Estadístics Proporcions Test de proporcions per a una mostra NOTA: En els intervals i contrastos de proporcions, pot ser que no calculi l’interval de l’esdeveniment que ens interessa, sinó el del complementari. Si passa això, o podeu recodificar la variable o interpretar els valors fent el complementari de les proporcions. La darrera línia ens informa sobre el nombre la proporció mostral (sample p) i abans de l’interval de confiança de la proporció poblacional p (95.0% CI), i d’altres estadístics.
Estimació de la diferència de mitjanes a partir de dues mostres independents Primer anàlisi descriptiva numèrica i gràfica: Estadístics Resums Resums numèrics (Activarem la casella Resums per grups) Gràfics Caixa de dispersió (Gràfics segons grups)
Estadístics Mitjanes T-test per a mostres independents (Activem l’opció assumir variàncies iguals)
es la mitjana de la mostra, 0 és la mitjana poblacional que figura a la hipòtesi
nul·la, i s es la desviació estàndard (corregida) de la mostra. Sabem per teoria que aquest estadístic s'ajusta aproximadament a una llei t -Student amb n - graus de llibertat, essent n la mida de la mostra.
A la pràctica, molt poques vegades us trobareu en la necessitat de contrastar la mitjana d'una població de desviació estàndard coneguda. Si fos així, sabeu per teoria que el contrast es fa a partir de la distribució normal estàndard en comptes de la distribució t-Student
Contrast d’una proporció
La pregunta equival a realitzar el contrast H 0 : p 0 =0.80 en front de la H 1 :
p 0 >0.80, on p 0 simbolitza la proporció de pomes “dolces”.
Anàlisi descriptiva: Estadístics Resums Distribucions de freqüències
NOTA: Fixem-nos que ens dóna primer la informació dels “no” i després dels “si”. En aquest cas l’esdeveniment en el que centrarà els càlculs serà el no, el complementari que ens interessa. Recodificarem la variable, per no haver d’interpretar els valors fent el complementari de les proporcions. Dades Modifica variables de la taula activa Reordena els nivells d’un factor
El fet que la proporció mostral hagi sortit 0.75, ens pot fer sospitar que la hipòtesi alternativa no sigui certa, ja que no superem el 0.8. Recordeu que per dur a terme aquest contrast, l'estadístic que fem servir és Z. Anem a realitzar el contrast H 0 : p 0 0.80 en front de la H 1 : p 0 >0.80, on p 0
simbolitza la proporció de pomes “dolces” amb ajuda de R.
Estadístics Proporcions Test de proporcions per una mostra (H0: 0.8 i H1: + 0.8) (Deixem l’opció aproximació normal) La primera línia ens informa del tipus de test que hem aplicat, a continuació ens informa sobre la proporció a contrastar com a hipòtesi nul·la. La tercera línia ens dóna el quadrat del valor de l’estadístic de contrast (X-squared) i el valor p del contrast (p-value). A més ens dóna informació sobre la hipòtesi alternativa,
l’interval de confiança i l’estimador mostral, és a dir, el nombre d'èxits observats sobre la mostra. Contrast de la diferència de mitjanes a partir de dues mostres independents Independents: Cada persona portava ulleres diferents, haurem de saber si la desviació estàndard és la mateixa o no en les dues poblacions.
Aparellades: Mateixa persona dos tipus de vidres. A partir d'aquestes dades ens proposem analitzar si hi ha o no diferència significativa entre el contingut mitjà en sucres de les dues parts de la poma, la part vermella i exposada al sol en comparació a la part groga i no exposada al sol.
Des d'un punt de vista estadístic aquest estudi equival a realitzar el contrast H 0 : G=^ V en front de la H^1 :^ GV, on la^ simbolitza genèricament la mitjana poblacional del contingut de sucres.
Abans de realitzar aquest contrast de forma efectiva convé fer prèviament una anàlisi descriptiva numèrica i gràfica dels continguts en sucre segons la localització. Estadístics Resums Resums numèrics (Activem casella resum per grups) Existeix un contrast d’hipòtesi, anomenat F-Test, per a veure si les variàncies són iguals. El contrast que es realitza és H 0 : (equivalent a H 0 : ) en front de la H 1 :. Estadístics Variàncies Test F de dues variàncies (Deixem per defecte Contrast bilateral) Posem, sucres: variable resposta // Localització: Variable genera els grups. Com en tot contrast d’hipòtesis, per tal d’obtenir resposta, cal que ens fixem en el resultat del valor p (del F-Test) i decidir en conseqüència: Valor p + gran que 0.05 Variàncies iguals Anàlisi gràfica: Gràfics Caixa de dispersió
comandes com aquestes s’han generat en la finestra d’instruccions quan heu fet el test anterior).
Table <- matrix(c(1213,215,52,23,2408,442,92,35,1820,328,74,29), 3, 4, byrow=TRUE)
rownames(Table) <- c('A', 'B', 'C')
colnames(Table) <- c('Ans', 'Cha', 'Fal', 'Cic')
A continuació, tenim la funció g.test que l’aplicarem a la taula que hem anomenat Table. Podeu copiar i enganxar la funció g.test i un cop enganxada l’executeu.
g.test=function(taula){
de contingència
#variables entrada
#variables sortida
valors=chisq.test(taula) # obtenim les freqüències esperades i les observades a través del chisq g<-2sum(valors$observedlog(valors$observed/valors$expected)) nu<-prod(dim(taula)-1) # càlcul dels graus de llibertat (m-1)(n-1) p=1-pchisq(g,nu) # càlcul del valor p sortida=paste("G =",round(g,4),", ","df =",nu,", ","p-value =",round(p,4)) cat( "\n"," Contrast G d'independència (raó de versemblances)", "\n", "\n", sortida, "\n", "\n") resultat=list(g,nu,p)
}
I a continuació apliquem la funció g.test a la taula Table: q.test(Table)
Si p valor és > 0.05 , són independents
Contrast Chi-Quadrat de bondat d’ajust a un model
No hi ha un menú senzill a R-Commander que estigui preparat per a fer un contrast de bondat d’ajust a unes freqüències discretes però sí que hi ha paquets que poden fer el test de bondat d’ajust sobre models de distribució concrets com poden ser el Binomial, el Poisson,... (com podríem fer carregant el Package vcd).
El que farem és fer servir una nova funció test.bondat.khi on li haurem de donar dos paràmetres, un vector de freqüències observades i un vector que contingui les probabilitats a les que s’han d’ajustar les dades sota la H 0.
Començarem definint el vector de freqüències observades per als fenotips de les mosques. Anem a la finestra d’instruccions i escrivim: mosques=c(12,72)
Prob=c(1/4,3/4)
A continuació ho executem i ja tenim definit el vector de freqüències observades i les probabilitats sota el model de la hipòtesi nul•la. La funció test.bondat.khi ens calcularà les freqüències esperades, l’estadístic de contrast i el valor p del contrast sobre si segueix o no la H0.
Per a això primer carreguem la funció test.bondat.khi i després l’executem amb els dos vectors de paràmetres.
test.bondat.khi=function(observats,probs){
#variables entrada
Començarem definint el vector de freqüències observades per a les dades de creuament dihíbrid de Mendel. Anem a la finestra d’instruccions i escrivim:
pesols = c(122,40,35,10)
A continuació ho executem.
Ara definim el vector de les probabilitats dels creuaments sota hipòtesi nul•la. Com que segons les lleis de Mendel les ràtios són de 9:3:3:1, les probabilitats són 9/16, 3/16, 3/16 i 1/16.
probab= c(9/16,3/16,3/16,1/16)
A continuació ho executem i ja tenim definit el vector de freqüències observades i les probabilitats sota el model de la hipòtesi nul•la. La funció test.bondat.G ens calcularà les freqüències esperades, l’estadístic de contrast i el valor p del contrast sobre si segueix o no la H0.
Per a això carreguem la funció test.bondat.G i l’executem amb els dos vectors de paràmetres.
test.bondat.G=function(observats,probs){
#variables entrada
#variables sortida
i valor p
total=sum(observats) esperats=totalprobs # obtenim les freqüències esperades g<-2sum(observats*log(observats/esperats)) nu<-length(observats)-1 # càlcul dels graus de llibertat (n-1) p=1-pchisq(g,nu) # càlcul del valor p sortida=paste("G =",round(g,4),", ","df =",nu,", ","p-value =",round(p,4)) cat( "\n"," Contrast G de bondat d'ajust", "\n", "\n","Valors esperats =", esperats, "\n", "\n",sortida, "\n", "\n") resultat=list(esperats, g,nu,p)
}
Ara l’executem: test.bondat.G(pesols, probab)
Contrast de normalitat d’unes dades
Distribucions Distribucions contínues Distribució Normal Mostra d’una distribució normal (Posem com a nom normal i indiquem que la mitjana val 100 i la desviació 10, desactivem mitjanes)
Ara tenim una nova taula de dades (podeu visualitzar-la, si voleu) i a aquesta taula de dades li aplicarem el contrast de Normalitat de Shapiro- Wilk.
Estadístics Resums Test de Normalitat de Shapiro-Wilk (indiquem que el volem aplicar a la variable obs)
Compararem mitjanes H0: μc = μm = μb H1: Diferents
Realització del contrast
Anàlisi descriptiva de les dades:
Estadístics Resums Resums numèrics
Estadístics Mitjanes Anova d’un factor Gràfic 2 a 2
ANOVA bifactorial
Pre procés de les dades
Dades Modifica variables de la taula de dades activa Convertir variables numèriques a factor
Gràfics Histograma
En el cas que presentin biaix cap a la dreta és convenient aplicar alguna transformació que redueixi més els valors més grans, com el logaritme o alguna arrel (quadrada, cúbica...). En aquest cas provarem a transformar la variable Degradació mitjançant el logaritme neperià.
Dades Modifica variables de la taula de dades activa Calcula una nova variable
ANOVA bifactorial
Estadístics Mitjanes ANOVA de múltiples factors
Comprovació dels supòsits d’homogeneïtat de variàncies i normalitat amb gràfics:
Models Gràfics Gràfics bàsics de diagnòstic
Comprovació dels supòsits d’homogeneïtat de variàncies i normalitat amb contrastos
Comprovació de la significació de les interaccions i, si cal, reformula el model:
Models Gràfics Gràfics dels efectes
boxplot(Log_Degradació~Emmagatzematge*Cons_f, data=Degradació,col=(c("gold","darkgreen")))
Amb l’R comander no podem fer l’anàlisi sense interacció, i ho haurem de fer en mode comanda. Copieu aquestes expressions a la finestra d’instruccions. Fixeu-vos que el model especificat combina les dues
variables factor amb un signe “+”, fet que indica que no hi ha interacció entre elles:
Anova_2_Bifactorial <- (lm(Log_Degradació ~ Cons_f+Emmagatzematge, data=Degradació))anova(Anova_2_Bifactorial)
Comprovació dels supòsits d’homoscedasticitat i normalitat amb gràfics:
oldpar <- par(oma=c(0,0,3,0), mfrow=c(2,2))
plot(Anova_2_Bifactorial)
par(oldpar)
Comprovació dels supòsits d’homoscedasticitat i normalitat amb contrastos:
leveneTest(Log_Degradació ~Cons_f*Emmagatzematge, data=Degradació)
shapiro.test(Anova_2_Bifactorial$res)
Interpretació de resultats
La realització de proves a posteriori d’una ANOVA bifactorial és més complexa que per una unifactorial i es pot fer escrivint les comandes a la finestra d’instruccions directament.
summary(glht(Anova_2_Bifactorial, linfct=mcp(Cons_f="Tukey")))
NOTA IMPORTANT: la funció glht , que acabem d’utilitzar, està en el paquet multcomp d’R. Aquest paquet ha d’estar instal·lat i carregat abans de fer servir la funció de la mateixa manera que vam fer per instal·lar i carregar l’R-Commander. Si no el teniu carregat, l’R-commander us ho indicarà amb aquest missatge: ERROR: Could not find function “glht”.
Correlació lineal
Comprovació gràfica i numèrica de la relació lineal
Gràfics Diagrama de dispersió (Desactivem Línia de mínims quadrats i línia suavitzada [smooth], activem caixes de dispersió marginals)