Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Pràctiques Estadística, Ejercicios de Estadística

Pràctiques Rcomander 1r estadística

Tipo: Ejercicios

2018/2019

Subido el 21/05/2019

laupic7
laupic7 🇪🇸

5

(2)

2 documentos

1 / 25

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
EXÀMEN Rcmdr
P1. Descriptiva Univariant
Data: Categòrica Ordinal
Riquesa: Numèrica Categòrica Discreta
Conductivitat: Numèrica contigua
Riquesa_unitat_esforç: Numèrica
Tipus_aigua: Categòrica Ordinal
Estació: Categòrica
Categòric: Gràfic de sectors i Gràfic de barres.
Numèric: Histograma, Caixa de dispersió i Gràfic de tiges i fulles.
Variable Categòrica
1. Taula de freqüències: Estadístics Resums Distribucions de freqüències
Seleccionem variable.
2. Gràfic de barres: Gràfics Gràfic de barres Seleccionem variable
(Opcions): Canviem opció eix y per freqüència. Ens el farà amb les
freqüències absolutes, però si el volem amb les relatives hem d’introduir
el següent: Barplot(exercici_1$tipus_aigua, xlab=”tipus_aigua”, scale =
c(“percent”), ylab=”Freq. Relatives”)
3. Diagrama de sectors: Gràfics Gràfic de sectors Seleccionem variable.
Si tenim 5 o més variables NO fem servir gràfic de sectors perquè es comença
a veure malament. Millor el de barres.
Dada màxima: Percentil 100
Dada mínima: Percentil 0
Mitjana: Mean
Rang: Distància entre dada gran i dada petita
Desviació estàndard: sd
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19

Vista previa parcial del texto

¡Descarga Pràctiques Estadística y más Ejercicios en PDF de Estadística solo en Docsity!

EXÀMEN Rcmdr

P1. Descriptiva Univariant

Data: Categòrica Ordinal

Riquesa: Numèrica Categòrica Discreta

Conductivitat: Numèrica contigua

Riquesa_unitat_esforç: Numèrica

Tipus_aigua: Categòrica Ordinal

Estació: Categòrica

Categòric : Gràfic de sectors i Gràfic de barres.

Numèric : Histograma, Caixa de dispersió i Gràfic de tiges i fulles.

Variable Categòrica

  1. Taula de freqüències: Estadístics Resums Distribucions de freqüències Seleccionem variable.
  2. Gràfic de barres: Gràfics Gràfic de barres Seleccionem variable (Opcions): Canviem opció eix y per freqüència. Ens el farà amb les freqüències absolutes, però si el volem amb les relatives hem d’introduir el següent: Barplot(exercici_1$tipus_aigua, xlab=”tipus_aigua”, scale = c(“percent”), ylab=”Freq. Relatives”)
  3. Diagrama de sectors: Gràfics Gràfic de sectors Seleccionem variable.

Si tenim 5 o més variables NO fem servir gràfic de sectors perquè es comença a veure malament. Millor el de barres.

Dada màxima: Percentil 100

Dada mínima: Percentil 0

Mitjana: Mean

Rang: Distància entre dada gran i dada petita

Desviació estàndard: sd

Mediana: Percentil 50

Variable numèrica

  1. Anàlisi numèrica: Estadístics Resums Resums numèrics Variable
  2. Histograma: Gràfics Histograma Variable
    • Comptatge de freqüències: Freqüències absolutes
    • Percentatges: Freqüències relatives
    • Si volem fer intervals? breaks=seq(0,36,length=7) Amb aquesta comanda marquem 7 punts a l’interval (0,36), quedant-nos 6 intervals: de 0 a 6, de 6 a 12,... with(exercici_1, Hist(conductivitat, scale="frequency", breaks= seq(0,36,length=7), col="darkgray"))
  3. Caixa de dispersió: Gràfics Caixa de dispersió Variable Seleccionarem: Identifica valors atípics amb el ratolí.
  4. Gràfic de tiges i fulles: (Quan tenim poques dades) Gràfics Gràfic de tiges i fulles Variable (Si l’haig de fer, anar a la pg. 7 de la sessió 1)

P2. DESCRIPTIVA BIVARIANT (1)

Tenim 3 casos:

  1. Estudi de dues variables categòriques
  2. Estudi d’una variable categòrica i una variable numèrica
  3. (^) Estudi de dues variables numèriques

Tipus Variables Eines gràfiques Eines numèriques

Dues categòriques

Gràfics de barres o sectors per categories

Taules de contingència o taules dels creuaments

Categòrica i Numèrica

Diagrames de caixa múltiple. Una caixa per a cada categoria sobre un

Comparativa dels resums numèrics separadament per cada categoria

Estadístics Taula de contingència Introduir i analitzar una taula

Indiquem primer les fileres i les columnes, omplim la taula i seleccionem imprimeix les freqüències esperades.

La independència es basa en comparar les freqüències absolutes observades en cada casella amb freqüències absolutes esperades, en el supòsit d’independència de les dues variables categòriques.

Estudi conjunt d’una variable numèrica i un factor

Com que es tracta d’una variable numèrica i d’un factor o variable categòrica, haurem de treballar i comparar les dades grup a grup.

Resum numèric: Estadístics Resums Resums numèrics Resum numèric segons grups

Caixa de dispersió: Gràfics Caixa de dispersió Gràfic segons grups

P3. DESCRIPTIVA BIVARIANT (2)

Estudi conjunt de dues variables numèriques

Diagrama de dispersió: Gràfics Diagrama de dispersió (Desactivem opció de Caixes de dispersió marginals, Línia de mínims quadrats i Línia suavitzada.

S’observa una relació positiva entre les dues variables, tot i que sembla molt lineal, també es poden detectar individus atípics allunyats del patró general.

Ex: D'entre tots els gràfics hem de valorar quin és el que mostra un millor ajust lineal. És de suposar que després d'aquesta primera anàlisi gràfica arribareu a la conclusió que les gràfiques de coll_cir i de pit_circ són les que presenten una millor relació lineal. Si us fixeu bé però, a la gràfica i de pit_circ els punts presenten menys dispersió. Per aquest motiu direm que gràficament la longitud de la circumferència del pit és la millor de les variables morfològiques per explicar el pes d'un ós.

Es poden fer tots els gràfics de dispersió en un sol gràfic: Gràfics Matriu de diagrames de dispersió.

Coeficient de correlació: (Anàlisi numèrica) Estadístics Resums Matriu de correlacions Com millorem correlació entre dues variables? Dades Modifica variables Calcula una nova variable. Ex: “Nom de la variable”= log.cos_lon i “Expressió”= log(cos_lon). Model de regressió

Aquest model es planteja quan dues variables sembla que estan ben correlacionades linealment: Ens permetrà fer estimacions d’una variable a partir del coneixement de l’altre variable. Estadístics Ajustament de models Regressió lineal. Valor ordenada en l’origen (b0): Coefficients Estimate intercept

Valor del pendent (b1): Coefficients Estimate (nom variable) Per veure la recta de regressió juntament amb el núvol de punts: Gràfics Diagrama de dispersió. (Desactivarem les opcions de Caixes de dispersió marginals i Línia suavitzada). Dades influents i atípiques: Models Gràfics Gràfics bàsics de diagnòstic. Ens fixarem en: Residuals vs Fitted i Residuals vs Leverage. Fixem-nos ara en el gràfic de Residuals vs Leverage, per a les dades influents. En aquest ens dibuixa “corbes de nivell” de l’estadístic Distància de Cook. Per defecte només posa la línia de Cook per al valor 0 en vermell. Si hi ha dades atípiques ens dibuixaria les línies de distància de Cook de 0.5, 1, 1,5... Aquells valors amb distància de Cook superior a 1 són influents. Valor predit per l’equació: predict(RegModel.1,list(pit_circ=100)) Valor de X pel que volem la predicció de Y.

Representació conjunta de múltiples variables Gràfic de línies de coordenades paral·leles, Gràfics d’estrella o teranyina

Pg. 10 Sessió 3 Representació conjunta de variables composicionals ternàries

P[X<13], Acumularíem cap a la dreta si ens demanessin la probabilitat de tenir més de 13) Per calcular la probabilitat que tingui una longitud entre 4 i 16 haurem de calcular la probabilitat acumulada fins a 16 i restar-li la probabilitat acumulada fins a 4: P(4^ F 0A 3 XF 0A 3 16)= P(XF 0A 3 16)-P(XF 0A 3 4) Aquesta la podríem obtenir amb el mateix menú anterior canviant l’opció de Cua a la esquerra i dient que els valors són 16 i 4. Quina és longitud màxima que fan el 95% de les extremitats? (Ens estan demanant quin valor és el quantil 95) Distribucions Distribucions contínues Distribució Normal Quantils normals (Probabilitat: 0.95, acumularem a l’esquerra)

Model Poisson + relació amb Binomial (Loteria, boles blanques, probabilitats d’èxit molt baixes)

Funció de densitat: Distribucions Distribucions discretes Distribució Binomial Traça una distribució (BINOMIAL) Funció de densitat: Distribucions Distribucions discretes Distribució Poisson Traça una distribució (POISSON)

P5. INTERVALS DE CONFIANÇA

Estimació de la mitjana a partir d’una mostra:

Nivell de confiança del 95%, quin interval obtindrem?

Donat que desconeixem la desviació estàndard poblacional, caldrà estimar-la a partir de la desviació estàndard corregida de la mostra per la qual cosa l'estimació de la mitjana poblacional caldrà fer-la a partir d'una distribució t- Student. Abans, però, fem una descriptiva de la variable

Estadístics Resums Resums numèrics (Desactivem opció dels quantils) Estadístics Mitjanes t-test per una variable

N'hi ha prou que indiqueu la variable ’Sucres’ que conté les dades de la mostra. Observeu que, per defecte, R ja considera que l'estimació es vol fer a un nivell de confiança del 95% (vegeu el valor .95 del Nivell de confiança) Calcula t (^) /2,n-1=t0.025,15 usant el quantil corresponent de la distribució t-Student:

Distribucions Distribucions continues Distribucions t Quantils t A la pràctica, molt poques vegades us trobareu en la necessitat d'estimar o contrastar la mitjana d'una població de desviació estàndard sigma coneguda. Si fos així, sabeu per teoria que l'estimació es fa a partir de la distribució normal estàndard en comptes de la distribució t-Student i la desviació de la mitjana mostral ve donada per : sigma/arrel de n. Estimació d’una proporció

Descriptiva de la variable: Estadístics Resums Distribucions de freqüències

Interval de confiança al voltant de la proporció mostral: Estadístics Proporcions Test de proporcions per a una mostra NOTA: En els intervals i contrastos de proporcions, pot ser que no calculi l’interval de l’esdeveniment que ens interessa, sinó el del complementari. Si passa això, o podeu recodificar la variable o interpretar els valors fent el complementari de les proporcions. La darrera línia ens informa sobre el nombre la proporció mostral (sample p) i abans de l’interval de confiança de la proporció poblacional p (95.0% CI), i d’altres estadístics.

Estimació de la diferència de mitjanes a partir de dues mostres independents Primer anàlisi descriptiva numèrica i gràfica: Estadístics Resums Resums numèrics (Activarem la casella Resums per grups) Gràfics Caixa de dispersió (Gràfics segons grups)

Estadístics Mitjanes T-test per a mostres independents (Activem l’opció assumir variàncies iguals)

es la mitjana de la mostra, 0 és la mitjana poblacional que figura a la hipòtesi

nul·la, i s es la desviació estàndard (corregida) de la mostra. Sabem per teoria que aquest estadístic s'ajusta aproximadament a una llei t -Student amb n - graus de llibertat, essent n la mida de la mostra.

A la pràctica, molt poques vegades us trobareu en la necessitat de contrastar la mitjana d'una població de desviació estàndard coneguda. Si fos així, sabeu per teoria que el contrast es fa a partir de la distribució normal estàndard en comptes de la distribució t-Student

Contrast d’una proporció

La pregunta equival a realitzar el contrast H 0 : p 0 =0.80 en front de la H 1 :

p 0 >0.80, on p 0 simbolitza la proporció de pomes “dolces”.

Anàlisi descriptiva: Estadístics Resums Distribucions de freqüències

NOTA: Fixem-nos que ens dóna primer la informació dels “no” i després dels “si”. En aquest cas l’esdeveniment en el que centrarà els càlculs serà el no, el complementari que ens interessa. Recodificarem la variable, per no haver d’interpretar els valors fent el complementari de les proporcions. Dades Modifica variables de la taula activa Reordena els nivells d’un factor

El fet que la proporció mostral hagi sortit 0.75, ens pot fer sospitar que la hipòtesi alternativa no sigui certa, ja que no superem el 0.8. Recordeu que per dur a terme aquest contrast, l'estadístic que fem servir és Z. Anem a realitzar el contrast H 0 : p 0 0.80 en front de la H 1 : p 0 >0.80, on p 0

simbolitza la proporció de pomes “dolces” amb ajuda de R.

Estadístics Proporcions Test de proporcions per una mostra (H0: 0.8 i H1: + 0.8) (Deixem l’opció aproximació normal) La primera línia ens informa del tipus de test que hem aplicat, a continuació ens informa sobre la proporció a contrastar com a hipòtesi nul·la. La tercera línia ens dóna el quadrat del valor de l’estadístic de contrast (X-squared) i el valor p del contrast (p-value). A més ens dóna informació sobre la hipòtesi alternativa,

l’interval de confiança i l’estimador mostral, és a dir, el nombre d'èxits observats sobre la mostra. Contrast de la diferència de mitjanes a partir de dues mostres independents Independents: Cada persona portava ulleres diferents, haurem de saber si la desviació estàndard és la mateixa o no en les dues poblacions.

Aparellades: Mateixa persona dos tipus de vidres. A partir d'aquestes dades ens proposem analitzar si hi ha o no diferència significativa entre el contingut mitjà en sucres de les dues parts de la poma, la part vermella i exposada al sol en comparació a la part groga i no exposada al sol.

Des d'un punt de vista estadístic aquest estudi equival a realitzar el contrast H 0 : G=^ V en front de la H^1 :^ GV, on la^ simbolitza genèricament la mitjana poblacional del contingut de sucres.

Abans de realitzar aquest contrast de forma efectiva convé fer prèviament una anàlisi descriptiva numèrica i gràfica dels continguts en sucre segons la localització. Estadístics Resums Resums numèrics (Activem casella resum per grups) Existeix un contrast d’hipòtesi, anomenat F-Test, per a veure si les variàncies són iguals. El contrast que es realitza és H 0 : (equivalent a H 0 : ) en front de la H 1 :. Estadístics Variàncies Test F de dues variàncies (Deixem per defecte Contrast bilateral) Posem, sucres: variable resposta // Localització: Variable genera els grups. Com en tot contrast d’hipòtesis, per tal d’obtenir resposta, cal que ens fixem en el resultat del valor p (del F-Test) i decidir en conseqüència: Valor p + gran que 0.05 Variàncies iguals Anàlisi gràfica: Gràfics Caixa de dispersió

comandes com aquestes s’han generat en la finestra d’instruccions quan heu fet el test anterior).

Table <- matrix(c(1213,215,52,23,2408,442,92,35,1820,328,74,29), 3, 4, byrow=TRUE)

rownames(Table) <- c('A', 'B', 'C')

colnames(Table) <- c('Ans', 'Cha', 'Fal', 'Cic')

A continuació, tenim la funció g.test que l’aplicarem a la taula que hem anomenat Table. Podeu copiar i enganxar la funció g.test i un cop enganxada l’executeu.

g.test=function(taula){

funció que ens realitza un test g d'independència sobre una taula

de contingència

ens dóna el valor de l'estadístic G i el valor p

#variables entrada

taula: taula de contingència

#variables sortida

estadístic de contrast, graus de llibertat i valor p

valors=chisq.test(taula) # obtenim les freqüències esperades i les observades a través del chisq g<-2sum(valors$observedlog(valors$observed/valors$expected)) nu<-prod(dim(taula)-1) # càlcul dels graus de llibertat (m-1)(n-1) p=1-pchisq(g,nu) # càlcul del valor p sortida=paste("G =",round(g,4),", ","df =",nu,", ","p-value =",round(p,4)) cat( "\n"," Contrast G d'independència (raó de versemblances)", "\n", "\n", sortida, "\n", "\n") resultat=list(g,nu,p)

}

I a continuació apliquem la funció g.test a la taula Table: q.test(Table)

Si p valor és > 0.05 , són independents

Contrast Chi-Quadrat de bondat d’ajust a un model

No hi ha un menú senzill a R-Commander que estigui preparat per a fer un contrast de bondat d’ajust a unes freqüències discretes però sí que hi ha paquets que poden fer el test de bondat d’ajust sobre models de distribució concrets com poden ser el Binomial, el Poisson,... (com podríem fer carregant el Package vcd).

El que farem és fer servir una nova funció test.bondat.khi on li haurem de donar dos paràmetres, un vector de freqüències observades i un vector que contingui les probabilitats a les que s’han d’ajustar les dades sota la H 0.

Començarem definint el vector de freqüències observades per als fenotips de les mosques. Anem a la finestra d’instruccions i escrivim: mosques=c(12,72)

Prob=c(1/4,3/4)

A continuació ho executem i ja tenim definit el vector de freqüències observades i les probabilitats sota el model de la hipòtesi nul•la. La funció test.bondat.khi ens calcularà les freqüències esperades, l’estadístic de contrast i el valor p del contrast sobre si segueix o no la H0.

Per a això primer carreguem la funció test.bondat.khi i després l’executem amb els dos vectors de paràmetres.

test.bondat.khi=function(observats,probs){

funció que ens realitza un test khi de dondat d'ajust

ens dóna el valors esperats, l'estadístic Khi i el valor p

#variables entrada

Començarem definint el vector de freqüències observades per a les dades de creuament dihíbrid de Mendel. Anem a la finestra d’instruccions i escrivim:

pesols = c(122,40,35,10)

A continuació ho executem.

Ara definim el vector de les probabilitats dels creuaments sota hipòtesi nul•la. Com que segons les lleis de Mendel les ràtios són de 9:3:3:1, les probabilitats són 9/16, 3/16, 3/16 i 1/16.

probab= c(9/16,3/16,3/16,1/16)

A continuació ho executem i ja tenim definit el vector de freqüències observades i les probabilitats sota el model de la hipòtesi nul•la. La funció test.bondat.G ens calcularà les freqüències esperades, l’estadístic de contrast i el valor p del contrast sobre si segueix o no la H0.

Per a això carreguem la funció test.bondat.G i l’executem amb els dos vectors de paràmetres.

test.bondat.G=function(observats,probs){

funció que ens realitza un test G de dondat d'ajust

ens dóna el valors esperats, l'estadístic Khi i el valor p

#variables entrada

observats: freqüències observades

probs: probabilitats teòriques

#variables sortida

valors esperats, estadístic de contrast, graus de llibertat

i valor p

total=sum(observats) esperats=totalprobs # obtenim les freqüències esperades g<-2sum(observats*log(observats/esperats)) nu<-length(observats)-1 # càlcul dels graus de llibertat (n-1) p=1-pchisq(g,nu) # càlcul del valor p sortida=paste("G =",round(g,4),", ","df =",nu,", ","p-value =",round(p,4)) cat( "\n"," Contrast G de bondat d'ajust", "\n", "\n","Valors esperats =", esperats, "\n", "\n",sortida, "\n", "\n") resultat=list(esperats, g,nu,p)

}

Ara l’executem: test.bondat.G(pesols, probab)

Contrast de normalitat d’unes dades

Distribucions Distribucions contínues Distribució Normal Mostra d’una distribució normal (Posem com a nom normal i indiquem que la mitjana val 100 i la desviació 10, desactivem mitjanes)

Ara tenim una nova taula de dades (podeu visualitzar-la, si voleu) i a aquesta taula de dades li aplicarem el contrast de Normalitat de Shapiro- Wilk.

Estadístics Resums Test de Normalitat de Shapiro-Wilk (indiquem que el volem aplicar a la variable obs)

P8. ANOVA

Compararem mitjanes H0: μc = μm = μb H1: Diferents

Realització del contrast

Anàlisi descriptiva de les dades:

Estadístics Resums Resums numèrics

Estadístics Mitjanes Anova d’un factor Gràfic 2 a 2

ANOVA bifactorial

Pre procés de les dades

Dades Modifica variables de la taula de dades activa Convertir variables numèriques a factor

Gràfics Histograma

En el cas que presentin biaix cap a la dreta és convenient aplicar alguna transformació que redueixi més els valors més grans, com el logaritme o alguna arrel (quadrada, cúbica...). En aquest cas provarem a transformar la variable Degradació mitjançant el logaritme neperià.

Dades Modifica variables de la taula de dades activa Calcula una nova variable

ANOVA bifactorial

Estadístics Mitjanes ANOVA de múltiples factors

Comprovació dels supòsits d’homogeneïtat de variàncies i normalitat amb gràfics:

Models Gràfics Gràfics bàsics de diagnòstic

Comprovació dels supòsits d’homogeneïtat de variàncies i normalitat amb contrastos

Comprovació de la significació de les interaccions i, si cal, reformula el model:

Models Gràfics Gràfics dels efectes

boxplot(Log_Degradació~Emmagatzematge*Cons_f, data=Degradació,col=(c("gold","darkgreen")))

Amb l’R comander no podem fer l’anàlisi sense interacció, i ho haurem de fer en mode comanda. Copieu aquestes expressions a la finestra d’instruccions. Fixeu-vos que el model especificat combina les dues

variables factor amb un signe “+”, fet que indica que no hi ha interacció entre elles:

Anova_2_Bifactorial <- (lm(Log_Degradació ~ Cons_f+Emmagatzematge, data=Degradació))anova(Anova_2_Bifactorial)

Comprovació dels supòsits d’homoscedasticitat i normalitat amb gràfics:

oldpar <- par(oma=c(0,0,3,0), mfrow=c(2,2))

plot(Anova_2_Bifactorial)

par(oldpar)

Comprovació dels supòsits d’homoscedasticitat i normalitat amb contrastos:

leveneTest(Log_Degradació ~Cons_f*Emmagatzematge, data=Degradació)

shapiro.test(Anova_2_Bifactorial$res)

Interpretació de resultats

La realització de proves a posteriori d’una ANOVA bifactorial és més complexa que per una unifactorial i es pot fer escrivint les comandes a la finestra d’instruccions directament.

summary(glht(Anova_2_Bifactorial, linfct=mcp(Cons_f="Tukey")))

NOTA IMPORTANT: la funció glht , que acabem d’utilitzar, està en el paquet multcomp d’R. Aquest paquet ha d’estar instal·lat i carregat abans de fer servir la funció de la mateixa manera que vam fer per instal·lar i carregar l’R-Commander. Si no el teniu carregat, l’R-commander us ho indicarà amb aquest missatge: ERROR: Could not find function “glht”.

P9. CORRELACIÓ I REGRESSIÓ LINEAL

Correlació lineal

Comprovació gràfica i numèrica de la relació lineal

Gràfics Diagrama de dispersió (Desactivem Línia de mínims quadrats i línia suavitzada [smooth], activem caixes de dispersió marginals)