Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Apuntes R, Apuntes de Estadística

Asignatura: Estadística, Profesor: Guillermo Ayala, Carrera: Ciències Ambientals, Universidad: UV

Tipo: Apuntes

2012/2013

Subido el 24/10/2013

anmaro9
anmaro9 🇪🇸

1 documento

1 / 7

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
x = read.table ("91.tarea.1.txt") #leer los datos
attach(x) #adjuntar
library(x) #extraer, cargar paquete
data(x) #cargar datos/recuperar una base de datos
View(x) #ver tabla
Fix (airquality) #generar tabla
dim(airquality) #dimensión de la base de datos
help(airquality) #ayuda sobre la base de datos
names(airquality) #nombres
summary(V1) #resumen
summary(Ozone[Month==5])
summary(Ozone[mes=="Mayo"])
table(Month) #tabla de frecuencias
table(Month[Month==5])
table(airquality$Month)
mes=factor(Month,Labels=c("Mayo","Junio", ) #cambiar variables por
alfanuméricas, crear nueva variable
aq=cbind(airquality,mes) #relacionar variables
IQR(V1) # calcular el rango intercuartílico
var(V1) # calcular la varianza
mean(V1,trim=0.2) # calcular la media recortada al 20%
mean(V2[V3==4]) # media para casos concretos
mean(Ozone[Month==6],na.rm=T)
var(V2[V3<=3]) #calcular la varianza muestral de los valores V2 tales
que…
length(V3[V3==4]) # número de casos/longitud
length(V3[V3<=3]) # número de casos/longitud
length(V2>(mean(V2)+3*sd(V2))) # número de casos/longitud
length(V2>(quantile(V2,probs=0.75)+1.5*IQR(V2))) # número de casos/
longitud
pf3
pf4
pf5

Vista previa parcial del texto

¡Descarga Apuntes R y más Apuntes en PDF de Estadística solo en Docsity!

x = read.table ("91.tarea.1.txt") #leer los datos attach(x) #adjuntar library(x) #extraer, cargar paquete data(x) #cargar datos/recuperar una base de datos View(x) #ver tabla Fix (airquality) #generar tabla dim(airquality) #dimensión de la base de datos help(airquality) #ayuda sobre la base de datos names(airquality) #nombres summary(V1) #resumen summary(Ozone[Month==5]) summary(Ozone[mes=="Mayo"]) table(Month) #tabla de frecuencias table(Month[Month==5]) table(airquality$Month) mes=factor(Month,Labels=c("Mayo","Junio", ) #cambiar variables por alfanuméricas, crear nueva variable aq=cbind(airquality,mes) #relacionar variables IQR(V1) # calcular el rango intercuartílico var(V1) # calcular la varianza mean(V1,trim=0.2) # calcular la media recortada al 20% mean(V2[V3==4]) # media para casos concretos mean(Ozone[Month==6],na.rm=T) var(V2[V3<=3]) #calcular la varianza muestral de los valores V2 tales que… length(V3[V3==4]) # número de casos/longitud length(V3[V3<=3]) # número de casos/longitud length(V2>(mean(V2)+3sd(V2))) # número de casos/longitud length(V2>(quantile(V2,probs=0.75)+1.5IQR(V2))) # número de casos/ longitud

length(Ozone[Month==5|Month==9]) prop.table(table((V2<=93)&(V3==3))) # calcular la frecuencia relativa de casos en que la variable es… /proporción de cada dato? quantile(Ozone,probs=0.75,na.rm=T) #calcular quartiles (extremoinferior = (n-1)s2 / qchisq(1-alpha/2,df=n-1))#calcular varianza y nivel de confianza!? (extremosuperior = (n-1)s2 / qchisq(alpha/2,df=n-1)) boxplot(Ozone) #dibujar diagrama de cajas boxplot(Ozone~mes) #dibujar diagrama de cajas de esa variable en varios meses boxplot(Ozone,mes) #representación de dos variables plot(dia,Godella,type="l", ylim=c(1,200),xlab="Dia",ylab="Ozono") #crear gráfica lines(dia,Madrid,type="l",col=2) lines(dia,Zaragoza,type="l",col=3) ##### diferentes colores lines(dia,Santiago,type="l",col=4) lines(dia,Murcia,type="l",col=6) abline(a=47.4525,b=0) #linea que indica la media tempc=(Temp-32)*(5/9) #pasar de grados farenheit a centígrados t.test(datos,conf.level=0.95)$conf.int #calcular intervalo de confianza para la concentración media

petroleo.playa=V1[V2==0] t.test(petroleo.playa,conf.level=0.99)$conf.int t.test(petroleo.playa,conf.level=0.99) mean(V1[V2==1]) ##intervalo de confianza para la concentración media petroleo.roca=V1[V2==1] t.test(petroleo.roca,conf.level=0.975)

var(V1[V2==0]) var.petroleo.playa=V1[V2==0]

t.test(datos,mu=[0,med],alternative[less,greater,two sided]conf.level) #para una muestra rechazar hipotesis nula=hipotesis nula no esta en el intervalo de cofianza 95% =relacionar con el valor de p t.test(bombillas,mu=1500,alternative="greater") t.test(bombillas,alternative="greater") Ni.Rus=Ni[COUN=="RUS"] t.test(Ni.Rus,mu=20,alternative="greater") t.test(Ni.Rus,mu=23,alternative="two.sided") #no se rechaza [p e intervalo] t.test(Ni.Rus,alternative="two.sided") #utilizar solo el intervalo

Gráficamente qqnorm(x) # si se ajustan, es normal qqline(x) Ho: los datos proceden de una distrib. normal H1: los datos no...

  • shapiro.test(x)
  • library(nortest) pearson.test(x)
  • library(nortest) lillie.test(x)

REGRESIÓN LINEAL

names(gala) = c ("Species","Endemics","Area","Elevation","Nearest","Scruz","Adjacent") a.lm=lm(Species~Area+Elevation+Nearest+Scruz+Adjacent) b.lm=lm(Species~Elevation+Adjacent)

summary(a.lm) #p-value summary(b.lm) #Pr(>|t|) de Elevation /p-value de Elevation

coef(a.lm) #coeficientes de la regresión coef(b.lm) #intercept=valor estimado de la constante summary(a.lm) #Adjusted R-squared: coeficiente de determinación ajustado summary(b.lm) #Multiple R-squared: coeficiente de determinación pred.b=predict(b.lm,new.data=data.frame (Elevation=368.03,Adjacent=261.10)) #predicción de número de especies con otros números en los predictores mean(pred.b) cor(Species,Endemics) #coeficiente de corelación (pearson!!) residuals(a.lm) #residuos summary(residuals(b.lm)) #resumen residuos/max y min

x=lm(gamble~sex+status+income+verbal) summary(x) residuals(x) max(residuals(x)) summary(residuals(x)) mean(residuals(x)) median(residuals(x)) cor(residuals(x),predict(x)) #predict=valores ajustados, coeficiente de correlación cor(residuals(x),income) #income=ingresos, coeficiente de corelación predict(x) #valores ajustados/predicción which.max(residuals(x)) #donde se encuentra el residuo mayor, max r cuadrado cerca de 1 , mejor.


EJERCICIOS *temperatura media de septiembre:

mean(tempc[Month==9]) [1] 24. mean(Temp[Month==9]) (76.9-32)*(5/9)

alpha=0.

n=length(Sc) qt(1-alpha/2,df=n-1)*sd(Sc)/sqrt(n) [1] 0.

EJERCICIO 6

  1. Multiple R-squared: 0.5267 [[porecentaje de variación de la respuesta]]
  2. 94.25222 24 [[Observación que tiene el residuo positivo mayor]]
  3. 1.240143e-16 [[Media y mediana de residuos]] -1.
  4. -4.719262e-17 [[corelación de los residuos con valores ajustados, predict]]
  5. -3.961603e-17 [[corelacion residuos con ingresos]]
  6. -22.11833 "estimate", diferencia en valores predichos
  7. p-value: 1.815e-06 p menor de alpha: rechazo Ho, beta no es igual a 0
  8. 0.0101 "Pr" p menor de alpha: rechazo Ho cada uno de los predictores, uno por uno, comparar Pr para "eliminar variables"