









Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
MATERIAL para re alizar las practicas con R
Tipo: Apuntes
1 / 16
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










1 Introducció 1
2 Preparant R : instal·lant paquets addicionals 2
3 Llegint dades 2
4 Taules of Frequencies Univariants 2 4.1 Per a variables discretes....................................... 3 4.2 Per a variables contínues....................................... 3
5 Taules de Freqüències Bivariants 3 5.1 Taules de contingència........................................ 4 5.2 Taules de freqüències marginals................................... 4 5.3 Taules de Freqüències Condicionals................................. 4
6 Reresentacions gràfiques 4 6.1 Per a variables discretes....................................... 4 6.2 Per a variables contínues....................................... 5
7 Mesures de posició, dispersió i forma 6 7.1 Mesures de posició.......................................... 6 7.2 Mesures de dispersió......................................... 6 7.3 Mesures de forma........................................... 6
8 Covariància i coeficient de correlació 7
9 Variables Aleatòries 7 9.1 Distribució Binomial......................................... 7 9.2 Distribució Geomètrica........................................ 8 9.3 Distribució de Poisson........................................ 9 9.4 Distribució Exponencial....................................... 10 9.5 Distribució Nornal.......................................... 10 9.5.1 Càlcul de probabilitats i valors crítics........................... 11 9.5.2 Simulació d’una variable aleatòria Normal......................... 12 9.6 Taula Resum............................................. 15
Aquest document és un recull dels conceptes més importants sobre R que es van tractar durant les sessions pràctiques d’ Estadística I , i pretén ser d’utilitat per continuar amb les pràctiques de R en Estadística II.
Suposarem que R està correctament instal·lat i actualitzat, tal com s’explica al primer capítol del document “ Estadística per l’economia i l’empresa amb R Studio ”, que va ser distribuït durant el curs d’Estadística I
2 Preparant R : instal·lant paquets addicionals
Recordeu: Quan s’executa, R s’inicia amb només un conjunt bàsic d’instruccions disponibles. Depenent de la tasca a realitzar, però, cal proporcionar més instruccions a R. Aquestes es poden obtenir instal·lant paquets addicionals que no formen part de la instal·lació base de R. Aquests paquets sempre es troben a la Xarxa d’arxius de R , CRAN, i estan preparats per ser descarregats i instal·lats des de R. Per Estadística I es van fer servir els següents paquets:
Aquest procés només s’ha de fer una vegada. Un cop aquests paquets estan instal·lats al sistema, es poden carregar a R mitjançant la comanda libray (nom_del_paquet)
D’aquesta manera, totes les comandes que pertanyen al paquet nom_del_paquet estan disponibles per a ser usades a la sessió activa de R.
3 Llegint dades
Per a fer que un conjunt de dades emmagatzemades a un fitxer csv anomenat nom_del_fitxer.csv estiguin disponibles a R Studio :
El símbol <- al codi de dalt. És l’ operador d’assignació a R. Assigna un objecte (un número, un vector, una taula,... ) a un nom. És a dir, dóna un nom a aquest objecte. Recordeu: Si el fitxer nom_del_fitxer.csv no es troba a la mateixa carpeta que el fitxer de R amb el qual s’està treballant, si no dins una sub-carpeta anomenada Carpeta_de_Dades, per exemple, cal especificar aquesta localització en la comanda corresponent de R. Si no es fa així, R no podrà trobar aquestes dades library (readr) Dades <- read_csv ("Carpeta_de_Dades/nom_del_fitxer.csv")
4 Taules of Frequencies Univariants
Les taules de freqüències s’obtenen de diferents maneres depenent de si la variable que estem considerant és discreta o contínua. Això és així perquè en el cas continu les observacions s’han d’agrupar en intervals (o
Per crear una taula de contingència amb les variables variable_1 i variable_2, que anomenarem ContingencyTable utilitzarem la comanda CrossTable Notar al codi que segueix que totes les opcions disponibles s’estableixen en FALSE. En les subsegüents seccions veurem com els resultats varien quan canviem algunes d’aquestes opcions. Observar a més que el paquet gmodels es carrega primer. És necessari per utilitzar la comanda CrossTable, que construeix la taula. library (gmodels) ContingencyTable <- CrossTable (variable_1, variable_2, prop.r = FALSE, prop.c = FALSE, prop.t = FALSE, prop.chisq = FALSE)
Per produir la mateixa taula però amb freqüències relatives conjuntes , només cal canviar l’opció prop.t de FALSE a TRUE de la següent manera: RelContingencyTable <- CrossTable (variable_1, variable_2, prop.r = FALSE, prop.c = FALSE, prop.t = TRUE, prop.chisq = FALSE)
Les freqüències marginals s’obtenen sumant simplement les freqüències conjuntes per columnes (per a la variable variable_1) o les files (per a la variable variable_2). Això ja estava calculat per defecte a les taules anteriorment obtingudes RelContingencyTable <- CrossTable (variable_1, variable_2, prop.r = FALSE, prop.c = FALSE, prop.t = TRUE, prop.chisq = FALSE)
Les freqüències condicionals per a cada variable s’obtenen de la següent manera:
6 Reresentacions gràfiques
Veurem com representar un conjunt de dades L’objectiu és tenir una instantània visual de la informació continguda en les dades. La majoria d’aquestes representacions gràfiques se centraran en les freqüències de les diferents variables
Les principals representacions gràfiques en el cas de variables quantitatives qualitatives o discretes són diagrames de barres i diagrames circulars (o gràfics de pastís)
El codi R per al diagrama de barres és molt simple: la comanda table calcula les freqüències absolutes d’una variable anomenada variable_discreta i, a continuació, la comandabarplot s’ocupa de construir la gràfica corresponent. barplot ( table (variable_discreta))
En aquest gràfic, l’alçada de cada barra és proporcional a la freqüència de cada valor de la variable El gràfic seria el mateix si utilitzem les freqüències relatives en lloc de les absolutes, només l’escala en l’eix vertical seria diferent. El que importa és que les barres són proporcionals a les freqüències que representen. És molt útil explorar les possibilitats que ofereix aquesta comanda per personalitzar la gràfica que s’obté. L’exemple següent mostra algunes opcions. barplot ( table (variable_discreta), xlab = "Valors", ylab = "Freqüència absoluta", ylim = c (0,50), names.arg = c ("Molt alt", "Alt", "Mitjà", "Baix", "Molt baix"), col = c ("blue"), main = "Barplot de variable_discreta" )
D’una manera molt similar, podem crear un gràfic circular en R Studio A <- c ("Molt alt", "Alt", "Mitjà", "Baix", "Molt baix") B <- table (variable_discreta) C <- "Freqüències absolutes per variable_discreta"
pie (B, labels = paste (A, B), main = C)
Les principals representacions gràfiques en el cas de les variables contínues són histogrames i diagrames de caixa (barplots).
Primer crearem un histograma per a la variable variable_continua. Recordar que quan calculem una taula de freqüències per a una variable contínua amb el paquet agricolae primer es construeix un histograma amb la comandagraph.freq () i després es calcula la taula de freqüències corresponent amb la comanda ’table .freq ()‘. El codi era: library (agricolae) graph.freq (variable_continua, breaks = c (0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0), frequency = 2)
Notar que s’ha introduït l’opció frequency = 2 que, d’acord amb la “pàgina d’ajuda” (Help) de graph.freq, considerarà les freqüències relatives a l’hora de fer la gràfica. Ara crearem un diagrama de caixa per a variable_continua amb R. El codi utilitzat no podria ser més senzill: boxplot (variable_continua)
De vegades és interessant disposar d’un diagrama de caixa d’una variable donada per a diferents valors d’una altra variable. Això es coneix com una “diagrama de caixa factoritzat”. Per exemple, amb el següent codi tindrem un diagrama de caixa per la variable variable_continua per a cada valor diferent de la variable variable_discreta. De nou, la comanda és molt senzilla. boxplot (variable_continua ~ variable_discreta)
8 Covariància i coeficient de correlació
Per construir una taula amb variàncies i covariances i una altra amb els coeficients de correlació entre les variables contínues variable_1, variable_2, variable_3 utilitzem les comandes cov() i cor() que formen part de la instal·lació base R. cor (variable_1, variable_2, variable_3) cov (variable_1, variable_2, variable_3)
Cada una de les entrades a la primera taula mostrarà el coeficient de correlació entre les variables de la fila i la columna corresponents. La segona taula és equivalent, però mostra les variàncies i les covariàncies. Quan es treballa amb dues variables conjuntament, una representació gràfica adequada dels seus valors, un gràdic de dispersió , és una manera ràpida de fer-se una idea aproximada de la seva relació. Per exemple, per a les variables variable_1, variable_2 tindríem: plot (variable_1, variable_2, xlab = "variable_1", ylab = "variable_2", pch = 20, cex = 0.5)
9 Variables Aleatòries
Veurem com simular i calcular probabilitats associades a diferents tipus de variables aleatòries. En particular:
Per treballar amb la majoria de les distribucions de probabilitat clàssiques, tant discretes com contínues, R ofereix eines que faciliten la tasca. Per al cas específic de la distribució Binomial, per exemple, X ∼ B ( n, p ), R té les següents comandes que resulten útils:
paste ("P (X <= 4) =", pbinom (4,10,0.5))
paste ("P (2 paste ("P (10 <= X <11) = P (X = 10) =", dpois (10,5))
Per simular el comportament d’una variable Exponencial amb el paràmetre λ = 15 , és a dir, exp( 15 ) utilitzem el codi R:
EXPONENTIAL_SIMUL <- rexp (10000,1 / 5)
En aquest cas, els valors passats a la funció rexp en R són: 10.000 realitzacions d’una Exponencial amb paràmetre λ = (^15)
Com és habitual, fem una ullada als primers valors generats
head (EXPONENTIAL_SIMUL, 20)
Per calcular probabilitats podem utilitzar les comandes:
paste ("P (1 <= X <= 2) =", pexp (2,1 / 5) - pexp (1,1 / 5))
paste ("P (4 <= X <= 5) =", pexp (5,1 / 5) - pexp (4,1 / 5))
paste ("P (6 <= X <= 7) =", pexp (7,1 / 5) - pexp (6.1 / 5))
paste ("P (10 <= X <= 11) =", pexp (11,1 / 5) - pexp (10,1 / 5))
La distribució Normal és probablement la distribució més important en estadística. Descriu qualsevol escenari en què els diferents valors de la variable es concentren principalment al voltant de la mitjana, amb una certa dispersió simètrica cap als extrems.
Per exemple, els ingressos personals en una població determinada es troben, en la seva majoria, propera als ingressos mitjans, amb certa dispersió cap a ingressos més alts i més baixos.
A més, l’anomenat “Teorema central del límit” estableix que si sumem un gran nombre de variables aleatòries, independentment de la distribució que segueixin, aquesta suma estarà molt propera a una distribució Normal.
Finalment, algunes distribucions importants com la Binomial o la Poisson es poden aproximar mitjançant una distribució Normal.
9.5.1 Càlcul de probabilitats i valors crítics
En molts casos, el procés que hem de seguir per trobar les probabilitats associades a una distribució X ∼ N ( μ, σ^2 ) mitjançant taules resulta feixuc, i de vegades tan sols podem arribar a tenir un resultat aproximat. En aquest sentit, l’ús de R fa que la tasca sigui més simple i acurada. Podem trobar qualsevol probabilitat amb la comanda pnorm, que forma part de la instal·lació base de R.
Bàsicament, només hem de recordar que:
Ara utilitzarem R per calcular les següents probabilitats per una variable X ∼ N (3 , 2)
_# En tots els casos, notar l'ús de sqrt (2).
paste ("P (X <= 4) =", pnorm (4,3, sqrt (2), lower.tail = TRUE))
paste ("P (X> = 1) =", pnorm (1,3, sqrt (2), lower.tail = FALSE))
paste ("P (1 <= X <= 2) =", pnorm (2,3, sqrt (2), lower.tail = TRUE) - pnorm (1,3, sqrt (2), lower.tail = TRUE ))
Per tant,
De manera anàloga, podem trobar valors crítics que corresponen a una distribució Normal. És a dir, donada una probabilitat p , trobar el valor x tal que P ( X ≤ x ) = p (o P ( X ≥ x ) = p ).
En aquest cas, la comanda a utilitzar és qnorm.
De la mateixa manera que quan usem R per calcular les probabilitats, només ens hem de preocupar de:
density
NormalFreqTable
L’histograma que representa les freqüències relatives d’aquesta variable és molt similar a la funció de densitat d’una variable aleatòria Normal.
A més, per als intervals [65 , 70] , [80 , 85) , [95 , 100) i [140 , 145), per considerar només alguns, podem verificar que les seves freqüències relatives són molt similars a les seves probabilitats segons una N (100 , 400). Per fer-ho, procedim com hem fet a la secció anterior.
paste ("P (65 <= Z <= 70) =", pnorm (70,100,20, lower.tail = TRUE) -pnorm (65,100,20, lower.tail = TRUE))
paste ("P (80 <= Z <= 85) =", pnorm (85,100,20, lower.tail = TRUE) -pnorm (80,100,20, lower.tail = TRUE))
paste ("P (95 <= Z <= 100) =", pnorm (100,100,20, lower.tail = TRUE) -pnorm (95,100,20, lower.tail = TRUE))
paste ("P (140 <= Z <= 145) =", pnorm (145,100,20, lower.tail = TRUE) -pnorm (140,100,20, lower.tail = TRUE))
Comparant aquestes probabilitats (freqüències teòriques) amb les freqüències empíriques que hem obtingut de la nostra variable simulada NORMAL_SIMUL deixa clar que les diferències són molt petites.
paste ("mitjana =", mean (NORMAL_SIMUL))
paste ("variància =", var (NORMAL_SIMUL))
Un cop més, observem que els valors empírics trobats en R (observats) són similars als esperats (teòrics).
A més, si calculem el coeficient d’asimetria ( CA ) i la curtosi (millor dit, exces de curtosi, EC ),
paste ("CA=", skewness (NORMAL_SIMUL))
paste ("EC =", kurtosis (NORMAL_SIMUL))
llavors observem que l’asimetria és gairebé zero, el que suggereix una distribució simètrica (com en una distribució Normal), i que l’excés de kurtosi també és zero. Això ha de ser així perquè el EC es mesura amb respecte a la distribució Normal.
Càlcul de probabilitats amb R Studio
Distribucions discretes
Binomial (X ∼ B(n, p)) Geomètrica (X ∼ G(p)) Poisson (X ∼ P (λ)) P (X = a) dbinom(a,n,p) dgeom(a,p) dpois(a,λ) P (X ≤ a) pbinom(a,n,p) pgeom(a,p) ppois(a,λ) P (X > a) pbinom(a,n,p,lower.tail=FALSE) pgeom(a,p,lower.tail=FALSE) ppois(a,λ,lower.tail=FALSE) a tal que P (X ≤ a) = q qbinom(q ,n,p) qgeom(q ,p) qpois(q ,λ)
Notar que
Distribucions continues
Recordar que en aquest cas, per qualsevol a, tenim que P (X = a) = 0.
Exponencial (X ∼ exp(λ)) Normal (X ∼ N (μ, σ^2 ) P (X ≤ a) = P (X < a) pexp(a,λ) pnorm(a,μ,σ) P (X > a) = P (X ≥ a) pexp(a,λ,lower.tail=FALSE) pnorm(a,μ,σ,lower.tail=FALSE) a tal que P (X ≤ a) = q qexp(q ,λ) qnorm(q ,μ,σ)
En tots els casos, P (a ≤ X ≤ b) = P (X ≤ b) − P (X < a)