Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


tutorial practica rstudio, Apuntes de Estadística

tutorial para practica rstudio

Tipo: Apuntes

2018/2019

Subido el 26/11/2019

Pepamoco3.
Pepamoco3. 🇪🇸

3 documentos

1 / 7

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estadística I - Pràctica 1
Xavier Vilà - Cur 2018-2019
Índex
1 Introducció 1
2 Objectius 2
2.1 Conceptes teòrics relacionats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
3 Preparant R: instal·lant paquets addicionals 2
4 Llegint dades 3
5 Taules de Freqüències Univariants 5
5.1 Per a variables qualitatives o quantitatives amb pocs valors . . . . . . . . . . . . . . . . . . . 5
5.2 Per a variables quantitatives amb molts valors . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1 Introducció
Benvinguts a les sessions pràctiques d’R!
Rés un potent llenguatge de programació per realitzar anàlisis estadístiques. Abasta des dels conceptes més
bàsics, com per exemple calcular la mitjana d’una llista de números, fins a les tècniques més avançades com
la modelització, l’estimació de models lineals i no lineals, proves estadístiques, anàlisi de sèries temporals,
classificació, “clustering”, etc. De fet, Res considera un dels programaris estadístics més complets i utilitzats
tant en el món de l’empresa com a l’acadèmia.
Rés un projecte altament versàtil, fàcil d’ampliar, i open source, el que significa que és distribueix lliurement i
que hi ha una comunitat de milers d’usuaris i desenvolupadors contínuament contribuint a aquest programari.
Podeu aprendre més sobre Rvisitant la Xarxa d’arxius R a CRAN.
Aquest document utilitza llenguatge “R Markdown Notebook” que permet convertir el text a fitxers PDF,
Microsoft Word, HTML, LaTeX i molts altres formats llegibles. Si s’obre amb
R Studio
, es pot executar el
codi Rutilitzant aquest mateix document, alhora que es mostren els resultats després del codi.
Abans de poder treballar amb aquest document, però, cal preparar la instal
·
lació d’R. Per fer-ho, cal escriure
el següent codi a la pestanya Console del panell inferior:
install.packages("knitr",dependencies = TRUE)
Això només s’ha de fer una vegada, és a dir, la primera vegada que es fa servir un document
R Markdown
.
Si s’està llegint aquest document des d’
R Studio
es pot executar el següent fragment fent clic al botó
Executa
(o Run) de la línia concreta o col·locant el cursor a sobre la instrucció i prement Ctrl + Intro.
print ("Hello World")
## [1] "Hello World"
Aquesta instrucció és molt simple, només escriu el text que hi ha entre cometes, però és una bona mostra de
com és la sintaxi i les sortides d’R.
1
pf3
pf4
pf5

Vista previa parcial del texto

¡Descarga tutorial practica rstudio y más Apuntes en PDF de Estadística solo en Docsity!

Estadística I - Pràctica 1

Xavier Vilà - Cur 2018-

Índex

1 Introducció 1

2 Objectius 2 2.1 Conceptes teòrics relacionats.................................... 2

3 Preparant R : instal·lant paquets addicionals 2

4 Llegint dades 3

5 Taules de Freqüències Univariants 5 5.1 Per a variables qualitatives o quantitatives amb pocs valors................... 5 5.2 Per a variables quantitatives amb molts valors........................... 6

1 Introducció

Benvinguts a les sessions pràctiques d’R! R és un potent llenguatge de programació per realitzar anàlisis estadístiques. Abasta des dels conceptes més bàsics, com per exemple calcular la mitjana d’una llista de números, fins a les tècniques més avançades com la modelització, l’estimació de models lineals i no lineals, proves estadístiques, anàlisi de sèries temporals, classificació, “clustering”, etc. De fet, R es considera un dels programaris estadístics més complets i utilitzats tant en el món de l’empresa com a l’acadèmia. R és un projecte altament versàtil, fàcil d’ampliar, i open source, el que significa que és distribueix lliurement i que hi ha una comunitat de milers d’usuaris i desenvolupadors contínuament contribuint a aquest programari. Podeu aprendre més sobre R visitant la Xarxa d’arxius R a CRAN.

Aquest document utilitza llenguatge “R Markdown Notebook” que permet convertir el text a fitxers PDF, Microsoft Word, HTML, LaTeX i molts altres formats llegibles. Si s’obre amb R Studio, es pot executar el codi R utilitzant aquest mateix document, alhora que es mostren els resultats després del codi. Abans de poder treballar amb aquest document, però, cal preparar la instal·lació d’R. Per fer-ho, cal escriure el següent codi a la pestanya Console del panell inferior: install.packages ("knitr", dependencies = TRUE)

Això només s’ha de fer una vegada, és a dir, la primera vegada que es fa servir un document R Markdown. Si s’està llegint aquest document des d’R Studio es pot executar el següent fragment fent clic al botó Executa (o Run) de la línia concreta o col·locant el cursor a sobre la instrucció i prement Ctrl + Intro.

print ("Hello World")

[1] "Hello World"

Aquesta instrucció és molt simple, només escriu el text que hi ha entre cometes, però és una bona mostra de com és la sintaxi i les sortides d’R.

2 Objectius

RStudio és un IDE (Integrated Development Environment) per treballar amb R, es a dir, és un entorn agradable i més senzill on executar R. En aquesta primera sessió es presentarà la interfície d’usuari, es veurà el funcionament bàsic d’ RStudio i es carregaran algunes dades d’exemple per treballar el càlcul de freqüències.

2.1 Conceptes teòrics relacionats

  1. Introducció a R i RStudio
  • 1.1 Instal·lació d’R i RStudio
  • 1.2 Execució d’R i RStudio
  1. Estadística descriptiva
  • 2.1 Tipus de variables i taules de distribució de freqüències Abans de començar aquestes sessions pràctiques cal tenir RStudio instal·lat i preparat per treballar. A més, cal estar mínimament familiaritzat amb el programari R, tal com s’explica al primer capítol dels apunts “ Estadística amb RStudio ” que està disponible al campus virtual de l’assignatura. De fet, el present document és una versió reduida dels apunts.

3 Preparant R : instal·lant paquets addicionals

El programari R s’inicia només amb un conjunt bàsic de comandes. Per això, depenent de la tasca que haurem de realitzar, s’hauran de proporcionar més comandes a R. Aquestes es poden obtenir instal·lant paquets addicionals que no formen part de la instal·lació base d’ R. Aquests paquets es troben a la Xarxa d’arxius de R a CRAN, i es poden descarregar i instal·lar des del mateix programari R.

La instal·lació d’aquests paquets es pot fer de dues maneres:

  1. Fent servir l’eina gràfica Packages d’ RStudio
  2. Utilitzant la comanda install.packages() a la consola

Durant aquest curs, necessitarem instal·lar els següents paquets:

Nombre mitjà d’anys que pot viure un nadó.

  • EYS : ANYS ESPERATS D’ESCOLARITZACIÓ Nombre mitjà d’anys d’escolarització rebuts per un nen d’edat escolar.
  • MYS : MITJANA D’ANYS D’ESCOLARITZACIÓ PER A INDIVIDUS DE MÉS DE 25 ANYS Nombre mitjà d’anys d’educació rebuts per individus de 25 anys o més.
  • GNI_GROUP : RENDA NACIONAL PER CAPITA La Renda Nacional és un mesurament de l’economia basat en el valor total dels béns i serveis finals produïts en un any pels ciutadans d’un país. Aquest índex s’ha calculat en moneda local i s’ha convertit a dòlars internacionals utilitzant taxes de paritat de poder adquisitiu dividits per la població a meitat d’any. Per a cada país, el valor d’aquesta variable indica el nivell segons les categories següents: 1. Països amb renda per càpita molt alta 2. Països amb renda per càpita alta 3. Països amb renda per càpita mitjana 4. Països amb renda per càpita baixa 5. Països amb renda per càpita molt baixa
  • GNI_ MINUS_HD : RÀNQUING GNI PER CAPITA MENYS RÀNQUING HDI Diferència entre el rànquing per GNI per capita i el valor d’HDI. Un valor positiu significa que el país està millor classificat pel GNI que pel valor HDI.

Aquest conjunt de dades s’ha emmagatzemat en un fitxer csv anomenat " HDI_Data.csv “. Per a que aquestes dades estiguin disponibles a RStudio primer haurem de carregar el paquet readr amb la comanda library (readr) i després crearem un nou objecte (una matriu en aquest cas) que anomenarem "HDI_Data" amb la comanda read.csv ("HDI_Data.csv")

library (readr) HDI_Data <- read.csv ("Data/HDI_Data.csv")

Notar que el símbol <- que trobeu al codi anterior és l’ operador d’assignació a R, és a dir, dóna un nom a un objecte (un número, un vector, una taula,... ). En aquest cas, hem donat el nom HDI_Data a la matriu de dades que es llegeix des del fitxer “HDI_Data.csv”. Aquest operador s’utilitza extensament a R. Cal que també tingueu en compte que “DATA/” indica la carpeta on es troba el fitxer dins la carpeta actual. Per situar-vos en alguna carpeta concreta, de forma que tot el que creeu es guardi aquí, cal que utilitzeu la comanda setwd(), per exemple setwd("C:/PL1/DATA").Per comprovar la carpeta en la que esteu situats utilitzar la comanda getwd(). També us poden resultar útils les següents dues comandes. Per poder veure els fitxers que teniu en la carpeta en que esteu situats podeu utilitzar la comanda dir(). I per veure els objectes que heu creat podeu utilitzar la comanda ls().

Observar que RStudio ha creat una matriu amb 7 columnes, cadascuna corresponent a una de les variables considerades. A més, també se’ns proporciona informació sobre el tipus d’aquestes variables.

Nom de variable Classificació R Studio Tipus de variable COUNTRY col_character () Qualitativa nominal HDI col_double () Quantitativa contínua LEB col_double () Quantitativa contínua EYS col_double () Quantitativa contínua MYS col_double () Quantitativa contínua GNI_GROUP col_integer () Qualitativa ordinal GNI_MINUS_HDI col_integer () Quantitativa discreta

Podem visualitzar les dades amb la següent comanda. Un cop executada, apareixerà una nova pestanya a la interfície RStudio que mostra una taula amb les dades. View (HDI_Data)

A més, escrivint el nom de la base de dades a la consola podrem visualitzar les dades, però només parcialment ja que és un conjunt de dades molt gran. HDI_Data

5 Taules de Freqüències Univariants

Les taules de freqüències es realitzen de diferents maneres depenent de si la variable que estem considerant és qualitativa o quantitativa. Això és així perquè en el cas de les variables quantitatives , si tenen molts valors, les observacions s’han d’agrupar en intervals (o classes), tal com veurem més endavant. Per a aquest exemple, analitzarem les variables:

  • GNI_GROUP en al cas de variable qualitativa ordinal
  • HDI en el cas de variable quantitativa continua

5.1 Per a variables qualitatives o quantitatives amb pocs valors

Calcularem una taula completa de freqüències (absoluta, relativa, cumulativa) de la variable GNI_GROUP. Per calcular totes aquestes freqüències alhora i organitzar-les en una taula fàcil de llegir, el paquet questionr resulta molt útil. Així doncs, primer carregarem aquest paquet library (questionr)

A continuació, crearem una taula de freqüències amb la comanda freq () que anomenarem DiscFreqTable DiscFreqTable <- freq (HDI_Data $ GNI_GROUP, cum = TRUE, total = TRUE)

Notar que la sintaxi HDI_Data$GNI_GROUP ens indica que estem treballant amb la variable GNI_GROUP del conjunt de dades HDI_Data. Per tant, utilitzant aquesta assignació

HDI_Data$HDI

El gràfic obtingut és un histograma que representa gràficament les freqüències que podem observar a la taula de freqüències amb les observacions agrupades en intervals (o classes ) tal com hem indicat a la comanda break. Per veure la taula de freqüències cal posar el nom que hem assignat a la taula.

ContFreqTable

Lower Upper Main Frequency Percentage CF CPF

1 0.0 0.1 0.05 0 0.0 0 0.

2 0.1 0.2 0.15 0 0.0 0 0.

3 0.2 0.3 0.25 0 0.0 0 0.

4 0.3 0.4 0.35 5 2.7 5 2.

5 0.4 0.5 0.45 24 12.8 29 15.

6 0.5 0.6 0.55 27 14.4 56 29.

7 0.6 0.7 0.65 27 14.4 83 44.

8 0.7 0.8 0.75 56 29.8 139 73.

9 0.8 0.9 0.85 34 18.1 173 92.

10 0.9 1.0 0.95 15 8.0 188 100.

A la taula observem:

  • Primera i segona columnes: els extrems inferior i superior de cada interval.
  • Tercera columna: el punt mitjà o marca de classe de cada interval.
  • Quarta, cinquena, sisena i setena columnes: les freqüències absoluta, relativa, acumulada i relativa acumulada respectivament.