Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Esercitazione 1: Introduzione a R e RStudio, Appunti di Statistica applicata alla psicologia

Una introduzione all'utilizzo di r e rstudio, software open-source per l'analisi dati. Viene descritto come scaricare e installare r e rstudio, la struttura dell'ambiente di lavoro di rstudio e i primi passi con r. Inoltre, vengono presentati i principali oggetti atomici di r, come numeri, stringhe e valori logici, e si spiega come assegnare valori a variabili e utilizzare l'aiuto in linea.

Tipologia: Appunti

2018/2019

Caricato il 14/03/2019

Raffy64
Raffy64 🇮🇹

2 documenti

1 / 19

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
R - Esercitazione 1
Lorenzo Di Biagio
Universit`a Roma Tre
30 Settembre 2013
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Anteprima parziale del testo

Scarica Esercitazione 1: Introduzione a R e RStudio e più Appunti in PDF di Statistica applicata alla psicologia solo su Docsity!

R - Esercitazione 1

Lorenzo Di Biagio [email protected]

Universit`a Roma Tre

30 Settembre 2013

Introduzione a R

R `e un software open-source, per Linux , Mac OS X, Windows, distribuito secondo la licenza GNU - GPL.

Essendo libero `e largamente utilizzato e in continua evoluzione grazie al contributo di migliaia di ricercatori e sviluppatori in tutto il mondo.

Si scarica dal CRAN collegandosi a http://www.r-project.org e scegliendo un mirror: per Linux , Mac OS X, Windows si possono scaricare versioni direttamente installabili.

Primi passi con R

I principali oggetti “atomici” di R sono:

  1. numeri a precisione doppia (e.g.: 123)
  2. numeri complessi (e.g.: 1+7i)
  3. stringhe (e.g. “ciao”)
  4. valori logici (TRUE o FALSE)

Per assegnare un valore ad una variabile si usa l’operatore: <- oppure: =

Vi sono delle differenze tra i due operatori di assegnazione. Nella comunit`a di R si preferisce utilizzare <- e limitare l’uso di = per assegnare valori ai parametri di una funzione.

Collezioni di oggetti “atomici”

Gli oggetti “atomici” si possono raggruppare in:

  1. vettori (elementi concatenati di un solo tipo)
  2. matrici (vettori di vettori di uguale lunghezza)
  3. fattori (collezione di dati categoriali)
  4. data frames (insieme di vettori di uguale lunghezza ma eventualmente di tipi differenti)

Vettori (1)

Per creare un vettore con pi`u di un elemento i dati vanno concatenati con la funzione c.

Vettori di sequenze di numeri si possono creare pi`u velocemente con:

x<-1: x<-seq(1,100,10) I singoli elementi di un vettore si estraggono con []

Esercizio 1

  1. Di che tipo `e il vettore x<-c("A", 1, TRUE)? E il vettore x<-c(1,2,FALSE)?
  2. Definire il vettore x = (a, 1 , b, 2 , c, 3 ,... , z, 21). (Utilizzare il vettore letters — Attenzione a “j”, “k”, “w”, “x”, “y”).

Fattori

I fattori immagazzinano dati categoriali come, ad esempio, “s`ı” e “no”; “maschio” e “femmina”; “insufficiente”, “sufficiente”, “buono”, “ottimo”.

I fattori si creano con il comando factor applicato a un vettore; si usa ordered per creare un fattore ordinato: se non `e specificato l’ordine dei livelli viene usato l’ordine alfabetico.

Una semplice analisi delle frequenze di un fattore x si ottiene con:

table(x) per le frequenze assolute. table(x)/length(x) per le frequenze relative. pie(table(x)) per una rappr. grafica a torta. barplot(table(x)) per una rappr. grafica con grafico a barre.

Data frames (1)

Un data frame e una matrice “generalizzata” in quanto puo contenere allo stesso tempo vettori di tipo numerico, logico o fattore. Per questa sua caratteristica, il data frame e la struttura R piu adatta per la memorizzazione e la gestione di data set.

Osserviamo 5 individui e registriamone sesso e et`a:

x<-factor(c("M", "F", "M", "M", "F")) y<-c(29,40,23,62,60)

Definiamo il dataset delle nostre osservazioni: data<-data.frame(sesso=x, eta=y)

Data frames (3)

Esercizio 4

Aprire il database http://people.stern.nyu.edu/ wgreene/Text/Edition7/TableF4-3.csv (alcuni dati su film usciti negli USA). Conservare solo le prime 5 variabili:

  • (^) Box: ricavi al botteghino (negli USA, in dollari).
  • MPRating: classificazione della MPAA: 1=G, 2=PG, 3=PG13, 4=R.
  • Budget: costi per la produzione (in milioni di dollari).
  • Starpowr: valutazione complessiva degli attori che recitano nel film.
  • Sequel: 1 se il film e un sequel, 0 se non loe.

Studiare la struttura del database.

Data frames (4)

Per leggere un database si usa:

read.table(file, header = FALSE, sep = " ", dec = ".", skip=0, ...)

dove “file” `e il percorso (o l’url) tra virgolette ; “header” indica se la prima riga contiene il nome delle variabili o no (di default: no); “sep” indica il separatore dei dati (di default: lo spazio); “dec” indica il simbolo dei decimali (di default: il punto), “skip” indica il numero di righe da saltare (a partire dall’inizio) (di default: 0)

Se il file e comma separated values si puo usare direttamente:

read.csv(file, header = TRUE, sep = ",", ...)

comando identico al precedente, salvo per alcuni valori predefiniti.

Data frames (5) - Boxplot

0 10 20 30 40 50 60 70

I bordi della scatola corrispondono al primo e terzo quartile. All’interno e segnata la mediana. Viene aggiunto un “baffo” sinistro (o inferiore) fino all’osservazione piu piccola (se maggiore: sino a Q1 − 1. 5 × (Q3 − Q1)). Gli outliers sono segnalati a parte. Analogamente per il baffo destro (o superiore).

Data frames (6) - Istogrammi

Un istogramma e una rappresentazione grafica di una distribuzione di frequenze di caratteri quantitativi (virtualmente) continui:e costituito da rettangoli adiacenti; ogni rettangolo ha base di lunghezza pari all’ampiezza della corrispondente classe; l’altezza invece e calcolata come densita di frequenza: e pari al rapporto fra la frequenza (relativa) associata alla classe e l’ampiezza della classe; l’area della superficie di ogni rettangolo coincide con la frequenza (relativa) associata alla classe cui il rettangolo si riferisce; l’area totale dell’istogrammae uguale 1.

Salvataggio

Prima di chiudere la sessione potrebbe essere necessario salvare il proprio lavoro.

Si consiglia di definire nello script la directory di lavoro con setwd("percorso")

Con RStudio si possono facilmente salvare (e riaprire):

  1. gli script ( .R)
  2. gli oggetti dell’ambiente di lavoro (.RData)
  3. la cronologia dei comandi (.Rhistory)