Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una introduzione all'utilizzo di r e rstudio, software open-source per l'analisi dati. Viene descritto come scaricare e installare r e rstudio, la struttura dell'ambiente di lavoro di rstudio e i primi passi con r. Inoltre, vengono presentati i principali oggetti atomici di r, come numeri, stringhe e valori logici, e si spiega come assegnare valori a variabili e utilizzare l'aiuto in linea.
Tipologia: Appunti
1 / 19
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
Lorenzo Di Biagio [email protected]
Universit`a Roma Tre
30 Settembre 2013
R `e un software open-source, per Linux , Mac OS X, Windows, distribuito secondo la licenza GNU - GPL.
Essendo libero `e largamente utilizzato e in continua evoluzione grazie al contributo di migliaia di ricercatori e sviluppatori in tutto il mondo.
Si scarica dal CRAN collegandosi a http://www.r-project.org e scegliendo un mirror: per Linux , Mac OS X, Windows si possono scaricare versioni direttamente installabili.
I principali oggetti “atomici” di R sono:
Per assegnare un valore ad una variabile si usa l’operatore: <- oppure: =
Vi sono delle differenze tra i due operatori di assegnazione. Nella comunit`a di R si preferisce utilizzare <- e limitare l’uso di = per assegnare valori ai parametri di una funzione.
Gli oggetti “atomici” si possono raggruppare in:
Per creare un vettore con pi`u di un elemento i dati vanno concatenati con la funzione c.
Vettori di sequenze di numeri si possono creare pi`u velocemente con:
x<-1: x<-seq(1,100,10) I singoli elementi di un vettore si estraggono con []
I fattori immagazzinano dati categoriali come, ad esempio, “s`ı” e “no”; “maschio” e “femmina”; “insufficiente”, “sufficiente”, “buono”, “ottimo”.
I fattori si creano con il comando factor applicato a un vettore; si usa ordered per creare un fattore ordinato: se non `e specificato l’ordine dei livelli viene usato l’ordine alfabetico.
Una semplice analisi delle frequenze di un fattore x si ottiene con:
table(x) per le frequenze assolute. table(x)/length(x) per le frequenze relative. pie(table(x)) per una rappr. grafica a torta. barplot(table(x)) per una rappr. grafica con grafico a barre.
Un data frame e una matrice “generalizzata” in quanto puo contenere allo stesso tempo vettori di tipo numerico, logico o fattore. Per questa sua caratteristica, il data frame e la struttura R piu adatta per la memorizzazione e la gestione di data set.
Osserviamo 5 individui e registriamone sesso e et`a:
x<-factor(c("M", "F", "M", "M", "F")) y<-c(29,40,23,62,60)
Definiamo il dataset delle nostre osservazioni: data<-data.frame(sesso=x, eta=y)
Aprire il database http://people.stern.nyu.edu/ wgreene/Text/Edition7/TableF4-3.csv (alcuni dati su film usciti negli USA). Conservare solo le prime 5 variabili:
e un sequel, 0 se non loe.Studiare la struttura del database.
Per leggere un database si usa:
read.table(file, header = FALSE, sep = " ", dec = ".", skip=0, ...)
dove “file” `e il percorso (o l’url) tra virgolette ; “header” indica se la prima riga contiene il nome delle variabili o no (di default: no); “sep” indica il separatore dei dati (di default: lo spazio); “dec” indica il simbolo dei decimali (di default: il punto), “skip” indica il numero di righe da saltare (a partire dall’inizio) (di default: 0)
Se il file e comma separated values si puo usare direttamente:
read.csv(file, header = TRUE, sep = ",", ...)
comando identico al precedente, salvo per alcuni valori predefiniti.
0 10 20 30 40 50 60 70
I bordi della scatola corrispondono al primo e terzo quartile. All’interno e segnata la mediana. Viene aggiunto un “baffo” sinistro (o inferiore) fino all’osservazione piu piccola (se maggiore: sino a Q1 − 1. 5 × (Q3 − Q1)). Gli outliers sono segnalati a parte. Analogamente per il baffo destro (o superiore).
Un istogramma e una rappresentazione grafica di una distribuzione di frequenze di caratteri quantitativi (virtualmente) continui:e costituito da rettangoli adiacenti; ogni rettangolo ha base di lunghezza pari all’ampiezza della corrispondente classe; l’altezza invece e calcolata come densita di frequenza: e pari al rapporto fra la frequenza (relativa) associata alla classe e l’ampiezza della classe; l’area della superficie di ogni rettangolo coincide con la frequenza (relativa) associata alla classe cui il rettangolo si riferisce; l’area totale dell’istogrammae uguale 1.
Prima di chiudere la sessione potrebbe essere necessario salvare il proprio lavoro.
Si consiglia di definire nello script la directory di lavoro con setwd("percorso")
Con RStudio si possono facilmente salvare (e riaprire):