
STATISTICA DESCRITTIVA
I file hanno estensione .rdata!•
All’interno di questi file sono contenuti degli oggetti.!•
Si può vedere il contenuto di un file di dati attraverso il comando ls() (sarebbe un list) -> così si •
visualizzano gli oggetti, primo passaggio!
Poi applico la funzione str(oggetto) che mi dice la tipologia dell’oggetto e ci descrive come è fatto il •
dataset si mostra così: n unità obs. (Di observation) of n variabili.!
str() ti mostra inoltre le variabili quantitative (si mostrano come num) e quelle qualitative (si mostrano •
come factor, poi si vedrà se sono ordinali o nominali)!
Per richiamare le variabili nell’analisi bisogna chiamarle usando il nome del dataframe e della •
variabile separati dal dollaro $ -> es. HOTEL$LOC -> tutto in maiuscolo !
R distingue fra maiuscolo e minuscolo!•
La funzione table(DATASET$VARIABILE) mi permette di vedere la distribuzione di frequenza con una •
tabella (ovviamente mi da la frequenza assoluta, se voglio la relativa frequenza assoluta/N)!
La funzione tab_VARIABILE<-table(DATASET$LOC) mi permette di dare un nome all’oggetto (-> es. •
la tabella creata da table)!
La funzione prop.table(tab_VARIABILE) ci mostra le frequenza relative, all’interno delle parentesi •
però non devo mettere variabile e dataset come in table ma la tabellina creata in precedenza.!
R funziona anche da calcolatrice!•
Per creare grafici a torta utilizzo pie, mentre per grafici a barre barplot; applico entrambe le funzioni •
non alla variabile ma alla tabella delle frequenze tab.VARIABILE oppure alla tabella delle frequenze
relative (rinominata come ptab<-prop.table(tab_VARIABILE))!
Consideriamo una variabile continua, la funzione hist produce un istogramma, per costruirla devo •
fare hist(DATASET$VARIABILE, freq=F), F sta per false e serve per far si che le altezze dei rettangoli
siano proprio le densità. Vi sono inoltre altre opzioni come breaks=c(intervalli personalizzati divisi
dalla virgola).!
Vi sono poi gli indicatori di tendenza centrale che forniscono la media, la mediana e la moda. Ad •
esempio summary(DATASET$VARIABILE) mi da la media (Mean) e la mediana (Median)!
La funzione mean(DATASET$VARIABILE) mi da la media, mentre median(DATASET$VARIABILE) la •
mediana. Per la moda guardo la tabella delle frequenze.!
Per i quantili c’è la funzione quantile(DATASET$VARIABILE, probs=0,3 (Q1) o 0,5(mediana) o 0.8(Q3)) •
Il boxplot, invece, si ottiene tramite la funzione boxplot(DATASET$VARIABILE)!•
Per la varianza uso la funzione var(DATASET$VARIABILE)!•
Mentre per lo scarto quadratico uso sd(DATASET$VARIABILE)!•
Coefficiente di variazione: sd(DATASET$VARIABILE)/mean(DATASET$VARIABILE)!•
Poiché alcuni dataset presentano valori mancanti, in quanto nell’indagine non sono state rilevate •
tutte le variabili su tutte le unità, si opera trascurando nei calcoli degli indicatori le unità per cui tali
valori sono mancanti. Per fare questo con il software R occorre inserire nel comando l’opzione
na.rm=T (“not available remove= TRUE”)-> es. mean(DATASET$VARIABILE, na.rm=T)!
Quando si mettono due variabili in correlazione (analisi invariata), per osservare la tabella a doppia •
entrata si utilizza la funzione, già mostrata in precedenza,
table(dataset$variabile1,dataset$variabile2)!
Posso assegnare un nome con tab<-table(dataset$variabile1,dataset$variabile2) !•
Con prop.table(tab) ho la tabella con le f relative!•
A partire dall’ultima tabella (f relative) posso evidenziare le distribuzioni condizionali (quelle per riga e •
quelle per colonna con tab1<-prop.table(tab,1) -> riga o tab1<-prop.table(tab,2) -> colonna!
Grafici (colonna singola con diversi colori) barplot(tab2) oppure (colonne separate) barplot(tab2, •
beside=T)!
Per vedere la legenda barplot(tab2, legend.text=T)!•
Per l’analisi dell’associazione nel caso in cui la variabile sia quantitativa : •
tapply(DATASET$VARIABILE1, DATASET$VARIABILE2, summary) tapply in particolare permette di
applicare ad una funzione (summary, media, mediana) alle distribuzioni condizionali di una variabile);
nuovo
nome