Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Formulario R- statistica, Formulari di Statistica

Formule per utilizzare il software R

Tipologia: Formulari

2020/2021

Caricato il 15/02/2021

violarota
violarota 🇮🇹

2 documenti

1 / 2

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA DESCRITTIVA
I file hanno estensione .rdata!
All’interno di questi file sono contenuti degli oggetti.!
Si può vedere il contenuto di un file di dati attraverso il comando ls() (sarebbe un list) -> così si
visualizzano gli oggetti, primo passaggio!
Poi applico la funzione str(oggetto) che mi dice la tipologia dell’oggetto e ci descrive come è fatto il
dataset si mostra così: n unità obs. (Di observation) of n variabili.!
str() ti mostra inoltre le variabili quantitative (si mostrano come num) e quelle qualitative (si mostrano
come factor, poi si vedrà se sono ordinali o nominali)!
Per richiamare le variabili nell’analisi bisogna chiamarle usando il nome del dataframe e della
variabile separati dal dollaro $ -> es. HOTEL$LOC -> tutto in maiuscolo !
R distingue fra maiuscolo e minuscolo!
La funzione table(DATASET$VARIABILE) mi permette di vedere la distribuzione di frequenza con una
tabella (ovviamente mi da la frequenza assoluta, se voglio la relativa frequenza assoluta/N)!
La funzione tab_VARIABILE<-table(DATASET$LOC) mi permette di dare un nome all’oggetto (-> es.
la tabella creata da table)!
La funzione prop.table(tab_VARIABILE) ci mostra le frequenza relative, all’interno delle parentesi
però non devo mettere variabile e dataset come in table ma la tabellina creata in precedenza.!
R funziona anche da calcolatrice!
Per creare grafici a torta utilizzo pie, mentre per grafici a barre barplot; applico entrambe le funzioni
non alla variabile ma alla tabella delle frequenze tab.VARIABILE oppure alla tabella delle frequenze
relative (rinominata come ptab<-prop.table(tab_VARIABILE))!
Consideriamo una variabile continua, la funzione hist produce un istogramma, per costruirla devo
fare hist(DATASET$VARIABILE, freq=F), F sta per false e serve per far si che le altezze dei rettangoli
siano proprio le densità. Vi sono inoltre altre opzioni come breaks=c(intervalli personalizzati divisi
dalla virgola).!
Vi sono poi gli indicatori di tendenza centrale che forniscono la media, la mediana e la moda. Ad
esempio summary(DATASET$VARIABILE) mi da la media (Mean) e la mediana (Median)!
La funzione mean(DATASET$VARIABILE) mi da la media, mentre median(DATASET$VARIABILE) la
mediana. Per la moda guardo la tabella delle frequenze.!
Per i quantili c’è la funzione quantile(DATASET$VARIABILE, probs=0,3 (Q1) o 0,5(mediana) o 0.8(Q3))
Il boxplot, invece, si ottiene tramite la funzione boxplot(DATASET$VARIABILE)!
Per la varianza uso la funzione var(DATASET$VARIABILE)!
Mentre per lo scarto quadratico uso sd(DATASET$VARIABILE)!
Coeciente di variazione: sd(DATASET$VARIABILE)/mean(DATASET$VARIABILE)!
Poiché alcuni dataset presentano valori mancanti, in quanto nell’indagine non sono state rilevate
tutte le variabili su tutte le unità, si opera trascurando nei calcoli degli indicatori le unità per cui tali
valori sono mancanti. Per fare questo con il software R occorre inserire nel comando l’opzione
na.rm=T (“not available remove= TRUE”)-> es. mean(DATASET$VARIABILE, na.rm=T)!
Quando si mettono due variabili in correlazione (analisi invariata), per osservare la tabella a doppia
entrata si utilizza la funzione, già mostrata in precedenza,
table(dataset$variabile1,dataset$variabile2)!
Posso assegnare un nome con tab<-table(dataset$variabile1,dataset$variabile2) !
Con prop.table(tab) ho la tabella con le f relative!
A partire dall’ultima tabella (f relative) posso evidenziare le distribuzioni condizionali (quelle per riga e
quelle per colonna con tab1<-prop.table(tab,1) -> riga o tab1<-prop.table(tab,2) -> colonna!
Grafici (colonna singola con diversi colori) barplot(tab2) oppure (colonne separate) barplot(tab2,
beside=T)!
Per vedere la legenda barplot(tab2, legend.text=T)!
Per l’analisi dell’associazione nel caso in cui la variabile sia quantitativa :
tapply(DATASET$VARIABILE1, DATASET$VARIABILE2, summary) tapply in particolare permette di
applicare ad una funzione (summary, media, mediana) alle distribuzioni condizionali di una variabile);
nuovo
nome
pf2

Anteprima parziale del testo

Scarica Formulario R- statistica e più Formulari in PDF di Statistica solo su Docsity!

STATISTICA DESCRITTIVA

  • I file hanno estensione .rdata
  • All’interno di questi file sono contenuti degli oggetti.
  • Si può vedere il contenuto di un file di dati attraverso il comando ls() (sarebbe un list) -> così si visualizzano gli oggetti, primo passaggio
  • Poi applico la funzione str(oggetto) che mi dice la tipologia dell’oggetto e ci descrive come è fatto il dataset si mostra così: n unità obs. (Di observation) of n variabili.
  • str() ti mostra inoltre le variabili quantitative (si mostrano come num) e quelle qualitative (si mostrano come factor, poi si vedrà se sono ordinali o nominali)
  • Per richiamare le variabili nell’analisi bisogna chiamarle usando il nome del dataframe e della variabile separati dal dollaro $ -> es. HOTEL$LOC -> tutto in maiuscolo
  • R distingue fra maiuscolo e minuscolo
  • La funzione table (DATASET$VARIABILE) mi permette di vedere la distribuzione di frequenza con una tabella (ovviamente mi da la frequenza assoluta, se voglio la relativa frequenza assoluta/N)
  • La funzione tab_VARIABILE<-table(DATASET$LOC) mi permette di dare un nome all’oggetto (-> es. la tabella creata da table)
  • La funzione prop.table (tab_VARIABILE) ci mostra le frequenza relative, all’interno delle parentesi però non devo mettere variabile e dataset come in table ma la tabellina creata in precedenza.
  • R funziona anche da calcolatrice
  • Per creare grafici a torta utilizzo pie , mentre per grafici a barre barplot ; applico entrambe le funzioni non alla variabile ma alla tabella delle frequenze tab.VARIABILE oppure alla tabella delle frequenze relative (rinominata come ptab<-prop.table(tab_VARIABILE))
  • Consideriamo una variabile continua, la funzione hist produce un istogramma, per costruirla devo fare hist (DATASET$VARIABILE, freq=F), F sta per false e serve per far si che le altezze dei rettangoli siano proprio le densità. Vi sono inoltre altre opzioni come breaks=c(intervalli personalizzati divisi dalla virgola).
  • Vi sono poi gli indicatori di tendenza centrale che forniscono la media, la mediana e la moda. Ad esempio summary (DATASET$VARIABILE) mi da la media (Mean) e la mediana (Median)
  • La funzione mean (DATASET$VARIABILE) mi da la media, mentre median (DATASET$VARIABILE) la mediana. Per la moda guardo la tabella delle frequenze.
  • Per i quantili c’è la funzione quantile (DATASET$VARIABILE, probs=0,3 (Q1) o 0,5(mediana) o 0.8(Q3))
  • Il boxplot, invece, si ottiene tramite la funzione boxplot (DATASET$VARIABILE)
  • Per la varianza uso la funzione var (DATASET$VARIABILE)
  • Mentre per lo scarto quadratico uso sd (DATASET$VARIABILE)
  • Coefficiente di variazione: sd (DATASET$VARIABILE)/ mean (DATASET$VARIABILE)
  • Poiché alcuni dataset presentano valori mancanti, in quanto nell’indagine non sono state rilevate tutte le variabili su tutte le unità, si opera trascurando nei calcoli degli indicatori le unità per cui tali valori sono mancanti. Per fare questo con il software R occorre inserire nel comando l’opzione na.rm=T (“not available remove= TRUE”)-> es. mean(DATASET$VARIABILE, na.rm=T )
  • Quando si mettono due variabili in correlazione (analisi invariata), per osservare la tabella a doppia entrata si utilizza la funzione, già mostrata in precedenza, table (dataset$variabile1,dataset$variabile2)
  • Posso assegnare un nome con tab<- table (dataset$variabile1,dataset$variabile2)
  • Con prop.table (tab) ho la tabella con le f relative
  • A partire dall’ultima tabella (f relative) posso evidenziare le distribuzioni condizionali (quelle per riga e quelle per colonna con tab1<-prop.table(tab,1) -> riga o tab1<-prop.table(tab,2) -> colonna
  • Grafici (colonna singola con diversi colori) barplot(tab2) oppure (colonne separate) barplot(tab2, beside=T)
  • Per vedere la legenda barplot (tab2, legend.text=T)
  • Per l’analisi dell’associazione nel caso in cui la variabile sia quantitativa : tapply (DATASET$VARIABILE1, DATASET$VARIABILE2, summary) tapply in particolare permette di applicare ad una funzione (summary, media, mediana) alle distribuzioni condizionali di una variabile); nuovonome

ad esempio tapply (DATASET$VARIABILE1, DATASET$VARIABILE2, sd) mi da la deviazione standard del tasso di riempimento date le modalità della variabile 2 -> se ci sono valori mancanti ricordare na.rm=T

  • I boxplot li ottieni con boxplot (DATASET$VARIABILE1QUANTITATIVA~DATASET$VARIABILE2QUALITATIVA)->prima la variabile quantitativa
  • Per lo scatterplot: plot (DATASET$VARIABILEQUANTCONTINUA;DATASET$VARIABILEQUANTCONTINUA)
  • Covarianza cov (DATASET$VARIABILEQUANTCONTINUA;DATASET$VARIABILEQUANTCONTINUA)
  • Coefficiente di correlazione lineare: cor (DATASET$VARIABILEQUANTCONTINUA;DATASET$VARIABILEQUANTCONTINUA) PROBABILITÀ
  • Funzione pnorm (x, valore atteso mu, scarto quadratico medio) -> probabilità con cui una variabile aleatoria con distribuzione normale normale assume valori minori di un valore. -> pnorm(x) presuppone la distribuzione N standard.
  • Funzione qnorm (ordina quantile, valore atteso mu, scarto quadratico medio ) -> mi da il quartile di una variabile aleatoria con distribuzione normale
  • Funzione qt (1-alfa/2, n-1)
  • Funzione t.test (DATASET$VARIABILE, conf.level=1-alfa)