Formulario R- statistica | Formulari di Statistica

STATISTICA DESCRITTIVA

I file hanno estensione .rdata!•

All’interno di questi file sono contenuti degli oggetti.!•

Si può vedere il contenuto di un file di dati attraverso il comando ls() (sarebbe un list) -> così si •

visualizzano gli oggetti, primo passaggio!

Poi applico la funzione str(oggetto) che mi dice la tipologia dell’oggetto e ci descrive come è fatto il •

dataset si mostra così: n unità obs. (Di observation) of n variabili.!

str() ti mostra inoltre le variabili quantitative (si mostrano come num) e quelle qualitative (si mostrano •

come factor, poi si vedrà se sono ordinali o nominali)!

Per richiamare le variabili nell’analisi bisogna chiamarle usando il nome del dataframe e della •

variabile separati dal dollaro $ -> es. HOTEL$LOC -> tutto in maiuscolo !

R distingue fra maiuscolo e minuscolo!•

La funzione table(DATASET$VARIABILE) mi permette di vedere la distribuzione di frequenza con una •

tabella (ovviamente mi da la frequenza assoluta, se voglio la relativa frequenza assoluta/N)!

La funzione tab_VARIABILE<-table(DATASET$LOC) mi permette di dare un nome all’oggetto (-> es. •

la tabella creata da table)!

La funzione prop.table(tab_VARIABILE) ci mostra le frequenza relative, all’interno delle parentesi •

però non devo mettere variabile e dataset come in table ma la tabellina creata in precedenza.!

R funziona anche da calcolatrice!•

Per creare grafici a torta utilizzo pie, mentre per grafici a barre barplot; applico entrambe le funzioni •

non alla variabile ma alla tabella delle frequenze tab.VARIABILE oppure alla tabella delle frequenze

relative (rinominata come ptab<-prop.table(tab_VARIABILE))!

Consideriamo una variabile continua, la funzione hist produce un istogramma, per costruirla devo •

fare hist(DATASET$VARIABILE, freq=F), F sta per false e serve per far si che le altezze dei rettangoli

siano proprio le densità. Vi sono inoltre altre opzioni come breaks=c(intervalli personalizzati divisi

dalla virgola).!

Vi sono poi gli indicatori di tendenza centrale che forniscono la media, la mediana e la moda. Ad •

esempio summary(DATASET$VARIABILE) mi da la media (Mean) e la mediana (Median)!

La funzione mean(DATASET$VARIABILE) mi da la media, mentre median(DATASET$VARIABILE) la •

mediana. Per la moda guardo la tabella delle frequenze.!

Per i quantili c’è la funzione quantile(DATASET$VARIABILE, probs=0,3 (Q1) o 0,5(mediana) o 0.8(Q3)) •

Il boxplot, invece, si ottiene tramite la funzione boxplot(DATASET$VARIABILE)!•

Per la varianza uso la funzione var(DATASET$VARIABILE)!•

Mentre per lo scarto quadratico uso sd(DATASET$VARIABILE)!•

Coeﬃciente di variazione: sd(DATASET$VARIABILE)/mean(DATASET$VARIABILE)!•

Poiché alcuni dataset presentano valori mancanti, in quanto nell’indagine non sono state rilevate •

tutte le variabili su tutte le unità, si opera trascurando nei calcoli degli indicatori le unità per cui tali

valori sono mancanti. Per fare questo con il software R occorre inserire nel comando l’opzione

na.rm=T (“not available remove= TRUE”)-> es. mean(DATASET$VARIABILE, na.rm=T)!

Quando si mettono due variabili in correlazione (analisi invariata), per osservare la tabella a doppia •

entrata si utilizza la funzione, già mostrata in precedenza,

table(dataset$variabile1,dataset$variabile2)!

Posso assegnare un nome con tab<-table(dataset$variabile1,dataset$variabile2) !•

Con prop.table(tab) ho la tabella con le f relative!•

A partire dall’ultima tabella (f relative) posso evidenziare le distribuzioni condizionali (quelle per riga e •

quelle per colonna con tab1<-prop.table(tab,1) -> riga o tab1<-prop.table(tab,2) -> colonna!

Grafici (colonna singola con diversi colori) barplot(tab2) oppure (colonne separate) barplot(tab2, •

beside=T)!

Per vedere la legenda barplot(tab2, legend.text=T)!•

Per l’analisi dell’associazione nel caso in cui la variabile sia quantitativa : •

tapply(DATASET$VARIABILE1, DATASET$VARIABILE2, summary) tapply in particolare permette di

applicare ad una funzione (summary, media, mediana) alle distribuzioni condizionali di una variabile);

nuovo

nome

Anteprima parziale del testo

Scarica Formulario R- statistica e più Formulari in PDF di Statistica solo su Docsity!

STATISTICA DESCRITTIVA

I file hanno estensione .rdata
All’interno di questi file sono contenuti degli oggetti.
Si può vedere il contenuto di un file di dati attraverso il comando ls() (sarebbe un list) -> così si visualizzano gli oggetti, primo passaggio
Poi applico la funzione str(oggetto) che mi dice la tipologia dell’oggetto e ci descrive come è fatto il dataset si mostra così: n unità obs. (Di observation) of n variabili.
str() ti mostra inoltre le variabili quantitative (si mostrano come num) e quelle qualitative (si mostrano come factor, poi si vedrà se sono ordinali o nominali)
Per richiamare le variabili nell’analisi bisogna chiamarle usando il nome del dataframe e della variabile separati dal dollaro $ -> es. HOTEL$LOC -> tutto in maiuscolo
R distingue fra maiuscolo e minuscolo
La funzione table (DATASET$VARIABILE) mi permette di vedere la distribuzione di frequenza con una tabella (ovviamente mi da la frequenza assoluta, se voglio la relativa frequenza assoluta/N)
La funzione tab_VARIABILE<-table(DATASET$LOC) mi permette di dare un nome all’oggetto (-> es. la tabella creata da table)
La funzione prop.table (tab_VARIABILE) ci mostra le frequenza relative, all’interno delle parentesi però non devo mettere variabile e dataset come in table ma la tabellina creata in precedenza.
R funziona anche da calcolatrice
Per creare grafici a torta utilizzo pie , mentre per grafici a barre barplot ; applico entrambe le funzioni non alla variabile ma alla tabella delle frequenze tab.VARIABILE oppure alla tabella delle frequenze relative (rinominata come ptab<-prop.table(tab_VARIABILE))
Consideriamo una variabile continua, la funzione hist produce un istogramma, per costruirla devo fare hist (DATASET$VARIABILE, freq=F), F sta per false e serve per far si che le altezze dei rettangoli siano proprio le densità. Vi sono inoltre altre opzioni come breaks=c(intervalli personalizzati divisi dalla virgola).
Vi sono poi gli indicatori di tendenza centrale che forniscono la media, la mediana e la moda. Ad esempio summary (DATASET$VARIABILE) mi da la media (Mean) e la mediana (Median)
La funzione mean (DATASET$VARIABILE) mi da la media, mentre median (DATASET$VARIABILE) la mediana. Per la moda guardo la tabella delle frequenze.
Per i quantili c’è la funzione quantile (DATASET$VARIABILE, probs=0,3 (Q1) o 0,5(mediana) o 0.8(Q3))
Il boxplot, invece, si ottiene tramite la funzione boxplot (DATASET$VARIABILE)
Per la varianza uso la funzione var (DATASET$VARIABILE)
Mentre per lo scarto quadratico uso sd (DATASET$VARIABILE)
Coefficiente di variazione: sd (DATASET$VARIABILE)/ mean (DATASET$VARIABILE)
Poiché alcuni dataset presentano valori mancanti, in quanto nell’indagine non sono state rilevate tutte le variabili su tutte le unità, si opera trascurando nei calcoli degli indicatori le unità per cui tali valori sono mancanti. Per fare questo con il software R occorre inserire nel comando l’opzione na.rm=T (“not available remove= TRUE”)-> es. mean(DATASET$VARIABILE, na.rm=T )
Quando si mettono due variabili in correlazione (analisi invariata), per osservare la tabella a doppia entrata si utilizza la funzione, già mostrata in precedenza, table (dataset$variabile1,dataset$variabile2)
Posso assegnare un nome con tab<- table (dataset$variabile1,dataset$variabile2)
Con prop.table (tab) ho la tabella con le f relative
A partire dall’ultima tabella (f relative) posso evidenziare le distribuzioni condizionali (quelle per riga e quelle per colonna con tab1<-prop.table(tab,1) -> riga o tab1<-prop.table(tab,2) -> colonna
Grafici (colonna singola con diversi colori) barplot(tab2) oppure (colonne separate) barplot(tab2, beside=T)
Per vedere la legenda barplot (tab2, legend.text=T)
Per l’analisi dell’associazione nel caso in cui la variabile sia quantitativa : tapply (DATASET$VARIABILE1, DATASET$VARIABILE2, summary) tapply in particolare permette di applicare ad una funzione (summary, media, mediana) alle distribuzioni condizionali di una variabile); nuovonome

ad esempio tapply (DATASET$VARIABILE1, DATASET$VARIABILE2, sd) mi da la deviazione standard del tasso di riempimento date le modalità della variabile 2 -> se ci sono valori mancanti ricordare na.rm=T

I boxplot li ottieni con boxplot (DATASET$VARIABILE1QUANTITATIVA~DATASET$VARIABILE2QUALITATIVA)->prima la variabile quantitativa
Per lo scatterplot: plot (DATASET$VARIABILEQUANTCONTINUA;DATASET$VARIABILEQUANTCONTINUA)
Covarianza cov (DATASET$VARIABILEQUANTCONTINUA;DATASET$VARIABILEQUANTCONTINUA)
Coefficiente di correlazione lineare: cor (DATASET$VARIABILEQUANTCONTINUA;DATASET$VARIABILEQUANTCONTINUA) PROBABILITÀ
Funzione pnorm (x, valore atteso mu, scarto quadratico medio) -> probabilità con cui una variabile aleatoria con distribuzione normale normale assume valori minori di un valore. -> pnorm(x) presuppone la distribuzione N standard.
Funzione qnorm (ordina quantile, valore atteso mu, scarto quadratico medio ) -> mi da il quartile di una variabile aleatoria con distribuzione normale
Funzione qt (1-alfa/2, n-1)
Funzione t.test (DATASET$VARIABILE, conf.level=1-alfa)

Formulario R- statistica, Formulari di Statistica

Documenti correlati

Anteprima parziale del testo

Scarica Formulario R- statistica e più Formulari in PDF di Statistica solo su Docsity!

STATISTICA DESCRITTIVA