Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Formulario di Statistica di RStudio, Appunti di Statistica

Formulario completo con i comandi di RStudio. da come costruire un vettore a come effettuare la verifica d'ipotesi con le varie distribuzioni. Contiene anche le definizioni principali di Statistica.

Tipologia: Appunti

2020/2021

In vendita dal 04/06/2022

sofia-wi
sofia-wi 🇮🇹

4.7

(9)

14 documenti

1 / 10

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
~
Costruire un vettore
x<-c(2,5,9.5,-3) anche non numerici
x[2] #seleziona il suo secondo elemento
x[c(2,4)] #seleziona i suoi elementi nelle posizioni 2 e 4
x[-c(1,3)] #escludi quelli nelle posizioni 1 e 3
x[x>0] #seleziona i suoi elementi positivi
x[!(x<=0)] #escludi i suoi elementi non strettamente positivi
x[x>0]-1 #sottrai uno scalare agli elementi positivi
x[x>0][2] #seleziona il secondo elemento tra quelli positivi
per sapere la dimensione del vettore
length(x)
length(x[x>0])
Ordinare in modo crescente
sort(x)
Frequenze assolute
Table() è la funzione principale per tabulare i dati presenti in un dataset. Può essere utilizzata per
produrre tabelle di frequenza, ma anche tabelle di contingenza.
Con questo comando si ottengono le distribuzioni di frequenza assolute di un vettore.
Frequenze relative
Freqrel<- table()/length()
per controllare che la somma fa 1
sum(table()/length())
Frequenze cumulate
cumsum(freq_ass)
Plot
plot è una funzione generica per la rappresentazione grafica di oggetti in R. Funzione generica
significa che si adatta a diversi tipi di oggetti, dalle variabili alle tabelle agli output di funzioni
complesse, producendo risultati diversi.
Applicato ad una variabile nominale o fattore, produrrà un grafico a barre: Applicato ad una
variabile cardinale, produrrà un grafico a dispersione (scatterplot):
Applicato alla stessa variabile, ma tabulata dunque alla sua distribuzione di frequenze
produrrà un istogramma a bastoncini. Applicato infine a due variabili, una nominale ed una
cardinale, produrrà un Boxplot
abline() # aggiunge una linea al grafico
nomeretta=lm(y~x) (regressione lineare)
abline(nomeretta)
curve() # disegna una curva in base ai valori passati
Grafico a torta
slices <- c() e ci metti i valori
lbls <- c() e ci metti ad ogni numero cosa corrisponde
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Formulario di Statistica di RStudio e più Appunti in PDF di Statistica solo su Docsity!

~ Costruire un vettore x<-c(2,5,9.5,-3) anche non numerici x[2] #seleziona il suo secondo elemento x[c(2,4)] #seleziona i suoi elementi nelle posizioni 2 e 4 x[-c(1,3)] #escludi quelli nelle posizioni 1 e 3 x[x>0] #seleziona i suoi elementi positivi x[!(x<=0)] #escludi i suoi elementi non strettamente positivi x[x>0]-1 #sottrai uno scalare agli elementi positivi x[x>0][2] #seleziona il secondo elemento tra quelli positivi per sapere la dimensione del vettore length(x) length(x[x>0]) Ordinare in modo crescente sort(x) Frequenze assolute Table() è la funzione principale per tabulare i dati presenti in un dataset. Può essere utilizzata per produrre tabelle di frequenza, ma anche tabelle di contingenza. Con questo comando si ottengono le distribuzioni di frequenza assolute di un vettore. Frequenze relative Freqrel<- table()/length() per controllare che la somma fa 1 sum(table()/length()) Frequenze cumulate cumsum(freq_ass) Plot plot è una funzione generica per la rappresentazione grafica di oggetti in R. Funzione generica significa che si adatta a diversi tipi di oggetti, dalle variabili alle tabelle agli output di funzioni complesse, producendo risultati diversi. Applicato ad una variabile nominale o fattore, produrrà un grafico a barre: Applicato ad una variabile cardinale, produrrà un grafico a dispersione (scatterplot): Applicato alla stessa variabile, ma tabulata — dunque alla sua distribuzione di frequenze — produrrà un istogramma a bastoncini. Applicato infine a due variabili, una nominale ed una cardinale, produrrà un Boxplot abline() # aggiunge una linea al grafico nomeretta=lm(y~x) (regressione lineare) abline(nomeretta) curve() # disegna una curva in base ai valori passati Grafico a torta slices <- c() e ci metti i valori lbls <- c() e ci metti ad ogni numero cosa corrisponde

pie (slices, labels=lbls, main="titolo") Grafico a barre barplot(table()) Boxplot boxplot(nomevariabile, horizontal=TRUE) Outliers Q1-(1.5)IQR<min Q3+(1.5)IQR>max Istogramma per le variabili quantitative hist() Scrivendo freq=F, si utilizza la densità invece che la frequenza assoluta. Utilizzare se c’è la divisione in classi Creare un dataframe X<-data.frame(a=1:4, sesso=c("M","F","F","M")) dim(X) #la `dimensione' (numero dei casi e di variabili) per aggiungere una nuova colonna al dataframe nomedataframe$nomecolonna<-c(inserisco i valori) per selezionare dei valori nomedataframe[nomedataframe$nomecolonna 1 ==’valore1’, ‘colonna due’] prende i valori della seconda colonna con valore 1 nella prima. Per sapere la tipologia di dati che ci sono str(nomedataframe), per sapere il numero di righe e colonne dim(nomedataframe). Per sapere il numero delle colone length(nomedataframe), per il numero delle righe nrow(nomedataframe). Creare una matrice Matrix(c(elementi), nrow=(numero righe) byrow = TRUE) se byrow è FALSE (the default) the matrix riempita con colonne, in caso contrario con righe. Controlliamo che i dati siano stati importati correttamente View(dati)) come dividere in classi dei valori(ampiezza uguale) Per dividere in classi k utilizzo il comando floor che trova l’intero più vicino della radice quadrata del numero di elementi. k = floor(sqrt(n)) a <- (max(x) - min(x))/k estremi_classi <- seq(from = min(x), to = max(x), by = a) hist(x, col=myPalette[2], probability = T, breaks = estremi_classi) come dividere in classi dei valori(ampiezza diversa) inserisco in un vettore tutti i valori che voglio dividere in classi. Inserisco un vettore contenente gli estremi

massimo max(x) minimo min(x) somma tutti i valori sum(x) quadrato della somma di tutti i valori sum(x)^ somma dei quadrati di tutti i valori sum(x^2) covarianza cov(x,y)

- Indici di asimmetria Indice di Pearson Pearson=(mu-Mediana)/(dev) As=cor.test(a,b) Esso é nullo nel caso di simmetria; tende ad assumere valori positivi se la distribuzione presenta asimmetria positiva (a destra) e valori negativi nel caso di asimmetria negativa(a sinistra). Indice di Curtosi kurt() Esso è nullo nel caso di normalità(simmetria); tende ad assumere valori positivi se la distribuzione presenta code pesanti e valori negativi nel caso di code leggere. Calcolare i quantili n = length(variabile) visto che R lavora in forma vettoriale, possiamo calcolarli contemporaneamente p = c(0.25, 0.5, 0.75) variabile _ordinato <- sort(variabile) position <- p*(n+1) pos <- floor(position) delta <- position – pos (quartili <- (1-delta) * variabile _ordinato[pos] + delta * variabile _ordinato[pos+1]) Which() Il comando which(condizione) permette di verificare una condizione. Se si utilizzano più condizioni si utilizza & (end) e || (or). Variabile Aleatoria Discreta: Può assumere un insieme numerabile di valori (Bernoulli, Binomiale, Poisson) Variabile Aleatoria Continua: Si trovano in un intervallo di numeri reali (Normale, Esponenziale, Gamma, Uniforme, Chi quadro, T-Student).

Variabili aleatoria r(nomedistribuzione): restituisce un vettore di numeri casuali estratti secondo la distribuzione d(nomedistribuzione): restituisce il vettore della densità (o funzione di massa) della distribuzione valutata dei valori del vettore di input p(nomedistribuzione): restituisce il vettore della funzione di ripartizione (o cumulativa) della distribuzioni valutata nei valori del vettore di input q(nomedistribuzione): restituisce il vettore dei quantili della distribuzione valutata nei valori del vettore di input Distribuzione Binomiale e Bernulli (con size=1) Bernoulli: È una variabile aleatoria discreta che considera due casi possibili su una singola prova (1) successo e (0) insuccesso. (X~ Bernoulli (pi greco)). Binomiale: È una variabile discreta che considera i due casi possibili (successo o insuccesso) su più prove indipendenti (X ~ Binomiale (n, pi greco)) n=numero di osservazioni size=numero di prove prob=probabilità di successo rbinom(n, size, prob): restituisce un vettore di n numeri estratti secondo una distribuzione Binomiale di parametri size, prob. dbinom(x, size, prob): restituisce la probabilità di ottenere esattamente x successi in un esperimento dicotomico ripetuto size volte con una probabilità di successo prob (x può essere un vettore) (probabilità P(X=a)) pbinom(q, size, prob): restituisce il valore della funzione di ripartizione in q (q può essere un vettore) (si utilizza per fare la probabilità PX=<a) qbinom(p, size, prob): restituisce il valore del quantile di ordine p (p può essere un vettore) Distribuzione Poisson Poisson: Quando si opera con variabili aleatorie discrete che rappresentano il numero degli eventi che capitano nell’unita di tempo o di spazio, e che quindi a differenza di una distribuzione binomiale non permettono di conoscere la probabilità di successo “p” e di insuccesso “1-p”; allora è necessario utilizzare la distribuzione di Poisson che permette di calcolare la probabilità che si presentino “x” casi conoscendo il numero medio di casi (X ~ Poisson (ƛ)). rpois(n, lambda): restituisce un vettore di n numeri estratti secondo una distribuzione Poisson di parametro lambda dpois(x, lambda): restituisce il valore della funzione di probabilità (x può essere un vettore) (probabilità P(X=a)) ppois(q, lambda): restituisce il valore della funzione di ripartizione in q (q può essere un vettore) (si utilizza per fare la probabilità PX=<a) qpois(p, lambda): restituisce il valore del quantile di ordine p (p può essere un vettore) Distribuzione Uniforme Uniforme: è una distribuzione di probabilità continua che è uniforme su un insieme, ovvero che attribuisce la stessa probabilità a tutti i punti appartenenti ad un dato intervallo [a, b] contenuto nell’insieme. (X ~ Unif (a, b)). runif(n, min, max): restituisce un vettore di n numeri estratti dall’intervallo[min,max] secondo una distribuzione uniforme continua di parametri a=min e b=max dunif(x, min, max): restituisce il valore (per calcolare la probabilità fra due numeri) (probabilità P(X=a))

rchisq(n, df, ncp = 0) Regressione lineare yhat= b0 + b1x #per trovare la retta della regressione lineare calcolo la media di x e di y medx=mean(x) medy=mean(y) #b0=medy-b1medx #b1=codev/varianza Si calcola anche codevianza = sommax_y - numeroelementimediaxmediay devianza_x = somma(x^2) - numeroelementi(mediax^2) devianza_y = somma(y^2) - numeroelementi*(mediay^2) (b1 = codevianza/devianza_x) (b0 = mediay - mediax * b1) SSE = (yi - yhat)^2 errori SST = (yi - ybar)^2 devianza SSR = (yhat - ybar)^2 regressione nomeretta=lm(y~x) (regressione lineare) Calcolare R^2, l’indice di determinazione è Una misura dell’adattamento della retta ai punti osservati R2 = sum((yhat - mean(y))^2) / sum((y - mean(y))^2) SSRX/devianza_y R2=(SSR/SST)=1-(SSE/SST) SST = SSR + SSE tale misura R^ 2 ∈ [0; 1], dove R 2 = 0 quando SSR = 0, dunque se e solo se la retta di regressione è parallela all’asse delle ascisse, mentre R 2 = 1 quando SSE = 0, quindi se e solo se i punti osservati giacciono su una retta. Stima intervallare

  • Stima per intervallo della media di una popolazione normale con varianza sigma^2 nota IC=[xbar-qnorm(1-alpha/2)(deviazionestandard/(sqrt(n))); xbar+ qnorm(1-alpha/2)(deviazionestandard/(sqrt(n)))]
  • Stima per intervallo della media di una popolazione normale con varianza NON nota IC=[xbar-qt(1-alpha, n- 1 )(deviazionecampionaria/(sqrt(n))); xbar+ qt(1-alpha, n- 1 )( deviazionecampionaria /(sqrt(n)))]
  • Stima intervallare della media nel caso di grandi campioni IC=[xbar-qnorm(1-alpha/2)(deviazionestandard/(sqrt(n))); phat-qnorm(1-alpha/2)(deviazionestandard/(sqrt(n)))]
  • Stima intervallare della proporzione nel caso di grandi campione (p parametro della bernulli)

IC=[phat-qnorm(1-alpha/2)(sqrt(phat(1-phat)/n)); phat+qnorm(1-alpha/2)(sqrt(phat(1-phat)/n))]

  • Stima intervallare della varianza di una popolazione normale IC=[((n-1)(deviazionecampionaria^2))/ qchisq(1-alpha/2); ((n-1)(deviazionecampionaria^2))/ qchisq(alpha/2);] Pvalue #calcolo il livello di significatività con il pvalue, trovo il quantile tale per qui la probabilità sia magione di toss pvalue pvalue>alpha < #calcolo il livello di significatività con il pvalue, trovo il quantile tale per qui la probabilità sia magione di zoss pvalue=1-pnorm(zoss) pvalue> zteo Stimatore (stima puntuale) D(T ) = E (T) − θ è denominata distorsione se E[T – θ]=0 il parametro non è distorto MSE(T ) = E[ (T – θ)^2] Si tratta del valore atteso del quadrato dell’errore di stima. MSE(T) può essere interpretato come una misura della “distanza” media o, equivalentemente, della “vicinanza” media delle stime fornite da T e il valore reale di θ. MSE() = V[T]+(E[T]- θ)^ (se lo stimatore non è distorto) MSE(T ) = V[T] = E[ (T – θ)^2] Verifica d’ipotesi (solo per t student) t.test(vettorecampione, y=NULL, alternative = 'greater', mu0) con alternative = greater , less , "two.sided" (!=), restituisce le informazioni su test statistico su campione “vettore”, in cui l’ipotesi alternativa è una tra “greater”(mu>mu0) , “less” (mu<mu0) , "two.sided”(mu!=mu0).

Definizioni Statistica Principali

Disuguaglianza di Chebyshev: Data una qualsiasi distribuzione statistica con media μ e deviazione standard σ , sia I( δ delta ) l’insieme dei termini della distribuzione stessa definito come: I( δ ) = {x: μ - δ < x < μ + δ } in cui δ è una quantità arbitraria positiva. Allora, la frequenza relativa complessiva dei termini che si trovano nell’insieme soddisfa la disuguaglianza. Fr[I( δ )] >= 1 – ( σ^2 / δ ) Indica che la frequenza relativa complessiva delle unità con normalità della variabile comprese nell’intervallo ( μ - δ , μ + δ ) è maggiore o uguale alla quantità posta al secondo membro. (Quando non si conosce la forma di una distribuzione ma si conoscono la media e σ, si può conoscere approssimativamente quanti valori sono compresi tra due valori x con la stessa distanza dalla media.)

Teorema Del Limite Centrale (TLC): Sia {X1, X2, …} una successione di variabili casuali indipendenti e aventi tutte la stessa distribuzione con valore atteso E[Xi] = μ e varianza V[Xi] = σ^2, i = 1,2… La successione delle medie aritmetiche fatte sulle prime 1,2, … variabili casuali. Allora definita la variabile scarto standardizzato: Per ogni z appartenete a R, si ha Quando il campione ha un’ampiezza sufficientemente elevata la distribuzione può essere approssimata con una normale qualunque sia la forma della distribuzione originale. Errore quadratico medio: Riprendiamo l’errore quadratico dello stimatore T di Θ: MSE(T) = E[(T-Θ) ^2] Si tratta del valore atteso del quadrato dell’errore di stima. MSE(T) può essere interpretato come una misura della “distanza” media o, equivalente, della “vicinanza” media delle stime fornite da T e il valore reale Θ. L’errore quadratico medio dello stimatore T di Θ può essere scritto nella forma Dove V[T] = E[(t-Θ) ^2] è la varianza dello stimatore. Se lo stimatore è non distorto, l’errore quadratico medo coincide con la varianza: MSE(T) = V[T] Rappresentazione grafica ingannevole Un esempio di rappresentazione grafica ingannevole è l'utilizzo del diagramma a barre invece che l'istogramma per le variabili quantitative continue. Il primo non sottolinea l'ampiezza delle classi e le frequenze relative. Anche utilizzare il grafico a torta invece che un istogramma o grafico a barre è ingannevole se sono rappresentate variabili quantitative Una serie storica è una raccolta di dati con un ordine cronologico