Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Formulario di Statistica di RStudio, Appunti di Statistica

Università degli Studi di Palermo (UNIPA)Statistica

Formulario completo con i comandi di RStudio. da come costruire un vettore a come effettuare la verifica d'ipotesi con le varie distribuzioni. Contiene anche le definizioni principali di Statistica.

Tipologia: Appunti

2020/2021

In vendita dal 04/06/2022

sofia-wi 🇮🇹

4.7

(9)

14 documenti

1 / 10

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

~

Costruire un vettore

x<-c(2,5,9.5,-3) anche non numerici

x[2] #seleziona il suo secondo elemento

x[c(2,4)] #seleziona i suoi elementi nelle posizioni 2 e 4

x[-c(1,3)] #escludi quelli nelle posizioni 1 e 3

x[x>0] #seleziona i suoi elementi positivi

x[!(x<=0)] #escludi i suoi elementi non strettamente positivi

x[x>0]-1 #sottrai uno scalare agli elementi positivi

x[x>0][2] #seleziona il secondo elemento tra quelli positivi

per sapere la dimensione del vettore

length(x)

length(x[x>0])

Ordinare in modo crescente

sort(x)

Frequenze assolute

Table() è la funzione principale per tabulare i dati presenti in un dataset. Può essere utilizzata per

produrre tabelle di frequenza, ma anche tabelle di contingenza.

Con questo comando si ottengono le distribuzioni di frequenza assolute di un vettore.

Frequenze relative

Freqrel<- table()/length()

per controllare che la somma fa 1

sum(table()/length())

Frequenze cumulate

cumsum(freq_ass)

Plot

plot è una funzione generica per la rappresentazione grafica di oggetti in R. Funzione generica

significa che si adatta a diversi tipi di oggetti, dalle variabili alle tabelle agli output di funzioni

complesse, producendo risultati diversi.

Applicato ad una variabile nominale o fattore, produrrà un grafico a barre: Applicato ad una

variabile cardinale, produrrà un grafico a dispersione (scatterplot):

Applicato alla stessa variabile, ma tabulata — dunque alla sua distribuzione di frequenze —

produrrà un istogramma a bastoncini. Applicato infine a due variabili, una nominale ed una

cardinale, produrrà un Boxplot

abline() # aggiunge una linea al grafico

nomeretta=lm(y~x) (regressione lineare)

abline(nomeretta)

curve() # disegna una curva in base ai valori passati

Grafico a torta

slices <- c() e ci metti i valori

lbls <- c() e ci metti ad ogni numero cosa corrisponde

Scopri Appunti di Statistica Università degli Studi di Palermo (UNIPA)

Documenti correlati

Comandi RStudio principali

(3)

Formulario psicometria - codici su rstudio

Statistica 1 con Rstudio

esempio di un esercizio su rstudio

Comandi RStudio per esame di statistica

Comandi Rstudio - Analisi delle serie storiche

(1)

Procedimenti RStudio - Excel

Esercitazione con Rstudio

rstudio serie storiche

Alcuni comandi Rstudio

(1)

formule utili per esame di indagine sociale su Rstudio

Esercizi Statistica Numerica - RStudio

Anteprima parziale del testo

Scarica Formulario di Statistica di RStudio e più Appunti in PDF di Statistica solo su Docsity!

~ Costruire un vettore x<-c(2,5,9.5,-3) anche non numerici x[2] #seleziona il suo secondo elemento x[c(2,4)] #seleziona i suoi elementi nelle posizioni 2 e 4 x[-c(1,3)] #escludi quelli nelle posizioni 1 e 3 x[x>0] #seleziona i suoi elementi positivi x[!(x<=0)] #escludi i suoi elementi non strettamente positivi x[x>0]-1 #sottrai uno scalare agli elementi positivi x[x>0][2] #seleziona il secondo elemento tra quelli positivi per sapere la dimensione del vettore length(x) length(x[x>0]) Ordinare in modo crescente sort(x) Frequenze assolute Table() è la funzione principale per tabulare i dati presenti in un dataset. Può essere utilizzata per produrre tabelle di frequenza, ma anche tabelle di contingenza. Con questo comando si ottengono le distribuzioni di frequenza assolute di un vettore. Frequenze relative Freqrel<- table()/length() per controllare che la somma fa 1 sum(table()/length()) Frequenze cumulate cumsum(freq_ass) Plot plot è una funzione generica per la rappresentazione grafica di oggetti in R. Funzione generica significa che si adatta a diversi tipi di oggetti, dalle variabili alle tabelle agli output di funzioni complesse, producendo risultati diversi. Applicato ad una variabile nominale o fattore, produrrà un grafico a barre: Applicato ad una variabile cardinale, produrrà un grafico a dispersione (scatterplot): Applicato alla stessa variabile, ma tabulata — dunque alla sua distribuzione di frequenze — produrrà un istogramma a bastoncini. Applicato infine a due variabili, una nominale ed una cardinale, produrrà un Boxplot abline() # aggiunge una linea al grafico nomeretta=lm(y~x) (regressione lineare) abline(nomeretta) curve() # disegna una curva in base ai valori passati Grafico a torta slices <- c() e ci metti i valori lbls <- c() e ci metti ad ogni numero cosa corrisponde

pie (slices, labels=lbls, main="titolo") Grafico a barre barplot(table()) Boxplot boxplot(nomevariabile, horizontal=TRUE) Outliers Q1-(1.5)IQR<min Q3+(1.5)IQR>max Istogramma per le variabili quantitative hist() Scrivendo freq=F, si utilizza la densità invece che la frequenza assoluta. Utilizzare se c’è la divisione in classi Creare un dataframe X<-data.frame(a=1:4, sesso=c("M","F","F","M")) dim(X) #la `dimensione' (numero dei casi e di variabili) per aggiungere una nuova colonna al dataframe nomedataframe$nomecolonna<-c(inserisco i valori) per selezionare dei valori nomedataframe[nomedataframe$nomecolonna 1 ==’valore1’, ‘colonna due’] prende i valori della seconda colonna con valore 1 nella prima. Per sapere la tipologia di dati che ci sono str(nomedataframe), per sapere il numero di righe e colonne dim(nomedataframe). Per sapere il numero delle colone length(nomedataframe), per il numero delle righe nrow(nomedataframe). Creare una matrice Matrix(c(elementi), nrow=(numero righe) byrow = TRUE) se byrow è FALSE (the default) the matrix riempita con colonne, in caso contrario con righe. Controlliamo che i dati siano stati importati correttamente View(dati)) come dividere in classi dei valori(ampiezza uguale) Per dividere in classi k utilizzo il comando floor che trova l’intero più vicino della radice quadrata del numero di elementi. k = floor(sqrt(n)) a <- (max(x) - min(x))/k estremi_classi <- seq(from = min(x), to = max(x), by = a) hist(x, col=myPalette[2], probability = T, breaks = estremi_classi) come dividere in classi dei valori(ampiezza diversa) inserisco in un vettore tutti i valori che voglio dividere in classi. Inserisco un vettore contenente gli estremi

massimo max(x) minimo min(x) somma tutti i valori sum(x) quadrato della somma di tutti i valori sum(x)^ somma dei quadrati di tutti i valori sum(x^2) covarianza cov(x,y)

- Indici di asimmetria Indice di Pearson Pearson=(mu-Mediana)/(dev) As=cor.test(a,b) Esso é nullo nel caso di simmetria; tende ad assumere valori positivi se la distribuzione presenta asimmetria positiva (a destra) e valori negativi nel caso di asimmetria negativa(a sinistra). Indice di Curtosi kurt() Esso è nullo nel caso di normalità(simmetria); tende ad assumere valori positivi se la distribuzione presenta code pesanti e valori negativi nel caso di code leggere. Calcolare i quantili n = length(variabile) visto che R lavora in forma vettoriale, possiamo calcolarli contemporaneamente p = c(0.25, 0.5, 0.75) variabile _ordinato <- sort(variabile) position <- p*(n+1) pos <- floor(position) delta <- position – pos (quartili <- (1-delta) * variabile _ordinato[pos] + delta * variabile _ordinato[pos+1]) Which() Il comando which(condizione) permette di verificare una condizione. Se si utilizzano più condizioni si utilizza & (end) e || (or). Variabile Aleatoria Discreta: Può assumere un insieme numerabile di valori (Bernoulli, Binomiale, Poisson) Variabile Aleatoria Continua: Si trovano in un intervallo di numeri reali (Normale, Esponenziale, Gamma, Uniforme, Chi quadro, T-Student).

Variabili aleatoria r(nomedistribuzione): restituisce un vettore di numeri casuali estratti secondo la distribuzione d(nomedistribuzione): restituisce il vettore della densità (o funzione di massa) della distribuzione valutata dei valori del vettore di input p(nomedistribuzione): restituisce il vettore della funzione di ripartizione (o cumulativa) della distribuzioni valutata nei valori del vettore di input q(nomedistribuzione): restituisce il vettore dei quantili della distribuzione valutata nei valori del vettore di input Distribuzione Binomiale e Bernulli (con size=1) Bernoulli: È una variabile aleatoria discreta che considera due casi possibili su una singola prova (1) successo e (0) insuccesso. (X~ Bernoulli (pi greco)). Binomiale: È una variabile discreta che considera i due casi possibili (successo o insuccesso) su più prove indipendenti (X ~ Binomiale (n, pi greco)) n=numero di osservazioni size=numero di prove prob=probabilità di successo rbinom(n, size, prob): restituisce un vettore di n numeri estratti secondo una distribuzione Binomiale di parametri size, prob. dbinom(x, size, prob): restituisce la probabilità di ottenere esattamente x successi in un esperimento dicotomico ripetuto size volte con una probabilità di successo prob (x può essere un vettore) (probabilità P(X=a)) pbinom(q, size, prob): restituisce il valore della funzione di ripartizione in q (q può essere un vettore) (si utilizza per fare la probabilità PX=<a) qbinom(p, size, prob): restituisce il valore del quantile di ordine p (p può essere un vettore) Distribuzione Poisson Poisson: Quando si opera con variabili aleatorie discrete che rappresentano il numero degli eventi che capitano nell’unita di tempo o di spazio, e che quindi a differenza di una distribuzione binomiale non permettono di conoscere la probabilità di successo “p” e di insuccesso “1-p”; allora è necessario utilizzare la distribuzione di Poisson che permette di calcolare la probabilità che si presentino “x” casi conoscendo il numero medio di casi (X ~ Poisson (ƛ)). rpois(n, lambda): restituisce un vettore di n numeri estratti secondo una distribuzione Poisson di parametro lambda dpois(x, lambda): restituisce il valore della funzione di probabilità (x può essere un vettore) (probabilità P(X=a)) ppois(q, lambda): restituisce il valore della funzione di ripartizione in q (q può essere un vettore) (si utilizza per fare la probabilità PX=<a) qpois(p, lambda): restituisce il valore del quantile di ordine p (p può essere un vettore) Distribuzione Uniforme Uniforme: è una distribuzione di probabilità continua che è uniforme su un insieme, ovvero che attribuisce la stessa probabilità a tutti i punti appartenenti ad un dato intervallo [a, b] contenuto nell’insieme. (X ~ Unif (a, b)). runif(n, min, max): restituisce un vettore di n numeri estratti dall’intervallo[min,max] secondo una distribuzione uniforme continua di parametri a=min e b=max dunif(x, min, max): restituisce il valore (per calcolare la probabilità fra due numeri) (probabilità P(X=a))

rchisq(n, df, ncp = 0) Regressione lineare yhat= b0 + b1x #per trovare la retta della regressione lineare calcolo la media di x e di y medx=mean(x) medy=mean(y) #b0=medy-b1medx #b1=codev/varianza Si calcola anche codevianza = sommax_y - numeroelementimediaxmediay devianza_x = somma(x^2) - numeroelementi(mediax^2) devianza_y = somma(y^2) - numeroelementi*(mediay^2) (b1 = codevianza/devianza_x) (b0 = mediay - mediax * b1) SSE = (yi - yhat)^2 errori SST = (yi - ybar)^2 devianza SSR = (yhat - ybar)^2 regressione nomeretta=lm(y~x) (regressione lineare) Calcolare R^2, l’indice di determinazione è Una misura dell’adattamento della retta ai punti osservati R2 = sum((yhat - mean(y))^2) / sum((y - mean(y))^2) SSRX/devianza_y R2=(SSR/SST)=1-(SSE/SST) SST = SSR + SSE tale misura R^ 2 ∈ [0; 1], dove R 2 = 0 quando SSR = 0, dunque se e solo se la retta di regressione è parallela all’asse delle ascisse, mentre R 2 = 1 quando SSE = 0, quindi se e solo se i punti osservati giacciono su una retta. Stima intervallare

Stima per intervallo della media di una popolazione normale con varianza sigma^2 nota IC=[xbar-qnorm(1-alpha/2)(deviazionestandard/(sqrt(n))); xbar+ qnorm(1-alpha/2)(deviazionestandard/(sqrt(n)))]
Stima per intervallo della media di una popolazione normale con varianza NON nota IC=[xbar-qt(1-alpha, n- 1 )(deviazionecampionaria/(sqrt(n))); xbar+ qt(1-alpha, n- 1 )( deviazionecampionaria /(sqrt(n)))]
Stima intervallare della media nel caso di grandi campioni IC=[xbar-qnorm(1-alpha/2)(deviazionestandard/(sqrt(n))); phat-qnorm(1-alpha/2)(deviazionestandard/(sqrt(n)))]
Stima intervallare della proporzione nel caso di grandi campione (p parametro della bernulli)

IC=[phat-qnorm(1-alpha/2)(sqrt(phat(1-phat)/n)); phat+qnorm(1-alpha/2)(sqrt(phat(1-phat)/n))]

Stima intervallare della varianza di una popolazione normale IC=[((n-1)(deviazionecampionaria^2))/ qchisq(1-alpha/2); ((n-1)(deviazionecampionaria^2))/ qchisq(alpha/2);] Pvalue #calcolo il livello di significatività con il pvalue, trovo il quantile tale per qui la probabilità sia magione di toss pvalue pvalue>alpha < #calcolo il livello di significatività con il pvalue, trovo il quantile tale per qui la probabilità sia magione di zoss pvalue=1-pnorm(zoss) pvalue> zteo Stimatore (stima puntuale) D(T ) = E (T) − θ è denominata distorsione se E[T – θ]=0 il parametro non è distorto MSE(T ) = E[ (T – θ)^2] Si tratta del valore atteso del quadrato dell’errore di stima. MSE(T) può essere interpretato come una misura della “distanza” media o, equivalentemente, della “vicinanza” media delle stime fornite da T e il valore reale di θ. MSE() = V[T]+(E[T]- θ)^ (se lo stimatore non è distorto) MSE(T ) = V[T] = E[ (T – θ)^2] Verifica d’ipotesi (solo per t student) t.test(vettorecampione, y=NULL, alternative = 'greater', mu0) con alternative = greater , less , "two.sided" (!=), restituisce le informazioni su test statistico su campione “vettore”, in cui l’ipotesi alternativa è una tra “greater”(mu>mu0) , “less” (mu<mu0) , "two.sided”(mu!=mu0).

Definizioni Statistica Principali

Disuguaglianza di Chebyshev: Data una qualsiasi distribuzione statistica con media μ e deviazione standard σ , sia I( δ delta ) l’insieme dei termini della distribuzione stessa definito come: I( δ ) = {x: μ - δ < x < μ + δ } in cui δ è una quantità arbitraria positiva. Allora, la frequenza relativa complessiva dei termini che si trovano nell’insieme soddisfa la disuguaglianza. Fr[I( δ )] >= 1 – ( σ^2 / δ ) Indica che la frequenza relativa complessiva delle unità con normalità della variabile comprese nell’intervallo ( μ - δ , μ + δ ) è maggiore o uguale alla quantità posta al secondo membro. (Quando non si conosce la forma di una distribuzione ma si conoscono la media e σ, si può conoscere approssimativamente quanti valori sono compresi tra due valori x con la stessa distanza dalla media.)

Teorema Del Limite Centrale (TLC): Sia {X1, X2, …} una successione di variabili casuali indipendenti e aventi tutte la stessa distribuzione con valore atteso E[Xi] = μ e varianza V[Xi] = σ^2, i = 1,2… La successione delle medie aritmetiche fatte sulle prime 1,2, … variabili casuali. Allora definita la variabile scarto standardizzato: Per ogni z appartenete a R, si ha Quando il campione ha un’ampiezza sufficientemente elevata la distribuzione può essere approssimata con una normale qualunque sia la forma della distribuzione originale. Errore quadratico medio: Riprendiamo l’errore quadratico dello stimatore T di Θ: MSE(T) = E[(T-Θ) ^2] Si tratta del valore atteso del quadrato dell’errore di stima. MSE(T) può essere interpretato come una misura della “distanza” media o, equivalente, della “vicinanza” media delle stime fornite da T e il valore reale Θ. L’errore quadratico medio dello stimatore T di Θ può essere scritto nella forma Dove V[T] = E[(t-Θ) ^2] è la varianza dello stimatore. Se lo stimatore è non distorto, l’errore quadratico medo coincide con la varianza: MSE(T) = V[T] Rappresentazione grafica ingannevole Un esempio di rappresentazione grafica ingannevole è l'utilizzo del diagramma a barre invece che l'istogramma per le variabili quantitative continue. Il primo non sottolinea l'ampiezza delle classi e le frequenze relative. Anche utilizzare il grafico a torta invece che un istogramma o grafico a barre è ingannevole se sono rappresentate variabili quantitative Una serie storica è una raccolta di dati con un ordine cronologico