






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Schemi dettagliati per esami parziali e generale di Statistica (30001); completi di teoria e spiegazioni per lo svolgimento degli esercizi. Per CLEF, CLEAM e CLEACC. Prof. Trentini.
Tipologia: Schemi e mappe concettuali
1 / 11
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







Per selezionare elementi di un vettore è sufficiente far seguire al nome del vettore l’operatore [ ] , gli elementi di un vettore possono essere selezionati anche sulla base i condivisioni definite sul vettore steso o o su un altro vettore ( Vettore relativo ) (es. US$Murder.lessthan100 <. US$Murder[US$Density<100], oppure max(pizzerie$Sales[pizzerie$Sales<=4500]) I fattori sono vettori che associano ad altri dei livelli, x ricodificare: es. Età.F <. Factor(Età, levels=c(“Young”, “Middle”, “Old”)) Posso usare mean per trovare % di TRUE sul totale (se voglio numero uso sum ) es. mean(pizza$Sales>1000) RICORDA: library(UBStats) distr.table.x (x, freq=c(“counts”,”proportions”, breaks, data) freq può essere counts, perc, prop, cum distr.plot.x (x, freq=“counts”, plot.type, breaks, bw, data) freq indica il tipo di frequenze, stesse scelte del table breaks può essere un numero oppure =c() Grafici : Variabile quantitativa continua: Istogramma Variabile qualitativa nominale: Diagramma a torta Variabile quantitativa discreta: Spike plot Variabile qualitativa ordinale: Diagramma a barre Asimmetrie distribuzione : Obliqua a destra = Asimmetria positiva = Coda a destra —> Media > Mediana Obliqua a sinistra = Asimmetria negativa = Coda a sinistra —> Media < Mediana Istogramma viene costruito solitamente con intervalli di ampiezze diverse, allora su asse y devo necessariamente usare le densità di frequenza (c = p/w) Dati in classi di intervallo : se i dati vengono rilevati direttamente in classi (es. Dati sensibili reddito) in table e plot devo specificare interval=TRUE (di norma interval=FALSE), interval segnala che la variable è rilevata in classi. Frequenze cumulate : in distr.table specifico freq=“cum”. In distr.plot metto freq=“prop” plot.type=“cum”, se uso interval o breaks —> costruisco ogiva. Nell’istogramma l’area di ogni rettangolo è la frequenza relativa (base=w, altezza=c), serve per approssimare la funzione cumulativa (assumo che i valori siano distribuiti uniformemente nelle classi). variantequalitativanominale variantequalitativaordinare variabilequantitativaascreta ma eeee vanabilequantitativacontinua ricordausaredensità Frequenzecumulate
Uso la moda per variabili quantitative (! Se le classi sono troppo poche potrebbe essere inutile) e per quelle quantitative discrete (le continue hanno simili frequenze). La mediana non viene influenzata da valori estremi, si usa per variabili qualitative ordinali e quantitative (non può essere calcolata per qualitative nominali). Prima di calcolare la mediana devo ordinare i dati in modo crescente. La mediana può essere calcolata a partire da una tabella: in corrispondenza della prima frequenza cumulata Classe modale : quando i dati sono raggruppati in classi di intervallo, si considera l’intervallo con la massima densità di frequenza (non maggior numero di frequenze). Calcolo mediana da istogramma : La media può essere calcolata solo per variabili quantitative, esiste media semplice e media ponderata La media può essere approssimata considerando, per ogni intervallo, il suo punto medio. distr.summary.x (x, stats=“central”, digits, f.digits, data) stats posso usare “fivenumbers” o “summary” Misure di tendenza centrale sono inutili in caso di presenza di lunghe code/alta dispersione, utile dare informazioni anche lontane dal centro, uso i quartili : distr.summary.x(x, stats=“quartiles”, data) In alternativa posso usare anche i percentili : (es. p90 = valore minimo del più alto 10%) Se mi serve il numero di dati contenuti in un percentile/quartile uso: sum(data$x </> valore) se invece mi serve la frequenza uso: mean(data$x </> valore) Boxplot : La scatola è detta Interquartile range ( IQR = q3-q1), i baffi connettono la scatola al minimo e al massimo dei valori regolari, i valori estremi sono quelli: - Minori di q1 - 1.5IQR - Maggiori di q3 + 1.5IQR Dispersione : La dispersione fa riferimento all'entità delle distanze tra i valori assunti da una variabile; più specificamente può indicare quanto sono lontani i dati osservati dal centro della distribuzione. Esistono numerosi indici per quantificare la dispersione di una variabile quantitativa, le più comuni misure di dispersione sono: distr.summary.x(data$X, stats="dispersion") Varianza : La varianza è la media della somma delle deviazioni al quadrato Scarto quadratico medio (o Deviazone standard) : È la distanza media (standard) dei dati dalla media Posso usare distr.summary.x con stats=“dispersion” per ottenere le misure di dispersione (range, IQrange, sd, var, cv) Coefficiente di variazione : Esprime la deviazione standard invece che in termini assoluti, in termini relativi. Lo uso per misurare variabilità (dispersione) di variabili con unità di misure diverse. Misuredi
Mediana o.si n xnge
Ʃ Ʃ a III tiene (^) pettine (^) naaaaa tutto
vai (^) era.us vai^ Era.es
E (^02) n E x̅ meaiaaeianaaraa auaaaooaenamedias.ve Era ti^ o.ro^ Eri^ mi
Funzione di probabilità : associa ad ogni valore di x la probabilità che X (variabile aleatoria) sia uguale a x Valore atteso : Varianza : V.a. di Bernoulli : Può assumere solo due valori (o 0 o 1) V.a. continua : può assumere qualunque valore in un intervallo —> la probabilità che assuma uno specifico valore x è = 0 Per descrivere v.a continua uso una funzione di densità di probabilità Distribuzione normale : è la più importante distribuzione di probabilità pnorm (q, mean, sd) permette di calcolare la funzione di ripartizione (calcola ‘area sottesa ala curva fino a q) qnorm (p, mean, se) calcola i percentili, p è il percentile da calcolare, qnorm calcola Trasformazione lineare : data la v.a X Particolare trasformazione lineare è la standardizzazione : Combinazione lineare : V.a. indipendenti e identicamente distribuite (i.i.d) : Se le v.a i.i.d seguono distribuzione normale —> Se invece seguono distribuzione qualsiasi —> uso teorema del limite centrale (se n>30 approssimabile a dis.normale) Se seguono distribuzione di Bernoulli —>
La statistica inferenziale riguarda le procedure per fare estrapolazioni su parametri (es media) di una popolazione X a partire da statistiche (es media campionaria) calcolate su un campione casuale (Xn) Parametro ( ) : caratteristica misurabile della popolazione con riferimento a una va X Stimatore ( ) : statistica usata per stimare il parametro, è una va. Stima ( ) : realizzazione campionaria di uno stimatore in corrispondenza del campione Valuteremo scegliendo lo stimatore con le proprietà migliorim tuttavia non potremo fare alcuna valutazione, e non potremo sapere se e quanto tale stima è prossima al valore del parametro (che è ignoto) Uno stimatore Basato su un campione di unità n si dice non distorto per un parametro se il suo valore atteso è uguale al parametro PARAMETRO MEDIA DELLA POPOLAZIONE ( ) è la media campionaria Potrebbe essere necessario, se non è nota, stimare la varianza della popolazione Per stimare si utilizza la varianza campionaria NB: lo SE è lo scostamento atteso da per una generica stima e non per una specifica stima, ovvero misura la dispersione delle stime ottenute dai possibili campioni intorno a. Tanto più piccolo è lo SE dello stimatore tanto maggiore è la probabilità di stime vicine a. Per ottenere uno SE minore aumento l’ampiezza campionaria n. PARAMETRO PROPRZIONE SULLA POPOLAZIONE ( ) Le v.a sono i.i.d secondo una distribuzione di Bernoulli, il parametro è p. Per stimare p uso la proprzione campionaria Funzionea ripartizione (^) t.ir_ (^) È Iproprxsa^ prodanticheun'unitàsceltaacasoanacorianarepresentiunvaloresx E Export (^) n varrxl.Elrx.cat Erami.pro or Ed (^) p varixi^ eraa È a e (^) s'era.co rara Nin or^ nel Imitricarisero (^4) e le o^ soesinocercentice v (^) atex E è (^) varrà (^) a (^) aiutano a (^) di Elaxton (^) an due (^) varraxtdyi.io do (^) rado ricorda^ è È (^) g cor senti I.TT^ varrsi.n.oecEinvarrei.oin s successi^ i a a^ fermaresuccesso^ sen'so ta si È e parametroa^ stimatore ò (^) a cn È E (^) T.is a m x̅ 1ham (^) easy È
S μ μ μ
se naso (^) panrp.pro n è l'è^ mediacamonara^ ad Eli (^) io varrà^ aria serpi.ee
Per stimare la differenza tra le medie si usa lo stimatore
x ̅ T EE T (^) m m varrà
is D y 5 x^ ̅T ECD^ no (^) no varrà^ Fu sera tu I p (^07 07 ) B Pie (^) p p 1 (^25) Èverecisostituaao
ECP (^) P (^) a a stimatore noncustorto var È (^) Pi (^) Vari (^) Vara al e (^) col o varràPilcuiesserestimatasostituendoaex eo
Verifica di ipotesi: procedura per valutare se una determinata ipotesi su un parametro di una popolazione è supportata dall’evidenza empirica disponibile. Non saremo mai in grado di stabilire se un’ipotesi è vera o falsa, dato che il valore del parametro è incognito. La verifica è una procedura per valutare se le osservazioni rilevate su un campione casuale supportano o meno un’ipotesi sul parametro. H0 = ipotesi nulla, è lo status quo. H1= ipotesi alternativa, quella che vogliamo verificare Un test statistico permette di confrontare le due ipotesi e decidere se rifiutare o meno H0. Un test statistico fa riferimento a una statistica test , la cui distribuzione dipende da. Il test statistico definisce una regione di rifiuto, ovvero realizzazioni di che devono considerarsi non favorevoli ad H0 e che portano al suo rifiuto. Indichiamo con α (livello di significatività del test) la probabilità di commettere un errore di primo tipo (rifiutare l’ipotesi nulla quandoè vera) e indichiamo con β la possibilità di fare un errore di secondo tipo (rifiutare ipotesi alternativa quando è vera), (1 - β) è detto potenza del test. C’è un trade-off tra le due probabilità di errore Le probabilità di errore si riferiscono a generici campioni, in realtà α può esssre interpretato come la % di campioni cui corrispondono medie campionarie che portano, erroneamente, a rifiutare H0. TEST SULLA MEDIA Devo considerare le distribuzioni della statistica test (in questo caso X) sotto le due diverse ipotesi. In seguito bisogna definire la regione di rifiuto che garantisca una probabilità α di commettere un errore di primo tipo. Dunque si deve scegliere il valore critico x tale che
È è
I PIx̅^ In.no α questacondizione^ èsoddisfattaquando^ x̅ x ̅ eercentieacranen.aiaen.astrio.aisao x.is x^ ̅ no t.FI
Pvalue (^) Plz 1 onorm x^ ̅nosei^ III^ statisticatest Pvalue^ aprz.FI^1 fa i se n zar.htoxsn.tza.oh (^) IIII.za
Funzione TEST.diffmean(): posso usare approccio con due vettore x e y oppure con x e by TEST.diffmean (x, y, type=“indipendent”, mdiff=0, alternative=“two.sided”, sigma.x= N, sigma.y=N, var.test=FALSE, digits) Type può essere indipendent o paired. Mdiff0 è il valore della differenza sotto ipotesi nulla. Var.test se =TRUE verifica l’ipotesi che le due varianze non note siano uguali. TEST SULLA PROPORZIONE Regione di rifiuto (coda a dx): P-value: Funzione TEST.prop(): TEST.prop(x, success=NULL, p0=0, alternative=“two.sided”, digits, data) TEST SULLA DIFFERENZA TRA PROPORZIONI Il caso più tipico è H0: px = py = 0, la distribuzione di Funzione TEST.diffprop() : può essere basata su vettori x e y oppure su x e by TEST.diffprop (x, y, success.x = N, success.y = N, pdiff= 0, alternative = “two.sided”, digits, data) TEST CHI-QUADRO DI ADATTAMENTO Data H0: pk=pk0 per ogni k vs. H1: pk pk0 per almeno un k Si confrontano le frequenze assolute osservate (Ok) con quelle attese (Ek) sotto H0. La statistica test per sintetizzare gli scostamenti di Ok da Ek è basata sulla somma delle distanze al quadrato: se Ek > 5 per ogni k, la statistica test ha una distribuzione nota detta chi-quadro con (K-1) gradi di libertà. Regione di rifiuto: rifiuto H0 se Funzione chisq.test() consente di applicare il test di adattamento. chisq.test (x, p) , dove x è un vettore con le frequenze in caso di dati grezzi si può usare la funzione table(); p è il vettore che contiene le probabilità ipotizzate in H Sono disponibili anche le funzioni pchisq (q, df) e qchisq (p, df) TEST CHI-QUADRO DI INDIPENDENZA Viene usato per valutare l’indipendenza tra due variabili qualitative. Data una tabella di dati, la frequenza congiunta attesa sotto l’ipotesi di indipendenza è: Per verificare H0: var. indipendenti vs H1: var. dipendenti usiamo: Calcolo regione di rifiuto con qchisq (1-α, df=(k-1)(j-1) ) e la confronto con il risultato della statistica test Funzione chisq.test () consente di applicare il test di indipendenza chisq.test (x, y). RICORDA di specificare x = .. e y = ..
L’analisi della regressione è una procedura volta a determinare sulla base di un opportuno set di dati campionari un’equazione che stima la relazione tra le variabili: tra una variabile dipendente e una o più indipendenti β0 e β1 non sono note, dovremmo usare gli stimatori β0 e β1 per ottenere le stime b0 e b Metodo dei minimi quadrati : Il metodo dei minimi quadrati individua la retta che interpola al meglio i dati Lo si fa determinando i coefficienti che minimizzano la somma degli errori (∆ valori osservati-previsti) al quadrato, ovvero minimizzando la SSE : Per farlo devo porre le derivate parziali = 0, i coefficienti che minimizzano l’SSE sono: La SSE è una misura assoluta, il cui valore dipende anche dalle unità di misura delle variabili Y e X. Per derivare una misura relativa usiamo: La somma dei quadrati totale SST : La somma dei quadrati della regressione SSR : Relazione: SST = SSR + SSE Il coefficiente di determinazione R è una misura relativa della capacità adattiva della retta di regressione Iiiie Titieti Perstimare^ e siconsideralaprofcoded (^) è ut^ suaccess no^ ètuoè ro Era E percentile^ amaEinanordinea (^) a casagenerica^ Èrisalitacolonnanumero e giro it^ se asta^ zia (^) ii in p IIII c a II è^ dixi^ dove^ i^ èlaprevisionedi^1 incorrispondenzaai È iL it a n^ E io^ x̅^ a^ x^ ̅ ue x̅ (^) etsonolemedie SST Eri.FI II visione
NB (^) si i si SSE (^) ri ri SST^ CiRi un (^) si
Es. Se mi chiede di calcolare l’intervallo di confidenza per la variazione di media attesa di y dato un ∆x, devo: Funzione lm() per la stima del modello lineare: lm (formula, data) , formula = y ~ x (retta regressione) ~ = alt + 5 Per visualizzare i dati creo una variabile per l’output della funzione lm e ci applico la funzione summary () Funzione confint () per determinare gli CI dei coefficienti: confint (object, level = 0.95), dove object è l’output di lm Funzione predict () per determinare l’intervallo di confidenza per il valore atteso della previsione e l’intervallo di previsione: predict (object, newdata, interval, level=0.95) , dove newdata è un dataframe (per creare uso funzione data.frame ( ) ) che contiene i valori della variabile esplicativa (nome deve essere lo stesso di quella nel dataframe di lm ); interval può essere “none” (stima puntuale), “confidence” (per CI) o “prediction” per l’intervallo di previsione. ANALISI DEI RESIDUI Prima di utilizzare il modello lineare per fare previsioni, bisognerebbe valutare se le assunzioni necessarie per fare inferenza sono soddisfatte. I residui sono: I residui standardizzati possono essere ottenuti usando la funzione rstandard (object) Funzione plot (object, which) , dove object è l’output della funzione lm e which indica il tipo di grafico ( which = 1 scatterplot, = 2 q-q plot , = 3 scale-location plot ). Come 4º modello posso usare distr.plot.x istogramma per verificare la distribuzione normale
Per stimare uso lm ( y ~ x1 + .. xn ) Determiniamo i coefficienti che minimizzano SSE*, per farlo uso funzione lm: Nel caso della regressione multipla introduciamo l’ R aggiustato, che deve essere utilizzato per confrontare le capacità di adattamento di due modelli con un numero diverso di variabili esplicative standard error del modello Il Test F viene utilizzato per verificare la significatività globale di un modello, cioè per verificare se esiste una relazione significativa tra la variabile dipendente e l’insieme di tute le variabili esplicative. H0: β1= … = βk = 0 H1: almeno uno dei parametri βk è diverso da 0. La statistica test: La statistica testa ha una distribuzione F con K gradi di libertà al numeratore e (n - k -1) gradi di libertà al denominiatore. Esistono le funzioni pf e qf (devo specificare df1 e df2) Per stimare gl intervalli di confidenza per tutti i coefficienti del modello uso la funzione confint (object) 1 DeterminarerettaregressionelineareconIm 2 Estrarre^ on e (^) sta da summary model^ model^ c^ Im nr 3 Determinare^ tu (^) an at ri xia of n 2 4 Determinaredifferenzamediaattesa^ op a ox (^) e asuose (^) se taxi (^) sea s Cigs (^) or 2 or x̅ (^) tuaα (^) se i iii _www.wer.se
codaaxlesser codasnesante
come (^) usomodelresionalsa standard
seiGiri^ Iii Ery^ in i i 2 è devesonareesserestimata^ si (^) seèdetto
Nel caso in cui una variabile qualitativa (che assume più valori) abbia effetto sull’intercetta del modello avrò: MULTICOLLINEARITÀ Può accadere che alcune delle variabili esplicative siano molto correlate tra loro (multicollinearità) (ricorda: posso misurare correlazione con cor (data [ c (“classe1”,”classe2”) ] ). Questo porta a standard error dei coefficienti elevati, in quanto non è possibile far variare una variabile tenendo sotto controllo le altre, oppure porta a variabili con p-valute alti (che porterebbero a considerarle in modo erroneo come non significative); di conseguenza le stime dei coefficienti possono essere molto distanti dai veri valori dei parametri. L’eventuale discordanza tra test F, R e t, ed eventuali coefficienti con segni diversi da quelli attesi sono segnali della multicollinearità. Ilmodellounificatosara i I modelli possono essere combinati in uno singolo utilizzando le variabili dummy. Le variabili dummy sono variabili binarie che indicano se una condizione è soddisfatta; per ogni livello (A,B e C) avremo un valore che può essere 1 (condizione soddisfatta) o 0 (condizione no soddisfatta). L’ intercetta β0 si riferisce all’intercetta del modello scelto come base (il livello A). Per includere una variabile qualitativa con L livelli nel modello vengono aggiunte (L-1) variabili indicatrici (dummy). La funzione lm definisce automaticamente le variabili dummy per una variabile qualitativa, ponendo come categoria di base la prima in ordine alfabetico