Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Schemi Statistica [Bocconi], Schemi e mappe concettuali di Statistica

Università commerciale Luigi Bocconi Statistica

Schemi dettagliati per esami parziali e generale di Statistica (30001); completi di teoria e spiegazioni per lo svolgimento degli esercizi. Per CLEF, CLEAM e CLEACC. Prof. Trentini.

Tipologia: Schemi e mappe concettuali

2024/2025

In vendita dal 18/02/2025

filbano 🇮🇹

4.8

(5)

29 documenti

1 / 11

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

STATISTICA DESCRITTIVA!

!

Per selezionare elementi di un vettore è sufficiente far seguire al nome del vettore l’operatore [ ] , gli elementi di un vettore

possono essere selezionati anche sulla base i condivisioni definite sul vettore steso o o su un altro vettore (Vettore

relativo) (es. US$Murder.lessthan100 <. US$Murder[US$Density<100], oppure

max(pizzerie$Sales[pizzerie$Sales<=4500])!

!

I fattori sono vettori che associano ad altri dei livelli, x ricodificare:!

es. Età.F <. Factor(Età, levels=c(“Young”, “Middle”, “Old”))!

!

Posso usare mean per trovare % di TRUE sul totale (se voglio numero uso sum) es. mean(pizza$Sales>1000)!

!

RICORDA: library(UBStats)!

!

distr.table.x(x, freq=c(“counts”,”proportions”, breaks, data) "freq può essere counts, perc, prop, cum!

distr.plot.x(x, freq=“counts”, plot.type, breaks, bw, data)"freq indica il tipo di frequenze, stesse scelte del table!

""""""""""breaks può essere un numero oppure =c()!

!

Grafici: "Variabile quantitativa continua: Istogramma""Variabile qualitativa nominale: Diagramma a torta!

""Variabile quantitativa discreta: Spike plot"""Variabile qualitativa ordinale: Diagramma a barre!

!

Asimmetrie distribuzione: "Obliqua a destra = Asimmetria positiva = Coda a destra —> Media > Mediana!

"""""Obliqua a sinistra = Asimmetria negativa = Coda a sinistra —> Media < Mediana !

!

Istogramma viene costruito solitamente con intervalli di ampiezze diverse, allora su asse y devo necessariamente usare

le densità di frequenza (c = p/w)!

!

Dati in classi di intervallo: se i dati vengono rilevati direttamente in classi (es. Dati sensibili reddito) in table e plot devo

specificare interval=TRUE (di norma interval=FALSE), interval segnala che la variable è rilevata in classi.!

!

Frequenze cumulate: in distr.table specifico freq=“cum”. In distr.plot metto freq=“prop” plot.type=“cum”, se uso interval

o breaks —> costruisco ogiva. !

Nell’istogramma l’area di ogni rettangolo è la frequenza relativa (base=w, altezza=c), serve per approssimare la funzione

cumulativa (assumo che i valori siano distribuiti uniformemente nelle classi). !

""!

!

variante

qualitativa

nominale

variantequalitativa

ordinare

variabile

quantitativaascreta

ma

eeee vanabile

quantitativa

continua ricordausare

densità

Frequenze

cumulate

Scopri Schemi e mappe concettuali di Statistica Università commerciale Luigi Bocconi

Documenti correlati

Schemi Storia economica [Bocconi] per prof. D'Alessandro

Dispense Diritto Pubblico [Bocconi]

Schemi Macroeconomia [Bocconi]

Schemi Matematica 1 (Generale) [Bocconi]

Dispense Diritto Privato [Bocconi]

Schemi Microeconomia [Bocconi]

Schemi Matematica 2 (Applicata) [Bocconi]

Riassunti e Formule Parziale Statistica BOCCONI

Schemi Economia aziendale e Gestione delle imprese [Bocconi]

Appunti Economia Aziendale CLEAM Bocconi

microeconomia primo parziale - bocconi

(3)

Bocconi Finanza esercitazioni CLEAM

Anteprima parziale del testo

Scarica Schemi Statistica [Bocconi] e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

STATISTICA DESCRITTIVA

Per selezionare elementi di un vettore è sufficiente far seguire al nome del vettore l’operatore [ ] , gli elementi di un vettore possono essere selezionati anche sulla base i condivisioni definite sul vettore steso o o su un altro vettore ( Vettore relativo ) (es. US$Murder.lessthan100 <. US$Murder[US$Density<100], oppure max(pizzerie$Sales[pizzerie$Sales<=4500]) I fattori sono vettori che associano ad altri dei livelli, x ricodificare: es. Età.F <. Factor(Età, levels=c(“Young”, “Middle”, “Old”)) Posso usare mean per trovare % di TRUE sul totale (se voglio numero uso sum ) es. mean(pizza$Sales>1000) RICORDA: library(UBStats) distr.table.x (x, freq=c(“counts”,”proportions”, breaks, data) freq può essere counts, perc, prop, cum distr.plot.x (x, freq=“counts”, plot.type, breaks, bw, data) freq indica il tipo di frequenze, stesse scelte del table breaks può essere un numero oppure =c() Grafici : Variabile quantitativa continua: Istogramma Variabile qualitativa nominale: Diagramma a torta Variabile quantitativa discreta: Spike plot Variabile qualitativa ordinale: Diagramma a barre Asimmetrie distribuzione : Obliqua a destra = Asimmetria positiva = Coda a destra —> Media > Mediana Obliqua a sinistra = Asimmetria negativa = Coda a sinistra —> Media < Mediana Istogramma viene costruito solitamente con intervalli di ampiezze diverse, allora su asse y devo necessariamente usare le densità di frequenza (c = p/w) Dati in classi di intervallo : se i dati vengono rilevati direttamente in classi (es. Dati sensibili reddito) in table e plot devo specificare interval=TRUE (di norma interval=FALSE), interval segnala che la variable è rilevata in classi. Frequenze cumulate : in distr.table specifico freq=“cum”. In distr.plot metto freq=“prop” plot.type=“cum”, se uso interval o breaks —> costruisco ogiva. Nell’istogramma l’area di ogni rettangolo è la frequenza relativa (base=w, altezza=c), serve per approssimare la funzione cumulativa (assumo che i valori siano distribuiti uniformemente nelle classi). variantequalitativanominale variantequalitativaordinare variabilequantitativaascreta ma eeee vanabilequantitativacontinua ricordausaredensità Frequenzecumulate

Uso la moda per variabili quantitative (! Se le classi sono troppo poche potrebbe essere inutile) e per quelle quantitative discrete (le continue hanno simili frequenze). La mediana non viene influenzata da valori estremi, si usa per variabili qualitative ordinali e quantitative (non può essere calcolata per qualitative nominali). Prima di calcolare la mediana devo ordinare i dati in modo crescente. La mediana può essere calcolata a partire da una tabella: in corrispondenza della prima frequenza cumulata Classe modale : quando i dati sono raggruppati in classi di intervallo, si considera l’intervallo con la massima densità di frequenza (non maggior numero di frequenze). Calcolo mediana da istogramma : La media può essere calcolata solo per variabili quantitative, esiste media semplice e media ponderata La media può essere approssimata considerando, per ogni intervallo, il suo punto medio. distr.summary.x (x, stats=“central”, digits, f.digits, data) stats posso usare “fivenumbers” o “summary” Misure di tendenza centrale sono inutili in caso di presenza di lunghe code/alta dispersione, utile dare informazioni anche lontane dal centro, uso i quartili : distr.summary.x(x, stats=“quartiles”, data) In alternativa posso usare anche i percentili : (es. p90 = valore minimo del più alto 10%) Se mi serve il numero di dati contenuti in un percentile/quartile uso: sum(data$x </> valore) se invece mi serve la frequenza uso: mean(data$x </> valore) Boxplot : La scatola è detta Interquartile range ( IQR = q3-q1), i baffi connettono la scatola al minimo e al massimo dei valori regolari, i valori estremi sono quelli: - Minori di q1 - 1.5IQR - Maggiori di q3 + 1.5IQR Dispersione : La dispersione fa riferimento all'entità delle distanze tra i valori assunti da una variabile; più specificamente può indicare quanto sono lontani i dati osservati dal centro della distribuzione. Esistono numerosi indici per quantificare la dispersione di una variabile quantitativa, le più comuni misure di dispersione sono: distr.summary.x(data$X, stats="dispersion") Varianza : La varianza è la media della somma delle deviazioni al quadrato Scarto quadratico medio (o Deviazone standard) : È la distanza media (standard) dei dati dalla media Posso usare distr.summary.x con stats=“dispersion” per ottenere le misure di dispersione (range, IQrange, sd, var, cv) Coefficiente di variazione : Esprime la deviazione standard invece che in termini assoluti, in termini relativi. Lo uso per misurare variabilità (dispersione) di variabili con unità di misure diverse. Misuredi

Mediana o.si n xnge

KiladasacaFsas

xscansione̅^ μredazione

Ʃ Ʃ a III tiene (^) pettine (^) naaaaa tutto

5 numeridisintesi

vai (^) era.us vai^ Era.es

Formulaindiretta si

E (^02) n E x̅ meaiaaeianaaraa auaaaooaenamedias.ve Era ti^ o.ro^ Eri^ mi

cu

VARIABILI ALEATORIE

Funzione di probabilità : associa ad ogni valore di x la probabilità che X (variabile aleatoria) sia uguale a x Valore atteso : Varianza : V.a. di Bernoulli : Può assumere solo due valori (o 0 o 1) V.a. continua : può assumere qualunque valore in un intervallo —> la probabilità che assuma uno specifico valore x è = 0 Per descrivere v.a continua uso una funzione di densità di probabilità Distribuzione normale : è la più importante distribuzione di probabilità pnorm (q, mean, sd) permette di calcolare la funzione di ripartizione (calcola ‘area sottesa ala curva fino a q) qnorm (p, mean, se) calcola i percentili, p è il percentile da calcolare, qnorm calcola Trasformazione lineare : data la v.a X Particolare trasformazione lineare è la standardizzazione : Combinazione lineare : V.a. indipendenti e identicamente distribuite (i.i.d) : Se le v.a i.i.d seguono distribuzione normale —> Se invece seguono distribuzione qualsiasi —> uso teorema del limite centrale (se n>30 approssimabile a dis.normale) Se seguono distribuzione di Bernoulli —>

STATISTICA INFERENZIALE: STIMA PUNTUALE

La statistica inferenziale riguarda le procedure per fare estrapolazioni su parametri (es media) di una popolazione X a partire da statistiche (es media campionaria) calcolate su un campione casuale (Xn) Parametro ( ) : caratteristica misurabile della popolazione con riferimento a una va X Stimatore ( ) : statistica usata per stimare il parametro, è una va. Stima ( ) : realizzazione campionaria di uno stimatore in corrispondenza del campione Valuteremo scegliendo lo stimatore con le proprietà migliorim tuttavia non potremo fare alcuna valutazione, e non potremo sapere se e quanto tale stima è prossima al valore del parametro (che è ignoto) Uno stimatore Basato su un campione di unità n si dice non distorto per un parametro se il suo valore atteso è uguale al parametro PARAMETRO MEDIA DELLA POPOLAZIONE ( ) è la media campionaria Potrebbe essere necessario, se non è nota, stimare la varianza della popolazione Per stimare si utilizza la varianza campionaria NB: lo SE è lo scostamento atteso da per una generica stima e non per una specifica stima, ovvero misura la dispersione delle stime ottenute dai possibili campioni intorno a. Tanto più piccolo è lo SE dello stimatore tanto maggiore è la probabilità di stime vicine a. Per ottenere uno SE minore aumento l’ampiezza campionaria n. PARAMETRO PROPRZIONE SULLA POPOLAZIONE ( ) Le v.a sono i.i.d secondo una distribuzione di Bernoulli, il parametro è p. Per stimare p uso la proprzione campionaria Funzionea ripartizione (^) t.ir_ (^) È Iproprxsa^ prodanticheun'unitàsceltaacasoanacorianarepresentiunvaloresx E Export (^) n varrxl.Elrx.cat Erami.pro or Ed (^) p varixi^ eraa È a e (^) s'era.co rara Nin or^ nel Imitricarisero (^4) e le o^ soesinocercentice v (^) atex E è (^) varrà (^) a (^) aiutano a (^) di Elaxton (^) an due (^) varraxtdyi.io do (^) rado ricorda^ è È (^) g cor senti I.TT^ varrsi.n.oecEinvarrei.oin s successi^ i a a^ fermaresuccesso^ sen'so ta si È e parametroa^ stimatore ò (^) a cn È E (^) T.is a m x̅ 1ham (^) easy È

stimatoreinastata es

S μ μ μ

k.tn

se naso (^) panrp.pro n è l'è^ mediacamonara^ ad Eli (^) io varrà^ aria serpi.ee

PARAMETRO DIFFERENZA TRA MEDIE ( )

Per stimare la differenza tra le medie si usa lo stimatore

Campioni indipendenti: anche di ampiezza diversa, estratti indipendentemente (es salario medio F e M)
Campioni appaiati: relativi a stesse unità statistiche in momenti/condizioni diverse (es quanto spendi in estate/inverno) Caso campioni indipendenti
Varianze note:
Varianze non note assunte diverse:
Varianze non note assunte uguali: uso la varianza campionaria pooled Caso campioni appaiati Per stimare la varianza di uso la varianza campionaria corretta PARAMETRO DIFFERENZA TRA PROPORZIONI ( ) Per stimare la differenza tra proporzioni uso lo stimatore , dove e sono le medie campionarie di due campioni con distribuzioni di Bernoulli con parametri Caso campioni indipendenti RECAP RICORDA : Lo Standard error è la misura della variabilità attesa della stima puntuale (es. media) attorno al parametro effettivo (che non posso conoscere). Posso quindi trovare stime puntuali che si discostino dal parametro reale più di quanto suggerito dallo SE, ma più saranno lontani meno saranno probabili. Lo SE non misura la precisione di una singola stima, ma solo la concetrazione dello stimatore intorno al paramentro effettivo. La probabilità che una stima puntuale cada in un intervallo centrato sul parametro è maggiore quando l'ampiezza campionaria è maggiore o quando lo SE è minore.

μ no

x ̅ T EE T (^) m m varrà

sosta arianacoronarie

is D y 5 x^ ̅T ECD^ no (^) no varrà^ Fu sera tu I p (^07 07 ) B Pie (^) p p 1 (^25) Èverecisostituaao

e a

ECP (^) P (^) a a stimatore noncustorto var È (^) Pi (^) Vari (^) Vara al e (^) col o varràPilcuiesserestimatasostituendoaex eo

lelorostime^ cioèlearacornaicangianareosservate

VERIFICA DI IPOTESI

Verifica di ipotesi: procedura per valutare se una determinata ipotesi su un parametro di una popolazione è supportata dall’evidenza empirica disponibile. Non saremo mai in grado di stabilire se un’ipotesi è vera o falsa, dato che il valore del parametro è incognito. La verifica è una procedura per valutare se le osservazioni rilevate su un campione casuale supportano o meno un’ipotesi sul parametro. H0 = ipotesi nulla, è lo status quo. H1= ipotesi alternativa, quella che vogliamo verificare Un test statistico permette di confrontare le due ipotesi e decidere se rifiutare o meno H0. Un test statistico fa riferimento a una statistica test , la cui distribuzione dipende da. Il test statistico definisce una regione di rifiuto, ovvero realizzazioni di che devono considerarsi non favorevoli ad H0 e che portano al suo rifiuto. Indichiamo con α (livello di significatività del test) la probabilità di commettere un errore di primo tipo (rifiutare l’ipotesi nulla quandoè vera) e indichiamo con β la possibilità di fare un errore di secondo tipo (rifiutare ipotesi alternativa quando è vera), (1 - β) è detto potenza del test. C’è un trade-off tra le due probabilità di errore Le probabilità di errore si riferiscono a generici campioni, in realtà α può esssre interpretato come la % di campioni cui corrispondono medie campionarie che portano, erroneamente, a rifiutare H0. TEST SULLA MEDIA Devo considerare le distribuzioni della statistica test (in questo caso X) sotto le due diverse ipotesi. In seguito bisogna definire la regione di rifiuto che garantisca una probabilità α di commettere un errore di primo tipo. Dunque si deve scegliere il valore critico x tale che

Test unilaterale a coda destra : Regione di rifiuto = P-value : il p-value, o livello di significatività osservato, è la probabilità di osservare un valore della statistica (nella direzione di H1) più estremo della realizzazione effettivamente osservata assumendo che l’ipotesi nulla sia vera; ovvero la probabilità di estrarre, sotto H0, un campione meno favorevole a H0 di quello che si è effettivamente osservato. Il p-value indica quanto è estremo il campione osservato sotto H0 (nella direzione di H1), mentre α indica qual è il ivello di anomalia che il ricercatore è disposto ad accettare. Se p-value < α allora rifiuto H0, se > α non rifiuto H Ipotesi composte : la determinazione del valore critico x si basa su H0, sulla direzione di h1 e sul valore più critico per H0 (ossia quello più vicino ad H1)
Test unilaterale a coda sinistra : Regione di rifiuto: Pvalue:
Test bilaterale : Regione di rifiuto: TEST SULLA MEDIA CON NON NOTA Stesso procedimento di prima, ma invece che Z uso T (e quindi anche pt e qt ) Funzione TEST.mean() : determina il p-value, TEST.mean (x, sigma=NULL, mu0=0, alternative=“two.sided”, digits, data) Mu0 è il valore della media sotto ipotesi nulla. Alternative può essere greater (coda dx), less (coda sn) o two.sided (bilat.) TEST SULLA DIFFERENZA TRA MEDIE REDA Ingenerale^ Cha^ o^0

percentile se

È è

Iocalcolo^ con 1 anormiza^ zonasetestalateae^ za quam 1 a

βlocalcolocon^ enorme^ critico^ u^ ora^ dove^ eroico^ no^ zo

I PIx̅^ In.no α questacondizione^ èsoddisfattaquando^ x̅ x ̅ eercentieacranen.aiaen.astrio.aisao x.is x^ ̅ no t.FI

h

Pvalue (^) Plz 1 onorm x^ ̅nosei^ III^ statisticatest Pvalue^ aprz.FI^1 fa i se n zar.htoxsn.tza.oh (^) IIII.za

Funzione TEST.diffmean(): posso usare approccio con due vettore x e y oppure con x e by TEST.diffmean (x, y, type=“indipendent”, mdiff=0, alternative=“two.sided”, sigma.x= N, sigma.y=N, var.test=FALSE, digits) Type può essere indipendent o paired. Mdiff0 è il valore della differenza sotto ipotesi nulla. Var.test se =TRUE verifica l’ipotesi che le due varianze non note siano uguali. TEST SULLA PROPORZIONE Regione di rifiuto (coda a dx): P-value: Funzione TEST.prop(): TEST.prop(x, success=NULL, p0=0, alternative=“two.sided”, digits, data) TEST SULLA DIFFERENZA TRA PROPORZIONI Il caso più tipico è H0: px = py = 0, la distribuzione di Funzione TEST.diffprop() : può essere basata su vettori x e y oppure su x e by TEST.diffprop (x, y, success.x = N, success.y = N, pdiff= 0, alternative = “two.sided”, digits, data) TEST CHI-QUADRO DI ADATTAMENTO Data H0: pk=pk0 per ogni k vs. H1: pk pk0 per almeno un k Si confrontano le frequenze assolute osservate (Ok) con quelle attese (Ek) sotto H0. La statistica test per sintetizzare gli scostamenti di Ok da Ek è basata sulla somma delle distanze al quadrato: se Ek > 5 per ogni k, la statistica test ha una distribuzione nota detta chi-quadro con (K-1) gradi di libertà. Regione di rifiuto: rifiuto H0 se Funzione chisq.test() consente di applicare il test di adattamento. chisq.test (x, p) , dove x è un vettore con le frequenze in caso di dati grezzi si può usare la funzione table(); p è il vettore che contiene le probabilità ipotizzate in H Sono disponibili anche le funzioni pchisq (q, df) e qchisq (p, df) TEST CHI-QUADRO DI INDIPENDENZA Viene usato per valutare l’indipendenza tra due variabili qualitative. Data una tabella di dati, la frequenza congiunta attesa sotto l’ipotesi di indipendenza è: Per verificare H0: var. indipendenti vs H1: var. dipendenti usiamo: Calcolo regione di rifiuto con qchisq (1-α, df=(k-1)(j-1) ) e la confronto con il risultato della statistica test Funzione chisq.test () consente di applicare il test di indipendenza chisq.test (x, y). RICORDA di specificare x = .. e y = ..

REGRESSIONE LINEARE SEMPLICE

L’analisi della regressione è una procedura volta a determinare sulla base di un opportuno set di dati campionari un’equazione che stima la relazione tra le variabili: tra una variabile dipendente e una o più indipendenti β0 e β1 non sono note, dovremmo usare gli stimatori β0 e β1 per ottenere le stime b0 e b Metodo dei minimi quadrati : Il metodo dei minimi quadrati individua la retta che interpola al meglio i dati Lo si fa determinando i coefficienti che minimizzano la somma degli errori (∆ valori osservati-previsti) al quadrato, ovvero minimizzando la SSE : Per farlo devo porre le derivate parziali = 0, i coefficienti che minimizzano l’SSE sono: La SSE è una misura assoluta, il cui valore dipende anche dalle unità di misura delle variabili Y e X. Per derivare una misura relativa usiamo: La somma dei quadrati totale SST : La somma dei quadrati della regressione SSR : Relazione: SST = SSR + SSE Il coefficiente di determinazione R è una misura relativa della capacità adattiva della retta di regressione Iiiie Titieti Perstimare^ e siconsideralaprofcoded (^) è ut^ suaccess no^ ètuoè ro Era E percentile^ amaEinanordinea (^) a casagenerica^ Èrisalitacolonnanumero e giro it^ se asta^ zia (^) ii in p IIII c a II è^ dixi^ dove^ i^ èlaprevisionedi^1 incorrispondenzaai È iL it a n^ E io^ x̅^ a^ x^ ̅ ue x̅ (^) etsonolemedie SST Eri.FI II visione

a n

NB (^) si i si SSE (^) ri ri SST^ CiRi un (^) si

Es. Se mi chiede di calcolare l’intervallo di confidenza per la variazione di media attesa di y dato un ∆x, devo: Funzione lm() per la stima del modello lineare: lm (formula, data) , formula = y ~ x (retta regressione) ~ = alt + 5 Per visualizzare i dati creo una variabile per l’output della funzione lm e ci applico la funzione summary () Funzione confint () per determinare gli CI dei coefficienti: confint (object, level = 0.95), dove object è l’output di lm Funzione predict () per determinare l’intervallo di confidenza per il valore atteso della previsione e l’intervallo di previsione: predict (object, newdata, interval, level=0.95) , dove newdata è un dataframe (per creare uso funzione data.frame ( ) ) che contiene i valori della variabile esplicativa (nome deve essere lo stesso di quella nel dataframe di lm ); interval può essere “none” (stima puntuale), “confidence” (per CI) o “prediction” per l’intervallo di previsione. ANALISI DEI RESIDUI Prima di utilizzare il modello lineare per fare previsioni, bisognerebbe valutare se le assunzioni necessarie per fare inferenza sono soddisfatte. I residui sono: I residui standardizzati possono essere ottenuti usando la funzione rstandard (object) Funzione plot (object, which) , dove object è l’output della funzione lm e which indica il tipo di grafico ( which = 1 scatterplot, = 2 q-q plot , = 3 scale-location plot ). Come 4º modello posso usare distr.plot.x istogramma per verificare la distribuzione normale

REGRESSIONE MULTIPLA

Per stimare uso lm ( y ~ x1 + .. xn ) Determiniamo i coefficienti che minimizzano SSE*, per farlo uso funzione lm: Nel caso della regressione multipla introduciamo l’ R aggiustato, che deve essere utilizzato per confrontare le capacità di adattamento di due modelli con un numero diverso di variabili esplicative standard error del modello Il Test F viene utilizzato per verificare la significatività globale di un modello, cioè per verificare se esiste una relazione significativa tra la variabile dipendente e l’insieme di tute le variabili esplicative. H0: β1= … = βk = 0 H1: almeno uno dei parametri βk è diverso da 0. La statistica test: La statistica testa ha una distribuzione F con K gradi di libertà al numeratore e (n - k -1) gradi di libertà al denominiatore. Esistono le funzioni pf e qf (devo specificare df1 e df2) Per stimare gl intervalli di confidenza per tutti i coefficienti del modello uso la funzione confint (object) 1 DeterminarerettaregressionelineareconIm 2 Estrarre^ on e (^) sta da summary model^ model^ c^ Im nr 3 Determinare^ tu (^) an at ri xia of n 2 4 Determinaredifferenzamediaattesa^ op a ox (^) e asuose (^) se taxi (^) sea s Cigs (^) or 2 or x̅ (^) tuaα (^) se i iii _www.wer.se

which n which 3 which 2

codaaxlesser codasnesante

o

nostruttura^ Media^ o evarcostante^ nastruttura^ valoremenocostante^ distrnormale^ residuisullarettataoessiata

come (^) usomodelresionalsa standard

vidapaesiomoschedasticità

Bo β β e

seiGiri^ Iii Ery^ in i i 2 è devesonareesserestimata^ si (^) seèdetto

VARIABILI DUMMY

Nel caso in cui una variabile qualitativa (che assume più valori) abbia effetto sull’intercetta del modello avrò: MULTICOLLINEARITÀ Può accadere che alcune delle variabili esplicative siano molto correlate tra loro (multicollinearità) (ricorda: posso misurare correlazione con cor (data [ c (“classe1”,”classe2”) ] ). Questo porta a standard error dei coefficienti elevati, in quanto non è possibile far variare una variabile tenendo sotto controllo le altre, oppure porta a variabili con p-valute alti (che porterebbero a considerarle in modo erroneo come non significative); di conseguenza le stime dei coefficienti possono essere molto distanti dai veri valori dei parametri. L’eventuale discordanza tra test F, R e t, ed eventuali coefficienti con segni diversi da quelli attesi sono segnali della multicollinearità. Ilmodellounificatosara i I modelli possono essere combinati in uno singolo utilizzando le variabili dummy. Le variabili dummy sono variabili binarie che indicano se una condizione è soddisfatta; per ogni livello (A,B e C) avremo un valore che può essere 1 (condizione soddisfatta) o 0 (condizione no soddisfatta). L’ intercetta β0 si riferisce all’intercetta del modello scelto come base (il livello A). Per includere una variabile qualitativa con L livelli nel modello vengono aggiunte (L-1) variabili indicatrici (dummy). La funzione lm definisce automaticamente le variabili dummy per una variabile qualitativa, ponendo come categoria di base la prima in ordine alfabetico