Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Regressione Lineare Multipla: Modelli e Applicazioni Statistiche, Schemi e mappe concettuali di Matematica

Matematica

Una panoramica dettagliata della regressione lineare multipla, un metodo statistico utilizzato per modellare la relazione tra una variabile dipendente e più variabili indipendenti. Vengono esaminate le applicazioni della regressione lineare multipla, come la valutazione simultanea dell'influenza di diverse variabili esplicative su una variabile di risposta e la valutazione dell'effetto di una variabile esplicativa su un'altra, controllando per possibili confondenti. Inoltre, vengono discussi i modelli lineari generalizzati, le assunzioni della regressione lineare multipla e i metodi per la scomposizione della devianza. Il documento include anche esempi pratici e test d'ipotesi per illustrare l'applicazione della regressione lineare multipla in diversi contesti.

Tipologia: Schemi e mappe concettuali

2023/2024

Caricato il 20/05/2025

gardenia-fiore 🇮🇹

4 documenti

1 / 20

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

La regressione lineare multipla

•Prof. Giuseppe Verlato

•Sezione di Epidemiologia e Statistica

Medica, Dipartimento di Medicina e Sanità

Pubblica, Università degli Studi di Verona

0 1 2 3 4

Variabile X

Variabile Y

Regressione lineare semplice

y =



0 +



1x +



Una retta nel piano

Documenti correlati

ESERCIZIO 1-1.regressione lineare multipla

(1)

Regressione Lineare Multipla: Metodi e Applicazioni

(1)

Formulario econometria

Dispense di analisi dei dati

Econometria I - Unina - Acconcia

(1)

Regressione lineare e relazioni multivariate

Regressione Lineare in Psicometria: Tecnica Statistica per Studiare Relazioni Lineari

Regressione Lineare Multipla: Teoria e Applicazione

Esercizi di Econometria

Stima dei minimi quadrati nel modello lineare multiplo

4. MODELLO DI REGRESSIONE LINEARE MULTIPLA

Regressione: Regressione Semplice e Multipla

Anteprima parziale del testo

Scarica Regressione Lineare Multipla: Modelli e Applicazioni Statistiche e più Schemi e mappe concettuali in PDF di Matematica solo su Docsity!

La regressione lineare multipla

Prof. Giuseppe Verlato
Sezione di Epidemiologia e Statistica

Medica, Dipartimento di Medicina e Sanità

Pubblica, Università degli Studi di Verona

0 1 2 3 4 Variabile X

Variabile Y

Regressione lineare semplice

y =  0 +  1 x + 

Una retta nel piano

variabile Y

variabile X

Regressione lineare multipla

y =  0 +  1 x 1 +  2 x 2 + 

Con 2 variabili esplicative,

un piano nello spazio.

Con più variabili, la

regressione lineare

multipla può essere

rappresentata

nell’iperspazio

Regressione lineare multipla

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

Variabile di risposta (dipendente, response variable)

Termine di errore

Coefficienti di regressione parziali, parametri ignoti del modello stimati sulla base dei dati disponibili Variabili esplicative (predittive, covariate, indipendenti, explanatory)

Effetto principale

Termine di interazione

Intercetta (corner, grand mean)

Il peso (Y) dipende dalla statura (X 1 ), dall’età (X2), dall’introito calorico (X3)

E(y) = y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

E(y) = valore atteso (media) del peso degli individui che hanno quella determinata statura, età, introito calorico

y = peso di un determinato individuo, che dipende dalla statura, età, introito calorico (parte sistematica del modello), ma anche da altre caratteristiche individuali ( ε , parte probabilistica)

Regressione lineare multipla

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

Variabile di risposta (dipendente)

Termine di errore, parte probabilistica

Predittore lineare, parte deterministica del modello, senza variabilità casuale

L’errore, e quindi la variabile di risposta, si distribuisce NORMALMENTE

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

La funzione legame (link-function), che unisce la variabile dipendente al predittore lineare, è l’identità

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

La funzione legame (link-function) è l’IDENTITA’

I MODELLI LINEARI GENERALIZZATI si differenziano per la distribuzione dell’errore (error function) e per la funzione legame (link function)

REGRESSIONE LINEARE MULTIPLA

L’errore segue la distribuzione NORMALE

Log [y/(1-y)] =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

La funzione legame (link-function) è il LOGIT [LOG(ODDS)]

MODELLO DI REGRESSIONE LOGISTICA

L’errore segue la distribuzione BINOMIALE

Log(y) =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

La funzione legame (link-function) è il LOGARITMO

MODELLO LOG-LINEARE

L’errore segue la distribuzione di POISSON

y =  0 +  1 x +  , in cui X ed Y sono variabili quantitative

1) Regressione lineare semplice

y =  0 +  1 x 1 +  2 x 2 +  , in cui X ed Y sono variabili quantitative

2) Regressione lineare multipla

y =  0 +  1 x 1 +  2 x 2 +  , in cui Y quantitativa, X qualitative

3) Analisi della varianza (ANOVA)

y =  0 +  1 x 1 +  2 x 2 +  , in cui Y quantitativa, X qualitative e quantitative

4) Analisi della covarianza (ANCOVA)

la funzione legame (link-function) è l’IDENTITA’ l’errore segue la distribuzione NORMALE

Sono tutti riconducibili ad un unico modello lineare generalizzato, in cui:

Regressione lineare multipla

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

ASSUNZIONI

OMOSCEDASTICITA’
INDIPENDENZA degli errori
Distribuzione NORMALE degli errori

Metodo dei minimi quadrati

per fare inferenza

Metodi di ottimizzazione

per trovare il modello che meglio si adatta ai dati

Metodo dei minimi quadrati (least-square method) Necessita dell’omoscedasticità. Viene utilizzato per i modelli lineari generalizzati in cui la funzione legame (link function) è l’identità: Regressione lineare semplice, Regressione lineare multipla, Analisi della varianza, Analisi della covarianza

SCOMPOSIZIONE DELLA DEVIANZA nella

Regressione lineare semplice - 1

y =  0 +  1 x + 

0 1 2 3 4 Variabile X

Variabile Y

(^) media y = 5.

y - y

} y-^ y

(y-y) = (y - y) + (y- y )

SCOMPOSIZIONE DELLA DEVIANZA nella

Regressione lineare semplice - 2

(y-y) = (y - y) + (y- y )

Variabilità totale

Variabilità spiegata dalla regressione

Variabilità residua

Σ (y-y)^2 = Σ (y - y)^2 + Σ (y- y)^2

Devianza totale, SST

Devianza spiegata dalla regressione, SSR

Devianza residua, SSE

Si può dimostrare che:

Esempio sulla REGRESSIONE LINEARE MULTIPLA- 1

Il peso alla nascita dipende da (regressione) ed è correlato con (correlazione) l’età gestazionale e la statura del neonato?

Modello ipotizzato: Peso =  0 +  1 Statura +  2 Età gest. + 

ANALISI GLOBALE DEL MODELLO, basata sulla SCOMPOSIZIONE DELLA DEVIANZA

IPOTESI NULLA: Tutte le variabili predittive sono irrilevanti. H 0 :  1 =  2 = 0

Esempio sulla REGRESSIONE LINEARE MULTIPLA- 2

SCOMPOSIZIONE DELLA DEVIANZA

p = parametri del modello ( 0 ,  1 ,  2 ) SSR, SSE, SST = Somma di quadrati (Sum of Squares) spiegata dalla regressione, residua e totale MSR, MSE = Varianza (Mean Square) spiegata dalla regressione o residua - MSE = Errore quadratico medio

Fonte di variabilità

Gradi di libertà

Devianza Varianza Statistica-test

Regressione p- (^1) SSR = (y-y)^2 MSR=SSR/(p-1)^ F = MSR/MSE Residua n-p (^) SSE = (y-y)^2 MSE=SSE/(n-p)^ con^ (p-1)^ e^ (n-p) TOTALE n- (^1) SST = (y-y)^2 gradi^ di libertà

Regressione 2 11 073 128 5 536 564 44, Residua 60 – 2 - 1 = 57 7 042 277 123 549 con 2 e 57 g.l. TOTALE 60 – 1 = 59 18 115 405 P<0,

Esempio sulla REGRESSIONE LINEARE MULTIPLA- 3

ANALISI GLOBALE DEL MODELLO, basata sulla SCOMPOSIZIONE DELLA DEVIANZA

Coefficiente di determinazione R^2 = SSR / SST = 11 073 128 / 18 115 405 = 0, Il 61,1% della variabilità nel peso neonatale è spiegata dalla correlazione con l’età gestazionale e con la statura.

R (coefficiente di correlazione multipla) =  R^2 = 0,

- 1 0 r +

Pendenza negativa pendenza positiva

Nella correlazione semplice:

0 R +

Poiché non si può attribuire alcun significato alla direzione di una correlazione multipla con più variabili predittive

Esempio sulla REGRESSIONE LINEARE MULTIPLA- 4

La significatività di R^2 (SSR / SST) si valuta con il test F (MSR/MSE) descritto in precedenza. R^2 in genere aumenta quando nel modello si introducono nuove variabili, non può essere utilizzato per confrontare modelli con un numero diverso di variabili. Il valore assunto da R^2 può essere corretto per tener conto del probabile contributo di ogni variabile inclusa, sottraendo il valore atteso in assenza di correlazione. R^2 a = R^2 - (1- R^2 ) (p-1) / (n-p) = = 0,611 - (1-0,611) 2 / 57 = 0,611 - 0,013 = 0,

Anche con questo aggiustamento, R^2 non misura in modo soddi- sfacente la bontà dell’adattamento della regressione interpolata.

Analisi della varianza per eliminare più di una variabile

A volte si vuole testare se la variabilità sia significativamente influenzata dalla soppressione di un gruppo di variabili predittive: ad esempio, in uno studio sulla resistenza alla fatica fisica può interessare valutare l’effetto di 3 variabili antropometriche (altezza, peso e circonferenza toracica) prese in blocco.

Fonte di variabilità

Gradi libertà Devianza Varianza Statistica-test

Regressione 1 p- 1 SSR 1 Regressione 2 (^) p- 1 - p SSR 2 Regr.1 – Regr.2 (^) p SSR= SSR 1 - SSR 2

MSR=SSR/p F =^ MSR/MSE con  p e ( n-p ) Residua Regr1 n-p (^) SSE = (y-y)^2 MSE=SSE/(n-p)^ gradi di libertà TOTALE n- (^1) SST = (y-y)^2

Correlazione parziale - 1 Il coefficiente di correlazione lineare tra 2 variabili (r 12 ) rispecchia anche eventuali associazioni tra queste variabili ed un eventuale confondente. Ad esempio:

n sigarette/die

g alcool/die % stenosi carotidea

Associazione spuria

Il coefficiente di correlazione parziale è il coefficiente di correlazione tra due variabili, ottenuto tenendo costante il valore di una terza variabile.

r12.3 = ————————

r 12 - r 13 * r 23

 (1 - r 132 ) (1 - r 232 )

Correlazione parziale - 2

r12.3 = ————————

r 12 - r 13 * r 23

 (1 - r 132 ) (1 - r 232 )

Test d’ipotesi: H 0 : r 12.3 = 0 r12.3 = statistica campionaria

H 1 : r 12.3  0 r 12.3 = parametro ignoto

t = ————— *  n- 3

r12.

 1 - r12.3^2

Sotto H 0 , la statistica test segue la distribuzione t di

Student con n-3 gradi di libertà (i gradi di libertà

della varianza residua).

Misura di variabilità Formula Gradi

libertà

devianza Σ (y-y)^2 n- 1

codevianza Σ (x-x) (y-y) n- 2

SSE (regr.lineare semplice) Σ (y- ŷ )^2 = Σ (y-b 0 - b 1 x)^2 n- 2

SSE (regr.lineare multipla) Σ (y- ŷ )^2 = Σ (y-b 0 - b 1 x-b 2 x)^2 n- 3

I gradi di libertà sono sempre pari ad n meno il numero di parametri stimati.

SSE = devianza residua

Procedure automatiche (fishing)

Procedura ad eliminazione regressiva (step-down, backward, top-down, modello condizionale) a) Il computer calcola la regressione su tutte le p variabili predittive e scarta la meno significativa. b) Il computer ricalcola la regressione sulle p - 1 variabili rimanenti. c) La procedura si arresta quando tutti i coefficienti di regressione rimasti sono significativi.

Procedure automatiche (fishing)

Stepwise E’ un compromesso tra i due metodi precedenti, le variabili vengono sia introdotte nel modello, sia rimosse. a) Le variabili più significative vengono introdotte nel modello secondo la procedura step-up. b) Tuttavia dopo l’inclusione di una nuova variabile, si rivaluta il contributo di ogni variabile, e se la variabile meno significativa fornisce un contributo insufficiente sulla base di un criterio prestabilito, essa viene eliminata. c) Pertanto può succedere che una variabile venga dapprima inclusa nel modello e successivamente eliminata, perché altre variabili, introdotte in un secondo momento, l’hanno resa superflua. d) In genere il criterio di inclusione è più rigido, più conservativo rispetto al criterio di esclusione. Ad esempio, una variabile può essere inclusa soltanto se il suo coefficiente di regressione parziale è significativo al livello 5% ed eliminata se non risulta più significativo al livello 10%.

Procedure automatiche (fishing)

Le procedure step-up, step-down e stepwise possono portare a risultati diversi, a scegliere variabili diverse. Inoltre, possono non selezionare la migliore regressione possibile sulla base dell’ R^2 a (R^2 corretto).

Selezione del miglior sottoinsieme Un algoritmo computerizzato include nel modello il ‘migliore’ sottoinsieme di variabili sulla base dell’ R^2 a , che tiene conto sia della bontà di adattamento (rapporto tra devianza spiegata e devianza totale) che della parsimonia del modello (numero di parametri).

Scelta basata su quesiti scientifici

Il computer (una “sausage machine”) non può sostituire il cervello del ricercatore esperto in un settore 1) Usare il rasoio di Occam (Occam’s razor) A parità di ogni altra condizione, adottare sempre il modello più semplice

Non inserire troppe variabili nel modello dovrebbero esserci almeno 10 osservazioni per ogni variabile esplicativa; anche con molte osservazioni non si dovrebbero introdurre nel modello più di 2-3 variabili esplicative (explanatory) e 5-6 variabili di confondimento (confounders)
Non inserire nel modello variabili correlate fra loro ad esempio, la pressione diastolica e la pressione sistolica sono collineari
Non fidarsi solo della significatività statistica significatività statistica ≠ significatività clinica
Non inserire il termine di interazione senza i corrispondenti effetti principali
Usare le procedure automatiche solo se non ci sono informazioni disponibili su un determinato problema

= * + *y = X **  +  N.B. Per moltiplicare una matrice per un’altra matrice, si moltiplica

Soggetto 1 y 1 =  0 +  1 x 11 +  2 x 21 +  3 x 31 +  13 x 11 x 31 + 
Soggetto 2 y 2 =  0 +  1 x 12 +  2 x 22 +  3 x 32 +  13 x 12 x 32 + 
Soggetto 3 y 3 =  0 +  1 x 13 +  2 x 23 +  3 x 33 +  13 x 13 x 33 + 
Soggetto 4 y 4 =  0 +  1 x 14 +  2 x 24 +  3 x 34 +  13 x 14 x 34 + 
Soggetto 5 y 5 =  0 +  1 x 15 +  2 x 25 +  3 x 35 +  13 x 15 x 35 + 
Soggetto 6 y 6 =  0 +  1 x 16 +  2 x 26 +  3 x 36 +  13 x 16 x 36 + 
Soggetto 7 y 7 =  0 +  1 x 17 +  2 x 27 +  3 x 37 +  13 x 17 x 37 + 
Soggetto 8 y 8 =  0 +  1 x 18 +  2 x 28 +  3 x 38 +  13 x 18 x 38 +  - REGRESSIONE LINEARE MULTIPLA- NOTAZIONE MATRICIALE DI UNA -  -  -  -  -  - REGRESSIONE LINEARE MULTIPLA- NOTAZIONE MATRICIALE DI UNA
- y
- y
- y
- y
- y
- y
- y
- y - 1 x 11 x 21 x 31 x 11 x … - 1 x 12 x 22 x 32 x 12 x - 1 x 13 x 23 x 33 x 13 x - 1 x 14 x 24 x 34 x 14 x - 1 x 15 x 25 x 35 x 15 x - 1 x 16 x 26 x 36 x 16 x - 1 x 17 x 27 x 37 x 17 x - 1 x 18 x 28 x 38 x 18 x -  ...………………………. -  -  -  -  -  -  - 

PRODOTTO DI UNA MATRICE PER UN VETTORE

Tony Bepi Gigi Piero Fabio

………..

m anni 1 1,80 24 1 1,82 46 1 1,60 43 1 1,70 32 1 1,75 57 ...…………..

E(y) = y = X * 

N.B. Per moltiplicare una matrice per un’altra matrice, si moltiplica ogni riga della I matrice per ogni colonna della II matrice.

Esempio: Calcolo della capacità vitale attesa nei maschi

Capacità vitale (l) = – 4,34 + altezza(m) * 5,76 - età(anni) *0,

*1 *(* - 4,34 ) + 1,80 * 5,76 + 24 *(-0,026) *1 *(* - 4,34 ) + 1,82 * 5,76 + 46 *(-0,026) *1 *(* - 4,34 ) + 1,60 * 5,76 + 43 *(-0,026) *1 *(* - 4,34 ) + 1,70 * 5,76 + 32 *(-0,026) *1 *(* - 4,34 ) + 1,75 * 5,76 + 57 *(-0,026) ...…………..

Matrice dei dati

Vettore delle *^ costanti =^

Regressione Lineare Multipla: Modelli e Applicazioni Statistiche, Schemi e mappe concettuali di Matematica

Documenti correlati

Anteprima parziale del testo

Scarica Regressione Lineare Multipla: Modelli e Applicazioni Statistiche e più Schemi e mappe concettuali in PDF di Matematica solo su Docsity!

La regressione lineare multipla

Medica, Dipartimento di Medicina e Sanità

Pubblica, Università degli Studi di Verona

Regressione lineare semplice

Una retta nel piano

Regressione lineare multipla

Con 2 variabili esplicative,

un piano nello spazio.

Con più variabili, la

regressione lineare

multipla può essere

rappresentata

nell’iperspazio

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

Log [y/(1-y)] =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

MODELLO DI REGRESSIONE LOGISTICA

Log(y) =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

MODELLO LOG-LINEARE

y =  0 +  1 x +  , in cui X ed Y sono variabili quantitative

1) Regressione lineare semplice

y =  0 +  1 x 1 +  2 x 2 +  , in cui X ed Y sono variabili quantitative

2) Regressione lineare multipla

y =  0 +  1 x 1 +  2 x 2 +  , in cui Y quantitativa, X qualitative

3) Analisi della varianza (ANOVA)

4) Analisi della covarianza (ANCOVA)

Regressione lineare multipla

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

ASSUNZIONI

per trovare il modello che meglio si adatta ai dati

SCOMPOSIZIONE DELLA DEVIANZA nella

Regressione lineare semplice - 1

y - y

} y-^ y

(y-y) = (y - y) + (y- y )

SCOMPOSIZIONE DELLA DEVIANZA nella

Regressione lineare semplice - 2

(y-y) = (y - y) + (y- y )

Σ (y-y)^2 = Σ (y - y)^2 + Σ (y- y)^2

Si può dimostrare che:

Esempio sulla REGRESSIONE LINEARE MULTIPLA- 1

Esempio sulla REGRESSIONE LINEARE MULTIPLA- 2

SCOMPOSIZIONE DELLA DEVIANZA

Esempio sulla REGRESSIONE LINEARE MULTIPLA- 3

Esempio sulla REGRESSIONE LINEARE MULTIPLA- 4

Analisi della varianza per eliminare più di una variabile

r12.3 = ————————

r 12 - r 13 * r 23

 (1 - r 132 ) (1 - r 232 )

r12.3 = ————————

r 12 - r 13 * r 23

 (1 - r 132 ) (1 - r 232 )

Test d’ipotesi: H 0 : r 12.3 = 0 r12.3 = statistica campionaria

H 1 : r 12.3  0 r 12.3 = parametro ignoto

t = ————— *  n- 3

r12.

 1 - r12.3^2

Sotto H 0 , la statistica test segue la distribuzione t di

Student con n-3 gradi di libertà (i gradi di libertà

della varianza residua).

Misura di variabilità Formula Gradi

libertà

devianza Σ (y-y)^2 n- 1

codevianza Σ (x-x) (y-y) n- 2

SSE (regr.lineare semplice) Σ (y- ŷ )^2 = Σ (y-b 0 - b 1 x)^2 n- 2

SSE (regr.lineare multipla) Σ (y- ŷ )^2 = Σ (y-b 0 - b 1 x-b 2 x)^2 n- 3

Procedure automatiche (fishing)

Procedure automatiche (fishing)

Procedure automatiche (fishing)

Scelta basata su quesiti scientifici

PRODOTTO DI UNA MATRICE PER UN VETTORE

E(y) = y = X * 

Esempio: Calcolo della capacità vitale attesa nei maschi

Matrice dei dati

risultato