Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Regressione Lineare Multipla: Modelli e Applicazioni Statistiche, Schemi e mappe concettuali di Matematica

Una panoramica dettagliata della regressione lineare multipla, un metodo statistico utilizzato per modellare la relazione tra una variabile dipendente e più variabili indipendenti. Vengono esaminate le applicazioni della regressione lineare multipla, come la valutazione simultanea dell'influenza di diverse variabili esplicative su una variabile di risposta e la valutazione dell'effetto di una variabile esplicativa su un'altra, controllando per possibili confondenti. Inoltre, vengono discussi i modelli lineari generalizzati, le assunzioni della regressione lineare multipla e i metodi per la scomposizione della devianza. Il documento include anche esempi pratici e test d'ipotesi per illustrare l'applicazione della regressione lineare multipla in diversi contesti.

Tipologia: Schemi e mappe concettuali

2023/2024

Caricato il 20/05/2025

gardenia-fiore
gardenia-fiore 🇮🇹

4 documenti

1 / 20

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
La regressione lineare multipla
Prof. Giuseppe Verlato
Sezione di Epidemiologia e Statistica
Medica, Dipartimento di Medicina e Sanità
Pubblica, Università degli Studi di Verona
0
2
4
6
8
10
0 1 2 3 4
Variabile X
Variabile Y
Regressione lineare semplice
y =
0 +
1x +
Una retta nel piano
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14

Anteprima parziale del testo

Scarica Regressione Lineare Multipla: Modelli e Applicazioni Statistiche e più Schemi e mappe concettuali in PDF di Matematica solo su Docsity!

La regressione lineare multipla

  • Prof. Giuseppe Verlato
  • Sezione di Epidemiologia e Statistica

Medica, Dipartimento di Medicina e Sanità

Pubblica, Università degli Studi di Verona

0

2

4

6

8

10

0 1 2 3 4 Variabile X

Variabile Y

Regressione lineare semplice

y =  0 +  1 x + 

Una retta nel piano

1

4

S

0

10

variabile Y

variabile X

variabile X

Regressione lineare multipla

y =  0 +  1 x 1 +  2 x 2 + 

Con 2 variabili esplicative,

un piano nello spazio.

Con più variabili, la

regressione lineare

multipla può essere

rappresentata

nell’iperspazio

Regressione lineare multipla

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

Variabile di risposta (dipendente, response variable)

Termine di errore

Coefficienti di regressione parziali, parametri ignoti del modello stimati sulla base dei dati disponibili Variabili esplicative (predittive, covariate, indipendenti, explanatory)

Effetto principale

Termine di interazione

Intercetta (corner, grand mean)

Il peso (Y) dipende dalla statura (X 1 ), dall’età (X2), dall’introito calorico (X3)

E(y) = y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

E(y) = valore atteso (media) del peso degli individui che hanno quella determinata statura, età, introito calorico

y = peso di un determinato individuo, che dipende dalla statura, età, introito calorico (parte sistematica del modello), ma anche da altre caratteristiche individuali ( ε , parte probabilistica)

Regressione lineare multipla

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

Variabile di risposta (dipendente)

Termine di errore, parte probabilistica

Predittore lineare, parte deterministica del modello, senza variabilità casuale

L’errore, e quindi la variabile di risposta, si distribuisce NORMALMENTE

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

La funzione legame (link-function), che unisce la variabile dipendente al predittore lineare, è l’identità

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

La funzione legame (link-function) è l’IDENTITA’

I MODELLI LINEARI GENERALIZZATI si differenziano per la distribuzione dell’errore (error function) e per la funzione legame (link function)

REGRESSIONE LINEARE MULTIPLA

L’errore segue la distribuzione NORMALE

Log [y/(1-y)] =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

La funzione legame (link-function) è il LOGIT [LOG(ODDS)]

MODELLO DI REGRESSIONE LOGISTICA

L’errore segue la distribuzione BINOMIALE

Log(y) =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

La funzione legame (link-function) è il LOGARITMO

MODELLO LOG-LINEARE

L’errore segue la distribuzione di POISSON

y =  0 +  1 x +  , in cui X ed Y sono variabili quantitative

1) Regressione lineare semplice

y =  0 +  1 x 1 +  2 x 2 +  , in cui X ed Y sono variabili quantitative

2) Regressione lineare multipla

y =  0 +  1 x 1 +  2 x 2 +  , in cui Y quantitativa, X qualitative

3) Analisi della varianza (ANOVA)

y =  0 +  1 x 1 +  2 x 2 +  , in cui Y quantitativa, X qualitative e quantitative

4) Analisi della covarianza (ANCOVA)

la funzione legame (link-function) è l’IDENTITA’ l’errore segue la distribuzione NORMALE

Sono tutti riconducibili ad un unico modello lineare generalizzato, in cui:

Regressione lineare multipla

y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  13 x 1 x 3 + 

ASSUNZIONI

  1. OMOSCEDASTICITA’

  2. INDIPENDENZA degli errori

  3. Distribuzione NORMALE degli errori

Metodo dei minimi quadrati

per fare inferenza

Metodi di ottimizzazione

per trovare il modello che meglio si adatta ai dati

Metodo dei minimi quadrati (least-square method) Necessita dell’omoscedasticità. Viene utilizzato per i modelli lineari generalizzati in cui la funzione legame (link function) è l’identità: Regressione lineare semplice, Regressione lineare multipla, Analisi della varianza, Analisi della covarianza

SCOMPOSIZIONE DELLA DEVIANZA nella

Regressione lineare semplice - 1

y =  0 +  1 x + 

0

2

4

6

8

10

0 1 2 3 4 Variabile X

Variabile Y

(^) media y = 5.

y - y

} y-^ y

(y-y) = (y - y) + (y- y )

SCOMPOSIZIONE DELLA DEVIANZA nella

Regressione lineare semplice - 2

(y-y) = (y - y) + (y- y )

Variabilità totale

Variabilità spiegata dalla regressione

Variabilità residua

Σ (y-y)^2 = Σ (y - y)^2 + Σ (y- y)^2

Devianza totale, SST

Devianza spiegata dalla regressione, SSR

Devianza residua, SSE

Si può dimostrare che:

Esempio sulla REGRESSIONE LINEARE MULTIPLA- 1

Il peso alla nascita dipende da (regressione) ed è correlato con (correlazione) l’età gestazionale e la statura del neonato?

Modello ipotizzato: Peso =  0 +  1 Statura +  2 Età gest. + 

ANALISI GLOBALE DEL MODELLO, basata sulla SCOMPOSIZIONE DELLA DEVIANZA

IPOTESI NULLA: Tutte le variabili predittive sono irrilevanti. H 0 :  1 =  2 = 0

Esempio sulla REGRESSIONE LINEARE MULTIPLA- 2

SCOMPOSIZIONE DELLA DEVIANZA

p = parametri del modello ( 0 ,1 ,2 ) SSR, SSE, SST = Somma di quadrati (Sum of Squares) spiegata dalla regressione, residua e totale MSR, MSE = Varianza (Mean Square) spiegata dalla regressione o residua - MSE = Errore quadratico medio

^

^

Fonte di variabilità

Gradi di libertà

Devianza Varianza Statistica-test

Regressione p- (^1) SSR = (y-y)^2 MSR=SSR/(p-1)^ F = MSR/MSE Residua n-p (^) SSE = (y-y)^2 MSE=SSE/(n-p)^ con^ (p-1)^ e^ (n-p) TOTALE n- (^1) SST = (y-y)^2 gradi^ di libertà

Regressione 2 11 073 128 5 536 564 44, Residua 60 – 2 - 1 = 57 7 042 277 123 549 con 2 e 57 g.l. TOTALE 60 – 1 = 59 18 115 405 P<0,

Esempio sulla REGRESSIONE LINEARE MULTIPLA- 3

ANALISI GLOBALE DEL MODELLO, basata sulla SCOMPOSIZIONE DELLA DEVIANZA

Coefficiente di determinazione R^2 = SSR / SST = 11 073 128 / 18 115 405 = 0, Il 61,1% della variabilità nel peso neonatale è spiegata dalla correlazione con l’età gestazionale e con la statura.

R (coefficiente di correlazione multipla) =R^2 = 0,

- 1 0 r +

Pendenza negativa pendenza positiva

Nella correlazione semplice:

0 R +

Poiché non si può attribuire alcun significato alla direzione di una correlazione multipla con più variabili predittive

Esempio sulla REGRESSIONE LINEARE MULTIPLA- 4

La significatività di R^2 (SSR / SST) si valuta con il test F (MSR/MSE) descritto in precedenza. R^2 in genere aumenta quando nel modello si introducono nuove variabili, non può essere utilizzato per confrontare modelli con un numero diverso di variabili. Il valore assunto da R^2 può essere corretto per tener conto del probabile contributo di ogni variabile inclusa, sottraendo il valore atteso in assenza di correlazione. R^2 a = R^2 - (1- R^2 ) (p-1) / (n-p) = = 0,611 - (1-0,611) 2 / 57 = 0,611 - 0,013 = 0,

Anche con questo aggiustamento, R^2 non misura in modo soddi- sfacente la bontà dell’adattamento della regressione interpolata.

Analisi della varianza per eliminare più di una variabile

A volte si vuole testare se la variabilità sia significativamente influenzata dalla soppressione di un gruppo di variabili predittive: ad esempio, in uno studio sulla resistenza alla fatica fisica può interessare valutare l’effetto di 3 variabili antropometriche (altezza, peso e circonferenza toracica) prese in blocco.

^

Fonte di variabilità

Gradi libertà Devianza Varianza Statistica-test

Regressione 1 p- 1 SSR 1 Regressione 2 (^) p- 1 - p SSR 2 Regr.1 – Regr.2 (^) p SSR= SSR 1 - SSR 2

MSR=SSR/p F =^ MSR/MSE con  p e ( n-p ) Residua Regr1 n-p (^) SSE = (y-y)^2 MSE=SSE/(n-p)^ gradi di libertà TOTALE n- (^1) SST = (y-y)^2

Correlazione parziale - 1 Il coefficiente di correlazione lineare tra 2 variabili (r 12 ) rispecchia anche eventuali associazioni tra queste variabili ed un eventuale confondente. Ad esempio:

n sigarette/die

g alcool/die % stenosi carotidea

Associazione spuria

Il coefficiente di correlazione parziale è il coefficiente di correlazione tra due variabili, ottenuto tenendo costante il valore di una terza variabile.

r12.3 = ————————

r 12 - r 13 * r 23

 (1 - r 132 ) (1 - r 232 )

Correlazione parziale - 2

r12.3 = ————————

r 12 - r 13 * r 23

 (1 - r 132 ) (1 - r 232 )

Test d’ipotesi: H 0 : r 12.3 = 0 r12.3 = statistica campionaria

H 1 : r 12.3  0 r 12.3 = parametro ignoto

t = ————— *  n- 3

r12.

 1 - r12.3^2

Sotto H 0 , la statistica test segue la distribuzione t di

Student con n-3 gradi di libertà (i gradi di libertà

della varianza residua).

Misura di variabilità Formula Gradi

libertà

devianza Σ (y-y)^2 n- 1

codevianza Σ (x-x) (y-y) n- 2

SSE (regr.lineare semplice) Σ (y- ŷ )^2 = Σ (y-b 0 - b 1 x)^2 n- 2

SSE (regr.lineare multipla) Σ (y- ŷ )^2 = Σ (y-b 0 - b 1 x-b 2 x)^2 n- 3

I gradi di libertà sono sempre pari ad n meno il numero di parametri stimati.

SSE = devianza residua

Procedure automatiche (fishing)

  1. Procedura ad eliminazione regressiva (step-down, backward, top-down, modello condizionale) a) Il computer calcola la regressione su tutte le p variabili predittive e scarta la meno significativa. b) Il computer ricalcola la regressione sulle p - 1 variabili rimanenti. c) La procedura si arresta quando tutti i coefficienti di regressione rimasti sono significativi.

Procedure automatiche (fishing)

  1. Stepwise E’ un compromesso tra i due metodi precedenti, le variabili vengono sia introdotte nel modello, sia rimosse. a) Le variabili più significative vengono introdotte nel modello secondo la procedura step-up. b) Tuttavia dopo l’inclusione di una nuova variabile, si rivaluta il contributo di ogni variabile, e se la variabile meno significativa fornisce un contributo insufficiente sulla base di un criterio prestabilito, essa viene eliminata. c) Pertanto può succedere che una variabile venga dapprima inclusa nel modello e successivamente eliminata, perché altre variabili, introdotte in un secondo momento, l’hanno resa superflua. d) In genere il criterio di inclusione è più rigido, più conservativo rispetto al criterio di esclusione. Ad esempio, una variabile può essere inclusa soltanto se il suo coefficiente di regressione parziale è significativo al livello 5% ed eliminata se non risulta più significativo al livello 10%.

Procedure automatiche (fishing)

Le procedure step-up, step-down e stepwise possono portare a risultati diversi, a scegliere variabili diverse. Inoltre, possono non selezionare la migliore regressione possibile sulla base dell’ R^2 a (R^2 corretto).

  1. Selezione del miglior sottoinsieme Un algoritmo computerizzato include nel modello il ‘migliore’ sottoinsieme di variabili sulla base dell’ R^2 a , che tiene conto sia della bontà di adattamento (rapporto tra devianza spiegata e devianza totale) che della parsimonia del modello (numero di parametri).

Scelta basata su quesiti scientifici

Il computer (una “sausage machine”) non può sostituire il cervello del ricercatore esperto in un settore 1) Usare il rasoio di Occam (Occam’s razor) A parità di ogni altra condizione, adottare sempre il modello più semplice

  1. Non inserire troppe variabili nel modello dovrebbero esserci almeno 10 osservazioni per ogni variabile esplicativa; anche con molte osservazioni non si dovrebbero introdurre nel modello più di 2-3 variabili esplicative (explanatory) e 5-6 variabili di confondimento (confounders)
  2. Non inserire nel modello variabili correlate fra loro ad esempio, la pressione diastolica e la pressione sistolica sono collineari
  3. Non fidarsi solo della significatività statistica significatività statistica ≠ significatività clinica
  4. Non inserire il termine di interazione senza i corrispondenti effetti principali
  5. Usare le procedure automatiche solo se non ci sono informazioni disponibili su un determinato problema

= * + *y = X **+N.B. Per moltiplicare una matrice per un’altra matrice, si moltiplica

  • Soggetto 1 y 1 =  0 +  1 x 11 +  2 x 21 +  3 x 31 +  13 x 11 x 31 + 
  • Soggetto 2 y 2 =  0 +  1 x 12 +  2 x 22 +  3 x 32 +  13 x 12 x 32 + 
  • Soggetto 3 y 3 =  0 +  1 x 13 +  2 x 23 +  3 x 33 +  13 x 13 x 33 + 
  • Soggetto 4 y 4 =  0 +  1 x 14 +  2 x 24 +  3 x 34 +  13 x 14 x 34 + 
  • Soggetto 5 y 5 =  0 +  1 x 15 +  2 x 25 +  3 x 35 +  13 x 15 x 35 + 
  • Soggetto 6 y 6 =  0 +  1 x 16 +  2 x 26 +  3 x 36 +  13 x 16 x 36 + 
  • Soggetto 7 y 7 =  0 +  1 x 17 +  2 x 27 +  3 x 37 +  13 x 17 x 37 + 
  • Soggetto 8 y 8 =  0 +  1 x 18 +  2 x 28 +  3 x 38 +  13 x 18 x 38 +  - REGRESSIONE LINEARE MULTIPLA- NOTAZIONE MATRICIALE DI UNA -  -  -  -  -  - REGRESSIONE LINEARE MULTIPLA- NOTAZIONE MATRICIALE DI UNA
    • y
    • y
    • y
    • y
    • y
    • y
    • y
    • y - 1 x 11 x 21 x 31 x 11 x … - 1 x 12 x 22 x 32 x 12 x - 1 x 13 x 23 x 33 x 13 x - 1 x 14 x 24 x 34 x 14 x - 1 x 15 x 25 x 35 x 15 x - 1 x 16 x 26 x 36 x 16 x - 1 x 17 x 27 x 37 x 17 x - 1 x 18 x 28 x 38 x 18 x -  ...………………………. -  -  -  -  -  -  - 

PRODOTTO DI UNA MATRICE PER UN VETTORE

Tony Bepi Gigi Piero Fabio

………..

m anni 1 1,80 24 1 1,82 46 1 1,60 43 1 1,70 32 1 1,75 57 ...…………..

E(y) = y = X * 

N.B. Per moltiplicare una matrice per un’altra matrice, si moltiplica ogni riga della I matrice per ogni colonna della II matrice.

Esempio: Calcolo della capacità vitale attesa nei maschi

Capacità vitale (l) = 4,34 + altezza(m) * 5,76 - età(anni) *0,

=

*1 *(* - 4,34 ) + 1,80 * 5,76 + 24 *(-0,026) *1 *(* - 4,34 ) + 1,82 * 5,76 + 46 *(-0,026) *1 *(* - 4,34 ) + 1,60 * 5,76 + 43 *(-0,026) *1 *(* - 4,34 ) + 1,70 * 5,76 + 32 *(-0,026) *1 *(* - 4,34 ) + 1,75 * 5,76 + 57 *(-0,026) ...…………..

Matrice dei dati

Vettore delle *^ costanti =^

risultato