












Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica dettagliata della regressione lineare multipla, un metodo statistico utilizzato per modellare la relazione tra una variabile dipendente e più variabili indipendenti. Vengono esaminate le applicazioni della regressione lineare multipla, come la valutazione simultanea dell'influenza di diverse variabili esplicative su una variabile di risposta e la valutazione dell'effetto di una variabile esplicativa su un'altra, controllando per possibili confondenti. Inoltre, vengono discussi i modelli lineari generalizzati, le assunzioni della regressione lineare multipla e i metodi per la scomposizione della devianza. Il documento include anche esempi pratici e test d'ipotesi per illustrare l'applicazione della regressione lineare multipla in diversi contesti.
Tipologia: Schemi e mappe concettuali
1 / 20
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!













0
2
4
6
8
10
0 1 2 3 4 Variabile X
Variabile Y
y = 0 + 1 x +
1
4
S
0
10
variabile Y
variabile X
variabile X
y = 0 + 1 x 1 + 2 x 2 +
Regressione lineare multipla
y = 0 + 1 x 1 + 2 x 2 + 3 x 3 + 13 x 1 x 3 +
Variabile di risposta (dipendente, response variable)
Termine di errore
Coefficienti di regressione parziali, parametri ignoti del modello stimati sulla base dei dati disponibili Variabili esplicative (predittive, covariate, indipendenti, explanatory)
Effetto principale
Termine di interazione
Intercetta (corner, grand mean)
Il peso (Y) dipende dalla statura (X 1 ), dall’età (X2), dall’introito calorico (X3)
E(y) = y = 0 + 1 x 1 + 2 x 2 + 3 x 3 + 13 x 1 x 3
y = 0 + 1 x 1 + 2 x 2 + 3 x 3 + 13 x 1 x 3 +
E(y) = valore atteso (media) del peso degli individui che hanno quella determinata statura, età, introito calorico
y = peso di un determinato individuo, che dipende dalla statura, età, introito calorico (parte sistematica del modello), ma anche da altre caratteristiche individuali ( ε , parte probabilistica)
Regressione lineare multipla
y = 0 + 1 x 1 + 2 x 2 + 3 x 3 + 13 x 1 x 3 +
Variabile di risposta (dipendente)
Termine di errore, parte probabilistica
Predittore lineare, parte deterministica del modello, senza variabilità casuale
L’errore, e quindi la variabile di risposta, si distribuisce NORMALMENTE
La funzione legame (link-function), che unisce la variabile dipendente al predittore lineare, è l’identità
La funzione legame (link-function) è l’IDENTITA’
I MODELLI LINEARI GENERALIZZATI si differenziano per la distribuzione dell’errore (error function) e per la funzione legame (link function)
REGRESSIONE LINEARE MULTIPLA
L’errore segue la distribuzione NORMALE
La funzione legame (link-function) è il LOGIT [LOG(ODDS)]
L’errore segue la distribuzione BINOMIALE
La funzione legame (link-function) è il LOGARITMO
L’errore segue la distribuzione di POISSON
y = 0 + 1 x 1 + 2 x 2 + , in cui Y quantitativa, X qualitative e quantitative
la funzione legame (link-function) è l’IDENTITA’ l’errore segue la distribuzione NORMALE
Sono tutti riconducibili ad un unico modello lineare generalizzato, in cui:
OMOSCEDASTICITA’
INDIPENDENZA degli errori
Distribuzione NORMALE degli errori
Metodo dei minimi quadrati
per fare inferenza
Metodi di ottimizzazione
Metodo dei minimi quadrati (least-square method) Necessita dell’omoscedasticità. Viene utilizzato per i modelli lineari generalizzati in cui la funzione legame (link function) è l’identità: Regressione lineare semplice, Regressione lineare multipla, Analisi della varianza, Analisi della covarianza
y = 0 + 1 x +
0
2
4
6
8
10
0 1 2 3 4 Variabile X
Variabile Y
(^) media y = 5.
Variabilità totale
Variabilità spiegata dalla regressione
Variabilità residua
Devianza totale, SST
Devianza spiegata dalla regressione, SSR
Devianza residua, SSE
Il peso alla nascita dipende da (regressione) ed è correlato con (correlazione) l’età gestazionale e la statura del neonato?
Modello ipotizzato: Peso = 0 + 1 Statura + 2 Età gest. +
ANALISI GLOBALE DEL MODELLO, basata sulla SCOMPOSIZIONE DELLA DEVIANZA
IPOTESI NULLA: Tutte le variabili predittive sono irrilevanti. H 0 : 1 = 2 = 0
p = parametri del modello ( 0 , 1 , 2 ) SSR, SSE, SST = Somma di quadrati (Sum of Squares) spiegata dalla regressione, residua e totale MSR, MSE = Varianza (Mean Square) spiegata dalla regressione o residua - MSE = Errore quadratico medio
^
^
Fonte di variabilità
Gradi di libertà
Devianza Varianza Statistica-test
Regressione p- (^1) SSR = (y-y)^2 MSR=SSR/(p-1)^ F = MSR/MSE Residua n-p (^) SSE = (y-y)^2 MSE=SSE/(n-p)^ con^ (p-1)^ e^ (n-p) TOTALE n- (^1) SST = (y-y)^2 gradi^ di libertà
Regressione 2 11 073 128 5 536 564 44, Residua 60 – 2 - 1 = 57 7 042 277 123 549 con 2 e 57 g.l. TOTALE 60 – 1 = 59 18 115 405 P<0,
ANALISI GLOBALE DEL MODELLO, basata sulla SCOMPOSIZIONE DELLA DEVIANZA
Coefficiente di determinazione R^2 = SSR / SST = 11 073 128 / 18 115 405 = 0, Il 61,1% della variabilità nel peso neonatale è spiegata dalla correlazione con l’età gestazionale e con la statura.
R (coefficiente di correlazione multipla) = R^2 = 0,
- 1 0 r +
Pendenza negativa pendenza positiva
Nella correlazione semplice:
0 R +
Poiché non si può attribuire alcun significato alla direzione di una correlazione multipla con più variabili predittive
La significatività di R^2 (SSR / SST) si valuta con il test F (MSR/MSE) descritto in precedenza. R^2 in genere aumenta quando nel modello si introducono nuove variabili, non può essere utilizzato per confrontare modelli con un numero diverso di variabili. Il valore assunto da R^2 può essere corretto per tener conto del probabile contributo di ogni variabile inclusa, sottraendo il valore atteso in assenza di correlazione. R^2 a = R^2 - (1- R^2 ) (p-1) / (n-p) = = 0,611 - (1-0,611) 2 / 57 = 0,611 - 0,013 = 0,
Anche con questo aggiustamento, R^2 non misura in modo soddi- sfacente la bontà dell’adattamento della regressione interpolata.
A volte si vuole testare se la variabilità sia significativamente influenzata dalla soppressione di un gruppo di variabili predittive: ad esempio, in uno studio sulla resistenza alla fatica fisica può interessare valutare l’effetto di 3 variabili antropometriche (altezza, peso e circonferenza toracica) prese in blocco.
^
Fonte di variabilità
Gradi libertà Devianza Varianza Statistica-test
Regressione 1 p- 1 SSR 1 Regressione 2 (^) p- 1 - p SSR 2 Regr.1 – Regr.2 (^) p SSR= SSR 1 - SSR 2
MSR=SSR/p F =^ MSR/MSE con p e ( n-p ) Residua Regr1 n-p (^) SSE = (y-y)^2 MSE=SSE/(n-p)^ gradi di libertà TOTALE n- (^1) SST = (y-y)^2
Correlazione parziale - 1 Il coefficiente di correlazione lineare tra 2 variabili (r 12 ) rispecchia anche eventuali associazioni tra queste variabili ed un eventuale confondente. Ad esempio:
n sigarette/die
g alcool/die % stenosi carotidea
Associazione spuria
Il coefficiente di correlazione parziale è il coefficiente di correlazione tra due variabili, ottenuto tenendo costante il valore di una terza variabile.
Correlazione parziale - 2
I gradi di libertà sono sempre pari ad n meno il numero di parametri stimati.
SSE = devianza residua
Le procedure step-up, step-down e stepwise possono portare a risultati diversi, a scegliere variabili diverse. Inoltre, possono non selezionare la migliore regressione possibile sulla base dell’ R^2 a (R^2 corretto).
Il computer (una “sausage machine”) non può sostituire il cervello del ricercatore esperto in un settore 1) Usare il rasoio di Occam (Occam’s razor) A parità di ogni altra condizione, adottare sempre il modello più semplice
= * + *y = X ** + N.B. Per moltiplicare una matrice per un’altra matrice, si moltiplica
Tony Bepi Gigi Piero Fabio
………..
m anni 1 1,80 24 1 1,82 46 1 1,60 43 1 1,70 32 1 1,75 57 ...…………..
N.B. Per moltiplicare una matrice per un’altra matrice, si moltiplica ogni riga della I matrice per ogni colonna della II matrice.
Capacità vitale (l) = – 4,34 + altezza(m) * 5,76 - età(anni) *0,
=
*1 *(* - 4,34 ) + 1,80 * 5,76 + 24 *(-0,026) *1 *(* - 4,34 ) + 1,82 * 5,76 + 46 *(-0,026) *1 *(* - 4,34 ) + 1,60 * 5,76 + 43 *(-0,026) *1 *(* - 4,34 ) + 1,70 * 5,76 + 32 *(-0,026) *1 *(* - 4,34 ) + 1,75 * 5,76 + 57 *(-0,026) ...…………..
Vettore delle *^ costanti =^