






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Modello regressione multipla (slides)
Tipologia: Slide
1 / 10
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







Abbiamo visto come verificare la significatività di singole variabili (quantitative o dicotomiche) nell’ambito di un modello di regressione multipla (tramite il test t). Vediamo ora come verificare la significatività di gruppi di variabili (quantitative e/o dicotomiche) in un modello di regressione multipla. Questa procedura risulterà utile per confrontare tra loro, a livello di popolazione (cioè tramite un test, cioè in modo inferenziale), due modelli annidati, per i quali cioè uno dei due contiene tutte le variabili esplicative dell’altro più altre variabili aggiuntive (modelli riferiti sempre alla medesima variabile dipendente). Consideriamo due modelli annidati (come descritto sopra) per la variabile dipendente Y, il primo (che chiameremo modello ridotto) con le q variabili esplicative 𝒙𝒙𝟏𝟏, 𝒙𝒙𝟐𝟐, … , 𝒙𝒙𝒒𝒒, il secondo (che chiameremo modello completo) con p variabili esplicative (le q variabili del modello precedente più altre p-q aggiuntive, ovvero 𝒙𝒙𝟏𝟏, 𝒙𝒙𝟐𝟐, … , 𝒙𝒙𝒒𝒒, 𝒙𝒙𝒒𝒒+𝟏𝟏, … , 𝒙𝒙𝒑𝒑). MODELLO RIDOTTO (che indichiamo sinteticamente con 𝑴𝑴. 𝑹𝑹𝑹𝑹𝑹𝑹) 𝒀𝒀 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏𝒙𝒙𝟏𝟏 + ⋯ + 𝜷𝜷𝒒𝒒𝒙𝒙𝒒𝒒 + 𝜺𝜺 MODELLO COMPLETO: (che indichiamo sinteticamente con 𝑴𝑴. 𝑪𝑪𝑪𝑪𝑴𝑴𝑪𝑪) 𝒀𝒀 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏𝒙𝒙𝟏𝟏 + ⋯ + 𝜷𝜷𝒒𝒒𝒙𝒙𝒒𝒒 + 𝜷𝜷𝒒𝒒+𝟏𝟏 𝒙𝒙𝒒𝒒+𝟏𝟏 + ⋯ + 𝜷𝜷𝒑𝒑𝒙𝒙𝒑𝒑 + 𝜺𝜺 Vogliamo verificare se le variabili presenti nel modello completo e non presenti in quello ridotto, cioè le p-q variabili 𝒙𝒙𝒒𝒒+𝟏𝟏, 𝒙𝒙𝒒𝒒+𝟐𝟐, … , 𝒙𝒙𝒑𝒑, sono congiuntamente significative (ovvero, apportano un contributo significativo alla spiegazione di Y nell’ambito del modello considerato). Il problema si può quindi vedere come un confronto (a livello inferenziale) tra due modelli annidati, quello completo e quello ridotto (si noti che i termini completo e ridotto sono solo indicativi e relativi al confronto considerato-non ha senso parlare di modello completo in assoluto).
Il problema è quindi relativo alle seguenti ipotesi nulla ed alternativa: 𝑯𝑯𝟎𝟎: 𝜷𝜷𝒒𝒒+𝟏𝟏 = 𝜷𝜷𝒒𝒒+𝟐𝟐 = ⋯ = 𝜷𝜷𝒑𝒑 = 𝟎𝟎; 𝑯𝑯𝟏𝟏: 𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂 𝒖𝒖𝒂𝒂𝒂𝒂 𝒅𝒅𝒂𝒂𝒅𝒅 𝒄𝒄𝒂𝒂𝒂𝒂𝒄𝒄𝒄𝒄𝒅𝒅𝒄𝒄𝒅𝒅𝒂𝒂𝒂𝒂𝒄𝒄𝒅𝒅 𝜷𝜷𝒒𝒒+𝟏𝟏, 𝜷𝜷𝒒𝒒+𝟐𝟐, … , 𝜷𝜷𝒑𝒑 è 𝒅𝒅𝒅𝒅𝒅𝒅𝒂𝒂𝒅𝒅𝒅𝒅𝒂𝒂 𝒅𝒅𝒂𝒂 𝟎𝟎 L’ipotesi nulla indica che congiuntamente le variabili 𝒙𝒙𝒒𝒒+𝟏𝟏, 𝒙𝒙𝒒𝒒+𝟐𝟐, … , 𝒙𝒙𝒑𝒑, presenti nel modello completo e non in quello ridotto, non hanno alcun effetto suY (nell’ambito del modello che include già 𝒙𝒙𝟏𝟏, 𝒙𝒙𝟐𝟐, … , 𝒙𝒙𝒒𝒒)
variabili 𝒙𝒙𝒒𝒒+𝟏𝟏, 𝒙𝒙𝒒𝒒+𝟐𝟐, … , 𝒙𝒙𝒑𝒑 hanno (insieme) effetto suY, quindi forniscono un contributo significativo (aggiuntivo rispetto a quello già dato da 𝒙𝒙𝟏𝟏, 𝒙𝒙𝟐𝟐, … , 𝒙𝒙𝒒𝒒) alla spiegazione di Y; in altri termini, che tali variabili 𝒙𝒙𝒒𝒒+𝟏𝟏, 𝒙𝒙𝒒𝒒+𝟐𝟐, … , 𝒙𝒙𝒑𝒑 sono congiuntamente significative. Quindi, rifiutare l’ipotesi nulla porta a scegliere (per studiareY nella popolazione) tra i due il modello completo; ecco il ruolo della procedura che stiamo introducendo nel problema di confronto tra modelli annidati. Per introdurre il test, facciamo un’osservazione preliminare (in parte già rilevata in precedenza). Ad ogni modello di regressione (indichiamolo sinteticamente con M) volto a spiegare Y sono associate due quantità:
Naturalmente, la conclusione del test segue dal calcolo del valore 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅 ottenuto sostituendo nell’espressione della statistica F le quantità coinvolte rilevate nel campione e dal successivo confronto di tale valore con il quantile: se 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅 ≥ 𝑭𝑭𝒑𝒑−𝒒𝒒,𝒂𝒂−𝒑𝒑−𝟏𝟏,𝜶𝜶 si rifiuta l’ipotesi nulla a livello 𝜶𝜶 se 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅 < 𝑭𝑭𝒑𝒑−𝒒𝒒,𝒂𝒂−𝒑𝒑−𝟏𝟏,𝜶𝜶 non si rifiuta l’ipotesi nulla a livello 𝜶𝜶 Equivalentemente, come sempre, si può usare il p-value p − 𝒅𝒅𝒂𝒂𝒂𝒂𝒖𝒖𝒂𝒂 = 𝑪𝑪(𝑭𝑭 ≥ 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅|𝑯𝑯𝟎𝟎) e si rifiuta a livello 𝜶𝜶 se e solo se tale p-value è minore di 𝜶𝜶
MOD.A (con 5 variabili esplicative, per cui p=5): 𝒀𝒀 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝒂𝒂𝒂𝒂𝒂𝒂 ⋅ 𝒂𝒂𝒂𝒂𝒂𝒂 + 𝜷𝜷𝒅𝒅𝒂𝒂𝒅𝒅𝒅𝒅 ⋅ 𝒅𝒅𝒂𝒂𝒅𝒅𝒅𝒅 + 𝜷𝜷𝒑𝒑𝒄𝒄.𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒂𝒂𝒂𝒂. ⋅ 𝒑𝒑𝒄𝒄. 𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒂𝒂𝒂𝒂 + 𝜷𝜷𝒑𝒑𝒄𝒄.𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂. ⋅ 𝒑𝒑𝒄𝒄. 𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂 +𝜷𝜷𝒅𝒅𝒖𝒖𝒅𝒅𝒂𝒂𝒂𝒂𝒅𝒅𝒅𝒅 ⋅ 𝒅𝒅𝒖𝒖𝒅𝒅𝒂𝒂𝒂𝒂𝒅𝒅𝒅𝒅 + 𝜺𝜺 MOD.B (con 3 variabili esplicative, per cui q=3): 𝒀𝒀 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝒂𝒂𝒂𝒂𝒂𝒂 ⋅ 𝒂𝒂𝒂𝒂𝒂𝒂 + 𝜷𝜷𝒑𝒑𝒄𝒄.𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒂𝒂𝒂𝒂. ⋅ 𝒑𝒑𝒄𝒄. 𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒂𝒂𝒂𝒂 + 𝜷𝜷𝒑𝒑𝒄𝒄.𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂. ⋅ 𝒑𝒑𝒄𝒄. 𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂 + 𝜺𝜺 Vogliamo confrontare, mediante un test di livello 0.01, i due modelli annidati. Vogliamo cioè verificare se days e surgery sono congiuntamente significative. Nella pagina seguente è riportata la funzione da usare e l’output relativo. **> MOD.A<-lm(hosp_exp~age+days+pat_cond+surgery,data=HE) > MOD.B<-lm(hosp_exp~age+pat_cond,data=HE) > anova(MOD.B,MOD.A) Analysis of Variance Table Model 1: hosp_exp ~ age + pat_cond Model 2: hosp_exp ~ age + days + pat_cond + surgery Res.Df RSS Df Sum of Sq F Pr(>F) 1 228 722637877 2 226 165863168 2 556774708 379.32 < 2.2e-16 ***
Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1** In pratica, costruiti i due modelli da confrontare, si usa la funzione (già vista) anova, con argomenti i due modelli, prima quello ridotto, poi quello completo. Nella slide seguente è riportata la descrizione dell’output. Nell’output vengono riportati:
MODELLO NULLO (senza variabili esplicative, quindi con n- 1 gradi di libertà) 𝒀𝒀 = 𝜷𝜷𝟎𝟎 + 𝜺𝜺 MODELLO IN ESAME (con p variabili esplicative, quindi con n-p- 1 gradi di libertà) (1) 𝒀𝒀 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏𝒙𝒙𝟏𝟏 + ⋯ + 𝜷𝜷𝒑𝒑𝒙𝒙𝒑𝒑 + 𝜺𝜺 Dunque, considerato il modello (1) con p variabili di cui si vuole verificare la significatività e tenuto conto del fatto che il modello nullo ha devianza residua uguale alla devianza totale, la statistica test per questo problema è 𝑭𝑭 =
DEV.TOT è la devianza totale della variabile dipendente (che coincide come detto con la devianza residua del modello nullo) DEV.RES è la devianza residua del modello (1) in esame DEV.SP è la devianza spiegata del modello (1) in esame Sotto l’ipotesi nulla, la statistica test ha quindi distribuzione F di Fisher- Snedecor con p e n-p-1 gradi di libertà. La regione di rifiuto del test di livello 𝜶𝜶 è 𝑹𝑹𝜶𝜶: 𝑭𝑭 ≥ 𝑭𝑭𝒑𝒑,𝒂𝒂−𝒑𝒑−𝟏𝟏,𝜶𝜶 se 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅 ≥ 𝑭𝑭𝒑𝒑,𝒂𝒂−𝒑𝒑−𝟏𝟏,𝜶𝜶 si rifiuta l’ipotesi nulla a livello 𝜶𝜶 se 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅 < 𝑭𝑭𝒑𝒑,𝒂𝒂−𝒑𝒑−𝟏𝟏,𝜶𝜶 non si rifiuta l’ipotesi nulla a livello 𝜶𝜶 Equivalentemente, come sempre, si può usare il p-value p − 𝒅𝒅𝒂𝒂𝒂𝒂𝒖𝒖𝒂𝒂 = 𝑪𝑪(𝑭𝑭 ≥ 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅|𝑯𝑯𝟎𝟎) e si rifiuta l’ipotesi nulla a livello 𝜶𝜶 se e solo se tale p-value è minore di 𝜶𝜶. Rifiutare l’ipotesi nulla significa ritenere il modello (quello in esame, con p variabili esplicative) globalmente significativo; ovvero, ritenere le p variabili congiuntamente significative. Per questo il test è chiamato test F globale. In altri termini, significa ritenere il modello in esame preferibile al modello nullo.
ESEMPIO (dataframe HE, nel file HOSPITAL.Rdata) Riprendiamo l’esempio relativo alla spiegazione delle spese ospedaliere, riferito al campione di 232 ricoveri effettuati da ospedali pubblici su cui si rilevano le variabili
Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 856.7 on 226 degrees of freedom Multiple R-squared: 0.7975, Adjusted R-squared: 0. F-statistic: 178 on 5 and 226 DF, p-value: < 2.2e- 16** Infine, vogliamo prevedere/stimare le spese sostenute in media dall’ospedale per i pazienti di 60 anni, ricoverati per 8 giorni, che hanno subito un intervento chirurgico e che sono in condizione di media gravità (pat_cond=average) e completare la previsione con un intervallo al 90%. > predict(MOD.A,data.frame(age=60,days=8,pat_cond="average", surgery="yes"),interval="confidence", level=0.9) fit lwr upr 1 4074.054 3825.635 4322. La previsione è quindi 4074.054, l’intervallo al 90% è (3825.635, 4322.472).