Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Modello regressione multipla, Slide di Statistica

Modello regressione multipla (slides)

Tipologia: Slide

2024/2025

Caricato il 01/07/2026

sara-cano-14
sara-cano-14 🇮🇹

15 documenti

1 / 10

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
MODELLO DI
REGRESSIONE
LINEARE MULTIPLA
TEST F PARZIALE PER LA SIGNIFICATIVITA
DI GRUPPI DI VARIABILI
CONFRONTO TRA MODELLI ANNIDATI
INTRODUZIONE
Abbiamo visto come verificare la significatività di singole variabili
(quantitative o dicotomiche) nell’ambito di un modello di regressione
multipla (tramite il test t).
Vediamo ora come verificare la significatività di gruppi di variabili
(quantitative e/o dicotomiche) in un modello di regressione multipla.
Questa procedura risulterà utile per confrontare tra loro, a livello di
popolazione (cioè tramite un test, cioè in modo inferenziale), due modelli
annidati, per i quali cioè uno dei due contiene tutte le variabili esplicative
dell’altro più altre variabili aggiuntive (modelli riferiti sempre alla
medesima variabile dipendente).
Consideriamo due modelli annidati (come descritto sopra) per la variabile
dipendente Y, il primo (che chiameremo modello ridotto) con le q variabili
esplicative 𝒙𝒙𝟏𝟏,𝒙𝒙𝟐𝟐, , 𝒙𝒙𝒒𝒒, il secondo (che chiameremo modello completo) con p
variabili esplicative (le q variabili del modello precedente più altre p-q
aggiuntive, ovvero 𝒙𝒙𝟏𝟏,𝒙𝒙𝟐𝟐, , 𝒙𝒙𝒒𝒒,𝒙𝒙𝒒𝒒+𝟏𝟏, , 𝒙𝒙𝒑𝒑).
MODELLO RIDOTTO (che indichiamo sinteticamente con 𝑴𝑴.𝑹𝑹𝑹𝑹𝑹𝑹)
𝒀𝒀=𝜷𝜷𝟎𝟎+𝜷𝜷𝟏𝟏𝒙𝒙𝟏𝟏++𝜷𝜷𝒒𝒒𝒙𝒙𝒒𝒒+𝜺𝜺
MODELLO COMPLETO: (che indichiamo sinteticamente con 𝑴𝑴.𝑪𝑪𝑪𝑪𝑴𝑴𝑪𝑪)
𝒀𝒀=𝜷𝜷𝟎𝟎+𝜷𝜷𝟏𝟏𝒙𝒙𝟏𝟏++𝜷𝜷𝒒𝒒𝒙𝒙𝒒𝒒+𝜷𝜷𝒒𝒒+𝟏𝟏 𝒙𝒙𝒒𝒒+𝟏𝟏 ++𝜷𝜷𝒑𝒑𝒙𝒙𝒑𝒑+𝜺𝜺
Vogliamo verificare se le variabili presenti nel modello completo e non
presenti in quello ridotto, cioè le p-q variabili 𝒙𝒙𝒒𝒒+𝟏𝟏,𝒙𝒙𝒒𝒒+𝟐𝟐,…,𝒙𝒙𝒑𝒑, sono
congiuntamente significative (ovvero, apportano un contributo
significativo alla spiegazione di Y nell’ambito del modello considerato).
Il problema si può quindi vedere come un confronto (a livello inferenziale)
tra due modelli annidati, quello completo e quello ridotto (si noti che i
termini completo e ridotto sono solo indicativi e relativi al confronto
considerato-non ha senso parlare di modello completo in assoluto).
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Modello regressione multipla e più Slide in PDF di Statistica solo su Docsity!

MODELLO DI

REGRESSIONE

LINEARE MULTIPLA

TEST F PARZIALE PER LA SIGNIFICATIVITA’

DI GRUPPI DI VARIABILI

CONFRONTO TRA MODELLI ANNIDATI

INTRODUZIONE

Abbiamo visto come verificare la significatività di singole variabili (quantitative o dicotomiche) nell’ambito di un modello di regressione multipla (tramite il test t). Vediamo ora come verificare la significatività di gruppi di variabili (quantitative e/o dicotomiche) in un modello di regressione multipla. Questa procedura risulterà utile per confrontare tra loro, a livello di popolazione (cioè tramite un test, cioè in modo inferenziale), due modelli annidati, per i quali cioè uno dei due contiene tutte le variabili esplicative dell’altro più altre variabili aggiuntive (modelli riferiti sempre alla medesima variabile dipendente). Consideriamo due modelli annidati (come descritto sopra) per la variabile dipendente Y, il primo (che chiameremo modello ridotto) con le q variabili esplicative 𝒙𝒙𝟏𝟏, 𝒙𝒙𝟐𝟐, … , 𝒙𝒙𝒒𝒒, il secondo (che chiameremo modello completo) con p variabili esplicative (le q variabili del modello precedente più altre p-q aggiuntive, ovvero 𝒙𝒙𝟏𝟏, 𝒙𝒙𝟐𝟐, … , 𝒙𝒙𝒒𝒒, 𝒙𝒙𝒒𝒒+𝟏𝟏, … , 𝒙𝒙𝒑𝒑). MODELLO RIDOTTO (che indichiamo sinteticamente con 𝑴𝑴. 𝑹𝑹𝑹𝑹𝑹𝑹) 𝒀𝒀 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏𝒙𝒙𝟏𝟏 + ⋯ + 𝜷𝜷𝒒𝒒𝒙𝒙𝒒𝒒 + 𝜺𝜺 MODELLO COMPLETO: (che indichiamo sinteticamente con 𝑴𝑴. 𝑪𝑪𝑪𝑪𝑴𝑴𝑪𝑪) 𝒀𝒀 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏𝒙𝒙𝟏𝟏 + ⋯ + 𝜷𝜷𝒒𝒒𝒙𝒙𝒒𝒒 + 𝜷𝜷𝒒𝒒+𝟏𝟏 𝒙𝒙𝒒𝒒+𝟏𝟏 + ⋯ + 𝜷𝜷𝒑𝒑𝒙𝒙𝒑𝒑 + 𝜺𝜺 Vogliamo verificare se le variabili presenti nel modello completo e non presenti in quello ridotto, cioè le p-q variabili 𝒙𝒙𝒒𝒒+𝟏𝟏, 𝒙𝒙𝒒𝒒+𝟐𝟐, … , 𝒙𝒙𝒑𝒑, sono congiuntamente significative (ovvero, apportano un contributo significativo alla spiegazione di Y nell’ambito del modello considerato). Il problema si può quindi vedere come un confronto (a livello inferenziale) tra due modelli annidati, quello completo e quello ridotto (si noti che i termini completo e ridotto sono solo indicativi e relativi al confronto considerato-non ha senso parlare di modello completo in assoluto).

Il problema è quindi relativo alle seguenti ipotesi nulla ed alternativa: 𝑯𝑯𝟎𝟎: 𝜷𝜷𝒒𝒒+𝟏𝟏 = 𝜷𝜷𝒒𝒒+𝟐𝟐 = ⋯ = 𝜷𝜷𝒑𝒑 = 𝟎𝟎; 𝑯𝑯𝟏𝟏: 𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂 𝒖𝒖𝒂𝒂𝒂𝒂 𝒅𝒅𝒂𝒂𝒅𝒅 𝒄𝒄𝒂𝒂𝒂𝒂𝒄𝒄𝒄𝒄𝒅𝒅𝒄𝒄𝒅𝒅𝒂𝒂𝒂𝒂𝒄𝒄𝒅𝒅 𝜷𝜷𝒒𝒒+𝟏𝟏, 𝜷𝜷𝒒𝒒+𝟐𝟐, … , 𝜷𝜷𝒑𝒑 è 𝒅𝒅𝒅𝒅𝒅𝒅𝒂𝒂𝒅𝒅𝒅𝒅𝒂𝒂 𝒅𝒅𝒂𝒂 𝟎𝟎 L’ipotesi nulla indica che congiuntamente le variabili 𝒙𝒙𝒒𝒒+𝟏𝟏, 𝒙𝒙𝒒𝒒+𝟐𝟐, … , 𝒙𝒙𝒑𝒑, presenti nel modello completo e non in quello ridotto, non hanno alcun effetto suY (nell’ambito del modello che include già 𝒙𝒙𝟏𝟏, 𝒙𝒙𝟐𝟐, … , 𝒙𝒙𝒒𝒒)

Rifiutare l’ipotesi nulla significa quindi aver trovato evidenza che le

variabili 𝒙𝒙𝒒𝒒+𝟏𝟏, 𝒙𝒙𝒒𝒒+𝟐𝟐, … , 𝒙𝒙𝒑𝒑 hanno (insieme) effetto suY, quindi forniscono un contributo significativo (aggiuntivo rispetto a quello già dato da 𝒙𝒙𝟏𝟏, 𝒙𝒙𝟐𝟐, … , 𝒙𝒙𝒒𝒒) alla spiegazione di Y; in altri termini, che tali variabili 𝒙𝒙𝒒𝒒+𝟏𝟏, 𝒙𝒙𝒒𝒒+𝟐𝟐, … , 𝒙𝒙𝒑𝒑 sono congiuntamente significative. Quindi, rifiutare l’ipotesi nulla porta a scegliere (per studiareY nella popolazione) tra i due il modello completo; ecco il ruolo della procedura che stiamo introducendo nel problema di confronto tra modelli annidati. Per introdurre il test, facciamo un’osservazione preliminare (in parte già rilevata in precedenza). Ad ogni modello di regressione (indichiamolo sinteticamente con M) volto a spiegare Y sono associate due quantità:

  • devianza residua del modello M (che indichiamo con 𝑹𝑹𝑫𝑫𝑫𝑫. 𝑹𝑹𝑫𝑫𝑺𝑺𝑴𝑴)
  • gradi di libertà (qualche volta indicati come gradi di libertà residui) associati al modello M, che sono definiti come 𝒂𝒂 − 𝒑𝒑 − 𝟏𝟏, essendo 𝒂𝒂 l’ampiezza del campione usato per l’analisi e 𝒑𝒑 il numero di variabili esplicative di M Riprendiamo i due modelli considerati prima, 𝑴𝑴. 𝑹𝑹𝑹𝑹𝑹𝑹 e 𝑴𝑴. 𝑪𝑪𝑪𝑪𝑴𝑴𝑪𝑪 Il test è basato sul confronto tra le devianze residue dei due modelli, tenendo conto dei gradi di libertà di ciascuno dei due (quindi del numero di variabili esplicative presenti in ciascuno dei due). La statistica test ha infatti l’espressione seguente: (1) 𝑭𝑭 = (𝑹𝑹𝑫𝑫𝑫𝑫.𝑹𝑹𝑫𝑫𝑺𝑺𝑴𝑴.𝑹𝑹𝑹𝑹𝑹𝑹−𝑹𝑹𝑫𝑫𝑫𝑫.𝑹𝑹𝑫𝑫𝑺𝑺𝑴𝑴.𝑪𝑪𝑪𝑪𝑴𝑴𝑪𝑪)/(𝒑𝒑−𝒒𝒒) 𝑹𝑹𝑫𝑫𝑫𝑫.𝑹𝑹𝑫𝑫𝑺𝑺𝑴𝑴.𝑪𝑪𝑪𝑪𝑴𝑴𝑪𝑪/(𝒂𝒂−𝒑𝒑−𝟏𝟏) In altri termini, la statistica test è data dal rapporto tra la differenza tra le devianze residue dei due modelli divisa per la differenza tra i corrispondenti gradi di libertà e la devianza residua del modello completo divisa per i suoi gradi di libertà.

Naturalmente, la conclusione del test segue dal calcolo del valore 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅 ottenuto sostituendo nell’espressione della statistica F le quantità coinvolte rilevate nel campione e dal successivo confronto di tale valore con il quantile: se 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅 ≥ 𝑭𝑭𝒑𝒑−𝒒𝒒,𝒂𝒂−𝒑𝒑−𝟏𝟏,𝜶𝜶 si rifiuta l’ipotesi nulla a livello 𝜶𝜶 se 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅 < 𝑭𝑭𝒑𝒑−𝒒𝒒,𝒂𝒂−𝒑𝒑−𝟏𝟏,𝜶𝜶 non si rifiuta l’ipotesi nulla a livello 𝜶𝜶 Equivalentemente, come sempre, si può usare il p-value p − 𝒅𝒅𝒂𝒂𝒂𝒂𝒖𝒖𝒂𝒂 = 𝑪𝑪(𝑭𝑭 ≥ 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅|𝑯𝑯𝟎𝟎) e si rifiuta a livello 𝜶𝜶 se e solo se tale p-value è minore di 𝜶𝜶

OSSERVAZIONI

  • Il test descritto è noto come test F parziale (in quanto valuta la significatività di un gruppo di variabili, ed è basato su una statistica che ha distribuzione F di Fisher-Snedecor). Come caso particolare, questo test può servire per stabilire se una variabile qualitativa con k modalità distinte, che quindi entra nel modello con k-1 variabili dummy, è complessivamente significativa.
  • Come detto, il test serve per confrontare, a livello di popolazione (quindi mediante una procedura inferenziale), due modelli annidati; per modelli annidati è infatti questo lo strumento più corretto per il confronto, in quanto l’indice R^2 - adjusted effettua il confronto ad un livello puramente descrittivo. Naturalmente, quando si vogliono confrontare due modelli di regressione non annidati, il test F parziale non può essere utilizzato e l’unico confronto possibile è quello, descrittivo, basato sull’indice R^2 - adjusted. ESEMPIO (dataframe HE, nel file HOSPITAL.Rdata) Riprendiamo l’esempio relativo alla spiegazione delle spese ospedaliere, riferito al campione di 232 ricoveri effettuati da ospedali pubblici su cui si rilevano le variabili
  • hosp_exp (Y).… hospital expenses, spesa sostenuta dall’ospedale per la degenza del paziente
  • age…………...... età (in anni) del paziente ricoverato
  • days…..............numero di giorni di degenza del paziente
  • pat_cond….......patient’s condition, condizione medica del paziente, classificata secondo le modalità not serious (condizioni non gravi), average (media gravità) o severe (condizioni gravi)
  • surgery…..........variabile dummy con modalità yes (se il paziente ha subito un intervento chirurgico durante la degenza) o no (altrimenti) Consideriamo i modelli che hanno come variabile dipendente hosp_exp e come variabili esplicative rispettivamente age, days, pat_cond e surgery (lo indicheremo qui con MOD.A) e age e pat_cond solamente (lo indicheremo con MOD.B). Usiamo naturalmente per le variabili qualitative le scelte viste in precedenza (quelle fatte dal software) per la modalità di riferimento. MOD.A ha il ruolo di modello completo nella trattazione precedente , MOD.B quello di modello ridotto.

MOD.A (con 5 variabili esplicative, per cui p=5): 𝒀𝒀 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝒂𝒂𝒂𝒂𝒂𝒂 ⋅ 𝒂𝒂𝒂𝒂𝒂𝒂 + 𝜷𝜷𝒅𝒅𝒂𝒂𝒅𝒅𝒅𝒅 ⋅ 𝒅𝒅𝒂𝒂𝒅𝒅𝒅𝒅 + 𝜷𝜷𝒑𝒑𝒄𝒄.𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒂𝒂𝒂𝒂. ⋅ 𝒑𝒑𝒄𝒄. 𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒂𝒂𝒂𝒂 + 𝜷𝜷𝒑𝒑𝒄𝒄.𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂. ⋅ 𝒑𝒑𝒄𝒄. 𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂 +𝜷𝜷𝒅𝒅𝒖𝒖𝒅𝒅𝒂𝒂𝒂𝒂𝒅𝒅𝒅𝒅 ⋅ 𝒅𝒅𝒖𝒖𝒅𝒅𝒂𝒂𝒂𝒂𝒅𝒅𝒅𝒅 + 𝜺𝜺 MOD.B (con 3 variabili esplicative, per cui q=3): 𝒀𝒀 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝒂𝒂𝒂𝒂𝒂𝒂 ⋅ 𝒂𝒂𝒂𝒂𝒂𝒂 + 𝜷𝜷𝒑𝒑𝒄𝒄.𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒂𝒂𝒂𝒂. ⋅ 𝒑𝒑𝒄𝒄. 𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒂𝒂𝒂𝒂 + 𝜷𝜷𝒑𝒑𝒄𝒄.𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂. ⋅ 𝒑𝒑𝒄𝒄. 𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂𝒅𝒅𝒂𝒂 + 𝜺𝜺 Vogliamo confrontare, mediante un test di livello 0.01, i due modelli annidati. Vogliamo cioè verificare se days e surgery sono congiuntamente significative. Nella pagina seguente è riportata la funzione da usare e l’output relativo. **> MOD.A<-lm(hosp_exp~age+days+pat_cond+surgery,data=HE) > MOD.B<-lm(hosp_exp~age+pat_cond,data=HE) > anova(MOD.B,MOD.A) Analysis of Variance Table Model 1: hosp_exp ~ age + pat_cond Model 2: hosp_exp ~ age + days + pat_cond + surgery Res.Df RSS Df Sum of Sq F Pr(>F) 1 228 722637877 2 226 165863168 2 556774708 379.32 < 2.2e-16 ***

Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1** In pratica, costruiti i due modelli da confrontare, si usa la funzione (già vista) anova, con argomenti i due modelli, prima quello ridotto, poi quello completo. Nella slide seguente è riportata la descrizione dell’output. Nell’output vengono riportati:

  • nella prima colonna (Res.Df) i gradi di libertà di ciascuno dei due modelli, cioè n-q- 1 =232- 3 - 1=228 per il modello ridotto e n-p-1=232- 5 - 1=226 per quello completo
  • nella seconda colonna (RSS) la devianza residua del primo modello (quello ridotto), cioè 722637877 e la devianza residua del secondo modello (quello completo), cioè 165863168
  • nella terza colonna (Df) la differenza tra i gradi di libertà (o equivalentemente p- q), uguale a 2
  • nella quarta colonna (Sum of Sq) la differenza tra le devianze residue, pari a 556774708
  • Nella quinta colonna (F) il valore della statistica F (𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅 = 𝟑𝟑𝟑𝟑𝟑𝟑. 𝟑𝟑𝟐𝟐)
  • Nell’ultima colonna (Pr(>F)) il p-value del test F parziale (in questo caso praticamente nullo)

MODELLO DI

REGRESSIONE

LINEARE MULTIPLA

TEST F GLOBALE PER LA SIGNIFICATIVITA’

DELL’INTERO MODELLO

PREVISIONE E INTERVALLI DI PREVISIONE

INTRODUZIONE

  • Consideriamo ora il cosiddetto test F globale , il cui obiettivo è stabilire la significatività di un intero modello; ovvero, valutare se l’intero insieme di variabili esplicative presenti nel modello ha un effetto sulla variabile risposta (nella popolazione).
  • Dato un modello di regressione lineare multipla con p variabili esplicative, si tratta quindi di considerare il seguente sistema di ipotesi: 𝑯𝑯𝟎𝟎: 𝜷𝜷𝟏𝟏 = 𝜷𝜷𝟐𝟐 = ⋯ = 𝜷𝜷𝒑𝒑 = 𝟎𝟎; 𝑯𝑯𝟏𝟏: 𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂 𝒖𝒖𝒂𝒂𝒂𝒂 𝒅𝒅𝒂𝒂𝒅𝒅 𝒄𝒄𝒂𝒂𝒂𝒂𝒄𝒄𝒄𝒄𝒅𝒅𝒄𝒄𝒅𝒅𝒂𝒂𝒂𝒂𝒄𝒄𝒅𝒅 𝜷𝜷𝟏𝟏, 𝜷𝜷𝟐𝟐, … , 𝜷𝜷𝒑𝒑 è 𝒅𝒅𝒅𝒅𝒅𝒅𝒂𝒂𝒅𝒅𝒅𝒅𝒂𝒂 𝒅𝒅𝒂𝒂 𝟎𝟎 Come si vede dalle ipotesi, si può considerare questo problema come un caso particolare di quello precedente, ovvero come un confronto tra il modello in esame (quello con p variabili, che assume il ruolo di modello completo) ed il cosiddetto modello nullo (quello senza alcuna variabile esplicativa, con la sola intercetta, quindi con q=0, che assume il ruolo di modello ridotto). Il test si basa quindi sul confronto tra le devianze residue dei due modelli tenuto conto dei corrispondenti gradi di libertà. Si noti che il modello nullo, non avendo variabili esplicative, ha la devianza residua che coincide con quella totale, in quanto la devianza spiegata è ovviamente nulla. Si noti anche che la devianza totale di un modello dipende solo dai valori della variabile dipendente rilevati nel campione, non dipende dal particolare modello (cioè da quali siano le variabili esplicative incluse). Quindi, dato un campione, la devianza totale è la stessa per il modello nullo, per il modello completo o per qualunque altro modello.

MODELLO NULLO (senza variabili esplicative, quindi con n- 1 gradi di libertà) 𝒀𝒀 = 𝜷𝜷𝟎𝟎 + 𝜺𝜺 MODELLO IN ESAME (con p variabili esplicative, quindi con n-p- 1 gradi di libertà) (1) 𝒀𝒀 = 𝜷𝜷𝟎𝟎 + 𝜷𝜷𝟏𝟏𝒙𝒙𝟏𝟏 + ⋯ + 𝜷𝜷𝒑𝒑𝒙𝒙𝒑𝒑 + 𝜺𝜺 Dunque, considerato il modello (1) con p variabili di cui si vuole verificare la significatività e tenuto conto del fatto che il modello nullo ha devianza residua uguale alla devianza totale, la statistica test per questo problema è 𝑭𝑭 =

DEV.TOT è la devianza totale della variabile dipendente (che coincide come detto con la devianza residua del modello nullo) DEV.RES è la devianza residua del modello (1) in esame DEV.SP è la devianza spiegata del modello (1) in esame Sotto l’ipotesi nulla, la statistica test ha quindi distribuzione F di Fisher- Snedecor con p e n-p-1 gradi di libertà. La regione di rifiuto del test di livello 𝜶𝜶 è 𝑹𝑹𝜶𝜶: 𝑭𝑭 ≥ 𝑭𝑭𝒑𝒑,𝒂𝒂−𝒑𝒑−𝟏𝟏,𝜶𝜶 se 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅 ≥ 𝑭𝑭𝒑𝒑,𝒂𝒂−𝒑𝒑−𝟏𝟏,𝜶𝜶 si rifiuta l’ipotesi nulla a livello 𝜶𝜶 se 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅 < 𝑭𝑭𝒑𝒑,𝒂𝒂−𝒑𝒑−𝟏𝟏,𝜶𝜶 non si rifiuta l’ipotesi nulla a livello 𝜶𝜶 Equivalentemente, come sempre, si può usare il p-value p − 𝒅𝒅𝒂𝒂𝒂𝒂𝒖𝒖𝒂𝒂 = 𝑪𝑪(𝑭𝑭 ≥ 𝑭𝑭𝒂𝒂𝒅𝒅𝒅𝒅|𝑯𝑯𝟎𝟎) e si rifiuta l’ipotesi nulla a livello 𝜶𝜶 se e solo se tale p-value è minore di 𝜶𝜶. Rifiutare l’ipotesi nulla significa ritenere il modello (quello in esame, con p variabili esplicative) globalmente significativo; ovvero, ritenere le p variabili congiuntamente significative. Per questo il test è chiamato test F globale. In altri termini, significa ritenere il modello in esame preferibile al modello nullo.

ESEMPIO (dataframe HE, nel file HOSPITAL.Rdata) Riprendiamo l’esempio relativo alla spiegazione delle spese ospedaliere, riferito al campione di 232 ricoveri effettuati da ospedali pubblici su cui si rilevano le variabili

  • hosp_exp (Y).… hospital expenses, spesa sostenuta dall’ospedale per la degenza del paziente
  • age…………...... età (in anni) del paziente ricoverato
  • days…..............numero di giorni di degenza del paziente
  • pat_cond….......patient’s condition, condizione medica del paziente, classificata secondo le modalità not serious (condizioni non gravi), average (media gravità) o severe (condizioni gravi)
  • surgery…..........variabile dummy con modalità yes (se il paziente ha subito un intervento chirurgico durante la degenza) o no (altrimenti) Consideriamo il modello che ha come variabile dipendente hosp_exp e come variabili esplicative age, days, pat_cond e surgery (lo indichiamo come in precedenza con MOD.A). Vogliamo verificare se il modello è globalmente significativo. Il semplice summary applicato al modello ci fornisce la risposta. Infatti, nell’ultima riga dell’output presente nella slide successiva sono riportate le quantità di interesse relative al test F globale: - il valore osservato della statistica test F ( F-statistic: 178) - i gradi di libertà della sua distribuzione ( 5 and 226 DF) - il p-value del test ( p-value: < 2.2e-16) Dato il p-value, la conclusione è che il modello è globalmente significativo. **> MOD.A<-lm(hosp_exp~age+days+pat_cond+surgery,data=HE) > summary(MOD.A) Call: lm(formula = hosp_exp ~ age + days + pat_cond + surgery, data = HE) Residuals: Min 1Q Median 3Q Max
  • 2019.61 - 527.19 - 67.51 634.73 2052. Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 138.080 345.294 0.400 0. age 7.666 5.379 1.425 0. days 327.567 12.177 26.902 < 2e- 16 *** pat_condaverage 90.357 142.166 0.636 0. pat_condsevere 796.625 152.595 5.221 4.04e- 07 *** surgeryyes 765.114 139.451 5.487 1.10e- 07 ***

Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 856.7 on 226 degrees of freedom Multiple R-squared: 0.7975, Adjusted R-squared: 0. F-statistic: 178 on 5 and 226 DF, p-value: < 2.2e- 16** Infine, vogliamo prevedere/stimare le spese sostenute in media dall’ospedale per i pazienti di 60 anni, ricoverati per 8 giorni, che hanno subito un intervento chirurgico e che sono in condizione di media gravità (pat_cond=average) e completare la previsione con un intervallo al 90%. > predict(MOD.A,data.frame(age=60,days=8,pat_cond="average", surgery="yes"),interval="confidence", level=0.9) fit lwr upr 1 4074.054 3825.635 4322. La previsione è quindi 4074.054, l’intervallo al 90% è (3825.635, 4322.472).