Scarica Modello di regressione logit e più Tesi di laurea in PDF di Statistica Inferenziale solo su Docsity!
UNIVERSITÀ DEGLI STUDI DI SALERNO
Dipartimento di Scienze Economiche e Statistiche
Corso di Laurea Magistrale in Scienze Statistiche per la Finanza
Tesi in
Inferenza Statistica
Analisi delle carriere universitarie tramite il modello Logit: un approccio a dataset di grandi dimensioni
Relatore: Candidato:
Ch.ma Prof.ssa Marcella Niglio Nunzia Brancaccio
matr. 0222400747
ANNO ACCADEMICO 2022/
INDICE
- PREMESSA....................................................................................................................
- INTRODUZIONE..........................................................................................................
- CAPITOLO 1: Modelli lineari generalizzati................................................................
- 1.1 Learning Analytics........................................................................................
- 1.2 Cosa sono i big data?.....................................................................................
- 1.2.1 Le sei V dei Big Data.................................................................................
- 1.3 Modelli di regressione lineare..............................................................................
- 1.3.1 Tipi di modelli di regressione........................................................................
- 1.3.2 Modello di regressione lineare con residui normali....................................
- 1.3.3 Funzione di verosimiglianza.........................................................................
- 1.4 Modelli lineari generalizzati..............................................................................
- 1.4.1 Famiglia esponenziale.................................................................................
- 1.4.2 Componenti dei modelli lineari generalizzati............................................
- 1.4.4 Devianza e bontà di adattamento...............................................................
- 1.4.5 Residui..........................................................................................................
- CAPITOLO 2: Il modello di regressione logistica.....................................................
- 2.1 Genesis
- 2.1.1 Odds.............................................................................................................
- 2.2 Il modello............................................................................................................
- 2.2.1 Interpretazione dei parametri....................................................................
- 2.2.2 La funzione di verosimiglianza...................................................................
- 2.2.3 Stima dei parametri.....................................................................................
- 2.3 Bontà di adattamento.........................................................................................
- 2.4 Test sulla significatività dei predittori...............................................................
- 2.5 Previsioni.............................................................................................................
- 2.5.1 Curva ROC..................................................................................................
- CAPITOLO 3: Analisi della Performance Accademica tramite Regressione Logit..........
- 3.1 Introduzione........................................................................................................
- 3.2 Analisi esplorativa dei dati.................................................................................
- 3.2.1 Anno accademico 2018/2019...........................................................................
- 3.2.1.1 Analisi studenti iscritti ad ogni corso di studio...........................................
- 3.2.1.2 Analisi iscritti maschi e femmine ai vari corsi di studi...........................
- 3.2.1.3 Analisi del punteggio ottenuto al TOLC d’ingresso...............................
- 3.2.1.4 Analisi CFU conseguiti.............................................................................
- 3.2.1.5 Analisi dell’attribuzione dell’OFA...........................................................
- 3.2.1.6 Analisi della media degli esami................................................................
- 3.2.2 Anno accademico 2019/2020.......................................................................
- 3.2.2.1 Analisi studenti iscritti ad ogni corso di studio.......................................
- 3.2.2.2 Analisi iscritti maschi e femmine ai vari corsi di studi...........................
- 3.2.2.3 Analisi del punteggio ottenuto al TOLC d’ingresso...............................
- 3.2.2.4 Analisi CFU conseguiti.............................................................................
- 3.2.2.5 Analisi dell’attribuzione dell’OFA...........................................................
- 3.2.2.6 Analisi della media degli esami................................................................
- 3.2.3 Anno accademico 2020/2021.......................................................................
- 3.2.3.1 Analisi studenti iscritti ad ogni corso di studio.......................................
- 3.2.3.2 Analisi iscritti maschi e femmine ai vari corsi di studi...........................
- 3.2.3.3 Analisi del punteggio ottenuto al TOLC d’ingresso...............................
- 3.2.3.4 Analisi CFU conseguiti.............................................................................
- 3.2.3.5 Analisi dell’attribuzione dell’OFA...........................................................
- 3.2.3.6 Analisi della media degli esami................................................................
- 3.2.4 Anno accademico 2021/2022.......................................................................
- 3.2.4.1 Analisi studenti iscritti ad ogni corso di studio.......................................
- 3.2.4.2 Analisi iscritti maschi e femmine ai vari corsi di studi...........................
- 3.2.4.3 Analisi del punteggio ottenuto al TOLC d’ingresso...............................
- 3.2.4.4 Analisi CFU conseguiti.............................................................................
- 3.2.4.5 Analisi dell’attribuzione dell’OFA...........................................................
- 3.2.4.6 Analisi della media degli esami................................................................
- 3.2.5 Analisi comparativa.....................................................................................
- 3.2.6 Analisi esplorativa della variabile d’interesse...........................................
- 3.2.6.1 Correlazione tra le variabili quantitative...............................................
- 3.3 Modello Logit...................................................................................................... - 3.3.1 Anno accademico 2018/2019.......................................................................
- Commercio............................................................................................................... 3.3.1.1 Implementazione modello logit per il corso di studio Economia e
- 3.3.1.2 Confronto tra i modelli.............................................................................
- 3.3.1.3 Interpretazione dei coefficienti................................................................
- Aziendale.................................................................................................................. 3.3.1.4 Implementazione modello logit per il corso di studio Economia
- 3.3.1.5 Confronto tra i modelli.............................................................................
- 3.3.1.6 Interpretazione dei coefficienti................................................................
- Data.......................................................................................................................... 3.3.1.7 Implementazione modello logit per il corso di studio Statistica per i Big
- 3.3.1.8 Confronto tra i modelli.............................................................................
- 3.3.1.9 Interpretazione dei coefficienti................................................................
- 3.3.2 Anno accademico 2019/2020.......................................................................
- Commercio............................................................................................................... 3.3.2.1 Implementazione modello logit per il corso di studio Economia e
- 3.3.2.2 Confronto tra i modelli.............................................................................
- 3.3.2.3 Interpretazione dei coefficienti................................................................
- Aziendale.................................................................................................................. 3.3.2.4 Implementazione modello logit per il corso di studio Economia
- 3.3.2.5 Confronto tra i modelli.............................................................................
- 3.3.2.6 Interpretazione dei coefficienti................................................................
- Data.......................................................................................................................... 3.3.2.7 Implementazione modello logit per il corso di studio Statistica per i Big
- 3.3.2.8 Confronto tra i modelli.............................................................................
- 3.3.2.9 Interpretazione dei coefficienti................................................................
- 3.3.3 Anno accademico 2020/2021.......................................................................
- Commercio............................................................................................................... 3.3.3.1 Implementazione modello logit per il corso di studio Economia e
- 3.3.3.2 Confronto tra i modelli.............................................................................
- 3.3.3.3 Interpretazione dei coefficienti................................................................
- Aziendale.................................................................................................................. 3.3.3.4 Implementazione modello logit per il corso di studio Economia
- 3.3.3.5 Confronto tra i modelli.............................................................................
- 3.3.2.6 Interpretazione dei coefficienti................................................................
- Data.......................................................................................................................... 3.3.3.7 Implementazione modello logit per il corso di studio Statistica per i Big
- 3.3.3.8 Confronto tra i modelli.............................................................................
- 3.3.3.9 Interpretazione dei coefficienti................................................................
- 3.3.4 Anno accademico 2021/2022.......................................................................
- Commercio............................................................................................................... 3.3.4.1 Implementazione modello logit per il corso di studio Economia e - 3.3.4.2 Confronto tra i modelli............................................................................. - 3.3.4.3 Interpretazione dei coefficienti................................................................ - Aziendale.................................................................................................................. 3.3.4.4 Implementazione modello logit per il corso di studio Economia - 3.3.4.5 Confronto tra i modelli............................................................................. - 3.3.4.6 Interpretazione dei coefficienti.............................................................. - Data........................................................................................................................ 3.3.4.7 Implementazione modello logit per il corso di studio Statistica per i Big - 3.3.4.8 Interpretazione dei coefficienti..............................................................
- 3.4 Previsioni........................................................................................................... - 3.4.1 Anno accademico 2018/2019..................................................................... - 3.4.1.1 Previsioni per il corso di studio di Economia e Commercio................ - 3.4.1.2 Previsioni per il corso di studio di Economia Aziendale...................... - 3.4.1.3 Previsioni per il corso di studio di Statistica per i Big Data................ - 3.4.2 Anno accademico 2019/2020...................................................................... - 3.4.2.1 Previsioni per il corso di studio di Economia e Commercio................ - 3.4.2.2 Previsioni per il corso di studio di Economia Aziendale...................... - 3.4.2.3 Previsioni per il corso di studio di Statistica per i Big Data................. - 3.4.3 Anno accademico 2020/2021...................................................................... - 3.4.3.1 Previsioni per il corso di studio di Economia e Commercio................ - 3.4.3.2 Previsioni per il corso di studio di Economia Aziendale...................... - 3.4.3.3 Previsioni per il corso di studio di Statistica per i Big Data................ - 3.4.4 Anno accademico 2021/2022..................................................................... - 3.4.4.1 Previsioni per il corso di studio di Economia e Commercio................ - 3.4.3.2 Previsioni per il corso di studio di Economia Aziendale...................... - 3.4.4.3 Previsioni per il corso di studio di Statistica per i Big Data................
- 3.5 Sintesi dei risultati............................................................................................
- CONCLUSIONI.........................................................................................................
- BIBLIOGRAFIA........................................................................................................
INTRODUZIONE
La crescente disponibilità dei dati e l’avvento delle tecnologie digitali hanno trasformato il modo in cui raccogliamo, analizziamo e utilizziamo le informazioni. Questa rivoluzione dei dati ha dato origine a un campo di ricerca interdisciplinare noto come “Learning Analytics” che combina l’analisi dei dati con l’istruzione e l’apprendimento. Esso si focalizza sull’uso delle tecnologie digitali e degli strumenti analitici avanzati per raccogliere, analizzare e interpretare i dati relativi all’apprendimento al fine di ottenere una migliore comprensione dei processi di insegnamento e apprendimento. L’obiettivo principale di Learning Analytics è quello di guidare e migliorare le decisioni educative, sia a livello individuale che istituzionale. Il presente elaborato è frutto di un’attività di tirocinio extracurriculare svolta presso lo StatLab dell’Università degli Studi di Salerno utilizzando dati reali relativi alle carriere degli studenti forniti da AlmaLaurea. In particolare, l’attenzione è stata posta sugli studenti iscritti al primo anno di tre corsi di studio: Economia e Commercio, Economia Aziendale e Statistica per i Big Data, prendendo in considerazione quattro anni accademici: 2018/2019, 2019/2020, 2020/2021, 2021/2022. Il progetto mira a sfruttare a pieno il potenziale del Learning Analytics per raggiungere obiettivi strategici all’interno dell’ambito accademico. Nel primo capitolo dell’elaborato, dopo un breve excursus sul Learning Analytics e sua stretta correlazione con i Big Data, è stato approfondito il tema dei Modelli Lineari Generalizzati e la loro rilevanza nell’analisi delle carriere degli studenti dell’Università degli Studi di Salerno. I Modelli Lineari Generalizzati costituiscono un approccio statistico ampiamente utilizzato per analizzare dati complessi e variabili consentendo una comprensione approfondita delle dinamiche accademiche e delle performance degli studenti. Il secondo capitolo è incentrato sull’approfondimento del Modello di Regressione Logistica adatto all’analisi della nostra variabile d’interesse. Infatti, quest’ultima è una variabile dicotomica che codifica con 1 (buona performance) lo studente che ha conseguito 40 o più CFU, con 0 altrimenti. La variabile d’interesse è stata costruita sulla base di soglie imposte dall’ANVUR (Agenzia Nazionale di Valutazione del Sistema Universitario e della Ricerca) riguardanti il numero minimo di CFU che gli studenti devono conseguire entro il primo anno di corso al fine di garantire una progressione adeguata nel percorso di studio e di valutare la regolarità dell’andamento della carriera universitaria. Nell’ultimo capitolo si è concretizzato nella pratica quanto discusso teoricamente nei primi due capitoli. Esso è stato redatto tramite il linguaggio di programmazione R e si apre con un’analisi esplorativa dei dati relativa agli studenti oggetto di indagine. La fase di analisi esplorativa dei dati è stata fondamentale per ottenere una visione completa della situazione accademica. Successivamente si è proceduto con l’implementazione del modello di Regressione Logistica per ciascun corso di studio e per gli anni accademici presi in esame. I risultati hanno fornito informazioni sulla relazione tra le variabili dipendenti e la probabilità di successo accademico degli studenti. Infine, sono state effettuate previsioni sui modelli implementati, consentendo di stimare l’esito delle performance accademiche degli studenti. Il Codice R scritto per l'analisi dei dati è reso disponibile dall'autrice della tesi alla quale se ne può fare richiesta.
CAPITOLO 1
Modelli lineari generalizzati
1.1 Learning Analytics Negli ultimi decenni, il Learning Analytics è stato interpretato come uno dei trend di maggiore importanza nell'ambito dell'istruzione universitaria e hanno attratto l'attenzione di ricercatori per il loro potenziale nell'affrontare alcune delle principali sfide all'interno delle istituzioni accademiche (Bach, 2010). Il Learning Analytics (LA) si occupa di misurare, raccogliere e analizzare i dati degli studenti e dei loro contesti, per ottimizzare l'apprendimento e gli ambienti in cui esso si verifica (Ebner K , 2016). Il metodo LA utilizza big data raccolti da scuole, università, fonti online, governi e altri istituti di istruzione. Queste massicce fonti di dati, se estratte, forniscono una grande opportunità per migliorare i risultati scolastici. Tra i vari dati educativi raccolti, assumono rilievo i seguenti: Sondaggi di feedback degli studenti : i dati dei sondaggi degli studenti e dei laureati possono essere estremamente preziosi nel modo in cui gli istituti scolastici valutano le prestazioni degli insegnanti, affrontano le aree problematiche e migliorano la soddisfazione degli studenti. Dati sulle ammissioni : le università sono spesso interessate al numero di iscritti che ricevono, alla percentuale che viene accettata e a quanti studenti accettati frequentano. Voti degli esami : da un livello di rendimento di base, quali tendenze possono osservare gli educatori nei voti degli esami come risultato di diverse strategie di apprendimento. Tassi di laureati : i tassi di laureati sono anche spesso utilizzati come base per consentire alle istituzioni di capire le loro prestazioni da un alto livello. Coinvolgimento degli studenti : quali sono i contenuti che coinvolgono maggiormente gli studenti e come i contenuti educativi possono essere migliorati per aumentare tale coinvolgimento. Dunque, il metodo LA fa ampio utilizzo dei big data. I database degli atenei, infatti, ogni giorno accumulano una quantità crescente di dati sugli studenti, dati personali, informazioni di sistema e informazioni sul percorso accademico (Mazza M. & Milani A.,
- Anche se le capacità di tracciare gli studenti sono in genere incluse tra le funzionalità generiche di molti software in uso negli atenei, le funzionalità di estrazione e aggregazione, di reporting e di visualizzazione di questi strumenti di analisi sono spesso di base o inesistenti (Dawson C., 2009). Può dunque accadere, non così raramente, che le
Varietà I dati raccolti di diversa natura possono essere strutturati e non strutturati. Le raccolte dati sono state estese a nuove fonti, che non provengono necessariamente dalle operazioni interne dell’azienda, ma che derivano da Internet, come testi, pagine Web, immagini e video, senza tralasciare le informazioni che derivano dai dispositivi multi-connessi comunemente definiti come Internet of Things. La varietà rappresenta dunque il bisogno di analizzare i dati a partire da fonti e formati diversi. Il principale problema statistico, in questo caso, riguarda: La mancanza di omogeneità, richiesta invece dalla gran parte della modellizzazione statistica. Velocità I dati sono ricevuti ad un’alta velocità tramite strumentazione a funzionamento continuo (IoT). L’utilizzo di questi necessita di un’alta velocità durante la fase del processo di “data transfer”, in questo modo i dati potranno essere processati in maniera quasi istantanea garantendo un’elevata funzionalità. Ottenere un vantaggio competitivo, infatti, significa identificare un’opportunità in minuti o anche a volte qualche secondo prima della concorrenza. Tra i problemi statistici, il più rilevante è: La necessità di metodi di analisi sequenziali o online e metodi di inferenza che possono essere calcolati rapidamente, che si adattano ripetutamente ai dati continuamente ricevuti. Veridicità Il riferimento è alla qualità dei dati. I dati provengono da tante fonti diverse, raccolti in punti temporali diversi utilizzando diverse tecnologie. Risulta difficile collegare, abbinare, pulire e trasformare i dati tra i sistemi. La veridicità indica quindi il livello di affidabilità o inaffidabilità dei dati. Numerosi i problemi statistici: Scarsa qualità dei dati; Segnali deboli: il rapporto segnale/disturbo è basso; Eterogeneità: le fonti di dati possono corrispondere a diverse sottopopolazioni in cui ogni sottopopolazione presenta alcune caratteristiche uniche non condivise da altri. Variabilità La variabilità rappresenta possibili cambiamenti nella velocità del flusso, nel formato, o nel volume, all’interno di un sotto-insieme di dati, che può portare alla necessità di ristrutturare completamente le architetture, gli algoritmi, le tecniche di integrazione e archiviazione. La variabilità dei volumi di dati implica la necessità di aumentare o ridurre le risorse per gestire in modo efficiente il carico di elaborazione. Valore Considerato l’aspetto più importante dei big data e si riferisce al processo di individuazione di un elevato valore nascosto all’interno di un gran numero di dati, diversi e in rapida crescita. È fondamentale quindi valutare la veridicità e la qualità dei dati affinché possano effettivamente generare nuovo valore. Al fine di ricavare informazioni da enormi mole di dati e per poter quindi assumere decisioni, si ritiene necessario effettuare un’analisi dei dati. Dopo aver raccolto i dati,
importati nello stem di analisi, elaborati provando delle diverse trasformazioni (principalmente utilizzando qualche tipo di aggregazione) e visualizzati per scoprire relazioni e tendenze, è utile adattare a questi un modello statistico per avere una visione più approfondita. 1.3 Modelli di regressione lineare Dato un insieme di variabili, in molte applicazioni si è interessati allo studio di una variabile dipendente che si cercherà di descrivere attraverso il comportamento di una o più variabili indipendenti. La prima rappresenta la variabile risposta, mentre le seconde prendono il nome di variabili esplicative. Lo scopo dei modelli di regressione è quello di spiegare se e come il comportamento di un gruppo di variabili (covariate o variabili indipendenti) influisce su una variabile di interesse (variabile risposta o dipendente). Assumendo che la relazione sia di tipo lineare:
Y = β 0 + β 1 X 1 + β 2 X 2 + … + βp X p
Dove β 0 ,^ β 1 ,^ …^ ,^ β^ p , sono i parametri (o coefficienti) del modello, in particolare:
β 0 è l’intercetta, rappresenta il valore atteso della Y quando tutte le
variabili esplicative sono pari a 0;
β^ j per^ j =^1 ,^ …^ ,^ p^ è il coefficiente angolare di X^ j , rappresenta la
variazione attesa della Y quando a X^ j varia di una unità, a parità di altre
condizioni. Nella pratica la relazione non è sempre esatta per diversi motivi:
- La relazione potrebbe non essere lineare;
- Potrebbero esserci altre variabili che influiscono su Y;
- Ci potrebbero essere errori di misurazione delle variabili.
Dunque, si ritiene necessario aggiungere un termine di errore ( ε ):
Y = β 0 + β 1 X 1 + β 2 X 2 + … + βp X p + ε
Date n osservazioni sulla variabile Y e sulle variabili esplicative X^ j , il modello di
regressione lineare può essere espresso in forma matriciale. Siano:
Y^ il vettore colonna di n elementi relativo alle osservazioni sulla variabile
dipendente;
β =( β 0 ,^ β 1 ,…^ ,^ β^ p )^ il vettore colonna di p + 1 elementi relativo ai
parametri del modello;
ε il vettore colonna di n elementi dei termini di errore;
X la matrice n × ( p + 1 ) dove la prima colonna è un vettore colonna di
elementi pari ad 1 (corrispondenti all’intercetta), le restanti p colonne sono altrettanti vettori colonna ciascuno relativo alle n osservazioni sulla
corrispondente variabile esplicativa con n > p + 1
Le ultime due condizioni possono essere espresse in termini matriciali come
Cov ( ε )= E ( ε ε
T
2
In
Si introduce un’ulteriore assunzione per la distribuzione dell’errore, ai fini inferenziali:
4. ε i N ( 0 , σ
2
In notazione matriciale si ha che E ( Y )= Xβ , quindi:
Y N ( Xβ ,σ
2
1.3.1 Tipi di modelli di regressione........................................................................
Modellazione lineare semplice Lo scopo è quello di spiegare una variabile osservata Y con una singola altra variabile osservata X.
Y = β 0 + β 1 X 1 + ε
Modellazione lineare multipla In questo caso la variabile risposta è spiegata da più variabili esplicative
Y = β 0 + β 1 X 1 + β 2 X 2 + … + βp X p + ε
Modellazione lineare classica C'è un sottile cambiamento concettuale in cui la risposta Y è sostituita dal suo valore atteso (condizionale)
E ( Y ∨ X 1 , X 2 ,… , X p )= β 0 + β 1 X 1 + β 2 X 2 + … + βp X p
Modellazione lineare generalizzata Con lo scopo di modellare alcune trasformazioni non lineari del valore atteso condizionale g { E (^) ( Y | X 1 , X 2 , … , X (^) p ) }= β 0 + β 1 X 1 + β 2 X 2 + … + β (^) p X (^) p Il modello lineare classico costituisce la base della modellazione lineare generalizzata e una comprensione approfondita è fondamentale per una buona comprensione dei modelli lineari generalizzati (GLM). Molti dei concetti di regressione trovati nei GLM hanno la loro genesi nel modello lineare normale, e quindi sono trattati nel seguito. 1.3.2 Modello di regressione lineare con residui normali Il modello di regressione lineare con residui normali rappresenta la base per lo sviluppo di modelli più complessi, i modelli lineari generalizzati. Il modello è caratterizzato da tre assunzioni:
1. Componente aleatoria : La variabile casuale Y^ i si distribuisce come
Y i N ( μi , σi
2
) con σ i
2
> 0 ignoto, i =^1 ,^ …^ ,^ n
Con tale assunzione si specifica anche la distribuzione degli errori casuali
ei ,… , en , anch'essi indipendenti con media nulla e varianza costante σ^2 , con
2
ei N ( 0 , σ
2
2. Omoschedasticità: var ( ei ) = var ( Y i ) = σ
2
per ognii
- Componente deterministica : Si assume che la risposta casuale sia legata alle covariate dalla seguente relazione lineare
μi = E ( Y i ) = β 1 Xi 1 + β 2 Xi 2 + … + β p Xip i = 1 , … , n
con β i coefficienti di regressione.
Per n osservazioni, indicando con xij il valore assunto per la j-esima variabile esplicativa
per l’i-esimo soggetto, con i = 1 , … , n e j = 1 , … p , , la matrice di disegno X, non
stocastica e a rango pieno, è data da
X =
(
x 11 x 12 ⋯ x 1 p
x 21 x 22 ⋯ x 2 p
xn 1 xn 2 ⋯ xnp
)
Allora
Y Nn ( Xβ ,σ
2
In )
Con E^ ( Y^ i ) = μi = ηi = xi β^ ,^ Var ( Y i )= σ
2
> 0 e I^ n matrice identità avente n righe.
1.3.3 Funzione di verosimiglianza
Il vettore dei parametri è θ =( β 1 ,… , β p , σ^2 ) ∈Θ = R p^ × ¿ 0 , + ∞ ¿ La funzione di
verosimiglianza: L ( θ )=∏ i = 1 n
√^2 π^ σ 2 exp^ {
2 (^ yi − β^1 xi^^1 − β^2 xi^^2 − … − β^ p^ xip^ )
2 }
∝ (^ σ
− n 2
exp
{
2 ∑ i = 1 n
( yi − β 1 xi 1 − β 2 xi 2 − … − β^ p xip )
2 }
Utilizzando la rappresentazione matriciale del modello, posto μ =^ Xβ = β 1 x 1 + … +^ β^ p x^ p
la log-verosimiglianza per θ =( β , σ^2 ) è
l ( β , σ
2
− n
log σ
2
2 (^ Y^ −^ Xβ )
T
( Y − Xβ )(1.1)
di normalità. Una tecnica utilizzata in questo caso è quella in cui si trasforma la variabile risposta y mediante una trasformazione non lineare in modo tale da ricondurla a una distribuzione normale (Box-Cox, 1964). Tuttavia, questo metodo non è sempre applicabile, in particolare quando y è una variabile discreta. Il ricorso alla famiglia dei modelli lineari generalizzati consente di porre rimedio agli scostamenti dell’ipotesi di normalità, omoschedasticità e di linearità tra media della variabile risposta e le variabili esplicative. La classe dei modelli lineari generalizzati, pur non essendo enormemente ampia da un punto di vista prettamente matematico, è tuttavia sufficientemente flessibile da incorporare un grande numero di applicazioni rilevanti per le applicazioni pratiche I modelli lineari generalizzati per risposte univariate rappresentano un’estensione del modello di regressione lineare normale. In particolare, si assume che ogni componente del vettore della variabile risposta y abbia distribuzione appartenente alla famiglia esponenziale e che una funzione del valore atteso della risposta sia funzione lineare delle variabili esplicative.
1.4.1 Famiglia esponenziale.................................................................................
Nei GLM si assume che la funzione di densità o distribuzione di probabilità della variabile risposta y appartenga ad un modello parametrico a sua volta incluso in una più ampia classe, la classe delle famiglie di dispersione esponenziale (ED) (Nelder e Wedderbun, 1972). Diverse distribuzioni, sia discrete che continue, possono essere ottenute come caso particolare della distribuzione appartenente alla famiglia esponenziale. La distribuzione di una variabile casuale Y appartiene alla famiglia esponenziale se la sua funzione di densità o distribuzione di probabilità è data da: f ( y ) =exp (^) {
yθ − a ( θ )
φ }
c ( y , φ ) y ∈ S ⊆ R
Dove: θ è il parametro canonico a valori reali; φ è il parametro di dispersione ;
a ( ∙ ) è una funzione convessa monotona in θ;
c ( ∙ )è una funzione di normalizzazione positiva non dipendente da θ.
La media delle distribuzioni ED può essere espressa come funzione di a ( θ ):
μ = E ( Y )= a ˙ ( θ )
dove, in particolare:
a ˙ ( θ )=
a ( θ )
La varianza delle distribuzioni ED può essere espressa come funzione di a ( θ ):
var ( Y )= φ a ¨ ( θ ) a ¨ (^ θ )=
2
2 a ( θ )
Cambiando θ e a ( θ ) possono essere derivate la maggior parte delle distribuzioni più
note (siano esse discrete o continue) come casi speciali della famiglia ED. Per la famiglia ED
a ¨ ( θ )=
∂ a ˙( θ )
≡V ( μ )
V ( μ ) è chiamata funzione di varianza e indica la relazione tra la media e la varianza.
Poiché
var ( Y )= φ a ¨ ( θ )
Allora
var ( Y )= φV ( μ )
I modelli lineari generalizzati differiscono dai modelli di regressione ordinari per due importanti aspetti: la distribuzione della variabile risposta appartiene alla famiglia ED. Pertanto, non deve essere necessariamente normale o vicino alla normalità; la media della risposta viene trasformata (non linearmente) e poi collegata linearmente ai predittori esplicativi. Una conseguenza del fatto che la variabile risposta sia un membro della famiglia ED è che la risposta può essere, e spesso lo è, eteroschedastica. Quindi la varianza varierà con la media, che a sua volta può variare con le variabili esplicative. Ciò contrasta con l’ipotesi di omoschedasticità della regressione normale.
1.4.2 Componenti dei modelli lineari generalizzati............................................
Dato un insieme di variabili esplicative e una variabile di risposta Y , un modello lineare generalizzato è definito da tre componenti:
- Una componente casuale che specifica una distribuzione per la variabile
risposta Y. L’obiettivo dell’analisi è stimare μ ovvero μ = E ( y ∨ x ).
2. Una componente sistematica che mette in relazione un parametro η con
l’insieme dei predittori, ciò avviene tramite η = x ' β
- Una componente di collegamento che lega le componenti casuali e sistematiche attraverso una funzione di collegamento g. In particolare, questa funzione di collegamento fornisce una connessione tra μ, la
media di y ∨ x , e η
g ( μ )= η
La funzione di collegamento g ( μ ) non è soggetta a speciali restrizioni e può essere
scelta in molti modi diversi. Esiste tuttavia una scelta che gode di particolari proprietà; essa è data da:
g ( μi )= θi → ηi = θi