



Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
appunti sulla regressione lineare e logistica
Tipologia: Appunti
1 / 5
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




Il modello di regressione lineare consente di analizzare la relazione causale tra una variabile dipendente quan�ta�va e una o più variabili indipenden� quan�ta�ve.
Nell’analisi della regressione semplice è possibile verificare se due variabili sono legate da una relazione di �po lineare e verificare la forza della relazione. La relazione lineare tra due variabili può essere descri�a dall’equazione della re�a:
Dove Y è la variabile dipendente (variabile endogena); X è la variabile indipendente (predi�ore o variabile esogena); mentre α e β sono parametri della popolazione che indicizzano la relazione tra le variabili e devono essere s�ma�. In par�colare, il parametro α viene de�a interce�a e rappresenta il valore previsto in Y quando X=0. Il β chiamato coefficiente di regressione, rappresenta il cambiamento in Y per ogni variazione unitaria della X ; è anche il coefficiente angolare della re�a che rappresenta meglio la relazione tra X e Y. Mentre (epsilon) è il termine d’errore rela�vo alla previsione della variabile dipendente.
Nella regressione mul�pla ci sono 2 o più variabili indipenden�. Quindi date k variabili indipenden�, l’equazione che descrive la relazione tra le variabili indipenden� e la variabile dipendente diventa:
Dove β 1 , β 2 , ….., β (^) k sono i coefficien� di regressione parziali e rifle�ono il fa�o che ognuno dei predi�ori
X 1 , X 2 , …., X (^) k considera� fornisce una spiegazione parziale della variabile dipendente Y.
Nella regressione il primo passo prevede la s�ma dei parametri. Nella pra�ca, i parametri della popolazione non sono sempre no�, in tal caso ii valori sono s�ma� considerando un numero finito di osservazioni, de�e osservazioni campionarie. Per formare un campione si usano delle specifiche tecniche di campionamento, che preme�ono al campione di rappresentare tu�e le cara�eris�che della popolazione. Per dis�nguere la regressione campionaria da quella della popolazione il modello di regressione viene scri�o usando le�ere la�ne al posto di quelle greche:
Per la s�ma dei parametri a e b (^) i (i=1, 2, …, k) il metodo più usato è il criterio dei minimi quadra� (OLS). Tale metodo pone come obie�vo di s�mare i parametri a e b (^) i in modo tale da minimizzare l’errore.
In termini matema�ci, l’OLS tende a minimizzare la sommatoria degli scar� della media al quadrato:.
Nella regressione semplice le formule per il calcolo dei parametri sono:
Nella regressione mul�pla le formule per il calcolo dei parametri richiedono l’algebra matriciale. Quando andiamo a calcolare delle s�me campionarie dei parametri è necessario conoscere l’effe�o dell’errore standard
(s (^) i) del coefficiente s�mato:
Dove: N è l’ampiezza campionaria; k è il numero di variabili indipenden� del modello; R (^2) i è la correlazione mul�pla al quadrato delle variabili indipenden� sulla variabile indipendente considerata.
Perché la s�ma dei parametri possa essere considerata robusta, l’OLS presuppone che alcune assunzioni siano verificate.
mul�collinearità è il VIF:. Quando il VIF=1 implica assenza di mul�collinearità, quando il VIF> implica presenza di mul�collinearità. R (^2) j è il coefficiente di determinazione che cara�erizza il modello in cui la variabile dipendete è X (^) j e tu�e le altre variabili esplica�ve incluse nel modello.
Un altro aspe�o molto importante per la valutazione del modello di regressione è la valutazione della bontà di ada�amento del modello, cioè la capacità del modello di migliorare la previsione della variabile Y, andando a confrontare il valore s�mato tramite il modello di regressione con il valore medio di Y. le sta�s�che maggiormente impiegate a tale scopo sono l’errore standard della s�ma e l’R 2.
L'errore standard della s�ma corrisponde all’errore standard dei residui:
L’R 2 esprime la parte di varianza della variabile dipendente spiegata a�raverso il modello. Per il calcolo della varianza si u�lizza il teorema della scomposizione della devianza, cioè la devianza totale è data dalla somma della devianza d’errore e della devianza dell’effe�o: SST = SSR + SSE. Nella regressione si assume che la somma dei quadra� totale (SST o devianza) è data da una componente di errore (SSR) e da una componente spiegata dalla regressione (SSE).
algebricamente l’equazione si scrive:. Dove la sommatoria degli scar� tra valori osserva� in Y e il valore medio di Y corrisponde alla devianza totale; la sommatoria degli scar� tra i valori osserva� in Y e valori s�ma� mediante la re�a di regressione corrisponde alla devianza non spiegata; e la sommatoria degli scar� tra i valori s�ma� mediante la regressione e il valore medio di Y corrisponde alla devianza spiegata dalla regressione.
L’R 2 viene s�mato con la seguente formula: ; varia sempre tra 0 e 1. Può essere interpretato come la percentuale di varianza della variabile dipendente spiegata dalle variabili indipenden� considerate nel modello. O anche come la percentuale di riduzione dell’errore nella previsione della variabile dipendente. l’R2 è dipendente dal campione ed è influenzato dal numero di predi�ori. Per poter confrontare 2 modelli di
regressione, basa� sugli stessi campioni, è necessario calcolare l’R 2 ”corre�o”: ; dove N è il numero di osservazioni e k è il numero di variabili indipenden� nel modello.
Per vedere se la previsione della variabile dipendente Y migliora significa�vamente il modello di regressione si pone a confronto la varianza spiegata dal modello (SSE) con la varianza non spiegata (SSR). Per la verifica delle ipotesi si u�lizza il test del rapporto tra le varianze che si distribuisce come la variabile causale F di Fischer:
valori matema�camente differen�. Quando la probabilità e quindi le frequenze rela�ve sono pari a 0.5, gli odds sono uguali ad 1, mentre i logit sono uguali a 0.
Per esprimere la relazione tra la variabile indipendente e la variabile dipendente in termini lineari possiamo par�re dall’assunzione che il valore a�eso della variabile dipendente è la probabilità: P(Y=1)=α+βX. Ma come sappiamo questo modello può assumere valori che vanno da -∞ a +∞. Allora, per risolvere questo problema andiamo ad applicare la trasformazione esponenziale al termine di destra della funzione, che diventa: P(Y=1)=e α+βX^. Questa trasformazione restringe i valori dell’equazione nel range [0; +∞]; quindi andiamo ad applicare una trasformazione logis�ca che consente di controllare i valori e restringerli nel range della probabilità
(0; 1):. Nel caso di variabili dicotomiche, l’odds diventa: -->
Infine, per le proprietà dei logaritmi (ln(e x)=x), se calcoliamo il logaritmo dell’odds osserviamo che il logaritmo naturale dell’odds di Y = 1 è funzione lineare della variabile X: ln(odds (^) Y=1 )=α+βX.
Applicando queste trasformazioni in una regressione mul�pla l’equazione tra le variabili X (^) k e Y diviene:
È importante so�olineare che la probabilità, l’odds e il logit sono tre differen� modi di esprimere esa�amente la stessa cosa. La trasformazione in logit serve solo a garan�re la corre�ezza matema�ca dell’analisi.
Le ipotesi di una regressione logis�ca sono meno restri�ve di quella lineare, l’unico vincolo importante è l’assenza di mul�collinearità tra le variabili esplica�ve.
Nella s�ma dei parametri della regressione logis�ca il metodo OLS non può essere applicato, si u�lizza il metodo di massima verosimiglianza (ML). Tale metodo si basa sulla massimizzazione della funzione di verosimiglianza che massimizza la probabilità di osservare l’insieme dei da� campionari estra� in funzione di β.
Nell’interpretazione del modello della regressione logis�ca ci si avvale di sta�s�che del tu�o simili alle sta�s�che che esprimono l’adeguatezza del modello nel riprodurre i da� osserva� nella regressione lineare (F e R2).
Similmente alla OSL, nella regressione logis�ca si u�lizza il LL come criterio per la scelta dei parametri del modello. In par�colare, si u�lizza il valore del LL mol�plicato per –2, e abbreviato come –2LL. Valori grandi e posi�vi indicano una bassa capacità di previsione del modello.
Nel modello con la sola interce�a il valore della sta�s�ca –2LL rappresenta quello che nella regressione lineare corrisponde alla devianza (SST) e può essere indicata come D 0 --> D 0 = -2*{nY=1 *ln[P(Y=1)]+nY=0 *ln[P(Y=0)]}. Dove n (^) Y=1 Intendiamo il numero di casi per i quali Y=1 e P(Y=1) la probabilità che Y=1 (vale lo stesso con Y=0). Nel modello che con�ene sia l’interce�a sia la/le variabile/i indipendente/i, il valore della sta�s�ca –2LL rappresenta la parte di variabilità dei da� che non viene spiegata dal modello (devianza d’errore) e viene indicata come D (^) M. Lo scarto tra D 0 e DM rappresenta la parte di variabilità spiegata dalle variabili indipenden� o variabilità spiegata dal
modello; e viene indicata come G (^) M : D 0 -D (^) M=G (^) M. GM viene anche chiamato Chi-quadrato del modello e indica la quan�tà di riduzione dell’errore dovuta al modello.
Per la s�ma del modello di regressione logis�ca andiamo a fare un test d’ipotesi, che ha come ipotesi nulla (H 0 ):
H 0 : β 1 =β 2 =….=β (^) n e come ipotesi alterna�va. Se GM è maggiore del valore del χ2 tabulato si rifiuta (con un determinato livello di probabilità α) l’ipotesi nulla e quindi almeno 1 parametro è diverso da zero. G è una sta�s�ca u�lizzata anche nei test per confrontare due modelli, dei quali uno con un so�oinsieme di variabili esplica�ve dell’altro. Per la bontà di ada�amento si valuta se G (^) M è significa�vo e se D (^) M non è significa�vo
Per la verifica della bontà di ada�amento del modello si usa l’indice di determinazione mul�plo (R 2 “corre�o”).
Nella regressione logis�ca R 2 si calcola tramite l’indice di Cox e Snell:. Poiché varia tra (se il modello s�mato non apporta informazione rispe�o a quello s�mato con la sola interce�a) e il suo valore
massimo è 1-[L(0)] 2/n. Per poter avere un indice che varia tra 0 e 1 si usa l’indice di Nagelkerke:
Per la verifica sulla significa�vità di ogni singolo parametro si usa il test di Wald, che ha come ipotesi:.
La sta�s�ca test di Wald che nel caso univariato: , dove al numeratore abbiamo la s�ma di massima
verosimiglianza di β e al denominatore l’errore standard di b. nel caso mul�variato: , dove B è il ve�ore delle s�me di massima verosimiglianza di β e V-1^ è la matrice inversa della matrice di varianza e covarianza dei coefficien�. Il test si distribuisce come una distribuzione chi-quadrato e se W è maggiore del valore chi- quadrato tabulato si rifiuta H 0.