Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Regressione lineare e logistica, Appunti di Statistica

appunti sulla regressione lineare e logistica

Tipologia: Appunti

2018/2019

Caricato il 25/06/2019

A.T.
A.T. 🇮🇹

1 documento

1 / 5

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Regressione Semplice e Mulpla
Il modello di regressione lineare consente di analizzare la relazione causale tra una variabile dipendente
quantava e una o più variabili indipenden quantave.
Nell’analisi della regressione semplice è possibile vericare se due variabili sono legate da una relazione di po
lineare e vericare la forza della relazione. La relazione lineare tra due variabili può essere descria
dall’equazione della rea:
Dove Y è la variabile dipendente (variabile endogena); X è la variabile indipendente (prediore o variabile
esogena); mentre α e β sono parametri della popolazione che indicizzano la relazione tra le variabili e devono
essere sma. In parcolare, il parametro α viene dea intercea e rappresenta il valore previsto in Y quando
X=0. Il β chiamato coeciente di regressione, rappresenta il cambiamento in Y per ogni variazione unitaria della
X; è anche il coeciente angolare della rea che rappresenta meglio la relazione tra X e Y. Mentre (epsilon) è il
termine d’errore relavo alla previsione della variabile dipendente.
Nella regressione mulpla ci sono 2 o più variabili indipenden. Quindi date k variabili indipenden, l’equazione
che descrive la relazione tra le variabili indipenden e la variabile dipendente diventa:
Dove β1, β2, ….., βk sono i coecien di regressione parziali e rieono il fao che ognuno dei prediori
X1, X2, …., Xk considera fornisce una spiegazione parziale della variabile dipendente Y.
Sma dei Parametri
Nella regressione il primo passo prevede la sma dei parametri. Nella praca, i parametri della popolazione non
sono sempre no, in tal caso ii valori sono sma considerando un numero nito di osservazioni, dee
osservazioni campionarie. Per formare un campione si usano delle speciche tecniche di campionamento, che
premeono al campione di rappresentare tue le caraerische della popolazione. Per disnguere la regressione
campionaria da quella della popolazione il modello di regressione viene scrio usando leere lane al posto di
quelle greche:
Per la sma dei parametri a e bi (i=1, 2, …, k) il metodo più usato è il criterio dei minimi quadra (OLS). Tale
metodo pone come obievo di smare i parametri a e bi in modo tale da minimizzare l’errore.
In termini matemaci, l’OLS tende a minimizzare la sommatoria degli scar della media al quadrato: .
Nella regressione semplice le formule per il calcolo dei parametri sono:
Nella regressione mulpla le formule per il calcolo dei parametri richiedono l’algebra matriciale. Quando
andiamo a calcolare delle sme campionarie dei parametri è necessario conoscere l’eeo dell’errore standard
(si) del coeciente smato:
Dove: N è l’ampiezza campionaria; k è il numero di variabili indipenden del modello; R2i è la correlazione
mulpla al quadrato delle variabili indipenden sulla variabile indipendente considerata.
Le Assunzioni dell’OLS
Perché la sma dei parametri possa essere considerata robusta, l’OLS presuppone che alcune assunzioni siano
vericate.
Tue le variabili indipenden (X) sono misurate su scala ad intervalli, a rappor o dicotomica, mentre la
variabile dipendente (Y) è connua e misurata su scala ad intervalli o a rappor. E tue le variabili sono
misurate senza errore
pf3
pf4
pf5

Anteprima parziale del testo

Scarica Regressione lineare e logistica e più Appunti in PDF di Statistica solo su Docsity!

Regressione Semplice e Mul�pla

Il modello di regressione lineare consente di analizzare la relazione causale tra una variabile dipendente quan�ta�va e una o più variabili indipenden� quan�ta�ve.

Nell’analisi della regressione semplice è possibile verificare se due variabili sono legate da una relazione di �po lineare e verificare la forza della relazione. La relazione lineare tra due variabili può essere descri�a dall’equazione della re�a:

Dove Y è la variabile dipendente (variabile endogena); X è la variabile indipendente (predi�ore o variabile esogena); mentre α e β sono parametri della popolazione che indicizzano la relazione tra le variabili e devono essere s�ma�. In par�colare, il parametro α viene de�a interce�a e rappresenta il valore previsto in Y quando X=0. Il β chiamato coefficiente di regressione, rappresenta il cambiamento in Y per ogni variazione unitaria della X ; è anche il coefficiente angolare della re�a che rappresenta meglio la relazione tra X e Y. Mentre (epsilon) è il termine d’errore rela�vo alla previsione della variabile dipendente.

Nella regressione mul�pla ci sono 2 o più variabili indipenden�. Quindi date k variabili indipenden�, l’equazione che descrive la relazione tra le variabili indipenden� e la variabile dipendente diventa:

Dove β 1 , β 2 , ….., β (^) k sono i coefficien� di regressione parziali e rifle�ono il fa�o che ognuno dei predi�ori

X 1 , X 2 , …., X (^) k considera� fornisce una spiegazione parziale della variabile dipendente Y.

S�ma dei Parametri

Nella regressione il primo passo prevede la s�ma dei parametri. Nella pra�ca, i parametri della popolazione non sono sempre no�, in tal caso ii valori sono s�ma� considerando un numero finito di osservazioni, de�e osservazioni campionarie. Per formare un campione si usano delle specifiche tecniche di campionamento, che preme�ono al campione di rappresentare tu�e le cara�eris�che della popolazione. Per dis�nguere la regressione campionaria da quella della popolazione il modello di regressione viene scri�o usando le�ere la�ne al posto di quelle greche:

Per la s�ma dei parametri a e b (^) i (i=1, 2, …, k) il metodo più usato è il criterio dei minimi quadra� (OLS). Tale metodo pone come obie�vo di s�mare i parametri a e b (^) i in modo tale da minimizzare l’errore.

In termini matema�ci, l’OLS tende a minimizzare la sommatoria degli scar� della media al quadrato:.

Nella regressione semplice le formule per il calcolo dei parametri sono:

Nella regressione mul�pla le formule per il calcolo dei parametri richiedono l’algebra matriciale. Quando andiamo a calcolare delle s�me campionarie dei parametri è necessario conoscere l’effe�o dell’errore standard

(s (^) i) del coefficiente s�mato:

Dove: N è l’ampiezza campionaria; k è il numero di variabili indipenden� del modello; R (^2) i è la correlazione mul�pla al quadrato delle variabili indipenden� sulla variabile indipendente considerata.

Le Assunzioni dell’OLS

Perché la s�ma dei parametri possa essere considerata robusta, l’OLS presuppone che alcune assunzioni siano verificate.

  • Tu�e le variabili indipenden� (X) sono misurate su scala ad intervalli, a rappor� o dicotomica, mentre la variabile dipendente (Y) è con�nua e misurata su scala ad intervalli o a rappor�. E tu�e le variabili sono misurate senza errore
  • Tu� i predi�ori rilevan� per la variabile dipendente sono sta� inseri� nell’analisi e nessun predi�ore irrilevante è stato inserito.
  • La forma della relazione tra variabili indipenden� (X) e dipenden� (Y) è lineare:
  • Il valore a�eso dell’errore è uguale a 0 ->
  • La varianza del termine d’errore è finita e costante per tu�e le variabili indipenden� (caso di omoschedas�cità)
  • Assenza di autocorrelazioni tra i termini dell’errore prodo� da ciascun predi�ore:
  • Gli errori sono distribui� normalmente per ogni gruppo di variabili indipenden�
  • Assenza di correlazione tra errori e predi�ori:
  • Assenza di perfe�a collinearità/mul�collinearità (si riferiscono alla correlazione tra le variabili indipenden�; la prima tra 2 variabili e la seconda fra 3 o più variabili), cioè nessuna delle variabili indipenden� deve essere una combinazione lineare perfe�a delle altre variabili indipenden� (quindi assenza di correlazione tra le variabili indipenden�). Un indice che ci perme�e di valutare la presenza di

mul�collinearità è il VIF:. Quando il VIF=1 implica assenza di mul�collinearità, quando il VIF> implica presenza di mul�collinearità. R (^2) j è il coefficiente di determinazione che cara�erizza il modello in cui la variabile dipendete è X (^) j e tu�e le altre variabili esplica�ve incluse nel modello.

La Valutazione del Fit del Modello

Un altro aspe�o molto importante per la valutazione del modello di regressione è la valutazione della bontà di ada�amento del modello, cioè la capacità del modello di migliorare la previsione della variabile Y, andando a confrontare il valore s�mato tramite il modello di regressione con il valore medio di Y. le sta�s�che maggiormente impiegate a tale scopo sono l’errore standard della s�ma e l’R 2.

L'errore standard della s�ma corrisponde all’errore standard dei residui:

L’R 2 esprime la parte di varianza della variabile dipendente spiegata a�raverso il modello. Per il calcolo della varianza si u�lizza il teorema della scomposizione della devianza, cioè la devianza totale è data dalla somma della devianza d’errore e della devianza dell’effe�o: SST = SSR + SSE. Nella regressione si assume che la somma dei quadra� totale (SST o devianza) è data da una componente di errore (SSR) e da una componente spiegata dalla regressione (SSE).

algebricamente l’equazione si scrive:. Dove la sommatoria degli scar� tra valori osserva� in Y e il valore medio di Y corrisponde alla devianza totale; la sommatoria degli scar� tra i valori osserva� in Y e valori s�ma� mediante la re�a di regressione corrisponde alla devianza non spiegata; e la sommatoria degli scar� tra i valori s�ma� mediante la regressione e il valore medio di Y corrisponde alla devianza spiegata dalla regressione.

L’R 2 viene s�mato con la seguente formula: ; varia sempre tra 0 e 1. Può essere interpretato come la percentuale di varianza della variabile dipendente spiegata dalle variabili indipenden� considerate nel modello. O anche come la percentuale di riduzione dell’errore nella previsione della variabile dipendente. l’R2 è dipendente dal campione ed è influenzato dal numero di predi�ori. Per poter confrontare 2 modelli di

regressione, basa� sugli stessi campioni, è necessario calcolare l’R 2 ”corre�o”: ; dove N è il numero di osservazioni e k è il numero di variabili indipenden� nel modello.

Per vedere se la previsione della variabile dipendente Y migliora significa�vamente il modello di regressione si pone a confronto la varianza spiegata dal modello (SSE) con la varianza non spiegata (SSR). Per la verifica delle ipotesi si u�lizza il test del rapporto tra le varianze che si distribuisce come la variabile causale F di Fischer:

valori matema�camente differen�. Quando la probabilità e quindi le frequenze rela�ve sono pari a 0.5, gli odds sono uguali ad 1, mentre i logit sono uguali a 0.

Per esprimere la relazione tra la variabile indipendente e la variabile dipendente in termini lineari possiamo par�re dall’assunzione che il valore a�eso della variabile dipendente è la probabilità: P(Y=1)=α+βX. Ma come sappiamo questo modello può assumere valori che vanno da -∞ a +∞. Allora, per risolvere questo problema andiamo ad applicare la trasformazione esponenziale al termine di destra della funzione, che diventa: P(Y=1)=e α+βX^. Questa trasformazione restringe i valori dell’equazione nel range [0; +∞]; quindi andiamo ad applicare una trasformazione logis�ca che consente di controllare i valori e restringerli nel range della probabilità

(0; 1):. Nel caso di variabili dicotomiche, l’odds diventa: -->

Infine, per le proprietà dei logaritmi (ln(e x)=x), se calcoliamo il logaritmo dell’odds osserviamo che il logaritmo naturale dell’odds di Y = 1 è funzione lineare della variabile X: ln(odds (^) Y=1 )=α+βX.

Applicando queste trasformazioni in una regressione mul�pla l’equazione tra le variabili X (^) k e Y diviene:

È importante so�olineare che la probabilità, l’odds e il logit sono tre differen� modi di esprimere esa�amente la stessa cosa. La trasformazione in logit serve solo a garan�re la corre�ezza matema�ca dell’analisi.

S�ma dei Parametri

Le ipotesi di una regressione logis�ca sono meno restri�ve di quella lineare, l’unico vincolo importante è l’assenza di mul�collinearità tra le variabili esplica�ve.

Nella s�ma dei parametri della regressione logis�ca il metodo OLS non può essere applicato, si u�lizza il metodo di massima verosimiglianza (ML). Tale metodo si basa sulla massimizzazione della funzione di verosimiglianza che massimizza la probabilità di osservare l’insieme dei da� campionari estra� in funzione di β.

Valutazione del Fit del Modello

Nell’interpretazione del modello della regressione logis�ca ci si avvale di sta�s�che del tu�o simili alle sta�s�che che esprimono l’adeguatezza del modello nel riprodurre i da� osserva� nella regressione lineare (F e R2).

Similmente alla OSL, nella regressione logis�ca si u�lizza il LL come criterio per la scelta dei parametri del modello. In par�colare, si u�lizza il valore del LL mol�plicato per –2, e abbreviato come –2LL. Valori grandi e posi�vi indicano una bassa capacità di previsione del modello.

Nel modello con la sola interce�a il valore della sta�s�ca –2LL rappresenta quello che nella regressione lineare corrisponde alla devianza (SST) e può essere indicata come D 0 --> D 0 = -2*{nY=1 *ln[P(Y=1)]+nY=0 *ln[P(Y=0)]}. Dove n (^) Y=1 Intendiamo il numero di casi per i quali Y=1 e P(Y=1) la probabilità che Y=1 (vale lo stesso con Y=0). Nel modello che con�ene sia l’interce�a sia la/le variabile/i indipendente/i, il valore della sta�s�ca –2LL rappresenta la parte di variabilità dei da� che non viene spiegata dal modello (devianza d’errore) e viene indicata come D (^) M. Lo scarto tra D 0 e DM rappresenta la parte di variabilità spiegata dalle variabili indipenden� o variabilità spiegata dal

modello; e viene indicata come G (^) M : D 0 -D (^) M=G (^) M. GM viene anche chiamato Chi-quadrato del modello e indica la quan�tà di riduzione dell’errore dovuta al modello.

S�ma del Modello

Per la s�ma del modello di regressione logis�ca andiamo a fare un test d’ipotesi, che ha come ipotesi nulla (H 0 ):

H 0 : β 1 =β 2 =….=β (^) n e come ipotesi alterna�va. Se GM è maggiore del valore del χ2 tabulato si rifiuta (con un determinato livello di probabilità α) l’ipotesi nulla e quindi almeno 1 parametro è diverso da zero. G è una sta�s�ca u�lizzata anche nei test per confrontare due modelli, dei quali uno con un so�oinsieme di variabili esplica�ve dell’altro. Per la bontà di ada�amento si valuta se G (^) M è significa�vo e se D (^) M non è significa�vo

Per la verifica della bontà di ada�amento del modello si usa l’indice di determinazione mul�plo (R 2 “corre�o”).

Nella regressione logis�ca R 2 si calcola tramite l’indice di Cox e Snell:. Poiché varia tra (se il modello s�mato non apporta informazione rispe�o a quello s�mato con la sola interce�a) e il suo valore

massimo è 1-[L(0)] 2/n. Per poter avere un indice che varia tra 0 e 1 si usa l’indice di Nagelkerke:

Verifica Significa�vità del Singolo Parametro

Per la verifica sulla significa�vità di ogni singolo parametro si usa il test di Wald, che ha come ipotesi:.

La sta�s�ca test di Wald che nel caso univariato: , dove al numeratore abbiamo la s�ma di massima

verosimiglianza di β e al denominatore l’errore standard di b. nel caso mul�variato: , dove B è il ve�ore delle s�me di massima verosimiglianza di β e V-1^ è la matrice inversa della matrice di varianza e covarianza dei coefficien�. Il test si distribuisce come una distribuzione chi-quadrato e se W è maggiore del valore chi- quadrato tabulato si rifiuta H 0.