Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Modello di Regressione, Appunti di Statistica Inferenziale

Teoria modello regressione trattato durante il corso di Ricerche di Mercato

Tipologia: Appunti

2019/2020

In vendita dal 03/11/2020

Marshmallow20
Marshmallow20 🇮🇹

4.4

(45)

23 documenti

1 / 13

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Modello -> è uno schema teorico in base al quale sono verificabili
tutte le relazioni e le ipotesi proprie di una teoria. Consiste nella
semplificazione di una realtà , esprime quindi una realtà
complessa in modo parsimonioso. Si parla di un modello causa-
effetto in cui dato un certo effetto misurabile ed individuate le
variabili che lo hanno consentito , si individuano i parametri che
legano le variabili esplicative alla variabile dipendente.
Un modello può fallire nei suoi obiettivi per varie cause che
possono verificarsi anche congiuntamente :
Formulazione errata del modello
Una serie di assunzioni non sono rispettate pertanto gli
stimatori risultanti saranno scarsamente efficienti (modello
poco attendibile )
La qualità e quantità dei dati , i metodi di stima delle variabili
incognite non corretti
Presenza di dati anomali o di osservazioni che influenzano la
stima del modello …..
Gli obiettivi sono:
Descrittivi: il modello deve rappresentare il più fedelmente
possibile la realtà, evidenziando le relazioni tra le variabili
oggetto di studio.
Predittivi: il modello deve essere orientato alle previsioni
La variabile dipendente y è di natura casuale, mentre la
variabile indipendente x si suppone di natura deterministica
La retta di regressione
In statistica la regressione lineare rappresenta un metodo di
stima del valore atteso condizionato di una variabile dipendente
Y dati i valori di altre variabili indipendenti X.
L'analisi di regressione
L'analisi di regressione lineare si propone l'obiettivo di calcolare
quella retta che minimizza la somma delle distanze tra ogni
singolo punto rilevato, ovvero la retta di regressione (metodo dei
minimi quadrati). La retta migliore, ossia quella che meglio
descrive la relazione tra X e Y è ovviamente quella che passa
mediamente più vicina a tutti i punti del diagramma di
dispersione, o In altre parole, quella che rende minime le distanze
tra i valori Yjosservati EI valori ŷi Teorici stimati sulla base della
pf3
pf4
pf5
pf8
pf9
pfa
pfd

Anteprima parziale del testo

Scarica Modello di Regressione e più Appunti in PDF di Statistica Inferenziale solo su Docsity!

Modello -> è uno schema teorico in base al quale sono verificabili tutte le relazioni e le ipotesi proprie di una teoria. Consiste nella semplificazione di una realtà , esprime quindi una realtà complessa in modo parsimonioso. Si parla di un modello causa- effetto in cui dato un certo effetto misurabile ed individuate le variabili che lo hanno consentito , si individuano i parametri che legano le variabili esplicative alla variabile dipendente. Un modello può fallire nei suoi obiettivi per varie cause che possono verificarsi anche congiuntamente :

  • Formulazione errata del modello
  • Una serie di assunzioni non sono rispettate pertanto gli stimatori risultanti saranno scarsamente efficienti (modello poco attendibile )
  • La qualità e quantità dei dati , i metodi di stima delle variabili incognite non corretti
  • Presenza di dati anomali o di osservazioni che influenzano la stima del modello ….. Gli obiettivi sono:
  • Descrittivi: il modello deve rappresentare il più fedelmente possibile la realtà, evidenziando le relazioni tra le variabili oggetto di studio.
  • Predittivi: il modello deve essere orientato alle previsioni La variabile dipendente y è di natura casuale, mentre la variabile indipendente x si suppone di natura deterministica La retta di regressione In statistica la regressione lineare rappresenta un metodo di stima del valore atteso condizionato di una variabile dipendente Y dati i valori di altre variabili indipendenti X. L'analisi di regressione L'analisi di regressione lineare si propone l'obiettivo di calcolare quella retta che minimizza la somma delle distanze tra ogni singolo punto rilevato, ovvero la retta di regressione (metodo dei minimi quadrati). La retta migliore, ossia quella che meglio descrive la relazione tra X e Y è ovviamente quella che passa mediamente più vicina a tutti i punti del diagramma di dispersione, o In altre parole, quella che rende minime le distanze tra i valori Yjosservati EI valori ŷ i Teorici stimati sulla base della

regressione di Y su X. Tali distanze rappresentano gli errori del modello. La retta di regressione e quindi chiamata retta dei minimi quadrati, in quanto rende minima la somma dei quadrati degli errori. La relazione lineare tra la variabile XE la variabile y che si propone di andare a calcolare è la seguente: ŷ=b0+b 1 xi Con la dicitura ŷ (y teoriche)Intendiamo quel valore di y secondo il modello teorico di regressione lineare che andremo a costruire. b 0 rappresenta il intercetta della retta, indica ovvero il valore della Y quando X è uguale a 0. b 1 rappresenta invece il coefficiente angolare della retta e indica la variazione della Y a una variazione unitaria della x. Lo studio dell'analisi di regressione consiste unicamente dunque nel definire, attraverso i dati a nostra disposizione, i valori di b 0 e b1, rispettivamente i valori dell'intercetta e del coefficiente angolare. Il coefficiente angolare è dato dalla seguente formula: Dove con Cov (XY) intendiamo la covarianza tra la X e la Y e con Var(X) la varianza di X. La covarianza È un numero che fornisce una misura di quanto le due varino assieme, ovvero della loro dipendenza. Ricordando le formule della covarianza e della varianza, dividendo tutto per n, il risultato della covarianza sarà uguale al rapporto tra la codevianza di XY e la devianza di X. Il coefficiente di regressione può variare da −∞ a +∞: o se b1>0la retta di regressione è crescente e il carattere Y aumenta all'aumentare di X; o se b1<0la retta di regressione è decrescente e il carattere Y diminuisce all'aumentare di X; o se b1=0, la retta di regressione è costante e il carattere Y non varia al variare del carattere X. o Per calcolare l’ intercetta la formula è la seguente: b 0 =-b 1 È quindi data dalla differenza tra la media dei valori riferiti alla variabile dipendente e il prodotto del coefficiente angolare e la media riferita ai valori della variabile indipendente.

andare a determinare il coefficiente di determinazione lineare R 2 . La formula dell’R 2 è la seguente: Questo indice misura quanta parte della devianza totale è spiegata o determinata dalla devianza di regressione. Più piccola è la devianza residua tanto più elevata è la devianza spiegata dalla regressione e quindi tanto più la retta di regressione si avvicina ai punti osservati e meglio descrive la distribuzione osservata. Se ne trae che più alta è la devianza di regressione tanto più la variabilità della Y è spiegata dalla relazione lineare. Infatti, il calcolo del coefficiente di determinazione lineare altro non è che la somma tra la devianza residua e la devianza di regressione. L'indice risulta essere compreso tra 0 e 1, dove 0 rappresenta un modello privo di bontà, mentre 1 rappresenta un modello dalla massima bontà. La verifica delle ipotesi Spesso lo scopo ultimo è quello di utilizzare la stima trovata al fine di avere un'idea su alcuni aspetti rilevanti ma incogniti della popolazione, in questo caso quindi si procede con il metodo della verifica delle ipotesi. A questo fine andranno definite sempre due tipi di ipotesi: la prima che si va a definire è quella chiamata ipotesi nulla, la cui dicitura è H 0 e ci si chiede dunque se esistono le condizioni per dire che In sostanza non c'è differenza tra l'ipotesi e il parametro calcolato; alternativamente all’ipotesi nulla formulata, si pone un'altra ipotesi detta ipotesi alternativa H 1. Si rifiuta l'ipotesi statistica H 0 sei solo se il valore calcolato appartiene ad una regione critica, ovvero regione di rifiuto. Per la verifica delle ipotesi va posto un’eventualità di errore che indichiamo con Alfa. L'errore andrà posizionato lungo le code della distribuzione che si utilizza. Regressione lineare multipla Il modello di regressione ha come obiettivo principale la previsione: si mira la costruzione di un modello attraverso cui prevedere i valori di una variabile dipendente a partire dai valori di una variabile indipendente. Al fine di tener conto di più di una variabile indipendente, includiamo nel modello di regressione lineare k-1 variabili esplicative, diventando così un modello di regressione lineare multipla, con la seguente espressione:

Dove: Y = è un vettore …………………… X= è una matrice dei valori dei k-1 regressori per le n unità del campione = intercetta è il punto di intersezione tra l’asse delle y e la retta di regressione -> è il coefficiente angolare che indica la pendenza della retta. = inclinazione di Y rispetto alla variabile X 1 tenendo costanti le variabili X 2 …Xk- = inclinazione di Y rispetto alla variabile X 2 tenendo costanti le variabili X1, X 3 …Xk- Le sono i parametri incogniti da stimare. Come si stimano? con il metodo dei minimi quadrati che minimizzano la sommatoria dei quadrati degli errori. = errore in corrispondenza dell’osservazione i. I parametri non noti del modello sono: intercetta ( e i coefficienti di regressione () Nel modello di regressione si distingue l’eq della retta da un termine detto errore (e). QUEST’ULTIMO è UNA VARIABILE CASUALE CHE INDICA CHE UNA RELAZIONE LINEARE TRA VARIABILI NON PUO ESSSERE ESATTA MA CONTIENE DELLE MPRECISIONI DOVUTE ALLE LIMITAZIONI DELLE MISURAZIONI E O DALL’ASSENZA DI INFO COMPLETE SUL FENOMENO. Il metodo di stima dei minimi quadrati ricerca gli stimatori dei parametri bo e beta1. per minimizzare la funzione f (bo b1) si calcola il sistema delle derivate parziali rispetto ai parametri incogniti beta0 e beta 1 , si uguagliano a 0 e si ottengono cosi gli stimatori dei parametri della funzione di regressione. Ipotesi del modello di regressione lineare multipla

  1. Ipotesi di linearità :Gli errori hanno media nulla;
  2. Ipotesi di omoschedasticità: gli errori hanno varianza costante al variare delle osservazioni. Nella matrice di identità, ossia la matrice di varianze covarianze dell'errore, sulla diagonale principale abbiamo le varianze costanti mentre gli altri termini rappresentano le covarianze nulle. NB: la matrice identità è quella matrice caratterizzata da valori uguali ad uno lungo la diagonale principale, mentre gli altri termini sono tutti nulli ossia uguale a 0; i valori lungo la diagonale principale sono costanti e rappresentano sigma quadro , mentre gli extradiagonali sono nulli e rappresentano la covarianza
  3. Non esiste correlazione tra le variabili indipendenti, ovvero ci sono K -1 vettori linearmente indipendenti;
  4. la matrice X è una matrice non casuale, ossia una matrice di variabili deterministiche; Ciò significa che per ogni osservazione, il valore della x è una variabile statistica osservata mentre il valore corrispondente della y è una variabile casuale influenzata da tutta una serie di fattori rappresentati dalla perturbazione e (errori);
  5. la quinta ipotesi riguarda la forma della distribuzione della variabile casuale errore e; In particolare supponiamo che la e si distribuisce come una normale multivariata. L'ipotesi di normalità riguarda la forma della distribuzione della variabile casuale errore (e) così come la distribuzione della variabile casuale dipendente Y. Poiché nella maggior parte dei casi la popolazione nel suo complesso non è direttamente rilevabile, al fine di stimare i parametri del modello ci si deve basare sulle informazioni contenute su un campione casuale di n unità, su ciascuna delle quali vengono rilevati i valori della variabile YE dei K -1 regressori. Il metodo dei minimi quadrati può essere utilizzato per stimare il vettore di parametri incogniti.

per il controllo dell’ipotesi nulla di indipendenza. Tale modello può essere considerato un confronto fra:

  • Un modello a k regressori in cui il generico regressore Xj è incluso (modello completo);
  • è un modello a k-1 regressori da cui il generico regressore Xj è escluso (modello ristretto). In base alla proprietà dell’R 2 è possibile osservare che la Devregmod.completo è maggiore o uguale alla Devregmod.ristretto. N.B. la devianza di regressione è una misura della variabilità spiegata dal modello di regressione, mentre la devianza residua è la devianza dei residui e rappresenta una misura della variabilità non spiegata (perciò “residua”) dal modello. Pertanto, è una misura dell'errore di previsione legato all' utilizzo del modello, più questa è elevata peggiore è la qualità del modello stesso. Un modello è tanto più utile quanto più è improntato sul concerto di parsimonia, ossia poche variabili esplicative. Bisogna tenere in considerazione che l'inserimento di variabili poco significative può causare un aumento della variabilità delle stime, mentre, in generale, l'eliminazione di variabili migliora la precisione delle stime. Diagnostica Con il termine diagnostica, nell'ambito della regressione, ci si riferisce a un insieme di tecniche volte a l'individuazione di eventuali problemi rispetto al modello rispetto ai dati appunto a questo fine particolare rilievo assumono i residui. L'analisi dei residui permette di:
  • stabilire se le ipotesi formulate sul termine di errore del modello di regressione (e) sono valide rispetto al fenomeno analizzato;
  • identificare l'eventuale presenza di outlier (osservazioni anomale), osservazioni influenti (osservazioni la cui esclusione modifica le stime dei minimi quadrati). I residui possono essere espressi come scarti tra i valori osservati e quelli stimati dal modello. Essi costituiscono la base per misurare la variabilità di Y non spiegata dal modello di regressione. La loro somma è nulla (per la proprietà dei minimi quadrati). i residui stimati hanno varianze diverse e sono tra loro correlati. H-> matrice di proiezione ossia la matrice che proietta i valori osservati y sulla retta consentendo il calcolo dei valori teorici y cappelletto = hy Per tenere conto congiuntamente dei residui della loro variabilità è

opportuno standardizzarli dividendoli per una stima dell'oro scarto quadratico medio. la media aritmetica dei residui standardizzati è nulla e la loro varianza è 1, ma sono ancora moderatamente correlati. un eventuale osservazione anomala influenzerà inevitabilmente la varianza di dispersione e quindi anche i residui standardizzati internamente. Per ovviare a tale inconveniente, Si calcoleranno i residui standardizzati esternamente e le osservazioni per cui |ti|2 rappresentano potenziali outliner. IPOTESI DI DIPENDENZA LINEARE O IP FORTE : Fissato un livello di significatività alfa se F > Falfa ( quindi il nostro Pvalue è minore di α allora vi sarà dipendenza lineare ossia almeno uno dei k repressori (x) contribuisce a spiegare la y .. accetto H1 diverso da 0 Multicollinearità Questa ipotesi prevede che le variabili non siano dipendenti l'una dall'altra. Nel caso in cui nel modello vengono introdotte variabili perfettamente dipendenti tra loro, si avrà come conseguenza un’errata specificazione del modello e si è in presenza di multicollinearità, che prevede una relazione lineare tra i repressori

. La varianza degli stimatori cresce al crescere della multicollinearità. Un vif elevato è indice di dipendenza lineare tra la colonna jesima e le restanti colonne della matrice. È uguale a 1/ 1-RQUADRO JESIMO Omoschedasticità Prevede varianza costante e covarianza degli errori pari a 0.Tra le cause di eteroschedasticità si evidenziano: - l'esistenza di una relazione tra le ei e le Xi; - la presenza di outlier (valori anomali).

coefficiente di correlazione parziale più elevato e significativo, si prosegue inserendo una successiva variabile dipendente. Il procedimento ha fine quando il coefficiente di correlazione parziale dell’ultima variabile inserita non è più significativa rispetto al livello prefissato; il modello definitivo è quello ottenuto al penultimo passo N best = miglior modello di regressione ( 2 x ) Metod = adjR Cbind=specifichiamo le nostre variabili indipendenti. X è la combinazione di ener , beats……..

  • Summary -> con il comando call si richiama la nostra formula Valen che dipende da tutte le x Residuals -> valori residui Min -> valore minimo 1°quartile -> Median -> mediana 3° quartile Max -> valore massimo Partendo una una rappresentazione grafica attraverso il boxplot possiamo rappresentare le nostre osservazioni statistiche : il boxplot ideale è Baffo25% 50% delle osservazioni baffo 25% Divise equamente dalla mediana attraverso il boxplot possiamo individuare:
  • l’asimmetria o simmetria del collettivo statistico. in che modo? dalla posizione della mediana , il valore ideale di riferimento è 0.
  • la dispersione : si valuta attraverso l’equidistanza dei baffi dalla mediana .Nel nostro caso c’è leggera dispersione e leggera asimmetria
  • Estimate -> indica la variazione in aumento o in diminuzione della y all’aumento unitario di ciascuna x. Esempio

all’aumentare di 1valen diminuisce di 0.08 lengh

  • std error -> stima della variabilità dello stimatore. Misura la sua imprecisione. stima -> valore assunto dalla funzione ex. Lancio del dado stimatore -> è la funzione che associa delle possibili soluzioni ex.valore del dado 6
  • p value -> valuta la significatività della variabile indipendente x attraverso il test complessivo o globale. Come tutti i test si avvale di ipotesi. l’indice di significatività è stabilito dagli *, che indicano il livello di significatività. Partendo dalle ipotesi Ho ->ipotesi nulla le beta sono =0 non c’è dipendenza lineare tra x e y H1->ip alternativa esiste almeno una variabile indipendent5e statisticamente significativa a spiegare la y. Però è necessario aggiungere l’ipotesi che almeno una beta è diversa da 0. Come faccio a capire che ipotesi scelgo? individuo il valore del pp value e lo confronto con alfa (errore di primo tipo o alfa fissato ) Devo fissare il livello di errore che puòl essere 1% = 0.01 , 5% = 0.05 , 10%= 0. Sta nella bontà del ricercatore sceglierlo ( si preferisce (0.05) Se p value inferiore all’alfa accetto H1 = c’è almeno una variabile indipendente a spiegare la x. Obiettivo della regressione è Obiettivo della regressione con il testo globale e quello di accettare H con uno e l’unico testo in cui si deve accettare H con uno nel nostro caso l’unica variabile effettivamente significativa è ENER infatti se scegliessimo come errore 0,01 non potremmo prendere in considerazione POPUL. Il testo complessivo segue l’F di Fisher On 9e 40 DF cioè Degree of Freedom ( i gradi di libertà). derivano dalla formula effe di Fisher: devianza di regressione K-1 fratto devianza residua N-( K -1)Cioè il rapporto tra due chi quadro indipendenti. 9 sono le variabili X o esplicative o indipendenti 40 sono gli individui.
  • Tvalue -> in assenza di r si controllano le tavole statistiche per valutare il legame univariato tra una x e la y (legame semplice) , per il legame multiplo si prende in considerazione il pvalue. Ogni modello ha una % ( margine ) di errore quindi noi attraverso la regressione cerchiamo di minimizzare l’errore attraverso il

o LINEAR LINEARE RISPETTO A Y o BEST è IL PIU EFFICIENTE NELLA CLASSE DEGLI STIMATORI LINEARE CORRETTI Scomposizione della devianza In base alla scomposizione della devianza è possibile conoscere quanta parte della varianza totale di y è spiegata dal modello. la devianza è il numeratore della varianza ossia la sommatoria degli scarti al quadrato tra yi e la media di y

  • La devianza tot si scompone in devianza residua e devianza di regressione ( spiegata)
  • Devianza residua misura il grado di dispersione dei punti osservati intorno la retta di regressione
  • Devianza di regressione R 2 = ADJR2 ESS/ K- TSS/ N-