Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica 2, Appunti di Statistica

Sintesi lezioni e libro statistica 2

Tipologia: Appunti

2015/2016

Caricato il 14/06/2016

mat030894
mat030894 🇮🇹

4.7

(18)

5 documenti

1 / 2

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA 2
RELAZIONE FUNZIONALE E STATISTICA
Ci troviamo in un ambito bivariato, ossia abbiamo osservato due variabili; c'è stata una indagine e abbiamo una
matrice di N righe (numero di unità statistiche) e K colonne (numero di variabili) su cui fare delle analisi che ci
consentono di interpretare il fenomeno, per fornire delle osservazioni e , ad esempio, per fare delle previsioni.
Nelle analisi di regressione la variabile indipendente può essere il tempo: osserviamo un fenomeno qualsiasi in
funzione del tempo. Ciò significa che la X è il tempo espresso in quella che è la sua unità di misura (annuale,
trimestrale, mensile, a seconda di come questi dati ci vengono rilasciati). Con
l'analisi della regressione diciamo che c'è una relazione funzionale di tipo lineare (una retta) tra due variabili, una
dipendente e l'altra indipendente, per cui scriviamo:
y = Bo +B1
Bo : intercetta (valore che assume la X quando la Y = 0
B1 : coefficiente angolare
*(indichiamo con B perché nella regressione multipla altrimenti avremo moltissimi coefficienti angolari)
Questa è una relazione deterministica, cioè una volta che si attribuisce un valore numerico a Bo e B1, riusciamo a
trovare i valori di X (basta sostituire). Se la variabile indipendente è il tempo deve essere indicato con valori del
tipo 1,2,3 e non 2001,2002,2003.
Nella realtà è difficile trovare due variabili legate da una relazione deterministica, in altri termini è difficile stimare
una retta su cui si collochino tutti i punti. Per fare questo si utilizza un modello (relazione statistica) che viene
descritto
da: y
= f (x) + £
£ è una componente statistica che riesce a cogliere tutto il contributo dei fattori che io non osservo; ciò
significa che ci possono essere una serie di errori nella misura, nella rilevazione o nella specificazione del
modello (si suppone che il modello sia lineare, ma così non è), che la componente stocastica riesce ad
inglobare;
f(x) è la componente deterministica - funzione retta
Y diventa una variabile casuale, non è più la nostra variabile osservata y = f(x) + £ , scritta così non è altro
che una combinazione lineare, e siccome in questa combinazione lineare c'è una variabile casuale esiste un
teorema delle combinazioni lineari delle v.c. che dice che la risultante sarà anche essa una v.c. lineare. Per
noi sarà sempre comunque la nostra variabile risposta.
Essendo quindi presente una componente stocastica, sui parametri del modello di regressione può essere fatta
inferenza ( si può fare la verifica di ipotesi e gli intervalli di confidenza sui B, ed andare a vedere se il nostro
modello ha senso).
Nella regressione multipla si possono inserire variabili dipendenti qualitative, ad esempio il voto alla laurea può
dipendere dal corso di laurea, se uno studente è in sede o fuori sede, dal tipo di scuola di provenienza ecc..
Cambierà però la funzione, che non sarà più lineare (diventa un modello di regressione logistica; abbiamo
moltissimi coefficienti angolari, uno per ogni variabile) - anche se alla fine tutte le variabili possono diventare di
tipo dicotomico.
Se la variabile qualitativa la metto invece come indipendente, non accade nulla.
Quando stimo B devo guardare “r2” , l'indice di determinazione, che indica l'adattamento e da una valutazione di
insieme: se r2 è alto i punti sono vicini alla retta di regressione. Quando
le variabili sono molte di solito risulta un valore di r2 elevato, ma alcune variabili potrebbero risultare non
significative per la nostra analisi.
Come facciamo a capire quali variabili sono significative ?
Bisogna fare inferenza su ciascuna variabile, e ciò può essere fatto proprio per la presenza della variabile stocastica.
pf2

Anteprima parziale del testo

Scarica Statistica 2 e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA 2

RELAZIONE FUNZIONALE E STATISTICA

Ci troviamo in un ambito bivariato, ossia abbiamo osservato due variabili; c'è stata una indagine e abbiamo una matrice di N righe (numero di unità statistiche) e K colonne (numero di variabili) su cui fare delle analisi che ci consentono di interpretare il fenomeno, per fornire delle osservazioni e , ad esempio, per fare delle previsioni.

Nelle analisi di regressione la variabile indipendente può essere il tempo: osserviamo un fenomeno qualsiasi in funzione del tempo. Ciò significa che la X è il tempo espresso in quella che è la sua unità di misura (annuale, trimestrale, mensile, a seconda di come questi dati ci vengono rilasciati). Con l'analisi della regressione diciamo che c'è una relazione funzionale di tipo lineare (una retta) tra due variabili, una dipendente e l'altra indipendente, per cui scriviamo:

y = Bo +B

▲ Bo : intercetta (valore che assume la X quando la Y = 0

▲ B1 : coefficiente angolare

*(indichiamo con B perché nella regressione multipla altrimenti avremo moltissimi coefficienti angolari)

Questa è una relazione deterministica, cioè una volta che si attribuisce un valore numerico a Bo e B1, riusciamo a trovare i valori di X (basta sostituire). Se la variabile indipendente è il tempo deve essere indicato con valori del tipo 1,2,3 e non 2001,2002,2003. Nella realtà è difficile trovare due variabili legate da una relazione deterministica, in altri termini è difficile stimare una retta su cui si collochino tutti i punti. Per fare questo si utilizza un modello (relazione statistica) che viene descritto da: y = f (x) + £

  • £ è una componente statistica che riesce a cogliere tutto il contributo dei fattori che io non osservo; ciò significa che ci possono essere una serie di errori nella misura, nella rilevazione o nella specificazione del modello (si suppone che il modello sia lineare, ma così non è), che la componente stocastica riesce ad inglobare;
  • f(x) è la componente deterministica - funzione retta
  • Y diventa una variabile casuale, non è più la nostra variabile osservata y = f(x) + £ , scritta così non è altro che una combinazione lineare, e siccome in questa combinazione lineare c'è una variabile casuale esiste un teorema delle combinazioni lineari delle v.c. che dice che la risultante sarà anche essa una v.c. lineare. Per noi sarà sempre comunque la nostra variabile risposta.

Essendo quindi presente una componente stocastica, sui parametri del modello di regressione può essere fatta inferenza ( si può fare la verifica di ipotesi e gli intervalli di confidenza sui B, ed andare a vedere se il nostro modello ha senso). Nella regressione multipla si possono inserire variabili dipendenti qualitative, ad esempio il voto alla laurea può dipendere dal corso di laurea, se uno studente è in sede o fuori sede, dal tipo di scuola di provenienza ecc.. Cambierà però la funzione, che non sarà più lineare (diventa un modello di regressione logistica; abbiamo moltissimi coefficienti angolari, uno per ogni variabile) - anche se alla fine tutte le variabili possono diventare di tipo dicotomico. Se la variabile qualitativa la metto invece come indipendente, non accade nulla. Quando stimo B devo guardare “r2” , l'indice di determinazione, che indica l'adattamento e da una valutazione di insieme: se r2 è alto i punti sono vicini alla retta di regressione. Quando le variabili sono molte di solito risulta un valore di r2 elevato, ma alcune variabili potrebbero risultare non significative per la nostra analisi.

Come facciamo a capire quali variabili sono significative? Bisogna fare inferenza su ciascuna variabile, e ciò può essere fatto proprio per la presenza della variabile stocastica.

L'inferenza si compie così come la si faceva per la media, per la varianza e per la percentuale, solo che i parametri sono quelli della regressione.

Modello di regressione lineare semplice

Dobbiamo fare delle assunzioni per ottenere il modello di regressione lineare semplice (differisce dalla retta di regressione perché qui c’è la £).

  1. Yi = Bo + B1xi + £ , questo modello vale per ogni osservazione ( i = 1,2..n);
  2. Assunzioni del teorema di Gauss/ Markov :

il teorema ci dice che le £i sono v.c. indipendenti che hanno un valore atteso (media) pari a zero E (£i) = 0 e varianza costante Var (£i) = o2 per ogni i = 1,2..n Dire che le £i sono indipendenti, vuol dire che sono incorrelate. L'indice di correlazione, come sappiamo, misura la concordanza o la discordanza ed ha un campo di variazione da +1 a -1 (quando è uguale a zero c'è massima discordanza). Ciò vuol dire che per valere Ø , deve essere zero il numeratore che è costituito o dalla CODEV. o dalla COV (£i ; £j ). Conclusione : dire che sono indipendenti è uguale a dire che COV ( £i ; £j ) = Ø. Se una di queste assunzioni non si verifica gli stimatori che ottengo potrebbero non avere la caratteristica degli stimatori dei minimi quadrati; se , invece, si verificano tutte allora la v.c. £i si distribuisce come una normale con media zero e varianza o2. Anche la Y sarà quindi una normale.

  1. (^) I valori delle xi delle variabili esplicative X sono tutti senza errore.

L’assunzione 1 implica che la funzione è lineare.

L’assunzione 2, dato che ci dice che Var (£i) = o2 (ossia che la varianza è costante), ciò implica un'ipotesi che si dice di omoschedasticità: dato che la Var (£i) è costante, si dice che gli errori sono omoschedastici; al contrario se la varianza è variabile si dirà che c'è eteroschedasticità. NON CI SI DOVREBBE TROVARE IN QUESTA SITUAZIONE Poi , siccome abbiamo detto che £i è una v.c. e quindi anche la Y è una variabile casuale, le osservazioni yi, sono realizzazioni di variabili casuali :

  • indipendenti (perché c'è l'ipotesi di indipendenza di £i);
  • con un valore atteso E (£i) condizionato E (yi / X = xi ) = Bo + B1x e con varianza anch'essa condizionata al fatto che la X sia uguale a una xi V ( yi / X = xi ) = o

Succede che le assunzioni che facciamo per la £ si ripercuotono sulla Y. Perché la Y non è nient'altro che la combinazione lineare di questa componente erratica.

Non si osserva la componente stocastica, ma si osserva l'errore (il residuo): non è nient'altro che la differenza tra le Y stimate (ŷ) e le Y osservate (yi). Ci si aspetta che i residui abbiano le stesse caratteristiche della componente stocastica (£i), ossia : media zero, varianza costante e incorrelazione. Se succede questo il modello si può dire soddisfacente. Nella pratica si calcolano, si rappresentano con l'istogramma e si vede se possono essere interpolati.

STIMA PUNTUALE DEI COEFFICIENTI DI REGRESSIONE

La cosa più importante è andare a stimare i parametri, cioè dobbiamo passare dall'espressione iniziale, a questa: ŷi = 1 E 0 2o + 1 E 0 21x dove 1 E 0 2o e 1 E 0 21x sono rispettivamente le stime dell'intercetta e del coefficiente di regressione, ottenute con il metodo dei minimi quadrati, che consiste nel ricercare le stime di B1 e Bo che rendono minima la funzione di perdita (minimizzo gli scostamenti al quadrato tra i valori empirici e i valori teorici).