STATISTICA 2

RELAZIONE FUNZIONALE E STATISTICA

Ci troviamo in un ambito bivariato, ossia abbiamo osservato due variabili; c'è stata una indagine e abbiamo una

matrice di N righe (numero di unità statistiche) e K colonne (numero di variabili) su cui fare delle analisi che ci

consentono di interpretare il fenomeno, per fornire delle osservazioni e , ad esempio, per fare delle previsioni.

Nelle analisi di regressione la variabile indipendente può essere il tempo: osserviamo un fenomeno qualsiasi in

funzione del tempo. Ciò significa che la X è il tempo espresso in quella che è la sua unità di misura (annuale,

trimestrale, mensile, a seconda di come questi dati ci vengono rilasciati). Con

l'analisi della regressione diciamo che c'è una relazione funzionale di tipo lineare (una retta) tra due variabili, una

dipendente e l'altra indipendente, per cui scriviamo:

y = Bo +B1

▲Bo : intercetta (valore che assume la X quando la Y = 0

▲B1 : coefficiente angolare

*(indichiamo con B perché nella regressione multipla altrimenti avremo moltissimi coefficienti angolari)

Questa è una relazione deterministica, cioè una volta che si attribuisce un valore numerico a Bo e B1, riusciamo a

trovare i valori di X (basta sostituire). Se la variabile indipendente è il tempo deve essere indicato con valori del

tipo 1,2,3 e non 2001,2002,2003.

Nella realtà è difficile trovare due variabili legate da una relazione deterministica, in altri termini è difficile stimare

una retta su cui si collochino tutti i punti. Per fare questo si utilizza un modello (relazione statistica) che viene

descritto

da: y

= f (x) + £

• £ è una componente statistica che riesce a cogliere tutto il contributo dei fattori che io non osservo; ciò

significa che ci possono essere una serie di errori nella misura, nella rilevazione o nella specificazione del

modello (si suppone che il modello sia lineare, ma così non è), che la componente stocastica riesce ad

inglobare;

• f(x) è la componente deterministica - funzione retta

• Y diventa una variabile casuale, non è più la nostra variabile osservata y = f(x) + £ , scritta così non è altro

che una combinazione lineare, e siccome in questa combinazione lineare c'è una variabile casuale esiste un

teorema delle combinazioni lineari delle v.c. che dice che la risultante sarà anche essa una v.c. lineare. Per

noi sarà sempre comunque la nostra variabile risposta.

Essendo quindi presente una componente stocastica, sui parametri del modello di regressione può essere fatta

inferenza ( si può fare la verifica di ipotesi e gli intervalli di confidenza sui B, ed andare a vedere se il nostro

modello ha senso).

Nella regressione multipla si possono inserire variabili dipendenti qualitative, ad esempio il voto alla laurea può

dipendere dal corso di laurea, se uno studente è in sede o fuori sede, dal tipo di scuola di provenienza ecc..

Cambierà però la funzione, che non sarà più lineare (diventa un modello di regressione logistica; abbiamo

moltissimi coefficienti angolari, uno per ogni variabile) - anche se alla fine tutte le variabili possono diventare di

tipo dicotomico.

Se la variabile qualitativa la metto invece come indipendente, non accade nulla.

Quando stimo B devo guardare “r2” , l'indice di determinazione, che indica l'adattamento e da una valutazione di

insieme: se r2 è alto i punti sono vicini alla retta di regressione. Quando

le variabili sono molte di solito risulta un valore di r2 elevato, ma alcune variabili potrebbero risultare non

significative per la nostra analisi.

Come facciamo a capire quali variabili sono significative ?

Bisogna fare inferenza su ciascuna variabile, e ciò può essere fatto proprio per la presenza della variabile stocastica.

Statistica 2, Appunti di Statistica

Documenti correlati

Anteprima parziale del testo

Scarica Statistica 2 e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA 2

RELAZIONE FUNZIONALE E STATISTICA