slides su regressione statistica, Slides von Statistik

slides su regressione statistica

Art: Slides

2021/2022

Hochgeladen am 07.04.2023

caterina-battaglia
caterina-battaglia 🇩🇪

5

(1)

5 dokumente

1 / 66

Toggle sidebar

Diese Seite wird in der Vorschau nicht angezeigt

Lass dir nichts Wichtiges entgehen!

bg1
1
LA REGRESSIONE
LINEARE SEMPLICE
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42

Unvollständige Textvorschau

Nur auf Docsity: Lade slides su regressione statistica und mehr Slides als PDF für Statistik herunter!

1

LA REGRESSIONE

LINEARE SEMPLICE

Introduzione all’argomento

Nello studio delle relazioni tra due (o più) variabili, oltre a misurare l’intensità del legame esistente, si è anche interessati ad accertare come varia una di esse (dipendente) al variare dell’altra (indipendente, o delle altre, variabili indipendenti), individuando un’opportuna funzione analitica che sintetizzi tale relazione.  (^) Nel caso di una sola variabile indipendente si parla di regressione semplice ;  (^) In presenza di due o più variabili indipendenti siamo nel campo della regressione multipla.

Esempio: osservo reddito e spesa su 30 famiglie

Relazione tra due variabili

(Regressione semplice)

Dopo aver rappresentato graficamente i dati a mezzo dello scatter-plot se notiamo una regolarità di tipo lineare (i punti si dispongono grossomodo attorno ad una retta immaginaria) possiamo voler “sintetizzare” tale “regolarità” mediante una funzione analitica “ragionevolmente semplice” Il presupposto è che esista una variabile (la "X” detta indipendente o esogena) che è causa o che comunque agisce sull’altra (la "Y” detta dipendente o endogena). La scelta del ruolo delle due variabili è una scelta extra-statistica

Tipologia di relazioni

Y X Y X Y Y X X Relazione forte Relazione debole

Tipologia di relazioni

Y X Y X Nessuna relazione

APPROCCIO DESCRITTIVO

In un approccio descrittivo si considera la

regressione come un problema di

interpolazione , cioè di adattamento d’una

funzione (in questo caso la retta) alla “nuvola”

dei punti del diagramma di dispersione, in base

a sole considerazioni di natura geometrica.

Regressione Lineare

Vi sono molti casi in pratica in cui la teoria di un fenomeno può essere sintetizzata da un modello espresso da una equazione lineare. Ad esempio, ”Y" la spesa per consumo delle famiglie e sia ”X" il reddito disponibile. L'idea che il consumo aumenti all’aumentare del reddito disponibile può essere espressa dalla relazione funzionale: Componente Lineare Intercetta della Popolazione Coefficiente angolare della popolazione Errore casuale Variabile Dipendente Variabile Indipendente

Il modello qui sopra mi dice che tutti i possibili Yi sono pari a

una funzione lineare degli Xi, secondo un certo a e un certo

b, a cui si somma un numero casuale ei.

Di fatto, noi possiamo osservare solo alcune coppie

(campione) di Xi-Yi, in base alle quali stimare i parametri a

e b e il tipo di errore.

Partiamo però da alcuni punti fermi (assiomi di partenza):

  1. Fra X eY c’è una relazione lineare (non perfetta, in quanto “sporcata” dall’errore)
  2. Gli errori hanno tutti (qualsiasi i) lo stesso valore atteso

paria 0 e la stessa varianza, pari a s 2

  1. I valori della X sono noti senza errore
DALLA TEORIA ALLA SIMULAZIONE

REGRESSIONE LINEARE

Il “successo” del modello lineare dovuto a:

  1. Ragioni di Semplicità : la retta è la più semplice funzione che lega due variabili, è facile da interpretare ed il suo significato è di agevole comprensione.
  2. Esigenze di sintesi
  3. Approssimazione funzionale ( effettiva linearità ): molte relazioni sono lineari o assai vicine alla linearità.
  4. Trasformazioni : spesso è possibile ottenere una relazione approssimativamente lineare trasformando una o entrambe le variabili in modo opportuno (ad esempio, considerando i logaritmi di X anziché i valori).
  5. Limitatezza dell’intervallo : anche se la relazione tra due variabili non è lineare, considerando un intervallo limitato dei valori di X e di Y , la retta fornisce spesso un’approssimazione soddisfacente

Supponiamo di essere “onniscienti” cioè di conoscere a , b e come si

distribuisce ciascun e i ; ad esempio, supponiamo che ciascun e i si

distribuisca normalmente, con varianza s 2 (uguale per qualsiasi i)

Scriviamo in un foglio Excel (Simulazione) in B1 , B2 e B4 i “parametri

significativi” (il valore atteso di ciascun ei è pari a 0 per ipotesi)

DALLA TEORIA ALLA SIMULAZIONE:
IL FILE REGRESSIONE.XLS

Supponiamo di osservare un valore della variabile X (reddito) pari a 3529. Il corrispondente valore Y (spesa) sarà pari a

a+b · 3529

un numero estratto casualmente da una normale con m= B e s2= B

DALLA TEORIA ALLA SIMULAZIONE:
IL FILE REGRESSIONE.XLS

Vediamo le formule:

Nella cella F2 calcoliamo la “parte

deterministica” del modello relativa a Xi

DALLA TEORIA ALLA SIMULAZIONE:
IL FILE REGRESSIONE.XLS

Vediamo le formule:

Nella cella G2 estraiamo un numero casuale da

una normale con m =B3 e s 2=B4.

Per convincersi che la formula sopra “fa proprio

questo”, guardare il foglio: “errori”, in cui

estraiamo 10000 numeri nello stesso modo

Generiamo questo secondo la “regola” ipotizzata

DALLA TEORIA ALLA SIMULAZIONE:
IL FILE REGRESSIONE.XLS