Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


spiegazione regressione multipla, Appunti di Statistica

spiegazione regressione multipla con SPSS procedure

Tipologia: Appunti

2018/2019

Caricato il 14/12/2019

martanovanta7
martanovanta7 🇮🇹

4.5

(4)

8 documenti

1 / 9

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
REGRESSIONE MULTIPLA!
!
La REGRESSIONE è un insieme di procedure statistiche che consentono di usare le informazioni
che si hanno su una variabile per predirne un’altra.!
Y = a + bx + e!
a=intercetta, valore in cui la retta X incontra l’asse delle Y, rappresenta il valore predetto di Y in
corrispondenza di X uguale a zero. !
b =coeciente angolare, inclinazione della retta, parametro della popolazione, rappresenta
l’incremento predetto di Y per un incremento unitario di X.#
e = errore!
!
Dato il modello lineare y* = a + b·X, la stima dei parametri “a” e “b” avviene mediante un criterio
matematico chiamato “criterio dei minimi quadrati”.#
E’ basato sulla minimizzazione di una funzione di perdita tra i valori realmente osservati y e i valori
teorici del modello y*.!
!
$$ $#
Bontà di adattamento#
Si dimostra che l’indice che misura la bontà di adattamento di una retta di regressione è il
coeciente di determinazione r2!
!
Quali sono i passi per compiere analisi del modello di regressione?!
!
1) Scelta del modello!
2) Calcolo/stima dei parametri!
3) Valutazione della significatività dei parametri!
4) Valutazione della bontà del modello!
pf3
pf4
pf5
pf8
pf9

Anteprima parziale del testo

Scarica spiegazione regressione multipla e più Appunti in PDF di Statistica solo su Docsity!

REGRESSIONE MULTIPLA

La REGRESSIONE è un insieme di procedure statistiche che consentono di usare le informazioni che si hanno su una variabile per predirne un’altra. Y = a + bx + e a=intercetta, valore in cui la retta X incontra l’asse delle Y, rappresenta il valore predetto di Y in corrispondenza di X uguale a zero. b =coefficiente angolare, inclinazione della retta, parametro della popolazione, rappresenta l’incremento predetto di Y per un incremento unitario di X. e = errore Dato il modello lineare y* = a + b·X, la stima dei parametri “a” e “b” avviene mediante un criterio matematico chiamato “ criterio dei minimi quadrati ”. E’ basato sulla minimizzazione di una funzione di perdita tra i valori realmente osservati y e i valori teorici del modello y*. Bontà di adattamento Si dimostra che l’indice che misura la bontà di adattamento di una retta di regressione è il coefficiente di determinazione r Quali sono i passi per compiere analisi del modello di regressione?

  1. Scelta del modello
  2. Calcolo/stima dei parametri
  3. Valutazione della significatività dei parametri
  4. Valutazione della bontà del modello
  1. Eventuale ridefinizione del modello Se le variabili indipendenti sono molte si ricorre alla regressione multipla.. .. ma ci sono delle condizioni: Principio della parsimonia - le variabili indipendenti non devono essere troppe Tra VD e VI ci deve essere una struttura di correlazione lineare importante Ci può essere correlazione tra le VI ma correlazione troppo alta porta a problemi di multicollinearità Le relazioni tra VD e VI devono comunque essere più alte delle correlazioni tra VI Le relazioni tra variabili devono essere tutte di tipo lineare Non ci devono essere valori e variabili outliers IPOTESI E ASSUNZIONI Non ci sono errori di specificazione del modello, né errori di misurazione. La variabilità non è nulla, non ci sono problemi di multicollinearità. C’è omoscheidasticità tra gli errori (hanno media nulla, varianza costante, distribuzione normale e assenza di autocorrelazione). Come per tutte le tecniche multivariate, ancor di più per la Regressione Multipla è FONDAMENTALE un trattamento preliminare dei dati, al fine di eliminare variabili e valori outliers. (per verifica si possono usare grafici, distribuzione normale, analisi con valori standardizzati, analisi dati mancanti). Prima cosa da fare su SPSS Struttura di correlazione (Analizza > Correlazione > Bivariata) poi per effettuare la regressione Metodi di stima (Regressione > Lineare) da qui si possono utilizzare due tecniche differenti: **1) A blocchi; tutte le variabili vengono inserite insieme nel modello
  2. Per passi (stepwise); Procede come il modello Forward, ma ad ogni variabile aggiunta guarda se è possibile una eliminazione Backward di una delle variabili precedentemente inserite nel modello. Il procedimento si ferma quando con i livelli di significatività fissati non sono possibili né nuovi inserimenti né nuove eliminazioni.** I risultati dei due metodi sono diversi. Il migliore e’ certamente il metodo stepwise, perché tiene conto di tutti i possibili miglioramenti. Un’alternativa del metodo a blocchi è di eliminare di volta in volta la variabile meno significativa, e non in blocco tutte quelle non significative. Se ci sono variabili non significative occorre ristampare il modello! Si deve sempre verificare la bontà di adattamento del modello (R2) Coefficienti Non standardizzati : ad una variazione unitaria della VI indica la variazione della VD. Dipende dall’unità di misura della VD. Sono i coefficienti da utilizzare nel modello. STANDARDIZZATI: indica l’impatto della VI sulla

Su Spss: Procedura: Analizza > Confronta Medie > Test t campioni indipendenti T TEST PER CAMPIONI APPAIATI Usa lo stesso campione ma in due istanti temporali distinti Le medie nei due momenti differenti sono le stesse? Lo andiamo a verificare con Ho Campione estratto casualmente dalla popolazione con caratteristiche omogenee E’ un disegno a Misure ripetute due volte sullo stesso campione (prima e dopo sugli stessi soggetti). Un gruppo sottoposto a due livelli (prima/dopo) della VARIABILE INDIPENDENTE CATEGORICA (manipolata o non manipolata) Rilevazione della VARIABILE DIPENDENTE METRICA due volte sullo stesso gruppo Analisi statistica per rilevare una differenza tra le due rilevazioni ascrivibile alla INDIPENDENTE (unica differenza prima/dopo) In questo caso si parla di disegni sperimentali entro i soggetti (o within). I disegni descritti per due rilevazioni sono estendibili a k rilevazioni sugli stessi soggetti (campione). I disegni sperimentali possono essere misti ovvero contenere rilevazioni entro e tra soggetti. 1 campione - Due istanti temporali Tempo t0: Media: Mt Tempo t1: Media: Mt Verifica d’ipotesi bidirezionale ⎧⎨ H0: Mt0 =Mt1 ⎩H1: Mt0 ≠ Mt Se p-value è minore di α si rifiuta H0 Se p-value è maggiore di α si accetta H Su SPSS: Procedura: Analizza > Confronta Medie > Test t campioni appaiati

ANOVA

**1) BETWEEN a un fattore con più di due modalità

  1. BETWEEN a due fattori
  2. WITHIN e BETWEEN Analisi della varianza:**

- Ad una via/fattore 1 variabile dipendente metrica 1 fattore qualitativo in almeno 3 modalità Si vuole testare l’ipotesi nulla che le medie della VD nei gruppi sia UGUALE contro l’ipotesi alternativa che almeno una sia diversa. Analogo del t test per camp indip ma con più di due gruppi. - A due o più vie / fattori SENZA REPLICA 1 variabile dipendente metrica - 2 fattore qualitativi Ogni possibile combinazione dei fattori si ripete una sola volta Si vogliono testare le ipotesi nulla che le medie della VD nei gruppi siano UGUALI contro le ipotesi alternative che almeno una sia diversa. CON REPLICA 1 variabile dipendente metrica - 2 fattore qualitativi Ogni possibile combinazione dei fattori si ripete almeno 2 volte Si vogliono testare le ipotesi nulla che le medie della VD nei gruppi siano UGUALI contro le ipotesi alternative che almeno una sia diversa. Presenza dell’interazione - Per misure ripetute 1 variabile dipendente metrica 3 o piu’ istanti temporali Si vogliono testare le ipotesi nulle che le medie della VD nei diversi istanti temporali siano UGUALI contro le ipotesi alternative che almeno una sia diversa. E’ l’analogo del test t per campioni appaiati quando si hanno più di due osservazioni Studi longitudinali. DISEGNO WITHIN Si utilizza come variabile di riferimento la F di SNEDECOR L'analisi della varianza si basa sulla scomposizione della variabilità totale dei dati in una parte dovuta alla variabile indipendente ed una dovuta a tutte le variabili non controllate Risponde alla domanda: a variabilità tra i gruppi (between) è sufficientemente diversa dalla variabilità all'interno dei gruppi (within) da poter considerare significativamente diverse le medie di due (o più) gruppi? Quando l'ipotesi nulla è vera (cioè non ci sono differenze significative tra le medie, ovvero il trattamento non produce effetti) la variabilità tra i gruppi e quella entro i gruppi devono essere molto simili poiché ambedue comprendono solo variabilità d'errore; la varianza fra i gruppi e la varianza entro i gruppi sono in realtà due stime indipendenti della stessa varianza: la varianza della popolazione. Quando l'ipotesi nulla è falsa (cioè ci sono differenze significative tra le medie e quindi il trattamento ha prodotto qualche effetto) la variabilità tra i gruppi sarà maggiore di quella entro i gruppi. L'analisi della varianza si basa perciò sulla scomposizione della variabilità dei dati e sul successivo confronto tra le varianze mediante il test statistico F di Fisher di cui è nota la distribuzione campionaria. In realtà da un punto di vista matematico-statistico la scomposizione della variabilità non riguarda la varianza vera e propria bensì la somma dei quadrati degli scarti (devianza) e, separatamente, i gradi di libertà; le varianze vengono calcolate dividendo le devianze per i rispettivi gradi di libertà.

ANALISI FATTORIALE

L’obiettivo dell’analisi fattoriale è l’identificazione di una struttura sottostante ad un insieme di variabili rilevate. Si studiano le relazioni tra le variabili originarie per trovare un nuovo insieme, di dimensioni minori che esprime comunalità tra var originarie. È una tecnica esplorativa dei dati e non è possibile aspettarsi una soluzione definitiva ed univoca. L’esperienza e il know-how del ricercatore rivestono un ruolo fondamentale nel decidere il numero e l’interpretazione dei fattori. Si assume che due variabili correlate condividano caratteristiche comuni (FATTORI). 3 OBIETTIVI: 1 studiare semplificare e ridurre la dimensionalità 2 studiare la struttura semplice dei dati in fase esplorativa 3 trovare fattori latenti Si parte da una serie di var osservate con struttura di correlazione e variabilità. Ogni variabile ha una quota di var comune con le altre e una quota di var unica. Sintetizziamo quindi le var andando ad identificare questa quota di var comune ci sono dei prerequisiti :

  1. Fattorizzabilità della matrice R
  2. Normalità delle variabili auspicabile
  3. Forti correlazioni tra i dati ovvero struttura esistente tra i dati
  4. Assenza di valori outliers
  5. Assenza di variabili outliers
  6. Variabili metriche o almeno su 4-5 livelli
  7. Numerosità campionaria importante (rapporto almeno 4:1 tra campione e numero variabili), eccetto per il metodo delle componenti principali passi: Calcolo della matrice delle correlazioni lineari (o delle varianze e covarianze) tra tutte le variabili osservate Estrazione dei fattori e determinazione del numero di fattori necessari ad interpretare il fenomeno Interpretazione dei fattori ed eventuale rotazione della soluzione per migliorarla Calcolo dei punteggi fattoriali per ogni caso (punteggi attesi)

Metodi per l’estrazione dei fattori

- Componenti principali - anche con multicollinearità Partendo dalle k var. osservate, determina k nuovi fattori come combinazioni lineari incorrelate dalle variabili osservate. Il criterio è quello di massimizzare la varianza preservata. La prima componente recupera la max variabilità possibile, la seconda il max della rimanente ecc... L’ACP prende in considerazione TUTTA la variabilità, non differenziando tra comune e unica. E’ un altro modo di scrivere le variabili, non e’ un AF in senso stretto. Di importante utilizzo se le unità statistiche sono RIDOTTE - Asse principale la vera e propria Analisi Fattoriale. Da un punto di vista matematico è identica all’ACP. La matrice di partenza non è R, ma R ridotta. Si considerano SOLO le comunalità, escludendo le unicità, cioè si considera solo la quota di variabilità comune a tutte le variabili. Mentre nelle CP la soluzione è unica, nell’AF c’è una parte di indeterminatezza data dalla stima iniziale della comunalità di ogni variabile. Da utilizzare solo se la numerosità campionaria è molto elevata (rapporto 10:1) , e se la quota di comunalità è assolutamente rilevante. **- Massima verosimiglianza

  • Minimi quadrati generalizzati** I fattori estratti spiegano una parte della variabilità delle variabili osservate Comunalità - rappresentano la proporzione di varianza di una variabile che viene spiegata dalla fattorizzazione. Le variabili con una bassa comunalita (~0) hanno poco in comune con le altre variabili e perciò non vengono spiegate dai fattori ne’ contribuiscono alla loro determinazione. QUANTI FATTORI? È possibile estrarre tanti fattori quante sono le variabili
  • Numero imposto e scelto a priori (analisi fattoriale confermativa)
  • percentuale cumulata di variabilità spiegata dai fattori
  • autovalori (importanza relativa del fattore)
  • scree plot - Gli autovalori maggiori di 1 rappresentano fattori che spiegano la variabilità di più di una variabile I fattori sono estratti in modo che il primo spieghi la maggior quantità possibile delle relazioni fra le variabili e i successivi spieghino la maggior quantità possibile delle var non ancora spiegate.
  • percentuale cumulata di variabilità spiegata dai fattori
  • autovalori (importanza relativa del fattore)