


























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti Laboratorio SPSS Prof. Bonanomi
Tipologia: Appunti
1 / 34
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!



























✓ Nella colonna valori si mette a cosa equivale il numero (es. Maschio = 0; femmina = 1) ✓ Colonna mancante: se ad esempio vogliamo fare un’indagine online, quando scarica i dati, molto spesso i dati mancanti vengono codificati con un numero come ad esempio 999; un numero che di solito è molto diverso dagli altri. Gli dobbiamo dire in quella colonna che il numero 999 non è un valore, ma un dato mancante. Misura: tipo di variabile quando importiamo i dati da Excel, in automatico assegna la variabile al tipo di scala, ma è un’assegnazione di probabilità e quindi dopo bisogna controllare. Per SPSS le scale sono: nominale, ordinale, scala (=caratteri metrici). Es. variabile addetto: SPSS l’ha interpretata come quantitativa, ma noi controlliamo e sappiamo che è nominale e quindi andiamo a cambiarlo. Variabile corsi di aggiornamento, invece, è nominale e quindi lo cambiamo
File di output che si genera in automatica qui saranno inseriti tutti gli output dell’analisi.
✓ Dati: serve per fare delle operazioni sui dati, come ad esempio unire file. ✓ Trasforma: serve per fare delle trasformazioni sulle variabili se ad esempio vogliamo creare nuove variabili o se dobbiamo ricodificarle. ✓ Analizza: menù di analisi ci sono tutte le analisi statistiche. Sono divise in menù dentro il menù regressione ci sono tutte le analisi statistiche relative alla regressione.
Prima di fare un modello di regressione, l’analisi da fare è quella della correlazione tra le variabili, perché ha senso costruire un modello di regressione quando c’è una certa struttura di correlazione tra i dati tra ld VD e la VI ci deve essere correlazione. Tra le VI ci possono essere delle correlazioni, ma non devono essere troppo forti, sennò ci sono problemi di collinearità. La correlazione si può fare solo tra variabili metriche. Però, eccezionalmente possiamo introdurre anche delle variabili dicotomiche. In realtà, però, dovrebbero essere tutte metriche.
Non è tollerato, però, fare correlazione tra variabile metrica e dicotomica.
Nella struttura di correlazione non si mettono le variabili qualitative. Quindi per SPSS il genere è numerico, ma noi dobbiamo stabilire che non si fa.
Analizza Correlazione Bivariata (Correlazione per valutare prima tra VI e VD e poi tra le VI.)
Le correlazioni si misurano a coppie: misura della relazione lineare tra 2 variabili. Per ogni coppia ci sono 3 informazioni: ✓ Indice di correlazione di Pearson (r): da -1 a1: misura della correlazione che c’è tra le due variabili ✓ Significatività: riferita a test sull’indice di correlazione IPOTESI NULLA: r = 0 IPOTESI ALTERNATIVA: r diverso da 0.
Devo inserire sia la Variabile Dipendente che le Variabili indipendenti, perché devo valutare tutte le correlazioni possibili. PRIMA DEVO INSERIRE LA VD (salario corrente) POI POSSO INSERIRE LE VARIBILI INDIPENDENTI (salario iniziale, età addetto, anni di studio, anni di lavoro).
Tabelle di output: “riepilogo del modello” ci serve il valore R quadro: ci dice qual è l’adattamento del modello (da 0 a 1). “anova” è legata a un test sull’indice R quadro (ipotesi nulla: R quadro = 0; ipotesi alternativa: R quadro diverso da 0 potremmo anche dire > 0, perché R quadro non può essere negativo) l’idea di questo test è se accettiamo ipotesi nulla, vuol dire che il modello è pessimo, vuol dire che le variabili indipendenti non spiegano nulla sulla dipendente la regressione non ha senso. Se accettiamo l’ipotesi alternativa, la regressione ha senso. Se bene o male ce lo dice R quadro. La significativa dell’anova < 0.005 le indipendenti spiegano la dipendente. “coefficienti”: si guarda la colonna “B”, che sono i coefficienti che completano il modello, cioè i coefficienti non standardizzati: indicano, per una variazione unitaria della VI (VI aumenta di 1), quanto varia mediamente la VD. Es. 282 (anni di studio) quando gli anni di studio aumentano di 1, la VD varia di 282 dollari. Per poterli confrontare fra loro le VI si guarda i coefficienti non standardizzati beta che non dipendono dall’unità di misura la VI che impatta di più è salario iniziale (0,807). Significatività legata a un test statistico sui coefficienti: (ipotesi nulla: coefficiente beta = 0; ipotesi alternativa: coefficienti beta diverso da 0) se accettiamo H0 la variabile cui è legato il coefficiente, non è significativa; se rifiuto H0, la variabile è significativa. (non si guarda la significatività della costante) variabili significative: salario iniziale, anni di studio. Mentre età dell’addetto e anni di lavoro non significative modello non ottimale. Per ottenere il modello ottimale, possiamo scegliere se fare modello stepwise (togliere tutte le variabili non significative in blocco) (qui lo possiamo fare). Se, invece, dovessimo essere in una situazione in cui non si può fare stepwise, dovremmo togliere da questo modello le variabili non significative e rifare il modello a patto che non ci siano problemi di collinearità se ce ne sono bisogna togliere una alla volta le variabili, perché sono talmente simili da rischiare di confondere l’impatto di uno e quello dell’altra. ( si deve guardare la numerosità campionaria, se si può fare o meno il metodo stepwise rapporto campione-variabili)
per valutare la collinearità o si guarda l’indice di tolleranza o VIF (uno il reciproco dell’altro) se vogliamo valutare la collinearità con la tolleranza la tolleranza misura la quota di variabilità unica: la quota di variabilità che una variabile non ha in comune con le altre la variabilità si scorpora in due quote: quota unica e quota comune nella regressione ci possono essere delle comunalità, ma non troppo perché se no c’è collinearità. Quindi la quota di quota unica dev’essere preminente. La tolleranza per andare bene, deve essere > 0.05. da cui, essendo l’indice VIF il suo reciproco, dev’essere < 2. questa è la situazione che va bene!!!! Non va bene, il contrario se tolleranza < 0,05 e VIF > 2 COLLINEARITÀ!!! Nel nostro caso ci sono due variabili: salario iniziale e anni di studio vanno bene; età dell’addetto e anni di lavoro hanno tolleranza < 0.05 ci sono problemi di collinearità (l’avevamo già evidenziato perché tra queste due variabili c’era una correlazione alta) noi possiamo fare il modello stepwise. Ma se non potessimo fare il modello stepwise perché non ce lo consente la numerosità campionaria quale delle due variabili togliere? Quella che impatta meno (qui è praticamente identico, così come la significatività) togliamo quella che da un punto di vista concettuale è meno importante per noi. La tolgo e vedo cosa succede.
Cliccare su dato “trasforma” e poi cliccare su regressione, senza dover fare tutto da capo cambiamo il metodo e mettiamo step wise. Se non avessimo potuto fare stepwise, il metodo sarebbe rimasto inserisci e avremmo tolto una variaible.
R quadro è aumentato a ogni passo. Già solo con una variabile (salario iniziale) avevamo un R quadro alto, quindi un modello molto buono ma se non andassimo avanti con gli altri step, sarebbe un modello ottimo ma non ottimale. Si guarda il coefficiente ed è tutto significativo e non ci sono problemi di collinearità.
MODELLO OTTIMALE (per costruirlo si guarda il modello nella tabella “coefficienti” che è al terzo passo) Salario corrente = - 1464 + 1,749salario iniziale – 80anni di lavoro + 294*anni di studio.
Questo modello lo possiamo usare per fare delle previsioni.
La variabile dipendente nella regressione DEVE essere metrica. Le variabili indipendenti sono ammesse variabili dicotomiche: una variabile che ha solo 2 modalità: 0 e 1 le variabili dicotomiche devono essere poche, non in numero predominante rispetto alle variabili metriche. Se una variabile è già dicotomica di suo, la possiamo introdurre già nel modello così com’è, ma dev’essere codificate 0 e 1 (come il genere nel nostro caso). Se invece, una variabile è categorica, ma ha k diverse modalità (tipo le posizioni lavorative che sono 3) non possiamo introdurla così nel modello, ma dobbiamo introdurre k-1 nuove variabili binarie e queste possono essere inserite nel modello.
Introduciamo una variabile che è già dicotomica, come ad esempio il genere ricicciamo su trasforma, poi su regressione e come modello: inserisci e inseriamo “sesso dell’addetto”. Commentiamo questo valore “sesso” nella tabella “coefficienti” commento quali diverso dalla quanti B = -921 (qui non c’è una variazione unitaria, perché c’è maschio 0 e femmina 1) è come se fosse: passando da 0 a 1 quanto cambia la VD prese due persone, un maschio e una femmina, il salario mediamente diminuisce di 921 dollari. Le femmine guadagnano -921 dollari in meno rispetto ai maschi. La significativa è 0.007 e quindi è significativa e non ha problemi di collinearità è importante.
“categoria lavorativa” ha 3 modalità: impiegato, funzionario, dirigente. Il modello inziale aveva 4 variabili, abbiamo introdotto il genere e ora vogliamo introdurre la categoria lavorativa. Così com’è non possiamo introdurla nel modello da una variabile con K modalità, dobbiamo creare K - modalità dicotomiche. Dobbiamo creare 2 variabile dicotomiche Categoria lavorativa con 3 modalità:
CREARE CON SPSS QUESTE DUE NUOVE VARIABILI: IMPIEGATO E DIRIGENTE (la modalità da non prendere in considerazione è a discrezione del ricercatore) ricodificare la variaible in variabili differenti MENù TRASFORMA che permette di ricodificare variabili nel foglio vista dati (“ricodifica in variabili differenti) ✓ Creiamo variabile “impiegato” (1 = categoria 1; 0 = altre categorie) nome: impiegato e poi clicchi su modifica. Regola di costruzione la diamo cliccando su “valori vecchi e nuovi”: vecchio valore = 1; nuovo valore = 1 clicco su “aggiungi”; poi clicco su “tutti gli altri valori” e nuovo valore = 0 e poi clicco su “aggiungi”. Poi, infine, clicco “continua”. Nel foglio vista variabile mi ha aggiunto la variabile “impiegato”. ✓ Creiamo variabile “dirigente” allo stesso modo della variabile precedente. Per cancellare le opzioni recenti, clicchiamo su “reimposta” nome: dirigenti. Clicca “modifica”, poi “valori vecchi e nuovi” vecchio valore = 3, nuovo valore = 1 clicco “aggiungi”; clicco “tutti gli altri valori” e nuovo valore = 0, clicco “aggiungi”.
Abbiamo creato le variabili dicotomiche legate alla categoria lavorativa e ora si possono aggiungere nel modello.
Uscirà questa tabella e va selezionato “utilizza valori specificati” e poi vanno inseriti i due sottogruppi. I nostri due sottogruppi sono M e F i quali sono stati precedentemente codificati come 0 e 1. Inserisco quindi 0 e 1. All’esame non devo automaticamente inserire 0 e 1 perché potrebbe essere codificato anche in un altro modo, ad esempio 1 e 2: devo controllare! Clicco su continua ed uscirà l’OUTPUT.
Statistiche gruppo Sesso dell'addetto N Media Deviazione std. Media errore standard Salario corrente (dollari) Maschio 258 16576,71 7799,685 485, Femmina 216 10412,77 3023,209 205,
Si vede che la numerosità è diversa ma dello stesso ordine di grandezza, quindi si può fare il test. Si vede già che lo stipendio dei sessi è diverso, allora perché si fa il test? Per vedere se la differenza è significativamente diversa. Se la domanda fosse stata “nel nostro campione lo stipendio è diverso?” bastava vedere l’output statistiche di gruppo e confrontare e avrei detto si sono diverse. Se ho però degli obiettivi inferenziali (estendere il risultato dal campione alla popolazione) devo fare un test.
Guardo prima il test di Levene per capire se devo guarda la prima riga (varianze uguali non presunte) o la seconda riga (varianze uguali presunte).
1)TEST DI LEVENE HP NULLA: le varianze dei due gruppi non sono significativamente diverse (sono uguali) HP ALTERNATIVA: la varianza del primo gruppo è significativamente diversa dalla varianza del secondo
Se p-value < 0.05 rifiuto l’ipotesi nulla ovvero accetto l’ipotesi alternativa Se p-value > 0.05 accetto l’ipotesi nulla ovvero rifiuto l’ipotesi alternativa
Vado quindi a guardare la significatività del test di Levene sulla tabella che è 0.000. è minore di 0.005 quindi rifiuto l’ipotesi nulla ovvero accetto l’ipotesi alternativa per cui la varianza del primo gruppo è significativamente diversa dalla varianza del secondo gruppo.
Se p-value < 0.05 rifiuto l’ipotesi nulla ovvero accetto l’ipotesi alternativa Se p-value > 0.05 accetto l’ipotesi nulla ovvero rifiuto l’ipotesi alternativa
Vado quindi a guardare la significatività del test di Levene sulla tabella che è 0.000 (1.46* 10^-7). è minore di 0.005 quindi rifiuto l’ipotesi nulla ovvero accetto l’ipotesi alternativa per cui la varianza del primo gruppo è significativamente diversa dalla varianza del secondo gruppo.
Dal test di Levene è quindi emerso che le varianze dei due gruppi sono significativamente diverse, quindi devo prendere in considerazione la seconda riga del test t “varianze uguali non presunte”.
TEST T HP NULLA: le medie dei due gruppi non sono significativamente diverse HP ALTERNATIVA: le medie dei due gruppi sono significativamente diverse
Vado quindi a vedere la significatività del TEST T che è pari a 0.000, quindi minore di 0.05. Rifiuto, quindi, l’ipotesi nulla, ovvero accetto l’ipotesi alternativa bidirezionale per cui la media del primo gruppo è significativamente diversa dalla media del secondo gruppo. Ciò significa che il salario corrente dipende dalla partecipazione ai corsi di aggiornamento.
In realtà, avendo accettato l’ipotesi alternativa bidirezionale, sarà vera anche una delle due ipotesi monodirezionale. Consultando l’output “statistiche di gruppo” si può concludere accettando l’ipotesi monodirezionale destra per cui lo stipendio di chi ha partecipato ai corsi di aggiornamento è significativamente maggiore dello stipendio di chi non ha partecipato.
Analizza Confronta medie Test T per campioni indipendenti inserire la variabile dipendente (salario corrente) e la variabile indipendente (categoria lavorativa) e definisco i gruppi tenendo conto della codifica del dataset (1=impiegato; 3=dirigenti).
OUTPUT
Statistiche gruppo Categoria lavorativa N Media Deviazione std. Media errore standard Salario corrente (dollari) Impiegato 363 11135,42 3027,198 158, Dirigente 43 27202,56 8301,440 1265,
La numerosità è troppo diversa quindi a scopo di ricerca non si procederebbe con il test, si procede solo per scopo didattico sapendo che si sta commettendo un errore più elevato di quello che era stato dichiarato. La media dello stipendio dei dirigenti risulta più elevata della media dello stipendio degli impiegati.
HP NULLA: le varianze dei due gruppi non sono significativamente diverse (sono uguali) HP ALTERNATIVA: la varianza del primo gruppo è significativamente diversa dalla varianza del secondo
Se p-value < 0.05 rifiuto l’ipotesi nulla ovvero accetto l’ipotesi alternativa Se p-value > 0.05 accetto l’ipotesi nulla ovvero rifiuto l’ipotesi alternativa
Vado quindi a guardare la significatività del test di Levene sulla tabella che è 0.000. è minore di 0.005 quindi rifiuto l’ipotesi nulla ovvero accetto l’ipotesi alternativa per cui la varianza del primo gruppo è significativamente diversa dalla varianza del secondo gruppo.
Dal test di Levene è quindi emerso che le varianze dei due gruppi sono significativamente diverse, quindi devo prendere in considerazione la seconda riga del test t “varianze uguali non presunte”.
HP NULLA: le medie dei due gruppi non sono significativamente diverse HP ALTERNATIVA: le medie dei due gruppi sono significativamente diverse
Vado quindi a vedere la significatività del TEST T che è pari a 0.000, quindi minore di 0.05. Rifiuto, quindi, l’ipotesi nulla, ovvero accetto l’ipotesi alternativa bidirezionale per cui la media del primo gruppo è significativamente diversa dalla media del secondo gruppo. Ciò significa che il salario corrente dipende dalla categoria lavorativa e che, quindi, lo stipendio degli impiegati è significativamente diverso dallo stipendio dei dirigenti.
In realtà, avendo accettato l’ipotesi alternativa bidirezionale, sarà vera anche una delle due ipotesi monodirezionale. Consultando l’output “statistiche di gruppo” si può concludere accettando l’ipotesi monodirezionale destra per cui lo stipendio dei dirigenti è significativamente maggiore dello stipendio degli impiegati.
Dal test di Levene è quindi emerso che le varianze dei due gruppi non sono significativamente diverse, quindi devo prendere in considerazione la prima riga del test t “varianze uguali non presunte”.
TEST T HP NULLA: le medie dei due gruppi non sono significativamente diverse HP ALTERNATIVA: le medie dei due gruppi sono significativamente diverse
Vado quindi a vedere la significatività del TEST T che è pari a 0.081, quindi minore di 0.05. Rifiuto, quindi, l’ipotesi alternativa, ovvero accetto l’ipotesi nulla per cui la media del primo gruppo non è significativamente diversa dalla media del secondo gruppo. Ciò significa che il salario corrente degli under 35 non è significativamente diverso dal salario corrente degli over 35.
Perché se era 13000 e 14000 è diverso il test mi dice che non è diverso? Perché la differenza che ho nel campione non è sufficientemente forte per dire che le medie sono diverse.
Si utilizza quando abbiamo una stessa variabile analizzata in DUE MOMENTI DIVERSI e si ipotizza che in mezzo sia successo qualcosa. STESSA VARIABILE, STESSO CAMPIONE, MOMENTI DIVERSI.
Es: SALARIO INIZIALE/SALARIO CORRENTE
PROCEDURA Analizza Confronta medie Test t per campioni accoppiati
Statistiche campioni accoppiati Media N Deviazione std.
Media errore standard Coppia 1 Salario iniziale (dollari) 6806,43 474 3148,255 144, Salario corrente (dollari)
13767,83 474 6830,265 313,
Correlazioni campioni accoppiati N Correlazione Sign. Coppia 1 Salario iniziale (dollari) & Salario corrente (dollari)
474 ,880 ,
Nel secondo output si vede una correlazione di 0.88 ciò significa che tra salario iniziale e salario corrente c’è una correlazione molto alta.
La significatività che è 0,000 quindi maggiore di 0.05. Quindi rifiutiamo l’hp nulla e accettiamo l’hp l’alternativa: le due medie sono significativamente diverse. In realtà, avendo accettato l’ipotesi alternativa bidirezionale, sarà vera anche una delle due ipotesi monodirezionale. Consultando l’output “statistiche di gruppo” si può concludere accettando l’ipotesi monodirezionale destra per cui il salario corrente è
significativamente maggiore del salario iniziale.
Inseriamo la variabile pre (salario iniziale) in variabile 1 e variabile post (salario corrente) nella variabile 2. ok
Statistiche descrittive Variabile dipendente: Salario corrente (dollari) Categoria lavorativa Media Deviazione std. N Impiegato 11135,42 3027,198 363 Funzionario 19324,76 7205,416 68 Dirigente 27202,56 8301,440 43 Totale 13767,83 6830,265 474
La media del salario corrente dei tre gruppi sembra essere diversa.
Test di Levene di eguaglianza delle varianze dell'errorea,b Statistica di Levene
gl1 gl2 Sign.
Salario corrente (dollari) Basato sulla media 90,988 2 471 , Basato sulla mediana 68,117 2 471 , Basato sulla mediana e con il grado di libertà adattato
68,117 2 220,826 ,
Basato sulla media ritagliata 83,335 2 471 , Verifica l'ipotesi nulla che la varianza dell'errore della variabile dipendente sia uguale tra i gruppi. a. Variabile dipendente: Salario corrente (dollari) b. Disegno: Intercetta + categlav
La prima cosa da guardare è il test di Levene basato sulla media.
TEST DI LEVENE HP NULLA: la varianza del primo gruppo è uguale alla varianza del secondo gruppo che è uguale alla varianza del terzo gruppo HP ALTERNATIVA: almeno una delle varianze è diversa
Dalla tabella in output si noti come la significatività sia pari a 0.00, dunque maggiore di 0.05. Dunque, rifiuto l’ipotesi nulla, ovvero accetto l’ipotesi alternativa, quindi le varianze non sono tutte uguali (ci serve per il post hoc dopo). Almeno una è significativamente diversa dalle altre.
Test di effetti tra soggetti Variabile dipendente: Salario corrente (dollari) Origine Somma dei quadrati di tipo III
gl Media quadratica
F Sign. Eta quadrato parziale
Modello corretto 12376406254, 87 a
2 6188203127, 4
300,782 ,000 ,
Intercetta 81661980781, 94
1 81661980781, 94
3969,233 ,000 ,
categlav 12376406254, 87
2 6188203127, 4
300,782 ,000 ,
Errore 9690233015, 7
471 20573743,
Totale 111914789908, 000
474
Totale corretto 22066639269, 14
473
a. R-quadrato = ,561 (R-quadrato adattato = ,559)
TEST EFFETTI TRA SOGGETTI la significatività è 0.
HP NULLA: le tre medie sono uguali HP ALTERNATIVA: almeno una è diversa
La significatività è 0.000, ossia maggiore di 0.05. Quindi rifiuto l’hp nulla, ovvero accetto l’hp alternativa, per cui le medie non sono tutte uguali. Ciò significa che il salario dipende dalla categoria lavorativa.
Si trova anche ETA QUADRATO INZIALE quando il campione è molto grande generalmente viene tutto significativo anche se ci sono delle piccole differenze. Calcolare eta quadrato è utile perché non dipende dalla numerosità campionaria. È un indice normalizzato che va da 0 a 1 ed indica la quota di varianza spiegata dal fattore.
DA 0 A 0.06 L’impatto è nullo o molto scarso;
DA 0.06 A 0.12 l’impatto è basso
DA 0.12 A 0.20 l’impatto è moderato
Maggiore di 0.20 è un impatto forte o molto forte
Questo indicatore ha senso guardarlo solo se il test è significativo perché la significatività potrebbe essere dovuta alle dimensioni campionarie molto elevate. Questo indice invece ce lo dice al netto della significatività: ci dice se l’impatto è davvero forte o no con i limiti di sopra.
Nel nostro caso ETA è 0.561 quindi è molto elevato e quindi significa che effettivamente tra il salario di impiegati, dirigenti e funzionari c’è una differenza molto significatività.
Si può quindi concludere che gli impiegati sono quelli che guadagnano in maniera significativamente minore e i dirigenti quelli che guadagnano di più.
La parola INTERAZIONE suggerisce che è un’ANALISI DELLA AVRIANZA A DUE VIE perché c’è una VD METRICA SALARIO CORRENTE e DUE VI CATEGORIA LAVORATIVA E GENERE. Si creeranno quindi diversi gruppi che dipendono dalla categoria lavorativa e dal genere (maschi funzionari, maschi dirigente, femmine funzionari, femmine dirigenti, ecc.).
L’analisi della varianza a due vie permette di stabilire gli effetti marginali o principali di una variabile per volta.
Ma anche l’effetto di interazione:
PROCEDURA Analizza Modello LG Univariata
GRAFICI vorremmo avere tre grafici (effetto principale 1, effetto principale 2, effetto interazione)