Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti Laboratorio SPSS, Appunti di Metodologia Della Ricerca Psicologica

Appunti Laboratorio SPSS Prof. Bonanomi

Tipologia: Appunti

2018/2019

Caricato il 14/10/2019

alimig
alimig 🇮🇹

4.4

(14)

15 documenti

1 / 34

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
LABORATORIO SPSS
05/03/2019
LABORATORIO REGRESSIONE
SPSS
Vista variabile
Nella colonna valori si mette a cosa equivale il numero (es. Maschio = 0; femmina = 1)
Colonna mancante: se ad esempio vogliamo fare un’indagine online, quando scarica i dati, molto
spesso i dati mancanti vengono codificati con un numero come ad esempio 999; un numero che di
solito è molto diverso dagli altri.
Gli dobbiamo dire in quella colonna che il numero 999 non è un valore, ma un dato mancante.
Misura: tipo di variabile quando importiamo i dati da Excel, in automatico assegna la variabile al tipo di
scala, ma è un’assegnazione di probabilità e quindi dopo bisogna controllare.
Per SPSS le scale sono: nominale, ordinale, scala (=caratteri metrici).
Es. variabile addetto: SPSS l’ha interpretata come quantitativa, ma noi controlliamo e sappiamo che è
nominale e quindi andiamo a cambiarlo.
Variabile corsi di aggiornamento, invece, è nominale e quindi lo cambiamo
File di output che si genera in automatica qui saranno inseriti tutti gli output dell’analisi.
Vista dati
Dati: serve per fare delle operazioni sui dati, come ad esempio unire file.
Trasforma: serve per fare delle trasformazioni sulle variabili se ad esempio vogliamo creare nuove
variabili o se dobbiamo ricodificarle.
Analizza: menù di analisi ci sono tutte le analisi statistiche. Sono divise in menù dentro il menù
regressione ci sono tutte le analisi statistiche relative alla regressione.
REGRESSIONE: mettere in relazione variabile dipendente con una serie di variabili metriche.
Prima di fare un modello di regressione, l’analisi da fare è quella della correlazione tra le variabili, perché ha
senso costruire un modello di regressione quando c’è una certa struttura di correlazione tra i dati tra ld VD e
la VI ci deve essere correlazione. Tra le VI ci possono essere delle correlazioni, ma non devono essere troppo
forti, sennò ci sono problemi di collinearità.
La correlazione si può fare solo tra variabili metriche.
Però, eccezionalmente possiamo introdurre anche delle variabili dicotomiche. In realtà, però, dovrebbero
essere tutte metriche.
Non è tollerato, però, fare correlazione tra variabile metrica e dicotomica.
Nella struttura di correlazione non si mettono le variabili qualitative. Quindi per SPSS il genere è numerico,
ma noi dobbiamo stabilire che non si fa.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22

Anteprima parziale del testo

Scarica Appunti Laboratorio SPSS e più Appunti in PDF di Metodologia Della Ricerca Psicologica solo su Docsity!

LABORATORIO SPSS

LABORATORIO REGRESSIONE

SPSS

Vista variabile

✓ Nella colonna valori si mette a cosa equivale il numero (es. Maschio = 0; femmina = 1) ✓ Colonna mancante: se ad esempio vogliamo fare un’indagine online, quando scarica i dati, molto spesso i dati mancanti vengono codificati con un numero come ad esempio 999; un numero che di solito è molto diverso dagli altri. Gli dobbiamo dire in quella colonna che il numero 999 non è un valore, ma un dato mancante. Misura: tipo di variabile quando importiamo i dati da Excel, in automatico assegna la variabile al tipo di scala, ma è un’assegnazione di probabilità e quindi dopo bisogna controllare. Per SPSS le scale sono: nominale, ordinale, scala (=caratteri metrici). Es. variabile addetto: SPSS l’ha interpretata come quantitativa, ma noi controlliamo e sappiamo che è nominale e quindi andiamo a cambiarlo. Variabile corsi di aggiornamento, invece, è nominale e quindi lo cambiamo

File di output che si genera in automatica qui saranno inseriti tutti gli output dell’analisi.

Vista dati

✓ Dati: serve per fare delle operazioni sui dati, come ad esempio unire file. ✓ Trasforma: serve per fare delle trasformazioni sulle variabili se ad esempio vogliamo creare nuove variabili o se dobbiamo ricodificarle. ✓ Analizza: menù di analisi ci sono tutte le analisi statistiche. Sono divise in menù dentro il menù regressione ci sono tutte le analisi statistiche relative alla regressione.

REGRESSIONE : mettere in relazione variabile dipendente con una serie di variabili metriche.

Prima di fare un modello di regressione, l’analisi da fare è quella della correlazione tra le variabili, perché ha senso costruire un modello di regressione quando c’è una certa struttura di correlazione tra i dati tra ld VD e la VI ci deve essere correlazione. Tra le VI ci possono essere delle correlazioni, ma non devono essere troppo forti, sennò ci sono problemi di collinearità. La correlazione si può fare solo tra variabili metriche. Però, eccezionalmente possiamo introdurre anche delle variabili dicotomiche. In realtà, però, dovrebbero essere tutte metriche.

Non è tollerato, però, fare correlazione tra variabile metrica e dicotomica.

Nella struttura di correlazione non si mettono le variabili qualitative. Quindi per SPSS il genere è numerico, ma noi dobbiamo stabilire che non si fa.

PROCEDURA CORRELAZIONE

Analizza Correlazione Bivariata (Correlazione per valutare prima tra VI e VD e poi tra le VI.)

OUTPUT

Le correlazioni si misurano a coppie: misura della relazione lineare tra 2 variabili. Per ogni coppia ci sono 3 informazioni: ✓ Indice di correlazione di Pearson (r): da -1 a1: misura della correlazione che c’è tra le due variabili ✓ Significatività: riferita a test sull’indice di correlazione IPOTESI NULLA: r = 0 IPOTESI ALTERNATIVA: r diverso da 0.

Devo inserire sia la Variabile Dipendente che le Variabili indipendenti, perché devo valutare tutte le correlazioni possibili. PRIMA DEVO INSERIRE LA VD (salario corrente) POI POSSO INSERIRE LE VARIBILI INDIPENDENTI (salario iniziale, età addetto, anni di studio, anni di lavoro).

Tabelle di output: “riepilogo del modello” ci serve il valore R quadro: ci dice qual è l’adattamento del modello (da 0 a 1). “anova” è legata a un test sull’indice R quadro (ipotesi nulla: R quadro = 0; ipotesi alternativa: R quadro diverso da 0 potremmo anche dire > 0, perché R quadro non può essere negativo) l’idea di questo test è se accettiamo ipotesi nulla, vuol dire che il modello è pessimo, vuol dire che le variabili indipendenti non spiegano nulla sulla dipendente la regressione non ha senso. Se accettiamo l’ipotesi alternativa, la regressione ha senso. Se bene o male ce lo dice R quadro. La significativa dell’anova < 0.005 le indipendenti spiegano la dipendente. “coefficienti”: si guarda la colonna “B”, che sono i coefficienti che completano il modello, cioè i coefficienti non standardizzati: indicano, per una variazione unitaria della VI (VI aumenta di 1), quanto varia mediamente la VD. Es. 282 (anni di studio) quando gli anni di studio aumentano di 1, la VD varia di 282 dollari. Per poterli confrontare fra loro le VI si guarda i coefficienti non standardizzati beta che non dipendono dall’unità di misura la VI che impatta di più è salario iniziale (0,807). Significatività legata a un test statistico sui coefficienti: (ipotesi nulla: coefficiente beta = 0; ipotesi alternativa: coefficienti beta diverso da 0) se accettiamo H0 la variabile cui è legato il coefficiente, non è significativa; se rifiuto H0, la variabile è significativa. (non si guarda la significatività della costante) variabili significative: salario iniziale, anni di studio. Mentre età dell’addetto e anni di lavoro non significative modello non ottimale. Per ottenere il modello ottimale, possiamo scegliere se fare modello stepwise (togliere tutte le variabili non significative in blocco) (qui lo possiamo fare). Se, invece, dovessimo essere in una situazione in cui non si può fare stepwise, dovremmo togliere da questo modello le variabili non significative e rifare il modello a patto che non ci siano problemi di collinearità se ce ne sono bisogna togliere una alla volta le variabili, perché sono talmente simili da rischiare di confondere l’impatto di uno e quello dell’altra. ( si deve guardare la numerosità campionaria, se si può fare o meno il metodo stepwise rapporto campione-variabili)

per valutare la collinearità o si guarda l’indice di tolleranza o VIF (uno il reciproco dell’altro) se vogliamo valutare la collinearità con la tolleranza la tolleranza misura la quota di variabilità unica: la quota di variabilità che una variabile non ha in comune con le altre la variabilità si scorpora in due quote: quota unica e quota comune nella regressione ci possono essere delle comunalità, ma non troppo perché se no c’è collinearità. Quindi la quota di quota unica dev’essere preminente. La tolleranza per andare bene, deve essere > 0.05. da cui, essendo l’indice VIF il suo reciproco, dev’essere < 2. questa è la situazione che va bene!!!! Non va bene, il contrario se tolleranza < 0,05 e VIF > 2 COLLINEARITÀ!!! Nel nostro caso ci sono due variabili: salario iniziale e anni di studio vanno bene; età dell’addetto e anni di lavoro hanno tolleranza < 0.05 ci sono problemi di collinearità (l’avevamo già evidenziato perché tra queste due variabili c’era una correlazione alta) noi possiamo fare il modello stepwise. Ma se non potessimo fare il modello stepwise perché non ce lo consente la numerosità campionaria quale delle due variabili togliere? Quella che impatta meno (qui è praticamente identico, così come la significatività) togliamo quella che da un punto di vista concettuale è meno importante per noi. La tolgo e vedo cosa succede.

Cliccare su dato “trasforma” e poi cliccare su regressione, senza dover fare tutto da capo cambiamo il metodo e mettiamo step wise. Se non avessimo potuto fare stepwise, il metodo sarebbe rimasto inserisci e avremmo tolto una variaible.

R quadro è aumentato a ogni passo. Già solo con una variabile (salario iniziale) avevamo un R quadro alto, quindi un modello molto buono ma se non andassimo avanti con gli altri step, sarebbe un modello ottimo ma non ottimale. Si guarda il coefficiente ed è tutto significativo e non ci sono problemi di collinearità.

MODELLO OTTIMALE (per costruirlo si guarda il modello nella tabella “coefficienti” che è al terzo passo) Salario corrente = - 1464 + 1,749salario iniziale – 80anni di lavoro + 294*anni di studio.

Questo modello lo possiamo usare per fare delle previsioni.

REGRESSIONE CON LE VARIABILI QUALITATIVE

La variabile dipendente nella regressione DEVE essere metrica. Le variabili indipendenti sono ammesse variabili dicotomiche: una variabile che ha solo 2 modalità: 0 e 1 le variabili dicotomiche devono essere poche, non in numero predominante rispetto alle variabili metriche. Se una variabile è già dicotomica di suo, la possiamo introdurre già nel modello così com’è, ma dev’essere codificate 0 e 1 (come il genere nel nostro caso). Se invece, una variabile è categorica, ma ha k diverse modalità (tipo le posizioni lavorative che sono 3) non possiamo introdurla così nel modello, ma dobbiamo introdurre k-1 nuove variabili binarie e queste possono essere inserite nel modello.

Introduciamo una variabile che è già dicotomica, come ad esempio il genere ricicciamo su trasforma, poi su regressione e come modello: inserisci e inseriamo “sesso dell’addetto”. Commentiamo questo valore “sesso” nella tabella “coefficienti” commento quali diverso dalla quanti B = -921 (qui non c’è una variazione unitaria, perché c’è maschio 0 e femmina 1) è come se fosse: passando da 0 a 1 quanto cambia la VD prese due persone, un maschio e una femmina, il salario mediamente diminuisce di 921 dollari. Le femmine guadagnano -921 dollari in meno rispetto ai maschi. La significativa è 0.007 e quindi è significativa e non ha problemi di collinearità è importante.

“categoria lavorativa” ha 3 modalità: impiegato, funzionario, dirigente. Il modello inziale aveva 4 variabili, abbiamo introdotto il genere e ora vogliamo introdurre la categoria lavorativa. Così com’è non possiamo introdurla nel modello da una variabile con K modalità, dobbiamo creare K - modalità dicotomiche. Dobbiamo creare 2 variabile dicotomiche Categoria lavorativa con 3 modalità:

  1. Impiegati
  2. Funzionari
  3. Dirigenti Dobbiamo creare 2 variabili dicotomiche: ✓ Impiegato assumerà valore 1 se il soggetto è impiegato; assumerà valore 0 se soggetto è funzionario o dirigente ✓ Creiamo variabile dirigente assumerà valore 1 se il soggetto è dirigente; assumerà valore 0 negli altri casi ✓ Non serve creare categoria funzionari, perché se impiegato = 0 e dirigente = 0 funzionari: negazione delle altre. Quindi nel modello stiamo mettendo 2 variabili, non 1 di partenza che era la categoria lavorativa. Si introducono variabili con poche modalità, non tante.

CREARE CON SPSS QUESTE DUE NUOVE VARIABILI: IMPIEGATO E DIRIGENTE (la modalità da non prendere in considerazione è a discrezione del ricercatore) ricodificare la variaible in variabili differenti MENù TRASFORMA che permette di ricodificare variabili nel foglio vista dati (“ricodifica in variabili differenti) ✓ Creiamo variabile “impiegato” (1 = categoria 1; 0 = altre categorie) nome: impiegato e poi clicchi su modifica. Regola di costruzione la diamo cliccando su “valori vecchi e nuovi”: vecchio valore = 1; nuovo valore = 1 clicco su “aggiungi”; poi clicco su “tutti gli altri valori” e nuovo valore = 0 e poi clicco su “aggiungi”. Poi, infine, clicco “continua”. Nel foglio vista variabile mi ha aggiunto la variabile “impiegato”. ✓ Creiamo variabile “dirigente” allo stesso modo della variabile precedente. Per cancellare le opzioni recenti, clicchiamo su “reimposta” nome: dirigenti. Clicca “modifica”, poi “valori vecchi e nuovi” vecchio valore = 3, nuovo valore = 1 clicco “aggiungi”; clicco “tutti gli altri valori” e nuovo valore = 0, clicco “aggiungi”.

Abbiamo creato le variabili dicotomiche legate alla categoria lavorativa e ora si possono aggiungere nel modello.

LABORATORIO TEST T e ANOVA

Si utilizza un TEST T o ANOVA quando si vuole

studiare la dipendenza tra una dipendente metrica ed

una variabile indipendente di tipo categorico espressa

in almeno due modalità.

Quando si utilizza un TEST T e quando ANOVA?

  • TEST T quando la variabile indipendente è

espressa in due modalità (esempio: variabile

dipendente GENERE, modalità M e F)

  • ANOVA quando la variabile indipendente è espressa in più di due modalità (esempio:

variabile dipendente CATEGORIA LAVORATIVA, modalità IMPIEGATI, FUNZIONARI,

DIRIGENTI)

TEST T

Domanda di ricerca 1

IL SALARIO CORRENTE DIPENDE DAL GENERE? TEST T PER CAMPIONI

INDIPENDENTI

PROCEDURA

Analizza Confronta medie Test T per campioni indipendenti

Una volta inserire le due variabili bisogna definire i gruppi della variabile di raggruppamento,

quindi cliccare su “definisci gruppi”:

Uscirà questa tabella in cui andranno

inserite:

VARIABILE DEL TEST ossia la

variabile dipendente, quindi nel nostro

caso il salario corrente;

VARIABILE DI RAGGRUPPAMENTO

ossia la variabile indipendente, quindi

nel nostro caso il genere

Uscirà questa tabella e va selezionato “utilizza valori specificati” e poi vanno inseriti i due sottogruppi. I nostri due sottogruppi sono M e F i quali sono stati precedentemente codificati come 0 e 1. Inserisco quindi 0 e 1. All’esame non devo automaticamente inserire 0 e 1 perché potrebbe essere codificato anche in un altro modo, ad esempio 1 e 2: devo controllare! Clicco su continua ed uscirà l’OUTPUT.

OUTPUT

Statistiche gruppo Sesso dell'addetto N Media Deviazione std. Media errore standard Salario corrente (dollari) Maschio 258 16576,71 7799,685 485, Femmina 216 10412,77 3023,209 205,

Si vede che la numerosità è diversa ma dello stesso ordine di grandezza, quindi si può fare il test. Si vede già che lo stipendio dei sessi è diverso, allora perché si fa il test? Per vedere se la differenza è significativamente diversa. Se la domanda fosse stata “nel nostro campione lo stipendio è diverso?” bastava vedere l’output statistiche di gruppo e confrontare e avrei detto si sono diverse. Se ho però degli obiettivi inferenziali (estendere il risultato dal campione alla popolazione) devo fare un test.

Guardo prima il test di Levene per capire se devo guarda la prima riga (varianze uguali non presunte) o la seconda riga (varianze uguali presunte).

1)TEST DI LEVENE HP NULLA: le varianze dei due gruppi non sono significativamente diverse (sono uguali) HP ALTERNATIVA: la varianza del primo gruppo è significativamente diversa dalla varianza del secondo

Se p-value < 0.05 rifiuto l’ipotesi nulla ovvero accetto l’ipotesi alternativa Se p-value > 0.05 accetto l’ipotesi nulla ovvero rifiuto l’ipotesi alternativa

Vado quindi a guardare la significatività del test di Levene sulla tabella che è 0.000. è minore di 0.005 quindi rifiuto l’ipotesi nulla ovvero accetto l’ipotesi alternativa per cui la varianza del primo gruppo è significativamente diversa dalla varianza del secondo gruppo.

Se p-value < 0.05 rifiuto l’ipotesi nulla ovvero accetto l’ipotesi alternativa Se p-value > 0.05 accetto l’ipotesi nulla ovvero rifiuto l’ipotesi alternativa

Vado quindi a guardare la significatività del test di Levene sulla tabella che è 0.000 (1.46* 10^-7). è minore di 0.005 quindi rifiuto l’ipotesi nulla ovvero accetto l’ipotesi alternativa per cui la varianza del primo gruppo è significativamente diversa dalla varianza del secondo gruppo.

Dal test di Levene è quindi emerso che le varianze dei due gruppi sono significativamente diverse, quindi devo prendere in considerazione la seconda riga del test t “varianze uguali non presunte”.

TEST T HP NULLA: le medie dei due gruppi non sono significativamente diverse HP ALTERNATIVA: le medie dei due gruppi sono significativamente diverse

Vado quindi a vedere la significatività del TEST T che è pari a 0.000, quindi minore di 0.05. Rifiuto, quindi, l’ipotesi nulla, ovvero accetto l’ipotesi alternativa bidirezionale per cui la media del primo gruppo è significativamente diversa dalla media del secondo gruppo. Ciò significa che il salario corrente dipende dalla partecipazione ai corsi di aggiornamento.

In realtà, avendo accettato l’ipotesi alternativa bidirezionale, sarà vera anche una delle due ipotesi monodirezionale. Consultando l’output “statistiche di gruppo” si può concludere accettando l’ipotesi monodirezionale destra per cui lo stipendio di chi ha partecipato ai corsi di aggiornamento è significativamente maggiore dello stipendio di chi non ha partecipato.

Domanda di ricerca 3

IL SALARIO È DIVERSO TRA IMPIEGATI E DIRIGENTI?

Sta chiedendo se il salario dipende dalla categoria lavorativa. Nel dataset la categoria lavorativa ha

tre modalità (funzionari, impiegati e dirigenti) quindi potrebbe venire spontaneo fare ANOVA. In

realtà nella domanda chiede il confronto solo tra due modalità (impiegati e dirigenti) quindi si può

fare un test t per campioni indipendenti andando a prendere solo le due modalità che ci interessano

(bisogna guardare come sono codificate).

PROCEDURA

Analizza Confronta medie Test T per campioni indipendenti inserire la variabile dipendente (salario corrente) e la variabile indipendente (categoria lavorativa) e definisco i gruppi tenendo conto della codifica del dataset (1=impiegato; 3=dirigenti).

OUTPUT

Statistiche gruppo Categoria lavorativa N Media Deviazione std. Media errore standard Salario corrente (dollari) Impiegato 363 11135,42 3027,198 158, Dirigente 43 27202,56 8301,440 1265,

La numerosità è troppo diversa quindi a scopo di ricerca non si procederebbe con il test, si procede solo per scopo didattico sapendo che si sta commettendo un errore più elevato di quello che era stato dichiarato. La media dello stipendio dei dirigenti risulta più elevata della media dello stipendio degli impiegati.

TEST DI LEVENE

HP NULLA: le varianze dei due gruppi non sono significativamente diverse (sono uguali) HP ALTERNATIVA: la varianza del primo gruppo è significativamente diversa dalla varianza del secondo

Se p-value < 0.05 rifiuto l’ipotesi nulla ovvero accetto l’ipotesi alternativa Se p-value > 0.05 accetto l’ipotesi nulla ovvero rifiuto l’ipotesi alternativa

Vado quindi a guardare la significatività del test di Levene sulla tabella che è 0.000. è minore di 0.005 quindi rifiuto l’ipotesi nulla ovvero accetto l’ipotesi alternativa per cui la varianza del primo gruppo è significativamente diversa dalla varianza del secondo gruppo.

Dal test di Levene è quindi emerso che le varianze dei due gruppi sono significativamente diverse, quindi devo prendere in considerazione la seconda riga del test t “varianze uguali non presunte”.

TEST T

HP NULLA: le medie dei due gruppi non sono significativamente diverse HP ALTERNATIVA: le medie dei due gruppi sono significativamente diverse

Vado quindi a vedere la significatività del TEST T che è pari a 0.000, quindi minore di 0.05. Rifiuto, quindi, l’ipotesi nulla, ovvero accetto l’ipotesi alternativa bidirezionale per cui la media del primo gruppo è significativamente diversa dalla media del secondo gruppo. Ciò significa che il salario corrente dipende dalla categoria lavorativa e che, quindi, lo stipendio degli impiegati è significativamente diverso dallo stipendio dei dirigenti.

In realtà, avendo accettato l’ipotesi alternativa bidirezionale, sarà vera anche una delle due ipotesi monodirezionale. Consultando l’output “statistiche di gruppo” si può concludere accettando l’ipotesi monodirezionale destra per cui lo stipendio dei dirigenti è significativamente maggiore dello stipendio degli impiegati.

Dal test di Levene è quindi emerso che le varianze dei due gruppi non sono significativamente diverse, quindi devo prendere in considerazione la prima riga del test t “varianze uguali non presunte”.

TEST T HP NULLA: le medie dei due gruppi non sono significativamente diverse HP ALTERNATIVA: le medie dei due gruppi sono significativamente diverse

Vado quindi a vedere la significatività del TEST T che è pari a 0.081, quindi minore di 0.05. Rifiuto, quindi, l’ipotesi alternativa, ovvero accetto l’ipotesi nulla per cui la media del primo gruppo non è significativamente diversa dalla media del secondo gruppo. Ciò significa che il salario corrente degli under 35 non è significativamente diverso dal salario corrente degli over 35.

Perché se era 13000 e 14000 è diverso il test mi dice che non è diverso? Perché la differenza che ho nel campione non è sufficientemente forte per dire che le medie sono diverse.

  • (^) Se la domanda di ricerca fosse stata “il salario dipende dall’età?” avremmo fatto una regressione semplice o una correlazione tra le due variabili. Se la VI Salario è metrica si tratta come una variabile metrica! Non la divido in due gruppi dicotomizzandola e facendo un test t. Se la domanda di ricerca è dipende da si ipotizza una regressione.

TEST T PER CAMPIONI ACCOPPIATI

Si utilizza quando abbiamo una stessa variabile analizzata in DUE MOMENTI DIVERSI e si ipotizza che in mezzo sia successo qualcosa. STESSA VARIABILE, STESSO CAMPIONE, MOMENTI DIVERSI.

Es: SALARIO INIZIALE/SALARIO CORRENTE

PROCEDURA Analizza Confronta medie Test t per campioni accoppiati

OUTPUT

Statistiche campioni accoppiati Media N Deviazione std.

Media errore standard Coppia 1 Salario iniziale (dollari) 6806,43 474 3148,255 144, Salario corrente (dollari)

13767,83 474 6830,265 313,

La media del salario corrente è maggiore della media del salario iniziale.

Correlazioni campioni accoppiati N Correlazione Sign. Coppia 1 Salario iniziale (dollari) & Salario corrente (dollari)

474 ,880 ,

Nel secondo output si vede una correlazione di 0.88 ciò significa che tra salario iniziale e salario corrente c’è una correlazione molto alta.

TEST T

H0: MT0 = MT

H1: MT0 =/ MT

La significatività che è 0,000 quindi maggiore di 0.05. Quindi rifiutiamo l’hp nulla e accettiamo l’hp l’alternativa: le due medie sono significativamente diverse. In realtà, avendo accettato l’ipotesi alternativa bidirezionale, sarà vera anche una delle due ipotesi monodirezionale. Consultando l’output “statistiche di gruppo” si può concludere accettando l’ipotesi monodirezionale destra per cui il salario corrente è

significativamente maggiore del salario iniziale.

Inseriamo la variabile pre (salario iniziale) in variabile 1 e variabile post (salario corrente) nella variabile 2. ok

OUTPUT

Statistiche descrittive Variabile dipendente: Salario corrente (dollari) Categoria lavorativa Media Deviazione std. N Impiegato 11135,42 3027,198 363 Funzionario 19324,76 7205,416 68 Dirigente 27202,56 8301,440 43 Totale 13767,83 6830,265 474

La media del salario corrente dei tre gruppi sembra essere diversa.

Test di Levene di eguaglianza delle varianze dell'errorea,b Statistica di Levene

gl1 gl2 Sign.

Salario corrente (dollari) Basato sulla media 90,988 2 471 , Basato sulla mediana 68,117 2 471 , Basato sulla mediana e con il grado di libertà adattato

68,117 2 220,826 ,

Basato sulla media ritagliata 83,335 2 471 , Verifica l'ipotesi nulla che la varianza dell'errore della variabile dipendente sia uguale tra i gruppi. a. Variabile dipendente: Salario corrente (dollari) b. Disegno: Intercetta + categlav

La prima cosa da guardare è il test di Levene basato sulla media.

TEST DI LEVENE HP NULLA: la varianza del primo gruppo è uguale alla varianza del secondo gruppo che è uguale alla varianza del terzo gruppo HP ALTERNATIVA: almeno una delle varianze è diversa

Dalla tabella in output si noti come la significatività sia pari a 0.00, dunque maggiore di 0.05. Dunque, rifiuto l’ipotesi nulla, ovvero accetto l’ipotesi alternativa, quindi le varianze non sono tutte uguali (ci serve per il post hoc dopo). Almeno una è significativamente diversa dalle altre.

Test di effetti tra soggetti Variabile dipendente: Salario corrente (dollari) Origine Somma dei quadrati di tipo III

gl Media quadratica

F Sign. Eta quadrato parziale

Modello corretto 12376406254, 87 a

2 6188203127, 4

300,782 ,000 ,

Intercetta 81661980781, 94

1 81661980781, 94

3969,233 ,000 ,

categlav 12376406254, 87

2 6188203127, 4

300,782 ,000 ,

Errore 9690233015, 7

471 20573743,

Totale 111914789908, 000

474

Totale corretto 22066639269, 14

473

a. R-quadrato = ,561 (R-quadrato adattato = ,559)

TEST EFFETTI TRA SOGGETTI la significatività è 0.

HP NULLA: le tre medie sono uguali HP ALTERNATIVA: almeno una è diversa

La significatività è 0.000, ossia maggiore di 0.05. Quindi rifiuto l’hp nulla, ovvero accetto l’hp alternativa, per cui le medie non sono tutte uguali. Ciò significa che il salario dipende dalla categoria lavorativa.

Si trova anche ETA QUADRATO INZIALE quando il campione è molto grande generalmente viene tutto significativo anche se ci sono delle piccole differenze. Calcolare eta quadrato è utile perché non dipende dalla numerosità campionaria. È un indice normalizzato che va da 0 a 1 ed indica la quota di varianza spiegata dal fattore.

DA 0 A 0.06 L’impatto è nullo o molto scarso;

DA 0.06 A 0.12 l’impatto è basso

DA 0.12 A 0.20 l’impatto è moderato

Maggiore di 0.20 è un impatto forte o molto forte

Questo indicatore ha senso guardarlo solo se il test è significativo perché la significatività potrebbe essere dovuta alle dimensioni campionarie molto elevate. Questo indice invece ce lo dice al netto della significatività: ci dice se l’impatto è davvero forte o no con i limiti di sopra.

Nel nostro caso ETA è 0.561 quindi è molto elevato e quindi significa che effettivamente tra il salario di impiegati, dirigenti e funzionari c’è una differenza molto significatività.

  • IMPIEGATO E FUNZIONARIO Significatività 0.00 CHE è MAGGIORE DI 0.05 QUINDI DIFF SIGN
  • (^) IMPIEGATO E DIRIGNETE 0.00 QUINDI DIFFERENZA SIGNIFICATIVA
  • DIRIGENTE FUNZIONARIO 0.00 QUINDI DIFFERENZA SIGNIFICATIVA

Si può quindi concludere che gli impiegati sono quelli che guadagnano in maniera significativamente minore e i dirigenti quelli che guadagnano di più.

DOMANDA DI RICERCA 2 IL SALARIO

CORRENTE DIPENDE DALL’INTERAZIONE TRA

CATEGORIA LAVORATIVA E GENERE?

La parola INTERAZIONE suggerisce che è un’ANALISI DELLA AVRIANZA A DUE VIE perché c’è una VD METRICA SALARIO CORRENTE e DUE VI CATEGORIA LAVORATIVA E GENERE. Si creeranno quindi diversi gruppi che dipendono dalla categoria lavorativa e dal genere (maschi funzionari, maschi dirigente, femmine funzionari, femmine dirigenti, ecc.).

L’analisi della varianza a due vie permette di stabilire gli effetti marginali o principali di una variabile per volta.

  • IL SALARIO DIPENDE DALLA CATEORIA LAVORATIVA
  • IL SALARIO DIPENDE DALL GENERE

Ma anche l’effetto di interazione:

  • IL SALARIO DIPENDE DALL’INTERAZIONE TRA I DUE?

PROCEDURA Analizza Modello LG Univariata

GRAFICI vorremmo avere tre grafici (effetto principale 1, effetto principale 2, effetto interazione)

  • per fare il grafico dell’effetto principale si inserisce una variabile per volta su asse orizzontale e clicchiamo ogni volta su aggiungi (metto una aggiungi, metto l’altra aggiungi)
  • Per fare il grafico dell’effetto interazione dobbiamo mettere una variabile sull’asse orizzontale e fare linee separate per l’altra variabile. Quale è meglio mettere sull’asse orizzontale? Vedere quante modalità hanno (categoria lavorativa 3, sesso 2)? È preferibile mettere sull’asse orizzontale la variabile con più modalità categoria lavorativa. CLICCARE SU AGGIUNGI DOPO AVERLE

• VD SALARIO CORRENTE

• FATTORI FISSI CATEGORIA

LAVORATIVA, SESSO DELL’ADDETTO

• OPZIONI STATISTICHE

DESCRITTIVE, STIME DELLE

DIMENSIONI DEGLI EFFETTI, TEST DI

OMOGENEITA’