















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una guida dettagliata sull'utilizzo del t-test con spss per il confronto di medie tra gruppi e variabili. Vengono spiegati i concetti di t-test a campione singolo, t-test a campioni indipendenti e t-test a campioni accoppiati, illustrando come applicarli in diversi contesti di analisi dei dati. Il documento include esempi pratici su come ricodificare variabili, definire gruppi e interpretare i risultati dei test, rendendolo uno strumento utile per studenti e ricercatori che desiderano approfondire le proprie competenze nell'analisi statistica con spss. Vengono inoltre fornite indicazioni su come valutare la significatività delle differenze tra le medie e come utilizzare gli intervalli di confidenza per trarre conclusioni valide.
Tipologia: Dispense
1 / 23
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
















Se analizzo un’analisi x → y mi devo assicurare che questa non sia spuria (è spuria se c’è una terza variabile che ha influenza sia sulla var. dipendente che su quella indipendente) es. variabile dipendente: frequenza di adolescenti che mangiano cibo spazzatura var. indipendente: frequenza di crimini Queste due variabili mostrano una correlazione ma la causa è un terzo fattore che influenza entrambe le variabili: impatto della propensione materna la propensione materna influenza il consumo di cibo spazzatura e la frequenza di crimini quindi la relazione tra il consumo di cibo spazzatura e il fatto che i crimini vengano commessi hanno una relazione spuria. Invece la relazione è diversa quando la terza variabile modifica la relazione che c’è tra le due variabili, in tal caso si tratta di una VARIABILE INTERVENIENTE Se analizzo il grado di soddisfazione di un ambiente di lavoro in cui le persone lavorano nel 2019 e voglio vedere qual è l'effetto che la soddisfazione ha sulla produttività del lavoro ma considero la produttività nel 2018 NON ha senso poiché non posso vedere se una cosa del 2019 influenza una cosa del passato (produttività 2018). Quello che viene dopo non può influenzare ciò che c’è stato prima!
Prendo il dataset hotel Considero advertising → livello di investimento in pubblicità (non è ordinale, non la posso usare così in una crosstab quindi la devo ricodificare in tre categorie basso- medio-alto) → per farlo vado su trasforma → ricodifica in variabili differenti → seleziono la variabile advertising e la chiamo adv_rec → modifica → valori vecchi e nuovi → gli dico che i valori da 1 a 3 saranno associati al valore 1, i valori da 3,1 a 4 saranno il valore 2 mentre i valori dal 4,1 in su (quindi in questo caso tutti gli altri valori) saranno i valori associati al 3. Dove per 1 sono i valori bassi, per due si intendono i valori medi, per 3 i valori alti Poi ‘continua’ → ‘ok’ → ho una nuova variabile (nuova colonna) con valori 1, 2 e 3 analizza → st. descrittive → seleziono la mia variabile adv_rec e controllo che sia tutto ok → è tutto ok Ora assegno dei valori a questa variabile da ‘vista variabile’ → clicco sulla colonna ‘valori’ i tre puntini e metto delle etichette ai valori: poi clicco ‘ok’ cambio anche la misura che di default me la dà come variabile nominale, mentre ora è ordinale quindi cambio e metto ‘ordinale’ Ora posso incrociare le due variabili segment e advertising (investimenti in pubblicità) Cosa mi aspetto? Che il segmento (var. indipendente) influisca sugli investimenti in pubblicità Analizza → statistiche descrittive → tabelle di contingenza : (dipendente nelle righe e indipendente nelle colonne) però se da qui clicco solo ‘ok’ non ottengo info utili, quindi mi servono i valori percentuali
Utilizzando questo stesso dataset fai due analisi:
Ho voluto testare se gli hotel con guadagno maggiore siano anche quelli che effettivamente registrano una soddisfazione maggiore dei loro clienti magari ipotizzando che possano fare investimenti maggiori avendo più budget per far sì che i clienti siano più soddisfatti. Per farlo ho reso entrambe le variabili Satisfaction e Revenue ordinali dove: Per la variabile Revenue → guardo con statistiche descrittive i quartili e divido in tre classi (il primo quartile 25%, il range interquartile 50% e l’ultimo 25%) 1 sta per quelli che hanno un guadagno basso, 2 sta per quelli con un guadagno medio mentre 3 sta per quelli che hanno un guadagno alto. Per la variabile Satisfaction → questa so che è misurata da 1 a 7 quindi la ricodifico in variabili differenti e dico che i valori da 1 a 3 sono quelli con soddisfazione “bassa”, quelli da 3,1 a 4 “media”, mentre quelli da 4,1 a 7 “alta”. Creo la crosstab → l’ipotesi è verificata poiché effettivamente gli hotel con guadagni alti registrano mediamente percentuali maggiori di soddisfazione registrata dai clienti.
La prima tabella è descrittiva, mi dice la media di salario dei due gruppi e la numerosità dei due gruppi, mi dice anche la dev. standard e l’errore standard (de. standard / radice quadrata di n) per entrambi i gruppi. Poi ho il test vero e proprio Ho due righe: nella prima riga le varianze stimate nei due gruppi sono assunte come uguali; nella seconda riga le varianze dei due gruppi non sono assunti come uguali La differenza tra questi due non è di poco conto → quando sommo le due varianze dico che queste hanno lo stesso peso però se le due varianze non sono uguali, il grosso di quella variabilità sarà prodotto solo da un gruppo e ho una distorsione. Bisogna stabilire se le due varianze possono essere considerate come uguali o no → faccio il TEST PER UGUAGLIANZA DELLE VARIANZE Si tratta di un test di ipotesi che confronta la varianza nel gruppo 1 e la varianza nel gruppo
Azienda che ha stabilito un obiettivo da raggiungere pari a 60 come livello di soddisfazione dei dipendenti. H0 → le medie sono uguali; H1 → le medie sono diverse Per fare questa verifica (se la media stimata all’interno del nostro campione è uguale a quella della popolazione) faccio un t test a campione singolo Analizza → confronta medie → ho vari t test e voglio fare un t test a campione singolo Mi si apre il box con le variabili Il valore del test è la media di popolazione. Clicco ok e ottengo questo: All’interno del mio campione stiamo stimando la media della soddisfazione e la confronto al valore obiettivo 60 per vedere se è stato raggiunto l’obiettivo oppure no. Stiamo studiando la soddisfazione per il lavoro nel 2019. Nella prima tabella ottenuta abbiamo il numero di osservazioni e le statistiche descrittive (dev standard e errore standard → che è il rapporto tra la dev standard e la radice quadrata di n) A questo punto descrittivamente già so che la media è più bassa rispetto al parametro della popolazione. La differenza tra queste due medie (quella del campione 48,6 meno quella della popolazione 60) la trovo nella tabella sotto. Questa differenza è dovuta alla variabilità campionaria o è sistematica? Per vederlo riporto questa differenza della media in termini di t → calcolo la statistica t che è data dalla differenza tra le due medie diviso l’errore standard La statistica t è pari a -7,8 → primo valore nella tabella sotto Questa differenza è significativa?
Ora o guardo i gradi di libertà (dati da n1-1 + n2-1) che sono 96, guardo la tabella e i valori critici e li confronto Oppure prendo il valore di p → probabilità di osservare la differenza tra le due medie se fosse vera l’ipotesi nulla → la vedo nella sezione ‘Significatività’ che è divisa in test a una coda e test a due code. La P bilaterale a due code è molto alta quindi devo rigettare l’ipotesi alternativa e prendere per buona l’ipotesi nulla → la differenza non è significativa Oppure utilizzo l’intervallo di confidenza costituito intorno alla differenza tra le due medie → nel 95% dei casi avrei un valore compreso tra -353 e 130, intervallo che comprende lo zero → la differenza non è significativa Altro test che si può fare usando un test a campioni indipendenti è vedere se le imprese che operano anche nei mercati internazionali pagano anche dei salari migliori Considera i salari del 2019 Ricodifico la variabile market e la rendo dicotomica (1=nazionale, 2=internazionale) Analizza → confronta medie e proporzioni → t test a campioni indipendenti Dato che 0,706>0,05 non posso rifiutare l’ipotesi nulla, considero la prima riga Guardo il valore di p → probabilità di osservare la differenza tra le due medie se fosse vera l’ipotesi nulla nella sezione ‘Significatività’ → dato che è molto alta devo rigettare l’ipotesi nulla e prendere per buona l’ipotesi nulla → la differenza non è significativa Oppure guardo l’intervallo di confidenza, vedo che in questo ricade lo zero quindi arrivo alla stessa conclusione → la differenza non è significativa Oppure guardo il t test sulla tabella Altro modo per generare una dicotomica: Trasforma → crea variabili dummy → porto la categoriale nel blocco in alto (variabile mercati) e dare un nome in radice, sto dicendo ad SPSS di prendere ciascun valore e per ciascun valore creare una dicotomica che avrà come nome comune la radice quadrata di mercato (market_) → ok
mi ha creato 4 colonne → in realtà dovrei averne 3, dovevo ricodificare prima perché c’è un errore
T-test a campioni accoppiati Nel test a campioni indipendenti si prende il campione, si divide in due gruppi e in ciascun gruppo si calcola la media del campione di interesse. Il test a campioni accoppiati invece si analizza lo stesso campione e si confrontano nello stesso campione due variabili che misurano lo stesso oggetto oppure che misurano sulla stessa scala oggetti analoghi (es. posso comparare le stesse unità prima e dopo un trattamento sperimentale). Il risultato è avere due variabili misurate su tutto il campione. Si tratta di due misurazioni che vengono accoppiate e comparate tra di loro. Altra possibilità è quando l’oggetto è misurato in due punti diversi del tempo → anche in questo caso uso il t-test a campioni accoppiati. La modalità di condurre il test è diversa rispetto al t-test a campioni indipendenti ma la logica rimane la stessa. Altro esempio su come usare un t-test a campioni accoppiati:
Ora voglio testare se c’è una differenza nei salari percepiti nel 2019 e quelli percepiti nel 2021. Mi aspetto che nel 2021 la media di salari pagata sia più alta. Analizza → confronta media → test t a campioni accoppiati Ipotesi nulla → media delle differenze pari a 0 Ipotesi alternativa → c’è una differenza → ipotesi che voglio testare Considero sempre alfa pari al 5% Sotto a ‘Variabile 1’ metto i salari del 2019, mentre sotto a ‘Variabile 2’ metto i salari del 2021
Ora mi calcolo la media delle differenze Analizza → statistiche descrittive → frequenze → seleziono deltasalario e nelle statistiche chiedo la media Ottengo - 78, Se lo trasformo in un valore di t con la formula ottengo -3, che è il valore che potevo vedere nella tabella che ho ottenuto prima facendo il t test a campioni accoppiati → questi sono i passaggi che il t test a campioni accoppiati fa in automatico A me interessa il t test a campioni accoppiati, ho aggiunto un passaggio solo per capire come funziona ma non mi serve per l’esame Esercizio: in che modo la soddisfazione per il proprio lavoro nel 2019 influenza le percezioni sul covid- Var. dipendente → percezione del covid Var. indipendente → soddisfazione del lavoro Ipotesi alternativa: mi aspetto una differenza (chi è molto soddisfatto e chi è poco soddisfatto del proprio lavoro avranno una percezione diversa del proprio lavoro) chi nel 2019 è più soddisfatto ha percepito il covid meglio, rispetto a chi era poco soddisfatto. Il t test a campioni accoppiati lo posso fare se le due variabili sono misurate sulla stessa scala ma qui la soddisfazione è misurata in una scala da 0 a 100 (variabile quantitativa) mentre la percezione del covid in una scala da 1 a 7 (ordinale). Non posso accoppiare due misure differenti → non posso fare un t test a campioni accoppiati poiché i due fenomeni non
sono misurati sulla stessa scala. La strada giusta è o ricodificare in due categoriali entrambe le variabili (sia soddisfazione che covid) e faccio una crosstab e verifico l’effetto della soddisfazione sulla percezione del covid; oppure, per effettuare il t test a variabili indipendenti, devo avere una variabile dipendente che è una cardinale e una indipendente che è una dummy dicotomica. Ricodifico la soddisfazione per il lavoro in una dummy. Il t-test a campioni indipendenti mette in relazione due medie stimate in due gruppi e sono i gruppi definiti dalla variabile indipendente, quindi la soddisfazione deve diventare una dummy. Quindi ricodifico la soddisfazione in 2 gruppi → soddisfatti e non soddisfatti Per dividere la variabile uso il fatto che il 60 mi rappresenta la sufficienza (è una scelta arbitraria, non c’è un modo giusto di fare, ma qualsiasi scelta faccio la devo giustificare). Trasformo la variabile indipendente: trasforma → ricodifica in variabili differenti → Quindi da 0 a 59 è insufficiente e gli dò valore 0 mentre da 60 in sù ho la sufficienza Osservo la dummy ottenuta Ora mi vado a vedere le statistiche descrittive della nuova variabile: Capisco che il criterio di classificazione scelto non è adatto empiricamente poiché i valori ‘sufficienti’ > 60 sono solo 5. Scelgo un approccio diverso e scelgo la mediana Guardo le statistiche descrittive della variabile iniziale e mi faccio dire la mediana da SPSS
So che la mediana è 50, Vado a generarmi una nuova variabile Ricodifico in variabili differenti e dico che fino alla mediana (50,4) ho valori insufficienti →0 e dopo la mediana ho valori sufficienti → 1 Creo così una dummy Ora la variabile indipendente è una dicotomica e la variabile dipendente è un’ordinale che sto trattando come se fosse una variabile quantitativa. Analizza → confronta medie e proporzioni → t test a campioni indipendenti (che mi fa fare la differenza tra due medie, non è la media delle differenze ma è la media di effetto covid nel gruppo 0, cioè quelli che non sono soddisfatti, e la media dell’effetto covid nel gruppo 1, cioè quelli che sono soddisfatti) Ora faccio il t test a campioni indipendenti perché faccio la differenza tra due medie La variabile dipendente è l’effetto del covid, mentre l’indipendente è la soddisfazione nuova ricodificata in una dummy Devo definire i gruppi che sono 0 e 1 (0 sono quelli non soddisfatti, mentre 1 sono quelli soddisfatti) → ok → continua Osservo che nel gruppo 1 (quello dei soddisfatti) ha una percezione migliore del covid rispetto a quello dei non soddisfatti. La differenza stimata è -7 punti → è una differenza statisticamente significativa o no? Vedo il t test → la differenza viene trasformata in un valore di t pari a -2,
Guardo il valore di t che è -2,4 a cui è associato il valore di p che è 0,10 se prendo in considerazione le varianze uguali presunte o 0,049 se considero le varianze uguali non presunte. Guardo la seconda riga (guardo la seconda riga perché il livello di significatività associato ad F è 0,003 che è minore di 0,05 quindi rifiuto l’ipotesi nulla, cioè quella di varianze uguali presunte, e accetto l’ipotesi alternativa) → variabili uguali non presunte Ho un p value di 0,049, quindi sotto 0,05. La differenza tra i due gruppi è significativa statisticamente? Sì, quindi ciò che ho ipotizzato inizialmente (ovvero che il gruppo dei più soddisfatti ha una percezione migliore dell’effetto del covid rispetto al gruppo dei non soddisfatti) è un’ipotesi verificata empiricamente. Se prendo l’intervallo di confidenza al 95% calcolato sulla confidenza tra le due medie (-0,72) vedo che va da -1,45 a -0,004 cioè sono molto vicina allo zero (ovvero al fatto di includere una differenza tra le due medie uguali a zero che confermerebbe l’ipotesi nulla). Quindi la differenza sì è significativa ma per poco. Quindi quando il p-value associato ad F è minore di 0,05 devo rifiutare l’ipotesi nulla (medie uguali) e accettare l’ipotesi alternativa, se invece questo p-value è al di sopra di 0,05 non posso rifiutare l’ipotesi nulla (che sarebbe che le due varianze sono uguali) In questo caso un p-value al di sotto di 0,05 rigetta l’ipotesi nulla (cioè che le due varianze siano uguali) e accetta l’ipotesi alternativa (cioè che le varianze non siano uguali) e quindi si guarda la seconda riga Per fare un test a campioni accoppiati posso usare la soddisfazione 19 e la soddisfazione 21 Mi chiedo come è cambiata la soddisfazione nel 2019 e nel 2021. Testo la media delle differenze. Ipotesi nulla → media delle differenze pari a 0 Ipotesi alternativa → c’è una differenza → ipotesi che voglio testare Analizza → confronta media → test t a campioni accoppiati Ho una tabella con le descrittive delle due variabili del test (soddisfazione 19 e soddisfazione 21)