Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Il programma SPSS (Prof Roccato e Prof Russo), Sintesi del corso di Metodologia Della Ricerca Psicologica

Il documento è composto dalla sintesi del libro proposto dai professori integrata agli appunti presi a lezione. Presenta tutta la forma teorica trattata e tutti i comandi da utilizzare passo-passo su SPSS, comprese immagini e spiegazioni di tutte le tabelle output. Insieme alla prima parte del corso, questo documento mi ha permesso di arrivare ad una valutazione di 30 e lode

Tipologia: Sintesi del corso

2025/2026

In vendita dal 08/01/2026

giulia-paci-2
giulia-paci-2 🇮🇹

4

(1)

18 documenti

1 / 10

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
SPSS
Il questionario su cui lavoriamo è una rilevazione di opinioni sul movimento no TAV (progetto treno alta velocità torino-lione
presentato in Val Susa). Presenta alcune domande generali (es la prima è una batteria sulle istituzioni), altre più specifiche relative a
conoscenza e valutazione del TAV. Il questionario chiude con domande generali riferite ai partiti politici.
Matrice dati caso x variabile riga: rispondente, colonna: variabili
Elenco variabili contenute nel dataset: ognuna corrisponde a una domanda del questionario.
Esempi di domande all’esame:
Quando è utile ricodificare? Troppe modalità di risposta, quando sono orientate in un modo controintuitivo
Cosa ci dice una correlazione? Con quale livello di scala di variabile si può testare una correlazione?
Quali sono gli step da seguire prima di poter creare un indice quando si ha una batteria? controllo rispetto a come sono orientati gli
item, capovolgerne alcuni…
Cosa sono le tabelle di contingenza? Quando servono? Può servire per controllare di aver fatto bene le ricodifichi oppure per
analizzare l’associazione tra due variabili attraverso il test del chi quadrato
Che cosa è il chi quadrato? quando si usa? quali sono gli elementi importanti da considerare nella lettura del chi quadrato? La prima
cosa che si guarda è la significatività e poi i residui standardizzati
LA FINESTRA DATA EDITOR
Prima finestra che si apre automaticamente, è il foglio elettronico che contiene i dati che devono essere analizzati. Da qui è possibile
creare nuovi file di dati o modificare quelli esistenti. I dati inseriti
costituiscono il dataset.
Questa finestra è visionabile in 2 modalità: Data View (per ogni
colonna visualizza i dati relativi a una variabile) e in modalità
“Variable View” dove è possibile indicare le etichette delle
variabili e delle loro modalità e i valori mancanti
In questa finestra in alto è presente la barra menù con diversi comandi, i principali sono: “fileDove troviamo operazioni relative
all’apertura, salvataggio stampa e chiusura del file e del programma, “edit”, per modificare i dati nelle finestre (esempio selezionare,
copiare o tagliare parti di dati o di output), “view”, che contiene opzioni tra le quali quelle per passare dalla visualizzazione dati alla
visualizzazione variabili e viceversa, “transform”, che contiene una serie di comandi per la trasformazione dei dati e la creazione di
nuove variabili, quella che utilizziamo di più è “Analyze” che consente di eseguire le principali funzioni di analisi dei dati.
LA FINESTRA OUTPUT-VIEWER
Riporta i risultati delle analisi statistiche eseguite. Di solito questi risultati sono riportati in tabelle. È diviso in due riquadri: uno
contenente una sintesi del contenuto dell’output, un contenente le tabelle.
La barra dei menù relativa a questa finestra contiene gli stessi comandi di quella precedente e in aggiunta: “insertper inserire
nell’output interruzioni di pagina, intestazioni, titoli, eccetera e “format” che consente di gestire l’allineamento grafico dell’output
LA FINESTRA SYNTAX
È un file di testo all’interno del quale si possono scrivere i comandi in linguaggio SPSS per preparare i dati e per eseguire su essi
trasformazioni e analisi. L’attivazione della sintassi e quindi l’esecuzione dei comandi ce essa contiene avviene tramite il tasto Run
(freccia verde). Rispetto alle precedenti finestre contiene in aggiunta il menù “run” che consente di eseguire i comandi di sintassi.
PRINCIPALI OPERAZIONI
Inserimento dei dati e creazione di un file dati
Informazioni sulle variabili: Nome: nome della variabile (che non può contenere spazi o iniziare con un numero non più lunghi di 25
caratteri) Etichetta: descrizione variabile. Valori: descrizioni delle modalità di risposta. Sono i numeri con cui ogni modalità di
risposta è stata codificata, questi codici devono essere mutualmente escludentesi, è consigliabile una coerenza nella scelta dei codici
(ad esempio se si è utilizzato 1 per la risposta sì di una variabile, lo stesso codice per le altre) ed è consigliata una omogeneità dei
codici con il tipo di risposta rappresentato (1 per il valore più piccolo). Mancanti: possono essere valori mancanti discreti (valori che
devono essere considerati come mancanti esempio indicati con dei 9) gamma dei valori mancanti (un continuum di valori da
considerare come missing ad esempio tutti i valori superiori a 8) oppure una gamma dei valori mancanti +1 discreto. Le scale di
misura: quando misuriamo qualcosa, trasformiamo una serie di eventi in numeri, la scala di misura è la funzione di relazione che
stabiliamo tra pubblico degli eventi e quello numerico. Scala nominale: i valori dei dati rappresentano categorie senza alcun ordine,
possono essere valori di stringa (alfanumerici) o numerici che rappresentano categorie distinte (ad esempio 1= femminile, 2=
maschili), scala ordinale: i valori dei dati rappresentano categorie con qualche ordine intrinseco (ad esempio basso medio alto,
favorevole contrario) possono essere valori di stringa o numerici (1=basso, 2=alto) la scala ad intervalli equivalenti: è un sistema di
classificazione nel quale i valori consentono di stabilire una relazione di distanza tra più oggetti misurati, a partire da uno 0 fissato in
modo arbitrario e stabilendo un’unità di misura costante. Non consente di sapere la quantità effettiva di una caratteristica misurata,
ma stabilisce la loro posizione e la loro distanza. Scala a rapporti equivalenti: sistema di classificazione che a differenza del
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Il programma SPSS (Prof Roccato e Prof Russo) e più Sintesi del corso in PDF di Metodologia Della Ricerca Psicologica solo su Docsity!

SPSS

Il questionario su cui lavoriamo è una rilevazione di opinioni sul movimento no TAV (progetto treno alta velocità torino-lione presentato in Val Susa). Presenta alcune domande generali (es la prima è una batteria sulle istituzioni), altre più specifiche relative a conoscenza e valutazione del TAV. Il questionario chiude con domande generali riferite ai partiti politici. Matrice dati caso x variabile riga: rispondente, colonna: variabili Elenco variabili contenute nel dataset: ognuna corrisponde a una domanda del questionario. Esempi di domande all’esame: Quando è utile ricodificare? Troppe modalità di risposta, quando sono orientate in un modo controintuitivo Cosa ci dice una correlazione? Con quale livello di scala di variabile si può testare una correlazione? Quali sono gli step da seguire prima di poter creare un indice quando si ha una batteria? controllo rispetto a come sono orientati gli item, capovolgerne alcuni… Cosa sono le tabelle di contingenza? Quando servono? Può servire per controllare di aver fatto bene le ricodifichi oppure per analizzare l’associazione tra due variabili attraverso il test del chi quadrato Che cosa è il chi quadrato? quando si usa? quali sono gli elementi importanti da considerare nella lettura del chi quadrato? La prima cosa che si guarda è la significatività e poi i residui standardizzati LA FINESTRA DATA EDITOR Prima finestra che si apre automaticamente, è il foglio elettronico che contiene i dati che devono essere analizzati. Da qui è possibile creare nuovi file di dati o modificare quelli esistenti. I dati inseriti costituiscono il dataset. Questa finestra è visionabile in 2 modalità: Data View (per ogni colonna visualizza i dati relativi a una variabile) e in modalità “Variable View” dove è possibile indicare le etichette delle variabili e delle loro modalità e i valori mancanti In questa finestra in alto è presente la barra menù con diversi comandi, i principali sono: “ file ” Dove troviamo operazioni relative all’apertura, salvataggio stampa e chiusura del file e del programma, “ edit ”, per modificare i dati nelle finestre (esempio selezionare, copiare o tagliare parti di dati o di output), “ view ”, che contiene opzioni tra le quali quelle per passare dalla visualizzazione dati alla visualizzazione variabili e viceversa, “ transform ”, che contiene una serie di comandi per la trasformazione dei dati e la creazione di nuove variabili, quella che utilizziamo di più è “ Analyze ” che consente di eseguire le principali funzioni di analisi dei dati. LA FINESTRA OUTPUT-VIEWER Riporta i risultati delle analisi statistiche eseguite. Di solito questi risultati sono riportati in tabelle. È diviso in due riquadri: uno contenente una sintesi del contenuto dell’output, un contenente le tabelle. La barra dei menù relativa a questa finestra contiene gli stessi comandi di quella precedente e in aggiunta: “ insert ” per inserire nell’output interruzioni di pagina, intestazioni, titoli, eccetera e “ format ” che consente di gestire l’allineamento grafico dell’output LA FINESTRA SYNTAX È un file di testo all’interno del quale si possono scrivere i comandi in linguaggio SPSS per preparare i dati e per eseguire su essi trasformazioni e analisi. L’attivazione della sintassi e quindi l’esecuzione dei comandi ce essa contiene avviene tramite il tasto Run (freccia verde). Rispetto alle precedenti finestre contiene in aggiunta il menù “ run” che consente di eseguire i comandi di sintassi. PRINCIPALI OPERAZIONIInserimento dei dati e creazione di un file dati Informazioni sulle variabili: Nome : nome della variabile (che non può contenere spazi o iniziare con un numero non più lunghi di 25 caratteri) Etichetta : descrizione variabile. Valori : descrizioni delle modalità di risposta. Sono i numeri con cui ogni modalità di risposta è stata codificata, questi codici devono essere mutualmente escludentesi, è consigliabile una coerenza nella scelta dei codici (ad esempio se si è utilizzato 1 per la risposta sì di una variabile, lo stesso codice per le altre) ed è consigliata una omogeneità dei codici con il tipo di risposta rappresentato (1 per il valore più piccolo). Mancanti : possono essere valori mancanti discreti (valori che devono essere considerati come mancanti esempio indicati con dei 9) gamma dei valori mancanti (un continuum di valori da considerare come missing ad esempio tutti i valori superiori a 8) oppure una gamma dei valori mancanti +1 discreto. Le scale di misura : quando misuriamo qualcosa, trasformiamo una serie di eventi in numeri, la scala di misura è la funzione di relazione che stabiliamo tra pubblico degli eventi e quello numerico. Scala nominale: i valori dei dati rappresentano categorie senza alcun ordine, possono essere valori di stringa (alfanumerici) o numerici che rappresentano categorie distinte (ad esempio 1= femminile, 2= maschili), scala ordinale : i valori dei dati rappresentano categorie con qualche ordine intrinseco (ad esempio basso medio alto, favorevole contrario) possono essere valori di stringa o numerici (1=basso, 2=alto) la scala ad intervalli equivalenti : è un sistema di classificazione nel quale i valori consentono di stabilire una relazione di distanza tra più oggetti misurati, a partire da uno 0 fissato in modo arbitrario e stabilendo un’unità di misura costante. Non consente di sapere la quantità effettiva di una caratteristica misurata, ma stabilisce la loro posizione e la loro distanza. Scala a rapporti equivalenti: sistema di classificazione che a differenza del

precedente, consente di eseguire operazioni aritmetiche direttamente sui valori della scala, essendo l’origine della scala uno 0 assoluto. Misura la quantità effettiva di una caratteristica, quello che rimane costante infatti è il rapporto tra i valori della scala.  Apertura di un file dati Con SPSS è possibile importare dati da file creati utilizzando diversi altri programmi. I più comunemente usati sono:

  • file creati con il programma Excel se si intende immettere i dati con questo programma, si devono inserire i dati di ogni soggetto su una riga della griglia, digitando una variabile per ogni colonna in maniera progressiva.
  • file in formato ascii (word), cioè solo testo senza formattazioni I file di solo testo possono essere di due tipi: formato fisso (nel quale i valori di ogni variabile sono registrati nella stessa posizione di colonna per ogni caso), e formato libero (le variabili sono registrate nello stesso ordine per ogni caso, ma non necessariamente nella stessa posizione. Gli spazi sono interpretati come delimitatori tra valori assunti e più di un caso può essere registrato sulla medesima linea dei dati)
  • file dati nel formato SPSS ottenuti, inserendo i dati direttamente nel Data Editor.  “Pulizia” dati: controllare errori di inserimento, presenza dati mancanti, soggetti outlier mediante analisi frequenze.  Trasformazioni dati: è possibile effettuare delle trasformazioni per creare nuove variabili partendo dalle originali  Calcolo statistiche descrittive: il calcolo delle statistiche descrittive di una variabile rappresenta quei parametri, come media, varianza, deviazione standard, valori di asimmetria e curtosi, valore massimo e minimo che sintetizzano come sono distribuiti nel campione i valori che essa può assumere, quanto tali valori si distribuiscono secondo un andamento normale o viceversa se alcuni di essi sbilanciano la distribuzione (verificare l’approssimazione della distribuzione alla curva normale). La media si definisce come la somma delle misure osservate diviso un numero delle osservazioni fatte e rappresenta quindi un indicatore che sintetizza il valore centrale di un insieme di dati, misurati a livello di scala a intervalli o a rapporti equivalenti, la deviazione standard, è una misura della dispersione della media, ovvero di quanto i punteggi si discostano da questa. La varianza è un’altra misura della dispersione dei punteggi rispetto alla media, si ottiene dal quadrato della deviazione standard ed è pertanto la media aritmetica dei quadrati degli scarti dei punteggi originali rispetto alla media. Attenzione a scala che deve consentire calcolo media e ds (=cardinali, se siamo pragmatici anche ordinali)  Analisi statistiche: correlazione, analisi fattoriale, attendibilità, regressione, anova. PULIZIA DEI DATI- analisi frequenze Per poter accedere ad una corretta analisi dei dati è necessaria una serie di operazioni preliminari di controllo (screening) dei dati. Ci sono diversi modi per controllare la precisione dell’inserimento dei dati, uno dei più comuni è l’analisi delle frequenze (verifica se i valori inseriti rientrano nella gamma di quelli previsti per la variabile considerata, verificare presenza di dati mancanti e verificare la distribuzione delle risposte relative ad una specifica variabile). Questa ci permette di vedere quante persone hanno risposto in un determinato modo a una certa variabile. La frequenza si può misurare su scale di tipo nominale (sesso del soggetto), ordinale (ordine di arrivo ad una gara) e ad intervalli (variabili misurate con scale di tipo likert). Cercando la variabile nel programma (analizza statistiche descrittive frequenze si cerca la variabile, si clicca e si clicca la freccia blu accanto) e cliccando su incolla si apre una seconda finestra con dei comandi per aprire la sintassi. Selezionando le ultime due righe si clicca sulla freccia verde sopra (sotto “grafici”) e così si apre la terza finestra. Essa mostra: quanti casi validi e mancanti abbiamo e i casi totali. Numeri assoluti su categorie (colonna frequenze) ovvero il numero di soggetti che ha scelto ognuno dei valori assunti dalla variabile, la terza colonna li trasforma in percentuali , la quarta colonna specifica le percentuali valide (diverse perché nella seconda sono calcolate su la totalità dei casi, anche le risposte non valide, mentre in questa solo le valide). L’ultima colonna da percentuale cumulativa (prima riga= percentuale di chi ha dato prima risposta, seconda riga=percentuali di chi ha dato prima e seconda risposta sommata…) Dalla tabella possiamo identificare eventuali errori, per esempio se nei valori assunti dalla variabile (prima colonna) trovassimo un valore fuori potremmo capire che c’è stato un errore e si può procedere co l’identificare nel file dati il soggetto e se non si riesce può essere inserito come valore mancante. Attraverso le frequenze è inoltre possibile identificare gli outlier, ovvero dei soggetti che presentano valori anomali o estremamente bassi o alti. Quando ci sono tanti variabili di risposte come nel caso dell’età (da tutte le età da 16 a 88), si può lanciare le descrittive al posto delle frequenze in modo che la tabella che ne emerge sia molto più sintetica ci danno il range (il valore minimo e massimo), la media e la deviazione standard. Le descrittive NON SI USANO per variabili categoriali/nominali (i valori sono attribuiti in modo arbitrario es 1 uomo-2 donna) né ordinali (variabili sulla quale ha senso ragionare in senso di maggiore e minore). Invece SI USANO cardinali (quelle su cui si possono fare operazioni). TRASFORMAZIONI DATI

Istruzione dividi file: un altro metodo per condurre calcoli e analisi separatamente su specifiche parti del campione. Si possono presentare contemporaneamente i risultati per ogni sottogruppo oppure rappresentare i risultati separatamente per ogni sottogruppo.  Istruzione unisci file: È possibile aggiungere nuovi casi (Consentendo di unire il file dati di lavoro con un secondo file dati contenente le stesse variabili, ma casi diversi) o nuove variabili al file originario (consente di unire file dati di lavoro con file dati esterno contenente stessi casi ma variabili diverse).  Istruzione ordina casi: ci permette di ordinare i casi o i soggetti, ovvero le righe del nostro file dati, sulla base dell’ordine assunto dai valori di uno o più variabili del set di dati in modo crescente o decrescente. FREQUENZE INCROCIATE- Tabella di contingenza In base alla quale si possono confrontare in un’unica tabella le frequenze di due variabili per studiare quanto alla presenza di una certa modalità di risposta riguardante una variabile, si associa una modalità di risposta su un’altra variabile che ci interessa studiare in relazione alla prima. Servono ad analizzare l’associazione tra due variabili nominali (o massimo ordinali), il test per stabilire la significatività dell’associazione è il chi quadro. Consigliato il loro uso anche per controllare la correttezza di una ricodifica in variabili differenti Variabileanalizza statistiche descrittive tabelle di contingenza. Su righe “x_amp” su colonne “prov_To”. Emerge es. riga 1: chi aveva messo ampiezza centro 1 (meno di 5.000) sta nella colonna 1 di variabile provincia Torino (la prima colonna corrisponde a 1= stavano fuori torno) e così via. RELAZIONI TRA VARIABILIAssociazione (CHI QUADRATO) È un indice statistico di associazione tra due variabili, utile per esaminare le distribuzioni dei valori assunti da variabili misurate a livello nominale. Si basa sulla quantificazione del rapporto tra le frequenze rilevate in ciascun gruppo di soggetti e le frequenze attese se fossero equamente distribuite tra i vari gruppi. È sempre superiore a 0 a meno che l’ipotesi nulla (le frequenze attese=quelle rilevate) sia vera e in quel caso sarà uguale a 0. Es. Genere (donna-uomo) e occupazione (occupato-disoccupato) Cosa succederebbe se non ci fosse una relazione? Se il genere non c’entrasse nulla con la disoccupazione/occupazione, avremmo un 25% in ognuna delle 4 situazioni. Quello che fa il chi quadro è un confronto tra le frequenze attese (25%) e quello che troviamo nei nostri dati (frequenze osservate). Il chi quadro calcola se la differenza tra le due frequenze è grande o piccola, se è grande è difficile che la differenza sia dovuto al caso, probabilmente quindi c’è una relazione. Il test della significatività misura la probabilità che l’ipotesi nulla sia vera e quindi quanto è attribuibile al caso. Significatività statistica : quanto i risultati sono attribuibili al caso? Un test è statisticamente significativo se il p-value è<0.05 non è dovuto al caso ma esiste effettivamente una relazione, un effetto tra le variabili (abbiamo il 5% di probabilità che la relazione che osserviamo sia attribuibile al caso). Questo si può osservare su SPSS. Abbiamo due variabili nominali: è vero che chi risiede in val di Susa si informa di più rispetto al TAV? Incrociamo variabile “vals” e “Info_Tav”

  1. Info Tav è una variabile creata da una serie di item che individuano info conosciute sul Tav
  2. Facciamo frequenze per controllare eventuali errori
  3. Chi quadrato: analizzastatistiche descrittivetabelle di contingenza (in riga info tav in colonna vals)  statistiche (sulla destra) e scegliamo il chi quadrato da “celle” (sempre sulla destra) scegliamo tra “residui”: “standardizzato adattato” Lanciare: solito: su finestra 2 sintassi La prima cosa che ci interessa è la significatività , ci interessa la prima riga che è proprio il chi quadrato. In questo caso risulta<.001 c’è relazione statisticamente significativa tra le due variabili (tra il vivere in val Susa e informarsi sul TAV) ed è veramente improbabile che sia dovuta al caso. Il chi quadrato ci da informazione complessiva: c’è una relazione, ma per capire come funziona la relazione bisogna guadare la tabella di contingenza (che viene data già quando si fanno questi passaggi per ottenere il chi quadro) 78 persone che hanno risposto 0 (non sanno nulla sul TAV) di questi 75 non vivono in val Susa 3 si.
  • I residui adattati indicano una relazione significativa quando sono in valore assoluto> di 2. Se il residuo è maggiore di 2, nella cella in questione le frequenze osservate sono significativamente maggiori di quelle attese,

c’è quindi un’associazione significativa positiva fra la riga e colonna, se il residuo è minore di -2, nella cella in questione le frequenze osservate sono significativamente minori di quelle attese. Tra + e -2 non c’è associazione significativa. Quando >2 si andrà a interpretano le differenze: in questo caso i residui più alti sono quelli relativi alla riga 3 (quelli più informati) c’è relazione positiva tra informarsi molto e stare in val Susa e lo capiamo perché il residuo adattato ci mostra che in quella parte abbiamo più persone (frequenza osservata) rispetto a quello che ci saremmo aspettati (frequenza attesa) Utilizzi Chi quadro

- Bias dell’ottimismo irrealistico : tendenza a pensare che sia più probabile che ci accadano cose positive piuttosto che negative. Si può testare questo bias con due variabili: atteggiamento nei confronti del tav (d11ric) e quando secondo me sarà

costruita quest’opera (d16) se fossi fortemente favorevole all’opera mi dovrei aspettare che venga costruita in un arco di

tempo molto breve.

  1. Faccio frequenza d16 normale per capire quanti “non so” ci sono e quante alternative di risposta e di conseguenza capire come ricodificare la variabile e cosa fare dei non so.
  2. Faccio d16ric (per visualizzarla nel foglio 1 la lancio nel foglio sintassi e poi apporto le modifiche nel foglio 1: valori mancanti e etichette delle modalità di risposta)
  3. Tabella di contingenza tra d16 e d16ric per controllare errori
  4. Frequenze di d11ric e d16ric per controllo errori
  5. Chi quadro I residui 1,7 non sono da prendere in considerazioni perché<2. I favorevoli alla Tav c’è un’associazione positiva statisticamente significativa con il fatto che verrà terminata in poco tempo I non favorevoli che si dovrebbero augurare che quell’opera non venga costruita, mi aspetto un’associazione positiva con il fatto che non verrà mai terminata effetto dell’ottimismo irrealistico

- Effetto del falso consenso Poi test chi quadro per test effetto del falso consenso : tendenza psicologica a credere che le proprie opinioni, valori e comportamenti siano più comuni e ampiamente condivisi di quanto non siano in realtà. Utilizzo d11ric (atteggiamenti nei confronti del Tav) e d20. (quanti abitanti fanno parte del movimento no Tav) I residui adattati ci dicono se siamo davanti ad un effetto del falso consenso: residuo adattato prima riga=6,3 statisticamente significativo. L’associazione tra l’essere favorevoli al Tav e la percezione di quanti sono contrari è positiva: conferma faso consenso. Controllando anche l’ultima riga (incrocio non favorevoli e percezione maggioranza valsusini ad essere contrari al movimento) emerge di nuovo una associazione positiva e in linea con l’effetto del falso consenso: la gente contraria pensa che maggior parte popolazione sia contraria io tendo a Pensare che la mia opinione sia diffusa  CORRELAZIONE Chi quadro= statistica simmetrica, la relazione si può guardare da entrambi i lati, no causa effetto. Correlazione (r di Pearson) = tecnica statistica simmetrica Una correlazione è una misura del grado di concordanza tra due serie di valori. Il coefficiente di correlazione esprime la relazione tra due variabili. I valori che il coefficiente di correlazione può assumere sono quelli compresi tra -1 e +1. Il valore assoluto del coefficiente di correlazione indica l’intensità della relazione (0= nessuna,1= relazione lineare, perfetta) mentre il segno del coefficiente indica la direzione della relazione: positiva (all’aumentare della variabile a aumenta la variabile b), negativa (all’aumentare di a diminuisce b). Il coefficiente di correlazione più comunemente impiegato nella statistica applicata alle scienze sociali è quello di Pearson, rappresentato con una r. Come il chi quadro, ma l’r di Pearson si può calcolare solo quando le variabili coinvolte sono su un livello di scala cardinale. Quando invece entrambe le variabili sono su scala ordinale, oppure una ordinale e una su scala intervalli equivalenti si utilizza il coefficiente di Spearman. L’interpretazione del coefficiente r è una misura di associazione lineare che va fatta anche alla luce della sua significatività, tenendo presente che l’ipotesi nulla prevede una correlazione pari a zero. Vediamo se d11 (atteggiamenti nei confronti del tav) (ha 4 modalità di risposta: del tutto favorevole, abbastanza favorevole, abbastanza contrario, del tutto contrario ordinale ma si può considerare come cardinale) è correlata fiducia nel governo (d1.9)  Frequenza dei due item: quando trattiamo item ordinali in che direzione sono orientati gli item (punteggi alti indicano fiducia o sfiducia? Nel nostro il d1.9 caso sfiducia) In questo caso possiamo ricodifica i valori (per orientare la direzione) o

 Il valore iniziale (Initial) è sempre 1.  Il valore estratto (Extraction) mostra quanto la variabile è rappresentata dal modello fattoriale. Valori più alti (ad esempio > .50) indicano che la variabile è ben spiegata dai fattori; valori molto bassi suggeriscono che la variabile non si integra bene nella struttura fattoriale. In altre parole, questa tabella ti permette di valutare se la soluzione fattoriale trovata cattura adeguatamente le relazioni tra le variabili originali. La tabella successiva è la Factor Matrix (matrice delle saturazioni non ruotate). Qui ogni colonna rappresenta un fattore estratto e ogni riga mostra la saturazione (grado di correlazione tra una variabile e ciascun fattore prima della rotazione) Questa matrice è spesso difficile da interpretare perché i fattori non sono ancora stati “semplificati” dalla rotazione, e quindi una variabile può saturare su più fattori e la struttura non sempre è chiara. Infine, l’ultima tabella importante è la Pattern Matrix (matrice dei pesi dopo la rotazione). Questa tabella riporta le saturazioni delle variabili sui fattori dopo la rotazione, ossia dopo che SPSS ha semplificato la struttura per renderla più interpretabile. Dopo la rotazione:ogni variabile tende a saturare fortemente su un solo fattore, le saturazioni più alte indicano una maggiore correlazione tra variabile e fattore, la struttura dei fattori diventa più chiara. UTILIZZO DELL’ALFA DI CRONBACH da usare con item Cardinali Il calcolo dell’attendibilità può assumere diversi significati: si può intendere la somiglianza dei risultati di uno strumento nel tempo (in questo caso è possibile somministrare allo stesso strumento agli stessi soggetti in tempi diversi e calcolare la stabilità delle risposte nel tempo), tra due strumenti paralleli (si può somministrare due strumenti paralleli agli stessi soggetti nello stesso tempo e verificarne la correlazione nelle risposte), o infine l’attendibilità all’interno di uno strumento, anche chiamata coerenza interna (Nel nostro caso possiamo considerare un gruppo di item associati ad un costrutto alla stregua di uno strumento di rilevazione del costrutto stesso). Per verificare quanto questa scala è attendibile, ovvero quanto è affidabile nel misurare ciò per cui è stata costruita e quanto gli item siano tra loro coerenti nel misurare tutti la stessa cosa si può utilizzare l’indice alpha di Cronbach. Esso è un indice basato sulla media delle correlazioni tra tutti gli item della scala, assume valore 1 in caso di coerenza perfetta tra gli item e 0 in caso di coerenza nulla. Per questo motivo, l’impiego di questo indice ha senso solo se gli item appartenenti alla scala misurano tutti lo stesso costrutto, cioè se la scala è unidimensionale. Creazione di un indice di sfiducia nelle istituzioni Quando ci troviamo davanti ad una batteria di dati con tanti item talvolta abbiamo bisogno di compattarli. Es vogliamo creare un indice complessivo sulla fiducia nell’istituzione a partire da 9 item (d1.1, d1.2, d1.3, d1.4, d1.5, d1.6, d1.7, d1.8, d1.9):

  1. Frequenze dei 9 item (sono orientati tutti nella stessa direzione? Punteggi alti corrispondono in tutti i casi alla sfiducia). In caso non lo fossero, ricodificare rovesciando i valori e poi fare una tabella di contingenza tra l’item vecchio e item ricodificato per controllare se i valori coincidono.
  2. Controllare che scala sia unidimensionale: alfa si cronbach (affidabilità) analizza, scala, analisi di affidabilità “elementi” mettere gli item dal d1.1 al d1.9statistiche “descrittive per” selezionare “scala se l’elemento è eliminato” continua incolla Due tabelle: La prima: il numero di elementi (=item) ci aiuta a capire che non ci siano errori sul numero di item selezionati. Alfa è considerato valido quando Alfa>0,7 (puo variare tra 0 e 1), nel nostro caso è 0,767 quindi va bene (più altro alfa più la risposta è affidabile, cioè più gli item sono correlati e quindi sono indicatori di un unico costrutto). Quando l’alfa è minore di 0,7 si guarda la seconda tabella Questo numero va contestualizzato sulla lunghezza della scala (più sono gli item più deve essere alto) questo perché la formula dell’alfa contiene n (numero item), dipende cioè anche dal n più è alto l’n più dovrebbe essere alto l’alfa. Oltre che con il numero di item nella formula per calcolare l’alfa si prende in considerazione anche r (=correlazione media degli item: mediale della correlazione del primo item con il secondo, del primo con il terzo….) La seconda: si deve considerare in particolare, l’ultima colonna (info riguardo a come sarebbe l’alfa se noi escludessimo ogni item della scala). Es prima riga: se tu calcoli l’alfa escludendo l’item di fiducia nella chiesa cattolica diventa=0,805, quindi aumenta (l’item non correla così tanto con gli altri)

3) Calcolo indice di fiducia istituzionale trasformacalcola variabiledare un nome “sfiducia_tot” da “funzioni e

variabili speciali” selezionare Mean (e lanciarlo in alto con la freccia che va in su a sx) inserire nella parentesi gli item incolla lancia comando su sintassi tornare su foglio 1 per visualizzare la nuova variabile

  1. Descrittive: Minimo e Massimo (controllare se sono corretti), livello medio di fiducia e deviazione standard.

Nel caso in cui si volesse cercare di capire la correlazione tra il d11 (item unico che esprime gli atteggiamenti verso il TAV) e il d18 (batteria di 10 item che misura gli atteggiamenti verso il TAV), una volta fatti tutti i passaggi precedenti si aggiunge il passaggio correlazioni. RELAZIONI CAUSALI La causalità: un ripasso Una variabile è causa di un’altra variabile se il variare della prima causa il variare della seconda. Ad esempio:

  • Vaccinarsi contro il Covid-19 riduce la probabilità di ammalarsi e, se ci si ammala, la gravità delle conseguenze
  • Il rumore fa peggiorare le prestazioni nei test di matematica
  • Nei colloqui di selezione del personale, l’esposizione a messaggi sessisti peggiora la prestazione delle candidate - Asimetria della relazione - Legame diretto tra variabili - Per comprendere la causalità attraverso i questionari bisogna rifarci alle teorie di riferimento (mentre il metodo classico per capire la causalità è l’esperimento). La correlazione (due variabili variano insieme) non è la stessa cosa di causalità (una variabile è la causa dell’altra). Qualche esempio di relazione non causale:
  • Relazione fra domanda e prezzo ( relazione reciproca ): NO ASIMMETRIA
  • Relazione fra numero di cicogne e numero di nati e fra numero di pompieri che spengono l’incendio e gravità dei danni provocati dall’incendio ( relazione spuria  relazione apparente, ma non reale, dovuta alla coincidenza o altri fattori): NO LEGAME DIRETTO
  • Relazione fra colore della pelle e intelligenza ( relazione mediata variabile che media la correlazione tra le due): NO LEGAME DIRETTO  ANOVA (analisi della varianza) È una tecnica statistica esplicativa che ci permette di confrontare le medie che due o più campioni (La variabile dipendente causa livello di scale categoriale o nominale) hanno su una variabile dipendente (effetto scala cardinale perché si lavora sulle medie). Es il genere (variabile indipendente causa che crea i due campioni: donna e uomo) influisce sul livello di burnout (variabile dipendente: effetto)? Si vuole dunque confrontare la media di burn out degli uomini e delle donne
  • Ipotesi nulla: i gruppi definiti dalla variabile indipendente hanno media uguale (H 0 : m 1 = m 2 = … = mn)
  • Primo assunto principale: omoschedasticità delle popolazioni analizzate
  • Secondo assunto principale: indipendenza dei campioni
  • Terzo assunto principale: normalità della distribuzione della variabile dipendente nei campioni analizzati La logica dietro l’ANOVA sta nell’analisi della variabilità della variabile dipendente : si misurano i punteggi dei gruppi e si scompone la variabilità totale in due:
    • Variabilità entro i gruppi : quella all’interno dei gruppi (uomini e donne): cosa differenzia il burnout all’interno del gruppo donne e all’interno del gruppo uomo: le differenze individuali e errore casuale
    • Variabilità tra i gruppi: in complesso i punteggi delle donne e quelli degli uomini quanto variano? Questa differenza si basa sempre sia sulle differenze individuali e sull’errore ma in più c’è una variabilità che può essere dovuta alla differenza di genere (ed è proprio questo ciò che ci interessa: quanta della variabilità individuata nei punteggi è dovuta al genere?) La variabilità indotta dalla variabile indipendente (genere) è maggiore rispetto a quella non indotta dalla variabile dipendente (spiegata dalle differenze individuali ed errore casuale di misurazione)? L’ANOVA segue il teorema della scomposizione della devianza (che indica la variabilità) dei dati: che divide la devianza all’interno dei gruppi (devianza within) e la confronta con la devianza tra i gruppi (devianza between). Il test di riferimento dell’ANOVA è l’f di fisher e nel caso in cui si confrontino più di due gruppi bisogna anche riportare i test post hoc (est di Bonferroni) Esempio: Relazione causa effetto: Vivere o meno in val di Susa ti porta ad avere più o meno conoscenze rispetto al TAV Causa: vals Effetto: conoscenza tav
  • Se la variabile indipendente è cardinale (es: la quantità di sostegno che si ottiene dai superiori), la regressione semplice permette di quantificare la variazione della variabile dipendente (es: la quantità di burn out) al variare unitario della variabile indipendente.
  • Se la variabile indipendente è dicotomica (es: il genere del lavoratore/della lavoratrice), la regressione semplice permette di quantificare la variazione della variabile dipendente (es: la quantità di burn out) al mutare di stato della variabile indipendente. Se la regressione è semplice, al variare del sostegno, varia il burnout, quanto varia è indicata dalla regressione. Se la regressione è multipla, il sostegno sarà stimato al netto delle altre variabili indipendenti indicate nel modello (nelle regressioni multiple si ha più di una variabile indipendente: in questo caso per es oltre il sostegno è indicato anche il genere), quindi in questo caso l’effetto del sostegno sul burnout esclude l’effetto già spiegato dal genere. Praticamente è come se noi individuassimo gli effetti di tutte le variabili indipendenti, ciascuno “depurato” dagli effetti delle altre variabili indipendenti. La stima di una regressione multipla
  • Se la singola variabile indipendente è cardinale (es: la quantità di sostegno che si ottiene dai superiori), la regressione multipla permette di quantificare la variazione della variabile dipendente (es: la quantità di burn out) al variare unitario della variabile indipendente, al netto dell’influenza esercitata da tutte le altre variabili indipendenti incluse nel modello
  • Se la variabile indipendente è dicotomica (es: il genere del lavoratore/della lavoratrice), la regressione multipla permette di quantificare la variazione della variabile dipendente (es: la quantità di burn out) al mutare di stato della variabile indipendente, al netto dell’influenza esercitata da tutte le altre variabili indipendenti incluse nel modello La valutazione della qualità di una regressione lineare
  • Significatività dei singoli coefficienti: Test t
  • Bontà complessiva del modello: Coefficiente di determinazione ( R^2 ) Dagli output di SPSS ci interessa: significatività effetti dei predittori (effetto del genere e del sostegno sul burnout) t test e a direzione dell’effetto (positivo o negativo) b coefficiente di regressione. E la bontà complessiva del modello: il coefficiente di determinazione (R quadro), che ci dice quanta della variabilità che osserviamo nella variabile dipendente viene spiegata dai predittori del modello. Esempio: l’atteggiamento generale nei confronti del Tav è influenzato dal sesso, l’età e il luogo di residenza? variabile dipendente (effetto): atteggiamento_tot variabile indipendente (causa): genere, età, luogo di residenza analizza regressione regressione lineareincolla lancia da sintassi Prima guardiamo “ R quadrato adattato ” = 0,181, la trasformiamo in percentuale: in questo caso il 18% della variabilità complessiva dell’atteggiamento nei confronti del tav è spiegata dal modello. La tabella dei coefficienti : per tutti i predittori ci propone la stima del suo effetto. Prima si guarda la significatività , nel nostro caso età e residenza sono significativi, sesso no (non c’è un effetto di genere). Poi si guarda i Beta (mentre b è un coefficiente non standardizzato, i Beta sono coefficienti standardizzati, che quindi non risentono dell’unita di misura della variabile indipendente e quindi possono essere paragonati tra di loro). La prima cosa che ci interessa è il segno. Nel caso dell’età il Beta= -2,47 all’aumentare dell’età diminuisce il disaccordo con il Tav (gli anziani hanno atteggiamenti più positivi verso il Tav). per quanto riguarda la residenza beta=,031 se vivi in val di Susa hai livelli più alti di atteggiamento verso il Tav. Come già detto l’interpretazione di questi effetti è al netto dell’effetto delle altre variabili indipendenti: l’effetto che ha vivere in val Susa sugli atteggiamenti verso il Tav togliendo l’effetto dell’età (stiamo calcolando questo effetto come se considerassimo i partecipanti tutti della stessa età).