
















































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Guida completa per l'utilizzo del software di SPSS - Social Package for the Social Science. Guida completa con spiegazione teorica, pratica, schermate visive, esempi di lettura e analisi dei dati. Guida fatta sul programma di studio del corso di "Tecniche di raccolta e Analisi dei dati" del CLM in "Pubblicità, Comunicazione digitale e creatività d'impresa" dell'Università degli studi di Modena e Reggio Emilia.
Tipologia: Dispense
1 / 56
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

















































Esistono diversi modi per analizzare i dati:
File ⇒ Apri ⇒ Dati. Il programma mostra automaticamente tutti i file .sav salvati, basta scegliere quello che vogliamo, aprirlo e a quel punto possiamo anche modificarlo. Oppure possiamo scegliere il formato. ➔ Acquisizione dati .xls (excel) Prima di aprire un file di questo tipo ci dobbiamo ricordare che spss e excel vanno in contrasto e quindi bisogna prima aprire il file di excel per capire come è fatto il file e poi aprirlo in spss. File ⇒ Apri ⇒ Dati. Tuttavia, poiché il programma mostra per default i file .sav, occorre scegliere il formato desiderato: dove è scritto file di tipo bisogna mettere il formato .xls e si vedono solo i file di Excel. A quel punto basta scegliere il file di Excel. Se il file ha fogli multipli si può scegliere il foglio in cui si trovano i dati desiderati dalla scritta foglio di lavoro ; se non si vuole importare tutto il file si può scegliere l’intervallo di celle da importare cliccando su intervallo. Bisogna poi specificare se la prima riga del file di Excel contiene i nomi delle variabili oppure no (se non li ha probabilmente sono numeri) fleggando o meno leggi i nomi delle variabili dalla prima riga di dati. Per capire questo basta semplicemente aprire il file su Excel e vedere se la prima riga è composta da stringhe o da numeri: come sappiamo infatti un nome di variabile non può mai iniziare con un numero. La percentuale di valori che determinano il tipo di dati va lasciata fleggata con valore 95. Infine, conviene fleggare anche l’opzione rimuovi spazi iniziali e finali dalle stringhe : questo serve perché se nello scrivere una parola abbiamo messo degli spazi all’inizio o alla fine vengono eliminati. C’è comunque sempre un’anteprima al centro della pagina che ci fa capire tutto. ➔ Acquisizione dati ASCII (dati di testo .dat o .txt) Attenzione con i formati txt o dat. I dati di questi formati possono essere settati in due diversi modi: ◼ Delimitate : quando sono usati dei caratteri, compreso spazio o tabulazione, per indicare il cambio di variabile: ogni variabile è quindi separata da un’altra da uno spazio, una tabulazione, una virgola, una lettera qualsiasi e via dicendo ( età , sesso , stato civile ). Ogni volta che si vede quel carattere vuol quindi dire che è finita la variabile prima e inizia la variabile dopo: quel carattere delimita le variabili. Ovviamente tutto questo deve essere sistematico: deve essere sempre quel carattere a separare tutte le variabili. Per esempio, se il carattere è lo spazio non importa che tra le prime due variabili ci siano tre spazi e tra la seconda e la terza ce ne siano dieci, l’importante è che siano sempre e solo spazi. ◼ A larghezza fissa : quando c’è allineamento in colonna, anche senza separatori tra una variabile e l’altra. Riconosciamo che è in formato fisso perché i separatori ci sono ma non sono sistematici: una variabile più essere separata da un’altra e un’altra variabile può non essere separata, oppure ci possono essere separatori diversi. L’unico modo per leggere i dati è il tracciato record, ovvero una legenda che dice come dividere le variabili: per esempio, ci dice che la prima colonna deve trattare la variabile dell’età; la seconda il sesso; la terza lo stato civile e via dicendo. Questo tracciato serve perché andranno poi messe delle righe verticali, a formare le colonne, che delimitano le variabili e ci dicono quando iniziano e quando finiscono. Se sembra che siano realizzati entrambi i metodi, sempre meglio scegliere delimitate: è più semplice!
Attenzione !: per aprire i file di testo in spss bisogna prima aprire il file in blocco note e capire come sono settati. Se sono settati a larghezza fissa (in blocco note verrà delle parole tutte unite senza spazi) nel momento in cui io lo vado ad aprire su spss quando seleziono il tipo di formato , in codifica devo selezionare la voce “ codifica locale ”, altrimenti spss mi da un bug e non me lo apre e quindi devo iniziare la procedura da capo. File ⇒ Apri ⇒ Dati. Anche in questo caso il programma mostra per default i file .sav, quindi occorre sempre scegliere il formato desiderato in file di tipo : bisogna mettere il formato testo e a quel punto si vedono solo i file in formato testuale. Inoltre, in caso di formati testuali si può aprire su SPSS un file già aperto su blocco notes: i due possono restare contemporaneamente aperti ed è consigliabile far così perché lo si tiene aperto sotto molte cose le si possono controllare direttamente dal file. ▪ Acquisizione dati a larghezza delimitata La prima pagina chiede se il file di testo è in un formato predefinito : se è la prima volta che si importa quel file, la risposta sarà NO; in caso contrario sarà SI (se premiamo sì diciamo al computer di ricopiare perfettamente il percorso fatto in precedenza con un altro dataset che ha la stessa struttura di dati, così che non dobbiamo ricompilare tutte le pagine successive). Nel caso del SI, clicco su “sfoglia” e cerco dove ho già salvato quel file. In ogni caso, normalmente la risposta è NO. La seconda pagina chiede innanzitutto come sono disposte le variabili: se sono delimitate o a larghezza fissa. Questo lo capiamo guardando l’anteprima in basso nella pagina; può comunque essere utile aprire il file blocco notes e guardare direttamente da lì. Inoltre, viene chiesto se la prima riga del file contiene i nomi delle variabili ; in caso positivo bisogna specificare che sono contenute nella prima riga. Si chiede inoltre qual è il simbolo decimale , se la virgola o il periodo (il punto); ovviamente anche questo lo vedo nell’anteprima. Se non ci sono numeri con le cifre decimali (quindi non ci sono né punti né virgole) qualunque cosa mettiamo va bene.
▪ Acquisizione dati a larghezza fissa Nel caso in cui i dati siano in formato fisso si esegue la stessa identica procedura ma bisogna ricordarsi di cambiare la codifica quando si apre il file e poi nella 4° finestra occorre disegnare delle vere e proprie righe verticali che separano le variabili l’una dall’altra (ovviamente per farlo si segue il tracciato record). Per inserire la riga basta cliccare; se una l’abbiamo inserita per sbaglio basta selezionarla e trascinarla fuori (si cancella da sola); se vogliamo spostarne una basta trascinarla. L’ultima riga alla fine dopo l’ultima variabile normalmente non è necessario metterla; possiamo comunque farlo per sicurezza. Se SPSS non ci permette di metterla vuol dire che l’ha già messa lui; se la mettiamo ma si genera una variabile completamente vuota dopo allora ci conviene toglierla perché anche in questo caso SPSS l’ha già considerata. A volte quando si seleziona la larghezza fissa SPSS dà un messaggio di errore: se questo accade basta ricominciare da capo l’acquisizione del file e modificare la codifica (che si trova in basso sotto il tipo di file) da “unicode” a codifica locale. Un metodo ancora più semplice è aprire il file cliccando su di esso con un doppio clic invece che selezionarlo e cliccare il tasto “Apri”. In questo caso non è necessario modificare la codifica. Conviene poi ovviamente salvare direttamente in formato. sav , attraverso il solito file ⇒ salva con nome così si ha direttamente il file pronto per SPSS con il suo formato.
Menù TRASFORMA Spss ci permette di creare nuove variabili e modificare quelle esistenti attraverso il suo Menù trasforma nel quale possiamo trovare:
fleggare dal più piccolo a ... e poi mettiamo il numero. Lo stesso per l’ultima classe, da un numero che mettiamo noi al più grande. Mancante di sistema deve essere fleggato quando vogliamo dare un valore a un missing che è stato definito tale da SPSS. Mancante di sistema o definito dall’utente deve essere fleggato quando vogliamo dare un valore a un missing che è stato definito tale da SPSS o da noi. Normalmente questi due non vanno mai fleggati. In ogni caso, la variabile che ne risulta non ha etichetta e non ha nemmeno etichette di valori per cui quelle dobbiamo metterle noi. ➔ RICODIFICA AUTOMATICA Trasforma → ricodifica automatica Essa serve ad attribuire valori numerici ad una variabile. Come quando i valori sono scritti a parole e vanno convertiti in numeri. Non va mai usata con una variabile quantitativa. In variabile > nuovo nome aggiungiamo la variabile che vogliamo ricodificare; nel nuovo nome scriviamo il suo nuovo nome e poi lo aggiungiamo con il tasto aggiungi nuovo nome. A questo punto alla variabile stringa vengono attribuiti valori numerici consecutivi a partire da 1, disponendoli in ordine alfabetico: si parte dal numero 1 e si parte dalla lettera A. Ovviamente, l’ordine alfabetico va spesso cambiato perché non c’è corrispondenza: magari per noi il numero 1 deve corrispondere a una parola che non inizia con la lettera A. Bisogna quindi rimettere il tutto in ordine con ricodifica in variabili differenti. Si può scegliere di ricodificare partendo dal valore più basso o dal valore più alto. Cliccando su considera valori delle stringhe vuote come mancanti definiti dall’utente le celle vuote vengono considerate come dati mancanti e quindi ad esse non viene attribuito nessun valore: esso va sempre fleggato. Il tasto stesso schema di ricodifica va sempre fleggato. ➔ RACCOLTA VISUALE Trasforma → raccolta visuale Crea una nuova variabile suddividendo una variabile numerica in un certo numero di categorie/classi. In variabili da raccogliere vanno messe le variabili che si vogliono suddividere in classi. A questo punto, cliccando su continua, compare un grafico: su di esso compariranno delle righe verticali rosse a seconda di dove abbiamo deciso di porre i punti di divisione, cosa che facciamo manualmente scrivendo i valori di suddivisione in basso in griglia.
Per esempio, se voglio creare tre classi: 18-30, 30-45, 45-60 anni basta scrivere come valori 30, 45 (l’ultimo non serve metterlo) e sul grafico le righe rosse vengono proprio in prossimità di quei valori. Ricordiamo che l’ultimo valore non va mai messo: se devo suddividere in un tot di classi, i punti di divisione sono sempre uno in meno (quindi se devo suddividere in 3 classi avrò due punti di divisione; in 5 classi ne avrò 4 e così via). In variabile raccolta , in alto, bisogna poi scrivere il nome che vogliamo abbia la nostra nuova variabile; a fianco si può scrivere la sua etichetta. Cliccando su crea etichette si creano etichette vere e proprie che specificano quali erano i punti di divisione e quindi, di volta in volta, dove ho diviso: esso va fleggato. Si può anche usare il tasto a sinistra crea punti di divisione. In particolare, si può fleggare il tasto percentili uguali basati sui casi scansionati per creare classi che contengano lo stesso numero di rispondenti. Si scrive il numero dei punti di divisione (a seconda di quante classi dobbiamo creare) e si creano così classi divise equamente per numero di rispondenti. Se poi questi valori sono molto particolari o ricercati, essendo così precisi, posso tornare nella pagina principale e approssimarli per averli più semplici modificando direttamente il valore dalla griglia: per esempio, 2768 che è molto complesso può essere semplificato in 2700. ESERCIZIO – MANIPOLAZIONE DEI DATI – CALCOLA VARIABILE Acquisire il dataset demo.sav. Costruire una variabile che riporta il reddito familiare pro-capite : calcola variabile. Operazione da fare: reddito familiare / numero membri nucleo familiare. Costruire una variabile che riporta il numero di beni posseduti dalla lista proposta : come prima cosa guardo come sono codificate le variabili in vista variabili. Vedo che i beni posseduti sono codificati con: 1=si e 2=no allora faccio: Trasforma → conta valori all’interno dei casi e in variabile di destinazione metto il nome della variabile, in variabili numeriche metto tutte le variabili selezionate,
Menù DATI Spss ci permette di compiere una serie di operazioni sul dataset nel complesso. Questo lo facciamo con il menù Dati nel quale possiamo trovare
Usa variabile filtro : per utilizzarlo dobbiamo prendere per forza una variabile che abbia come valori 0 e 1; in questo caso SPSS considererà solo gli 1. Per esempio, se la variabile “fuma” ha valori no = 0 e sì = 1 il software considererà solo gli 1, quindi mi creerà una nuova variabile con solo quelli che fumano. Inserita la condizione, abbiamo tre possibilità:
1. escludi casi selezionati significa che quelli non selezionati vengono esclusi dalla mia analisi ma in realtà restano sul video e sul dataset (continuano ad esistere, solo vengono rappresentati come barrati). Il limite di questo tasto è che ogni azione che compiamo successivamente cancella la precedente: conviene quindi utilizzarlo quando abbiamo solo una richiesta. Per esempio, se prima chiediamo che siano pensionati e poi su questi pensionati vogliamo creare un campione di 100 casi, non possiamo farlo. La seconda richiesta andrebbe infatti a cancellare la prima e il campione di 100 casi verrebbe fatto su tutto il dataset, non sui pensionati. 2. elimina casi non selezionati significa che quelli non selezionati vengono cancellati definitivamente dal dataset. **Questo è meglio non usarlo mai.
Menù ANALIZZA Bisogna effettuare un controllo sui dati una volta che questi sono stati raccolti. Specialmente se le variabili sono QUANTITATIVE, è importante trovare un modo per sintetizzarli. Misure di centralità Riassumono in un unico dato l’intera distribuzione indicandone il punto centrale. Ma sono un indice povero perché non dicono nulla sulla forma. Le più comuni sono:
Indici Esistono ancora altre misure che permettono di descrivere espetti particolari di una distribuzione di dati. Questi sono gli indici di asimmetria e curtosi che si utilizzano SOLO CON VARIABILI QUANTITATIVE ➔ Asimmetria : una distribuzione è simmetrica quando le frequenze delle modalità a uguale distanza dalla misura centrale, sono uguali a destra e a sinistra. Una distribuzione è simmetrica se l’indice è uguale a 0 Se l’indice è positivo c’è una lunga coda a destra Se l’indice è negativo c’è una lunga coda a sinistra ➔ Curtosi : indica se e quanto la distribuzione è appuntita rispetto alla normale. Una distribuzione normale ha indice di curtosi pari a 0 Se l’indice di curtosi è positivo, la distribuzione è più appuntita Se l’indice di curtosi è negativo, la distruzione sarà meno appuntita
Il primo passo nell’analisi dei dati consiste nel guardarli. Queste tabelle contengono per ogni singola modalità della variabile il numero di volte che è stata osservata. ANALIZZA → STATISTICHE DESCRITTIVE → FREQUENZE Spesso per analizzare in generale le variabili, se non è richiesto nulla di specifico ma si vuole un semplice commento su come esse sono strutturata basta fermarsi qui e richiedere le tabelle di frequenza. Esse servono soprattutto quando siamo di fronte a variabili stringa le cui modalità di risposta non possono essere visualizzate direttamente sul dataset; per individuarle è necessario richiedere le frequenze. Le tabelle di frequenza VANNO GUARDATE SOLO PER LE VARIABILI QUALITATIVE (SCONNESSE E ORDINALI); MAI PER LE QUANTITATIVE. In variabili mettiamo la/le variabili sulle quali vogliamo contare le frequenze, ovvero quante volte ogni singola modalità di risposta di quelle variabili è state osservata. Visualizza tabelle delle frequenze va lasciato sempre fleggato a parte quando ci sono le variabili quantitative. Con esse va assolutamente tolto, sennò escono fuori tabelle illeggibili! Cliccando su statistiche scegliamo se di quei dati si vuole fare la media, la mediana o la moda (la somma non va mai scelta). Ovviamente, vanno schiacciate quelle che sono possibili per quel tipo di variabile. Lo stesso va fatto con le misure di dispersione : esse vanno ovviamente fleggate solo nel caso di variabili quantitative! Per esse fleggo: massimo, minimo, deviazione standard, intervallo. Ancora, si possono richiedere i percentili : posso chiedere un quartile; percentili specifici; i punti di divisione. I percentili specifici li inserisco fleggando percentili ; a quel punto li inserisco di volta in volta scrivendo il percentile che voglio e cliccando su aggiungi. Posso anche richiedere i punti di divisione per tot gruppi uguali : per esempio i punti di divisone per 10 gruppi uguali sono i decili; i punti di divisione per 5 gruppi uguali sono i quintili e via dicendo. Infine, si possono selezionare gli indici di asimmetria e di curtosi. Cliccando su grafici si possono scegliere grafici a torta, grafici a barre, istogrammi. Gli ISTOGRAMMI sono realizzabili SOLO CON VARIABILI QUANTITATIVE; con esse invece non possiamo mai realizzare grafici a torta né grafici a barre. Con le VARIABILI ORDINALI si possono fare GRAFICI A BARRA o A TORTA; mai istogrammi. Il grafico a torta è assolutamente sconsigliato anche nel caso in cui le modalità di risposta siano troppe (viene una torta incomprensibile divisa in mille parti); allo stesso modo, se le modalità di risposta sono solo due (per esempio dividiamo tra maschi e femmine) il grafico a torta non ha senso perché viene una torta divisa perfettamente a metà. I grafici non è mai obbligatorio chiederli, lo facciamo perché ci può essere utile vedere i risultati graficamente per capirci qualcosa in più o avere ulteriori conferme.
La media è il valore centrale: se essa è 4 2, significa che 4 2 anni è l’età centrale del dataset. Nelle variabili dicotomiche la media è sempre uguale alla mediana! La deviazione standard è la distanza media dalla misura di tendenza centrale: se essa è 12 significa che mediamente la gente ha da 12 anni in meno a 12 anni in più. Il minimo e il massimo sono il valore più alto trovato e quello più basso trovato: per esempio la persona più piccola di quel dataset ha 18 anni e quella più grande ne ha 77. L’ intervallo è la differenza tra il massimo e il minimo, quindi indica da dove-a dove sono spalmate le risposte: per esempio se il suo valore è 59 significa che i rispondenti del dataset sono sparpagliati in un intervallo di 59 anni. I percentili li leggo nella tabella statistiche in questo modo: se il percentile è 2 0 e il risultato è 31 significa che il 2 0 % delle persone ha meno di 31 anni. Se chiedo più percentili e i risultati che si generano sono molto vicini significa che la distribuzione è molto concentrata; spesso parte come molto concentrata poi man a mano che si allontanano diventa più dispersa: in questo caso c’è asimmetria. Al contrario, se tra i percentili c’è sempre la stessa distanza c’è simmetria. Per esempio: se chiedo i percentili 10, 20, 30, 40, 50 e i risultati sono 45, 47, 52, 65, 83 c’è asimmetria; le distanze tra i vari percentili sono infatti diverse. L’ indice di asimmetria lo leggo sempre nella tabella statistiche : esso dice se che la distribuzione è simmetrica o meno. È simmetrica se è l’indice è zero; è un’asimmetria positiva se l’indice è positivo (asimmetria coda a destra); è un’asimmetria negativa se l’indice è negativo (asimmetria con coda a sinistra). Più è grande il valore più è grande l’asimmetria. Per esempio, se il valore è 1,1 l’asimmetria è positiva con coda a destra ma non molto forte (se fosse 3,5 sarebbe forte). L’indice di curtosi dice se la distribuzione analizzata è più appuntita (concentrata) o più appiattita rispetto alla distribuzione normale di riferimento. Se le due sono uguali l’indice è 0; se l’indice ha valori positivi è più appuntita (concentrata) della normale; se l’indice ha valori negativi è più appiattita della normale. Per esempio, se risulta 20 la distribuzione è molto appuntita (forte concentramento sul valore centrale). Se la media è molto maggiore della mediana c’è un’asimmetria positiva, quindi un’asimmetria con coda a destra: ci sono molti più valori alti grandi che valori bassi. ANALIZZA → STATISTICHE DESCRITTIVE → DESCRITTIVE È un tasto valido SOLO PER VARIABILI QUANTITATIVE. Non è possibile chiedere moda, mediana, valori percentili. In opzioni troviamo la media; le misure di dispersione e gli indici di asimmetria di curtosi. Infine, si può scegliere l’ordine con cui i risultati vengono mostrati: l’ordine del dataset, alfabetico, per medie crescenti, per medie decrescenti. Non posso chiedere grafici, l’unica cosa in più ripetto alle frequenze è che posso salvare le variabili. Standardizzare i dati serve a rendere confrontabili osservazioni tratte da distribuzioni diverse, oppure misurate con scale diverse (es. è più povero un italiano che guadagana 1000€ o un filippino che guafaìdagna 300€?) Il valore standardizzato indica quanti sqm il valore è distante dal valore medio. Valori positivi corrispondono a osservazioni superiori alla media, valori negativi a osservazioni inferiori alla media. Valori nulli corrispondono al valore medio. Valori più grandi di 2 o più piccoli di - 2 corrispondono a osservazioni estreme. La media di dati standardizzati è sempre uguale a 0, lo sqm è sempre uguale 1
Acquisire il dataset demo.sav. Visualizzare il livello d’istruzione e lo stato civile, singolarmente e distinti per sesso. La prima è ordinale; la seconda è dicotomica. Non c’è nulla da fare se non richiedere le tabelle di frequenza; se vogliamo possiamo chiedere anche moda e mediana per aiutarci. Nello stato civile il valore più alto è non sposato, quindi esso è sia la moda che la mediana (nelle dicotomiche la media è la mediana). Se vogliamo fare il tutto diviso per sesso dobbiamo prima impostare la suddivisione con file suddiviso. Scegliere il modo migliore per sintetizzare: reddito, età, livello d’istruzione, livello di soddisfazione per il lavoro, anni di permanenza all’indirizzo attuale, categoria di costo del mezzo principale. Il reddito, l’età, gli anni di permanenza sono quantitative e le faccio insieme; chiediamo media, mediana, moda e tutti gli indici di dispersione, istogrammi; eliminiamo il flag sulle tabelle di frequenza. Il livello d’istruzione, il livello di soddisfazione e la categoria di costo del mezzo principale sono ordinali; chiediamo solo mediana e moda, grafici a barra o a torta; lasciamo il flag sulle tabelle di frequenza. Acquisire il dataset demo.sav. Vedere graficamente e tramite l’indice di asimmetria se il reddito ha distribuzione simmetrica : il reddito è una variabile quantitativa, per capire se ha distribuzione simmetria possono aiutarmi: l’istogramma, l’indice di asimmetria e i percentili. Già dal grafico vedo che è profondamente asimmetrico; l’indice me lo conferma ed è 4,5: l’asimmetria è positiva, con coda a destra, anche abbastanza forte. Si può vedere anche con i percentili: da un decile all’altro non c’è regolarità. All’inizio la distanza tra i decili è piccola (la distribuzione è concentrata) poi inizia a diventare sempre più grande: c’è asimmetria. Calcolare il reddito medio e mediano degli uomini e delle donne. Per introdurre la suddivisione per sesso usiamo file suddiviso - confronta gruppi – gruppi basati sulla variabile “sesso”. In frequenze chiediamo poi la media e la mediana della variabile “reddito”. Definire qual è il reddito che solo una famiglia su dieci riesce a superare. Una famiglia su dieci significa il 10%: essendo che nei percentili si ragiona a percentuale che si lascia sotto di sé, richiediamo il 90esimo percentile (lascia sotto di sé il 90%). Nei percentili chiedo esattamente il 90esimo e risulta 143, quindi 143mila dollari: solo una famiglia su dieci riesce a superare i 143mila dollari.