Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Guida completa di SPSS, Dispense di Tecniche Di Analisi Dei Dati

Guida completa per l'utilizzo del software di SPSS - Social Package for the Social Science. Guida completa con spiegazione teorica, pratica, schermate visive, esempi di lettura e analisi dei dati. Guida fatta sul programma di studio del corso di "Tecniche di raccolta e Analisi dei dati" del CLM in "Pubblicità, Comunicazione digitale e creatività d'impresa" dell'Università degli studi di Modena e Reggio Emilia.

Tipologia: Dispense

2020/2021

In vendita dal 20/01/2021

dany97
dany97 🇮🇹

3.7

(3)

5 documenti

1 / 56

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Guida completa di Spss
Esistono due tipi principali di statistica:
- Statistica descrittiva: usato per descrivere i dati e le loro caratteristiche. Quindi si parte da una serie di
dati e si descrivono.
- Statistica inferenziale: uso delle info che si hanno per giungere a deduzioni su ciò che non sappiamo. Si
parte dall’analisi di un sottoinsieme per estendere al campo generale ciò che io ho desunto dal campione
di riferimento.
Esistono diversi modi per analizzare i dati:
- Analisi esplorative: utilizzate quando non si hanno in mente precise strutture di relazione fra le variabili, ma si
cerca di trovare delle regolarità e dei pattern. Tutto ciò che è big data. Cioè tante informazioni con tante variabili
- Analisi confermative: usate quando si ipotizza una specifica struttura nella relazione fra i fenomeni osservati, e si
intende verificare se i dati raccolti la confermano o la smentiscono.
Per analizzare i dati si utilizza SPSS o “Statistical Package for the Social Science”, che ci consente di fare una serie di
operazioni con i dati. Esso è un programma a finestre. Ricorda excel ed è costituito da 3 finestre che sono utilizzate
come un oggetto indipendente:
- Finestra dati: qui vengono visualizzati i dati con cui si lavora. Inoltre tale finestra è composta da due fogli su cui
si lavora:
- Vista dati: Vengono mostrati nella classica forma di matrice dove ogni riga è rappresenta un caso e ogni colonna
una variabile.
- Vista variabile: vengono mostrate le informazioni sulle variabili. Qu ogni riga è una variabile ed ogni colonna
corrisponde ad una caratteristica della variabile.
Come caratteristiche si hanno:
Nome: corrisponde al nome della variabile. Deve iniziare con una lettera e non con un numero. Non vanno
messi caratteri speciali e non può contenere spazi.
Tipo: se la variabile è numerica/stringa
Etichetta: è il nome esteso della variabile. Una spiegazione più dettagliata
Larghezza: riguarda quanto spazio spss riserva ala variabile nella sua memoria e si lega con
Colonne: riguarda quanto spazio spss riserva alla variabile nello schermo
Valori: riguardano le etichette delle risposte. Cioè come queste sono codificate (1=maschio, 2=femmina)
Mancante: bisogna specificare se alcuni dati non vogliamo inserirli nell’analisi. Quindi li selezioniamo da li
e spss non li conterà
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38

Anteprima parziale del testo

Scarica Guida completa di SPSS e più Dispense in PDF di Tecniche Di Analisi Dei Dati solo su Docsity!

Guida completa di Spss

Esistono due tipi principali di statistica:

- Statistica descrittiva : usato per descrivere i dati e le loro caratteristiche. Quindi si parte da una serie di

dati e si descrivono.

- Statistica inferenziale : uso delle info che si hanno per giungere a deduzioni su ciò che non sappiamo. Si

parte dall’analisi di un sottoinsieme per estendere al campo generale ciò che io ho desunto dal campione

di riferimento.

Esistono diversi modi per analizzare i dati:

  • Analisi esplorative: utilizzate quando non si hanno in mente precise strutture di relazione fra le variabili, ma si cerca di trovare delle regolarità e dei pattern. Tutto ciò che è big data. Cioè tante informazioni con tante variabili
  • Analisi confermative: usate quando si ipotizza una specifica struttura nella relazione fra i fenomeni osservati, e si intende verificare se i dati raccolti la confermano o la smentiscono. Per analizzare i dati si utilizza SPSS o “Statistical Package for the Social Science”, che ci consente di fare una serie di operazioni con i dati. Esso è un programma a finestre. Ricorda excel ed è costituito da 3 finestre che sono utilizzate come un oggetto indipendente:
  • Finestra dati : qui vengono visualizzati i dati con cui si lavora. Inoltre tale finestra è composta da due fogli su cui si lavora:
  • Vista dati : Vengono mostrati nella classica forma di matrice dove ogni riga è rappresenta un caso e ogni colonna una variabile.
  • Vista variabile : vengono mostrate le informazioni sulle variabili. Qu ogni riga è una variabile ed ogni colonna corrisponde ad una caratteristica della variabile. Come caratteristiche si hanno: - Nome : corrisponde al nome della variabile. Deve iniziare con una lettera e non con un numero. Non vanno messi caratteri speciali e non può contenere spazi. - Tipo : se la variabile è numerica/stringa - Etichetta : è il nome esteso della variabile. Una spiegazione più dettagliata - Larghezza : riguarda quanto spazio spss riserva ala variabile nella sua memoria e si lega con - Colonne : riguarda quanto spazio spss riserva alla variabile nello schermo - Valori : riguardano le etichette delle risposte. Cioè come queste sono codificate (1=maschio, 2=femmina) - Mancante : bisogna specificare se alcuni dati non vogliamo inserirli nell’analisi. Quindi li selezioniamo da li e spss non li conterà
  • Allinea : ci dice dove allineare il testo
  • Misura : riguarda le misure delle variabili, cioè se sono nominali (sconnesse), ordinali e scala (quantitative). Essa è già inserita ma va controllata perché non è detto che sia giusta
  • Finestra di output: dove vengono visualizzati i risultati delle operazioni finali
  • Finestra di sintassi : dove vengono visualizzati i comandi. Se vogliamo salvare le operazioni che abbiamo fatto con spss.

ACQUISIZIONE DEI DATI

FileApriDati. Il programma mostra automaticamente tutti i file .sav salvati, basta scegliere quello che vogliamo, aprirlo e a quel punto possiamo anche modificarlo. Oppure possiamo scegliere il formato. ➔ Acquisizione dati .xls (excel) Prima di aprire un file di questo tipo ci dobbiamo ricordare che spss e excel vanno in contrasto e quindi bisogna prima aprire il file di excel per capire come è fatto il file e poi aprirlo in spss. FileApriDati. Tuttavia, poiché il programma mostra per default i file .sav, occorre scegliere il formato desiderato: dove è scritto file di tipo bisogna mettere il formato .xls e si vedono solo i file di Excel. A quel punto basta scegliere il file di Excel. Se il file ha fogli multipli si può scegliere il foglio in cui si trovano i dati desiderati dalla scritta foglio di lavoro ; se non si vuole importare tutto il file si può scegliere l’intervallo di celle da importare cliccando su intervallo. Bisogna poi specificare se la prima riga del file di Excel contiene i nomi delle variabili oppure no (se non li ha probabilmente sono numeri) fleggando o meno leggi i nomi delle variabili dalla prima riga di dati. Per capire questo basta semplicemente aprire il file su Excel e vedere se la prima riga è composta da stringhe o da numeri: come sappiamo infatti un nome di variabile non può mai iniziare con un numero. La percentuale di valori che determinano il tipo di dati va lasciata fleggata con valore 95. Infine, conviene fleggare anche l’opzione rimuovi spazi iniziali e finali dalle stringhe : questo serve perché se nello scrivere una parola abbiamo messo degli spazi all’inizio o alla fine vengono eliminati. C’è comunque sempre un’anteprima al centro della pagina che ci fa capire tutto. ➔ Acquisizione dati ASCII (dati di testo .dat o .txt) Attenzione con i formati txt o dat. I dati di questi formati possono essere settati in due diversi modi: ◼ Delimitate : quando sono usati dei caratteri, compreso spazio o tabulazione, per indicare il cambio di variabile: ogni variabile è quindi separata da un’altra da uno spazio, una tabulazione, una virgola, una lettera qualsiasi e via dicendo ( età , sesso , stato civile ). Ogni volta che si vede quel carattere vuol quindi dire che è finita la variabile prima e inizia la variabile dopo: quel carattere delimita le variabili. Ovviamente tutto questo deve essere sistematico: deve essere sempre quel carattere a separare tutte le variabili. Per esempio, se il carattere è lo spazio non importa che tra le prime due variabili ci siano tre spazi e tra la seconda e la terza ce ne siano dieci, l’importante è che siano sempre e solo spazi. ◼ A larghezza fissa : quando c’è allineamento in colonna, anche senza separatori tra una variabile e l’altra. Riconosciamo che è in formato fisso perché i separatori ci sono ma non sono sistematici: una variabile più essere separata da un’altra e un’altra variabile può non essere separata, oppure ci possono essere separatori diversi. L’unico modo per leggere i dati è il tracciato record, ovvero una legenda che dice come dividere le variabili: per esempio, ci dice che la prima colonna deve trattare la variabile dell’età; la seconda il sesso; la terza lo stato civile e via dicendo. Questo tracciato serve perché andranno poi messe delle righe verticali, a formare le colonne, che delimitano le variabili e ci dicono quando iniziano e quando finiscono. Se sembra che siano realizzati entrambi i metodi, sempre meglio scegliere delimitate: è più semplice!

Attenzione !: per aprire i file di testo in spss bisogna prima aprire il file in blocco note e capire come sono settati. Se sono settati a larghezza fissa (in blocco note verrà delle parole tutte unite senza spazi) nel momento in cui io lo vado ad aprire su spss quando seleziono il tipo di formato , in codifica devo selezionare la voce “ codifica locale ”, altrimenti spss mi da un bug e non me lo apre e quindi devo iniziare la procedura da capo. FileApriDati. Anche in questo caso il programma mostra per default i file .sav, quindi occorre sempre scegliere il formato desiderato in file di tipo : bisogna mettere il formato testo e a quel punto si vedono solo i file in formato testuale. Inoltre, in caso di formati testuali si può aprire su SPSS un file già aperto su blocco notes: i due possono restare contemporaneamente aperti ed è consigliabile far così perché lo si tiene aperto sotto molte cose le si possono controllare direttamente dal file. ▪ Acquisizione dati a larghezza delimitata La prima pagina chiede se il file di testo è in un formato predefinito : se è la prima volta che si importa quel file, la risposta sarà NO; in caso contrario sarà SI (se premiamo sì diciamo al computer di ricopiare perfettamente il percorso fatto in precedenza con un altro dataset che ha la stessa struttura di dati, così che non dobbiamo ricompilare tutte le pagine successive). Nel caso del SI, clicco su “sfoglia” e cerco dove ho già salvato quel file. In ogni caso, normalmente la risposta è NO. La seconda pagina chiede innanzitutto come sono disposte le variabili: se sono delimitate o a larghezza fissa. Questo lo capiamo guardando l’anteprima in basso nella pagina; può comunque essere utile aprire il file blocco notes e guardare direttamente da lì. Inoltre, viene chiesto se la prima riga del file contiene i nomi delle variabili ; in caso positivo bisogna specificare che sono contenute nella prima riga. Si chiede inoltre qual è il simbolo decimale , se la virgola o il periodo (il punto); ovviamente anche questo lo vedo nell’anteprima. Se non ci sono numeri con le cifre decimali (quindi non ci sono né punti né virgole) qualunque cosa mettiamo va bene.

Acquisizione dati a larghezza fissa Nel caso in cui i dati siano in formato fisso si esegue la stessa identica procedura ma bisogna ricordarsi di cambiare la codifica quando si apre il file e poi nella 4° finestra occorre disegnare delle vere e proprie righe verticali che separano le variabili l’una dall’altra (ovviamente per farlo si segue il tracciato record). Per inserire la riga basta cliccare; se una l’abbiamo inserita per sbaglio basta selezionarla e trascinarla fuori (si cancella da sola); se vogliamo spostarne una basta trascinarla. L’ultima riga alla fine dopo l’ultima variabile normalmente non è necessario metterla; possiamo comunque farlo per sicurezza. Se SPSS non ci permette di metterla vuol dire che l’ha già messa lui; se la mettiamo ma si genera una variabile completamente vuota dopo allora ci conviene toglierla perché anche in questo caso SPSS l’ha già considerata. A volte quando si seleziona la larghezza fissa SPSS dà un messaggio di errore: se questo accade basta ricominciare da capo l’acquisizione del file e modificare la codifica (che si trova in basso sotto il tipo di file) da “unicode” a codifica locale. Un metodo ancora più semplice è aprire il file cliccando su di esso con un doppio clic invece che selezionarlo e cliccare il tasto “Apri”. In questo caso non è necessario modificare la codifica. Conviene poi ovviamente salvare direttamente in formato. sav , attraverso il solito filesalva con nome così si ha direttamente il file pronto per SPSS con il suo formato.

MANIPOLAZIONE DEI DATI

Menù TRASFORMA Spss ci permette di creare nuove variabili e modificare quelle esistenti attraverso il suo Menù trasforma nel quale possiamo trovare:

  • Calcola Variabile
  • Conta Valori all’interno dei casi
  • Ricodifica in varibili differenti
  • Ricodifica automatica
  • Raccolta visualeCALCOLA VARIABILE Trasformacalcola variabile Assomiglia ad una calcolatrice. Permette di fare calcoli e operazioni con le variabili che si hanno a disposizione; alla fine, si genera sempre una nuova variabile data dalle operazioni fatte. Operazioni : + → più, - → meno, * →per, / → diviso, ** → elevamento alla seconda; ~ →“non”, | → “oppure”, ~= → “diverso”; la & → “e”. Nei calcoli che facciamo se abbiamo dei decimali dobbiamo sempre mettere il punto e mai la virgola (0.4, non 0,4); se c’è una lettera va messa tra virgolette (per esempio se nella variabile del sesso le femmine sono codificate con la f e i maschi con la m queste due lettere vanno messe tra virgolette: “f”; “m”). In espressione numerica viene scritta l’operazione che si sta facendo per calcolare la nuova variabile. Si può scrivere anche una qualsiasi operazione logica, come per esempio peso della madre < 35: nascerà a quel punto una nuova variabile che varrà 1 se la cosa che ho scritto è vera, mentre 0 se la cosa che ho scritto è falsa. Per esempio, se voglio sapere quante donne della mia lista sono bianche e hanno meno di 40 anni chiederò che sia donna & bianca & età < 40. Ovviamente, per codificare bianca dovrò vedere a che valore essa corrisponde sul dataset: se dentro la variabile “razza”, bianca corrisponde ad 1, scriverò razza = 1. Se anche solo una di queste cose non è vera la variabile nuova assumerà valore 0; se sono vere tutte e tre assumerà valore 1. Ancora, se voglio costruire una nuova variabile che misuri se c’è il rischio che una madre abbia problemi con la nascita del proprio figlio chiedo che fumi o che soffra di ipertensione; quindi fumo = 1 e ipertensione = 1 per il nostro dataset. La nuova variabile assumerà valore 0 se nessuna di queste due caratteristiche è vera (la madre non rischia di avere problemi con la nascita del proprio figlio); valore 1 se almeno una di queste due caratteristiche è vera (la madre rischia di avere problemi con la nascita del proprio figlio). Sul dataset possiamo anche vedere se il rischio dipende dal fatto che la madre fumi, o dal fatto che soffra di ipertensione, o da entrambe le cose: basta guardare dove sono gli 1 (ha quella caratteristica) e dove gli 0 (non ha quella caratteristica). In ogni caso, dopo aver fatto un’operazione nasce sempre una variabile nuova: la casella variabile di destinazione contiene il nome che decido per questa nuova variabile (sotto possiamo anche inserire una sua etichetta). Infine, utilizzando il pulsante se il calcolo indicato dall’espressione numerica viene eseguito solo per le unità che soddisfano una certa condizione: includi se il caso soddisfa la condizione. Per esempio, se voglio sapere quante donne bianche fumano chiederò il fumo nella schermata principale; poi cliccando su se specificherò il fatto che siano mamme bianche, quindi razza = 1.

fleggare dal più piccolo a ... e poi mettiamo il numero. Lo stesso per l’ultima classe, da un numero che mettiamo noi al più grande. Mancante di sistema deve essere fleggato quando vogliamo dare un valore a un missing che è stato definito tale da SPSS. Mancante di sistema o definito dall’utente deve essere fleggato quando vogliamo dare un valore a un missing che è stato definito tale da SPSS o da noi. Normalmente questi due non vanno mai fleggati. In ogni caso, la variabile che ne risulta non ha etichetta e non ha nemmeno etichette di valori per cui quelle dobbiamo metterle noi. ➔ RICODIFICA AUTOMATICA Trasformaricodifica automatica Essa serve ad attribuire valori numerici ad una variabile. Come quando i valori sono scritti a parole e vanno convertiti in numeri. Non va mai usata con una variabile quantitativa. In variabile > nuovo nome aggiungiamo la variabile che vogliamo ricodificare; nel nuovo nome scriviamo il suo nuovo nome e poi lo aggiungiamo con il tasto aggiungi nuovo nome. A questo punto alla variabile stringa vengono attribuiti valori numerici consecutivi a partire da 1, disponendoli in ordine alfabetico: si parte dal numero 1 e si parte dalla lettera A. Ovviamente, l’ordine alfabetico va spesso cambiato perché non c’è corrispondenza: magari per noi il numero 1 deve corrispondere a una parola che non inizia con la lettera A. Bisogna quindi rimettere il tutto in ordine con ricodifica in variabili differenti. Si può scegliere di ricodificare partendo dal valore più basso o dal valore più alto. Cliccando su considera valori delle stringhe vuote come mancanti definiti dall’utente le celle vuote vengono considerate come dati mancanti e quindi ad esse non viene attribuito nessun valore: esso va sempre fleggato. Il tasto stesso schema di ricodifica va sempre fleggato. ➔ RACCOLTA VISUALE Trasformaraccolta visuale Crea una nuova variabile suddividendo una variabile numerica in un certo numero di categorie/classi. In variabili da raccogliere vanno messe le variabili che si vogliono suddividere in classi. A questo punto, cliccando su continua, compare un grafico: su di esso compariranno delle righe verticali rosse a seconda di dove abbiamo deciso di porre i punti di divisione, cosa che facciamo manualmente scrivendo i valori di suddivisione in basso in griglia.

Per esempio, se voglio creare tre classi: 18-30, 30-45, 45-60 anni basta scrivere come valori 30, 45 (l’ultimo non serve metterlo) e sul grafico le righe rosse vengono proprio in prossimità di quei valori. Ricordiamo che l’ultimo valore non va mai messo: se devo suddividere in un tot di classi, i punti di divisione sono sempre uno in meno (quindi se devo suddividere in 3 classi avrò due punti di divisione; in 5 classi ne avrò 4 e così via). In variabile raccolta , in alto, bisogna poi scrivere il nome che vogliamo abbia la nostra nuova variabile; a fianco si può scrivere la sua etichetta. Cliccando su crea etichette si creano etichette vere e proprie che specificano quali erano i punti di divisione e quindi, di volta in volta, dove ho diviso: esso va fleggato. Si può anche usare il tasto a sinistra crea punti di divisione. In particolare, si può fleggare il tasto percentili uguali basati sui casi scansionati per creare classi che contengano lo stesso numero di rispondenti. Si scrive il numero dei punti di divisione (a seconda di quante classi dobbiamo creare) e si creano così classi divise equamente per numero di rispondenti. Se poi questi valori sono molto particolari o ricercati, essendo così precisi, posso tornare nella pagina principale e approssimarli per averli più semplici modificando direttamente il valore dalla griglia: per esempio, 2768 che è molto complesso può essere semplificato in 2700. ESERCIZIO – MANIPOLAZIONE DEI DATI – CALCOLA VARIABILE Acquisire il dataset demo.sav. Costruire una variabile che riporta il reddito familiare pro-capite : calcola variabile. Operazione da fare: reddito familiare / numero membri nucleo familiare. Costruire una variabile che riporta il numero di beni posseduti dalla lista proposta : come prima cosa guardo come sono codificate le variabili in vista variabili. Vedo che i beni posseduti sono codificati con: 1=si e 2=no allora faccio: Trasformaconta valori all’interno dei casi e in variabile di destinazione metto il nome della variabile, in variabili numeriche metto tutte le variabili selezionate,

  1. su definisci valori , come valore inserisco 1 e clicco su aggiungi. Ecco che si crea una nuova variabile che mi da tutti quelli che hanno risposto si, cioè 1.

GESTIONE ARCHIVI

Menù DATI Spss ci permette di compiere una serie di operazioni sul dataset nel complesso. Questo lo facciamo con il menù Dati nel quale possiamo trovare

  • Seleziona casi
  • File suddivisoSELEZIONA CASI Datiseleziona casi Questo tasto serve a selezionare un sottoinsieme di dati del dataset su cui lavorare (per esempio chiedo di lavorare solo sui casi in cui il sesso è maschile). Invece che selezionare tutti i casi, selezioniamo se la condizione è soddisfatta e poi scriviamo qual è la nostra condizione cliccando sul se. Nel nostro esempio, se il sesso maschile è codificato come 1, scriviamo sesso = 1. A questo punto tutte le operazioni che facciamo da quel momento in poi sono calcolate solo per i maschi. Campione casuale di dati : si può anche decidere di acquisire un campione casuale di dati. In questo caso, cliccando su campione posso decidere in modo approssimato la percentuale di dati che voglio tenere (per esempio il 10% di tutti i casi) oppure esattamente quante unità tenere da tutto il dataset (per esempio se ne voglio esattamente 200 e in tutto sono 6400 scrivo: 200 casi di 6400). Basato su intervallo di tempo o di casi : si può decidere di acquisire alcuni casi non casualmente ma dal numero tot al numero tot. Per esempio, se voglio considerare solo i primi 150 casi scrivo: da 1 a

Usa variabile filtro : per utilizzarlo dobbiamo prendere per forza una variabile che abbia come valori 0 e 1; in questo caso SPSS considererà solo gli 1. Per esempio, se la variabile “fuma” ha valori no = 0 e sì = 1 il software considererà solo gli 1, quindi mi creerà una nuova variabile con solo quelli che fumano. Inserita la condizione, abbiamo tre possibilità:

1. escludi casi selezionati significa che quelli non selezionati vengono esclusi dalla mia analisi ma in realtà restano sul video e sul dataset (continuano ad esistere, solo vengono rappresentati come barrati). Il limite di questo tasto è che ogni azione che compiamo successivamente cancella la precedente: conviene quindi utilizzarlo quando abbiamo solo una richiesta. Per esempio, se prima chiediamo che siano pensionati e poi su questi pensionati vogliamo creare un campione di 100 casi, non possiamo farlo. La seconda richiesta andrebbe infatti a cancellare la prima e il campione di 100 casi verrebbe fatto su tutto il dataset, non sui pensionati. 2. elimina casi non selezionati significa che quelli non selezionati vengono cancellati definitivamente dal dataset. **Questo è meglio non usarlo mai.

  1. copia casi selezionati in un nuovo dataset** significa che si crea un nuovo dataset in cui vengono copiati solo i dati che soddisfano la condizione da noi richiesta. Ovviamente il nuovo file va subito salvato con un altro nome, ma almeno in questo modo non si perdono completamente i dati che non vogliamo considerare (l’altro dataset resta integro con tutti i dati). Conviene usare questo. ESERCIZIO – GESTIONE ARCHIVI – SELEZIONA CASI Acquisire il dataset demo.sav. Costruire un dataset con i soli individui di età superiore ai 60 anni : datiseleziona casi , clicco su se la condizione è soddisfatta - bisogna impostare come condizione età > 60. Ecco che si creerà un dataset nuovo in base a cosa scegliamo nell’output. Costruire un dataset con i soli individui di età non inferiore ai 60 anni : datiseleziona casi , clicco su se la condizione è soddisfatta - bisogna impostare come condizione età ≥ 60. Ecco che si creerà un dataset nuovo in base a cosa scegliamo nell’output. Costruire un dataset che include un campione di 200 individui del dataset di partenza : datiseleziona casi , clicco su campione casuale di casi – chiediamo esattamente 200 individui su 6400 (il totale di casi del dataset). Costruire un dataset che include i primi 150 individui del dataset di partenza : basato su intervallo di tempo o di casi – chiedo da 1 a 150. Costruire un dataset che include solo gli uomini sposati : se la condizione è soddisfatta – bisogna impostare come condizione che siano uomini e che siano sposati (nel nostro caso sesso = “m” & stato civile = 1). Costruire un dataset che include un campione di 100 pensionati : non si può fare in un unico step e soprattutto non si può fare con escludi casi selezionati (come abbiamo già visto). Quindi bisogna prima selezionare coloro che sono in pensione e creare un nuovo dataset; poi, all’interno di questi estrarre un campione casuale di 100.
  2. Dati → seleziona casi, clicco su se la condizione è soddisfatta e creiamo la variabile dei pensionati. Oppure possiamo usare la variabile filtro e selezioniamo in pensione. A questo punto creiamo il dataset nuovo dataset attraverso copia casi selezionati in un nuovo dataset.
  3. Andiamo nel nuovo dataset e dati → seleziona casi si fa un campione casuale di dati di 100 su quelli che si son generati (se per esempio il nuovo dataset ne contiene 315 saranno 110 su 315).

CONTROLLO E SINTESI DEI DATI

Menù ANALIZZA Bisogna effettuare un controllo sui dati una volta che questi sono stati raccolti. Specialmente se le variabili sono QUANTITATIVE, è importante trovare un modo per sintetizzarli. Misure di centralità Riassumono in un unico dato l’intera distribuzione indicandone il punto centrale. Ma sono un indice povero perché non dicono nulla sulla forma. Le più comuni sono:

  • Moda : indica il punto con il maggior numero di osservazioni. Ha senso solo per le VARIABILI SCONNESSE (può essere usata anche con le QUANTITATIVE e ORDINALI )
  • Mediana : indica il valore che si trova nel punto centrale della distribuzione. Metà dei valori che si trovano sotto di essa sono più piccole, l’altra metà che si trova sopra di essa sono pi grandi. Si usa con le VARIABILI ORDINALI (può essere utilizzata con le QUANRITATIVE ma MAI CON LE SCONNESSE ). Per VARIABILI QUANTITATIVE con distribuzione molto asimmetrica, la mediana ha più senso della media.
  • Media : indica la somma dei valori osservati divisa per il numero di osservazioni. Ha senso solo con le VARIABILI QUANTITATIVE Misure di dispersione Indicano quanto i valori osservati si “disperdono”, cioè si allontanano dal punto centrale della distribuzione. Accorpati alle misure di centralità sono una buona sintesi della distribuzione. Tutte queste misure si usano SOLO CON VARIABILI QUANTITATIVE.
  • Range (campo di variazione): indica la differenza tra il valore più piccolo e quello più grande della distribuzione. In quale spazio sono spalmate le risposte?
  • Scarto interquartile : indica la differenza tra il terzo e il primo quartile, cioè l’estensione occupata dal 50% delle osservazioni. Buono se combinato con la mediana. Non è molto preciso, mi dice dove si trova la parte centrale più rappresentata. Butta via il primo e l’ultimo 25% di osservazioni.
  • Scarto quadratico medio o deviazione standard : è la media quadratica degli scarti della media. Buono se combinato alla media. È una sorta di distanza media dalla misura di tendenza centrale.
  • Varianza : è il quadrato dello s.q.m. Percentili Sono valori che lasciano sotto di se una certa percentuale di osservazioni: per esempio, il 42esimo percentile è il valore che lascia sotto di sé il 42% delle osservazioni. Alcuni percentili speciali sono:

- Centesimo percentile : è il massimo, l’osservazione più alta registrata.

- Quartile inferiore (primo quartile) : il 25esimo percentile

- Mediana (secondo quartile ): il 50esimo percentile

- Quartile superiore (terzo quartile) : il 75esimo percentile

- Decili : il decimo, ventesimo, trentesimo, … percentile

- Quintili : il ventesimo, il quarantesimo, il sessantesimo e l’ottantesimo percentile.

Indici Esistono ancora altre misure che permettono di descrivere espetti particolari di una distribuzione di dati. Questi sono gli indici di asimmetria e curtosi che si utilizzano SOLO CON VARIABILI QUANTITATIVE ➔ Asimmetria : una distribuzione è simmetrica quando le frequenze delle modalità a uguale distanza dalla misura centrale, sono uguali a destra e a sinistra. Una distribuzione è simmetrica se l’indice è uguale a 0 Se l’indice è positivo c’è una lunga coda a destra Se l’indice è negativo c’è una lunga coda a sinistra ➔ Curtosi : indica se e quanto la distribuzione è appuntita rispetto alla normale. Una distribuzione normale ha indice di curtosi pari a 0 Se l’indice di curtosi è positivo, la distribuzione è più appuntita Se l’indice di curtosi è negativo, la distruzione sarà meno appuntita

TABELLE DI FREQUENZA

Il primo passo nell’analisi dei dati consiste nel guardarli. Queste tabelle contengono per ogni singola modalità della variabile il numero di volte che è stata osservata. ANALIZZASTATISTICHE DESCRITTIVEFREQUENZE Spesso per analizzare in generale le variabili, se non è richiesto nulla di specifico ma si vuole un semplice commento su come esse sono strutturata basta fermarsi qui e richiedere le tabelle di frequenza. Esse servono soprattutto quando siamo di fronte a variabili stringa le cui modalità di risposta non possono essere visualizzate direttamente sul dataset; per individuarle è necessario richiedere le frequenze. Le tabelle di frequenza VANNO GUARDATE SOLO PER LE VARIABILI QUALITATIVE (SCONNESSE E ORDINALI); MAI PER LE QUANTITATIVE. In variabili mettiamo la/le variabili sulle quali vogliamo contare le frequenze, ovvero quante volte ogni singola modalità di risposta di quelle variabili è state osservata. Visualizza tabelle delle frequenze va lasciato sempre fleggato a parte quando ci sono le variabili quantitative. Con esse va assolutamente tolto, sennò escono fuori tabelle illeggibili! Cliccando su statistiche scegliamo se di quei dati si vuole fare la media, la mediana o la moda (la somma non va mai scelta). Ovviamente, vanno schiacciate quelle che sono possibili per quel tipo di variabile. Lo stesso va fatto con le misure di dispersione : esse vanno ovviamente fleggate solo nel caso di variabili quantitative! Per esse fleggo: massimo, minimo, deviazione standard, intervallo. Ancora, si possono richiedere i percentili : posso chiedere un quartile; percentili specifici; i punti di divisione. I percentili specifici li inserisco fleggando percentili ; a quel punto li inserisco di volta in volta scrivendo il percentile che voglio e cliccando su aggiungi. Posso anche richiedere i punti di divisione per tot gruppi uguali : per esempio i punti di divisone per 10 gruppi uguali sono i decili; i punti di divisione per 5 gruppi uguali sono i quintili e via dicendo. Infine, si possono selezionare gli indici di asimmetria e di curtosi. Cliccando su grafici si possono scegliere grafici a torta, grafici a barre, istogrammi. Gli ISTOGRAMMI sono realizzabili SOLO CON VARIABILI QUANTITATIVE; con esse invece non possiamo mai realizzare grafici a torta né grafici a barre. Con le VARIABILI ORDINALI si possono fare GRAFICI A BARRA o A TORTA; mai istogrammi. Il grafico a torta è assolutamente sconsigliato anche nel caso in cui le modalità di risposta siano troppe (viene una torta incomprensibile divisa in mille parti); allo stesso modo, se le modalità di risposta sono solo due (per esempio dividiamo tra maschi e femmine) il grafico a torta non ha senso perché viene una torta divisa perfettamente a metà. I grafici non è mai obbligatorio chiederli, lo facciamo perché ci può essere utile vedere i risultati graficamente per capirci qualcosa in più o avere ulteriori conferme.

La media è il valore centrale: se essa è 4 2, significa che 4 2 anni è l’età centrale del dataset. Nelle variabili dicotomiche la media è sempre uguale alla mediana! La deviazione standard è la distanza media dalla misura di tendenza centrale: se essa è 12 significa che mediamente la gente ha da 12 anni in meno a 12 anni in più. Il minimo e il massimo sono il valore più alto trovato e quello più basso trovato: per esempio la persona più piccola di quel dataset ha 18 anni e quella più grande ne ha 77. L’ intervallo è la differenza tra il massimo e il minimo, quindi indica da dove-a dove sono spalmate le risposte: per esempio se il suo valore è 59 significa che i rispondenti del dataset sono sparpagliati in un intervallo di 59 anni. I percentili li leggo nella tabella statistiche in questo modo: se il percentile è 2 0 e il risultato è 31 significa che il 2 0 % delle persone ha meno di 31 anni. Se chiedo più percentili e i risultati che si generano sono molto vicini significa che la distribuzione è molto concentrata; spesso parte come molto concentrata poi man a mano che si allontanano diventa più dispersa: in questo caso c’è asimmetria. Al contrario, se tra i percentili c’è sempre la stessa distanza c’è simmetria. Per esempio: se chiedo i percentili 10, 20, 30, 40, 50 e i risultati sono 45, 47, 52, 65, 83 c’è asimmetria; le distanze tra i vari percentili sono infatti diverse. L’ indice di asimmetria lo leggo sempre nella tabella statistiche : esso dice se che la distribuzione è simmetrica o meno. È simmetrica se è l’indice è zero; è un’asimmetria positiva se l’indice è positivo (asimmetria coda a destra); è un’asimmetria negativa se l’indice è negativo (asimmetria con coda a sinistra). Più è grande il valore più è grande l’asimmetria. Per esempio, se il valore è 1,1 l’asimmetria è positiva con coda a destra ma non molto forte (se fosse 3,5 sarebbe forte). L’indice di curtosi dice se la distribuzione analizzata è più appuntita (concentrata) o più appiattita rispetto alla distribuzione normale di riferimento. Se le due sono uguali l’indice è 0; se l’indice ha valori positivi è più appuntita (concentrata) della normale; se l’indice ha valori negativi è più appiattita della normale. Per esempio, se risulta 20 la distribuzione è molto appuntita (forte concentramento sul valore centrale). Se la media è molto maggiore della mediana c’è un’asimmetria positiva, quindi un’asimmetria con coda a destra: ci sono molti più valori alti grandi che valori bassi. ANALIZZASTATISTICHE DESCRITTIVEDESCRITTIVE È un tasto valido SOLO PER VARIABILI QUANTITATIVE. Non è possibile chiedere moda, mediana, valori percentili. In opzioni troviamo la media; le misure di dispersione e gli indici di asimmetria di curtosi. Infine, si può scegliere l’ordine con cui i risultati vengono mostrati: l’ordine del dataset, alfabetico, per medie crescenti, per medie decrescenti. Non posso chiedere grafici, l’unica cosa in più ripetto alle frequenze è che posso salvare le variabili. Standardizzare i dati serve a rendere confrontabili osservazioni tratte da distribuzioni diverse, oppure misurate con scale diverse (es. è più povero un italiano che guadagana 1000€ o un filippino che guafaìdagna 300€?) Il valore standardizzato indica quanti sqm il valore è distante dal valore medio. Valori positivi corrispondono a osservazioni superiori alla media, valori negativi a osservazioni inferiori alla media. Valori nulli corrispondono al valore medio. Valori più grandi di 2 o più piccoli di - 2 corrispondono a osservazioni estreme. La media di dati standardizzati è sempre uguale a 0, lo sqm è sempre uguale 1

ESERCIZIO – STATISTICHE DESCRITTIVE

Acquisire il dataset demo.sav. Visualizzare il livello d’istruzione e lo stato civile, singolarmente e distinti per sesso. La prima è ordinale; la seconda è dicotomica. Non c’è nulla da fare se non richiedere le tabelle di frequenza; se vogliamo possiamo chiedere anche moda e mediana per aiutarci. Nello stato civile il valore più alto è non sposato, quindi esso è sia la moda che la mediana (nelle dicotomiche la media è la mediana). Se vogliamo fare il tutto diviso per sesso dobbiamo prima impostare la suddivisione con file suddiviso. Scegliere il modo migliore per sintetizzare: reddito, età, livello d’istruzione, livello di soddisfazione per il lavoro, anni di permanenza all’indirizzo attuale, categoria di costo del mezzo principale. Il reddito, l’età, gli anni di permanenza sono quantitative e le faccio insieme; chiediamo media, mediana, moda e tutti gli indici di dispersione, istogrammi; eliminiamo il flag sulle tabelle di frequenza. Il livello d’istruzione, il livello di soddisfazione e la categoria di costo del mezzo principale sono ordinali; chiediamo solo mediana e moda, grafici a barra o a torta; lasciamo il flag sulle tabelle di frequenza. Acquisire il dataset demo.sav. Vedere graficamente e tramite l’indice di asimmetria se il reddito ha distribuzione simmetrica : il reddito è una variabile quantitativa, per capire se ha distribuzione simmetria possono aiutarmi: l’istogramma, l’indice di asimmetria e i percentili. Già dal grafico vedo che è profondamente asimmetrico; l’indice me lo conferma ed è 4,5: l’asimmetria è positiva, con coda a destra, anche abbastanza forte. Si può vedere anche con i percentili: da un decile all’altro non c’è regolarità. All’inizio la distanza tra i decili è piccola (la distribuzione è concentrata) poi inizia a diventare sempre più grande: c’è asimmetria. Calcolare il reddito medio e mediano degli uomini e delle donne. Per introdurre la suddivisione per sesso usiamo file suddiviso - confronta gruppi – gruppi basati sulla variabile “sesso”. In frequenze chiediamo poi la media e la mediana della variabile “reddito”. Definire qual è il reddito che solo una famiglia su dieci riesce a superare. Una famiglia su dieci significa il 10%: essendo che nei percentili si ragiona a percentuale che si lascia sotto di sé, richiediamo il 90esimo percentile (lascia sotto di sé il 90%). Nei percentili chiedo esattamente il 90esimo e risulta 143, quindi 143mila dollari: solo una famiglia su dieci riesce a superare i 143mila dollari.