









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Non riesci a passare l'esame di statistica con SPSS? Questa è una guida da me modificata nel corso del tempo, grazie alla quale ho conseguito un 29. Ci sono tutte le istruzioni passo per passo su come svolgere gli esercizi e su come leggere i risultati. Ho fatto l'esame con la Martini (Unimore).
Tipologia: Sintesi del corso
1 / 16
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










Acquisire dataset
Esistono tre formati in cui può essere il dataset a cui corrispondono tre diverse modalità di acquisizione:
non fare nulla
fare due cose: Chiede se le variabili sono delimitate (uno o più caratteri, compreso spazio o tabulazione, indicano il cambio di variabile) o a larghezza fissa (è possibile tirare delle righe a mano per separare le variabili).
Poi chiede se i nomi delle variabili sono nella prima riga.
Indicare il numero di riga in cui inizia il primo caso dei dati.
operazioni diverse in base alla scelta tra larghezza fissa o delimitata.
Infine impostare il dataset con le indicazioni date dalla prof (etichette, valori, valori mancanti).
Tipi di variabili:
Per analizzare separatamente alcuni gruppi di unità, è possibile creare questi gruppi: (es: dato il seguente campione creare sottocampioni M/F e vedere le differenze).
DATI→DIVIDI (dove inseriamo la variabile che ci serve per dividere, in questo caso sesso) CONFRONTA GRUPPI (ogni cosa la dividiamo per entrambi). Poi togliere dividi.
Per analizzare solo una parte del dataset acquisito:
DATI→SELEZIONA CASI e a questo punto abbiamo di fronte tre scelte:
VALORI dove inseriamo per esempio 1 che significa che ha quell’oggetto.
TRASFORMA→RICODIFICA IN VARIABILI DIFFERENTI. Es. da età a età in classi.
Abbiamo un’altra pagina con valori vecchi e valori nuovi. Nei valori vecchi inseriamo per esempio un intervallo: dal più piccolo a 35→1 (che vuol dire giovane), da 36 a 50 →2 (che vuol dire adulto), da 51 a tutti gli altri→3 (che vuol dire anziano). In questo caso passiamo da una variabile quantitativa ad una ordinale.
Ricodifica automatica : assegna valori numerici a variabili stringa. TRASFORMA→RICODIFICA AUTOMATICA. Non è adatta per ricodificare variabili numeriche. La ricodifica automatica assegna i numeri in ordine alfabetico. Se la variabile iniziale è una stringa, eventuali celle vuote (dati mancanti), verranno considerate come spazi e sarà loro attribuito il valore 1, oppure il valore più alto se si ragiona in ordine decrescente. Selezionando l’apposito tasto è possibile indicare le celle vuote come dati mancanti, a cui quindi non viene attribuito alcun valore. N.B. Posso usare la ricodifica automatica per girare una scala. Es 1= Molto, 2, 3, 4, 5 =Per niente la ricodifico in ordine decrescente, dove 5= Molto.
Categorizzazione visuale : permette di creare una variabile ordinale a partire da una quantitativa continua, o di comprimere un numero elevato di categorie ordinali in un numero più ridotto. TRASFORMA→CATEGORIZZAZIONE VISUALE. Poi o inserire ultimo valore dell’intervallo a mano, o CREA PUNTI DI DIVISIONE. Si possono inserire gli intervalli a mano, farli della stessa ampiezza, decidere quanti intervalli ci devono essere e con lo stesso numero di unità.
Creare variabile con 4 valori : per esempio M single, M sposato, F single, F sposata (in questo caso è sconnessa). Es. maschio sposato: calcola variabile -> sesso = m e stat civile =1, ecc. maschio non sposato femmina sposata femmina non sposata
Ottengo così 4 dicotomiche con valori 0 e 1.
Poi faccio una ricodifica nelle stesse variabili dove a tre delle dicotomiche
ottenute assegno i valori 2, 3 e 4. (1-> 2; 1-> 3; 1->4). La prima la lasciamo con il valore 1.
Poi faccio calcola variabile e faccio la variabile unica: maschisposati + maschinonsposati + femminesposate + femminenonsposate.
Il p-value varia fra 0 e 1. Un p-value significativo è più piccolo di 0,05 (con intervallo di confidenza al 95%) e più piccolo di 0,01 (con intervallo di confidenza al 99%).
ALLA VOCE ANALIZZA→CONFRONTA MEDIA, incontriamo 4 possibilità:
Output: Se il P-VALUE è piccolo (significativo) e l’intervallo di confidenza NON contiene lo zero, RIFIUTO H0, quindi la media è significativamente diversa da H0. Se il P-VALUE è grande (non significativo) e l’intervallo di confidenza CONTIENE lo zero, ACCETTO H0, quindi la media non è significativamente diversa da H0.
abbastanza forte. Da 0,7 in più relazione molto forte. Pearson è l’indicatore di forza (va da -1 a 1, tanto più è vicino a 0 tanto più la relazione è debole e tanto più si allontana più è forte).
F 0 E 0Positivo: all’aumentare dell’età aumenta il reddito.
F 0 E 0Negativo: all’aumentare dell’età cala il reddito.
Copiare l’output su word e scrivere massimo 3 righe di commento es: esiste una relazione significativa, quindi c’è una relazione debole/forte e positiva, quindi all’aumentare dell’età aumenta il reddito.
N.B non parlare statistichese! Non scrivere mai p-value, Pearson, ecc.
Es: reddito e grado d’istruzione. La variabile ordinale è bene che sia girata o dalla minor frequenza più bassa a quella più alta o dal negativo al positivo. GIRARE LA VARIABILE ORDINALE.
ANALIZZA-CORRELAZIONE-BIVARIATA -> chiedo Spearman. (Varia tra -1 e +1, quanto più si avvicina a -1 e +1, tanto più la relazione è forte, tanto più si avvicina a 0 tanto più la relazione è debole. Se Spearman vale 0 non c’è relazione tra le due variabili. Tra 0,3 e 0,7 relazione abbastanza forte. a) Guardo se Spearman è significativo. Se è significativo c’è una relazione tra le due variabili.
b) Se la relazione è significativa, stabilisco quanto è forte. c) Stabilisco se la relazione è positiva o negativa e la descrivo.
Faccio un breve commento sulla relazione, ad esempio all’aumentare del grado di istruzione aumenta il livello di felicità, oppure all’aumentare di una variabile l’altra diminuisce.
Es: reddito e sesso Le due modalità della dicotomica non devono essere in una relazione biunivoca (es. padre-figlio, prima-dopo).
ANALIZZA→CONFRONTA MEDIE→TEST T CAMPIONI INDIPENDENTI
La variabile quantitativa va inserita in alto (reddito) mentre la dicotomica va inserita in VARIABILE DI RAGGRUPPAMENTO (sesso). Si definiscono i gruppi e si riportano esattamente i valori dei due gruppi della dicotomica.
Output: per prima cosa guardo il test di Levene: se è significativo rifiuto l’ipotesi H0 che le varianze siano uguali e guardo la seconda riga. Se non è significativo, accetto l’ipotesi H0 che le varianze siano uguali e guardo la prima riga. Poi guardo il p-value, se è significativo, esiste una relazione tra le due variabili. Se il p- value è significativo rifiuto l’ipotesi H0 che le medie dei due gruppi siano uguali e assumo medie diverse.
Se le medie sono diverse, guardo qual è la media maggiore, e spiego la relazione. Es. di commento: in media il reddito di un maschio è significativamente maggiore rispetto a quello di una femmina.
N.B. Se voglio confrontare due variabili che costituiscono due gruppi in una relazione biunivoca (es padre-figlio, nonna-nipote, prima-dopo, prezzo della benzina prima-prezzo della benzina dopo; altezza del fratello – altezza della rispettiva sorella): ANALIZZA-> CONFRONTA MEDIE-> CAMPIONI APPAIATI. Praticamente abbiamo due variabili che indicano quanto esse valgono su un’altra variabile. Es. altezza fratello e altezza sorella. Nella finestra inserisco le due variabili appaiate (possono essere anche più di due) su cui voglio condurre il test.
Output: guardo se il test è significativo (p-value terza tabella). Se il p-value è significativo, rifiuto l’ipotesi H0 (cioè che le medie dei due gruppi sono uguali) di uguaglianza e posso dire che tra le variabili c’è una relazione significativa e che hanno medie diverse.
In base alle due medie della prima tabella e alla media della terza posso stabilire la differenza fra i due gruppi. Es. in media la super costa 3,7 in più della verde.
ANALIZZA→CONFRONTA MEDIE→ANOVA UNIVARIATA H0: m1=m2=m
La variabile dipendente (è la quantitativa es: reddito) va inserita in alto, il fattore va nell’apposito spazio e corrisponde alla variabile sconnessa (es: professione).
In “Celle” seleziono “residui standardizzati”. Gamma e Tau-b variano tra -1 e +1. Tanto più si avvicinano a + 1 e -1, tanto più la relazione è forte, tanto più si avvicinano a 0, tanto più la relazione è debole. Se Tau b = 0 o Gamma = 0, le variabili sono indipendenti.
Coefficiente positivo (+): la relazione è positiva (all’aumentare di una variabile, aumenta anche l’altra). Coefficiente negativo (-1): la relazione è negativa (all’aumentare di una variabile, l’altra diminuisce).
Cosa c’è da dire? Guardo il chi-quadrato: se è significativo, la relazione tra le due variabili esiste. Se è significativo significa che c’è una relazione tra le due variabili, perché rifiuto l’ipotesi H0 di indipendenza delle variabili. Poi guardo il valore del coefficiente e stabilisco la forza della relazione. Ad esempio un gamma di 0,829 stabilisce una relazione molto forte. N.B non guardare il pvalue. Il valore di gamma è nella prima colonna. Dico se è una relazione positiva o negativa (in base al segno del coefficiente) e faccio un breve commento (es. più è buona la salute, meno si è ostacolati nelle attività).
Successivamente commento i residui standardizzati, maggiori di 2 o di -2. F 0 E 0Es. di commento: In particolare, chi è in cattive condizioni di salute è più frequentemente ostacolato nelle attività quotidiane.
Nel caso di due ordinali e di una quantitativa: CORRELAZIONE -> BIVARIATA -> Pearson e Spearman e guardo la tabella che mi interessa.
Coefficiente pari a 1: esiste una perfetta relazione lineare. Coefficiente pari a 0: non esiste alcuna relazione lineare tra le due variabili.
Come leggere? Il Chi quadro ci dice se la relazione esiste. Se il chi-quadro è significativo, esiste una relazione tra le due variabili (perché rifiuto l’ipotesi di indipendenza H0). La V di Kramer ci dice quanto è forte la relazione (0,25 relazione abbastanza forte , da 0,25 in su relazione forte). Ad esempio 0,1 è debole.
Poi commentiamo i residui standardizzati maggiori di 2 e -2. Es.
X
Y
Sposati Celibi Vedovi
Occupati 0,98 -1,62 -0, Disoccupa ti
Pensionati -2,55 3,50 2, Esempio di commento: i pensionati più frequentemente di altre categorie sono celibi o vedovi, mentre è meno frequente che siano sposati.
Si fanno tutte allo stesso modo.
ANALIZZA→STATISTICHE DESCRITTIVE→TAVOLE DI CONTINGENZA
STATISTICHE→CHI QUADRATO.
CELLE→RESIDUI STANDARDIZZATI
Guardo dal chi-quadrato se la relazione esiste o no.
Guardo i residui significativi F 0 E 0sì! Vai su celle e metti standardizzati. Leggi i residui standardizzati.
In realtà la prof ha richiesto la V di Cramer anche con ordinale-sconnessa (mandare mail per chiedere)!! E antonino anche con sconnessa-dicotomica.
ANALIZZA→STATISTICHE DESCRITTIVE→TAVOLE DI CONTINGENZA
Stima di rischio Valore Intervallo di confidenza 95% Inferiore Superiore Rapporto odd per Nato sottopeso (No, peso normale / Sì, sottopeso)
3,365 1,021 11,
Per coorte Madre ipertesa = No
1,091 ,987 1,
Per coorte Madre ipertesa = Sì
,324 ,107 ,
N. di casi validi 189 E’ più probabile che il primo evento tra parentesi (normopeso) accada al caso della prima riga, cioè ad una madre non ipertesa.
Solo tra variabili quantitative. Il predittore è la variabile indipendente, X la dipendente, la variabile che vogliamo spiegare. Nell’output leggere prima la tabella “Anova” per vedere se r quadro è significativo e per vedere quindi se il modello è in grado di spiegare la variabile X. Se è significativo, dico quanto il modello spiega della variabile dipendente (prima tabella). Poi leggo la tabella coefficienti. Il primo valore in alto a sinistra (la costante) è quanto la variabile dipendente X vale senza l’influenza della variabile indipendente Y. B è quanto la dipendente X aumenta o diminuisce ad ogni aumento di uno sulla variabile Y.
Coefficienti a Modello Coefficienti non standardizzati Coefficienti standardizzati
t Sig.
B Deviazione standard Errore
Beta
1 (Costante) 2989,418 (peso del bambino senza parti premature)
56,535 52,877 ,
Numero di parti prematuri precedenti
-228,651 (di quanto diminuisce il peso del bambino per ogni parto premature in più)
106,760 -,155 -2,142 ,
a. Variabile dipendente: Peso alla nascita in grammi
Correlazione parziale -> per vedere la correlazione tra due variabili al netto di una terza. ANALIZZA -> CORRELAZIONE -> PARZIALE Si fa tra variabili quantitative e la variabile di cui escludere gli effetti deve avere una codifica quantitativa. In “Opzioni”, selezionando “correlazioni di ordine zero”, escono i risultati NON AL NETTO della variabile di controllo.
La correlazione parziale è la relazione tra due variabili rimuovendo l’effetto latente di una terza variabile.
Es: età e reddito escludendo sesso →ANALIZZA→CORRELAZIONE→PARZIALE- VARIAZIONE PER RELAZIONE-RIMUOVI EFFETTI DI: -VARIABILE DA ESCLUDERE
Es. di commento: rimuovendo l’effetto della variabile la sesso la relazione tra età e reddito è significativa, forte e positiva.
Un modello è una relazione più ampliata. Ho una variabile e voglio capire cosa la influenza cioè devo cercare le possibili cause che determinano la variazione della variabile in questione. Devo cercare i PREDITTORI.
Es: trova modello per spiegare il reddito. Da cosa dipende il reddito?
N.B bisogna fare attenzione a non mettere gli effetti es: costo dell’auto, non è il costo dell’auto a determinare il reddito ma il contrario.
Trovo il modello per spiegare una variabile quantitativa. E come predittori non posso usare variabili sconnesse (oppure devo creare per ogni modalità della sconnessa una dicotomica, lasciando a residuo la modalità più frequente, così lo leggerò l’essere celibe fa aumentare la variabile dipendente di un tot rispetto alla modalità più frequente, a parità delle altre variabili). Le dicotomiche vanno ricodificate come 1 = si e 0 = no. SEMPRE! Predittori possono essere: quantitative, dicotomiche o sconnesse convertite in dicotomiche. Interazione tra due dicotomiche. Tra due continue è possibile ma è difficile l’interpretazione : possiamo solo dire se l’effetto esiste oppure no, se è un effetto positivo o negativo e se è un effetto significativo. L’ideale è fare un’interazione tra una dicotomica e una quantitativa (es madre fumatricepesodella madre, o fumoetà (es. per ogni anno in più in cui la mamma fuma il bambino pesa tot grammi in meno)**
ANALIZZA->REGRESSIONE->LINEARE
DIPENDENTE: variabile y, cioè quella che voglio spiegare (es: reddito)
INDIPENDENTE: tutte le variabili predittori (no sconnesse! E non effetti!)
Possibilità di mettere come predittore anche un’interazione: 2 variabili ne influenzano una terza. Ad esempio voglio vedere come l’interazione fra sesso e anni di istruzione influenzi il reddito. Creo la variabile interazione sesso*istruzione e la inserisco nel modello come predittore, insieme ai predittori spaiati anni di istruzione e sesso.
POI ANALIZZA→RIDUZIONE DIMENSIONI→ Dopo aver deciso quante componenti estrarre, vado in ESTRAZIONE→NUMERO FISSO = n° fattori da estrarre e PUNTEGGI → SALVA COME VARIABILI. E ANCHE ROTAZIONE→VARIMAX se non l’ho già messo prima, per dare i nomi ai fattori.
Output: cercare matrice dei componenti ruotata (per definire variabili nuove) F 0 E 0 troviamo in colonna i fattori scelti e in riga le variabili che li compongono F 0 E 0bisogna dare nomi a fattori
Se vogliamo stabilire se il fattore popolarità (quantitativa) è in relazione con il genere (dicotomica) F 0 E 0ANALIZZA-CONFRONTA MEDIE-TEST DI CAMPIONI INDIPENDENTI