






































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Guida alle funzioni base SPSS con esercizi esplicativi
Tipologia: Dispense
1 / 46
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







































Acquisire dataset Esistono tre formati in cui può essere il dataset a cui corrispondono tre diverse modalità di acquisizione:
Si apre una schermata a 6 passi:
Il qualificatore serve per delimitare una parola e far sì che spss non vi legga al suo interno delimitatori. Ad esempio se il delimitatore è la virgola, ma la variabile indirizzo è “via Mazzoleni, 2”, per tenere insieme l’indirizzo indicheremo come qualificatore le doppie virgolette.
Infine impostare il dataset con le indicazioni date dalla prof (etichette, valori, valori mancanti)
Tipi di variabili:
Per analizzare separatamente alcuni gruppi di unità, è possibile creare questi gruppi: (es: dato il seguente campione creare sottocampioni M/F e vedere le differenze). DATI→DIVIDI (dove inseriamo la variabile che ci serve per dividere, in questo caso sesso) CONFRONTA GRUPPI (ogni cosa la dividiamo per entrambi). Poi togliere dividi.
Per analizzare solo una parte del dataset acquisito: DATI→SELEZIONA CASI e a questo punto abbiamo di fronte tre scelte:
Consiste nell’effettuare operazioni sulle variabili o nel crearne di nuove. Necessità di creare nuova variabile es: abbiamo come variabile l’età e vogliamo creare la variabile classe d’età. Tutte queste operazioni le facciamo dal menù “Trasforma”.
Calcola variabile : creare o trasformare una variabile come funzione di altre variabili. Per esempio se creiamo una variabile nuova da due vecchie → voglio creare variabile reddito procapite.
Creare variabile con 4 valori : per esempio M single, M sposato, F single, F sposata (in questo caso è sconnessa). Es. maschio sposato: calcola variabile -> sesso = m e stat civile =1, ecc. faccio lo stesso procedimenti per calcolare le altre variabili maschio non sposato, femmina sposata e femmina non sposata. Ottengo così 4 dicotomiche con valori 0 e 1.
Poi faccio una ricodifica nelle stesse variabili dove a tre delle dicotomiche ottenute assegno i valori 2, 3 e 4. (1-> 2; 1-> 3; 1->4). La prima la lasciamo con il valore 1.
Poi faccio calcola variabile e faccio la variabile unica: maschisposati + maschinonsposati + femminesposate + femminenonsposate.
RELAZIONI TRA VARIABILI
Il p-value rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del valore che si calcola a partire dal campione, quando l’ipotesi H0 è vera. Un p-value basso porta a rifiutare l’ipotesi nulla H0. In base all’approccio del p-value, la regola decisionale per rifiutare H0 è la seguente: ■ Se il p-value è ≥ a, accetto l’ipotesi nulla
■ Se il p-value è < a, rifiuto l’ipotesi nulla
Il p-value varia fra 0 e 1. Un p-value significativo è più piccolo di 0,05 (con intervallo di confidenza al 95%) e più piccolo di 0,01 (con intervallo di confidenza al 99%).
ALLA VOCE ANALIZZA→CONFRONTA MEDIA , incontriamo 4 possibilità:
Output: Se il P-VALUE è piccolo <0,05 (significativo) e l’intervallo di confidenza NON contiene lo zero, RIFIUTO H0, quindi la media è significativamente diversa da H0. Se il P-VALUE è grande >0,05 (non significativo) e l’intervallo di confidenza CONTIENE lo zero, ACCETTO H0, quindi la media non è significativamente diversa da H0.
Si può usare anche per verificare se la percentuale di chi ha una caratteristica dicotomica. Es. “verificare se la percentuale di coloro che possiedono internet è significativamente diversa da 0,25.”
Acquisire il dataset demo.sav
Per prima cosa bisogna calcolare la variabile “reddito procapite”. calcola variabile → reddito_procapite= reddito/nfamiglia
La media risulta essere 43,4 quindi accetto l’ipotesi che questo valore sia venuto da una popolazione con media pari a 44. Accetto questo perché il p- value è 0,439 (>0,05). La medie non è significativamente diversa.
Il p-value risulta essere 0,640 quindi >0,05. Quindi possiamo dire che il costo medio del trasporto non è significativamente diverso dal 30 come si
il p-value risulta essere molto piccolo e quindi rifiuto H0. Le variabili appaiate hanno quindi media diversa. Fratelli e sorelle hanno altezze diverse come si evince anche dalla tabella. I fratelli sono mediamente più altri di 5 cm.
IMPORTANTE → SPSS FORNISCE UNA TABELLA COI RISULTATI DEL TEST DI LEVENE SULL’UGUAGLIANZA DELLE VARIANZE.
DIVERSE. SE IL P-VALUE RISULTA ESSERE <0,05 LE MEDIE SONO SIGNIFICATIVAMENTE UGUALI.
Acquisire il dataset demo.sav
alla percentuale di abbonati a riviste, alla proporzione di coloro che usano internet e che possiedono un fax
Prima di fare un confronto con le medie, vado a guardare le varianze. In tutti e tre i casi il p-value è <0,05 quindi le varianze sono diverse. Dopodiché vado a guardare la riga “non assumo varianze uguali” la quale ci dice in tutte e tre i casi le medie sono diverse tra pensionati e non dato che il p-value risulta essere <0.05.
In particolare i non pensionati possiedono in misura significativamente maggiore un fax e un accesso ad internet e sono maggiormente abbonati a riviste.
Prima di condurre un’analisi della varianza occorre fare un test di Levene per l’uguaglianza delle varianze:
Guardando i test post-hoc i dati da commentare sono quelli asteriscati Nel caso io debba richiedere i post-hoc ( quindi c’è relazione tra le due variabili ), li richiedo dalla finestra e poi li commento. Post-hoc:
- Confronti a coppie (Tukey, Scheffe, Bonferroni, Sidak) : per ciascuna coppia di gruppi la tabella mostra la differenza delle medie e la significatività della differenza. Si commentano solo le differenze significative, spiegando quale gruppo mostra la media maggiore e di quanto. Naturalmente metà dei confronti sono replicazioni di quelli precedenti, con segno invertito.
1
Si commentano solo le differenze significative, spiegando quale gruppo mostra la media maggiore, e quali sono i valori medi dei gruppi. Le medie che non compaiono mai nella stessa colonna sono significativamente diverse.
N.B. Se una delle modalità della variabile gruppo ha un solo caso, o lo accorpiamo con un’altra modalità o lo segniamo il valore di tale caso come mancante, perché compromette i test robusti e i post-hoc.
Acquisire il dataset Belgio.sav
Eseguendo il test di levene noto che per anni di istruzione e numero di componenti della famiglia accetto H0 e dico che le varianze sono uguali. Vado quindi a guardare la tabella dell’anova per queste due variabili
Per la variabile numero di componenti della famiglia posso affermare che le medie sono uguali. Quindi tra i gruppi di lavoratori hanno lo stesso numero di componenti della famiglia. Per la variabile anni di istruzione le medie sono significativamente diverse e bisogna guardare i test post hoc per varianze uguali
Per la variabile anni di istruzione posso dire che le medie sono uguali, quindi non ci sono differenze tra i gruppi gli anni di istruzione non varia al variare del domicilio. Per la variabile età invece le medie sono significativamente diverse quindi procediamo con i test post-hoc per varianze uguali.
La differenza significativamente rilevante è presente tra grande città e sobborghi di una grande città. La differenza d’età è di circa 23 anni. Chi abita in una grande città è mediamente più giovane di 23 anni rispetto a chi abita in un sobborgo.
Acquisire il dataset demo.sav
Per costruire le 4 categorie vado in calcola variabile, per fare questo è necessario utilizzare il “SE” sottoscrivendo di volta in volta sulla variabile creata mentre nello spazio della prima schermata metto i numeri che vanno da 1 a 4.
Le varianze per entrambi i gruppi sono diverse infatti rifiuto H0 dato che <0,05. Osservo quindi i test robusti e rifiuto nuovamente H0. Le medie quindi sono significativamente diverse, c’è differenza tra i gruppi.
Osservo adesso i test post-hoc per varianze diverse utilizzando Tamhane.
Possiamo dire che il reddito familiare di un maschio sposato è di circa 8217$ più alto rispetto ad una femmina sposata e viceversa. Mentre il costo di un mezzo di trasporto per un maschio sposato è di circa 2122$ in più rispetto ad una femmina sposata.
1
Guardare il p-value: ci dice se c’è o non c’è una relazione. Se il p-value è >0,05 relazione non significativa, rifiuto H0 (non c’è relazione tra le due variabili). Se il p-value è <0,05 significa che c’è una relazione tra le due variabili.
Le tipologie di commento a questa prima tabella sono:
tra la variabile x e la variabile y esiste una relazione significativa tra la variabile x e la variabile y non esiste una relazione significativa
In base al segno del coefficiente, descrivo la relazione: Se r = 1, c’è una perfetta relazione positiva. Se 0<r<1 c’è una relazione positiva Se r=0 non c’è nessuna relazione lineare Se -1<r<0 c’è una relazione negativa Se r = -1 c’è una perfetta relazione negativa
Verificare la forza della relazione :
Pearson è l’indicatore di forza (va da -1 a 1, tanto più è vicino a 0 tanto più la relazione è debole e tanto più si allontana più è forte). Se il coefficiente è positivo (+) la relazione è positiva, nel senso che se una variabile aumenta, aumenta anche l’altra. Se il coefficiente è negativo(-), la relazione è negativa, cioè quando una variabile aumenta l’altra diminuisce. N.B in questo caso non dire nulla sulla proprietà diretta o inversa
Fare descrizione della direzione : determinata in base a positiva-negativa, due casi:
Copiare l’output su word e scrivere massimo 3 righe di commento es: esiste una relazione significativa, quindi c’è una relazione debole/forte e positiva, quindi all’aumentare dell’età aumenta il reddito. N.B non parlare statistichese! Non scrivere mai p-value, Pearson, ecc.
ANALIZZA-CORRELAZIONE-BIVARIATA -> chiedo Spearman. (Varia tra -1 e +1, quanto più si avvicina a -1 e +1, tanto più la relazione è forte, tanto più si avvicina a 0 tanto più la relazione è debole. Se Spearman vale 0 non c’è relazione tra le due variabili. Tra 0,3 e 0,7 relazione abbastanza forte. ▲ (^) Guardo se Spearman è significativo.
Faccio un breve commento sulla relazione, ad esempio all’aumentare del grado di istruzione aumenta il livello di felicità, oppure all’aumentare di una variabile l’altra diminuisce.
(anche più di due variabili). Si inseriscono 2 variabili, una in riga e una in colonna, (indifferente la posizione). In “Statistiche” richiedo “Chi-quadro”, che ci dice se la relazione c’è ed è significativa, e richiedo il coefficiente Gamma (o anche Tau-b) per le variabili ordinali, che ci dice qual è la forza della relazione. In “Celle” seleziono “residui standardizzati”. Gamma e Tau-b variano tra -1 e +1. Tanto più si avvicinano a + 1 e -1, tanto più la relazione è forte, tanto più si avvicinano a 0, tanto più la relazione è debole. Se Tau b = 0 o Gamma = 0, le variabili sono indipendenti.
Coefficiente positivo (+): la relazione è positiva (all’aumentare di una variabile, aumenta anche l’altra). Coefficiente negativo (-1): la relazione è negativa (all’aumentare di una variabile, l’altra diminuisce).
Cosa c’è da dire? Guardo il chi-quadrato: se è significativo, la relazione tra le due variabili esiste. Se è significativo significa che c’è una relazione tra le due variabili, perché rifiuto l’ipotesi H0 di indipendenza delle variabili. Poi guardo il valore del coefficiente e stabilisco la forza della relazione. Ad esempio un gamma di 0,829 stabilisce una relazione molto forte.
N.B non guardare il pvalue. Il valore di gamma è nella prima colonna. Dico se è una relazione positiva o negativa (in base al segno del coefficiente) e faccio un breve commento (es. più è buona la salute, meno si è ostacolati nelle attività).
Successivamente commento i residui standardizzati, maggiori di 2 o di -2. Es. di commento: In particolare, chi è in cattive condizioni di salute è più frequentemente ostacolato nelle attività quotidiane.
Nel caso di due ordinali e di una quantitativa: CORRELAZIONE -> BIVARIATA -> Pearson e Spearman e guardo la tabella che mi interessa.
Con il Chi-quadrato H0: non esiste nessuna relazione tra le due variabili. Richiedo Chi-quadrato e V di Cramer, e in “Celle” i residui standardizzati. La V di Cramer varia tra 0 e 1 (anche il coefficiente di contingenza C). Quanto più il valore è alto, tanto più la relazione è forte.
significativa.
Output: cosa guardare?
[ES. commento: tra coloro che sono in pensione (gruppo che si guarda) quelli che non hanno internet (numeratore del rapporto) sono l’85% (valore) in più di quelli (denominatore del rapporto) che ce l’hanno. N.B le cose tra parentesi non sono da scrivere nel commento N.B 85% corrisponde a 1,85, un altro esempio può essere 0,97 che corrisponde a 3% REGOLA: se c’è 0, si guarda quello che manca ad arrivare a 100 e il valore mancante si tramuta in percentuale, se non c’è 0, (es: 1,85) si prendono le due cifre dopo la virgola (85) e si tramuta in percentuale.] N.B se ho difficoltà a commentare la stima di rischio posso commentare la tavola di contingenza tramite i residui standardizzati. Posso commentarla sia in termini di rischio sia in termini di probabilità. Dalle diapositive: il valore da leggere è nella prima colonna e nella prima riga della tabella “stima di rischio”: indica la probabilità che accada il primo evento fra parentesi al gruppo indicato nella prima riga rispetto al secondo. In alternativa posso leggerlo come probabilità che accada il secondo evento tra parentesi per il secondo gruppo rispetto al primo
Es. lettura residui standardizzati della tabella di contingenza Tavola di contingenza Nato sottopeso * Madre ipertesa Madre ipertesa Totale No Sì Nato sottopeso
No, peso normale
Conteggio 125 5 130 Residui stand.
,3 -1,
Sì, sottopeso Conteggio 52 7 59 Residui stand.
-,4 1,
Totale Conteggio 177 12 189
Per una madre ipertesa è meno probabile avere un bambino di peso normale (-1,1). Es. lettura stima di rischio Stima di rischio Valore Intervallo di confidenza 95% Inferiore Superiore Rapporto odd per Nato sottopeso (No, peso normale / Sì, sottopeso)
3,365 1,021 11,
Per coorte Madre ipertesa = No
1,091 ,987 1,
Per coorte Madre ipertesa = Sì
,324 ,107 ,
N. di casi validi 189
E’ più probabile che il primo evento tra parentesi (peso normale) accada al caso della prima riga, cioè ad una madre non ipertesa.
Acquisire il dataset Belgio.sav e verificare se c’è relazione fra:
Il Chi quadrato indica che tra le due variabili non vi è una relazione, sono indipendenti.
Gamma ci indica che esiste una relazione inversa molto forte e che all'aumentare delle condizioni di salute, diminuisce l'essere ostacolati da problemi.
In questo caso il Chi indica che non c'è relazione tra le due variabili, che sono indipendenti.
1