Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi statistica SPSS, Appunti di Statistica

Appunti generali sull'analisi statistica tramite software IBM spss

Tipologia: Appunti

2019/2020

In vendita dal 18/12/2020

marcella-posa
marcella-posa 🇮🇹

4.7

(3)

5 documenti

1 / 43

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
Manipolazione dei dati.
Non sempre i dati sono quelli oppure come ci servono. Tra le operazioni c’è
trasforma nella barra in alto.
TrasformaCalcola variabile: sembra una calcolatrice ma è più potente,
funziona un po’ come le formule di Excel. Le parentesi e gli ordini delle
operazioni matematiche sono utilizzate come le equazioni (prima
all’interno delle parentesi, poi il resto).
**elevamento a potenza.
≥ permette di scrivere vero o falso
≠non uguale
& e, sia-sia
│ o/oppure
Posso scrivere variabili con risposta (dicotomiche): 0 e 1.
E’ possibile indicare una condizione con il pulsante Se…
Si usa per trasformare variabili attraverso il pulsante di maggiore (più
fiducia nella chiesa che nel governo).
TrasformaConta valori all’interno dei casi: conta le variabili
selezionate. In quali variabili compare un certo valore (molto, sì o no, ecc).
Serve a prendere un elenco di variabili e conta per ogni persona quante
volte si verifica un evento.
Dalla schermata: scegliere un nome per la nuova variabile; selezionare le
variabili e spostarle nella casella variabili, scrivere una nuova etichetta;
specificare i valori (1 molto, 2 abbastanza) da “definisci valori”. Ciascun
valore deve essere confermato con aggiungi. Con il comando Se… il
conteggio è fatto solo per le variabili che soddisfano la condizione. La nuova
variabile va a finire in basso.
Le mancanti di sistema (i buchi) possono essere conteggiate o no, le
mancate risposte possono essere molto utili per valutare un certo
fenomeno.
Se io sommo tante cose note più una non nota il risultato è non noto.
Trasforma Ricodifica nelle stesse variabili: è meglio evitarla, va a
riscrivere sopra la variabile originale che quindi si annulla. C’è un rischio
alto di sbagliare. È preferibile la ricodifica in variabile differenti.
Trasforma Ricodifica in variabili differenti: è costruita come uno
specchietto, tabellina di conversione. Quello che ha un certo valore diventa
un altro valore. Si sceglie la variabile da cambiare e quella di output, si
aggiunge l’etichetta e poi modifica. Poi “valori vecchi e nuovi” (vecchio
abbinato al nuovo). Non occorre tanto concentrarsi sulle mancanti, perché
in una variabile nuova tutto è mancante.
Quando si fanno le modifiche vengono copiate in un’altra variabile a meno
che non si modifichi direttamente la variabile selezionata. Non sono
dinamiche, con le modifiche si perdono i collegamenti tra una classe e
l’altra. Le etichette di valore non si copiano automaticamente.
Trasforma Ricodifica automatica: capita spesso di dover trasformare
una variabile stringa in numerica, altrimenti non è possibile analizzare. Per
farlo si può usare la ricodifica automatica, le stringhe le mette in ordine
alfabetico e le attribuisce dei numeri. Non è sempre così automatico.
L’ordine (poco, molto) non è sempre garantito e va modificato con il
comando precedente. Poi prende dalla variabile originale il titolo della
variabile. Può però ordinare le variabili al contrario (“ricodifica partendo
da” valore più basso/alto).
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b

Anteprima parziale del testo

Scarica Analisi statistica SPSS e più Appunti in PDF di Statistica solo su Docsity!

Manipolazione dei dati.

Non sempre i dati sono quelli oppure come ci servono. Tra le operazioni c’è trasforma nella barra in alto.

Trasforma  Calcola variabile : sembra una calcolatrice ma è più potente,

funziona un po’ come le formule di Excel. Le parentesi e gli ordini delle operazioni matematiche sono utilizzate come le equazioni (prima all’interno delle parentesi, poi il resto).

**elevamento a potenza.

≥ permette di scrivere vero o falso

≠non uguale

& e, sia-sia

│ o/oppure

Posso scrivere variabili con risposta (dicotomiche): 0 e 1.

E’ possibile indicare una condizione con il pulsante Se…

Si usa per trasformare variabili attraverso il pulsante di maggiore (più fiducia nella chiesa che nel governo).

Trasforma  Conta valori all’interno dei casi : conta le variabili

selezionate. In quali variabili compare un certo valore (molto, sì o no, ecc). Serve a prendere un elenco di variabili e conta per ogni persona quante volte si verifica un evento.

Dalla schermata: scegliere un nome per la nuova variabile; selezionare le variabili e spostarle nella casella variabili, scrivere una nuova etichetta; specificare i valori (1 molto, 2 abbastanza) da “definisci valori”. Ciascun valore deve essere confermato con aggiungi. Con il comando Se… il

conteggio è fatto solo per le variabili che soddisfano la condizione. La nuova variabile va a finire in basso. Le mancanti di sistema (i buchi) possono essere conteggiate o no, le mancate risposte possono essere molto utili per valutare un certo fenomeno.

Se io sommo tante cose note più una non nota il risultato è non noto.

Trasforma  Ricodifica nelle stesse variabili: è meglio evitarla, va a

riscrivere sopra la variabile originale che quindi si annulla. C’è un rischio alto di sbagliare. È preferibile la ricodifica in variabile differenti.

Trasforma  Ricodifica in variabili differenti : è costruita come uno

specchietto, tabellina di conversione. Quello che ha un certo valore diventa un altro valore. Si sceglie la variabile da cambiare e quella di output, si aggiunge l’etichetta e poi modifica. Poi “valori vecchi e nuovi” (vecchio abbinato al nuovo). Non occorre tanto concentrarsi sulle mancanti, perché in una variabile nuova tutto è mancante. Quando si fanno le modifiche vengono copiate in un’altra variabile a meno che non si modifichi direttamente la variabile selezionata. Non sono dinamiche, con le modifiche si perdono i collegamenti tra una classe e l’altra. Le etichette di valore non si copiano automaticamente.

Trasforma  Ricodifica automatica : capita spesso di dover trasformare

una variabile stringa in numerica , altrimenti non è possibile analizzare. Per farlo si può usare la ricodifica automatica, le stringhe le mette in ordine alfabetico e le attribuisce dei numeri. Non è sempre così automatico. L’ordine (poco, molto) non è sempre garantito e va modificato con il comando precedente. Poi prende dalla variabile originale il titolo della variabile. Può però ordinare le variabili al contrario (“ricodifica partendo da” valore più basso/alto).

Correzione esercizio demo.sav.

-Costruire una variabile per il numero di beni. La somma non è consigliata (da calcola variabile). Si può fare solo se 0=no e 1=sì. Quindi è preferibile usare “conta valori all’interno dei casi”. Si scelgono quali variabili e cosa contare. Per contare solo i valori del sì il valore sarà 1. I non so con la somma normale sballano i risultati.

-Creare una variabile in 5 classi: si fa con la ricodifica dei valori e si immettono gli intervalli. Non produce etichette. Oppure si poteva anche usare la raccolta visuale (non funziona sempre) e spostare le barre. Questa può produrre etichette.

-Creare una variabile che vale 1 per le zitelle e 0 per tutti gli altri. Calcola variabile e inserire: var.sesso=”f” (le stringhe hanno bisogno di virgolette”) & varsposata=0 &varetà >40.

-Trasformare la variabile sulla soddisfazione del lavoro in una scala a 3 modalità. Controllare i valori e poi ricodificarli in variabili differenti.

Esercizio sottopeso

-Attribuire etichette appropriate e codifiche quantitative alle variabili qualitative. Attraverso la ricodifica automatica che dà numeri alle stringhe e mantiene le etichette.

-Calcolare il rapporto fra peso del nascituro e peso della madre: Trasformare il peso della madre da libbre a kg poi calcola variabile poi peso madre per peso nascituro.

-Costruire una variabile-indicatore che dice se ci sono stati precedenti parti prematuri: conta valori all’interno dei casi in cui si prendono tutti i valori da 1 al più grande per il sì e 0 per il no

-Costruire una variabile-contatore dei fattori di rischio (fumo, ipertensione, irritabilità uterina, precedenti parti prematuri): conta valori all’interno dei casi

Altra voce del menu.

Dati  ordina casi , fa lo stesso di excel, ordine crescente o decrescente

Dati  trasponi , rovesciare la matrice (le colonne in righe e viceversa)

Dati-> Aggrega…: aggrega gli individui di una classe, sono schiacciati in

una sola unità.

Dati  Seleziona casi: fa analisi su casi scelti, su piccoli gruppi, ecc. Nella

finestra troviamo:

 Tutti i casi  seleziona se la condizione è soddisfatta (es. sesso=f)  campione casuale di casi, con criteri random di percentuale approssimata oppure esattamente 100 dai primi 6400 (tutti)  basato su intervalli di tempo o casi (dal 1000 al 2000)  usa variabile filtro, uguale alla condizione. In più se seleziono escludi casi non selezionati a video restano tutti i casi ma vengono messe delle barre in quelli che non vanno bene e per le analisi successive usa solo quelli selezionati. Oppure elimina i casi non selezionati e li cancella definitivamente, quindi è rischioso. Altrimenti ancora copia casi selezionati in un nuovo dataset e si dà un nome al nuovo ma non viene salvato direttamente. Rimane valido fino a che non si toglie e si rimette in tutti i casi. Resta tutto aperto contemporaneamente e le selezioni poi si sostituiscono alle altre.

Dati  file suddiviso : fa analisi di gruppi di persone in base alla variabile

(sesso: prende in analisi i due gruppi separati “f” e “m”). Si può scegliere l’ordine in cui metterli.

valori e in alcuni casi possono essere interpretate come ordinali o quantitative ma in realtà sono sconnesse.

Cosa bisogna sempre fare con i dati? Prima di tutto bisogna guardarli ,

notare i valori e i dati, i missing e i range giusti. Poi descriverli e riassumerli : questo si fa con la misura di centralità che dipende dalla scala di misura delle variabili. In caso di variabili sconnesse, con un solo dato bisogna riassumere (il preferito, chi ha vinto le elezioni) utilizzando la moda , che non è ottimale nelle altre. Per le variabili ordinali posso fare anche la mediana, valore del medio della distribuzione. Per le quantitative di solito la migliore è la media. In alcuni casi però può essere più informativa la mediana della media se gli estremi sono troppo asimmetrici. È più stabile la mediana anche in casi in cui forse i dati sono sbagliati.

Descrivere i dati così può essere però riduttivo.

Può cambiare la misura di dispersione solo per le variabili quantitative, per quanto sparpagliate sono le unità. Il campo di variabile o range è quello basilare, si calcola con il valore massimo meno il valore minimo. Ma non permette di capire se i valori sono tutti sparpagliati o come sono messi.

Un altro metodo è lo scarto interquartile in cui si buttano via gli estremi del 25% e si tengono le informazioni che stanno a metà, nei 50% restanti.

La più usata è la deviazione standard o scarto quadratico medio : è una specie di distanza media dalla media. Quindi è misurata come la variabile, la distanza media dalla media centrale.

Tutte queste operazioni si fanno da Analizza -> Statistiche descrittive -> Frequenza. Le cose che ci interessano sono il riquadro della tendenza centrale, in alto a sinistra, e la dispersione, in basso a destra. Si possono fare anche grafici: quelli a barre e torta sono utili per le qualitative, gli istogrammi per le quantitative. Tutte queste operazioni vanno a finire nell’output.

Esercizio. Demo.sav

-Visualizza il grado di istruzione e lo stato civile suddivisi per sesso. File suddiviso…-> discriminante Sesso, divide i dati in m e f (confronta gruppi e non organizza). Ora Analizza->statistiche descrittive-> frequenza. Grafici a barre per lo stato civile e il grado di istruzione. Chiedere anche la mediana e la moda e niente dispersione. Grafico a barre. Fa i grafici suddivisi. La percentuale valida è quella che somma i no e i sì, togliendo le risposte mancanti. Quella cumulata somma tutte le percentuali fino a un certo momento. Per farlo complessivamente evito la suddivisione per sesso. -Scegliere il modo più adeguato per sintetizzare, si possono analizzare la variabile una alla volta oppure raggrupparle a seconda delle variabili (quantitative insieme, qualitative insieme):

 Reddito, età, anni di permanenza: analizza->statistiche descrittive-

frequenza. Togliere le tabelle di frequenza altrimenti escono troppo grandi e illeggibili (sono variabili quantitative), chiediamo la media e la mediana, poi di dispersione la deviazione standard varianza e tutto. Con istogramma.  Livello istruzione, livello soddisfazione e categoria costo mezzo: Stesso procedimento, lasciamo le tabelle di frequenza (variabili qualitative ). Statistiche: mediana e moda. Dispersione: no. Grafico a barre.

Il percentile.

Ha senso solo per variabili almeno ordinali ma anche per quantitative. Cos’è? È quel valore della variabile che lascia sotto di sé una certa percentuale di casi. Di solito servono alle mamme: perché i medici dicono il percentile del peso del neonato. I più importi sono: quartile inferiore 25perc. Il 50perc è la mediana. Ci aiuteranno a costruire i box-plot, fatti da una scatola con due righe (baffi). Possono essere verticali o orizzontali. Rappresentano una serie di info della variabile. La sintetizza per info importanti. La riga nel mezzo è la mediana, i bordi della scatola sono il

quartile superiore e inferiore. I baffi, le estremità si calcolano con il quartile superiore più una volta e mezzo il range interquartile (altezza scatola) e poi torno indietro finché non trovo un’osservazione vera. A volte il massimo non rientra nella grandezza quindi si rappresenta con un puntino, è un out- layers. Dà un’idea della simmetria o dell’asimmetria. Vedo la concentrazione e la dispersione.

Altre due misure: l’asimmetria , mi dice se una distribuzione è simmetrica oppure no (indice positivo o negativo), e la curtosi , dice se la distribuzione è normale o appuntita, l’indice di curtosi indica il livello di distribuzione. Tutto questo lo troviamo in frequenza.

La standardizzazione dei dati è in statistiche descrittive… I valori standard servono per confrontare valori che abbiano anche distribuzioni diverse.

Analizza->statistiche descrittive-> descrittive…. Solo per variabili qualitative è possibile la standardizzazione delle variabili. Poi di nuovo la somma, la media, la dispersione ecc. Si possono salvare i valori standardizzati come variabili. Otteniamo una tabella riassuntiva.

I grafici.

Grafici-> builder di grafico. La finestra richiede la “misura” delle variabili. Si disegna trascinando. Le variabili possono essere modificate attraverso il tasto destro per metterle ordinali o quantitative all’esigenza. Non li chiede i grafici.

Esercizi.

  • Verificare graficamente e tramite l’indice di asimmetria se il reddito ha distribuzione simmetrica.

Analizza ->frequenze. Inserire il reddito, l’asimmetria e grafico come istogramma.

-Calcolare il reddito medio e mediano degli uomini e delle donne.

File suddiviso->per sesso. Poi Analizza->frequenze media e mediana del reddito. -Definire qual è il reddito che solo una famiglia su dieci riesce a superare.

Analizza->frequenze. Reddito->percentile 90 e poi aggiungi se voglio sapere solo quella come in questo caso altrimenti suddividerli in gruppi.

Statistica inferenziale.

Abbandoniamo quella descrittiva, in cui non c’è errore campionario che dipende dal fatto che ho preso solo un campione con determinate caratteristiche. Lo standard error misura le incertezze delle stime. Ma c’è anche l’intervallo di confidenza (di fiducia), un modo di comunicare la stima che sono ragionevolmente sicuro che contenga il valore vero. Insieme di valori della media compatibili con i dati che ho osservato. Ho il 95% di convinzione che il valore si trovi là dentro. Posso avere anche il 99%, che è un intervallo più grande. Su SPSS può esserci utile un altro comando: Analizza->statistiche descrittive-> esplora. Fa le stesse cose di prima ma fa anche gli intervalli di confidenza, i box plot, analizzare in sottogruppi senza passare da File suddiviso (indico il fattore sesso per dividere in maschi e femmine, i fattori dipendenti devono esserci necessariamente). Che analisi fa? Può fare anche lo scarto interquartile, degli stimatori M (via di mezzo tra media e mediana), valori anomali (indica i valori estremi, c’è il ramo-foglia (bruttissimo). Esercizio: Demo.sav

  • Calcolare il costo medio e mediano dell’automobile di sposati e celibi/nubili. Analizza-> statistiche descrittive-> esplora. Elenco dei fattori:

95%. Se l’intervallo è tra -2 e 2 % è significativa al 5%. L’intervallo di confidenza della differenza di 95% se contiene lo 0 a livello di significatività mantengo 𝐻 0.  Medie. Non serve a nulla, è un po’ tipo esplora, non fa i grafici. C’è la possibilità di scegliere il fattore. Posso scegliere che medie mettere. Non usare la ANOVA da qua.

Esercizio:

-Verificare se il reddito medio pro-capite è pari a 44: calcola variabile per il reddito pro-capite. In seguito analizza-> confronta media-> test a campione singolo. Variabile pro-capite e valore test 44. Il reddito medio si avvicina, accettiamo 𝐻 0. Si vede anche dall’intervallo di confidenza perché contiene lo 0. Giusto.

  • Costruire una tabella con l’età media corrispondente a ciascun livello di istruzione: Analizza-> confronta media-> medie. Dipendenti età, fattore livello di istruzione, togliere nel caso e scegliere solo la media e appare. Giusto

-Verificare se il costo del mezzo di trasporto è significativamente diverso da 30: Analizza-> confronta medie-> test a campione singolo. Variabile: costo del mezzo, valore 30. P-value: 0,64. Compatibile con 𝐻 0 e accettiamo l’ipotesi. L’intervallo di confidenza contiene lo 0. Giusto.

-Verificare se il costo del mezzo di trasporto di chi è in pensione e di chi non lo è sia significativamente diverso da 30: File suddiviso: fattore pensione. Analizza->confronta media-> test a campione singolo. Variabile costo del mezzo. Valore 30. P-value dice che è significativamente diversa da 30, sia in pensione sia non in pensione. Numero molto piccolo, pochissima significatività. Meno del 1‰. Il costo è diverso da 30. La prima diversità 30 e 31 non è tanto diversa ma in realtà non dipende dalla casualità, la rifiutiamo perché il p-value è piccolo. La differenza è statisticamente rilevante. Giusto.

-Verificare se la percentuale di coloro che possiedono internet è significativamente diversa dal 25%: Analizza-> confronta medie-> test a campione singolo. Variabile: internet, percentuale 0,25. Rifiuto 𝐻 0. Variabile dicotomica che fa già la media. Ho un p-value molto piccolo, 4‰. È significativamente diversa dal 25%. Quasi giusto.

Test t per due campioni.

Due diverse possibilità. Questo test è più utile , consiste nello stabilire se la media di un certo gruppo è uguale/significativamente diverso alla media di un altro gruppo. Due situazioni a seconda di campioni appaiati o indipendenti. I campioni appaiati. Quando è possibile collegare una persona di un gruppo ad una sola persona dell’altro gruppo (marito e moglie, padre e figlio, spesa di un anno confrontata con un altro anno). Relazione biunivoca tra l’unità di un gruppo e di un altro. Su 𝐻 0 scriviamo che le medie sono uguali e su 𝐻 1 che sono diverse. Ma in realtà si possono scrivere diversamente: possiamo costruire una variabile differenza (calcola variabile: la chiamiamo differenza e facciamo una variabile meno l’altra). La differenza sarà o maggiore o minore di 0. E da qui possiamo fare un test a campione unico con valore 0. Per fare il procedimento completo il comando è: analizza->confronta medie-> test a valori appaiati. Nella schermata mettiamo le variabili. Otteniamo 3 tabelle, la seconda non ci interessa. L’ultima ci dice la media (valore positivo o negativo) e il resto. P-value è 0,007 quindi rifiuto l’ipotesi. Guardando la media posso dire se è aumentato o diminuito.

Esercizio: Acquisire stature.txt e verificare se l’altezza di ciascun fratello è significativamente diversa dall’altezza delle rispettive sorelle: analizza-

confronta media-> test t a campione accoppiato. Inserire variabile fratello e sorella. È statisticamente diverso. Rifiuto 𝐻 0. Giusto procedimento, conclusione mezzo sbagliata: 𝐻 0 è uguaglianza.

Acquisire fuel.txt e verificare se nei diversi periodi di osservazione il prezzo della benzina con e senza piombo è diverso: analizza->confronta media -> test a campione accoppiato. Inserire le due variabili. Rifiuto 𝐻 0. C’è differenza significativa, rifiuto ipotesi di uguaglianza. Giusto.

Campioni indipendenti.

Consiste nello stabilire se la media di un gruppo è uguale/significativamente diversa dalla media di un altro gruppo. Non è possibile trovare una relazione tra le unità. È il confronto più comune (maschio-femmine, reddito in età maggiore o minore). Le unità possono non essere nello stesso numero. Una sarà variabile quantitativa (per calcolare le medie), l’altra sarà la variabile che le distingue (sesso). In 𝐻 0 mettiamo l’uguaglianza, in 𝐻 1 sono diverse. Cambiano i calcoli per lo standard error, la formula funziona bene se la variabilità della popolazione maschile è uguale a quella delle femmine. Se sono diverse bisogna utilizzare il test di Levene, sulle varianze. La variabilità del primo gruppo è uguale a quella del secondo o no. In 𝐻 0 dice se sono uguali, in 𝐻 1 sono diverse. Se sono uguali devo andare a vedere un test fatto per le varianze uguali, se sono diverse il test è un altro e devo guardare una linea diversa. Se il p-value è grande accetto, altrimenti rifiuto come al solito.

Come si fa: analizza-> confronta medie-> test t per variabili indipendenti.

Inserisco le variabili per il test. Poi la variabile di raggruppamento (dicotomica) in cui bisogna definire i valori. Non tocchiamo altro. Nell’ output escono due tabelle. Nella prima ci sono le due medie poi nella seconda tabella troviamo Levene. Leggiamo il p-value di Levene e stabiliamo se è significativo o no. Una volta che stabilisco se sono uguali presunte (cioè non significativo) o uguali non presunte (cioè è significativo) leggo la riga corrispondente. Da lì poi leggo le medie per capire chi è diverso da chi nel caso di uguaglianza non presunta.

Esercizio, demo.sav:

-Verificare se ci sono differenze statisticamente significative tra pensionati e non pensionati riguardo alla percentuale di abbonati a riviste, alla proporzione di coloro che usano internet e che possiedono un fax. Analizza-

confronta medie-> test a campioni individuali. Tra le variabili inserisco abbonamento a riviste, internet e fax. Gruppi: pensione 0-1. -Verificare se il costo del mezzo di trasporto principale varia significativamente fra maschi e femmine, fra laureati e diplomati (escludendo tutte le altre categorie) e fra persone fino a 40 anni e sopra i 40 anni. Analizza->confronta medie-> test a campione individuale. Variabile: costo del mezzo. 1°caso: gruppo sesso (f;m); 2°caso: gruppo

grado d’istruzione (2;4); 3°gruppo età come punto di divisione (40,5).

L’analisi della varianza a una via. ANOVA.

È un’estensione, per confrontare più gruppi, non più solo due. Analizza-

confronta medie->Anova ad una via. Occorre scegliere la/e variabile/i quantitativa/e di cui verificare l’uguaglianza nei gruppi e la variabile con cui si formano i gruppi (il fattore). Sul pulsante contrasti nulla. Post-hoc: Tukey e T2 di Tahmane. Opzioni: test di omogeneità della varianza (Levene), descrittive, Brow-Forsythe e Welch. Output : avremo un p-value ma prima anche qui dobbiamo fare un test di Levene. Anziché due alternative nella stessa tabella, fa due tabelle diverse. Se è grande il p-value di Levene potrò usare ANOVA standard. Se è piccolo dovrò vedere test alternativi, chiamati robusti, anche quando sono infrante alcune ipotesi. I test robusti sono quelli di Welch e Brown- Forsythe. Bisogna controllarli entrambi.

ANOVA.

Numero dei componenti: non esistono medie significative (p-value grande), accetto l’uguaglianza, non varia al variare della condizione professionale. Anni istruzione: medie dei gruppi sono diverse (p-value piccolo), c’è relazione quindi post-hoc.

Quindi vediamo post-hoc per le varianze uguali: Gabriel o Tukey. Esiste differenza significativa (p-value piccolo) nei primi due. La differenza tra fuori dal mercato e lavoratori dipendenti e autonomi non è significativa.

Nei sottoinsiemi omogenei: vedo che c’è differenza solo tra lavoratore dipendente e lavoratore autonomo. Livello felicità aveva varianze diverse quindi test robusti: ci dicono che le medie sono uguali. Sono alti entrambi.

  • Verificare se il numero di anni d’istruzione e l’età (indagine è stata condotta nel 2005) variano al variare del luogo dove si vive. Calcola variabile età (2005 meno anno di nascita). Analizza-> confronta medie -> Anova. Variabili: anni di istruzione, età. Fattore: dove vive. Opzioni solite. Post-hoc: uno per ognuno (Takey e Tahmane).

Risultati.

Levene->p-value è grande quindi guardiamo Anova standard. Quindi i risultati variano al variare del fattore, in teoria.

Per quanto riguarda gli anni di istruzione abbiamo che ci sono varianze ma non sono significative, le medie sono uguali. Per l’età invece sono diverse (p-value piccolo). Guardo il post-hoc delle uguali.

Da Tukey vedo solo che l’unica differenza che c’è è tra grandi città e sobborghi di grande città. Acquisire spesa.sav.

  • Verificare se l’età media varia significativamente al variare del metodo di pagamento preferito. Prima di tutto notiamo che la variabile del metodo di pagamento è stringa quindi bisogna codificarla numericamente. Poi almeno uno dei gruppi ha meno di due casi, quindi non ce lo dà. Togliamo il caso con un gruppo, come mancante. Levene:

Ora dà p-value piccolo, quindi test robusto.

Lì le differenze sono piccoline. Le cerchiamo sul test post-hoc Tahmane.

In seguito però devo capire se è una relazione forte o debole. La significatività in questo non ci aiuta. Ci aiuta il coefficiente V di Cràmer. Variano fra 0 e 1: quanto più il valore è alto, tanto più la relazione è forte.

Poi cosa ci resta da capire? Che cosa vuole dire questa relazione. Per capire la forma della relazione abbiamo bisogno di guardare i residui standardizzati. Consistono nell’andare a prendere la distanza e redistribuirla nelle singole celle. Quando sono più grandi di +2 è stata scelta da più persone se non fossero state indipendenti. Se è negativo è stato scelto da meno persone. I residui più grandi indicano celle (e quindi combinazioni di modalità di risposta) che più si discostano dall’ipotesi di indipendenza; valori superiori a 2 in valore assoluto rappresentano scostamenti statisticamente significativi. Residui positivi indicano che in quella cella si accumulano più osservazioni di quelle attese nell’ipotesi di indipendenza; residui negativi indicano meno osservazioni delle attese. Quindi è più frequente (positivo) e meno frequente (negativo.)

Potrei anche analizzare le variabili ordinali ma la lettura è noiosa.

Gli indici per variabili ordinali , concordanze e discordanze. Se è

negativo prevalgono le discordanze, se è positivo le concordanze.

L’indice gamma (γ): basato su concetto di concordanza o discordanza.

Questi indici si limitano a contare se dentro la tabella sono più frequenti le concordanze in una variabile o meno. Varia tra -1 (discordanze) e + (concordanze). È nullo quando si equivalgono, non ci sarà relazione quindi. Quando accetto H0, accetto che gamma sia uguale a 0, quindi nessuna relazione. Se è piccolo rifiuto H0, rifiuto che sia nulla e vado a leggere l’indice in cui trovo tutto. La forza più è grande più si avvicina alla relazione. E dice anche la forma: se è positivo all’aumentare di un valore, aumenta. È il più grande per costruzione. Tutti gli indici presentano la forma: l’indice di tau-c (e tau-b ), varia tra -1 e +1, hanno p-value. Tengono conto dei campioni appaiati. Le forze si vedono dal valore.

La d di Somers. Ne produce tre: una simmetrica (equivalente al tau-b),

due versioni asimmetriche. Misura la forza della relazione orientata. Non si limita a dire la forza, ma dice la forza secondo la quale una variabile influenza l’altra. Le dà tutte e devo essere io a leggere quella sensata. La devo scegliere solo se voglio capire com’è la relazione e com’è orientata, non per vedere se c’è. Varia tra -1 e +1.

Le tabelle 2x2 : possiamo usare il x2 e residui standardizzati. Non è

consigliabile usarle per variabili ordinali. Esiste indice specifico per calcolare il rischio : il coefficiente di rischio, rapporto tra probabilità, sempre maggiore di 0. Devono essere due dicotomiche. Probabilità di fumare per un maschio rispetto a una femmina. Se è 1 non assume nessuna relazione. 2: ha il doppio di probabilità, 3: il triplo, ecc. 0,3 ha un terzo di probabilità. 0,5 la metà. Sarà difficile da leggere la tabella. Leggiamo il primo valore numerico che dice se è il doppio o altro. Per leggere a cosa corrisponde vediamo il secondo valore tra parentesi per il secondo gruppo in relazione al primo gruppo.

Quantitativa-qualitativa. La forza di Anova ce la può dare il coefficiente eta quadro (η2). Quanta parte della variabilità della y dipende dalla x. La calcola anche in medie, ma non ha Levene e i post-hoc. Però si può fare dalle tabelle di contingenza.

Su SPSS: tutto questo (tranne eta quadro che è meglio in frequenze) si vede in Analizza -> statistiche descrittive -> tabelle di contingenza. In Righe selezioniamo una variabile e in colonne pure. (Tutte qualitative). Se metto più variabili nelle righe e colonne fa più combinazioni. In Strato 1 a 1 si mette come un dividi file, se ne possono impostare altri. Celle->conteggi: osservati, (si possono nascondere quelli piccoli), calcola residui standardizzati. Test Z no. Pesi non interi no La percentuale di riga o colonna ci dà informazioni diverse, dipende sempre da quello che voglio sapere. Dipende dal buon senso. Dà spiegazione concreta a quello che troviamo nelle tavole di contingenza, nei residui.

In celle si possono chiedere anche i residui, standardizzati. Le cose che ci servono sono in statistiche: il x2, le correlazioni no, indici per variabili ordinali, la V di Cramer, gli altri no. Abbiamo eta ma non lo usiamo da qui (lo usiamo da confronta medie). Nelle righe la variabile che vogliamo spiegare, nelle colonne quelle che generano i gruppi. Nella tabella del rischio dobbiamo leggere il primo valore. La probabilità della seconda cosa tra parentesi per il primo gruppo.

Esercizi: Acquisire Belgio.sav.

  • Verificare se c’è relazione tra condizione professionale e luogo dove si vive: analizza->statistiche descrittive->tabelle di contingenza. Le variabili sono entrambe sconnesse. In riga mettiamo condizione professionale e in colonne dove vive. Statistiche: chi quadrato e v di Cramer. In celle: residui standardizzati e alcuni percentuali. Partiamo con la tabella del x2, dice subito che le variabili sono indipendenti, perché i valori sono grandi. Non guardiamo altro.

-condizioni di salute (variabili al contrario, ordinale) e ostacolati nelle attività quotidiane (variabili al contrario, ordinale). Possiamo lasciarle così o rovesciarle entrambe (ricodifica automatica). Analizza-statistiche descrittive-> tabelle di contingenza. Righe: salute e colonne ostacolato. Statistiche: gamma, tau c. e basta. Secondo gamma c’è relazione, negativa e molto forte. I valori sono bassi.

-sicurezza della zona e aver subito furti, ordinale-dicotomica. Usiamo x2 e Cramer. Il x2 dice che il valore è grande e accettiamo H0 di indipendenza delle variabili. Finito.

-sicurezza della zona e luogo in cui vive. Ordinale-sconnessa. Usiamo x2 e V di Cramer. È significativo, esiste relazione (p-value piccolo). V di Cramer non è particolarmente forte ma c’è. Dai residui vediamo che il più elevato è 2, e dice che è più frequente per chi vive nei sobborghi avere paura di camminare dove si abita;

Spesa.sav

-verificare se c’è relazione fra dove vive e opinione su cosa sia fare la spesa. Ordinale (da sistemare perché stringa) e sconnessa. Non si pone il problema perché c’è una sconnessa. Non è significativo e non c’è relazione.

-frequenza della spesa in ipermercato e negozi tradizionale. Ordinali ma sparse e vanno messe in ordine. Due modi per sistemarle: trasforma ricodifica in variabili indipendenti oppure, meglio, ricodifica automatica e trasforma le stringhe in numeri dopo poi in ricodifica in variabili differenti.

Analizza->statistiche descrittive ->tabelle di contingenza. Tutti gli indici (D di Somers no perché non c’è causa effetto). La relazione non è significativa.

Il x2 invece (se trattato da nominale) dà significatività, relazione c’è ma non è particolarmente forte. Se tra gli ordinali non c’è relazione vale la pena di fare il x2.

-verificare se c'è relazione tra stato civile e opinione sul fare la spesa. Sconnessa-sconnessa. Analizza->statistiche descrittive->tabelle di contingenza. C’è significatività quindi c’è relazione. Ma non è forte. (?)

Quantitativa-quantitativa : l’indice è il coefficiente di correlazione del

prodotto dei momenti di Pearson. Ricalca più o meno quello che abbiamo visto per gli altri indici. Varia tra -1 e +1. Ci sarà una significatività e la forma (positiva o negativa). Esiste un test per dire se R è significativamente

diverso da 0. Più il valore di R si avvicina a +1 o -1 più la relazione è forte. Se il p-value è grande non c’è relazione, se è piccolo rifiutiamo 𝐻 0 e quindi c’è relazione tra le variabili. In SPSS la troviamo in Analizza-> correlazione-> bivariata. Si scelgono tutte le variabili necessarie ed escono in ogni cella, si ottengono le relazioni tra le variabili corrispondenti. Le diagonali saranno 1 e la metà di queste è ridondante. Le stelline indicano le correlazioni significative: 1 stellina al 95% e 2 stelline al 99%. È possibile ottenere i test a una coda, dimezza i p-value. Tre opzioni , Pearson, il tau-b di Kendall, Spearman (si può usare tra quantitativa-ordinale quando ci sono pochi appaiamenti). Dentro alle tabelle di contingenza si possono chiedere le correlazioni però non è consigliabile.

Esercizi. demo.sav. -Analizzare la correlazione tra età, anni trascorsi presso lo stesso datore di lavoro e prezzo dell’automobile posseduta. Analizza->correlazioni -> bivariate. Selezionare variabili e Pearson.

Età-anni di permanenza è significativa e positiva parecchio forte. All’aumentare dell’età aumentano gli anni di permanenza nell’impiego. Età- costo del mezzo significativa e positiva. All’aumentare dell’età aumenta il costo dell’automobile. Anni di permanenza-costo significativa e positiva. Quindi all’aumentare degli anni di permanenza, aumenta il prezzo dell’auto. Giusto.

Collegamento tra correlazione e regressione.

Ci fa vedere le correlazioni in maniera diversa. La regressione lineare

semplice è un modo di riassumere un fenomeno e come funziona, relazione

asimmetrica quindi causale. Una variabile causa evidenzia un effetto. Variabile dipendente e una indipendente. Y= a + bX. Il parametro a si chiama “intercetta”, mentre il parametro b è il “coefficiente angolare” o “pendenza” della retta. La b ha lo stesso significato del coefficiente di correlazione. La a può avere valori insensati perché serve a far tornare i conti. b dice di quanto varia y quanto x aumenta di 1. Per ogni anno di età il reddito aumenta di tot €. Per ogni parametro abbiamo un test che dice se il parametro è significativo, ci interessa per la b. Se accettiamo che b sia 0, diciamo che X non influisce su Y. Il coefficiente di determinazione misura quanto è buono l’adattamento della retta di regressione ai dati in esame. Ha una sua significatività. P-value piccolo: il modello spiega un po’ più di niente e ha senso vedere cosa dice. Lo dice in una tabella ANOVA. In SPSS Analizza->regressione->lineare. Mettiamo variabile dipendente e indipendente, non facciamo altro per ora tra le altre opzioni. Guardare se il modello è significativo (ANOVA), quanto spiega (r-quadrato) e poi vedere i parametri nella tabella in basso, guardiamo B.

Esercizi sottopeso.sav

Stimare e interpretare modelli di regressione semplice per spiegare il peso della nascita (indipendente) tramite:

  • l’età della madre; dipendente peso della nascita. Indipendente età. Non è significativa in ANOVA. Non guardiamo altro.

-peso della madre; dipendente peso della nascita. Indipendente peso della madre. Calcola variabile per trasformare da libbre a grammi (si può non fare). Dipendente peso bimbo. Indipendente peso mamma. Significativa (da ANOVA), spiega il 3,5% della variabilità di y e aumenta 4.4 gr ogni libbra in più (guardiamo B per capirlo). All’aumentare del peso della mamma aumenta il peso del bambino nel 3,5% dei casi e di 4,4 gr ogni libbra. La costante è a e non la leggiamo.

-numero di visite: non è significativa quindi il modello non spiega niente.

-numero di parti prematuri. Significativa e spiega il 2,4% della variabilità di y. Se una mamma non ha avuto parti prematuri il bimbo nasce di circa 2,9. Per ogni parto prematuro il peso della nascita diminuisce di 228 gr. In questo caso a si può guardare perché è possibile che non ci siano stati parti prematuri. Il peso alla nascita diminuisce all’aumentare dei parti prematuri.

Probabili dati diversi perché in questo caso la tabella dei coefficienti esce diversa.

Case.sav

Stimare e interpretare modelli di regressione semplice per spiegare il costo dell’immobile (dipendente) tramite:

  • età dell’immobile (indipendente). Significativa, spiega poco quasi niente (0,6%) e negativa. a è il valore dell’immobile nuovo, a 0 anni. Quindi il costo dell’immobile diminuisce di 357€ all’aumentare di ogni anno di età.

-metratura (indipendente). Significativa, spiega molto (35%) e positiva. Il costo dell’immobile aumenta di 85 € all’aumentare di ogni metro. a non lo leggiamo perché non può esserci una casa di 0 metriquadri.