Relazioni bivariate pt. 2

RELAZIONI BIVARIATE PT. 2

TAVOLE DI CONTINGENZA

Le tavole di contingenza sono tabelle di frequenza a più dimensioni, ovvero riportano il numero di

osservazioni per tutte le combinazioni di risposte a due o più variabili

(Analyze⇒DescriptiveStatistics⇒Crosstabs/ Analizza ⇒Statistiche descrittive ⇒Tavole di contingenza)

Nella finestra che compare è possibile scegliere le variabili (almeno due) da tabulare, scegliere se devono

essere rappresentate in riga o in colonna, richiedere alcuni indici bivariati, si può stabilire l’aspetto

dell’output e richiedere o evitare la stampa di tabelle e grafici. Ricordate che in genere le percentuali sono

più leggibili delle frequenze assolute, e che la scelta fra percentuali di riga o di colonna dipende

esclusivamente dal tipo di informazione che si vuole veicolare con la tabella.

TAVOLE DI CONTINGENZA – ASPETTO

Con il pulsante “Cells…/Celle…” si possono richiedere varie opzioni di presentazione della tabella:

- Frequenze osservate o attese (nell’ipotesi di indipendenza)

- Percentuali di riga, di colonna, o complessive sul totale

- Calcolo dei residui non standardizzati, standardizzati o standardizzati corretti

- Eventuali correzioni e arrotondamenti nel caso si applichino alle osservazioni pesi non interi

Con il pulsante “Format…/Formato…” si definisce se le modalità di risposta debbano apparire nella tabella

in ordine crescente o decrescente.

TAVOLE DI CONTINGENZA – INDICI

Con il pulsante “Statistics…/Statistiche…” si ottengono numerosi indici bivariati:

- Chi-quadrato

- Correlazioni di Pearsone di Spearman(basate su ranghi)

- Per variabili nominali:

1- Coefficiente di contingenza

2- Phie V di Cramér

3- Lambda

4- Coefficiente di incertezza

- Per una variabile nominale e una quantitativa: Eta

- Per variabili ordinali:

1- Gamma

2- d di Somers

3- Tau-b e Tau-c –Kappa, Odds, Test di McNemarper variabili correlate, Statistiche di Cochrane

Mantel-Haenszelper dicotomiche

Per ciascun indice richiesto si ottiene il valore che assume, cioè la forza della relazione, e la sua

significatività approssimata (p-value); in alcuni casi, è dato anche lo SE asintotico e il valore approssimato

del test per l’uguaglianza a 0 dell’indice stesso (ma non ci interessano!)

Nel caso dell’odds-ratio (coefficiente di rischio) il valore da leggere è nella prima colonna e nella prima riga

della tabella: indica la probabilità che accada il primo evento fra parentesi al gruppo indicato nella prima

Anteprima parziale del testo

Scarica Relazioni bivariate pt. 2 e più Dispense in PDF di Metodologia della ricerca solo su Docsity!

TAVOLE DI CONTINGENZA

Le tavole di contingenza sono tabelle di frequenza a più dimensioni, ovvero riportano il numero di osservazioni per tutte le combinazioni di risposte a due o più variabili (Analyze ⇒ DescriptiveStatistics ⇒ Crosstabs/ Analizza ⇒ Statistiche descrittive ⇒ Tavole di contingenza) Nella finestra che compare è possibile scegliere le variabili (almeno due) da tabulare, scegliere se devono essere rappresentate in riga o in colonna, richiedere alcuni indici bivariati, si può stabilire l’aspetto dell’output e richiedere o evitare la stampa di tabelle e grafici. Ricordate che in genere le percentuali sono più leggibili delle frequenze assolute, e che la scelta fra percentuali di riga o di colonna dipende esclusivamente dal tipo di informazione che si vuole veicolare con la tabella. TAVOLE DI CONTINGENZA – ASPETTO Con il pulsante “ Cells…/Celle…” si possono richiedere varie opzioni di presentazione della tabella:

Frequenze osservate o attese (nell’ipotesi di indipendenza)
Percentuali di riga, di colonna, o complessive sul totale
Calcolo dei residui non standardizzati, standardizzati o standardizzati corretti
Eventuali correzioni e arrotondamenti nel caso si applichino alle osservazioni pesi non interi Con il pulsante “Format…/Formato…” si definisce se le modalità di risposta debbano apparire nella tabella in ordine crescente o decrescente. TAVOLE DI CONTINGENZA – INDICI Con il pulsante “Statistics…/Statistiche…” si ottengono numerosi indici bivariati:
Chi-quadrato
Correlazioni di Pearsone di Spearman(basate su ranghi)
Per variabili nominali: 1- Coefficiente di contingenza 2- Phie V di Cramér 3- Lambda 4- Coefficiente di incertezza
Per una variabile nominale e una quantitativa: Eta
Per variabili ordinali: 1- Gamma 2- d di Somers 3- Tau-b e Tau-c –Kappa, Odds, Test di McNemarper variabili correlate, Statistiche di Cochrane Mantel-Haenszelper dicotomiche Per ciascun indice richiesto si ottiene il valore che assume, cioè la forza della relazione, e la sua significatività approssimata (p-value); in alcuni casi, è dato anche lo SE asintotico e il valore approssimato del test per l’uguaglianza a 0 dell’indice stesso (ma non ci interessano!) Nel caso dell’odds-ratio (coefficiente di rischio) il valore da leggere è nella prima colonna e nella prima riga della tabella: indica la probabilità che accada il primo evento fra parentesi al gruppo indicato nella prima

riga rispetto al secondo (in alternativa posso leggerlo come probabilità che accada il secondo evento fra parentesi per il secondo gruppo rispetto al primo) Per gli Odds-Ratio vengono forniti anche gli estremi superiore e inferiore dell’intervallo di confidenza al 95%; se l’intervallo nella prima riga contiene il valore 1 il rischio non è significativamente diverso da 1 (quindi non è significativo). Come regola generale, chiedete solo indici di cui conoscete bene il significato!! ESERCIZIO: TAVOLE DI CONTINGENZA Acquisire il dataset Belgio.sav Verificare se c’è una relazione fra:

Condizione professionale e luogo dove si vive;
Condizioni di salute e essere ostacolato nelle attività;
Sicurezza della zona e aver subito furti –Sicurezza della zona e luogo in cui vive Nel dataset sottopeso.sav calcolare il rischio relativo di avere un bambino sottopeso:
per chi fuma rispetto a chi non fuma
per le mamme bianche rispetto a quelle di altre razze
per chi soffre di ipertensione rispetto a chi non ne soffre Acquisire il dataset spesa.sav e verificare se c’è relazione fra:
Stato civile e opinione su cosa sia fare la spesa
Dove vive e opinione su cosa sia fare la spesa
Frequenza della spesa all’ipermercato e nei negozi tradizionali MISURARE LA FORZA DI UN’ASSOCIAZIONE: DUE VARIABILI QUANTITATIVE Sto sommando il prodotto di Xi con X medio per Yi meno Y medio. Per capire quello che succede devo controllare il numeratore. È il numeratore mi dice che io sto moltiplicando il reddito della signora rosa

Tra le opzioni si possono richiedere output aggiuntivi come medie, deviazioni standard, prodotti degli scarti e covarianze ESERCIZIO: CORRELAZIONE
Acquisire il datasetdemo.sav
Analizzare le correlazioni tra età, anni trascorsi presso lo stesso datore di lavoro e prezzo dell’automobile posseduta
Analizzare la correlazione tra livello di istruzione, reddito ridotto in classi e prezzo dell’automobile ridotto in classi
Analizzare la correlazione tra reddito, anni trascorsi presso lo stesso datore di lavoro, e livello d’istruzione LA REGRESSIONE BIVARIATA
L’analisi parte dall’ipotesi che ci sia asimmetria (casuale) fra le variabili
L’idea era quella di descrivere la rel fra due variabili in modo tale da rendere possibile l’utilizzo dei valori di una variabile (indipendente)per vedere i valori dell’altra (dipendente)
Come per la correlazione, il tipo di relazione considerata è quella lineare. Il coefficiente di Spearm non richiede che le variabili siano quantitative. Funziona molto bene quando non ci sono tanti appaiati (quelli che avevano almeno una delle due variabili uguali) funziona molto bene nel momento in cui abbiamo una variabile ordinale e una quantitativa. Il coefficiente di Spearman è la scelta più adatta. Ci permette di fare anche il test unilaterale e ha già pre-spuntato il fatto che mi dà le stelline sui valori significativi. Questo perché con le correlazioni posso anche decidere di inserire tante variabili e spss mi dà i risultati in una specie di tabella dove fa tutti con tutti. Se io voglio solo sapere se c’è una rel tra età e spesa per il gas il test è a due code, se invece nell’ipotesi stessa c’è che è vero che all’aumentare dell’età la

spesa aumenta allora io voglio un test ad una coda. Se io voglio dimostrare una cosa più specifica allora è a una coda. Quando la variabile qualitativa è dicotomica, il test t è un ottimo modo per verificare se una variabile quantitativa è in relazione con la dicotomica (se il reddito medio di maschi e femmine differisce, vuol dire che esiste relazione fra reddito e genere). Non esistono indicatori di associazione per qualsiasi coppia di variabili; per esempio, non c’è un indice specifico per la relazione tra una variabile ordinale e una nominale, o tra una ordinale e una quantitativa Talvolta può essere utile dicotomizzare una o entrambe le variabili considerate, costruendo nuove variabili che abbiano un significato utile alla nostra ricerca; non abusate però di questo approccio quando non è necessario, perché comporta una perdita di informazioni!  CERCARE DI EVITARE QUESTA PROCEDURA. In altri casi, è possibile applicare metodi adatti a variabili misurate su scale di misura inferiore (mai superiore, però!); per esempio, per analizzare la relazione tra una ordinale e una sconnessa si può trattare la variabile ordinale come se fosse sconnessa e utilizzare il χ2. ESEMPIO: quando diciamo che c’è rel fra due variabili noi abbiamo una forte idea di causazione. In alcuni casi la rel che stiamo guardando dentro la nostra testa non ha semplicemente la forma del vediamo se ci azzeccano , ma “secondo me quando una variabile si sposta, sposta l’altra”. Quindi abbiamo in ment4e un legame causale che è alla base del MODELLO DI REGRESSIONE. LA RETTA DI REGRESSIONE È un modello piccolo in cui c’è una variabile effetto dipendente e una variabile causa indipendente. Il modellino lo scriviamo in questo modo: Y è la variabile indipendente e un passetto che dice che all’aumentare di una sigaretta in più fumata la mortalità aumenta di 0, qualche cosa. Il parametro a è l’intercetta e b è la pendenza della retta. Scrivere questa retta ci permette di vedere quale Y corrisponda a qualsiasi valore di x anche quelle che non abbiamo osservato. Nb. La b è la r di Pearson!!!! Il denominatore di b è diverso perché in questo caso il b non è vincolato a variare tra -1 e + 1. La formula della a non è particolarmente rilevante. A non sempre ha un senso perché mi sdice qual è il valore di Y che corrisponde a X=0 ovvero il reddito di una persona che ha studiato 0 anni che non ha senso. Come dire il reddito di un neonato. Nel caso del fumo mi direbbe il caso della mortalità che si riesce a raggiungere

INTERPRETAZIONE DEI PARAMETRI

C’è una tabella che si chiama ANOVA che mi da un p-value del test per r quadro = a 0 o diverso da 0. Perché se non è significativamente diverso da zero allora è inutile andare a fare delle grandi pontificate. La prima cosa da guardare è se questo modello spiega qualcosa o meno. Se non è significativo accetto l’ipotesi che questo modello è del tutto inutile. Tutto ha senso se il p-value è piccolo vuol dire che r quadro qualcosa spiega. Se è significativamente diverso vado a vedere quanto spiega guardando r quadro. Il 3,8% della variabilità che si osserva nei diversi redditi dipende dal fatto che i rispondenti hanno età diverse. Non ci darà delle soglie per dire quando r quadro ha senso perché ci sono delle soglie che non arrivano a spiegare quello che succede fra due variabili. Lo scopo è quello di ottenere delle spiegazioni interessanti e non riuscire a fare i calcoli. Quindi la tabella ANOVA è la prima che guardiamo anche se ce la mette per seconda. Se spiega qualcosa guardo quanto spiega e poi guardo nei coefficienti quanto mi dice. Prima di questo dovevo guardare il p- value per capire se il coefficiente che vado a guardare è significativo. Se la prof non lo ha fatto subito è perché se io ho una variabile con un unico predittori e si riesce a spiegare qualcosa allora il modello sarà produttivo. Nb. Il modello spiega qualcosa ma non tutte le variabili utilizzate spiegano qualcosa. Se c’è una sola variabile e il modello spiega qualcosa allora vuol dire che anche la variabile lo spiega proprio perché è l’unica. ESERCIZIO: REGRESSIONE SEMPLICE Acquisire il dataset sottopeso; stimare e interpretare modelli di regressione semplice per spiegare il peso alla nascita tramite:

L’età della madre
Il peso della madre
Il numero di visite
Il numero di parti prematuri Acquisire il dataset case; stimare e interpretare modelli di regressione semplice per spiegare il costo dell’immobile tramite:
L’età dell’immobile
La metratura dell’immobile

Relazioni bivariate pt. 2, Dispense di Metodologia della ricerca

Documenti correlati

Anteprima parziale del testo

Scarica Relazioni bivariate pt. 2 e più Dispense in PDF di Metodologia della ricerca solo su Docsity!