Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Relazioni bivariate parte 1, Dispense di Metodologia della ricerca

relazioni bivariate parte 1 attraverso l'uso del programma SPSS.

Tipologia: Dispense

2019/2020

In vendita dal 08/08/2020

francescaditullio
francescaditullio 🇮🇹

4.8

(11)

21 documenti

1 / 8

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
RELAZIONI BIVARIATE
L’ultimo punto che indica cosa possiamo fare con i dati è: creare delle relazioni tra coppie di
variabili.
L’ANALISI BIVARIATA
Le abbiamo già viste nelle analisi precedenti. Ci permette di fare delle ipotesi per capire quale può
essere la direzione nella relazione tra variabili ed è un’operazione che sta solo nella nostra testa
perché se io cerco di mettere in relazione un modello causale in cui dico che il reddito determina il
sesso, se io trovo una relazione che funziona, funziona in tutti e due i sensi dal punto di vista
matematico, nella realtà no. Spesso siamo quindi interessati a capire la relazione che lega due
variabili, la sua direzione e la sua forza.
Una relazione può essere
- SIMMETRICA: indica che le due variabili sono in relazione fra loro, ma non specifica una
direzione o una causalità della relazione.
- ASIMMETRICA: indica una relazione di causalità tra le variabili. Nel grafico A influenza
B.
Se chiedo che più guadagno, più invecchio ti dice di si. Secondo un modello del genere, la
responsabilità di stabilire i modelli causali è nostra. La direzione di una relazione è qualcosa che ha
senso commentare e ipotizzare ma che non ci potrà confermare in maniera definitiva la relazione
matematica. La causalità non può essere provata numericamente.
- COVARIAZIONE: Ci deve essere una covariazione per dire che c’è una rel di causa effetto.
Al variare dell’uno varia anche l’altro.
- ORDINE TEMPORALE: Se una variabile viene prima e una dopo quella che viene dopo
difficilmente quella può essere la causa della prima.
- GENUINITA’ D’ASSOCIAZIONE: Relazione spuria: è una relazione in cui io vedo una rel
fra due variabili ma la rel è dovuta da un’altra variabile che sta dietro e che le influenza
entrambe. Es. del paradosso delle cicogne: nei posti dove nidificano le cicogne nascono più
bambini quindi le portano loro. Le cicogne nidificano in posti rurali dove ci sono stili di vita
pf3
pf4
pf5
pf8

Anteprima parziale del testo

Scarica Relazioni bivariate parte 1 e più Dispense in PDF di Metodologia della ricerca solo su Docsity!

RELAZIONI BIVARIATE

L’ultimo punto che indica cosa possiamo fare con i dati è: creare delle relazioni tra coppie di variabili. L’ANALISI BIVARIATA Le abbiamo già viste nelle analisi precedenti. Ci permette di fare delle ipotesi per capire quale può essere la direzione nella relazione tra variabili ed è un’operazione che sta solo nella nostra testa perché se io cerco di mettere in relazione un modello causale in cui dico che il reddito determina il sesso, se io trovo una relazione che funziona, funziona in tutti e due i sensi dal punto di vista matematico, nella realtà no. Spesso siamo quindi interessati a capire la relazione che lega due variabili, la sua direzione e la sua forza. Una relazione può essere

  • SIMMETRICA: indica che le due variabili sono in relazione fra loro, ma non specifica una direzione o una causalità della relazione.
  • ASIMMETRICA: indica una relazione di causalità tra le variabili. Nel grafico A influenza B. Se chiedo che più guadagno, più invecchio ti dice di si. Secondo un modello del genere, la responsabilità di stabilire i modelli causali è nostra. La direzione di una relazione è qualcosa che ha senso commentare e ipotizzare ma che non ci potrà confermare in maniera definitiva la relazione matematica. La causalità non può essere provata numericamente.
  • COVARIAZIONE: Ci deve essere una covariazione per dire che c’è una rel di causa effetto. Al variare dell’uno varia anche l’altro.
  • ORDINE TEMPORALE: Se una variabile viene prima e una dopo quella che viene dopo difficilmente quella può essere la causa della prima.
  • GENUINITA’ D’ASSOCIAZIONE: Relazione spuria: è una relazione in cui io vedo una rel fra due variabili ma la rel è dovuta da un’altra variabile che sta dietro e che le influenza entrambe. Es. del paradosso delle cicogne: nei posti dove nidificano le cicogne nascono più bambini quindi le portano loro. Le cicogne nidificano in posti rurali dove ci sono stili di vita

che porta ad un tasso di natalità più alto. La rel non è tra cicogna e bambin. Ma ci sono casi in cui è più difficile individuare quello che ci sta dietro, la causa nascosta. La prima cosa da tenere in considerazione quando si deve misurare l’associazione fra variabili è la loro scala di misura; la distinzione principale è fra variabili:

  • QUALITATIVE (sconnesse o ordinali)
  • QUANTITATIVE Abbiamo già analizzato alcune relazioni fra variabili: il test t a 2 campioni per l’associazione fra una variabile quantitativa e una dicotomica, l’analisi della varianza per una qualitativa (in generale, ma spesso sconnessa) e una quantitativa. Un’ulteriore considerazione alla base della scelta può essere l’ipotesi che la relazione sia di tipo causale (cioè una variabile è la causa, l’altra l’effetto). Gli aspetti da considerare sono 3:
  • Significatività della relazione (=non è dovuta al caso);
  • Forza della relazione (=quanta associazione c’è);
  • Significato o forma della relazione (=cosa dice) ATTENZIONE: perché possono cancellare relazioni che esistono e non si vedono o non far vedere le rel che ci sono davvero. L’unica cosa che possiamo fare è controllare la rpima parte e misurare la rel per vedere se c’è. Quindi bisogna capire con che variabil,i abbiamo a che fare perché se sono sconnesse o ordinali o quantitative le cose cambiano. È fondamentale scegliere gli indici corretti per valutare la rel. Una volta fatto questo gli indici corretti ci diranno: VARIABILI QUALITATIVE: TABELLE DI FREQUENZA Le tabelle di frequenze riportano al loro interno dei conteggi ovvero il numero di unità che hanno un certo carattereo una combinazione di caratteri. Hanno senso solo per variabili qualitative (ordinali o sconnesse), e comunque per variabili con un numero abbastanza piccolo di modalità di risposta, altrimenti la tabella è illegibile e i relativi indici sono inaffidabili. Le tabelle che riportano i conteggi relativi alla combinazione di due variabili si dicono TABELLE A DUE VIE O A DUE ENTRATE. VARIABILI SCONNESSE E TEST DEL CHI QUADRO

Come si interpreta il valore del χ? Se il test del χ₂ deve essere confrontato con una nuova distribuzione: la distribuzione χ₂. Questa non è ₂ deve essere confrontato con una nuova distribuzione: la distribuzione χ₂. Questa non è assume valori grandi, il p-value (area sotto la curva a destra del valore osservato) risulta piccolo. Il p-value è la probabilità di osservare valori più estremi di quello osservato (in questo caso valori più grandi) nell’ipotesi che H0 sia vera. (ipotesi di variabili indipendenti). Se il test assume valori grandi, e quindi se il p-value è piccolo, è poco probabile osservare valori così grandi nell’ipotesi ossrvata e quindi rifiuto. LA FORZA DI UNA RELAZIONE Una volta stabilito che tra le variabili esiste una relazione (e che quindi non sono indipendenti) occorre capire quanto questa relazione è forte. Abbiamo già imparato a valutare se la relazione fra due variabili è statisticamente significativa oppure è legata al caso. Tuttavia la forza di una relazionenon è la stessa cosa della significatività: la forza mi dice quanta relazionec’è, la significatività mi dice se mi posso fidare. ESEMPIO Eppure c’è la stessa relazione! Il chi quadrato però mi dice solo la significatività perché assume semplicemente valori da 0 a tantissimo perché assume solo valori. Quindi abbiamo bisogno di un altro indice che ci faccia capire se la relazione dipende dal caso o meno e se sia forte o meno. Per faro uso il coefficiente V di cramer.

INTERPRETARE IL SIGNIFICATO DELL’ASSOCIAZIONE

Se il test χ ₂ deve essere confrontato con una nuova distribuzione: la distribuzione χ₂. Questa non è ci dice che le variabili non sono indipendenti, la V di Cramer misura la forza ovvero che forma ha questa relazione. Se analizziamo ad una ad una le differenze tra le celle osservate e quelle attese nell’ipotesi di indipendenza, possiamo capire quali modalità registrano gli scarti maggiori. Perciò calcoliamo i residui standardizzati: I residui più grandi andranno ad indicare le celle che si discostano maggiormente dall’ipotesi di indipendenza, valori superiori a 2 in valore assoluto rappresentano valori assolutamente significativi. I residui positivi indicano che in quella cella si accumulano più osservazioni di quelle attese nell’ipotesi di indipendenza; residui negativi indicano meno osservazioni delle attese. ASSOCIAZIONE FRA VARIABILI QUALITATIVE ORDINALI Una tipica associazione di questo genere è monotona: all’aumentare di una variabile l’altra aumenta, oppure diminuisce. In questo senso avremo un unico valore che esprime la forza della relazione (quanto più si avvicina a 1) e la sua forma (l’indice è positivo se la relazione è diretta, viceversa è negativo). Si possono usare gli indici per variabili sconnesse, ma perdiamo informazione: si tinee conto solo del fatto che le osservazioni siano uguali o diverse rispetto alle attese, e non quanto lontane siano. Nel caso in cui gli indici per variabili ordinali indichino che non vi sono associazioni di tipo monotono, è possibile però cercare relazioni di altra forma attraverso χ ₂ deve essere confrontato con una nuova distribuzione: la distribuzione χ₂. Questa non è e i residui standardizzati. Quando le variabili sono qualitative ordinali, molti indici di associazione si basano sul concetto di concordanze e discordanze. Se si considerano tutte le n(n-1)possibili coppie di unità, avremo che: 1- CONCORDANZE: Sono “concordanze” quelle in cui una delle unità ha valori superiori all’altra in entrambe le variabili 2- DISCORDANZE: Sono “discordanze” quelle in cui una delle unità ha un valore superiore all’altra su una variabile, e un valore inferiore sull’altra 3- APPAIATE: Sono “appaiate”, o “ties”, o “coppie simili” quelle in cui le due unità della coppia hanno lo stesso valore su almeno una variabile

  • Indici per variabili ordinali (l’indice γper variabili dicotomiche assume il nome di Q di Yule), ma l’interpretazione dei valori positivi o negativi potrebbe essere controintuitiva
  • Il coefficiente di correlazione semplice, che per variabili dicotomiche prende il nome di coefficiente di correlazione tetracoricodi Bravais-Pearson(ma a parte la lettura controintuitiva, si tratta di una scelta non sempre inadeguata)
  • Indici specifici per variabili dicotomiche, come il rischio relativo Per esempio, se X è il genere e Y è il fumo, sto rapportando il rischio di fumare per i maschi col rischio di fumare per le femmine. Il significato è il rischio di fumare per un maschio rispetto a una femmina. La lettura è basata sul confronto con il valore 1: OR = 2 indica una probabilità doppia, OR = 3 una probabilità tripla, OR = 0,5 indica che la probabilità è pari alla metà, OR = 0,3 che è pari a un terzo, OR = 0,25 che è pari a un quarto, etc… QUALCHE CONSIDERAZIONE Gli indici per variabili nominali e ordinali sono molti più di quelli illustrati, ma i principi che li ispirano sono del tutto simili; importante sapere quali sono e cosa vogliono dire, perché i pacchetti statistici li propongono tutti. Gli indici asimmetrici assumono valori un po’ diversi a seconda che si consideri dipendente l’una o l’altra variabile. Non esiste un indice sempre migliore o peggiore; tutti possono dare qualche indicazione, se considerati nella situazione appropriata. Nella tabella devo mettere due variabili DICOTOMICHE. Non importa che sia numerico o a stringhe. Quando la variabile qualitativa è dicotomica, il test t è un ottimo modo per verifica rese una variabile quantitativa è in relazione con la dicotomica. Analogamente l’analisi della varianza rivela l’esistenza di una relazione fra una variabile quantitativa e una qualitativa. Se dopo aver verificato l’esistenza di una differenza tra le medie di gruppo statisticamente significativa, ne vogliamo misurare la forza, esiste il coefficiente Es. fuma e non fuma sopra e sotto il sesso ovvero la variabile per cui confrontare i gruppi. Da una parte l’evento e dall’altra quella che fa i gruppi. Questo si deve fare su SPSS. Andare su TAVOLE DI CONTINGENZA Le tavole di contingenza sono tabelle di frequenza a più dimensioni, ovvero riportano il numero di osservazioni per tutte le combinazioni di risposte a due o più variabili η2 (eta quadro).

η2 dice quanta parte della variabilità della quantitativa è spiegata dai gruppi (variabile qualitativa). Se molta variabilità è piegata dalla variabile qualitativa la relazione sarà forte. (AnalyzeDescriptiveStatisticsCrosstabs/ AnalizzaStatistiche descrittiveTavole di contingenza) Nella finestra che compare è possibile scegliere le variabili (almeno due) da tabulare, scegliere se devono essere rappresentate in riga o in colonna, richiedere alcuni indici bivariati, si può stabilire l’aspetto dell’output e richiedere o evitare la stampa di tabelle e grafici. Ricordate che in genere le percentuali sono più leggibili delle frequenze assolute, e che la scelta fra percentuali di riga o di colonna dipende esclusivamente dal tipo di informazione che si vuole veicolare con la tabella.