Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Sintesi discorsiva e schematizzata, Sintesi del corso di Tecniche Di Analisi Dei Dati

Analisi mincariata riassunto schematizzato

Tipologia: Sintesi del corso

2022/2023

Caricato il 25/01/2023

teresa-russo-23
teresa-russo-23 🇮🇹

14 documenti

1 / 23

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
CAP. 1 – RELAZIONE FRA DUE VARIABILI DICOTOMICHE
La tecnica usata per descrivere una relazione fra due variabili dicotomiche è la TABULAZIONE INCROCIATA ovvero una
TABELLA DI CONTINGENZA (4 celle)
FREQUENZE EMPIRICHE Il numero dei dati presenti nella cella
della tabella con simbolo
nij
FREQUENZE MARGINALI le cifre ai margini della tabella
La frequenza empirica in una cella non può mai superare il più piccolo fra i marginali
della riga e della colonna al cui incrocio si trova quella cella ogni cella di una data
tabella porta sempre con sé almeno tre FREQUENZE POTENZIALI:
MINIMA POSSIBILE
MASSIMA POSSIBILE
TEORICA
Confrontare le percentuali aiuta spesso a capire le relazioni fra variabili, ma s basano su un numero esiguo di dati e quindi sono
poco affidabili
Tra le celle si forma una diagonale che le unisce DIAGONALE PRINCIPALE
Si attribuisce SEGNO POSITIVO a un’associazione quando le frequenze sono più alte nelle due celle della diagonale
principale
Si attribuisce SEGNO NEGATIVO quando le frequenze sono più alte nelle altre due celle
Il MASSIMO EQUILIBRIO fra le modalità di una dicotomia si ha quando ciascuna di esse è attribuito lo stesso numero di dati
in questa situazione la dicotomia ha il massimo della varianza
Di conseguenza quando si parla di MASSIMO SQUILIBRIO c’è una situazione di minima varianza
Per calcolare la frequenza teorica in una cella
fe=ciri
N
Se in una cella la frequenza empirica è sensibilmente diversa da quella teorica, le due categorie interessate manifestano
un’associazione:
POSITIVA se la frequenza empirica è più alta
osi parlerà di ATTRAZIONE
NEGATIVA se la frequenza empirica è più bassa
oSi parlerà di REPULSIONE
Generalmente uno scarto di n dati tra le frequenze empiriche e quelle teoriche in una cella comporta uno scarto uguale e di segno
contrario alle celle adiacenti e uno scarto uguale e di segno uguale nell’altra cella della stessa diagonale ne consegue che in una
tabella di contingenza fra due dicotomie, se conosciamo i marginali, basta conoscere la frequenza di una cella per conoscere tutte
le altre
COME SI STABILISCE L’INFLUENZA DI UNA VARIABILE SULL’ALTRA?
Se ci si basa esclusivamente sulla matrice dei dati non è possibile stabilire se:
1. X influenza Y (UNIDIREZIONALITA’) o se si influenzano a vicenda (BIDIREZIONALITÀ) non si può
stabilire la DIREZIONE
2. X influenza T tanto quanto Y influenza X (ASIMMETRIA) o se X e Y si influenzano allo stesso modo (SIMMETRIA)
non si può stabilire la SIMMETRIA
Sono le conoscenze del ricercatore circa la natura delle due proprietà a stabilire la direzione e la simmetria
Possono verificarsi 3 situazioni:
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17

Anteprima parziale del testo

Scarica Sintesi discorsiva e schematizzata e più Sintesi del corso in PDF di Tecniche Di Analisi Dei Dati solo su Docsity!

CAP. 1 – RELAZIONE FRA DUE VARIABILI DICOTOMICHE

La tecnica usata per descrivere una relazione fra due variabili dicotomiche è la TABULAZIONE INCROCIATA  ovvero una TABELLA DI CONTINGENZA (4 celle)

 FREQUENZE EMPIRICHE  Il numero dei dati presenti nella cella

della tabella con simbolo nij

 FREQUENZE MARGINALI  le cifre ai margini della tabella

La frequenza empirica in una cella non può mai superare il più piccolo fra i marginali della riga e della colonna al cui incrocio si trova quella cella  ogni cella di una data tabella porta sempre con sé almeno tre FREQUENZE POTENZIALI:  MINIMA POSSIBILE  MASSIMA POSSIBILE  TEORICA Confrontare le percentuali aiuta spesso a capire le relazioni fra variabili, ma s basano su un numero esiguo di dati e quindi sono poco affidabili Tra le celle si forma una diagonale che le unisce  DIAGONALE PRINCIPALE  Si attribuisce SEGNO POSITIVO a un’associazione quando le frequenze sono più alte nelle due celle della diagonale principale  Si attribuisce SEGNO NEGATIVO quando le frequenze sono più alte nelle altre due celle Il MASSIMO EQUILIBRIO fra le modalità di una dicotomia si ha quando ciascuna di esse è attribuito lo stesso numero di dati  in questa situazione la dicotomia ha il massimo della varianza Di conseguenza quando si parla di MASSIMO SQUILIBRIO c’è una situazione di minima varianza

Per calcolare la frequenza teorica in una cella  fe =

ci ∗ ri

N

Se in una cella la frequenza empirica è sensibilmente diversa da quella teorica, le due categorie interessate manifestano un’associazione:  POSITIVA  se la frequenza empirica è più alta o si parlerà di ATTRAZIONE  NEGATIVA  se la frequenza empirica è più bassa o Si parlerà di REPULSIONE Generalmente uno scarto di n dati tra le frequenze empiriche e quelle teoriche in una cella comporta uno scarto uguale e di segno contrario alle celle adiacenti e uno scarto uguale e di segno uguale nell’altra cella della stessa diagonale  ne consegue che in una tabella di contingenza fra due dicotomie, se conosciamo i marginali, basta conoscere la frequenza di una cella per conoscere tutte le altre

COME SI STABILISCE L’INFLUENZA DI UNA VARIABILE SULL’ALTRA?

Se ci si basa esclusivamente sulla matrice dei dati non è possibile stabilire se:

  1. X influenza Y (UNIDIREZIONALITA’) o se si influenzano a vicenda (BIDIREZIONALITÀ)  non si può stabilire la DIREZIONE
  2. X influenza T tanto quanto Y influenza X (ASIMMETRIA) o se X e Y si influenzano allo stesso modo (SIMMETRIA)  non si può stabilire la SIMMETRIA Sono le conoscenze del ricercatore circa la natura delle due proprietà a stabilire la direzione e la simmetria Possono verificarsi 3 situazioni:
  1. UNIDIREZIONALITA’  caratterizzato da una variabile indipendente che non si lascia influenzare dalla variabile dipendente
  2. BIDIREZIONALITA’ ASIMMETRICA  Date due variabili X e Y, si ipotizza che ci sia un’influenza reciproca e che X influenza Y con forza maggiore con cui Y influenza X
  3. BIDIREZIONALITA’ SIMMETRICA  entrambe le variabili si influenzano con la stessa forza ESEMPIO: Come stabilire se la relazione è DIRETTA O INDIRETTA? Per stabilirlo si ricorre all’ANALISI TRIVARIATA  introduzione della variabile di controllo t  INDIRETTA  si possono verificare due tipi di relazione: o SOPPRESSA o SPURIA

ASSOCIAZIONI TRA VARIABILI

Per poter stabilire se c’è associazione tra variabili, è possibile basarsi solo su come i dati si distribuiscono tra le celle, ma affinché ci sia associazione si devono verificare 2 condizioni:

  1. MARGINALI DI RIGA E COLONNA EQUILIBRATI  devono distribuirsi in modo uguale tra i marginali
  2. FREQUENZE CONCENTRATE IN DUE CELLE DELLA STESSA DIAGONALE a. D > d  associazione positiva b. D = d  indipendenza c. D < d  associazione negativa I coefficienti utilizzati per sintetizzare l’associazione tra variabili dicotomiche si basano sul PRODOTTO INCROCIATO 

α ∗ d − b ∗ c

COEFFICIENTI BIDIREZIONALI

I coefficienti bidirezionali basati sul prodotto incrociato sono 4: Il più semplice e il più usato è stato proposto dall’inglese UNDY YULE (1912) è il coefficiente Q:

Q =

ad − bc

ad + bc

Molto usato è anche il coefficiente φ che impiega come normalizzatore la radice quadrata del prodotto dei 4 marginali:

ad − bc

√( a +^ b )( c +^ d )(^ a + c^ )( b + d^ )

 φ  Considera tutti i marginali

 Dxy  considera sol i marginali della variabile dipendente (colonna)

Dxy =

ad − bc

( a + b ) ( c + d )

Mentre il Dsim è orientato alle diagonali, il Dxy le normalizza usando i marginali  il suo denominatore considera solo i 2

marginali di riga, differentemente da φ

Dxy si comporta bene quando i marginali sono equilibrati e quando una diagonale è vuota; mentre si comporterà in modo accettabile quando i marginali sono squilibrati, ma nessuna cella è vuota  mostra il suo comportamento migliore quando in una coppia di marginali uno è equilibrato e l’altro no  LO SQUILIBRIO FRA I DUE MARGINALI DI COLONNA  comprime il valore del denominatore, che non riduce abbastanza il valore del numeratore  LO SQUILIBRIO FRA LE FREQUENZE DELLA DIAGONALE PRINCIPALE  fa sì che il prodotto incrociato sia molto alto in valore assoluto e il denominatore non riesce a comprimerlo Quando le celle semivuote sono sulla stessa colonna, nessun marginale di riga è piccolo, quindi il prodotto dei 2 marginali di colonna non risulta compresso  il valore globale della frazione risulta basso e il grado di influenza non viene sopravvalutato Quando le celle semivuote sono sulla stessa riga, il corrispondente marginale è piccolo e comprime il denominatore  non riduce abbastanza il valore della frazione Quando entrambe le coppie di marginali sono equilibrate, tutti e 5 coefficienti analizzati stimano correttamente il grado di associazione:  Si può usare Q solo quando una diagonale è (semi)vuota, oppure se non ci sono celle (semi)vuote

 Si può usare φ quando si può usare Q e quando una sola coppia di marginali è equilibrata

 Si può usare Dsim quando si può usare φ

 t non è dominato da f e da Dsim perché è l’unico a dare risultati accettabili in caso di associazione d’angolo  Dxy è inaffidabile se ci sono una o tre celle (semi)vuote Non c’è un solo coefficiente dicotomico affidabile qualunque sia la struttura della tabella

LA NATURA PARTICOLARE DELLE DICOTOMIE

Le dicotomie sono variabili categoriali di natura speciale perché possono essere considerate sia come categoriali sia come ordinali Nel caso del genere si può attribuire valore ordinale alle cifre riconcettualizzando il genere come ‘appartenenza al genere femminile’  alcuni vanno oltre attribuendo valore cardinale alle cifre, adottando l’intervallo 0-1 come unità di misura

CAP. 2 – RELAZIONI FRA DUE VARIABILI CATEGORIALI

COME COSTRUIRE UNA TABELLA DI CONTINGENZA

Ogni cella di una tabella porta sempre con sé quattro frequenze (già descritte nel capitolo precedente) Dato che il numero di celle in una tabella varia in funzione al numero delle categorie delle due variabili che si mettono in relazione, per le frequenze di una data cella non c’è un simbolo semplice A differenza di quanto accade nelle dicotomie, la diagonale non ha un significato particolare, ma esiste solo se il numero delle righe è uguale al numero delle colonne  in questo caso ancora più importante è il numero delle categorie Le frequenze teoriche possono risultare basse anche in celle i cui marginali avevano valori abbastanza alti  affinché la frequenza teorica sia alta e garantisca l’affidabilità dei risultati relativi a quella cella è necessario che in entrambe le categorie che formano quella cella le frequenze costituiscano quote apprezzabili del totale dei casi A meno che il numero dei casi sia molto alto, è necessario che le modalità di entrambe le variabili siano poche  è il caso di mantenere sempre presente questa serie di proporzioni:

Più le variabili hanno le due variabili tabulate  più celle ha la tabella  più celle restano (quasi) vuote anche se N è alto È necessario che non solo le modalità siano in numero ridotto, ma anche che le loro frequenze siano abbastanza equilibrate  la soluzione è: un ricercatore può raccogliere le informazioni su una proprietà categoriale con tutta la sensibilità che crede opportuna  ma al momento di mettere in relazione questa categoriale con un’altra variabile, si deve preoccupare di aggregare le categorie, tenendo conto sia dell’affinità semantica, sia della desiderabilità di approssimare per quanto possibile la frequenza ideali in modo da massimizzare l’equilibrio della distribuzione Regole per la presentazione delle tabelle:

  1. PARSIMONIA  riportare solo le informazioni e le percentuali che servono per l’analisi
  2. TOTALI PERCENTUALI  riportare i totali percentuali per far capire al lettore come leggere la tabella
  3. BASI PERCENTUALI  riportare sempre il totale N per consentire al lettore di valutare la rilevanza scientifica della percentuale calcolata
  4. CIFRE DECIMALI  decimale 0 o arrotondamenti
  5. INTESTAZIONE  dare sempre un titolo alla tabella
  6. SOMME PERCENTUALI  è possibile sommare i valori che appartengono alla stessa distribuzione 5 regole per l’interpretazione di una tabella di contingenza:
  7. L’interpretazione deve rispondere all’interrogativo: esiste una relazione tra X e Y?
  8. La lettura della tabella deve avvenire in direzione opposta alla percentualizzazione, per cui si percentualizza in colonna e si legge in riga
  9. La lettura dei dati deve concentrarsi sulle % più significative della variabile dipendente in relazione alla indipendente
  10. Se la variabile dipendente è una categoriale ordinata è possibile leggere i dati aggregando le % delle modalità vicine
  11. Se la variabile dipendente è categoriale ordinata per eliminare l’effetto delle categorie centrali è possibile ricorrere ALL’INDICE DI DIFFERENZA PERCENTUALE  scarto tra le categorie esterne della variabile categoriale ordinata dipendente: a. SCARTO AMPIO  i casi si concentrano nelle categorie esterne (cat. 15-17) b. SCARTO RIDOTTO  i casi si concentrano nelle categorie centrali (cat. 30-34) ESEMPIO:

DUE MODI DI ANALIZZARE LE

TABELLE DI CONTINGENZA FRA

VARIABILI CATEGORIALI

Due modi di analizzare: CONFRONTO FRA LE FREQUENZE EMPIRICHE E TEORICHE  si basa sul test (di associazione e significatività) più semplice e diffuso di calcolare un noto coefficiente relativo al rapporto fra variabili categoriali, il cui scopo è quello di stabilire se le frequenze osservate differiscono significativamente da quelle teoriche

X

2 =∑

( Fo − Fe )

2

Fe

 Il NUMERATORE è elevato al quadrato perché altrimenti gli scarti positivi, sommati a quelli negativi, si annullerebbero  Il DENOMINATORE ha funzioni di normalizzazione  serve a tener conto del fatto che uno scarto di 10 da una frequenza di 10 è molto più rilevante di uno stesso scarto su una frequenza teorica di 1000

RELAZIONI FRA VARIABILI ORDINALI

Una variabile ordinale a differenza di una categoriale, ha valori alti e bassi e si può dire che due variabili ordinali:  COVARIANO  se a valori alti dell’una tendono valori alti dell’altra  CONTROVARIANO  se a valori alti dell’una tendono valori bassi dell’altra Le due diagonali sono il punto di riferimento per l’analisi delle tabelle di contingenza fra variabili ordinali  considerazioni:

  1. Nella maggior parte dei casi, parlare di diagonale è improprio  c’è una vera diagonale solo quando le due variabili hanno lo stesso numero di modalità
  2. Non necessariamente queste due diagonali hanno la stessa posizione  può darsi che la diagonale della cograduazione sia ascendente e l’altra sia discendente
  3. Fra le due variabili ordinali c’è una cograduazione se le frequenze della tabella di contingenza si addensano sulla o attorno alla diagonale della cograduazione  c’è una contro-graduazione se esse si addensano sulla o attorno la diagonale della contro-graduazione Per accertare se e dove si addensano le frequenze, si può ricorrere al confronto delle percentuali di riga e i marginali di colonna  non sempre le celle con le frequenze empiriche più alte di quelle teoriche si addensano attorno a una delle diagonali Capita abbastanza di frequente che le celle siano distribuite qua e la nella tabella, cioè che emergano attrazioni fra singole categorie di una variabile e singole categorie dall’altra, ma non un’associazione globale fra le due variabili In questo caso un’associazione globale fra le variabili c’è, ma non è monotonica, nel senso che le celle con lo scarto più alto tra le frequenze empiriche e frequenze teoriche formano sulla tabella una figura simile a una curva piuttosto che a una retta. Può infine capitare che tutte le celle abbiano frequenze empiriche vicine alle frequenze teoriche  non solo non emerga alcuna associazione globale fra le due variabili, ma neppure emergono attrazioni e repulsioni fra singole categorie dell’una e singole categorie dell’altra I coefficienti più usati per quantificare il grado di cograduazione/contro-graduazione  coefficiente bidirezionale che non considera le variabili una dipendente dall’altra e considera soltanto le coppie cograduate e quelle contrograduate Tale tecnica può essere usata quando le tabelle hanno un ordine non troppo elevato, ossia quando le variabili producono una tabella con poche celle:

P − Q

P − Q

 P  somma delle coppie cograduate (covariazione)  Q  somma di quelle contrograduate (contro-variazione)

Non considerando le coppie legate, γ tende a sovrastimare la forza di un’associazione, positiva o negativa, fra variabili ordinali

 il suo valore tende a crescere man mano che aumenta la sensibilità di una delle classificazioni ordinate, o di entrambe

Meno criticati di γ sono due coefficienti complementari, della famiglia di τ :

 Tb  coefficiente adatto a tabelle quadrate (tq)  Tc  adatto a tabelle rettangolari (tr)

Si differenziano fra loro e da γ per il modo in cui normalizzano la differenza fra coppie cograduate e coppie contrograduate  Tq

usa come normalizzatore il totale delle coppie:

N ∗( N − 1 )

Per rendere più compatta la formula: Tq =

2 ( P − Q )

N ( N − 1 )

Questo coefficiente può raggiungere l’unità solo se il numero delle righe della tabella è uguale al numero delle colonne  per le tabelle rettangolari si deve introdurre una correzione basata sul numero minore fra il totale delle righe e delle colonne

Tq =

2 ∗ min ∗( P − Q )

N

2

Delle varie tecniche di scaling:

 LIKERT  produce una scala con 4 o 5 modalità

 GUTTMAN  raramente supera le 7 modalità

 THRUSTONE  produce scale di 11 modalità

 TERMOMETRO DEI SENTIMENTI  scale con un numero superiore di modalità, possono essere trattate

come cardinali senza eccessive distorsioni

Quando variabili con meno di 10-12 modalità sono messe in relazione tra loro oppure con variabili categoriali, la

tecnica da usare è la tabulazione incrociata, ma esistono anche variabili ordinali con più di una dozzina di modalità

È importante che le variabili costituite dalle posizioni che un individuo ha attribuito ai vari oggetti siano trattate

come ordinali, non come cardinali  dato che ai soggetti si precisa che il loro compito è ordinare gli oggetti proposti

secondo un qualche criterio e non si fornisce alcuna istruzione o segno che alluda in qualche modo alla cardinalità, non

sarebbe legittimo trattare gli ordinamenti prodotti come quasi cardinali

Per rilevare la cograduazione fra le variabili ordinali di questo genere, lo psicologo SPEARMAN ha proposto il

coefficiente ρ :

(^6) ∑ di

N ( N

2

Lo psicologo intendeva quantificare la distanza fra le posizioni attribuite allo stesso oggetto in due graduatorie

diverse, ricorrendo all’assunto di uguaglianza di tutti gli intervalli fra posizioni contigue

ρ non può essere considerato un^ coefficiente tabulare, perché in una tabella mette in relazione due serie di valori,

ognuno dei quali può essere assunto da un numero illimitato di casi  nelle graduatorie per le quali Sperman ha

concepito il coefficiente, ogni posizione può essere assunta da un solo caso

FORME DI RAPPRESENTAZIONE PER I RAPPORTI FRA VARIABILI NON

CARDINALI

Quando nessuna delle variabili è ordinale, non ci sono forme di rappresentazione grafica adeguate a dare un’idea della situazione  ce ne è solo una tridimensionale, ovvero la TABELLA DI CONTINGENZA SU UN PIANO Se la tabella di contingenza ha poche celle, una rappresentazione del genere può essere abbastanza efficace, ma più celle ha la tabella, più sarà difficile leggerla Se almeno una delle due variabili è ordinale, si può ricorrere alla forma principe di rappresentazioni delle variabili ordinali  ISTOGRAMMA DI COMPOSIZIONE  Se l’altra variabile è una dicotomia o una categoriale si affiancheranno tanti istogrammi di composizione, quante sono le categorie Una forma di rappresentazione che mette ancor meglio in risalto la natura cumulativa delle frequenze nelle categorie ordinate è la SPEZZATA A GRADINI:

  1. Si mette in primo piano la spezzata che rappresenta le frequenze cumulate della variabile ordinale entro una delle modalità della variabile categoriale
  2. In secondo piano la spezzata che rappresenta le frequenze cumulate dell’ordinale entro un’altra modalità della categoriale La spezzata a gradini può essere usata anche per presentare situazioni in cui le frequenze cumulate della modalità che sta davanti superano quelle della modalità che sta dietro È difficile rendere leggibile una figura del genere quando le modalità della variabile non sono più di 2  se entrambe le variabili sono ordinali, l’ordine delle modalità è significativo per entrambe e non possono liberatamene alternarsi in primo piano  l’unione di più istogrammi prende il nome di GRAFICO A COLONNE SUDDIVISE

CAP. 3 – RELAZIONI FRA UNA VARIABILE CATEGORIALE E UNA

CARDINALE

L’ANALISI DELLA VIARIANZA

Quando si desidera quantificare l’associazione fra le due variabili (ordinata indipendente e cardinale dipendente) si adopera l’analisi della VARIANZA  la versione più semplice è ANOVA (una sola variabile)

xij = xi ± x j

Il simbolo xi indica gli individui; mentre, xj indica le categorie Se l’uguaglianza sopracitata è vera per ciascun punteggio individuale, lo è anche per la somma di tutti i punteggi individuali in tutte le categorie  TEOREMA FONDAMENTALE DELLA VARIANZA: ∑ i = 1 Nj = 1 k

xij

2 Il teorema scompone la devianza della variabile X in due parti:

  1. SPIEGATA  costituita dall’ultimo termine di uguaglianza, cioè dalla somma dei quadrati degli scarti della media generale della media della categoria cui appartiene ciascun individuo a. C’è una certa variabilità fra le medie delle categorie  DEVIANZA ESTERNA
  2. RESIDUA  somma dei quadrati all’interno delle categorie a. certa variabilità dei punti individuali all’interno di ciascuna categoria  DEVIANZA INTERNA Più alta è quella esterna nei confronti dell’interna, più alta è l’associazione fra variabile cardinale e categoriale

ESEMPIO:

In realtà il termine spiegare è mal scelto:

  1. Presuppone un modello unidirezionale in cui la variabile categoriale influenza quella cardinale senza esserne influenzata
  2. È inadatto a descrivere l’esito di un’elaborazione matematica  ci piò dire che una certa associazione tra le due variabili esiste e quantificarla, ma non ci può dire perché esiste Sarebbe, dunque, meglio usare il termine di RIPRODUZIONE che da pienamente l’idea della natura meccanica del processo  quindi, il risultato della tecnica di analisi non è una spiegazione, bensì richiede una spiegazione Le fasi per valutare l’esistenza dell’associazione tra due variabili sono 3:
  3. Suddividere l’insieme dei casi secondo le categorie della variabile categoriale
  4. Calcolare la MEDIA della variabile cardinale in ciascuno dei gruppi
  5. A partire dalle variazioni fra le medie nei vari gruppi, valutare l’associazione fra due variabili

ETA QUADRO E I SUOI LIMITI

Più è alta la quota della devianza esterna rispetto alla devianza totale, più stretta è l’associazione fra la variabile cardinale e categoriale  quindi, più alta è la proporzione della devianza della cardinale che si può riprodurre sulla base dell’appartenenza ai singoli casi a questa modalità categoriale

Il coefficiente che sintetizza questa proporzione è l’ η^2  varia fra 0 e 1 e non può assumere valori negativi

È un coefficiente PRE (grado di riduzione dell’errore) che consente di calcolare quanto migliore la capacità di predire i punteggi di un qualsiasi caso sulla variabile cardinale quando si conosce l’appartenenza di quel caso all’una o all’altra categoria della variabile categoriale e la media della variabile cardinale di ciascun gruppo Nella tradizionale ricerca ispirata da GAUSS, per ottenere un valore sintetico della dispersione che non si annulli sommando

scarti positivi e negativi, si sommano i quadrati degli scarti  si può dunque interpretare η^2 come un coefficiente che ci dice

quanto migliora la nostra capacità di indovinare i punteggi di un qualsiasi caso sulla X, quando:

  1. Sappiamo a quale modalità appartiene quel caso
  2. Conosciamo le medie della variabile X in ciascuna modalità C

Ci sono poi caratteristiche di η^2 che bisogna tener presente ogni volta che si vogliono confrontare gli η^2 relativi ai rapporti della

stessa variabile cardinale con cariabili categoriali diverse  più numerose sono le categorie, più alta è la devianza esterna e di

conseguenza η^2

Se due variabili categoriali (A e B) hanno legami affettivi di intensità approssimativamente uguale con la variabile cardinale X, il

valore assunto da η^2 per la relazione A e X, sarà circa il doppio del valore assunto per la relazione B e X

Caratteristiche principali:

  1. Misura l’intensità della relazione e non la direzione
  2. L’associazione fra una variabile cardinale e una categoriale tenderà a venire sovrastimata tanto più: a. Quanto più alto è il numero di modalità della categoriale b. Quanto più alte sono le frequenze delle modalità che hanno forti scarti della media generale e basse sono le frequenze nelle modalità con deboli scarti della media generale
  3. Non è attendibile se N è troppo piccolo
  4. Come chi-quadro è sottoponibile a test di significatività

Quando le categorie hanno piena autonomia semantica di solito il loro ordine no è naturale, ma viene assegnato dal ricercatore o da un gruppo di giudici  se le categorie degli indicatori che si combinano nell’indice hanno piena autonomia semantica, non abbiamo garanzie sufficienti circa la corrispondenza fra l’ordine delle etichette numeriche che abbiamo assegnato a tali categorie e l’ordine che esse hanno agli occhi del membro-tipo della popolazione studiata Si può consolidare ponendo l’indice separatamente in relazione con ciascuno degli indicatori che lo compongono  procedura con la quale si elabora la relazione fra indici e indicatori:

  1. Si calcola il punteggio medio sull’indice Y dei casi che cadono in ciascuna delle modalità dell’indice C
  2. Si costruisce un diagramma in cui l’indice è in ordinata e le varie modalità di C sono sull’asse delle categorie
  3. Si controlla che le medie dei punteggi su Y entro le varie modalità di C crescano nomotonicamente al crescere delle etichette numeriche loro assegnate
  4. Se si manifesta qualche deviazione da un andamento monotonico, si modificano opportunamente le etichette numeriche di alcune modalità fino a ottenere il rapporto monotonico
  5. Si costruisce una nuova versione dell’indice mediante analisi delle componenti o negli altri modi sopracitati Non ci si può illudere che l’indice risultante dell’ultima iterazione abbia caratteristiche genuinamente cardinali  almeno si potrà dire di avere eliminato le discrepanze fra gli ordini che abbiamo assegnato alle modalità dei vari indicatori con i quali lo abbiamo costruito ALTRE FORME DI RAPPRESENTAZIONE Se si vuole sottolineare il fatto che le modalità della variabile categoriale C sono semanticamente autonome e non sono ordinate, la rappresentazione sintetica più adeguata è il DIAGRAMMA A BARRE:  Ogni barra corrisponde a una modalità della variabile categoriale C che viene indicata alla base  L’altezza della barra è proporzionale alla media dei punteggi che i casi in quella modalità hanno sulla variabile cardinale X Chi ritiene importante dare anche visivamente l’impressione del grado si solidità dei suoi risultati, rispettando l’autonomia semantica delle categorie, può ricorrere a un GRAFICO A COLONNE  si differenzia da un istogramma perché le varie colonne sono separate da spazi

CAP. 6 - L'ANALISI DELLA RELAZIONE FRA UNA INDIPENDENTE

E UNA DIPENDENTE CATEGORIALE CON IL MODELLO DELLA

REGRESSIONE LOGISTICA

Quando si parla di VARIABILE DIPENDENTE e VARIABILE INDIPENDENTE, il modello di riferimento è la REGRESSIONE LINEARE fra le variabili cardinali  solo in senso lato possiamo dire che i modelli LOG-LINEARI siano per le variabili categoriali quello che la regressione è per le variabili cardinali Quando l'interesse del ricercatore è rivolto solo sulle categorie di una variabile e vuole analizzare gli effetti delle modalità di un'altra variabile sulle modalità della prima variabile è opportuno usare un MODELLO DI REGRESSIONE LOGISTICA Nei modelli di RLOG:  VARIABILE DIPENDENTE è sempre una categoriale dicotomica  VARIABILE INDIPENDENTE può essere: ○ DICOTOMIA, ○ CATEGORIALE POLICOTOMICA ○ CATEGORIALE ORDINATA ○ CARDINALE Nonostante la particolare complessità dell'interpretazione dei risultati prodotti da questi modelli, ha grande successo per la sua semplicità nell'analisi della relazione fra due variabili cardinali  Due strumenti statistici utilizzati per l’analisi sono:

ODD  Rapporto di probabilità, assume valore quando le due categorie di una variabile hanno le stesse frequente

 Varia fra 0 e infinito  Consideriamo gli odd condizionati, studiati da CORBETTA  traduce con l'espressione rapporti di probabilità condizionate ○ I due odds calcolati entro le modalità della variabile e valutando gli odds contrari/favorevoli fra i soggetti, constatiamo che l'atteggiamento degli intervistati varia al variare della loro condizione ESEMPIO:

ODD RATIO  ricavati dal confronto dei due odds

condizionati  È a tutti gli effetti un coefficiente di associazione fra le due variabili (spesso dicotomiche) - chiamato anche Rapporto fra i prodotti incrociati o CROSS PROCUCT RATIO  Ha delle caratteristiche precise: ○ Varia tra 0 e infinito ○ Assume valore 1 quando fra le due variabili c'è la massima indipendenza ■ Più il valore si allontana da 1, maggiore è la forza di associazione ○ Valori superiori a 1 indicano un'associazione di concordanza fra le categorie delle due variabili ■ Valori inferiori a 1 indicano un'associazione di discordanza ○ Invertendo l'ordine delle righe o delle colonne della tabella, si ottiene un valore del rapporto di associazione che è l'inverso del valore originario ■ Al contrario se si inverte la tabella, il rapporto di associazione resta immutato ○ Il valore dei rapporti di probabilità non risente della dimensione del campione, né cambia se entrambe le frequenze di riga o di colonna sono moltiplicate per una costante. ■ Questa sensibilità costituisce una caratteristica importante dei rapporti di associazione e mostra come essi siano capaci di cogliere la struttura della relazione fra le due variabili senza risentire delle dimensioni del campione ○ Asimmetria fra i valori inferiori e superiori al valore 1, rappresenta due variabili con lo stesso grado di associazione, ma la distanza dal punto di assenza di associazione sono diverse ■ Per evitare questa assenza di simmetria si può ricorrere ai logaritmi naturali dei rapporti di associazione  risultano uguali in valore assoluto con segni opposto

REGRESSIONE LOGISTICA CON VARIABILE DIPENDENTE DICOTOMICA

LA REGRESSIONE LOGISTICA BINARIA (RLB) è un modello adatto a trattare una variabile categoriale dicotomica dipendente da una variabile indipendente anch'essa categoriale dicotomica  Rispetto ai MLL, la regressione logistica è più assimilabile al modello di regressione lineare Alle due Modalità della variabile dipendente si assegnano i codici 0-1  questa codifica consente di esprimere i risultati della RLB in termini di valori di probabilità L'equazione logistica produce la stima dei valori medi della variabile dicotomica dipendente in corrispondenza dei valori assunti dalla variabile indipendente

L'analisi delle statistiche sulla bontà di adattamento fornisce un riscontro positivo circa la sua capacità di riprodurre i dati empirici  i valori degli pseudo coefficienti di determinazione non sono facilmente valutabili come avviene nella regressione lineare, in quanto non possono essere interpretati come la quota di varianza della dipendenza riprodotta dalla indipendente perché la dipendente è una dicotomia che viene espressa dal logaritmo naturale del rapporto di probabilità calcolato fra le sue due modalità Un modo più semplice per valutare la bontà di adattamento del modello ai dati consiste nel considerare le probabilità previste confrontando le previsioni del modello con i dati rilevati sulla variabile dipendente dicotomica

REGRESSIONE LOGISTICA CON VARIABILE DIPENDENTE POLICOTOMICA

Il modello di regressione logistica multinominale può essere considerato un'estensione del modello binario  quando il ricercatore dispone dj una variabile dipendente categoriale come più di due categorie, può scegliere se dicotomizzarla o scegliere il modello logistico multinominale RAPPORTO DI VEROSIMIGLIANZA  calcolato comparando il modello completo con il modello che la omette  il chi quadro si ottiene dalla differenza fra i valori dei due modelli indica il contributo dalla variabile in esame

REGRESSIONE LOGISTICA CON VARIABILE DIPENDENTE ORDINALE

Se le categorie della variabile dipendente sono ordinate il ricercatore può ricorrere al modello di regressione logistica ordinale  le variabili con categorie ordinate sono molto comuni nelle scienze umane e sono prodotte da strumenti come SCALE DI ATTEGGIAMENTO e SCALE DI VALUTAZIONE DI SOFFISFAZIONE o di FREQUENZA Rispetto alle categoriali non ordinate, le ordinate presentano una maggiore informazione che esprime quanto una modalità sia più o meno in relazione con le altre La REGRESSIONE LOGISTICA ORDINALE  presenta un numero minore di coefficienti, è più semplice e potenzialmente più potente rispetto agli altri modelli di regressione logistica Per la RLO sono stati sviluppati diversi approcci  PROPORTIONAL ODDS MODEL Ciascuna delle prime tre categorie della variabile dipendente potrebbe essere trattata come una modalità distinta in un modello di regressione logistica multidimensionale rispetto alla quarta modalità assunta come quella di riferimento  poiché le modalità sono ordinate, possiamo introdurre il concetto di maggiore di, minore di, di un particolare punto della scala Supponiamo di avere k livelli ordinati della variabile ordinale di nostro interesse  il modello degli odds: Log (p1+p2+.... +pi/pi-1+....+pk) = bok + b1x La variabile dipendente consiste nel logaritmo della probabilità di essere collocato dalla prima fino alla I-esima categoria diviso la probabilità di essere in una categoria superiore alla i-esima Nell'equazione è presente un solo coefficiente per la variabile indipendente  ciò significa che l'effetto della indipendente è lo stesso per tutte le k modalità della variabile dipendente Statistiche sulla bontà di adattamento del modello RLO  il confronto viene effettuato rispetto al modello che contiene solo l’intercetta e con la variabile indipendente che riduce il chi quadro di massima verosimiglianza Un altro modo per valutare la bontà dell’adattamento consiste nel considerare i coefficienti pseudo R2  ricordiamo che la variabile dipendente era l’autopercezione del rapporto con la politica articolata in quattro modalità Il programma della RLO presenta solo le stime dei coefficienti b della prima modalità del genere, ma non il relativo exp (b)  Questo potrà essere definito dal ricercatore calcolando l’anti-logaritmo del coefficiente Confronti fra i tre modelli di regressione logistica:  BINARIA  come nella regressione multipla, c’è una sola costante, un coefficiente b per ciascuna variabile cardinale indipendente e un coefficiente b per ciascuna categoria per ogni variabile categoriale indipendente

 MULTINOMINALE  con l’eccezione della categoria di riferimento calcola per ciascuna modalità della variabile dipendente una diversa costante e un diverso coefficiente b per ciascuna variabile indipendente ○ La proliferazione dei coefficienti è necessaria perché ciascuna modalità della variabile indipendente è considerata in modo autonomo dalle altre  ORDINALE  la variabile viene vista come una sorta di continuum latente e per questo è possibile valutare come i casi si muovono su una scala cardinale, ma con una serie di categorie ordinate ○ Questo significa che ciascuna variabile indipendente esercita un effetto costante sulla variabile dipendete

CAP. 7 - RELAZIONI FRA DUE VARIABILI CARDINALI

DIAGRAMMA DI DISPERSIONE

Una relazione fra due variabili cardinali si rappresenta ponendo l’una in ascissa e l'altra in ordinata in un DIAGRAMMA A DISPERSIONE  si presenta quando le grandezze poste sull’asse X e Y sono misurate con scale metriche e si costruisce:

  1. Si considera solo il I QUADRANTE  la parte dell’ascissa che va dall’origine degli assi verso destra e la parte dell’ordinata che va dall'ordine degli assi verso l'alto
  2. In ascissa si rappresentano i valori della variante indipendente (X); mentre in ordinata di rappresentano i valori della variabile dipendente (Y)
  3. Di solito il diagramma è costruito in modo che, il valore 0 sia rappresentato dall'origine degli assi e i valori più alti siano rappresentati alle estremità delle relative coordinate a. Si può rappresentare all'origine degli assi il valore minimo empiricamente assunto da una delle due variabili o entrambe  questo si impone quando il valore minimo assunto da una variabile è inferiore a 0 e può essere opportuna anche quando tale valore minimo è positivo ma lontano da 0, al fine di non comprimere troppo la rappresentazione dell'arco di valori effettivi di quella variabile
  4. Ogni punto rappresenta la coppia di valori relativi a un singolo caso e per collocarlo sul diaframma si calcolano la posizione dell’ascissa del punteggio di quel caso sulla variabile X e la posizione dell’ordinata della variabile Y a. Il punto sarà collocato all'incrocio fra variabile verticale e il prolungamento orizzontale La scelta fra i criteri alternativi per rappresentare i valori di una variabile sulla relativa coordinata non è affatto priva di conseguenze sulla natura del messaggio che dà la figura ESEMPIO: I due diagrammi rappresentano due situazioni diverse:
  5. SINISTRA  effetto blando della proprietà X sulla proprietà Y
  6. DESTRA  effetto più marcato della X sulla Y Osservavo la scala in ordinata si scopre che la diversità è interamente dovuta al suo accorciamento  per operare una trasformazione così vistosa è bastato mutare il criterio con cui una di tali scale è rappresentata (idea di manipolazioni volontarie e involontarie)

RELAZIONI NON LINEARI

Nella fig. 50 è rappresentata una relazione lineare, spesso però le relazioni sono monotoniche, ma non lineari i punti non giacciono sulla retta ESEMPIO:

  1. PARTE SINISTRA  caso di crescita dei valori della Y a tasso non costante, ma proporzionale al livello della X a. Più tale livello è alto, più rapidamente esso cresce

ei = Yi - Yi ^

La retta dalla quale si calcolano i residui si traccia con l'ausilio di due coefficienti: ● b  indica la sua inclinazione ● a  è l'ordinaria della retta quando l’ascissa è 0 L’equazione della retta è detta di REGRESSIONE:

Yi = ± a^ ± bXi

● Y  VALORE PREDETTO (sarà a quando XI è 0) ● a  COSTANTE/INTERCETTA  punto in cui la retta di regressione intercetta l'ordinaria a. Espressi nell'unità di misura della variabile Y ● b  COEFFICIENTE DI REGRESSIONE  determina l’inclinazione della retta a. Risente dell'unità di misura di entrambe le variabili Un INTERCETTA NEGATIVA si può avere in due diverse situazioni:

  1. Quando in ordinata poniamo una variabile che assume anche valori negativi e in ascissa una variabile con cui quella in ordinata risulta avere un'associazione positiva
  2. Quando i valori della variabile in ascissa sono superiori a una certa soglia minima e presentano un'associazione crescente abbastanza forte con i valori della variabile ordinata a. Se si prolunga la retta che interpola la nube dei punti che rappresentano i dati effettivi, essa può incontrare l'asse delle ordinate al di sotto del punto di origine degli assi Come si determina il valore dei due coefficienti sulla base cui base tracciare una retta di regressione? Con a si comincia con lo stabilire la condizione che la somma algebrica dei residui della retta di regressione sia 0 come la somma degli scatti della media

Σ(Yi - Y ^ i ) = 0

● Y ^ i = a + bXi - Σ(Yi - a-bXi) = 0

● Σa = Na - Na =ΣYi - bΣXi Dividendo tutti i termini per N: a = ΣYi/N - bΣXi/N = y +bx La retta di regressione deve comunque passare per il punto in cui le due medie si incontrano  per ricavare il baricentro: a + bx = y Una volta che conosco a e le due medie posso tracciare la retta di regressione che deve passare sia per il baricentro sia per il punto con ascissa 0 e ordinata a b = Σxiyi/Σxi² =

CODEV ( XeY )

DEV ( X )

Il COEFFICIENTE DI REGRESSIONE è il rapporto fra la somma di tutti i rettangoli e la somma di tutti i quadrati costruiti sugli scatti in ascissa  i quadrati costruiti sugli scatti in ordinata non sono presi in considerazione dal coefficiente perché rappresentano la devianza della variabile dipendente, mentre il coefficiente di regressione è concepito come uni-direzionale Dividendo per la devianza di X si ottiene anche l'effetto di normalizzare b rispetto al numero dei casi, eliminando ogni influenza di tale numero sulle dimensioni del coefficiente

 più lo scarto in ordinata è alto e quello in ascissa è piccolo, più è alto il rapporto fra il rettangolo e il quadrato, più il punto a contribuisce a produrre una retta di regressione fortemente inclinata attraendola verso di sé

RELAZIONI MONOTONICHE E NON:

sulla base di presenza/assenza di monotonicità e linearità si ottengono 6 tipi di relazioni:

  1. MONOTONICA LINEARE (positiva)  Y cresce o decresce insieme a X in modo costante
  2. MONOTONICA LINEARE INVERSA (negativa)  Y decresce al crescere di X, e viceversa, in modo costante
  3. MONOTONICA NON LINEARE  Y cresce al crescere di X ma non in modo costante
  4. MONOTONICA NON LINEARE INVERSA  Y decresce al crescere di X, ma non in modo costante
  5. CURVILINEA NON MONOTONICA  Y cresce al crescere di X, ma fino a una certa soglia oltre la quale X cresce e Y decresce
  6. ASSENZA DI RELAZIONE

IL COEFFICIENTE DI CORRELAZIONE

Il fatto che solo una delle due variabili compaia al denominatore della formula b comporta due importanti limitazioni:

  1. Il livello di b dipende interamente dalle unità con cui sono misurate le due proprietà
  2. Data la totale dipendenza di b dalle unità di misura delle due variabili, non ci dice niente sulla corda della loro associazione a. Ci permette soltanto di prevedere il punteggio di un caso sulla variabile Y una volta noto il suo punteggio sulla variabile X Più i punti sono vicini alla retta, più la predizione è affidabile: ● IMPOSTAZIONE DELLA STATISTICA CLASSICA  gli errori o perturbazioni sono più limitati ● IMPOSTAZIONE DELLE SCIENZE SOCIALI  l'influenza su Y delle altre variabili non considerate nel modello è meno pronunciata rispetto all'influenza di X Sarebbe desiderabile un coefficiente sensibile alla distanza dei punti dalla retta di regressione, mentre b è totalmente insensibile a questo aspetto Le due limitazioni costituiscono due maniere di guardare allo stesso fenomeno che ha la stessa causa e lo stesso rimedio  È un coefficiente che presuppone la relazione bi-direzionale tra 2 variabili  COEFFICIENTE DI CORRELAZIONE rxy = Σxiyi/radΣx²Σyi² =

CODEV ( XeY )

med. DEV ( XeY )

Serie di conseguenze importanti:

  1. Il valore di r è insensibile ai mutamenti di scala delle due variabili e quindi misura la corda dell'associazione fra loro a. Di può usare per comprare la forza dell'associazione fra coppie di variabili diverse oppure di una variabile con varie altre i. Si deve ricorrere ad r anche se la relazione intercorre fra le stesse due variabili, ma cambia l'unità di misura di una o di entrambe ii. Solo se l'unità di misura di entrambe le variabili è la stessa, a e b sono confrontabili anche se relativo a popolazioni diverse
  2. Il valore di r è sensibile alla vicinanza dei punti alla retta di regressione e quindi misura l'esattezza con cui tale retta riproduce i valori di Y sulla base dei valori di Y a. r misura il grado di adattamento di quella data fetta di regressione all'insieme dei punti del diagramma
  3. Il valore di r oscilla fra +1 in caso di perfetta correlazione positiva e - 1 in caso di perfetta correlazione negativa a. Questo arco di oscillazione significa che il coefficiente è normalizzato non solo rispetto al numero dei casi, ma anche rispetto alle unità delle due variabili - r è un induce relativo Formule dei due coefficienti: