















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Analisi mincariata riassunto schematizzato
Tipologia: Sintesi del corso
1 / 23
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
















La tecnica usata per descrivere una relazione fra due variabili dicotomiche è la TABULAZIONE INCROCIATA ovvero una TABELLA DI CONTINGENZA (4 celle)
La frequenza empirica in una cella non può mai superare il più piccolo fra i marginali della riga e della colonna al cui incrocio si trova quella cella ogni cella di una data tabella porta sempre con sé almeno tre FREQUENZE POTENZIALI: MINIMA POSSIBILE MASSIMA POSSIBILE TEORICA Confrontare le percentuali aiuta spesso a capire le relazioni fra variabili, ma s basano su un numero esiguo di dati e quindi sono poco affidabili Tra le celle si forma una diagonale che le unisce DIAGONALE PRINCIPALE Si attribuisce SEGNO POSITIVO a un’associazione quando le frequenze sono più alte nelle due celle della diagonale principale Si attribuisce SEGNO NEGATIVO quando le frequenze sono più alte nelle altre due celle Il MASSIMO EQUILIBRIO fra le modalità di una dicotomia si ha quando ciascuna di esse è attribuito lo stesso numero di dati in questa situazione la dicotomia ha il massimo della varianza Di conseguenza quando si parla di MASSIMO SQUILIBRIO c’è una situazione di minima varianza
Se in una cella la frequenza empirica è sensibilmente diversa da quella teorica, le due categorie interessate manifestano un’associazione: POSITIVA se la frequenza empirica è più alta o si parlerà di ATTRAZIONE NEGATIVA se la frequenza empirica è più bassa o Si parlerà di REPULSIONE Generalmente uno scarto di n dati tra le frequenze empiriche e quelle teoriche in una cella comporta uno scarto uguale e di segno contrario alle celle adiacenti e uno scarto uguale e di segno uguale nell’altra cella della stessa diagonale ne consegue che in una tabella di contingenza fra due dicotomie, se conosciamo i marginali, basta conoscere la frequenza di una cella per conoscere tutte le altre
Se ci si basa esclusivamente sulla matrice dei dati non è possibile stabilire se:
Per poter stabilire se c’è associazione tra variabili, è possibile basarsi solo su come i dati si distribuiscono tra le celle, ma affinché ci sia associazione si devono verificare 2 condizioni:
I coefficienti bidirezionali basati sul prodotto incrociato sono 4: Il più semplice e il più usato è stato proposto dall’inglese UNDY YULE (1912) è il coefficiente Q:
√( a +^ b )( c +^ d )(^ a + c^ )( b + d^ )
Dxy considera sol i marginali della variabile dipendente (colonna)
Mentre il Dsim è orientato alle diagonali, il Dxy le normalizza usando i marginali il suo denominatore considera solo i 2
Dxy si comporta bene quando i marginali sono equilibrati e quando una diagonale è vuota; mentre si comporterà in modo accettabile quando i marginali sono squilibrati, ma nessuna cella è vuota mostra il suo comportamento migliore quando in una coppia di marginali uno è equilibrato e l’altro no LO SQUILIBRIO FRA I DUE MARGINALI DI COLONNA comprime il valore del denominatore, che non riduce abbastanza il valore del numeratore LO SQUILIBRIO FRA LE FREQUENZE DELLA DIAGONALE PRINCIPALE fa sì che il prodotto incrociato sia molto alto in valore assoluto e il denominatore non riesce a comprimerlo Quando le celle semivuote sono sulla stessa colonna, nessun marginale di riga è piccolo, quindi il prodotto dei 2 marginali di colonna non risulta compresso il valore globale della frazione risulta basso e il grado di influenza non viene sopravvalutato Quando le celle semivuote sono sulla stessa riga, il corrispondente marginale è piccolo e comprime il denominatore non riduce abbastanza il valore della frazione Quando entrambe le coppie di marginali sono equilibrate, tutti e 5 coefficienti analizzati stimano correttamente il grado di associazione: Si può usare Q solo quando una diagonale è (semi)vuota, oppure se non ci sono celle (semi)vuote
t non è dominato da f e da Dsim perché è l’unico a dare risultati accettabili in caso di associazione d’angolo Dxy è inaffidabile se ci sono una o tre celle (semi)vuote Non c’è un solo coefficiente dicotomico affidabile qualunque sia la struttura della tabella
Le dicotomie sono variabili categoriali di natura speciale perché possono essere considerate sia come categoriali sia come ordinali Nel caso del genere si può attribuire valore ordinale alle cifre riconcettualizzando il genere come ‘appartenenza al genere femminile’ alcuni vanno oltre attribuendo valore cardinale alle cifre, adottando l’intervallo 0-1 come unità di misura
Ogni cella di una tabella porta sempre con sé quattro frequenze (già descritte nel capitolo precedente) Dato che il numero di celle in una tabella varia in funzione al numero delle categorie delle due variabili che si mettono in relazione, per le frequenze di una data cella non c’è un simbolo semplice A differenza di quanto accade nelle dicotomie, la diagonale non ha un significato particolare, ma esiste solo se il numero delle righe è uguale al numero delle colonne in questo caso ancora più importante è il numero delle categorie Le frequenze teoriche possono risultare basse anche in celle i cui marginali avevano valori abbastanza alti affinché la frequenza teorica sia alta e garantisca l’affidabilità dei risultati relativi a quella cella è necessario che in entrambe le categorie che formano quella cella le frequenze costituiscano quote apprezzabili del totale dei casi A meno che il numero dei casi sia molto alto, è necessario che le modalità di entrambe le variabili siano poche è il caso di mantenere sempre presente questa serie di proporzioni:
Più le variabili hanno le due variabili tabulate più celle ha la tabella più celle restano (quasi) vuote anche se N è alto È necessario che non solo le modalità siano in numero ridotto, ma anche che le loro frequenze siano abbastanza equilibrate la soluzione è: un ricercatore può raccogliere le informazioni su una proprietà categoriale con tutta la sensibilità che crede opportuna ma al momento di mettere in relazione questa categoriale con un’altra variabile, si deve preoccupare di aggregare le categorie, tenendo conto sia dell’affinità semantica, sia della desiderabilità di approssimare per quanto possibile la frequenza ideali in modo da massimizzare l’equilibrio della distribuzione Regole per la presentazione delle tabelle:
Due modi di analizzare: CONFRONTO FRA LE FREQUENZE EMPIRICHE E TEORICHE si basa sul test (di associazione e significatività) più semplice e diffuso di calcolare un noto coefficiente relativo al rapporto fra variabili categoriali, il cui scopo è quello di stabilire se le frequenze osservate differiscono significativamente da quelle teoriche
2 =∑
2
Il NUMERATORE è elevato al quadrato perché altrimenti gli scarti positivi, sommati a quelli negativi, si annullerebbero Il DENOMINATORE ha funzioni di normalizzazione serve a tener conto del fatto che uno scarto di 10 da una frequenza di 10 è molto più rilevante di uno stesso scarto su una frequenza teorica di 1000
Una variabile ordinale a differenza di una categoriale, ha valori alti e bassi e si può dire che due variabili ordinali: COVARIANO se a valori alti dell’una tendono valori alti dell’altra CONTROVARIANO se a valori alti dell’una tendono valori bassi dell’altra Le due diagonali sono il punto di riferimento per l’analisi delle tabelle di contingenza fra variabili ordinali considerazioni:
P somma delle coppie cograduate (covariazione) Q somma di quelle contrograduate (contro-variazione)
il suo valore tende a crescere man mano che aumenta la sensibilità di una delle classificazioni ordinate, o di entrambe
Tb coefficiente adatto a tabelle quadrate (tq) Tc adatto a tabelle rettangolari (tr)
usa come normalizzatore il totale delle coppie:
Questo coefficiente può raggiungere l’unità solo se il numero delle righe della tabella è uguale al numero delle colonne per le tabelle rettangolari si deve introdurre una correzione basata sul numero minore fra il totale delle righe e delle colonne
2
(^6) ∑ di
2
Quando nessuna delle variabili è ordinale, non ci sono forme di rappresentazione grafica adeguate a dare un’idea della situazione ce ne è solo una tridimensionale, ovvero la TABELLA DI CONTINGENZA SU UN PIANO Se la tabella di contingenza ha poche celle, una rappresentazione del genere può essere abbastanza efficace, ma più celle ha la tabella, più sarà difficile leggerla Se almeno una delle due variabili è ordinale, si può ricorrere alla forma principe di rappresentazioni delle variabili ordinali ISTOGRAMMA DI COMPOSIZIONE Se l’altra variabile è una dicotomia o una categoriale si affiancheranno tanti istogrammi di composizione, quante sono le categorie Una forma di rappresentazione che mette ancor meglio in risalto la natura cumulativa delle frequenze nelle categorie ordinate è la SPEZZATA A GRADINI:
Quando si desidera quantificare l’associazione fra le due variabili (ordinata indipendente e cardinale dipendente) si adopera l’analisi della VARIANZA la versione più semplice è ANOVA (una sola variabile)
Il simbolo xi indica gli individui; mentre, xj indica le categorie Se l’uguaglianza sopracitata è vera per ciascun punteggio individuale, lo è anche per la somma di tutti i punteggi individuali in tutte le categorie TEOREMA FONDAMENTALE DELLA VARIANZA: ∑ i = 1 N ∑ j = 1 k
2 Il teorema scompone la devianza della variabile X in due parti:
In realtà il termine spiegare è mal scelto:
Più è alta la quota della devianza esterna rispetto alla devianza totale, più stretta è l’associazione fra la variabile cardinale e categoriale quindi, più alta è la proporzione della devianza della cardinale che si può riprodurre sulla base dell’appartenenza ai singoli casi a questa modalità categoriale
È un coefficiente PRE (grado di riduzione dell’errore) che consente di calcolare quanto migliore la capacità di predire i punteggi di un qualsiasi caso sulla variabile cardinale quando si conosce l’appartenenza di quel caso all’una o all’altra categoria della variabile categoriale e la media della variabile cardinale di ciascun gruppo Nella tradizionale ricerca ispirata da GAUSS, per ottenere un valore sintetico della dispersione che non si annulli sommando
quanto migliora la nostra capacità di indovinare i punteggi di un qualsiasi caso sulla X, quando:
stessa variabile cardinale con cariabili categoriali diverse più numerose sono le categorie, più alta è la devianza esterna e di
Se due variabili categoriali (A e B) hanno legami affettivi di intensità approssimativamente uguale con la variabile cardinale X, il
Caratteristiche principali:
Quando le categorie hanno piena autonomia semantica di solito il loro ordine no è naturale, ma viene assegnato dal ricercatore o da un gruppo di giudici se le categorie degli indicatori che si combinano nell’indice hanno piena autonomia semantica, non abbiamo garanzie sufficienti circa la corrispondenza fra l’ordine delle etichette numeriche che abbiamo assegnato a tali categorie e l’ordine che esse hanno agli occhi del membro-tipo della popolazione studiata Si può consolidare ponendo l’indice separatamente in relazione con ciascuno degli indicatori che lo compongono procedura con la quale si elabora la relazione fra indici e indicatori:
Quando si parla di VARIABILE DIPENDENTE e VARIABILE INDIPENDENTE, il modello di riferimento è la REGRESSIONE LINEARE fra le variabili cardinali solo in senso lato possiamo dire che i modelli LOG-LINEARI siano per le variabili categoriali quello che la regressione è per le variabili cardinali Quando l'interesse del ricercatore è rivolto solo sulle categorie di una variabile e vuole analizzare gli effetti delle modalità di un'altra variabile sulle modalità della prima variabile è opportuno usare un MODELLO DI REGRESSIONE LOGISTICA Nei modelli di RLOG: VARIABILE DIPENDENTE è sempre una categoriale dicotomica VARIABILE INDIPENDENTE può essere: ○ DICOTOMIA, ○ CATEGORIALE POLICOTOMICA ○ CATEGORIALE ORDINATA ○ CARDINALE Nonostante la particolare complessità dell'interpretazione dei risultati prodotti da questi modelli, ha grande successo per la sua semplicità nell'analisi della relazione fra due variabili cardinali Due strumenti statistici utilizzati per l’analisi sono:
Varia fra 0 e infinito Consideriamo gli odd condizionati, studiati da CORBETTA traduce con l'espressione rapporti di probabilità condizionate ○ I due odds calcolati entro le modalità della variabile e valutando gli odds contrari/favorevoli fra i soggetti, constatiamo che l'atteggiamento degli intervistati varia al variare della loro condizione ESEMPIO:
condizionati È a tutti gli effetti un coefficiente di associazione fra le due variabili (spesso dicotomiche) - chiamato anche Rapporto fra i prodotti incrociati o CROSS PROCUCT RATIO Ha delle caratteristiche precise: ○ Varia tra 0 e infinito ○ Assume valore 1 quando fra le due variabili c'è la massima indipendenza ■ Più il valore si allontana da 1, maggiore è la forza di associazione ○ Valori superiori a 1 indicano un'associazione di concordanza fra le categorie delle due variabili ■ Valori inferiori a 1 indicano un'associazione di discordanza ○ Invertendo l'ordine delle righe o delle colonne della tabella, si ottiene un valore del rapporto di associazione che è l'inverso del valore originario ■ Al contrario se si inverte la tabella, il rapporto di associazione resta immutato ○ Il valore dei rapporti di probabilità non risente della dimensione del campione, né cambia se entrambe le frequenze di riga o di colonna sono moltiplicate per una costante. ■ Questa sensibilità costituisce una caratteristica importante dei rapporti di associazione e mostra come essi siano capaci di cogliere la struttura della relazione fra le due variabili senza risentire delle dimensioni del campione ○ Asimmetria fra i valori inferiori e superiori al valore 1, rappresenta due variabili con lo stesso grado di associazione, ma la distanza dal punto di assenza di associazione sono diverse ■ Per evitare questa assenza di simmetria si può ricorrere ai logaritmi naturali dei rapporti di associazione risultano uguali in valore assoluto con segni opposto
LA REGRESSIONE LOGISTICA BINARIA (RLB) è un modello adatto a trattare una variabile categoriale dicotomica dipendente da una variabile indipendente anch'essa categoriale dicotomica Rispetto ai MLL, la regressione logistica è più assimilabile al modello di regressione lineare Alle due Modalità della variabile dipendente si assegnano i codici 0-1 questa codifica consente di esprimere i risultati della RLB in termini di valori di probabilità L'equazione logistica produce la stima dei valori medi della variabile dicotomica dipendente in corrispondenza dei valori assunti dalla variabile indipendente
L'analisi delle statistiche sulla bontà di adattamento fornisce un riscontro positivo circa la sua capacità di riprodurre i dati empirici i valori degli pseudo coefficienti di determinazione non sono facilmente valutabili come avviene nella regressione lineare, in quanto non possono essere interpretati come la quota di varianza della dipendenza riprodotta dalla indipendente perché la dipendente è una dicotomia che viene espressa dal logaritmo naturale del rapporto di probabilità calcolato fra le sue due modalità Un modo più semplice per valutare la bontà di adattamento del modello ai dati consiste nel considerare le probabilità previste confrontando le previsioni del modello con i dati rilevati sulla variabile dipendente dicotomica
Il modello di regressione logistica multinominale può essere considerato un'estensione del modello binario quando il ricercatore dispone dj una variabile dipendente categoriale come più di due categorie, può scegliere se dicotomizzarla o scegliere il modello logistico multinominale RAPPORTO DI VEROSIMIGLIANZA calcolato comparando il modello completo con il modello che la omette il chi quadro si ottiene dalla differenza fra i valori dei due modelli indica il contributo dalla variabile in esame
Se le categorie della variabile dipendente sono ordinate il ricercatore può ricorrere al modello di regressione logistica ordinale le variabili con categorie ordinate sono molto comuni nelle scienze umane e sono prodotte da strumenti come SCALE DI ATTEGGIAMENTO e SCALE DI VALUTAZIONE DI SOFFISFAZIONE o di FREQUENZA Rispetto alle categoriali non ordinate, le ordinate presentano una maggiore informazione che esprime quanto una modalità sia più o meno in relazione con le altre La REGRESSIONE LOGISTICA ORDINALE presenta un numero minore di coefficienti, è più semplice e potenzialmente più potente rispetto agli altri modelli di regressione logistica Per la RLO sono stati sviluppati diversi approcci PROPORTIONAL ODDS MODEL Ciascuna delle prime tre categorie della variabile dipendente potrebbe essere trattata come una modalità distinta in un modello di regressione logistica multidimensionale rispetto alla quarta modalità assunta come quella di riferimento poiché le modalità sono ordinate, possiamo introdurre il concetto di maggiore di, minore di, di un particolare punto della scala Supponiamo di avere k livelli ordinati della variabile ordinale di nostro interesse il modello degli odds: Log (p1+p2+.... +pi/pi-1+....+pk) = bok + b1x La variabile dipendente consiste nel logaritmo della probabilità di essere collocato dalla prima fino alla I-esima categoria diviso la probabilità di essere in una categoria superiore alla i-esima Nell'equazione è presente un solo coefficiente per la variabile indipendente ciò significa che l'effetto della indipendente è lo stesso per tutte le k modalità della variabile dipendente Statistiche sulla bontà di adattamento del modello RLO il confronto viene effettuato rispetto al modello che contiene solo l’intercetta e con la variabile indipendente che riduce il chi quadro di massima verosimiglianza Un altro modo per valutare la bontà dell’adattamento consiste nel considerare i coefficienti pseudo R2 ricordiamo che la variabile dipendente era l’autopercezione del rapporto con la politica articolata in quattro modalità Il programma della RLO presenta solo le stime dei coefficienti b della prima modalità del genere, ma non il relativo exp (b) Questo potrà essere definito dal ricercatore calcolando l’anti-logaritmo del coefficiente Confronti fra i tre modelli di regressione logistica: BINARIA come nella regressione multipla, c’è una sola costante, un coefficiente b per ciascuna variabile cardinale indipendente e un coefficiente b per ciascuna categoria per ogni variabile categoriale indipendente
MULTINOMINALE con l’eccezione della categoria di riferimento calcola per ciascuna modalità della variabile dipendente una diversa costante e un diverso coefficiente b per ciascuna variabile indipendente ○ La proliferazione dei coefficienti è necessaria perché ciascuna modalità della variabile indipendente è considerata in modo autonomo dalle altre ORDINALE la variabile viene vista come una sorta di continuum latente e per questo è possibile valutare come i casi si muovono su una scala cardinale, ma con una serie di categorie ordinate ○ Questo significa che ciascuna variabile indipendente esercita un effetto costante sulla variabile dipendete
Una relazione fra due variabili cardinali si rappresenta ponendo l’una in ascissa e l'altra in ordinata in un DIAGRAMMA A DISPERSIONE si presenta quando le grandezze poste sull’asse X e Y sono misurate con scale metriche e si costruisce:
Nella fig. 50 è rappresentata una relazione lineare, spesso però le relazioni sono monotoniche, ma non lineari i punti non giacciono sulla retta ESEMPIO:
La retta dalla quale si calcolano i residui si traccia con l'ausilio di due coefficienti: ● b indica la sua inclinazione ● a è l'ordinaria della retta quando l’ascissa è 0 L’equazione della retta è detta di REGRESSIONE:
● Y VALORE PREDETTO (sarà a quando XI è 0) ● a COSTANTE/INTERCETTA punto in cui la retta di regressione intercetta l'ordinaria a. Espressi nell'unità di misura della variabile Y ● b COEFFICIENTE DI REGRESSIONE determina l’inclinazione della retta a. Risente dell'unità di misura di entrambe le variabili Un INTERCETTA NEGATIVA si può avere in due diverse situazioni:
● Σa = Na - Na =ΣYi - bΣXi Dividendo tutti i termini per N: a = ΣYi/N - bΣXi/N = y +bx La retta di regressione deve comunque passare per il punto in cui le due medie si incontrano per ricavare il baricentro: a + bx = y Una volta che conosco a e le due medie posso tracciare la retta di regressione che deve passare sia per il baricentro sia per il punto con ascissa 0 e ordinata a b = Σxiyi/Σxi² =
Il COEFFICIENTE DI REGRESSIONE è il rapporto fra la somma di tutti i rettangoli e la somma di tutti i quadrati costruiti sugli scatti in ascissa i quadrati costruiti sugli scatti in ordinata non sono presi in considerazione dal coefficiente perché rappresentano la devianza della variabile dipendente, mentre il coefficiente di regressione è concepito come uni-direzionale Dividendo per la devianza di X si ottiene anche l'effetto di normalizzare b rispetto al numero dei casi, eliminando ogni influenza di tale numero sulle dimensioni del coefficiente
più lo scarto in ordinata è alto e quello in ascissa è piccolo, più è alto il rapporto fra il rettangolo e il quadrato, più il punto a contribuisce a produrre una retta di regressione fortemente inclinata attraendola verso di sé
sulla base di presenza/assenza di monotonicità e linearità si ottengono 6 tipi di relazioni:
Il fatto che solo una delle due variabili compaia al denominatore della formula b comporta due importanti limitazioni:
Serie di conseguenze importanti: