














Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
effetti causali e spuri, effetti diretti e indiretti; Calcolo delle probabilità; calcolo combinatorio (permutazioni, disposizioni, combinazioni); campionamento e distribuzioni campionarie. Stime campionarie e inferenza; errore di campionamento e ampiezza del campione; disegni di campionamento probabilistici e non probabilistici; problemi di campionamento nella ricerca sociale. Verifica di ipotesi statistiche.
Tipologia: Dispense
1 / 22
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!















rispetto alla deviazione standard
della sua dispersione
- formula:^ Zi = (Xi - X) \ S
frequenza congiunta —> cioè l’incrocio di due o più distribuzioni di frequenza semplici
i totali di riga e di colonna vengono abitualmente chiamati “marginali” e corrispondono alle
distribuzioni di frequenza monovariate.
2) sono assai di frequente di natura bi-direzionale.
3) anche nel caso poi in cui si individui una relazione e la sua direzione causale, ciò non significa
riuscire necessariamente a ricostruirne il meccanismo causale (si rileva che i giovani votano
tendenzialmente più per il partito A e che la direzione causale indica che sia l’età a influenzare il
voto – e naturalmente non il contrario – ma non si riesce a comprendere il motivo, il perché).
La variabile indipendente ———> influisce su ———> variabile dipendente
Tecniche di analisi bivariata:
Quando si parla:
in generale di relazioni fra variabili si usa il termine “ covariazionie”
La relazione è fra variabili nominali di “ associazione”
Variabili ordinali “ congraduazione ”
Variabili cardinali si parla di correlazione
In questo capitolo si fa riferimento alla situazione in cui le variabili da considerare siano solo due e
siano entrambe categoriali ( cioè nominali o ordinali)
Si vuole studiare la relazione fra la variabile età e pratica religiosa —> per far ciò si organizzano
i dati in una tabella a doppia entrata —> struttura: in una riga viene inserita una variabile
(variabile di riga), in colonna l’altra (variabile di colonna), dall’incrocio di esse si forma la celle
Criteri:
posta in colonna ha sulla variabile posta in riga;
che la variabile posta in riga ha sulla variabile posta in colonna.
Elementi per presentare una tabella in modo efficiente (meno costoso), completa (cioè senza
perdita di informazione), adeguata (conforme agli obiettivi della ricerca) :
In genere si escludono i valori assoluti, salvo che non si ritengano necessari. I titoli delle tabelle
devono essere sintetici, ma contenere l'indicazione delle variabili coinvolte.
orientare la lettura, indicando in che direzione sono state calcolate le percentuali.
cifra intera (cioè senza decimali). La seconda cifra decimale non si userebbe mai nei commenti
e quindi non è significativa
significative (ad es., per variabili ordinali, quelle estreme e non quelle centrali) della variabile
dipendente e guardare a come essa varia al passaggio da una modalità all’altra della variabile
indipendente.
Per misurare la forza della relazione esistono diversi indici/coefficienti.
per studiare la forza della relazione fra variabili nominali (o una nominale e una ordinale, dunque
laddove non si può ragionare in termini di segno della relazione).
può innanzitutto confrontare la distribuzione congiunta effettiva con quella ipotetica
rappresentativa di una perfetta indipendenza fra le due variabili.
le variabili —> come si calcola: moltiplicando fra loro le margini di quella cella e dividendo per il
totale delle tabella
per ovviare a questo problema sono state proposte due soluzioni:
relazione) e 1 (relazione perfetta). —> Formula: V= √x
N(k-1)
correlazione r di Pearson, usato per studiare la relazione fra due variabili cardinali
- Alcune misure —>^ si^ basano: sulla riduzione dell’errore che si fa nel predire una variabile
conoscendo il valore dell’altra
conoscere il valore assunto da un certo caso su X non permette minimamente di predire il
valore che quel caso assumerà sulla variabile Y
ES: se non c’è alcuna relazione fra genere e voto, il fatto di sapere se il caso è uomo o donna
non dice nulla sul partito che vota);
conoscere il valore assunto dal caso sulla variabile X permette di predire senza errore il valore
assunto dal caso su Y
ES: nell’es., se il voto dipendesse esclusivamente dal genere, il fatto di sapere se il caso è
uomo o donna mi permette di conoscere per quale partito vota).
- Utilizzate se le variabili sono entrambe ordinali —> NB: se ho una variabile ordinale e
- Sono state presentate diverse misure di congraduazione che si basano sullo stesso
**- Misure di congraduazione
c
-
-
d = differenza fra le posizioni di un caso nelle due graduatorie (ad es.,
per Bologna = 1)
L’insieme dei punti
sul diagramma a
dispersione
corrisponde alla
distribuzione
congiunta dei casi
sulle due variabili X
e Y e costituisce
una nuvola di
punti , che può
assumere diverse
configurazioni.
anche il segno ) della relazione. —> ma non dice nulla sull’ i ntensità dell’effetto della variabile X
sulla variabile Y (forza della relazione), cioè di quanto varia il valore della variabile dipendente Y al
variare della variabile indipendente X.
diagonale sul piano cartesiano => forma funzionale lineare
(ossia: il valore di Y = valore di X*coeff. β + α) —> dove:
- β^ è:
della var. Y per ogni variazione unitaria della var. X.
dipendente.
- α^ è:
Si ottiene: elevando al quadrato il valore del coefficiente di correlazione
- Pregio di R:
parte della variazione della variabile dipendente che è spiegata (determinata) dalla variazione
della variabile indipendente. In altre parole, ci permette di capire quanto il variare della variabile
indipendente determina il variare della variabile dipendente.
Il valore di R
va letto in termini percentuali —> per cui se R
2
= 0,49 significa che il 49%
della variazione della var. dipendente è spiegato dalla variabile indipendente.
Esempio:
Dunque, se fra tasso di mortalità infantile e Pil (ricchezza) dei Paesi troviamo:
r = – 0,
2
2
che significa che il 36% della variazione fra un Paese e l’altro del tasso di mortalità infantile è
determinato e può quindi essere spiegato in termini di maggiore e minore ricchezza dei diversi
Paesi considerati
- caso anomalo (outlier) —> è quello in corrispondenza del quale la variabile dipendente Y
assume un valore atipico , dato un certo valore della variabile indipendente X
Esempio:
in corrispondenza di uno studio di 10 giorni (X), i casi assumono generalmente valori compresi fra
22 e 25 sul voto all’esame (Y), l’unico caso che, studiando 10 giorni, consegue il voto di 30 può
essere considerato anomalo.
Di per sé un caso anomalo non rappresenta un problema per la regressione lineare, lo diventa
quando il suo valore è eccentrico, cioè: si discosta dal valore medio X in misura apprezzabile
- In questo caso viene definito^ caso influente^ —> in quanto la sua presenza influisce in modo
significativo sui risultati della regressione specificamente spostando i valori di α e β
- Formula—>^ **influenza: anomalia di Y|X x eccentricità di X
alla media di x —> soglia di riferimento: 2*numero di parametri stimati)/N
grado complessivo di influenza esercitata dal caso i sulla retta di regressione —> soglia di
riferimento: [4/(N – numero di parametri stimati)]
valore del coefficiente di regressione β. Quando DFBetas assume valore positivo, significa che
la presenza del caso i accresce il valore di β; viceversa, quando assume un valore negativo
significa che la presenza del caso i diminuisce il valore di β —> soglia di riferimento: (2/√N)
Esempio:
Relazione fra pratica religiosa cattolica e tasso di abortività nelle regioni italiane. Diagramma a
dispersioneSe osserviamo il diagramma a dispersione, vediamo che i casi posizionati sopra la retta
Se osserviamo il diagramma a dispersione, vediamo che i casi posizionati sopra la retta sono
pressoché controbilanciati da quelli posizionati sotto di essa, per cui si può ritenere che la retta
possa offrire una buona rappresentazione dell’effetto medio esercitato da X (pratica religiosa
cattolica) su Y (“tasso di abortività”).
Unico evidente outlier è costituito dalla Puglia, con un valore di Y osservato decisamente più
elevato di quello che ci si attenderebbe dato il valore di X.
Il presenza di casi influenti:
Cercare di capire l’origine dell’anomalia osservata
Se ci troviamo di fronte ad un errore di registrazione dei dati —> il problema si risolve
apportandole opportune correzioni e stimando nuovamente la retta di regressione
Se l’anomalia è reale —> allora è evidente che la relazione fra X e Y presenta delle peculiarità
che il modello di regressione lineare semplice non è in grado di spiegare —> tali peculiarità
possono avere:
1. Delle eccezioni isolate:
di questi casi outlier influenti —> una di queste tecniche è la regressione robusta —> che
consiste nel calcolare la retta attribuendo dei pesi ai casi, in modo che i casi poco influenti (cioè
più vicino alla nuvola e alla retta) pesino maggiormente e i casi molto influenti pesino meno (in
modo da ridurre l’effetto distorsivo di questi ultimi);
2. Un carattere simbolico: è necessario riformulare il modello, ad es. aggiungendo altre variabili
ed entrando così nel campo dell’analisi multivariata o comunque andando “oltre la linearità”
Quando si vuole studiare la relazione fra, una variabile nominale o ordinale e, dall’altra parte,
una variabile cardinale —> la tecnica da utilizzare è l ’analisi della varianza
Si tratta —> innanzitutto di calcolare i valori medi che la variabile cardinale ,posta come
dipendente ,assume per ciascuna delle modalità della variabile nominale / ordinale (variabile
indipendente).
Esempio
All’esame di Statistica il voto medio è stato di 26.
I 100 ragazzi hanno conseguito il voto di 24 e le 100 ragazze 28.
.Quindi a livello individuale si può osservare che:
Dato che la
somma degli scarti dalla media sarebbe pari a 0, questi vengono elevati al quadrato ottenendo il:
TSS (devianza totale) = WSS (devianza interna; sottinteso nelle categorie) + BSS (devianza
esterna; tra le categorie)
WSS: è la differenza di voti interna alle F e interna ai M;
BSS: è la differenza di voti fra M e F.
è la relazione tra le due variabili.
hanno lo stesso valore sulla variabile cardinale; lo scarto di ciascun caso dalla media della sua
categoria è pari a 0 (nell’esempio sopra riportato: tutti i casi Maschi prendono lo stesso voto
all’esame e anche tutte le Femmine prendono lo stesso voto e c’è una differenza fra M e )F —>
se si conosce il genere dello studente, si conosce/si può prevedere anche il voto all’esame) —>
associazione di massima forza, TSS=BSS
media sulla variabile cardinale; lo scarto fra le medie di categoria è pari a 0; (nell’esempio sopra
riportato: M e F hanno entrambi media pari a 26; anche se si conosce il genere dello studente
non si ha alcuna informazione aggiuntiva sul voto che prende all’esame, poiché tutte le medie
sono uguali) —> Associazione nulla, TSS=WSS
Campo di variazione di η
2
- (^) da 0 (BSS = 0, relazione nulla, la var. indipendente non “spiega” la variabilità della variabile
cardinale)
categoria hanno lo stesso punteggio, relazione perfetta).
Limiti dell’analisi bivariata:
opportuno e sufficiente limitarsi a un’analisi bivariata della loro relazione —> perchè: le
relazioni bivariate possono essere ingannevoli: possono essere statisticamente inattaccabili – X
e Y covariano – ma la covariazione potrebbe essere dovuta non a un reale effetto causale di X
su Y ( «correlation is not causation» ) ma all’azione di una terza variabile.
variabili si manifesti anche quando si tiene sotto controllo l’azione esercitata da altre variabili
variabile Z, invece che variare, è costante.
meno degli uomini), ma si ritiene che questa relazione possa essere influenzata dalla variabile
Z-Età, si possono suddividere i casi studiati in gruppi di pari età e, all’interno di questi,
analizzare nuovamente la relazione fra genere e voto.
partecipazione elettorale, con le donne che votano meno. Poiché è nota la maggiore longevità
delle donne (dunque gli anziani sono soprattutto donne) e poiché si ipotizza che gli astenuti
siano soprattutto anziani, si introduce una terza variabile (Z-Età).
causale e che la relazione fra genere e voto è determinata esclusivamente dalla differente
composizione per età della popolazione maschile e femminile: a parità di età, la partecipazione
elettorale di uomini e donne è identica (i <70 anni presentano stesso livello di partecipazione
per genere; i >69 anni presentano stesso livello di partecipazione per genere).
Variabili antecedenti —> individuazione dell’effetto causale al netto degli effetti spuri.
Partendo dall’effetto bivariato fra X e Y, si scompone l’effetto spurio (determinato dalla presenza
della variabile antecedente Z) dall’effetto causale della X sulla Y.
Esempio:
Relazione che si intende analizzare: voto di laurea (X) --> reddito (Y)
Y = α + β*X
Reddito = 1.728 + 34,80*Voto laurea
effetto bivariato: β = 34,
Esempio 1:
Effetto spurio “accrescente” l’effetto di X su Y
Inserimento della variabile antecedente “origine sociale” Z, associata positivamente sia con X che
con Y
L’effetto del voto di laurea sul reddito è accresciuto dal fatto che chi ha un’elevata origine sociale
consegue generalmente risultati migliori nel percorso universitario e presenta anche reddito più
elevato.
Tenendo “sotto controllo” l’effetto dell’origine sociale, l’effetto del voto di laurea sul reddito
diminuisce (in altre parole, se non teniamo sotto controllo l’origine sociale, l’effetto del voto di
laurea sul reddito appare maggiore).
Esempio 2:Effetto spurio “sopprimente” l’effetto di X su Y
Relazione che si vuole studiare: voto di laurea (X) ︎reddito (Y )
Y =α+β*X
Reddito = 1.728 + 34,80*Voto laurea
effetto bivariato = 34,
Inserimento della variabile antecedente “Genere” Z, associata positivamente con X (le donne
vanno meglio negli studi) e negativamente con Y (le donne hanno redditi da lavoro inferiori)
L’effetto del voto di laurea sul reddito è parzialmente oscurato dal fatto che le donne hanno alti
voti ma bassi redditi.
Tenendo sotto controllo il genere, l’effetto del voto di laurea sul reddito aumenta (se non teniamo
sotto controllo il genere, l’effetto del voto di laurea sul reddito appare minore).
Y = α + β voto
*X + β sex
α + β voto
= 44,30 β sex
Effetto bivariato = effetto causale + effetto spurio
[segno dell’effetto spurio = prodotto dei segni degli effetti di Z su X e Y]
Y = α + β
1
*votolaurea + β
2
*origsoc + β
3
*genere
β
1
(voto laurea), al netto di tutte le altre variabili inserite nel modello = 40,30.
Tenendo conto sia dell’effetto sopprimente del genere che quello accrescente dell’origine
sociale, l’effetto del voto di laurea sul reddito risulta pari a 40,30 euro.
Variabili intervenienti —> scomposizione dell’effetto causale in effetto diretto ed effetto indiretto
Tornando all’esempio precedente sul reddito come variabile dipendente, si può essere
interessati a scomporre questo effetto causale “totale” , perché questo effetto di X su Y può
essere mediato da variabili intervenienti.
Variabile interveniente —>settore d’occupazione (lavoro dipendente privato, dipendente
pubblico, autonomo), variabile che incide sul reddito (più alto nel caso di lavoro privato o
autonomo) ed è presumibilmente influenzata dal voto di laurea (es. voti più alti vanno nel
privato).
la variazione osservata nella variabile dipendente.
- Oggetto di studio: una determinata variabile dipendente Y con l’obiettivo di:
a) individuare l’insieme delle variabili indipendenti che meglio di ogni altro contribuisce a
“spiegare” la variazione della var. dip. Y;
b) la distinzione fra variabile indipendente e di controllo perde d’importanza: le variabili sono
tutte sullo stesso piano, i parametri β hanno tutti la stessa rilevanza teorica;
scelta delle variabili da inserire nel modello in base a coefficienti statistici
2
) per l’individuazione del modello che massimizza la varianza spiegata.
- Limiti dell’approccio esplorativo:
cause che rimangono fuori dal modello in quanto non misurabili o per le quali non disponiamo dei
dati o a cui il ricercatore non ha pensato.
ma
differenti variabili esplicative).
considerare l’ordine causale delle variabili. Es. effetto del gruppo etnico: è al netto per esempio
dell’istruzione, che invece è interveniente in quanto etnicità influenza istruzione che influenza
reddito (v. esempio precedente su relazione indiretta). Per misurare effettivamente l’effetto
etnicità, dobbiamo fare modello che contiene oltre a questa Y solo quelle antecedenti o
concomitanti (età, regione, area di residenza).
Si era già vista la distinzione fra:
rilevazione indiretta),
( popolazione ) costituenti l’oggetto di studio ,un numero ridotto di casi ( campione ), scelti con
criteri tali da consentire la generalizzazione all’intera popolazione dei risultati ottenuti studiando
il campione.
tra le N unità che compongono la popolazione, allo scopo di rappresentarla ai fini dello studio
che si intende realizzare.
all’intera popolazione al centro dell’analisi => la generalizzazione da una parte (nota) al tutto
(ignoto) ed è sempre caratterizzata da un certo grado di incertezza, dovuto al fatto che:
1) da ogni popolazione (sufficientemente ampia) che si intenda studiare è
possibile estrarre un numero virtualmente infinito di campioni
differenti;
2) ognuno di questi campioni rappresenta la popolazione di riferimento in
maniera imperfetta e determina una stima non necessariamente identica;
3) per la realizzazione di un singolo studio viene estratto un unico
campione fra quelli, infiniti, che possono essere estratti;
4) poiché a monte le caratteristiche della popolazione sono in buona parte ignote, è impossibile
stabilire in quale misura lo specifico campione estratto possa essere considerato rappresentativo
della popolazione al
centro dello studio.
è soggetta a errore ( errore di campionamento ), nel senso che qualsiasi campione
rappresenta la popolazione di riferimento sempre in modo imperfetto.
Poiché non è possibile stabilire con certezza la rappresentatività del campione, non si può mai
sapere, senza alcun dubbio, se i risultati ottenuti analizzando un certo campione siano – e di
quanto – simili a quelli reali (cioè quelli che si otterrebbero rilevando i dati presso l’intera
popolazione). Ciò che si ottiene è una stima del valore reale.
uno specifico campione —> è necessario: disporre di una misura specifica dell’incertezza che
la caratterizza —> Giunti quindi a un determinato valore stimato, interessa stabilire qual è la
gamma di valori entro cui molto probabilmente si colloca il valore reale (che è ignoto) —> Ciò
significa conoscere l’ intervallo di confidenza , che deriva dal livello di fiducia (come si vedrà, di
solito posto al 95% o al 99%) e dall’ errore standard/errore campionario della stima (di cui di
seguito si presentano le modalità di calcolo).
Formula:
o 99% probabilità di...2), cioè il grado di affidabilità della stima che si vuole avere
rilevata per i casi del campione, maggiore è , a parità di altre condizioni ,l’errore di
campionamento.
avere e alla variabilità del fenomeno studiato, mentre è inversamente proporzionale
all’ampiezza n del campione (più l’eventuale effetto del fattore di correzione)
Esempio:
Un errore di campionamento di 30 rispetto a un reddito medio di 1.650 euro, con livello di fiducia
del 95%, significa che con una probabilità del 95% il reddito medio della popolazione è di 1.
euro ±30 euro, cioè è compreso (intervallo di confidenza) fra 1.620 e 1.680 euro.
Nel caso che si abbia a che fare con variabili non cardinali
a un referendum, intenzionati a votare o no)
Formula:
= 1– p