Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica, analis multivariata, Dispense di Statistica

effetti causali e spuri, effetti diretti e indiretti; Calcolo delle probabilità; calcolo combinatorio (permutazioni, disposizioni, combinazioni); campionamento e distribuzioni campionarie. Stime campionarie e inferenza; errore di campionamento e ampiezza del campione; disegni di campionamento probabilistici e non probabilistici; problemi di campionamento nella ricerca sociale. Verifica di ipotesi statistiche.

Tipologia: Dispense

2018/2019

Caricato il 25/06/2019

elenazanaglia
elenazanaglia 🇮🇹

4

(2)

7 documenti

1 / 22

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
La standardizzazione
Variabili cardinali "
consiste: in una doppia trasformazione"
1) prima: si normalizzano i dati rispetto alla loro media , poi si normalizzano i risultanti scarti
rispetto alla deviazione standard "
2) Dopo: consiste nella compressione o dilatazione della distribuzione dei punteggi a seconda
della sua dispersione "
formula: Zi = (Xi - X) \ S
Analisi Bivariata (cap.4)
Ipotesi —> di solito viene espressa mediante una proposizione che mette in relazione due
o più variabili "
Distribuzione di frequenza congiunta
Analisi statistica delle relazioni fra due variabili —> si basa: sull’esame delle distribuzioni di
frequenza congiunta —> cioè l’incrocio di due o più distribuzioni di frequenza semplici"
i totali di riga e di colonna vengono abitualmente chiamati “marginali” e corrispondono alle
distribuzioni di frequenza monovariate. "
Forma, forza e direzione
Con le tecniche di analisi bivariata si cercando di individuare:"
-Forma —> le possibili configurazioni delle relazioni fra le due variabili in questione —>
es: la tabella precedente, ci presenta una possibile forma della relazione fra le variabili,
con i giovani (15-34 anni) che preferiscono il partito A, gli adulti 35-54enni che
preferiscono il partito B e gli over-54enni che preferiscono il partito C. "
-Forza "
-Direzione delle relazione fra due variabili —> comprendere la relazione di causalità
fra le variabili —> quando si parla di causa-eetto ci si riferisce all’esistenza di un
nesso tra eventi tali per cui la manifestazione di uno è la conseguenza diretta e
necessaria della manifestazione dell’altro —> dicoltà nell’individuazione dei
percorsi causali: perché:
1) L’individuazione della direzione causale della relazione non è semplice, perché nelle
scienze sociali spesso le relazioni non hanno livelli di forza particolarmente elevati, perché
hanno spesso carattere “tendenziale” (tendenzialmente, i giovani tendono a votare per il
partito A; ma ci sono anche tanti giovani che votano per i partiti B e C e tanti non giovani
che votano per il partito A), "
2) sono assai di frequente di natura bi-direzionale. "
3) anche nel caso poi in cui si individui una relazione e la sua direzione causale, ciò non significa
riuscire necessariamente a ricostruirne il meccanismo causale (si rileva che i giovani votano
tendenzialmente più per il partito A e che la direzione causale indica che sia l’età a influenzare il
voto – e naturalmente non il contrario – ma non si riesce a comprendere il motivo, il perché). "
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16

Anteprima parziale del testo

Scarica Statistica, analis multivariata e più Dispense in PDF di Statistica solo su Docsity!

La standardizzazione

  • Variabili cardinali
  • consiste:^ in una doppia trasformazione
  1. prima: si normalizzano i dati rispetto alla loro media , poi si normalizzano i risultanti scarti

rispetto alla deviazione standard

  1. Dopo: consiste nella compressione o dilatazione della distribuzione dei punteggi a seconda

della sua dispersione

- formula:^ Zi = (Xi - X) \ S

Analisi Bivariata (cap.4)

Ipotesi —> di solito viene espressa mediante una proposizione che mette in relazione due

o più variabili

Distribuzione di frequenza congiunta

  • Analisi statistica delle relazioni fra due variabili —>^ si basa: sull’esame delle^ distribuzioni di

frequenza congiunta —> cioè l’incrocio di due o più distribuzioni di frequenza semplici

i totali di riga e di colonna vengono abitualmente chiamati “marginali” e corrispondono alle

distribuzioni di frequenza monovariate.

Forma, forza e direzione

Con le tecniche di analisi bivariata si cercando di individuare:

Forma —> le possibili configurazioni delle relazioni fra le due variabili in questione —>

es: la tabella precedente, ci presenta una possibile forma della relazione fra le variabili,

con i giovani (15-34 anni) che preferiscono il partito A, gli adulti 35-54enni che

preferiscono il partito B e gli over-54enni che preferiscono il partito C.

Forza

Direzione delle relazione fra due variabili —> comprendere la relazione di causalità

fra le variabili —> quando si parla di causa-effetto ci si riferisce all’esistenza di un

nesso tra eventi tali per cui la manifestazione di uno è la conseguenza diretta e

necessaria della manifestazione dell’altro —> difficoltà nell’individuazione dei

percorsi causali: perché:

1) L’individuazione della direzione causale della relazione non è semplice, perché nelle

scienze sociali spesso le relazioni non hanno livelli di forza particolarmente elevati, perché

hanno spesso carattere “ tendenziale” ( tendenzialmente , i giovani tendono a votare per il

partito A; ma ci sono anche tanti giovani che votano per i partiti B e C e tanti non giovani

che votano per il partito A),

2) sono assai di frequente di natura bi-direzionale.

3) anche nel caso poi in cui si individui una relazione e la sua direzione causale, ciò non significa

riuscire necessariamente a ricostruirne il meccanismo causale (si rileva che i giovani votano

tendenzialmente più per il partito A e che la direzione causale indica che sia l’età a influenzare il

voto – e naturalmente non il contrario – ma non si riesce a comprendere il motivo, il perché).

Variabili indipendenti e dipendenti

La variabile indipendente ———> influisce su ———> variabile dipendente

Tecniche di analisi bivariata:

Quando si parla:

in generale di relazioni fra variabili si usa il termine “ covariazionie”

La relazione è fra variabili nominali di “ associazione”

Variabili ordinali “ congraduazione

Variabili cardinali si parla di correlazione

Analisi Bivariata: quando le variabili sono categoriali (cap.5)

In questo capitolo si fa riferimento alla situazione in cui le variabili da considerare siano solo due e

siano entrambe categoriali ( cioè nominali o ordinali)

Si vuole studiare la relazione fra la variabile età e pratica religiosa —> per far ciò si organizzano

i dati in una tabella a doppia entrata —> struttura: in una riga viene inserita una variabile

(variabile di riga), in colonna l’altra (variabile di colonna), dall’incrocio di esse si forma la celle

Percentualizzazione

Criteri:

  • si sceglie la percentuale per colonna quando si vuole analizzare l'influenza che la variabile

posta in colonna ha sulla variabile posta in riga;

  • si sceglie le percentuale per riga quando si vuole analizzare l'influenza

che la variabile posta in riga ha sulla variabile posta in colonna.

Presentazioni dele tabelle

Elementi per presentare una tabella in modo efficiente (meno costoso), completa (cioè senza

perdita di informazione), adeguata (conforme agli obiettivi della ricerca) :

  • (^) Parsimoniiosità —> La tabella deve contenere solo i dati significativi per valutare la relazione.

In genere si escludono i valori assoluti, salvo che non si ritengano necessari. I titoli delle tabelle

devono essere sintetici, ma contenere l'indicazione delle variabili coinvolte.

  • (^) La tabella deve contenere sempre la riga (o colonna ) totale contenente i valori 100. Serve d

orientare la lettura, indicando in che direzione sono state calcolate le percentuali.

  • (^) I dati percentuali devono essere arrotondati alla prima cifra decimale , o arrotondati alla prima

cifra intera (cioè senza decimali). La seconda cifra decimale non si userebbe mai nei commenti

e quindi non è significativa

  • Nell’interpretazione e^ commento^ delle tavole —> si deve sempre fare riferimento a modalità

significative (ad es., per variabili ordinali, quelle estreme e non quelle centrali) della variabile

dipendente e guardare a come essa varia al passaggio da una modalità all’altra della variabile

indipendente.

Misure di forza della relazione

Per misurare la forza della relazione esistono diversi indici/coefficienti.

  • relazione fra variabili nominali (o una nominale e una ordinale) : misure di associazione ;
  • relazione fra variabili ordinali : misure di cograduazione ;
  • relazione fra variabili cardinali: coefficienti retta regressione (cap. 6).

Misure di associazione

per studiare la forza della relazione fra variabili nominali (o una nominale e una ordinale, dunque

laddove non si può ragionare in termini di segno della relazione).

Il Chi quadrato (χ

  • Per misurare la forza della relazione fra due variabili nominali (o una nominale e una ordinale) si

può innanzitutto confrontare la distribuzione congiunta effettiva con quella ipotetica

rappresentativa di una perfetta indipendenza fra le due variabili.

  • Si tratta cioè di^ confrontare:
  • (^) Le frequenze osservate —> cioè quelle effettive dei dati
  • (^) Le f requenze attese —> quelle che ci si aspetta di avere in caso di assoluta indipendenza tra

le variabili —> come si calcola: moltiplicando fra loro le margini di quella cella e dividendo per il

totale delle tabella

  • Limite del chi quadrato^ —> risente del numero dei casi, cioè cresce all’aumentare dei casi —>

per ovviare a questo problema sono state proposte due soluzioni:

  1. dividere il Chi quadrato per il numero di casi e ottenere così il Phi quadrato ( φ
  1. V di Cramer: ha il vantaggio di avere intervallo compreso fra 0 (in caso di perfetta assenza di

relazione) e 1 (relazione perfetta). —> Formula: V= √x

\

N(k-1)

  1. nel caso le due variabili siano dicotomiche , V di Cramèr coincide con il coefficiente di

correlazione r di Pearson, usato per studiare la relazione fra due variabili cardinali

Misure di associazioni basate sulla riduzione proporzionale dell’errore

- Alcune misure —>^ si^ basano: sulla riduzione dell’errore che si fa nel predire una variabile

conoscendo il valore dell’altra

  • Queste misure partono dall’ assunto^ secondo cui:
    • se due variabili X e Y sono perfettamente indipendenti l’una dall’altra —> il fatto di

conoscere il valore assunto da un certo caso su X non permette minimamente di predire il

valore che quel caso assumerà sulla variabile Y

ES: se non c’è alcuna relazione fra genere e voto, il fatto di sapere se il caso è uomo o donna

non dice nulla sul partito che vota);

  • se all’opposto le due variabili X e Y sono perfettamente associate tra loro —> il fatto di

conoscere il valore assunto dal caso sulla variabile X permette di predire senza errore il valore

assunto dal caso su Y

ES: nell’es., se il voto dipendesse esclusivamente dal genere, il fatto di sapere se il caso è

uomo o donna mi permette di conoscere per quale partito vota).

  • Misure di associazione^ che si basano su questo criterio: - (^) Lambda (λ)
  • (^) e Tau (τ)

Misure di congraduazione

- Utilizzate se le variabili sono entrambe ordinali —> NB: se ho una variabile ordinale e

una nominale, si usano le misure di associazione

- Sono state presentate diverse misure di congraduazione che si basano sullo stesso

principio: cioè sul confronto fra i valor i assunti da X e Y su tutte le possibili coppie di

casi:

una coppia di casi è detta concordante —> se per un caso i valori assunti sulle

variabili X e Y sono entrambi maggiori (o entrambi minori) dei valori assunti da un altro

caso sulle stesse variabili (per es. il caso 1 ha un titolo di studio più elevato e una più

frequente pratica sportiva del caso 2).

  • una coppia di casi è detta discordante —> se un caso assume un valore maggiore

dell’altro caso su una variabile e un valore minore sull’altra variabile (o viceversa) (per

es. il caso 1 ha un livello di istruzione più elevato e una minore pratica sportiva rispetto

al caso 2).

  • Risultati :

Se la maggioranza delle coppie di casi è concordante —> allora abbiamo una

relazione fra le due variabili di segno positivo.

Se la maggioranza delle coppie di casi è discordante —> allora abbiamo una

relazione fra le due variabili di segno negativo.

Se c’è lo stesso numero di coppie concordanti e di coppie discordant i —> allora

non c’è relazione fra le due variabili.

**- Misure di congraduazione

  • Tau** c

c

) di Kendall ,

-

d di Somers

-

Gamma ( γ ) di Goodman e Kruskal —> γ = C-D

C+D

C= n. Di coppie concordanti D= coppie discordanti

γ —> assume valore: +1 in caso di perfetta relazione positiva, -1 in caso di perfetta

relazione negativa e 0 in caso di assenza di relazione

  • Le graduatorie —> altro tipo di misura di congraduazione —> derivanti da un

processo di ordinamento delle unità di analisi in sequenza ordinata —> si basano: sul

confronto fra la posizione che il singolo caso assume nelle due graduatorie (per capire,

appunto, se e quanto le due graduatorie cograduino o siano “contro-graduate” e

quanto lo siano). —> più nota è il Rho ( ρ ) di Spearman :

d = differenza fra le posizioni di un caso nelle due graduatorie (ad es.,

per Bologna = 1)

L’insieme dei punti

sul diagramma a

dispersione

corrisponde alla

distribuzione

congiunta dei casi

sulle due variabili X

e Y e costituisce

una nuvola di

punti , che può

assumere diverse

configurazioni.

  • Ci sono 4 tipi di diagrammi raffiguranti le diverse relazioni fra due variabili

1) lineare positiva (o diretta)

2)lineare negativa (o indiretta)

3) nessuna relazione

4) curvilinea

=> il diagramma di dispersione —> consente di comprendere innanzitutto la forma (dunque

anche il segno ) della relazione. —> ma non dice nulla sull’ i ntensità dell’effetto della variabile X

sulla variabile Y (forza della relazione), cioè di quanto varia il valore della variabile dipendente Y al

variare della variabile indipendente X.

  • Relazione lineare^ —> Se i punti del diagramma tendono ad allinearsi pressappoco lungo una

diagonale sul piano cartesiano => forma funzionale lineare

  • equazione:^ Y =^ α^ +^ β X

(ossia: il valore di Y = valore di X*coeff. β + α) —> dove:

- β^ è:

  • il coefficiente di regressione (o gradiente) e indica l’inclinazione della retta, cioè la variazione

della var. Y per ogni variazione unitaria della var. X.

  • (^) β positivo indica una retta che va da basso/sinistra ad alto/destra;
  • (^) β negativo indica una retta che va da alto/sinistra a basso/destra.
  • esprime dunque l’intensità dell’effetto esercitato dalla variabile indipendente sulla variabile

dipendente.

- α^ è:

3. Coefficiente di determinazione R

Si ottiene: elevando al quadrato il valore del coefficiente di correlazione

- Pregio di R:

  • fornisce un numero che può essere immediatamente interpretato —> esso ci indica infatti la

parte della variazione della variabile dipendente che è spiegata (determinata) dalla variazione

della variabile indipendente. In altre parole, ci permette di capire quanto il variare della variabile

indipendente determina il variare della variabile dipendente.

Il valore di R

va letto in termini percentuali —> per cui se R

2

= 0,49 significa che il 49%

della variazione della var. dipendente è spiegato dalla variabile indipendente.

Esempio:

Dunque, se fra tasso di mortalità infantile e Pil (ricchezza) dei Paesi troviamo:

r = – 0,

R

2

2

che significa che il 36% della variazione fra un Paese e l’altro del tasso di mortalità infantile è

determinato e può quindi essere spiegato in termini di maggiore e minore ricchezza dei diversi

Paesi considerati

Casi anomali e casi influenti

- caso anomalo (outlier) —> è quello in corrispondenza del quale la variabile dipendente Y

assume un valore atipico , dato un certo valore della variabile indipendente X

Esempio:

in corrispondenza di uno studio di 10 giorni (X), i casi assumono generalmente valori compresi fra

22 e 25 sul voto all’esame (Y), l’unico caso che, studiando 10 giorni, consegue il voto di 30 può

essere considerato anomalo.

Di per sé un caso anomalo non rappresenta un problema per la regressione lineare, lo diventa

quando il suo valore è eccentrico, cioè: si discosta dal valore medio X in misura apprezzabile

- In questo caso viene definito^ caso influente^ —> in quanto la sua presenza influisce in modo

significativo sui risultati della regressione specificamente spostando i valori di α e β

- Formula—>^ **influenza: anomalia di Y|X x eccentricità di X

  • Indici numerici**^ che permettono di identificare i casi anomali e quelli influenti:
  • (^) Hat value (hi) —> esprime la misura in cui il valore di x assunto dal caso i è eccentrico rispetto

alla media di x —> soglia di riferimento: 2*numero di parametri stimati)/N

  • (^) indice di Cook (Di) —> combina hi con un altro parametro e fornisce di fatto una stima del

grado complessivo di influenza esercitata dal caso i sulla retta di regressione —> soglia di

riferimento: [4/(N – numero di parametri stimati)]

  • (^) l’indice beta (DFBetas) —> che esprime in forma standardizzata l’influenza del caso i sul

valore del coefficiente di regressione β. Quando DFBetas assume valore positivo, significa che

la presenza del caso i accresce il valore di β; viceversa, quando assume un valore negativo

significa che la presenza del caso i diminuisce il valore di β —> soglia di riferimento: (2/√N)

Esempio:

Relazione fra pratica religiosa cattolica e tasso di abortività nelle regioni italiane. Diagramma a

dispersioneSe osserviamo il diagramma a dispersione, vediamo che i casi posizionati sopra la retta

Se osserviamo il diagramma a dispersione, vediamo che i casi posizionati sopra la retta sono

pressoché controbilanciati da quelli posizionati sotto di essa, per cui si può ritenere che la retta

possa offrire una buona rappresentazione dell’effetto medio esercitato da X (pratica religiosa

cattolica) su Y (“tasso di abortività”).

Unico evidente outlier è costituito dalla Puglia, con un valore di Y osservato decisamente più

elevato di quello che ci si attenderebbe dato il valore di X.

Il presenza di casi influenti:

Cercare di capire l’origine dell’anomalia osservata

Se ci troviamo di fronte ad un errore di registrazione dei dati —> il problema si risolve

apportandole opportune correzioni e stimando nuovamente la retta di regressione

Se l’anomalia è reale —> allora è evidente che la relazione fra X e Y presenta delle peculiarità

che il modello di regressione lineare semplice non è in grado di spiegare —> tali peculiarità

possono avere:

1. Delle eccezioni isolate:

  • (^) o si escludono questi casi outlier
  • oppure si ricorre a tecniche di stima della retta di regressione che tengano conto della presenza

di questi casi outlier influenti —> una di queste tecniche è la regressione robusta —> che

consiste nel calcolare la retta attribuendo dei pesi ai casi, in modo che i casi poco influenti (cioè

più vicino alla nuvola e alla retta) pesino maggiormente e i casi molto influenti pesino meno (in

modo da ridurre l’effetto distorsivo di questi ultimi);

2. Un carattere simbolico: è necessario riformulare il modello, ad es. aggiungendo altre variabili

ed entrando così nel campo dell’analisi multivariata o comunque andando “oltre la linearità”

Quando la variabile indipendente è categoriale

Quando si vuole studiare la relazione fra, una variabile nominale o ordinale e, dall’altra parte,

una variabile cardinale —> la tecnica da utilizzare è l ’analisi della varianza

Si tratta —> innanzitutto di calcolare i valori medi che la variabile cardinale ,posta come

dipendente ,assume per ciascuna delle modalità della variabile nominale / ordinale (variabile

indipendente).

Esempio

All’esame di Statistica il voto medio è stato di 26.

I 100 ragazzi hanno conseguito il voto di 24 e le 100 ragazze 28.

.Quindi a livello individuale si può osservare che:

Dato che la

somma degli scarti dalla media sarebbe pari a 0, questi vengono elevati al quadrato ottenendo il:

TEOREMA FONDAMENTALE DELLA VARIANZA:

TSS (devianza totale) = WSS (devianza interna; sottinteso nelle categorie) + BSS (devianza

esterna; tra le categorie)

WSS: è la differenza di voti interna alle F e interna ai M;

BSS: è la differenza di voti fra M e F.

• quanto^ maggiore è il peso di BSS^ (e dunque quanto inferiore è quello di WSS), tanto p iù forte

è la relazione tra le due variabili.

• Casi limite:

- WSS=0 —> Tutti i casi all’interno di ciascuna delle categorie della variabile nominale o ordinale

hanno lo stesso valore sulla variabile cardinale; lo scarto di ciascun caso dalla media della sua

categoria è pari a 0 (nell’esempio sopra riportato: tutti i casi Maschi prendono lo stesso voto

all’esame e anche tutte le Femmine prendono lo stesso voto e c’è una differenza fra M e )F —>

se si conosce il genere dello studente, si conosce/si può prevedere anche il voto all’esame) —>

associazione di massima forza, TSS=BSS

- BSS=0 —> Ogni categoria della variabile nominale o ordinale presenta esattamente la stessa

media sulla variabile cardinale; lo scarto fra le medie di categoria è pari a 0; (nell’esempio sopra

riportato: M e F hanno entrambi media pari a 26; anche se si conosce il genere dello studente

non si ha alcuna informazione aggiuntiva sul voto che prende all’esame, poiché tutte le medie

sono uguali) —> Associazione nulla, TSS=WSS

(ETA QUADRATO) —> coefficiente che sintetizzi la forza della relazione:

• Formula:

Campo di variazione di η

2

- (^) da 0 (BSS = 0, relazione nulla, la var. indipendente non “spiega” la variabilità della variabile

cardinale)

  • (^) a 1 (WSS = 0; tutto dipende dalla variazione della var. indipendente, tutti i casi nella stessa

categoria hanno lo stesso punteggio, relazione perfetta).

INTRODUZIONE ALL’ANALISI MULTIVARIATA (cap.7)

Limiti dell’analisi bivariata:

  • Se si vuole stimare l’effetto causale esercitato dalla variabile X sulla variabile Y, non è sempre

opportuno e sufficiente limitarsi a un’analisi bivariata della loro relazione —> perchè: le

relazioni bivariate possono essere ingannevoli: possono essere statisticamente inattaccabili – X

e Y covariano – ma la covariazione potrebbe essere dovuta non a un reale effetto causale di X

su Y ( «correlation is not causation» ) ma all’azione di una terza variabile.

  • Ci si potrebbe trovare davanti ad una relazione spuria
  • Per poter^ parlare di effettiva relazione causale^ fra X e Y —> occorre che la relazione fra le due

variabili si manifesti anche quando si tiene sotto controllo l’azione esercitata da altre variabili

(Z).

  • L’azione di una terza variabile Z può essere circoscritta in due modi:
  1. depurazione —> si effettua per via matematica
  2. Controllo —> si effettua ri-analizzando la relazione fra X e Y in sub- campioni nei quali la

variabile Z, invece che variare, è costante.

Esempio:

  • si individua: una relazione fra X-Genere e Y-Partecipazione elettorale (le donne vanno a votare

meno degli uomini), ma si ritiene che questa relazione possa essere influenzata dalla variabile

Z-Età, si possono suddividere i casi studiati in gruppi di pari età e, all’interno di questi,

analizzare nuovamente la relazione fra genere e voto.

  • Dalla lettura della tabella bivariata,^ si potrebbe concludere:^ che il genere influenzi la

partecipazione elettorale, con le donne che votano meno. Poiché è nota la maggiore longevità

delle donne (dunque gli anziani sono soprattutto donne) e poiché si ipotizza che gli astenuti

siano soprattutto anziani, si introduce una terza variabile (Z-Età).

  • Se^ si introduce la variabile età:^ si evidenzia che fra genere e voto non c’è alcuna relazione

causale e che la relazione fra genere e voto è determinata esclusivamente dalla differente

composizione per età della popolazione maschile e femminile: a parità di età, la partecipazione

elettorale di uomini e donne è identica (i <70 anni presentano stesso livello di partecipazione

per genere; i >69 anni presentano stesso livello di partecipazione per genere).

Effetti causali ed effetti spuri

Variabili antecedenti —> individuazione dell’effetto causale al netto degli effetti spuri.

Partendo dall’effetto bivariato fra X e Y, si scompone l’effetto spurio (determinato dalla presenza

della variabile antecedente Z) dall’effetto causale della X sulla Y.

Esempio:

Relazione che si intende analizzare: voto di laurea (X) --> reddito (Y)

Y = α + β*X

Reddito = 1.728 + 34,80*Voto laurea

effetto bivariato: β = 34,

Esempio 1:

Effetto spurio “accrescente” l’effetto di X su Y

Inserimento della variabile antecedente “origine sociale” Z, associata positivamente sia con X che

con Y

L’effetto del voto di laurea sul reddito è accresciuto dal fatto che chi ha un’elevata origine sociale

consegue generalmente risultati migliori nel percorso universitario e presenta anche reddito più

elevato.

Tenendo “sotto controllo” l’effetto dell’origine sociale, l’effetto del voto di laurea sul reddito

diminuisce (in altre parole, se non teniamo sotto controllo l’origine sociale, l’effetto del voto di

laurea sul reddito appare maggiore).

Esempio 2:Effetto spurio “sopprimente” l’effetto di X su Y

Relazione che si vuole studiare: voto di laurea (X) ︎reddito (Y )

Y =α+β*X

Reddito = 1.728 + 34,80*Voto laurea

effetto bivariato = 34,

Inserimento della variabile antecedente “Genere” Z, associata positivamente con X (le donne

vanno meglio negli studi) e negativamente con Y (le donne hanno redditi da lavoro inferiori)

L’effetto del voto di laurea sul reddito è parzialmente oscurato dal fatto che le donne hanno alti

voti ma bassi redditi.

Tenendo sotto controllo il genere, l’effetto del voto di laurea sul reddito aumenta (se non teniamo

sotto controllo il genere, l’effetto del voto di laurea sul reddito appare minore).

Y = α + β voto

*X + β sex

*Z

α + β voto

= 44,30 β sex

Effetto bivariato = effetto causale + effetto spurio

[segno dell’effetto spurio = prodotto dei segni degli effetti di Z su X e Y]

  • Possiamo fare unico modello di regressione a^ 4 variabili.

Y = α + β

1

*votolaurea + β

2

*origsoc + β

3

*genere

β

1

(voto laurea), al netto di tutte le altre variabili inserite nel modello = 40,30.

Tenendo conto sia dell’effetto sopprimente del genere che quello accrescente dell’origine

sociale, l’effetto del voto di laurea sul reddito risulta pari a 40,30 euro.

Effetti indiretti e diretti

Variabili intervenienti —> scomposizione dell’effetto causale in effetto diretto ed effetto indiretto

Tornando all’esempio precedente sul reddito come variabile dipendente, si può essere

interessati a scomporre questo effetto causale “totale” , perché questo effetto di X su Y può

essere mediato da variabili intervenienti.

Variabile interveniente —>settore d’occupazione (lavoro dipendente privato, dipendente

pubblico, autonomo), variabile che incide sul reddito (più alto nel caso di lavoro privato o

autonomo) ed è presumibilmente influenzata dal voto di laurea (es. voti più alti vanno nel

privato).

2. esplorativo ( approccio predittivo): per individuare il modello che meglio di ogni altro “spiega”

la variazione osservata nella variabile dipendente.

- Oggetto di studio: una determinata variabile dipendente Y con l’obiettivo di:

a) individuare l’insieme delle variabili indipendenti che meglio di ogni altro contribuisce a

“spiegare” la variazione della var. dip. Y;

b) la distinzione fra variabile indipendente e di controllo perde d’importanza: le variabili sono

tutte sullo stesso piano, i parametri β hanno tutti la stessa rilevanza teorica;

scelta delle variabili da inserire nel modello in base a coefficienti statistici

(R

2

) per l’individuazione del modello che massimizza la varianza spiegata.

- Limiti dell’approccio esplorativo:

  • È utile un approccio omnicomprensivo ai fenomeni sociali? Rimangono comunque escluse le

cause che rimangono fuori dal modello in quanto non misurabili o per le quali non disponiamo dei

dati o a cui il ricercatore non ha pensato.

  • la ricerca del modello “migliore” può produrre molteplici soluzioni equivalenti (stesso R

ma

differenti variabili esplicative).

  • Obiezione fondamentale: i β misurano l’effetto causale netto, non quello totale, senza

considerare l’ordine causale delle variabili. Es. effetto del gruppo etnico: è al netto per esempio

dell’istruzione, che invece è interveniente in quanto etnicità influenza istruzione che influenza

reddito (v. esempio precedente su relazione indiretta). Per misurare effettivamente l’effetto

etnicità, dobbiamo fare modello che contiene oltre a questa Y solo quelle antecedenti o

concomitanti (età, regione, area di residenza).

  • Quando:
  • (^) la variabile dipendente è cardinale —> si fa riferimento alla regressione lineare
  • (^) variabile dipendente è categoriale —> si deve ricorrere alla regressione logistica.

INFERENZA STATISTICA E CAMPIONAMENTO (Cap. 10)

Si era già vista la distinzione fra:

  • (^) rilevazione esaustiva o totale o censuaria (censimenti, abitualmente la

rilevazione indiretta),

  • rilevazione campionaria (inchiesta campionaria, survey).
  • Vantagg i della^ rilevazione campionaria :
  • riduzione dei costi di rilevazione,
  • riduzione dei tempi,
  • riduzione del carico organizzativo
  • (^) conseguente maggiore possibilità di approfondimento e accuratezza.
  • Campionamento^ —>^ procedimento attraverso il quale si estrae , da un insieme di unità

( popolazione ) costituenti l’oggetto di studio ,un numero ridotto di casi ( campione ), scelti con

criteri tali da consentire la generalizzazione all’intera popolazione dei risultati ottenuti studiando

il campione.

  • Campione^ —>^ l’insieme delle^ n^ (ampiezza del campione) unità campionarie (i casi) selezionate

tra le N unità che compongono la popolazione, allo scopo di rappresentarla ai fini dello studio

che si intende realizzare.

  • Inferenza —> La generalizzazione, l’estensione di quanto rilevato con riferimento al campione

all’intera popolazione al centro dell’analisi => la generalizzazione da una parte (nota) al tutto

(ignoto) ed è sempre caratterizzata da un certo grado di incertezza, dovuto al fatto che:

1) da ogni popolazione (sufficientemente ampia) che si intenda studiare è

possibile estrarre un numero virtualmente infinito di campioni

differenti;

2) ognuno di questi campioni rappresenta la popolazione di riferimento in

maniera imperfetta e determina una stima non necessariamente identica;

3) per la realizzazione di un singolo studio viene estratto un unico

campione fra quelli, infiniti, che possono essere estratti;

4) poiché a monte le caratteristiche della popolazione sono in buona parte ignote, è impossibile

stabilire in quale misura lo specifico campione estratto possa essere considerato rappresentativo

della popolazione al

centro dello studio.

  • Da ciò^ deriva che:
  • (^) qualsiasi procedura di campionamento – anche la più precisa e accurata

è soggetta a errore ( errore di campionamento ), nel senso che qualsiasi campione

rappresenta la popolazione di riferimento sempre in modo imperfetto.

Poiché non è possibile stabilire con certezza la rappresentatività del campione, non si può mai

sapere, senza alcun dubbio, se i risultati ottenuti analizzando un certo campione siano – e di

quanto – simili a quelli reali (cioè quelli che si otterrebbero rilevando i dati presso l’intera

popolazione). Ciò che si ottiene è una stima del valore reale.

  • interpretare correttamente una stima campionaria^ —>^ cioè: il valore che rilevo partendo da

uno specifico campione —> è necessario: disporre di una misura specifica dell’incertezza che

la caratterizza —> Giunti quindi a un determinato valore stimato, interessa stabilire qual è la

gamma di valori entro cui molto probabilmente si colloca il valore reale (che è ignoto) —> Ciò

significa conoscere l’ intervallo di confidenza , che deriva dal livello di fiducia (come si vedrà, di

solito posto al 95% o al 99%) e dall’ errore standard/errore campionario della stima (di cui di

seguito si presentano le modalità di calcolo).

Errore di campionamento

  • Nel caso si voglia stimare una media (es: media del reddito)

Formula:

  • (^) z = è il coefficiente corrispondente al livello di fiducia della stima imposto dal ricercatore (95%

o 99% probabilità di...2), cioè il grado di affidabilità della stima che si vuole avere

  • (^) s = deviazione standard della variabile studiata —> Maggiore è la dispersione della variabile

rilevata per i casi del campione, maggiore è , a parità di altre condizioni ,l’errore di

campionamento.

  • (^) n = ampiezza del campione

= fattore di correzione, dove f = n/N

  • l’errore di campionamento^ —> è^ direttamente proporzionale^ al livello di fiducia che vogliamo

avere e alla variabilità del fenomeno studiato, mentre è inversamente proporzionale

all’ampiezza n del campione (più l’eventuale effetto del fattore di correzione)

Esempio:

Un errore di campionamento di 30 rispetto a un reddito medio di 1.650 euro, con livello di fiducia

del 95%, significa che con una probabilità del 95% il reddito medio della popolazione è di 1.

euro ±30 euro, cioè è compreso (intervallo di confidenza) fra 1.620 e 1.680 euro.

Nel caso che si abbia a che fare con variabili non cardinali

  • per le quali dunque non si può stimare una media, ma una^ proporzione^ (favorevole o contrario

a un referendum, intenzionati a votare o no)

Formula:

  • p = proporzione (quota di casi) del campione per la categoria in esame q

= 1– p