



















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
SPIEGAZIONE PASSAGGIO ANALISI BIVARIATA A QUELLA MULTIVARIATA
Tipologia: Dispense
1 / 27
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




















Legenda colori: nero: parti essenziali azzurro: parti importanti, ma che possono essere trascurate ad una prima lettura. arancione: approfondimenti, da affrontare solo ad una seconda lettura verde: per chi utilizza STATA.
La domanda di ricerca è se il sesso ha un impatto sul salario, cioè se le donne guadagnano meno degli uomini per il fatto stesso di essere donne , a parità tutte le altre condizioni.
Disponiamo dei risultati di una rilevazione (immaginaria!) fatta su un piccolo campione ( persone: 9 donne e 6 uomini), ad ognuno dei quali è stato chiesto il salario mensile, il numero di ore di lavoro settimanali, da quanti anni lavorano (gli anni di esperienza lavorativa); si è inoltre rilevato il sesso degli intervistati e la loro area di residenza 1. I valori emersi da tale rilevazione sono riportati file allegato “Wage_Sex”. Le codifiche (trasformazione di dati qualitativi in quantitativi, operazione necessaria per effettuare l’analisi statistica) sono le seguenti:
Variabile Sex: 0=uomo; 1=donna Variabile Wage: salario mensile Variabile Hours: ore di lavoro settimanali Variabile Exp: anni di esperienza lavorativa Variabile Geo: area geografica di residenza (1=Nord; 2=Centro; 3=Sud)
Abbiamo dunque due variabili (il sesso e la residenza), per loro natura categoriche, ovvero qualitative, ma rese numeriche per poter effettuare le stime, in particolare la regressione lineare; le altre variabili sono quantitative e continue.
I risultati statistici sono stati ottenuti tramite i pacchetti statistici SPSS e STATA
L’analisi bivariata
Il primo passo è verificare il salario medio per sesso (uomini, donne e totale). Stiamo parlando di salario mensile
Salario medio per sesso Con SPSS
(^1) L’effetto dell’area geografica è stato trascurato nella prima parte dell’analisi. Perciò nella prima parte della dispensa non si fa riferimento a questa variabile.
con STATA
. sum Wage if Sex==
Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- Wage | 6 1716.667 476.0952 800 2100
. sum Wage if Sex==
Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- Wage | 9 1313.333 330.8701 800 1870
Sì, il salario medio degli uomini (1716,66 euro al mese) è più alto di quello delle donne (1313, euro al mese); c’è una differenza di ben 403,33 euro al mese.
Ma PERCHE’ c’è questa differenza? Oltre a salario e sesso sono state rilevate altre variabili. Prima tra esse, il numero di ore di lavoro settimanale. Ora, ci si aspetta che all’aumentare del numero di ore di lavoro aumenti la retribuzione. Per verificarlo calcoliamo la correlazione tra salario e ore di lavoro.
Correlazione tra salario e ore di lavoro con SPSS
con STATA
-gli uomini lavorano più delle donne, -si potrebbe concludere che gli uomini guadagnano più delle donne PERCHE’ lavorano di più.
Rimane però aperta una domanda: la differenza nelle ore di lavoro è sufficiente a spiegare la differenza di retribuzione tra uomini e donne?
I dati in nostro possesso consentono di seguire anche un’altra strada. Un'altra variabile rilevata sono infatti gli anni di esperienza lavorativa. In base alla teoria del capitale umano, un maggiore numero di anni di lavoro determina una maggiore produttività, quindi un maggior salario 2. Vediamo se ciò è vero nel nostro campione. Calcoliamo dunque la correlazione tra salario ed esperienza lavorativa.
Correlazione tra salario ed anni di esperienza lavorativa con SPSS
con STATA
. pwcorr Wage Exp, sig
| Wage Exp -------------+------------------ Wage | 1. | | Exp | 0.3414 1. | 0. |
La correlazione è positiva (0.341), anche se statisticamente non significativa (capiremo meglio dopo il significato di questa espressione): all’aumentare dell’esperienza lavorativa aumenta il salario.
Vediamo ora se gli uomini, in media, hanno una maggiore esperienza lavorativa delle donne. Calcoliamo dunque il numero medio di anni di esperienza lavorativa.
Numero medio di anni di esperienza lavorativa per uomini e donne
con SPSS (^2) Almeno fino ad una certa età. Quando l’età del lavoratore è piuttosto avanzata la sua produttività può scendere (minor vigore fisico, ecc). In questo nostro esempio tale effetto è trascurato. Supponiamo di avere tutti lavoratori relativamente giovani.
con STATA
. sum Exp if Sex==
Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- Exp | 6 12.33333 2.33809 10 16
. . .
. sum Exp if Sex==
Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- Exp | 9 10.77778 2.223611 8 15
In effetti gli uomini hanno in media 12,33 anni di esperienza lavorativa; le donne hanno mediamente 10,78 anni di esperienza lavorativa.
Possiamo dunque ripetere il ragionamento fatto con le ore di lavoro: -maggiore è l’esperienza lavorativa, maggiore è il salario; -gli uomini hanno un’esperienza lavorativa maggiore delle donne;
Combinando le due possibili conclusioni, possiamo dire che gli uomini lavorano più ore ed hanno una maggiore esperienza lavorativa delle donne: essi guadagnano di più delle donne PROPRIO PER QUESTI DUE MOTIVI.
Ma possiamo concludere con certezza che è così? Siamo sicuri che la spiegazione della differenza di salario tra uomini e donne è tutta in quei fattori? Siamo sicuri che, A PARITA’ di ore di lavoro e di esperienza lavorativa, un uomo guadagna quanto una donna? 3
L’analisi multivariata
Per dare forza alle nostre ipotesi o per smentirle è necessario considerare CONTEMPORANEAMENTE tutte le variabili che abbiamo preso in considerazione e che hanno (^3) In realtà, osservando nel nostro campione uomini e donne con ore di lavoro ed esperienza di
lavorativa uguale (il primo, l’undicesimo e l’ultimo dell’elenco), la differenza di salario tra uomo e donna permane. In altri casi permane la differenza di salario, a vantaggio degli uomini, anche se gli anni di esperienza lavorativa (a parità di ore di lavoro) sono a favore delle donne, ecc. E’ chiaro che “osservare i dati” è possibile solo in campioni molto piccoli.
Source | SS df MS Number of obs = 15 -------------+------------------------------ F( 3, 11) = 21. Model | 2209886.61 3 736628.869 Prob > F = 0. Residual | 384886.728 11 34989.7025 R-squared = 0. -------------+------------------------------ Adj R-squared = 0. Total | 2594773.33 14 185340.952 Root MSE = 187.
Wage | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- Sex | -121.6187 110.1064 -1.10 0.293 -363.9614 120. Hours | 39.62973 5.994867 6.61 0.000 26.43511 52. Exp | 33.90611 22.87871 1.48 0.166 -16.4496 84. _cons | -154.5986 361.4382 -0.43 0.677 -950.1187 640.
Cioè, sostituendo nella formula precedente i valori stimati, otteniamo:
Salario mensile = -154,599 -121,619 · Sesso + 39,63 · Ore di lavoro settimanali + 33,906 · Anni di esperienza lavorativa + ε
Questo risultato ci permette di calcolare la differenza media del salario mensile di uomo e donna A PARITA’ di ore di lavoro ed anni di esperienza lavorativa.
Immaginiamo di avere un uomo e una donna, entrambi con 35 ore di lavoro e 10 anni di esperienza lavorativa. Si tratta di un uomo e di una donna “medi”, in cui cioè il termine di errore (ε) è pari a 0.
Consideriamo prima l’uomo. Nella stima ottenuta sopra sostituiamo il valore delle variabili: Sesso = 0 Ore di lavoro settimanali = 35 Anni di esperienza lavorativa = 10
Avremo: Salario mensile = -154,599 -121,619 ·0 + 39,63 · 35 + 33,906 · 10 + 0 = 1571,
Consideriamo ora la donna, in tutto simile all’uomo ma diversa appunto solo per il sesso. Anche in questo caso sostituiamo nella stima ottenuta il valore delle variabili Sesso = 1 Ore di lavoro settimanali = 35 Anni di esperienza lavorativa = 10
Avremo: Salario mensile = -154,599 -121,619 ·1 + 39,63 · 35 + 33,906 · 10 + 0 = 1449,
La differenza tra il salario della donna “media” e quello dell’uomo “medio” è -121,619. Si tratta esattamente del coefficiente stimato della variabile Sesso (β (^) 1)!
Si noti che questo valore (-121,619) rimane lo stesso qualunque sia il valore assegnato ad ore di lavoro ed esperienza lavorativa. Se, cioè, come altro esempio, prendiamo un uomo “medio” (con errore pari a 0) e donna “media” (con errore pari a 0) con 32 ore di lavoro settimanali ed 8 anni di esperienza lavorativa, la differenza tra i loro salari sarà sempre -121,619 euro.
Quindi possiamo dire che, a parità di ore di lavoro settimanali e di anni di esperienza lavorativa , una donna guadagna mediamente 121,619 euro in meno di un uomo.
La differenza che avevamo trovato inizialmente tra il salario medio delle donne e quello degli uomini era di -403,33 euro. Questa è la differenza complessiva, NON a parità delle altre variabili. Quando andiamo a fare una stima ceteris paribus (cioè, appunto, a parità delle altre variabili) la differenza si riduce ma non si elimina del tutto. Avevamo formulato l’ipotesi che la differenza salariale tra uomo e donna fosse interamente spiegabile dalle differenti ore di lavoro e dalla differente esperienza lavorativa tra uomini e donne. Abbiamo trovato che, considerando queste variabili, immaginandole cioè uguali per uomini e donne, la differenza nel salario si riduce ma non si elimina del tutto. Il sesso è per sé stesso una causa di disuguaglianza salariale.
Qual è il significato dei coefficienti delle altre variabili? Il coefficiente della variabile “Ore di lavoro” (β (^) 2, stimato pari a 39,63) ci dice che, per ogni ora di lavoro settimanale in più, a parità di sesso e di esperienza lavorativa, il salario aumenta in media di 39,63 euro. Il coefficiente della variabile “Esperienza lavorativa” (β (^) 3, stimato pari a 33,906) ci dice che per ogni anno di esperienza lavorativa in più, a parità di sesso e di ore di lavoro settimanali, il salario mensile aumenta in media di 33,906 euro.
Dimostriamo la prima affermazione con un esempio. Immaginiamo due persone (A e B) dello stesso sesso (ad es. due donne) e con la stessa esperienza lavorativa (ad es. 12 anni); la persona A lavora 30 ore a settimana, la persona B lavora 31 ore a settimana. Si tratta come sempre di due individui “medi”, cioè con termine di errore pari a 0
Il valore delle variabili per la persona A sarà dunque: Sesso = 1 Ore di lavoro settimanali = 30 Anni di esperienza lavorativa = 12
Avremo: Salario mensile = -154,599 -121,619 ·1 + 39,63 · 30 + 33,906 · 12 + 0 = 1319,
Il valore delle variabili per la persona B sarà invece: Sesso = 1 Ore di lavoro settimanali = 31 Anni di esperienza lavorativa = 12
Da cui: Salario mensile = -154,599 -121,619 ·1 + 39,63 · 31 + 33,906 · 12 + 0 = 1359,
La differenza è esattamente 39,63 euro. Si noti, anche in questo caso, che questo valore rimane lo stesso qualunque sia il valore assegnato alla variabile sesso ed all’esperienza lavorativa. Se, cioè, prendiamo due uomini “medi” (con errore pari a 0), entrambi con 9 anni di esperienza lavorativa, ma uno con 32 ore di lavoro settimanali, l’altro con 33 ore, quest’ultima guadagnerà al mese 39,63 euro più della prima. Naturalmente se confrontiamo due persone che differiscono per un numero diverso di ore di lavoro, il coefficiente andrà moltiplicato per questa differenza. Se cioè confrontiamo due uomini “medi”, con la stessa esperienza lavorativa, ma uno che lavora 30 ore a settimana, l’altro 34, la differenza di salario sarà pari a 39,63 · 4 = 158,52 euro.
Quanto più alto è il p-value, tanto maggiore è la probabilità che il coefficiente nella popolazione sia pari a zero, quindi tanto minore è la significatività statistica del coefficiente (e viceversa: quanto più basso è il p-value, tanto minore è la probabilità che il coefficiente nella popolazione sia pari a zero, quindi tanto maggiore è la significatività statistica del coefficiente) 6.
Nella tabella con i risultati della regressione, il p-value si trova nell’ultima colonna. Il p-value del coefficiente β 1 della variabile Sesso è 0,293. Cioè, approssimativamente, possiamo dire che c’è un 29,3% di probabilità che NELLA POPOLAZIONE questo coefficiente sia pari a zero. Può sembrare che si tratti di una probabilità abbastanza bassa (in fondo c’è il 70,7% di probabilità che il coefficiente sia diverso da zero!), ma gli studiosi sono sul punto assai rigorosi. In genere si pretende che il p-value sia inferiore a 0,05 (al 5%) perché il coefficiente sia considerato significativo. Se il p-value è superiore a 0,05 il coefficiente è considerato non significativo, cioè non si ritiene possibile estendere il risultato trovato nel campione all’intera popolazione di riferimento.
Nel nostro caso, a livello campionario, abbiamo trovato che gli uomini guadagnano più delle donne ceteris paribus (a parità delle altre condizioni), ma non è possibile estendere questo risultato all’intera popolazione. Non si può cioè escludere, con un grado ragionevole di probabilità, che, nella popolazione, a parità delle altre condizioni, il sesso non abbia alcun effetto sul reddito.
Guardando il p-value degli altri coefficienti, possiamo dire che il p-value della variabile ore di lavoro è inferiore a 0,05, quindi possiamo dire che tale coefficiente è statisticamente significativo, cioè l’effetto delle ore di lavoro sul salario è quasi certamente presente anche nella popolazione (la probabilità che nella popolazione il coefficiente sia pari a zero è inferiore al 5%). Il p-value della variabile anni di esperienza lavorativa è invece pari a 0,166, superiore dunque a 0,05; quindi possiamo dire che tale coefficiente non è statisticamente significativo (c’è una probabilità del 16,6% che tale coefficiente, nella popolazione, sia pari a zero, cioè che l’esperienza lavorativa non abbia effetti sul salario).
Si noti che la significatività statistica può essere calcolata anche per altre stime, diverse dal coefficiente di regressione. Ad esempio, il valore del p-value è riportato anche nelle tabelle di correlazione viste in precedenza. Nella correlazione tra salario ed esperienza lavorativa il p-value è 0,213. Ciò vuol dire che tale coefficiente di regressione non è statisticamente significativo. Cioè c’è un 21,3% di probabilità che, nella popolazione, il coefficiente di correlazione tra salario ed esperienza lavorativa sia pari a zero, cioè che non esista relazione tra queste due variabili.
Un altro test di significatività molto importante nella regressione lineare è il test F. Esso ci dice la probabilità che nella popolazione tutti i coefficienti siano contemporaneamente uguali a zero. Ovviamente auspichiamo un valore molto basso della probabilità legata a questo test F (è solitamente indicata come Prob>F: è il corrispettivo del p-value per il test t relativo ai singoli coefficienti): se così non fosse, se la probabilità connessa a questo test fosse alta, vorrebbe dire che ci sono molte probabilità che la nostra indagine sia completamente sbagliata, cioè che tutte le relazioni da noi ipotizzate siano effettivamente inesistenti nella realtà. Anche in questo caso la soglia convenzionale è 0,05: se Prob >F assume un valore superiore a 0,05 la nostra analisi è nel complesso da rigettare.
(^6) Il p-value deriva dalla statistica t di Student. Il p-value di un coefficiente aumenta (la significatività diminuisce) quanto più il coefficiente stimato è vicino a zero, e quanto più alta è la sua varianza (qui la misura della variabilità è data dallo standard error). Il p-value è influenzato anche dal numero di osservazioni, nel senso che più è alto il numero di osservazioni più è basso il p-value (la significativià aumenta)
Infine, una statistica molto importante nella regressione lineare è l’R-quadro (R-squared). Esso ci dice quanta parte della variabilità del fenomeno in osservazione (cioè della variabile dipendente: nel nostro caso il salario) siamo riusciti a spiegare con le variabili indipendenti da noi utilizzate. Ci auguriamo che questo valore sia il più alto possibile, perché ciò significa che stiamo utilizzando variabili con forte potere esplicativo. Ora, ogni nuova variabile inserita nel modello fa aumentare, di poco o di molto, l’R-quadro. Noi, però, oltre ad un modello esplicativo, cerchiamo anche un modello “semplice”. Dunque, come valutare l’inserimento nel modello di una variabile non significativa, che aumenta di pochissimo l’R-quadro? E’ opportuno tenerla nel modello o no? Tenendola, il potere esplicativo aumenta di pochissimo ma il modello si “appesantisce”. Per trovare una risposta a questa domanda è più utile guardare l’R-quadro corretto (adusted R- square): questa statistica aumenta solo se si introduce una variabile che ha un “buon” potere esplicativo, cioè una variabile il cui contributo positivo, dato dall’aumento delle capacità esplicative del modello, è superiore al contributo negativo dato dall’aumento del numero delle variabili. Dunque, dato un modello con n variabili, inseriremo la variabile n+1 se questa fa aumentare l’R- quadro corretto. L’R-quadro corretto varia da 0 a 1. Non esistono dei valori soglia per l’R-quadro corretto: ci auguriamo che non sia “troppo basso” rispetto a problemi simili studiati in precedenza (se in altre analisi sulle determinanti dei salari si raggiunge un R-quadro corretto attorno a 0.30 e noi siamo sullo 0.10 possiamo considerare il nostro modello un po’ “debole”); ma soprattutto, come detto, l’osservazione delle variazioni dell’R-quadro corretto è utile per decidere se aggiungere o no una variabile,.
Le variabili omesse
Oltre a sesso, ore di lavoro ed esperienza lavorativa, vi sono molte altre variabili in grado di influenzare il salario (ad es. l’istruzione, la tipologia di lavoro, il settore,ecc.), non presenti nella nostra analisi. L’obiettivo della nostra ricerca è verificare se il sesso ha di per sé un effetto sul salario. Dire di per sé s ignifica dire a parità di tutte le altre condizioni. Quando, analizzando il risultato della regressione, diciamo che una donna guadagna 121,619 euro in meno di un uomo, in realtà questo vale a parità di ore di lavoro e anni di esperienza lavorativa, ma non sappiamo se questo è vero anche a parità di tutte le altre condizioni (istruzione, tipologia di lavoro, settore lavorativo, ecc.)
Se noi disponessimo di altre variabili, oltre a quelle rilevate, il loro inserimento nella regressione porterebbe ad un cambiamento nel coefficiente della variabile sesso. Dunque se il nostro obiettivo è valutare l’effetto del sesso di per sé , cioè a parità di tutte le altre condizioni , il non aver considerato alcune variabili può portarci a conclusioni errate, a risultati distorti.
Questo però è vero solo se, oltre a quelle considerate e incluse nella regressione, esistono delle variabili, che non stiamo considerando, che sono RILEVANTI. Una variabile è rilevante se è correlata con la variabile dipendente e con almeno una delle variabili indipendenti già inserite nell’analisi (nel nostro caso: il sesso, le ore di lavoro e l’esperienza lavorativa). Se non abbiamo incluso nell’analisi (per dimenticanza o impossibilità) una variabile rilevante (nel senso ora detto) allora il coefficiente che stiamo stimando per la variabile di nostro interesse non è “corretto”, cioè esso non ci dice l’effetto della variabile di nostro interesse sulla variabile dipendente a parità di tutte le altre condizioni. Ma se la variabile (o le variabili) non incluse nell’analisi non sono rilevanti, allora la nostra stima è corretta.
Centro Sud Nord Sud
Questa variabile qualitativa, per poter essere analizzata, va trasformata in variabile numerica. Possiamo dunque porre: nord=1; centro=2; sud= Otterremo così una variabile che sarà la trasformazione numerica della variabile originaria: chiamiamo “Macroarea_num” questa variabile.
Macroarea Macroarea_num Nord 1 Centro 2 Centro 2 Sud 3 Nord 1 Sud 3
Questa variabile, anche se numerica, non può essere inserita così nell’analisi. Qui i numeri non indicano un aumento o una diminuzione, soprattutto non c’è una “direzione” univoca, espressa dall’aumento dei numeri
Bisogna creare 3 variabili categoriche binarie. Possiamo così creare le variabili “Nord”, “Centro” e “Sud”. -la variabile “Nord” assume valore 1 quando la macroarea è Nord e valore 0 quando la macroarea è diversa da nord (quindi centro o sud); -la variabile “Centro” assume valore 1 quando la macroarea è Centro e valore 0 quando la macroarea è diversa da Centro (quindi nord o sud); -la variabile “Sud” assume valore 1 quando la macroarea è Sud e valore 0 quando la macroarea è diversa da Sud (quindi nord o centro);
Detto in termini numerici, si ha: -la variabile “Nord” assume valore 1 quando la variabile “Macroarea_num” assume valore 1 e valore 0 quando la variabile “Macroarea_num”assume valori diversi da 1 (quindi 2 o 3); -la variabile “Centro” assume valore 1 quando la variabile “Macroarea_num” assume valore 2 e valore 0 quando la variabile “Macroarea_num”assume valori diversi da 2 (quindi 1 o 3); -la variabile “Sud” assume valore 1 quando la variabile “Macroarea_num” assume valore 3 e valore 0 quando la variabile “Macroarea_num”assume valori diversi da 2 (quindi 1 o 2);
Avremo dunque:
Macroarea Macroarea_num Nord Centro Sud Nord 1 1 0 0 Centro 2 0 1 0 Centro 2 0 1 0 Sud 3 0 0 1 Nord 1 1 0 0 Sud 3 0 0 1
Nell’analisi multivariata vanno inserire due delle tre variabili binarie, a scelta: potremo dunque inserire Nord e Centro; oppure Nord e Sud; oppure Centro e Sud. I coefficienti di queste variabili esprimeranno un confronto con la variabile esclusa: supponiamo che la variabile dipendente sia il salario (e dunque effettuiamo una regressione lineare) e che tra le variabili dipendenti inseriamo Nord e Centro; ebbene il coefficiente della variabile Nord ci darà la differenza tra il salario medio del Nord e il salario medio del Sud (la categoria “esclusa”). il coefficiente della variabile Centro ci darà la differenza tra il salario medio del Centro. e il salario medio del Sud (la categoria “esclusa”). Se invece inseriamo le variabili Nord e Sud, il coefficiente della variabile Nord ci dirà la differenza tra il salario medio del Nord e il salario medio del Centro (la variabile “esclusa”); il coefficiente della variabile Sud ci dirà la differenza tra il salario medio del Sud e il salario medio del Centro (la variabile “esclusa”). Si noti che qualunque sia la variabile esclusa, tutto il resto dei risultati non cambiano: coefficienti e significatività delle altre variabili, test statistici complessivi, ecc.
Supponiamo dunque di inserire la variabile geografica nel nostro modello che cerca le determinanti del salario. Avendo le tre categorie Nord, Centro e Sud, e dunque avendo creato le tre variabili dicotomiche corrispondenti, dobbiamo escludere dal modello una delle tre variabili e siamo liberi nella scelta di quale variabile escludere. Escludiamo la variabile Sud; che diventerà dunque il termine di confronto di quelle inserite.
Andiamo dunque a stimare il modello:
Salario mensile = α + β 1 · Sesso + β 2 · Ore di lavoro settimanali + β 3 · Anni di esperienza lavorativa + β 4 · Nord + β 5 · Centro + ε
Otteniamo i seguenti risultati: reg Wage Sex Hours Exp Nord Centro
Wage | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- Sex | -69.76931 132.5088 -0.53 0.611 -369.525 229. Hours | 37.72131 5.26906 7.16 0.000 25.80187 49. Exp | 28.27443 21.8829 1.29 0.229 -21.22813 77. Nord | 262.0122 113.8831 2.30 0.047 4.390739 519. Centro | 133.0669 123.6994 1.08 0.310 -146.7606 412. _cons | -189.8407 338.0201 -0.56 0.588 -954.4952 574.
Abbiamo cioè:
Salario mensile = -189,841 – 69,769 · Sesso + 37,721 · Ore di lavoro settimanali + 28,274 · Anni di esperienza lavorativa + 262,012 · Nord + 133.067 · Centro + ε
Consideriamo tre individui: uno lavora al nord, uno al centro, uno al sud. I tre individui sono uguali rispetto a tutte le altre caratteristiche considerate, ad es: Sesso = 0 (uomini) Ore di lavoro = 36 Esperienza lavorativa = 5 anni Termine di errore (ε) = 0
Per il lavoratore del nord, la variabile Nord assumerà valore 1, la variabile Centro assumerà valore
Salario mensile = -189,841 – 69,769 · 0 + 37,721 · 36 + 28,274 · 5 + 262,012 · 1 + 133.067 · 0+ 0 = 1571,
Il coefficiente della variabile Nord ci dice che, a parità di sesso, ore di lavoro, esperienza lavorativa, un lavoratore del Nord guadagna 128,945 euro in più rispetto ad un lavoratore del Centro (la categoria “esclusa”).; il coefficiente della variabile Sud ci dice che, a parità di sesso, ore di lavoro, esperienza lavorativa, un lavoratore del Sud guadagna 133,067 euro in meno rispetto ad un lavoratore del Centro (la categoria “esclusa”). Si noti che, rispetto alla stima di prima, non sono cambiati per nulla coefficienti e significatività della altre variabili (sesso, ore di lavoro, esperienza lavorativa, costante).
Infine, se escludessimo il Nord, avremmo:
Wage | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- Sex | -69.76931 132.5088 -0.53 0.611 -369.525 229. Hours | 37.72131 5.26906 7.16 0.000 25.80187 49. Exp | 28.27443 21.8829 1.29 0.229 -21.22813 77. Centro | -128.9452 146.6297 -0.88 0.402 -460.6447 202. Sud | -262.0122 113.8831 -2.30 0.047 -519.6336 -4. _cons | 72.1714 342.7184 0.21 0.838 -703.1115 847.
Il coefficiente della variabile Centro ci dice che, a parità di sesso, ore di lavoro, esperienza lavorativa, un lavoratore del Centro guadagna 128,945 euro in meno rispetto ad un lavoratore del Nord (la categoria “esclusa”).; (questo lo avevamo già visto qui sopra, confrontando il Nord con il Centro!) il coefficiente della variabile Sud ci dice che, a parità di sesso, ore di lavoro, esperienza lavorativa, un lavoratore del Sud guadagna 262,012 euro in meno rispetto ad un lavoratore del Nord (la categoria “esclusa”): questo lo avevamo già visto prima, escludendo la variabile “Sud”. Dunque,qualunque sia la variabile esclusa, le stime sono tra loro coerenti. Anche qui si noti che non sono cambiati per nulla coefficienti e significatività della altre variabili (sesso, ore di lavoro, esperienza lavorativa, costante).: l’esclusione di una o l’altra categoria non modifica l’’impianto complessivo dell’analisi.
Si osservi che per la variabile sesso di fatto abbiamo già proceduto così! La variabile sesso è una variabile qualitativa non ordinata, che assume le modalità uomo/donna. Alla modalità uomo si può dare valore 0 e alla modalità donna si può dare valore 1 (nell’esempio di sopra, sulla macroarea, abbiamo assegnato i valori a partire da 1, cioè 1-2-3: ma, dal punto di vista dell’analisi numerica dei risultati, va bene cominciare da qualunque numero!). Se chiamiamo Sex la variabile numerica corrispondente alla variabile qualitativa, abbiamo
Sesso Sex Maschio 0 Femmina 1 Femmina 1 Maschio 0 Femmina 1 Maschio 0
Da qui dovremmo creare le 2 variabili binarie, Uomo e Donna: la variabile Uomo assumerà valore 1 quando il soggetto è uomo, valore 0 quando il soggetto non è uomo (cioè è donna); la variabile Donna assumerà valore 1 se il soggetto è donna, valore 0 se il soggetto non è donna (cioè è uomo)-
Sesso Sex Uomo Donna Maschio 0 1 0 Femmina 1 0 1 Femmina 1 0 1 Maschio 0 1 0 Femmina 1 0 1 Maschio 0 1 0
Delle 2 variabili binarie così ottenute , se ne inserisce una sola nell’analisi. Se inseriamo la variabile Donna, il coefficiente di questa variabile ci dice la differenza tra il salario medio di una donna e quello di un uomo, a parità di tutte le altre variabili. Un coefficiente di -69,769 per la variabile Donna vuol dire che la donna guadagna mediamente 69,769 euro in meno di un uomo, a parità della altre variabili inserite nell’analisi.
Si noti però dalla tabella precedente che la variabile Donna è identica alla variabile Sex. Ecco perché di fatto, se le variabili sono binarie, tutti questi passaggi (creazione delle due variabili binarie, inserimento di una delle due nell’analisi) sono inutili: basta inserire direttamente nell’analisi la variabile binaria stessa, ovviamente trasformata in numerica. Questa poi va “letta” come se stessimo inserendo la categoria a cui abbiamo assegnato il numero più alto (in questo caso Donna, a cui abbiamo assegnato il valore 1), confrontata con la categoria a cui abbiamo assegnato il numero più basso (Uomo a cui abbiamo assegato il valore 0).
Ancora un esempio: se avessimo il comparto lavorativo, pubblico o privato, espressa dalla variabile “Comparto”; possiamo inserire direttamente nell’analisi questa variabile, resa numerica.
Comparto Comparto_num Pubblico 1 Privato 2 Pubblico 1 Pubblico 1 Privato 2 Privato 2
Per la lettura dei risultati possiamo pensare così: se diamo valore 1 al pubblico e 2 al privato (oppure 0 al pubblico e 1 al privato: è lo stesso!) inserire nell’analisi la variabile Comparto_num è come inserire nell’analisi la variabile “Privato” (la modalità a cui abbiamo assegnato il valore più alto!): i suoi coefficienti di questa variabile come un confronto tra il settore privato e il settore “escluso” dall’analisi (quello pubblico). Se, sempre nella regressione avente il salario come variabile dipendente, la variabile “Comparto_num” assumesse valore -50,327, questo vorrebbe dire che, a parità di tutte le altre condizoni, nel privato si guadagnano 50,327 euro in meno rispetto al settore pubblico.
Si noti bene che questo modo di procedere con le variabili categoriche non ordinate, quale è la macroarea geografica, (il Nord è qualcosa di “diverso” dal Sud, non di più o di meno) è identico a quello da utilizzare con le variabili categoriche ordinate, che sembrerebbero più affini a quelle continue. Ad esempio la variabile che esprime il grado di soddisfazione per un servizio, che assuma le quattro modalità (qualitative): molto soddisfatto, abbastanza soddisfatto, poco soddisfatto, per nulla soddisfatto, va trasformata in variabile numerica, che va da 1 a 4 (o da 0 a 3, o da 2 a 5, o da 100 a
soddisfatto” a “abbastanza soddisfatto” risulterà essere diverso dall’effetto sul salario del passaggio da “abbastanza soddisfatto” a “molto soddisfatto”.
Solo ad una primissima approssimazione, in sede di analisi preliminare le variabili categoriche ordinate possono essere inserite “così come sono”, cioè trasformate in numeriche, ma senza che siano state create le variabili binarie corrispondenti. Questo può servire a darci un’idea approssimativa dell’esistenza o meno di un nesso e della direzione del nesso stesso tra la variabile indipendente e la dipendente (se la soddisfazione lavorativa aumenta il salario aumenta o diminuisce?). Ma poi, quando si passa all’analisi definitiva, l’operazione di creazione delle variabili binarie e dell’inserimento di n- tra esse, è un’operazione necessaria e imprescindibile.
Naturalmente, se si hanno variabili categoriche non ordinate, neanche questa prima approssimazione ha un senso: se inseriamo direttamente una variabile categorica non ordinata nell’analisi, sia pure codificata con dei numeri, il suo coefficiente non è interpretabile, neanche come indicazione di una direzione. Questo perché, in questo caso, i numeri sono pure etichette, non indicano in alcun modo un “aumento” o una “diminuzione” di qualcosa. Se alle 20 regioni italiane diamo dei numeri progressivi dipendenti dall’ordine alfabetico o dalla sequenza geografica (dal nord al sud), cosa significa un “aumento” di tali numeri? L’aumento numerico non esprime nessun ordinamento, non indica nessun aumento reale; pertanto la variabile dipendente potrebbe prima aumentare poi diminuire all’aumentare del “numero” della variabile indipendente. In questo caso il ricorso alla trasformazione in variabili dicotomiche è necessario da subito, anche in sede di analisi preliminare. L’unico confronto che ha senso è un confronto “a due a due”, possibile attraverso l’introduzione di variabili dicotomiche.
Natura delle variabili e tecniche statistiche adeguate
Per condurre un’analisi statistica multivariata corretta è necessario considerare attentamente la natura delle variabili, in modo da utilizzare la tecnica corretta per analizzarle.
Distinguiamo innanzitutto tra variabili quantitative e qualitative. Le variabili quantitative sono per loro natura espresse da numeri: altezza, peso, età, ore di lavoro, anni di esperienza lavorativa, ecc. Un’utile distinzione, all’interno delle variabili quantitative, può essere fatta tra variabili continue e discrete.. Una variabile quantitativa continua è una variabile che può assumere “tutti i valori numerici”, anche decimali (o tutti i valori positivi e negativi, o tutti i valori positivi): ad esempio la temperatura, l’altezza, il peso, ecc.: possiamo avere 21,4; 37,3 gradi centigradi, 167,4; 12,67; 145,351 centimetri, ecc. 81,4; 12,746 chilogrammi, ecc; Vi sono poi variabili numeriche che possono assumere solo valori interi (non decimali):. Si parla in questo caso di variabili quantitative discrete; ad es. l’anno di nascita (1971, 1994, 2006, ecc.), il numero di cittadini di una nazione, il numero di stelle in una galassia. Molte volte, la distinzione tra variabile continua e discreta dipende da come viene effettuata la rilevazione:in molti casi le frazioni decimali non sono rilevate: ad.es. l’altezza può essere misurata in teoria in estremo dettaglio, con tantissime cifre decimali (una persona può essere alta 178, 356845 cm.), ma in pratica spesso si considerano solo i centimetri (178 cm.); così per l’età di una persona possono teoricamente essere misurati anche i minuti, almeno i giorni trascorsi dalla nascita, quindi,. posta l’unità di misura in anni, si potrebbe dire che una persona ha 23,342 anni; in pratica si chiedono solitamente solo gli anni (23 anni) e quindi si ha di fatto una variabile discreta. Quando le variabili numeriche sono sì discrete ma i valori osservati sono molti possiamo parlare di variabili quasi continue. Ad esempio, se stiamo osservando l’età e l’altezza di una popolazione, i valori andranno tra 0 e poco più di 100, saranno dunque possibili un centinaio di valori. Se invece, per una variabile numerica discreta, i valori concretamente osservati sono molto pochi siamo di fronte ad un’altra tipologia di variabile numerica: la cosiddetta “count variable”:ad es.: il numero di figli (si tratta ovviamente di numeri interi e solo per pochissime donne supererà le poche
unità), il numero di televisori presenti in casa (in un campione di popolazione realisticamente questo numero sarà 0, 1, 2, 3, 4, 5, raramente supererà questi valori) 7.
Vi sono poi le variabili qualitative, quelle che, per loro natura, non sono espresse da numeri. E’ importante, alo loro interno, distinguere tra variabili qualitative ordinate e non ordinate. Le variabili qualitative ordinate hanno intrinseca un’idea di “più e meno”. Ad esempio si chiede il titolo di studio degli intervistati, chiedendo di indicare uno tra i seguenti: licenza di scuola media, diploma di scuola media superiore, laurea, titolo post-laurea: non si tratta di numeri, ma c’è comunque un ordine: una laurea è un titolo superiore rispetto alla licenza di scuola media; un titolo post-laurea è superiore rispetto ad un diploma di scuola media superiore; c’è un ordine, ed è esattamante quello in cui abbiamo elencato i titoli, dal più basso (licenza di scuola media) al più alto (titolo post-laurea). Alle diverse categorie (cioè i diversi titoli di studio) può essere abbinato un numero; anzi, se vogliamo utilizzare questa variabile in un’analisi statistica alle categorie deve essere abbinato un numero (i programmi statistici non leggono variabili qualitative) e la cosa più sensata è attribuire questi numeri secondo l’ordine “logico” che abbiamo visto sopra; cioè avremo: 1= licenza di scuola media; 2=diploma di scuola media superiore; 3=laurea, 4=titolo post-laurea. Però, attenzione! A questo punto questa variabile ci sembra una variabile numerica: così come, parlando di lunghezza di un tavolo, un tavolo lungo 40 cm. è più lungo di un tavolo lungo 20cm., allo stesso modo chi ha il titolo 4 (titolo post laurea) ha un’istruzione superiore a chi ha un titolo 2 (diploma di scuola media superiore). Ma c’è una differenza fondamentale: un tavolo lungo 40 cm. ha una lunghezza doppia rispetto ad un tavolo di 20 cm., mentre non ha alcun senso dire che chi possiede un titolo post laurea ha un’istruzione doppia rispetto a chi ha un diploma di scuola media. Con le variabili numeriche possiamo dire chi/cosa ha/è “di più” e chi/cosa ha/è “di meno” (chi/cosa è più alto, più pesante, più anziano, ha più televisori, ha un salario più alto ecc.), e possiamo dire anche di quanto ha/è “di più, di meno (il tavolo di 40 cm. è 20 cm. più lungo, è il doppio di un tavolo di 20 cm.; chi guadagna 1500 euro al mese guadagna 500 euro in più, una volta e mezzo ciò che guadagna chi ha uno stipendio di 1000 euro; chi ha 3 televisori ne ha il triplo di chi ne ha una).Con le variabili qualitative ordinate possiamo esprimere un ordinamento (dire chi/cosa ha/è di più e di meno) ma non possiamo esprimere le distanze, dire di quanto ha di più o di meno. Molte volte nei sondaggi si chiede di esprimere un grado di apprezzamento, di soddisfazione per qualcosa. Ad es.: quanto sei soddisfatto del servizio fornito da questo ufficio? E si propongono delle risposte: Moltissimo-Molto-Poco-Per niente. Queste risposte verranno tradotte in numeri per un’analisi statistica: 1= Per niente; 2=Poco; 3=Molto; 4=Moltissimo. Ebbene, questa NON E’ una variabile. quantitativa: è una variabile qualitativa ordinata; infatti siamo in grado di stabilire chi è più soddisfatto e chi lo è di meno, siamo in grado di ordinare le persone secondo il loro grado di soddisfazione (dalle più soddisfatte alle meno soddisfatte, passando per i gradi intermedi), ma non siamo in grado di stabilire le “distanze” nella soddisfazione delle persone: non possiamo dire che chi è “moltissimo” soddisfatto è soddisfatto il doppio, il triplo, una volta e mezza, 0,45 volte chi è soddisfatto “poco”.
Abbiamo infine le variabili qualitative non ordinate. Qui non è possibile nessun ordinamento tra le risposte, non c’è nessun’ idea intrinseca di “più” e “meno”. Supponete che si chieda agli intervistati qual è la loro stagione preferita; le risposte possibili ovviamente sono 4: primavera, estate, autunno, inverno; ebbene non c’è nessun ordinamento quantitativo tra le quattro stagioni: la primavera non è “di più” o “di meno” dell’estate, “di più” o “di meno” dell’inverno: sono categorie di per sé distinte. Potremo dire che l’estate è più calda dell’inverno, ma è il calore che possiamo ordinare, non le stagioni. Così,se ci viene chiesta: la marca della nostra automobile, il colore preferito, l’attore (^7) Notiamo bene che quando diciamo “molti valori osservati” o “pochi valori osservati”, facciamo riferimento non al numero di soggetti osservati, ma a quanti valori (le modalità) assume la variabile. Se a migliaia di donne (quindi molti soggetti osservati) si chiede quanti figli hanno, il numero di valori osservati sarà limitato (da 0 a non più di 9-10), cioè questa variabile può assumere pochi valori: si tratta di una count variable.