











































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Dispensa utile per la preparazioni di esami di statistica. In particolare, la prima parte riguarda i metodi di campionamento, mentre la seconda riguarda il modello di regressione lineare multipla e gli indici di produttività.
Tipologia: Dispense
1 / 83
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!












































































2.2. Fonti interne: sistemi informativi aziendali e la loro informatizzazione.
Le fonti di dati interne all’azienda contribuiscono in misura rilevante a costruire
l’informazione su cui si basano le scelte manageriali. Le aziende, infatti, generano una
moltitudine di dati nell’esercizio delle proprie funzioni. In questo libro ci soffermiamo
sugli aspetti organizzativi dell’informazione all’interno di un’azienda, di cui il Sistema
Informativo Aziendale (SIA) rappresenta la realizzazione compiuta.
Oggi SIA indica generalmente il sistema che fornisce le informazioni necessarie per
governare un’azienda in modo efficiente ed efficace. Tale sistema si avvale di tre
risorse principali: le informazioni presenti in azienda, le modalità di gestione delle
stesse e le risorse (umane e tecnologiche) coinvolte.
Un primo passo verso l’informatizzazione del SIA avviene quando i dati elementari
sono salvati e organizzati in modo sistematico in archivi tematici come gli archivi
vendite, l’anagrafe dei clienti e dei fornitori o l’archivio ordini. Successivamente tali
archivi possono essere collegati, secondo un determinato modello logico (modello
relazionale è il più utilizzato), in un unico database in modo da consentire la gestione
dei dati da parte di particolari software. Il database aziendale, dunque, non è altro
che un insieme strutturato di dati collegati da relazioni. L’evoluzione del database è il
cosiddetto data warehouse, letteralmente “magazzino” in cui confluiscono dati di
origine diversa, con l’obiettivo specifico di produrre informazioni orientate ai bisogni
dell’utente. Rispetto al database aziendale, un data warehouse:
a) Integra i dati provenienti dagli archivi aziendali con dati provenienti da fonti
esterne;
b) Fornisce informazioni “su misura” per l’utente;
c) Immagazzina i dati in serie storica;
d) Consente l’accesso ai dati in sola lettura, preservandone l’integrità.
Il data warehouse, dunque, sfruttando e integrando dati e informazioni già disponibili
sia all’interno che all’esterno dell’azienda, rappresenta l’infrastruttura informatica di
base di supporto alle decisioni.
2.3. Fonti esterne. Statistica ufficiale e statistica privata.
Le fonti di dati esterne all’azienda sono costituite dall’insieme delle statistiche
prodotte da soggetti sia pubblici che privati che operano nel sistema. In questo libro
concentriamo l’attenzione sui seguenti argomenti: la contabilità macroeconomica, le
caratteristiche strutturali del sistema produttivo, i risultati economici delle imprese, il
comportamento del consumatore.
L’attività di un’impresa risente inevitabilmente del contesto macroeconomico in cui
essa opera, per questo tra le fonti di dati di interesse per le imprese riteniamo utile
inserire i conti nazionali, che forniscono appunto una rappresentazione quantitativa
dell’attività economica complessiva di un Paese, in un determinato periodo di tempo.
I conti nazionali organizzano i flussi monetari in schemi contabili strutturati secondo il
metodo della partita doppia, con flussi in entrata, in uscita e saldi contabili.
Ciascun conto ha l’obiettivo di registrare i flussi monetari che caratterizzano uno
specifico momento del processo economico, ciascuno riconducibile a una delle
seguenti quattro fasi fondamentali:
1 Fase di produzione;
2 Fase di distribuzione e re-distribuzione del reddito;
3 Fase del consumo;
4 Fase di accumulazione.
I conti nazionali presentano la stima degli aggregati macroeconomici più importanti
del sistema, come il valore della produzione, del reddito, della spesa per consumo,
degli investimenti, del risparmio, fino all’indebitamento/accreditamento del Paese nei
confronti del resto del mondo. L’aggregato cardine dell’intero sistema è il Prodotto
Interno Lordo (PIL).
Presentiamo adesso il Conto delle risorse e degli impieghi, non solo per fornire un
esempio concreto di conto nazionale, ma anche perché questo conto in particolare
fornisce una visione d’insieme sulla situazione economica del Paese. Il Conto delle
risorse e degli impieghi descrive le operazioni di scambio che avvengono nel mercato
dei beni e servizi finali, escludendo cioè quelli destinati a consumo intermedio. Si tratta
in pratica di un bilancio tra gli elementi dell’offerta totale costituiti dal PIL e dalle
Importazioni, e gli elementi della domanda finale, formati dal valore dei Consumi, degli
Investimenti e delle Esportazioni.
Gli aggregati del Conto delle risorse e degli impieghi sono ulteriormente disaggregati
secondo criteri che dipendono dalla natura dell’aggregato considerato. Per esempio,
la produzione è suddivisa secondo branche di attività economica.
A fianco dei Conti per branca di attività economica, la Contabilità nazionale compila i
Conti per settore istituzionale, che hanno l’obiettivo di analizzare il comportamento
economico di gruppi di operatori omogenei detti Settori istituzionali. In particolare, la
Contabilità nazionale distingue cinque settori: Società non finanziarie, Società
finanziarie, Amministrazioni pubbliche, famiglie e Istituzioni senza scopo di lucro al
servizio delle famiglie.
Una prima caratteristica strutturale riguarda il tipo di attività economica svolta
dall’azienda e codificata con la già citata classificazione Ateco. Tale caratteristica
definisce il profilo settoriale dell’impresa; una seconda caratteristica fa riferimento al
profilo dimensionale dell’impresa; infine, un’ulteriore caratteristica strutturale è data
dal profilo territoriale dell’impresa. La fonte che descrive in modo esaustivo e
completo le caratteristiche strutturali del sistema produttivo italiano è il Censimento
dell’Industria e dei Servizi (CIS).
Nel CIS, le imprese sono analizzate non solo per settore di attività economica, ma
anche per classe dimensionale, forma giuridica e altri caratteri, come il fatto di essere
o meno un’impresa artigiana o di essere costituita da una o più unità locali.
Informazioni così dettagliate consentono all’impresa di collocare la propria attività in
un determinato contesto territoriale, settoriale e dimensionale. Purtroppo, la scarsa
tempestività dei dati, dovuta sia alla cadenza decennale che ai lunghi tempi di
elaborazione dei dati, ne limitano molto l’utilità.
Per molti anni non è esistita alcuna fonte in grado di tener conto dei mutamenti
strutturali del sistema produttivo intervenuti tra un censimento e il successivo. Solo
nel 1997, con il Censimento intermedio dell’industria, furono gettate le basi per la
costruzione di un Archivio delle imprese attive, finalizzato a seguire l’evoluzione
intercensuaria della struttura del sistema produttivo.
Attualmente, l’ISTAT produce e pubblica tavole di sintesi tratte, soprattutto dall’ASIA,
l’archivi delle imprese attive. Tale archivio è aggiornato sulla base di una pluralità di
archivi amministrativi gestiti dalle Camere di commercio, dall’Agenzia delle entrate,
da enti previdenziali come INPS e da altri enti pubblici.
I risultati economici delle imprese sono rilevati da una pluralità di fonti che possono
essere raggruppate nelle seguenti categorie:
a) Il sistema di indagini sui risultati economici delle imprese condotte dall’ISTAT;
b) Le banche dati sui bilanci aziendali.
Le indagini ISTAT.
Il nucleo fondamentale è costituito da due indagini integrate, entrambe dirette a
rilevare informazioni sui risultati economici delle imprese dell’Industria e dei Servizi.
La prima, campionaria, è diretta alle imprese di piccole e media dimensioni, ovvero
con un numero di addetto compreso tra 1 e 99 (indagine PMI). La seconda, è
un’indagine totale per le imprese con almeno 100 addetti (indagine SCI). Entrambe le
fonti rilevano informazioni dettagliate sulle voci di conto economico, sull’occupazione,
sul costo del personale, sugli investimenti. Per le grandi imprese sono inoltre fornite
informazioni tratte dallo stato patrimoniale.
Sulla base di tali informazioni è possibile comparare il risultato economico della
propria impresa rispetto a quello medio delle imprese appartenenti allo stesso settore
di attività economica, alla stessa classe dimensionale, allo stesso contesto territoriale.
Il limite principale di queste statistiche è la scarsa tempestività con cui esse vengono
rilasciate. Inoltre, la cadenza annuale delle indagini consente l’analisi di dinamiche di
medio-lungo periodo ma non di cogliere i movimenti infra-annuali.
L’evoluzione di breve periodo è misurata tramite i cosiddetti indicatori congiunturali,
ovvero serie trimestrali e mensili di fenomeni riguardanti vari ambiti di interesse per
l’impresa, come il fatturato e gli ordinativi dell’industria, i costi delle materie prime, la
retribuzione e il costo del lavoro nelle grandi imprese o i prezzi di vendita dei prodotti
dell’industria.
Le banche dati sui bilanci aziendali.
Queste banche dati sono ottenute rielaborando dati di origine amministrativa tratti
dai bilanci delle singole società di capitali italiane. Il contenuto, pertanto, ricalca quello
del bilancio, cui si accompagnano, in alcuni casi, informazioni tratte dalla nota
integrativa e dalle relazioni che vengono allegate al bilancio stesso.
Le principali banche dati sui bilanci aziendali sono fornite dalla Cerved B.I. S.p.A. e dalla
Centrale dei bilanci. I dati tratti da queste fonti sono utilizzati principalmente per
confrontare la performance dell’impresa con quella delle imprese concorrenti.
trattandosi di dati individuali, i confronti possono essere più mirati rispetto a quanto
possa essere fatto utilizzando i dati di indagine richiamati al punto precedente.
2.6. La produzione di dati ad hoc: le indagini campionarie.
Quando le statistiche disponibili non sono in grado di rispondere alle esigenze
conoscitive dell’impresa, è necessario condurre un’indagine ad hoc. Le informazioni
possono essere acquisite su tutte le unità che compongono la popolazione oppure
soltanto su una parte di esse: nel primo caso si parla di indagine censuaria, nel
secondo, si parla di indagine campionaria.
La popolazione oggetto di indagine è detta popolazione obiettivo (universo), mentre
il campione è la parte di popolazione sulla quale vengono raccolte le informazioni. Le
unità del campione, indicate come unità di rilevazione, non sempre coincidono con gli
individui/entità su cui vengono rilevate le informazioni, ovvero con le unità di analisi.
Molte indagini ISTAT con la famiglia come unità di rilevazione hanno l’individuo,
l’abitazione e la stessa famiglia come unità di analisi.
I dati raccolti devono essere registrati, corretti e, infine, analizzati. L’indagine si
conclude con la stesura di un rapporto di ricerca che contiene, oltre all’analisi dei
risultati, anche la descrizione delle modalità seguite per l’esecuzione dell’indagine
stessa.
Il processo di realizzazione di un’indagine è dunque molto complesso. Le fasi di
progettazione dell’indagine riguardano:
selezionare il campione;
l’individuazione delle informazioni da raccogliere;
popolazione, se si è selezionato un campione con criterio casuale;
La soluzione di un’indagine campionaria è giustificata dai diversi vantaggi che una
rilevazione campionaria presenta rispetto ad una rilevazione censuaria:
Modalità organizzative più flessibili;
Contenimento dei costi di indagine sul campo;
Maggiore rapidità nella raccolta e nella elaborazione dei dati;
Possibilità di approfondire l’analisi dei fenomeni oggetti di studio e di
garantire una maggiore accuratezza in tutte le fasi dell’indagine, poiché la
minore complessità organizzativa favorisce la possibilità di concentrare le
risorse sul controllo della qualità della rilevazione.
Aspetti Indagine censuaria Indagine campionaria
Risorse economiche Elevate Contenute
Durata delle operazioni Lunga Breve
Errore campionario Assente Presente
Altri tipi di errore Presente Presente
Una delle domande principali cui dobbiamo rispondere nella fase di progettazione di
un’indagine campionaria è la seguente: “A chi vogliamo che siano generalizzate le
informazioni rilevate sul campione?” Tale specifico gruppo di elementi costituisce
l’universo o popolazione obiettivo.
Nelle popolazioni di dimensione finita è teoricamente possibile enumerare ed
etichettare gli elementi che la compongono. Una popolazione infinita, per contro, è
composta da tutte le unità potenzialmente osservabili e non necessariamente già
esistenti. In questo capitolo faremo riferimento esclusivamente a popolazioni di
dimensione finita e indicheremo di norma con N il numero complessivo di unità
componenti la popolazione.
Una volta specificato l’universo, è necessario reperire la lista delle unità che ne fanno
parte, la cosiddetta lista di campionamento, in modo da poter identificare e
raggiungere le unità stesse. La lista è dunque un insieme ordinato di contrassegni delle
unità della popolazione, registrati su un supporto che ne consenta la consultazione.
Nella pratica, questa operazione è difficoltosa, talvolta impossibile. La questione non
è di poco conto, perché la mancanza di una lista di campionamento impedisce di
selezionare il campione con metodi probabilistici e dunque di estendere all’intera
popolazione i risultati osservati sul campione attraverso il processo di inferenza
statistica. Quando è impossibile reperire la lista di campionamento, si ricorre, come
vedremo, a schemi di campionamento non probabilistici.
Anche quando è possibile individuare o costruire una lista di campionamento, può
accadere che questa possa non identificare esattamente la popolazione obiettivo. Il
più dele volte, soprattutto in campo sociale ed economico, la popolazione individuata
tramite la lista di campionamento (detta popolazione di selezione) corrisponde a
un’approssimazione della popolazione obiettivo.
Per indagini su famiglie o individui possiamo utilizzare come liste di campionamento
alcuni archivi di tipo amministrativo, come le liste dell’anagrafe della popolazione, le
liste elettorali o gli elenchi di abbonati alla rete fissa telefonica. In questi casi è
evidente come la popolazione di selezione differisca dalla popolazione obiettivo: nelle
liste elettorali, per esempio, non sono presenti i minori, né le persone che, pur
abitando nell’aria di interesse risiedono altrove, né tantomeno coloro che non hanno
diritto di voto; gli elenchi telefonici, d’altra parte, hanno il limite di raggiungere
soltanto gli individui che hanno un abbonamento alla rete telefonica fissa. [errore di
mancata copertura disallineamento della popolazione di selezione da quella
obiettivo].
Per la selezione di campioni di imprese o di esercizi commerciali, la principale lista di
riferimento è il Registro delle imprese tenuto dalle Camere di Commercio.
La popolazione di selezione non rappresenta ancora la popolazione a cui possono
effettivamente essere generalizzate le informazioni raccolte sul campione. Infatti, la
composizione del campione (e quindi delle informazioni rilevate su di esso) può
cambiare anche in maniera significativa a causa dell’impossibilità di rintracciare alcune
unità (unità cadute o dropouts) o del rifiuto da parte di alcune di queste, di partecipare
alla rilevazione o di rispondere ad alcune domande. Il fenomeno della mancata
osservazione di un’unità che fa parte della popolazione di selezione prende il nome di
non risposta o mancata risposta totale.
In presenza di mancate risposte, il campione effettivo diventa un sottoinsieme del
campione teorico, in grado di fornire evidenza soltanto per quella parte della
popolazione di selezione rappresentata dalle unità effettivamente osservate. Tale
popolazione è detta popolazione di indagine.
L’obiettivo di un’indagine campionaria è quello di giungere a stimare alcuni parametri
della popolazione sulla base della evidenza fornita dal campione selezionato. La
differenza tra la stima del parametro ottenuta sulla base dell’osservazione delle unità
del campione e il valore del parametro nella popolazione è detta errore statistico.
L’indagine censuaria, a meno di errori riconducibili a una non corretta esecuzione delle
fasi di rilevazione e registrazione dei dati (mancata copertura della lista di
campionamento, errori di risposta ecc.), restituisce il vero valore del parametro di
interesse, mentre l’indagine campionaria ne fornisce solo una stima, proprio per il
fatto di rilevare il carattere su una parte e non sul totale della popolazione. Tuttavia,
quest’ultimo tipo di errore (errore campionario) può essere stimato se il campione è
stato selezionato con meccanismo casuale (campione probabilistico). Al contrario,
non sarà possibile affiancare una misura dell’errore campionario alle stime ottenute
sulla base di campioni non probabilistici, selezionati cioè sulla base di scelte arbitrarie
dello stesso intervistatore, spesso dettate da considerazioni di ordine pratico.
Mentre per i campioni probabilistici deve essere nota a priori la probabilità di
inclusione nel campione per ciascuna unità statistica, nel caso dei campioni non
probabilistici, tale probabilità è ignota o non viene considerata.
Campionamento
probabilistico
Campionamento non
probabilistico
Risorse economiche Elevate Contenute
Durata delle operazioni Lunga Breve
Errore campionario Valutabile Non valutabile
Rappresentatività della
popolazione
Buona Non valutabile
La figura 2.2 elenca i principali metodi di campionamento, raggruppandoli nelle due
macrocategorie dei campioni di tipo probabilistico da quelli di tipo non probabilistico.
Tecniche di campionamento non probabilistico: metodi di selezione campionaria.
Perché effettuarli se sappiamo che non sono utili per fare inferenza statistica?
Forniscono informazioni, indicazioni di partenza e ipotesi di lavoro. L’importante è non
avere la pretesa di attribuire a un campione di quel tipo caratteristiche che non ha,
ossia conoscere a prescindere che tramite campioni non probabilistici non è possibile
effettuare inferenza statistica. Dunque, il campionamento non probabilistico trova
largo impiego nelle ricerche di mercato, gode di diversi vantaggi come la semplicità
organizzativa, i bassi costi di realizzazione e la velocità di esecuzione. Per contro, i limiti
estremi. In tutti questi casi la dimensione del campione viene fissata di norma in base
a criteri di pura convenienza. L’organizzazione dell’indagine risulta generalmente
snella e i tempi di realizzazione sono abbastanza rapidi, il che si traduce, non di rado,
in un sensibile contenimento dei costi.
Campionamento per quote.
Il metodo si basa sulla riproduzione nella composizione del campione di alcune
caratteristiche distributive note della popolazione, nonostante non si dispone di una
lista di campionamento e nonostante non si applicano criteri di casualità nella
selezione delle unità campionarie. Questa metodologia prevede quattro fasi:
campione (es. genere e/o età, settore e/o dimensione);
corrispondenti gruppi sul totale della popolazione;
modo che il campione rispecchi la composizione della popolazione;
effettuare liberamente in ognuno dei gruppi.
Il campionamento per quote può essere interpretato come una variante del
campionamento a scelta ragionata, realizzata però con le modalità organizzative
tipiche del campionamento di comodo. Come avviene per quest’ultimo, si prescinde
completamente dalla disponibilità di una lista che contenga i nominativi degli
appartenenti alla popolazione obiettivo e non vi è dunque alcuna selezione
campionaria che imponga ai rilevatori di contattare determinate unità statistiche. Gli
intervistatori hanno la massima discrezionalità nel decidere chi avvicinare e
coinvolgere nell’indagine, ma devono rispettare rigorosamente un vincolo prestabilito
in fase di progettazione: il campione realizzato dovrà avere una composizione per
specifiche caratteristiche (generalmente di natura sociodemografica) perfettamente
identica a quella della popolazione di riferimento, cioè appunto dovrà riprodurne le
quote. In altri termini, campione e popolazione devono condividere la medesima
composizione relativa rispetto a caratteri delle unità statistiche quali il sesso, l’età, la
zona di residenza, il livello di istruzione, la condizione professionale, la posizione nella
professione. Grande importanza vengono ad avere in questo caso l’aggiornamento e
l’attendibilità delle fonti statistiche a partire dalle quali sono tratte le informazioni
necessarie per determinare le quote.
Le quote prefissate possono essere marginali, se ognuna delle assegnazioni è
indipendente dalle altre, oppure associate, se la documentazione statistica disponibile
consente di dare indicazioni su due o più caratteri simultaneamente incrociati tra loro.
Spesso chi progetta la ricerca, per tenere sotto controllo l’operato degli intervistatori
frenandone l’arbitrio nella fase di reclutamento del campione, li obbliga a seguire
percorsi predeterminati a partire da un punto di partenza assegnato se l’intervista è
diretta, oppure a rispettare modalità di contatto prefissate nel caso l’intervista
avvenga telefonicamente. Il criterio ragionato sottostante a questo tipo di
campionamento consiste nel pensare che, a parità di composizione strutturale tra
campione e popolazione, il campione possa ritenersi automaticamente
rappresentativo. Si tratta ovviamente di una rappresentatività solo presunta e non
verificata in concreto. In realtà, il fatto di intervistare soprattutto le persone più
disponibili a collaborare o più facilmente reperibili, e quindi verosimilmente tra loro
più simili per abitudini e atteggiamenti – caratteristica tipica del campionamento per
quote – potrebbe comportare una sottostima sistematica della variabilità esistente
nella popolazione di riferimento.
La scelta casuale di un campione consiste in una procedura equivalente all’estrazione
di palline numerate, di forma e peso uguali, indistinguibili, da un’urna nel quadro di
una strategia o piano di campionamento (sampling frame) che assegna una
probabilità di estrazione nota a priori ad ogni campione appartenente ad un certo
insieme (universo dei campioni).
Solo quando il campione è scelto casualmente è possibile calcolare il rischio
dell’errore a cui ci si espone nella stima delle caratteristiche oggetto di interesse
(errore casuale di campionamento) ed estendere mediante procedimenti di inferenza
induttiva inversa i risultati all’intera popolazione. Questa operazione è di grande
importanza, tanto sul piano teorico che nella pratica, ed è illegittima – è opportuno
ripeterlo ancora una volta – quando si lavora con campioni ragionati o per quote.
Nel campo dei sondaggi di opinione e delle indagini di mercato è della massima
importanza fornire stime affidabili delle caratteristiche della popolazione da cui
proviene il campione rispettando l’ordine di grandezza della spesa che viene
generalmente preventivata (vincolo di bilancio). Per i motivi appena ricordati il
campionamento probabilistico è il solo procedimento capace di garantire questa
possibilità. L’inevitabile margine di errore che accompagna i risultati di un’indagine
campionaria, per quanto le operazioni di progettazione e di rilevazione siano condotte
in modo accurato, richiede che la loro presentazione sia corredata da informazioni che
ne consentano una lettura corretta, soprattutto nei casi in cui gli utilizzatori abbiano
conoscenze statistiche limitate o ne siano addirittura sprovvisti. La teoria degli
intervalli di confidenza rende disponibile la strumentazione statistica necessaria per
valutare il rischio (o la probabilità) di commettere errori casuali di prefissata ampiezza
nella stima delle grandezze (parametri) d’interesse. Ciò avviene in base ai risultati che
si osservano sul solo campione di cui normalmente si dispone, tenuto conto di
relazioni note tra i valori caratteristici della popolazione e quelli corrispondenti
dell’universo dei campioni casuali. Tali relazioni vanno riferite non già al singolo
campione, che a priori non è noto e di cui a posteriori si ignora pur sempre il grado di
rappresentatività, ma all’insieme di tutti i possibili campioni. Solo in questo senso si
perviene a risultati precisi e sicuri.
Tipi di liste e metodi di rilevazione. (Dispensa paragrafo 2)
Fissare gli obiettivi di un sondaggio di opinione o di un’indagine di mercato significa
essenzialmente che il committente e il ricercatore si accordino su cosa si vuole
conoscere e – aspetto della massima importanza – con quale approssimazione.
Successivamente occorre identificare la popolazione di riferimento, l’unità di
osservazione, il tipo e le caratteristiche del piano di campionamento e, nel caso di
campionamento probabilistico, scegliere gli stimatori.
Prima ancora di decidere i criteri da seguire per la selezione delle unità campionarie,
è fondamentale definire in modo chiaro la popolazione oggetto di studio, cioè
identificare quali unità elementari ne fanno parte e quali ne sono invece escluse. Ciò
che fa di un aggregato di elementi una popolazione è l’esistenza di una o più
caratteristiche presenti in tutte le unità e che possono interessare come oggetto di
analisi. Se una volta contattato un individuo risulta piuttosto agevole stabilirne
l’appartenenza o meno a questa popolazione, non è altrettanto immediato individuare
a priori le unità che costituiscono il collettivo di riferimento. Capita spesso, infatti, di
non disporre di una lista ufficiale di tutti gli appartenenti alla popolazione di interesse,
e crearne una ex novo potrebbe rivelarsi abbastanza oneroso in termini di tempo e di
risorse necessari. Pertanto, anche in ragione degli obiettivi conoscitivi che si vogliono
raggiungere, la progettazione di un campione probabilistico può risultare molto
complessa in rapporto alla disponibilità ed alla qualità delle liste da utilizzare per la
sua selezione. La lista, base dell’indagine per l’identificazione delle unità che
costituiscono la popolazione obiettivo, può infatti essere causa di problemi di vario
ordine: ad esempio, può risultare incompleta e/o contenere duplicazioni, soprattutto
per difetti di aggiornamento, ed essere quindi fonte di errori sistematici.
Per la selezione di campioni di famiglie o di individui sono disponibili liste di vario tipo:
l’anagrafe della popolazione, le liste elettorali, gli elenchi degli abbonati alla telefonia
residenziale, gli elenchi delle utenze domestiche dell’ENEL, ecc. L’uso dei registri
anagrafici è consentito tuttavia solo agli enti pubblici e agli organismi privati con
finalità pubbliche appartenenti al Sistema statistico nazionale (SISTAN). Diverso è il
caso delle liste elettorali, per le quali il legislatore ha previsto che la consultazione sia
consentita a chiunque ne faccia richiesta per finalità di ricerca o di sondaggio
d’opinione, pur nel rispetto della normativa vigente sulla privacy.
Le liste elettorali sono organizzate per sezioni, che corrispondono a frazioni del
territorio comunale comprendenti all’incirca 500-600 elettori, e per elenchi generali,
nei quali gli elettori compaiono in ordine alfabetico, distintamente per maschi e
femmine. L’esclusione dei minorenni limita la copertura completa della popolazione.
Le interviste personali, condotte abitualmente presso l’abitazione delle unità
statistiche se il campione è selezionato con criterio casuale da una lista, o presso luoghi
pubblici ed esercizi commerciali nel caso di criterio di comodo o per quote, presentano
alcuni vantaggi legati soprattutto alla possibilità di approfondire determinati
argomenti nell’ambito di indagini su temi molto articolati. In particolare, può risultare
più semplice grazie all’interazione positiva che spesso si stabilisce tra intervistato e
intervistatore mantenere elevate l’attenzione e la qualità di collaborazione dei
rispondenti. D’altra parte, gli intervistatori, anche in conseguenza del rigoroso
processo di selezione e formazione al quale sempre dovrebbero essere sottoposti,
sono in grado di fornire chiarimenti sulle domande e possono aiutarsi con il supporto
di elementi visivi grazie ai dispositivi di rilevazione (pc, tablet, smartphone, ecc.) a loro
disposizione, seguendo regole di comportamento il più possibile standardizzate.
Nel caso di interviste face-to-face quindi gli intervistatori siedono davanti agli
intervistati e man mano che l’intervista procede compilano contestualmente il
questionario in formato elettronico che appare sullo schermo del dispositivo utilizzato.
Si parla in questo caso di metodologia CAPI (Computer Assisted Personal Interview)
come alternativa alla tradizionale modalità di compilazione manuale di un
questionario cartaceo, nota anche con l’acronimo PAPI (Paper And Pencil Interview).
La metodologia CAPI permette di progettare un questionario completamente assistito,
che consente un controllo sulla coerenza formale delle domande e costituisce uno
schema di intervista lineare per l’intervistatore. Il percorso delle domande da porre è
controllato dal software utilizzato, per cui sono ridotte al minimo le possibilità di
errore per il rilevatore. È disponibile anche un servizio di help in linea che fornisce
istruzioni dettagliate per la gestione di ogni domanda, in sostituzione del manuale
solitamente affidato agli intervistatori per i questionari cartacei.
Tra i principali svantaggi che contraddistinguono le interviste personali vanno
segnalati i costi più elevati rispetto a tutte le altre tecniche di rilevazione, i tempi
verosimilmente più lunghi di realizzazione delle interviste e la potenziale influenza, se
non addirittura il vero e proprio condizionamento, che l’intervistatore potrebbe
esercitare sull’intervistato qualora nel questionario vengano affrontati argomenti di
natura personale e riservata, determinando di conseguenza distorsioni nelle risposte
(response bias).
Nella pratica, a fronte dei costi crescenti delle interviste personali e della diffidenza
con cui, soprattutto nelle grandi città, sono accettate visite a domicilio da parte degli
intervistatori, trova sempre più frequente applicazione nei sondaggi demoscopici e
nelle indagini di mercato su campioni numerosi l’alternativa rappresentata dalle
interviste telefoniche. Queste consentono di:
conseguire vantaggi in termini di economicità e soprattutto di tempestività
della rilevazione;
esercitare un maggiore controllo sull’operato degli intervistatori durante lo
svolgimento delle interviste, e non solo a posteriori;
ottenere un contatto più agevole con gli intervistati, con la possibilità di
raggiungere anche coloro che non sono reperibili negli orari in cui di solito si
svolgono le interviste personali o che hanno l’abitudine di non aprire la porta
di casa ad estranei;
utilizzare una metodologia che gestisce automaticamente le fasi
dell’intervista e soprattutto esercita un rigoroso controllo sul suo
svolgimento, nota come CATI (Computer Assisted Telephone Interview),
rendendo possibile un notevole miglioramento nella qualità dei dati raccolti.
Per realizzare sondaggi telefonici su linea residenziale fissa è particolarmente comodo
ricorrere agli elenchi telefonici gestiti da Telecom Italia piuttosto che ad altre liste,
perché ciò consente di disporre subito dei numeri per effettuare i contatti,
conoscendone però i limiti illustrati in precedenza.
Come è stato segnalato in precedenza, la maggior parte degli istituti di ricerca utilizza
la metodologia CATI come supporto per la definizione e la selezione delle unità di
campionamento, per l’inserimento dei dati, per la codifica delle risposte, per la
tabulazione e l’analisi dei risultati, grazie soprattutto alla graduale riduzione del costo
dei sistemi informatici. La rilevazione CATI si basa sull’interazione tra intervistatore e
personal computer. Il questionario è memorizzato nel pc e nel corso della telefonata
le domande scorrono a video. Le risposte sono digitate direttamente
dall’intervistatore e poi salvate in un database abbinato al questionario. Il software
controlla passo per passo lo svolgimento dell’intervista e compie in tempo reale
verifiche di completezza e di coerenza tra le risposte ottenute. Inoltre, è possibile
gestire automaticamente le telefonate, ovvero gli appuntamenti concordati con gli
intervistati. Il sistema CATI presuppone una struttura telefonica centralizzata con la
presenza di supervisori che controllano lo svolgimento delle interviste sia mediante
l’inserimento sulla linea telefonica (senza alcun disturbo per l’intervistato e con un
segnale di preavviso che può udire solo l’intervistatore), sia con un monitoraggio a
video del personal computer nel corso dell’intervista, sia ancora attraverso il riascolto
delle registrazioni. Per esaminare più in dettaglio le modalità con le quali il software
interviene nelle diverse fasi della ricerca, è opportuno suddividere quest’ultima in
almeno quattro fasi.
e dei numeri telefonici preregistrati relativi alle persone da intervistare, in modo
che il sistema possa poi distribuirli ai rilevatori sulla base di proporzioni di
campionamento o di altri parametri prestabiliti. Inoltre, poiché sono necessari
mediamente tra i tre e i quattro contatti telefonici per far sì che un tentativo di
intervista vada a buon fine, e in ogni caso possono sempre verificarsi situazioni di
irreperibilità o di rifiuto a collaborare, è possibile affiancare al campione
programmato una lista di nominativi di riserva. Per evitare distorsioni questa lista
dovrebbe essere formata da persone con caratteristiche sociodemografiche il più
possibile analoghe a quelle del campione originario.
procede alla sua composizione e chiamata attraverso la scheda modem collegata.
L’intervistatore legge le domande che compaiono sullo schermo e registra da
tastiera le relative risposte. Il sistema ne accerta la congruenza e seleziona
automaticamente la sequenza delle domande da porre. Durante l’intervista, alla
quale viene attribuito un codice univoco, sono registrati tutti gli avvenimenti di
interesse (ad esempio abbandoni o mancate risposte) e i tempi di svolgimento
(giorno, orario e durata dell’intervista e tentativi necessari prima di completarla).
I dati vengono memorizzati in un archivio centralizzato e rimane traccia degli
appuntamenti telefonici concordati con riferimento a quanti non fossero
reperibili in casa o disponibili al momento del primo contatto utile.
verifica della rilevazione telefonica. Assolve innanzitutto ad una funzione di
monitoraggio dell’attività del rilevatore, consentendo al supervisore di osservare
sul proprio terminale lo svolgersi di un’intervista come se fosse effettuata in sua
presenza, ed eventualmente di scambiare messaggi con gli intervistatori.
Permette inoltre il controllo continuo dei dati rilevati in termini di percentuali di
risposte ottenute per una o più domande del questionario quando ancora
l’indagine non è terminata. È possibile aggiornare costantemente il valore delle
eventuali quote di campionamento e verificare, istante per istante, quali
sottogruppi del campione siano prossimi al completamento di quelle previste.
dei dati rilevati. Inoltre, attraverso la definizione di un piano di elaborazione, può
generare tabelle statistiche di spoglio e di consultazione dei risultati in maniera
guidata.
Nella valutazione delle performances del metodo CATI vanno ricordati anche alcuni
importanti punti di forza, in primis la rapidità di realizzazione della ricerca, grazie
all’automatizzazione delle chiamate, alla gestione informatizzata degli appuntamenti,
alla rapidità dei sistemi di controllo centralizzati e alla riduzione dei tempi e dei costi
di elaborazione. Sono ovviamente eliminate tutte le fasi preliminari alle elaborazioni
tipiche di un’indagine telefonica gestita secondo modalità tradizionali (compilazione
manuale dei questionari, data entry, predisposizione di un piano di controllo dei dati
in termini di compatibilità e di coerenza reciproca).
Ragionando in termini generali, la tecnica dell’intervista telefonica presenta alcuni
svantaggi rispetto alle altre modalità d rilevazione, riconducibili sostanzialmente
all’assenza di un confronto faccia a faccia tra intervistatore e intervistato. Più
precisamente:
È necessario limitare la durata dell’intervista per evitare conseguenze
imputabili a stanchezza e disinteresse del rispondente (in genere si suggerisce
di non superare i 10-15 minuti);
È opportuno ricorrere a questionari strutturati o semi-strutturati;
È impossibile presentare eventuale materiale di accompagnamento, a meno
di non inviarlo preventivamente.
I sondaggi postali hanno costituito per molto tempo la più tradizionale alternativa alle
interviste personali e telefoniche, anche se ormai vengono sempre meno impiegati.
Utilizzati soprattutto per motivi legati al contenimento dei costi, forniscono in genere
risultati di qualità inferiore perché danno luogo a tassi di risposta decisamente più
bassi (di solito inferiori alla metà di quelli che si ottengono con le altre tecniche
d’intervista). Richiedono peraltro un’organizzazione meno complessa, dal momento
che si elimina qualsiasi interferenza o distorsione causata dalla presenza
dell’intervistatore (ma al tempo stesso anche la possibilità di migliorare qualità e
quantità della collaborazione), permettendo all’intervistato di scegliere il momento
più opportuno per la compilazione del questionario, con maggior tempo a disposizione
per riflettere sulle risposte. La realizzazione standard di un sondaggio postale prevede
una serie di decisioni che incidono fortemente sul suo esito e che coinvolgono:
a) le caratteristiche del questionario in termini di formato, lunghezza, aspetto
editoriale (layout), ecc.;
b) la lettera di accompagnamento e presentazione della ricerca (cover letter);
origine dal notevolissimo abbattimento dei costi (inviare simultaneamente migliaia di
messaggi di posta elettronica contenenti gli inviti a partecipare all’indagine comporta
spese praticamente nulle) e dalla velocità enormemente superiore di spedizione e di
ricezione da parte degli interessati. A differenza di quanto avviene per i sondaggi
postali, la probabilità che il messaggio sia aperto direttamente dalla persona alla quale
è stato indirizzato è molto più elevata. Gli accessi per la compilazione del questionario
on-line possono essere personalizzati mediante l’assegnazione ad ogni intervistato di
specifici codici identificativi (userid e password) che permettono ai ricercatori di
seguire con precisione la dinamica temporale delle risposte. In questo modo inoltre
l’invio di solleciti successivi a chi non ha ancora risposto può essere pianificato con
grande meticolosità. L’analisi delle informazioni presenti all’interno dei log-files del
sito dove risiede il questionario fornisce altre interessanti indicazioni, consentendo ad
esempio di quantificare il numero degli accessi che si risolvono in una semplice
visualizzazione del questionario senza una sua successiva compilazione. Il ricorso ad
un questionario on-line facilita il compito del rispondente in presenza di domande
filtro, rende possibile l’effettuazione di controlli automatici sulle risposte e permette
l’accesso pressoché immediato ai dati forniti dagli intervistati.
Gli svantaggi principali dei sondaggi via Internet sono legati ovviamente alla necessità
di dover fare riferimento ai soli utenti della rete per la rilevazione. Quanto più le
caratteristiche sociodemografiche di questi differiscono da quelle riscontrabili
nell’intera popolazione – e sicuramente così avviene tuttora in Italia a causa delle
problematiche riconducibili al cosiddetto divario digitale (digital divide) – tanto più i
risultati ottenuti corrono il rischio di dare un’immagine parziale e distorta della realtà
complessiva. Infatti, chi ha consuetudine quotidiana con la rete Internet ed i suoi
strumenti non può essere considerato tuttora un sottoinsieme casuale, e di
conseguenza rappresentativo, dell’intera popolazione italiana. Lo stesso
ragionamento può essere fatto per il collettivo delle imprese dotate di un accesso
continuativo alla rete. Un’altra difficoltà importante è determinata dalla quasi totale
assenza di liste o elenchi già predisposti, che possano rendere agevole il lavoro di chi
deve progettare la selezione campionaria. Spesso non è facile individuare
nominativamente gli appartenenti alla popolazione di riferimento, e quindi una grande
quantità di energie deve essere dedicata alla ricostruzione di liste ad hoc.
Richiami ai principali chiami di campionamento probabilistico. (Dispensa par. 3).
Campionamento casuale semplice.
Il modo più semplice di formare un campione probabilistico da una popolazione
costituita di un numero finito (N) di elementi consiste nel selezionarne casualmente
un numero prestabilito (n < N) in modo tale da garantirsi che tutti i possibili campioni
di un uguale numero di elementi abbiano la stessa probabilità di essere selezionati.
Tale condizione è rispettata quando si procede alla selezione delle unità campionarie
estraendo in un’unica soluzione n palline da un’urna che ne contiene N, o estraendole
una alla volta senza mai rimettere la pallina estratta nell’urna (estrazione in blocco o
campionamento casuale semplice senza ripetizione). Alternativo a questo
procedimento è l’estrazione con ripetizione, che consiste nel reintrodurre la pallina
nell’urna dopo ogni estrazione, con la conseguenza che la stessa unità potrebbe
risultare selezionata più volte. Questa eventualità non è adeguata peraltro alle
esigenze operative di un’indagine campionaria e quindi questo tipo di estrazione non
viene mai utilizzato.
Disponendo di un elenco completo degli elementi della popolazione obiettivo
numerati progressivamente da 1 a N, e solo a questa condizione, un modo per
simulare l’estrazione di un campione di dimensione pari a n, mantenendo fermo il
riferimento allo schema dell’urna, è quello di ricorrere alla generazione di n numeri
pseudocasuali compresi nell’intervallo [1, N]. Tutti i principali software disponibili per
l’analisi statistica dei dati presentano routines in grado di dare origine a successioni di
numeri di questo tipo.
Il principale vantaggio di questa modalità di campionamento è sicuramente la
semplicità. Presenta tuttavia anche alcuni possibili svantaggi: innanzitutto, il campione
potrebbe presentarsi sparso sul territorio con conseguenti costi elevati di
organizzazione; in secondo luogo, poiché tutti i possibili campioni hanno uguale
probabilità di essere estratti, è possibile estrarre un cattivo campione, ossia un
campione poco rappresentativo della popolazione.
Il campionamento sistematico.
Un’alternativa può essere rappresentata dalla selezione campionaria con passo
sistematico. In altri termini, se si vuole estrarre da una popolazione costituita da N
unità un campione di dimensione pari a n, posto:
si potrà selezionare casualmente da un’urna contenente i primi k numeri naturali uno
di questi (che risulterà minore o uguale a k), indicato con il simbolo r. Questo numero
contrassegna il posto d’ordine occupato dalla prima unità da estrarre dalla lista di tutte
le unità che compongono la popolazione di base. Dopo l’unità che occupa il posto r si
contano k posizioni successive e si seleziona quella che occupa il posto (r + k), e poi
quelle che occupano via via i posti (r + 2k), (r + 3k), fino a quella che occupa il posto [r
numero r estratto casualmente si chiama numero di partenza e il rapporto N/n è detto
passo di campionamento. Il procedimento è molto semplice e presenta rispetto al
campionamento casuale semplice vantaggi di implementazione.
È tuttavia cruciale il modo in cui viene formata la lista, perché solo se l’ordine in cui
compaiono i nominativi è davvero casuale allora il campione sistematico equivarrà in
tutto e per tutto a quello che si otterrebbe mediante la scelta casuale delle singole
unità. Ma - giova ripeterlo - solo a questa condizione, perché se nella lista c’è qualche
sistematicità o periodicità rispetto alla variabile che interessa prendere in
considerazione i due procedimenti non sono equivalenti.
Il problema va considerato caso per caso e, non di rado, può risultare controverso. Ad
esempio, se si dovesse selezionare un campione di fatture dall’elenco di tutte le
fatture di un’azienda, nel caso in cui il numero delle fatture emesse mensilmente fosse
relativamente stabile e fossero riscontrabili regolarità periodiche sulla fatturazione (si
pensi ad un programma informatico che emetta le fatture seguendo l’ordine
alfabetico del destinatario), l’adozione di un passo di campionamento fisso potrebbe
condurre ad osservare più frequentemente le schede relative ai clienti che acquistano
più spesso. In questo caso campionamento sistematico e campionamento casuale
potrebbero differire per quanto riguarda l’attendibilità dei risultati, a svantaggio del
campionamento sistematico.
Il vantaggio del campionamento sistematico è che per formare il campione è
sufficiente una sola estrazione casuale. Tuttavia, con tale metodo esistono rischi di
scarsa rappresentatività nella selezione del campione nel caso in cui la lista presenti
un qualche ordinamento di tipo ciclico o stagionale che, a causa di un passo di
campionamento non adatto, non venga colta.
Il campionamento stratificato.
Una questione molto importante è quella relativa alla predisposizione di piani di
campionamento alternativi a quello casuale semplice. Schemi di campionamento più
complessi possono richiedere:
a. il ricorso preliminare a procedimenti di stratificazione, che prevedono la
possibilità di suddividere la popolazione in gruppi o strati omogenei secondo
un criterio prestabilito;
b. la selezione del campione in due o più fasi (o stadi), che si realizza mediante
la scelta casuale di un campione di grappoli di unità statistiche elementari e
successivamente, nell’ambito di ciascun grappolo, di un numero prefissato di
unità elementari sempre con selezione casuale. Il grappolo (o cluster) è
costituito da elementi contigui di una popolazione.
Le ragioni sostanziali che inducono ad utilizzare schemi più complessi sono la finalità
di contenere la dimensione del campione (il che comporta minor lavoro e minori
spese) e/o di ottenere migliori risultati come conseguenza dell’aumento della
precisione delle stime rispetto ad un campione casuale semplice, nonché quella di
rendere più flessibile l’organizzazione della rilevazione.
Restando nell’ambito dei campioni probabilistici, il campionamento stratificato
sfrutta alcune conoscenze relative alla popolazione e possedute a priori dal
ricercatore. Poiché esiste una relazione diretta tra l’ampiezza di un campione e la
variabilità della caratteristica d’interesse, può risultare vantaggioso in termini di
efficienza degli stimatori suddividere la popolazione in strati quanto più possibile
omogenei al loro interno ed eterogenei tra loro. L’omogeneità va ricercata rispetto al
carattere oggetto di stima, anche se è raro disporre di informazioni sulla distribuzione
dello stesso prima di effettuare l’indagine. Perciò gli strati sono costruiti in genere a
partire da una o più variabili ad esso correlate, ipotizzando che unità omogenee
rispetto a queste lo siano anche per il carattere d’interesse.
Dunque, la popolazione è classificata in sottopopolazioni dette strati; gli strati devono
essere possibilmente omogenei al loro interno ed eterogenei tra di loro; da ogni strato
si estrae un campione casuale semplice; infine, l’aggregazione di tali campioni produce
il campione stratificato. Da ricordare che è necessario disporre di informazioni
aggiuntive (variabili ausiliari) per ogni unità della popolazione.
Possiamo indicare con N la dimensione della popolazione obiettivo, con L il numero
degli strati e con Nh (h = 1, 2, …, L) la dimensione di ciascun strato.
Il simbolo 𝑊
ே
ே
identificherà allora la frequenza relativa (o peso) delle unità
appartenenti ad ogni strato. Il campione complessivo, di dimensione n, si ottiene come
unione di campioni, di ampiezza 𝑛
, estratti da ogni singolo strato. La frazione di
campionamento da ciascun strato è pari a 𝑓
ே
Requisito fondamentale per l’estrazione di un campione stratificato è che per tutte le
unità della popolazione sia nota la variabile (o le variabili) scelta come base per la
stratificazione. È stato inoltre osservato che, per indagini su vasta scala, la suddivisione
sottodomini di riferimento. Così, se la variabile di stratificazione considerata è di tipo
territoriale (ad esempio la regione di residenza dei consumatori) nell’ambito di
un’indagine nazionale, possiamo desiderare che le stime dei parametri d’interesse
siano statisticamente affidabili anche a livello delle singole regioni. Per far sì che ciò si
verifichi potrebbe rivelarsi indispensabile fissare una numerosità campionaria minima
da selezionare in ciascun strato, sovra campionando evidentemente da alcuni strati
ogniqualvolta un criterio di allocazione puramente proporzionale non consenta di
rispettare il vincolo indicato.
In che cosa consista la stratificazione e quali vantaggi sia in grado di offrire è utile
chiarirlo ulteriormente con un esempio. Per selezionare un campione di negozi di un
grande centro urbano avendo a disposizione elenchi completi degli esercizi
commerciali potrebbe essere utile raggruppare i punti di vendita secondo la loro
ubicazione (quartiere), oppure in base alle modalità di gestione del negozio
(distinguendo quelli tradizionali da supermercati, hard discounts, negozi specializzati
o di altro tipo), oppure facendo riferimento ad entrambi i criteri o ad altri ancora. In
tal modo si formeranno gruppi di esercizi commerciali omogenei rispetto al criterio di
raggruppamento prescelto, denominati strati, da ognuno dei quali sarà possibile
estrarre in modo indipendente un campione casuale semplice. Raggruppando i negozi
secondo l’ubicazione e la modalità di gestione il vantaggio potrebbe essere duplice,
nel senso che il criterio geografico renderà le successive operazioni di rilevazione più
agevoli e quello per tipo di gestione consentirà di identificare sottopopolazioni
contraddistinte da una più ridotta variabilità di particolari caratteristiche organizzative
ed economiche.
Campionamento a grappoli.
Nel campionamento a grappoli, la lista degli N elementi è suddivisa in grappoli,
ciascuno rappresentativo della popolazione, ovvero tale da riprodurre la variabilità del
carattere di interesse nella popolazione. Si procede quindi alla seleziona casuale di un
numero di grappoli e si includono nel campione tutti gli elementi a essi appartenenti.
Idealmente i grappoli devono essere individuati in modo che la variabilità del
parametro da stimare sia alta entro i grappoli e bassa tra i grappoli. Questo tipo di
campionamento è utilizzato principalmente per esigenze organizzative: infatti, spesso
i grappoli sono definiti sulla base di raggruppamenti realmente esistenti come città,
quartieri, edifici, famiglie.
Un altro schema di campionamento fra i più utilizzati è il cosiddetto campionamento
casuale a grappoli (cluster sampling), la scelta del quale è suggerita dalle
caratteristiche della popolazione o imposta, in qualche caso, da esigenze operative.
La sua utilizzazione è tuttavia possibile a condizione che la popolazione sia suddivisa o
suddivisibile in sottoinsiemi o segmenti di elementi legati da vincoli di contiguità
spaziale o di altro tipo. Ogni grappolo deve riprodurre quanto più possibile fedelmente
la variabilità rispetto alla caratteristica d’interesse che si ritrova nell’intera
popolazione. Dunque, per definizione i grappoli, all’opposto degli strati, devono
risultare fortemente eterogenei al loro interno ed omogenei tra loro. Il campione
viene in questo caso realizzato selezionando casualmente alcuni dei grappoli che sono
poi sottoposti integralmente a rilevazione, oppure a partire dai quali si procede ad
un’ulteriore selezione campionaria di unità statistiche.
Per realizzare, come suggerito nell’esempio precedente, un campione di negozi di un
centro urbano, qualora non si disponga di un elenco degli stessi si potrà suddividere il
territorio in zone di piccola dimensione (grappoli) che si presume contengano
pressappoco lo stesso numero di negozi o di abitanti, oppure ricorrere alla partizione
del territorio comunale per sezioni di censimento (che presentano per l’appunto tale
caratteristica). Successivamente si potrà procedere alla selezione casuale di un dato
numero di grappoli e quindi alla rilevazione delle informazioni che interessano in tutti
i negozi reperibili al loro interno.
Dunque, lo schema di campionamento a grappoli prevede: 1) l’estrazione casuale di
alcuni grappoli e 2) l’analisi completa di tutte le unità in essi contenute. Può essere
più efficiente della stratificazione? In teoria, se i grappoli fossero eterogenei al loro
interno e omogenei tra essi, ma nella realtà in genere si verifica il contrario.
Per finire, risulta vantaggioso il campionamento a grappoli quando i grappoli
costituiscono una naturale aggregazione delle unità finali per le quali invece non si
possiede una lista. Un ulteriore vantaggio è dato dal fatto che effettuare la rilevazione
solo su alcuni grappoli è molto meno dispendioso rispetto al campionamento casuale
semplice, soprattutto se si rende necessario un contatto diretto e se le unità sono
caratterizzate da dispersione sul territorio. Lo svantaggio è che in genere è meno
efficiente: i raggruppamenti naturali di unità tendono ad essere omogenei al loro
interno ed eterogenei tra loro.
Campionamento a stadi.
Ricordiamo infine il campionamento a stadi che può essere considerato come una
variante del campionamento a grappoli. Esso viene utilizzato per rilevazioni
campionarie di grandi dimensioni: una volta selezionati casualmente i grappoli (unità
di primo stadio), si procede alla selezione casuale soltanto di una parte delle unità
elementari presenti nel grappolo (unità di secondo stadio). Rientrano in questa
tipologia molte delle indagini ISTAT con copertura nazionale, nelle quali i Comuni sono
le unità di primo stadio e le famiglie registrate nelle Anagrafi dei Comuni sono le unità
del secondo stadio.
L’adozione di questa tecnica si giustifica per i vantaggi organizzativi e per la
conseguente riduzione dei costi dell’indagine. Un punto a sfavore è rappresentato
dalla complessità dei metodi di stima dei parametri e, in alcuni casi, dal fatto che non
tutti gli stimatori godono delle proprietà desiderabili.
Il campionamento a due o più stadi si adatta soprattutto alle grandi rilevazioni come,
ad esempio, le indagini nazionali sulle forze di lavoro, oppure sulle spese delle famiglie
o ancora sulla audience dei principali mezzi di comunicazione di massa. In questi casi
è preferibile estrarre dapprima un gruppo di comuni, che rappresentano grappoli di
unità elementari, e selezionare successivamente da ciascuno di questi un numero
prestabilito di famiglie. In questo modo, oltre ad ovviare alle difficoltà connesse con la
formazione della lista, si può conseguire un vantaggio sul piano organizzativo in
quanto le unità da intervistare non sono disperse su tutto il territorio, ma localizzate
solo in alcuni comuni. Ciò comporterà una limitazione degli spostamenti dei rilevatori
e una riduzione dei costi dell’indagine sul campo. Va osservato, a questo proposito,
che se i grappoli non sono sufficientemente omogenei tra loro, i vantaggi organizzativi
potrebbero essere attenuati o anche annullati dall’elevata variabilità campionaria
delle stime. Tale inconveniente potrà essere superato ricorrendo alla stratificazione
delle unità del primo stadio, come in effetti avviene nelle indagini nazionali citate in
precedenza.
Noi vorremmo che le unità contenute nel primo stadio fossero più eterogenee
possibili, perché a queste noi chiediamo di rappresentare tutta la popolazione. Di
conseguenza, maggiore è l’omogeneità all’interno del primo stadio, maggiore è
l’inefficienza del campionamento a più stadi. DI norma si verifica che le unità del primo
stadio sono omogenee al loro interno ed eterogenee tra esse. Di conseguenza, il
campionamento è più stadi risulta meno efficiente del campionamento casuale
semplice.
La determinazione della dimensione campionaria nei piani di campionamento
probabilistico. (Dispensa paragrafo 4)
Al crescere della dimensione del campione crescono anche i costi dell’indagine. Nella
fase di progettazione è importante, quindi, fissare la numerosità del campione
cercando di salvaguardare la massima precisione delle stime compatibile con il limite
di spesa prestabilito. In alternativa è possibile calcolare la spesa minima necessaria per
conseguire una prestabilita precisione ad un determinato livello di fiducia. Specificare
la precisione significa di fatto fissare il grado di approssimazione (o margine di errore)
che si è disposti ad accettare in relazione agli obiettivi conoscitivi dell’indagine.
Ovviamente quanto più un campione è grande tanto più sono attendibili le stime; ma
a prescindere da questa osservazione del tutto intuitiva, la scelta più conveniente
dell’ampiezza del campione è uno dei compiti principali della teoria dei campioni, al
centro della quale viene trattato un tema di risparmio di risorse. Il problema da
risolvere è quello di decidere quale sia l’ampiezza più piccola che soddisfi specifici
requisiti di precisione delle stime stabiliti a priori e dipendenti dall’oggetto
dell’indagine e dalle esigenze di chi utilizza i risultati.
Indicare la precisione delle stime vuole dire fissare il margine di errore che si è disposti
a tollerare e, al tempo stesso, un grado di fiducia o di confidenza, ovvero la probabilità
che la stima si collochi all’interno di un intervallo definito appunto dai margini di errore
che si ritengono tollerabili. Per ogni tipo di piano di campionamento e per ciascun
specifico parametro da stimare (una proporzione, una percentuale, un valore medio,
un totale, ecc.) la teoria dei campioni fornisce relazioni matematiche per il calcolo
della numerosità campionaria. Di conseguenza la dimensione n del campione può
essere determinata in modo univoco mediante formule appropriate, una volta
stabilito il piano di campionamento, la dimensione della popolazione di riferimento, la
grandezza dell’errore che si è disposti a tollerare e il grado di fiducia che l’accompagna
(nella realtà operativa livelli di fiducia pari al 95 o al 99 per cento vengono considerati
di pratica certezza) nel quadro della determinazione dell’intervallo di confidenza di un
parametro incognito. Viceversa, se sono prefissate le modalità del campionamento, la
dimensione della popolazione e la numerosità del campione, imposta ad esempio da
un vincolo di spesa complessiva da non superare, grazie alle stesse formule sono
calcolabili gli errori massimi corrispondenti a diversi gradi di fiducia. In questo caso è
possibile ovviamente scegliere fra combinazioni alternative delle due grandezze; ma
se il campione è piccolo si riscontra non di rado un margine di errore molto elevato e
un corrispondente grado di fiducia relativamente basso.
Per comprenderne appieno le modalità di impiego conviene ricondursi ad un quesito
del tipo seguente: quanti casi occorre osservare per stimare la percentuale di clienti
dell’azienda Gamma che hanno aderito ad una specifica iniziativa promozionale, con
una precisione della stima tale da evitare differenze in più o in meno superiori al 3 per
cento e con un grado di fiducia del 95 o del 99 per cento, vale a dire in condizioni di
pratica certezza?
Nella sua parte superiore (contrassegnata da P = 0,50) la tabella consente di
determinare quale sarà la numerosità campionaria massima compatibile con diverse
combinazioni della numerosità della popolazione (da una di 1.000 unità ad una di
1.000.000), del margine d’errore in percentuale della stima (±1, ±2, ±3, ±5 𝑒 ±
10 per cento) e del grado di fiducia che l’accompagna (95 e 99 per cento). Nella sua
parte inferiore (contrassegnata da P = 0,15) viene preso in considerazione anche il caso
di una stima preliminare della proporzione P pari a 0,15, assai distante dal valore 0,
che rende massima la varianza dello stimatore p. I valori che compaiono nella tabella
suggeriscono le seguenti considerazioni generali:
Fissati il margine d’errore della stima e il grado di fiducia, all’aumentare della
dimensione della popolazione corrispondono incrementi meno che proporzionali
della numerosità del campione, fino al punto in cui non vi saranno ulteriori
incrementi (attorno ad un milione di casi);
Fissati la dimensione della popolazione e il grado di fiducia, la diminuzione del
margine d’errore richiede aumenti più che proporzionali della numerosità
campionaria;
Per un dato margine d’errore, e quando la dimensione della popolazione supera
N= 5.000, la scelta di un grado di fiducia del 99 per cento richiede incrementi della
numerosità campionaria di entità non trascurabile rispetto a quella necessaria per
ottenere stime ad un grado di fiducia del 95 per cento;
La numerosità campionaria è direttamente proporzionale alla variabilità della
caratteristica nella popolazione indagata, a parità di dimensione della
popolazione stessa, di margine d’errore e di grado di fiducia.
Campionamento per variabili.
Quando il parametro oggetto d’interesse è costituito dal valore medio o dal totale di
un carattere (campionamento per variabili), il problema di determinare la dimensione
del campione in funzione degli altri elementi più volte ricordati trova una soluzione
del tutto simile.
Ipotizzando di ricorrere di nuovo al campionamento casuale semplice e volendo
stimare un valore medio, indichiamo con μ la media incognita di popolazione, con 𝜎
ଶ
la varianza incognita di popolazione e con 𝑥̅ lo stimatore media campionaria. Lo
stimatore 𝑥
è corretto per μ e, se il campione è sufficientemente grande, il teorema
centrale del limite garantisce che la sua distribuzione sia approssimativamente
normale con valor medio 𝐸(𝑥̅ ) = 𝜇 e varianza data da:
ଶ
La statistica campionaria:
Si distribuirà a sua volta approssimativamente come una variabile normale
standardizzata.
Prefissato il margine d’errore θ e il grado di fiducia 1-α risulterà:
𝑃𝑟{|𝑥̅ − 𝑥| ≤ θ} = 𝑃𝑟 ቊ|𝑧| ≤
θ
Dalle tavole della distribuzione normale standardizzata si deduce che la relazione
precedente è verificata quando:
θ
ఈ ଶ
⁄
Da cui segue che:
ଶ
θ
ଶ
ఈ ଶ⁄
ଶ
Si tratta di un’equazione nell’incognita n che ammette la seguente soluzione:
ఈ ଶ⁄
ଶ
ଶ
(𝑁 − 1)θ
ଶ
ఈ ଶ⁄
ଶ
ଶ
Possiamo considerare infine il caso in cui il parametro oggetto di interesse sia
l’ammontare totale di un carattere. La soluzione del problema ripercorre i passi
precedenti; lo stimatore del totale sarà:
Mentre la varianza dello stimatore del totale sarà data da:
ଶ
ଶ
E la soluzione per n da:
ఈ ଶ⁄
ଶ
ଶ
(𝑁 − 1)θ
ଶ
ଶ
ఈ ଶ⁄
ଶ
ଶ
Poiché i valori di N, θ e 𝑧 ఈ ଶ⁄
ଶ
sono noti o prefissati, per risolvere le equazioni è
indispensabile un valore per la varianza 𝜎
ଶ
, di solito a sua volta non conosciuta. Per
rendere operativa la relazione trovata potrebbe quindi essere utile una stima
preliminare della variabilità del carattere, proveniente ad esempio da conoscenze a
priori disponibili sulla popolazione in questione, perché già studiata in passato, o su
popolazioni analoghe.
Un’altra possibilità è quella di far uso di una stima della varianza ottenuta nella fase di
pre-test del questionario, quando una versione preliminare di quest’ultimo viene
sottoposta al vaglio di un piccolo campione ragionato di intervistati, in genere
selezionato per elementi tipici o per elementi estremi.
Una terza soluzione sfrutta l’esistenza di una relazione nota tra lo scarto quadratico
medio σ e il campo di variazione (range) CV di una variabile; è infatti:
σ =
da cui segue che la varianza 𝜎
ଶ
è al più uguale a 𝐶𝑉
ଶ
Se nell’equazione si sostituisce proprio questo valore si perviene ad una valutazione
prudenziale della numerosità campionaria compatibile con l’assunto di massima
variabilità teorica del carattere.
Ragionando in questo modo il problema di determinare una stima preliminare per la
varianza si trasforma in realtà in quello di indicare il valore del campo di variazione,
che a sua volta generalmente non sarà noto. E poiché tale campo di variazione
coincide con la differenza fra l’intensità massima e quella minima del carattere della
popolazione, il tutto si riconduce alla stima delle intensità massima e minima sulla
base di ragionevoli congetture.
Finora abbiamo chiarito che la dimensione n di un campione casuale semplice può
essere calcolata in modo univoco mediante formule appropriate una volta stabiliti il
piano di campionamento, la dimensione della popolazione, la grandezza dell’errore
che si è disposti a tollerare e il grado di fiducia che l’accompagna, nel quadro della
determinazione dell’intervallo di confidenza di un parametro incognito.
Viceversa, se sono prefissate le modalità del campionamento, la dimensione della
popolazione e la numerosità del campione, imposta ad esempio da un ammontare di
spesa complessiva dell’indagine da non superare, grazie alle stesse formule sono
calcolabili gli errori massimi corrispondenti a diversi gradi di fiducia.
In questo caso è possibile ovviamente scegliere fra combinazioni alternative delle due
grandezze; ma se il campione è piccolo, si riscontra non di rado un margine di errore
molto elevato e un grado di fiducia relativamente basso.
Quando si utilizza un piano di campionamento diverso da quello casuale semplice,
come ad esempio quello stratificato, pur seguendo sostanzialmente la stessa linea di
ragionamento si perviene ad espressioni analitiche più complesse di quelle appena
riprodotte.
Se indichiamo con 𝑃
la proporzione oggetto di studio in un generico strato della
popolazione, il campionamento stratificato per attributi porta alla seguente relazione
con riferimento alla dimensione del campione:
ୀଵ
ଶ
ఈ/ଶ
ଶ
ୀଵ
ఈ/ଶ
ଶ
Dove i simboli N, 𝑊
, 𝜃 e 𝑧
ఈ/ଶ
assumono il significato già visto.
Se indichiamo poi con 𝜎
ଶ
la varianza del carattere d’interesse in ciascun strato della
popolazione, il campionamento stratificato per variabili consentirà di pervenire alla
seguente equazione:
ୀଵ
ଶ
ఈ/ଶ
ଶ
ଶ
ୀଵ
ఈ/ଶ
ଶ
Quanto esposto finora può essere chiarito meglio illustrando alcune possibili soluzioni
per il caso di interesse il cui enunciato è stato proposto all’inizio della dispensa. Il
problema è quello di progettare un’indagine campionaria per stimare il numero di
famiglie già in possesso di una lavastoviglie a Bologna. Conoscendo il numero totale
delle famiglie residenti, si tratta più semplicemente di stimare la proporzione di quelle
che possiedono l’elettrodomestico in questione. Come è stato osservato in
precedenza, la formazione di un campione di famiglie per quote richiederebbe di
reperire in primo luogo informazioni statistiche utili alla determinazione preventiva di
tali quote. A questo riguardo va tenuto presente che sulla domanda di lavastoviglie
possono incidere il livello del reddito di cui la famiglia dispone e le caratteristiche del
nucleo familiare (ampiezza, età e sesso dei singoli componenti e condizione
professionale di quelli attivi). Le quote dovrebbero pertanto comprendere famiglie
tendenzialmente omogenee rispetto a questi aspetti. Numerose ricerche hanno
evidenziato che nei centri urbani l’insediamento dei gruppi sociali è influenzato da
fattori demografici, economici, culturali, talvolta anche puramente psicologici, che
agiscono come forze attrattive o repulsive dando luogo ad una distribuzione