Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Campionamento e metodi statistici, Dispense di Statistica

Dispensa utile per la preparazioni di esami di statistica. In particolare, la prima parte riguarda i metodi di campionamento, mentre la seconda riguarda il modello di regressione lineare multipla e gli indici di produttività.

Tipologia: Dispense

2021/2022

In vendita dal 29/06/2024

G.I.O.R.G.I.O.
G.I.O.R.G.I.O. 🇮🇹

15 documenti

1 / 83

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Pag. 1 a 83
STATISTICA PER LE DECISIONI AZIENDALI
2. Disponibilità e produzione delle informazioni statistiche.
2.2. Fonti interne: sistemi informativi aziendali e la loro informatizzazione.
Le fonti di dati interne all’azienda contribuiscono in misura rilevante a costruire
l’informazione su cui si basano le scelte manageriali. Le aziende, infatti, generano una
moltitudine di dati nell’esercizio delle proprie funzioni. In questo libro ci soffermiamo
sugli aspetti organizzativi dell’informazione all’interno di un’azienda, di cui il Sistema
Informativo Aziendale (SIA) rappresenta la realizzazione compiuta.
Oggi SIA indica generalmente il sistema che fornisce le informazioni necessarie per
governare un’azienda in modo efficiente ed efficace. Tale sistema si avvale di tre
risorse principali: le informazioni presenti in azienda, le modalità di gestione delle
stesse e le risorse (umane e tecnologiche) coinvolte.
Un primo passo verso l’informatizzazione del SIA avviene quando i dati elementari
sono salvati e organizzati in modo sistematico in archivi tematici come gli archivi
vendite, l’anagrafe dei clienti e dei fornitori o l’archivio ordini. Successivamente tali
archivi possono essere collegati, secondo un determinato modello logico (modello
relazionale è il più utilizzato), in un unico database in modo da consentire la gestione
dei dati da parte di particolari software. Il database aziendale, dunque, non è altro
che un insieme strutturato di dati collegati da relazioni. L’evoluzione del database è il
cosiddetto data warehouse, letteralmente “magazzino” in cui confluiscono dati di
origine diversa, con l’obiettivo specifico di produrre informazioni orientate ai bisogni
dell’utente. Rispetto al database aziendale, un data warehouse:
a) Integra i dati provenienti dagli archivi aziendali con dati provenienti da fonti
esterne;
b) Fornisce informazioni “su misura” per l’utente;
c) Immagazzina i dati in serie storica;
d) Consente l’accesso ai dati in sola lettura, preservandone l’integrità.
Il data warehouse, dunque, sfruttando e integrando dati e informazioni già disponibili
sia all’interno che all’esterno dell’azienda, rappresenta l’infrastruttura informatica di
base di supporto alle decisioni.
2.3. Fonti esterne. Statistica ufficiale e statistica privata.
Le fonti di dati esterne all’azienda sono costituite dall’insieme delle statistiche
prodotte da soggetti sia pubblici che privati che operano nel sistema. In questo libro
concentriamo l’attenzione sui seguenti argomenti: la contabilità macroeconomica, le
caratteristiche strutturali del sistema produttivo, i risultati economici delle imprese, il
comportamento del consumatore.
2.3.1. I conti nazionali di un Paese: dalla contabilità aziendale alla
contabilità nazionale.
L’attività di un’impresa risente inevitabilmente del contesto macroeconomico in cui
essa opera, per questo tra le fonti di dati di interesse per le imprese riteniamo utile
inserire i conti nazionali, che forniscono appunto una rappresentazione quantitativa
dell’attività economica complessiva di un Paese, in un determinato periodo di tempo.
I conti nazionali organizzano i flussi monetari in schemi contabili strutturati secondo il
metodo della partita doppia, con flussi in entrata, in uscita e saldi contabili.
Ciascun conto ha l’obiettivo di registrare i flussi monetari che caratterizzano uno
specifico momento del processo economico, ciascuno riconducibile a una delle
seguenti quattro fasi fondamentali:
1 Fase di produzione;
2 Fase di distribuzione e re-distribuzione del reddito;
3 Fase del consumo;
4 Fase di accumulazione.
I conti nazionali presentano la stima degli aggregati macroeconomici più importanti
del sistema, come il valore della produzione, del reddito, della spesa per consumo,
degli investimenti, del risparmio, fino all’indebitamento/accreditamento del Paese nei
confronti del resto del mondo. L’aggregato cardine dell’intero sistema è il Prodotto
Interno Lordo (PIL).
Presentiamo adesso il Conto delle risorse e degli impieghi, non solo per fornire un
esempio concreto di conto nazionale, ma anche perché questo conto in particolare
fornisce una visione d’insieme sulla situazione economica del Paese. Il Conto delle
risorse e degli impieghi descrive le operazioni di scambio che avvengono nel mercato
dei beni e servizi finali, escludendo cioè quelli destinati a consumo intermedio. Si tratta
in pratica di un bilancio tra gli elementi dell’offerta totale costituiti dal PIL e dalle
Importazioni, e gli elementi della domanda finale, formati dal valore dei Consumi, degli
Investimenti e delle Esportazioni.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53

Anteprima parziale del testo

Scarica Campionamento e metodi statistici e più Dispense in PDF di Statistica solo su Docsity!

STATISTICA PER LE DECISIONI AZIENDALI

2. Disponibilità e produzione delle informazioni statistiche.

2.2. Fonti interne: sistemi informativi aziendali e la loro informatizzazione.

Le fonti di dati interne all’azienda contribuiscono in misura rilevante a costruire

l’informazione su cui si basano le scelte manageriali. Le aziende, infatti, generano una

moltitudine di dati nell’esercizio delle proprie funzioni. In questo libro ci soffermiamo

sugli aspetti organizzativi dell’informazione all’interno di un’azienda, di cui il Sistema

Informativo Aziendale (SIA) rappresenta la realizzazione compiuta.

Oggi SIA indica generalmente il sistema che fornisce le informazioni necessarie per

governare un’azienda in modo efficiente ed efficace. Tale sistema si avvale di tre

risorse principali: le informazioni presenti in azienda, le modalità di gestione delle

stesse e le risorse (umane e tecnologiche) coinvolte.

Un primo passo verso l’informatizzazione del SIA avviene quando i dati elementari

sono salvati e organizzati in modo sistematico in archivi tematici come gli archivi

vendite, l’anagrafe dei clienti e dei fornitori o l’archivio ordini. Successivamente tali

archivi possono essere collegati, secondo un determinato modello logico (modello

relazionale è il più utilizzato), in un unico database in modo da consentire la gestione

dei dati da parte di particolari software. Il database aziendale, dunque, non è altro

che un insieme strutturato di dati collegati da relazioni. L’evoluzione del database è il

cosiddetto data warehouse, letteralmente “magazzino” in cui confluiscono dati di

origine diversa, con l’obiettivo specifico di produrre informazioni orientate ai bisogni

dell’utente. Rispetto al database aziendale, un data warehouse:

a) Integra i dati provenienti dagli archivi aziendali con dati provenienti da fonti

esterne;

b) Fornisce informazioni “su misura” per l’utente;

c) Immagazzina i dati in serie storica;

d) Consente l’accesso ai dati in sola lettura, preservandone l’integrità.

Il data warehouse, dunque, sfruttando e integrando dati e informazioni già disponibili

sia all’interno che all’esterno dell’azienda, rappresenta l’infrastruttura informatica di

base di supporto alle decisioni.

2.3. Fonti esterne. Statistica ufficiale e statistica privata.

Le fonti di dati esterne all’azienda sono costituite dall’insieme delle statistiche

prodotte da soggetti sia pubblici che privati che operano nel sistema. In questo libro

concentriamo l’attenzione sui seguenti argomenti: la contabilità macroeconomica, le

caratteristiche strutturali del sistema produttivo, i risultati economici delle imprese, il

comportamento del consumatore.

2.3.1. I conti nazionali di un Paese: dalla contabilità aziendale alla

contabilità nazionale.

L’attività di un’impresa risente inevitabilmente del contesto macroeconomico in cui

essa opera, per questo tra le fonti di dati di interesse per le imprese riteniamo utile

inserire i conti nazionali, che forniscono appunto una rappresentazione quantitativa

dell’attività economica complessiva di un Paese, in un determinato periodo di tempo.

I conti nazionali organizzano i flussi monetari in schemi contabili strutturati secondo il

metodo della partita doppia, con flussi in entrata, in uscita e saldi contabili.

Ciascun conto ha l’obiettivo di registrare i flussi monetari che caratterizzano uno

specifico momento del processo economico, ciascuno riconducibile a una delle

seguenti quattro fasi fondamentali:

1 Fase di produzione;

2 Fase di distribuzione e re-distribuzione del reddito;

3 Fase del consumo;

4 Fase di accumulazione.

I conti nazionali presentano la stima degli aggregati macroeconomici più importanti

del sistema, come il valore della produzione, del reddito, della spesa per consumo,

degli investimenti, del risparmio, fino all’indebitamento/accreditamento del Paese nei

confronti del resto del mondo. L’aggregato cardine dell’intero sistema è il Prodotto

Interno Lordo (PIL).

Presentiamo adesso il Conto delle risorse e degli impieghi, non solo per fornire un

esempio concreto di conto nazionale, ma anche perché questo conto in particolare

fornisce una visione d’insieme sulla situazione economica del Paese. Il Conto delle

risorse e degli impieghi descrive le operazioni di scambio che avvengono nel mercato

dei beni e servizi finali, escludendo cioè quelli destinati a consumo intermedio. Si tratta

in pratica di un bilancio tra gli elementi dell’offerta totale costituiti dal PIL e dalle

Importazioni, e gli elementi della domanda finale, formati dal valore dei Consumi, degli

Investimenti e delle Esportazioni.

Gli aggregati del Conto delle risorse e degli impieghi sono ulteriormente disaggregati

secondo criteri che dipendono dalla natura dell’aggregato considerato. Per esempio,

la produzione è suddivisa secondo branche di attività economica.

A fianco dei Conti per branca di attività economica, la Contabilità nazionale compila i

Conti per settore istituzionale, che hanno l’obiettivo di analizzare il comportamento

economico di gruppi di operatori omogenei detti Settori istituzionali. In particolare, la

Contabilità nazionale distingue cinque settori: Società non finanziarie, Società

finanziarie, Amministrazioni pubbliche, famiglie e Istituzioni senza scopo di lucro al

servizio delle famiglie.

2.3.2. Le fonti sulle caratteristiche strutturali delle imprese.

Una prima caratteristica strutturale riguarda il tipo di attività economica svolta

dall’azienda e codificata con la già citata classificazione Ateco. Tale caratteristica

definisce il profilo settoriale dell’impresa; una seconda caratteristica fa riferimento al

profilo dimensionale dell’impresa; infine, un’ulteriore caratteristica strutturale è data

dal profilo territoriale dell’impresa. La fonte che descrive in modo esaustivo e

completo le caratteristiche strutturali del sistema produttivo italiano è il Censimento

dell’Industria e dei Servizi (CIS).

Nel CIS, le imprese sono analizzate non solo per settore di attività economica, ma

anche per classe dimensionale, forma giuridica e altri caratteri, come il fatto di essere

o meno un’impresa artigiana o di essere costituita da una o più unità locali.

Informazioni così dettagliate consentono all’impresa di collocare la propria attività in

un determinato contesto territoriale, settoriale e dimensionale. Purtroppo, la scarsa

tempestività dei dati, dovuta sia alla cadenza decennale che ai lunghi tempi di

elaborazione dei dati, ne limitano molto l’utilità.

Per molti anni non è esistita alcuna fonte in grado di tener conto dei mutamenti

strutturali del sistema produttivo intervenuti tra un censimento e il successivo. Solo

nel 1997, con il Censimento intermedio dell’industria, furono gettate le basi per la

costruzione di un Archivio delle imprese attive, finalizzato a seguire l’evoluzione

intercensuaria della struttura del sistema produttivo.

Attualmente, l’ISTAT produce e pubblica tavole di sintesi tratte, soprattutto dall’ASIA,

l’archivi delle imprese attive. Tale archivio è aggiornato sulla base di una pluralità di

archivi amministrativi gestiti dalle Camere di commercio, dall’Agenzia delle entrate,

da enti previdenziali come INPS e da altri enti pubblici.

2.3.3. Le fonti sui risultati economici delle imprese.

I risultati economici delle imprese sono rilevati da una pluralità di fonti che possono

essere raggruppate nelle seguenti categorie:

a) Il sistema di indagini sui risultati economici delle imprese condotte dall’ISTAT;

b) Le banche dati sui bilanci aziendali.

Le indagini ISTAT.

Il nucleo fondamentale è costituito da due indagini integrate, entrambe dirette a

rilevare informazioni sui risultati economici delle imprese dell’Industria e dei Servizi.

La prima, campionaria, è diretta alle imprese di piccole e media dimensioni, ovvero

con un numero di addetto compreso tra 1 e 99 (indagine PMI). La seconda, è

un’indagine totale per le imprese con almeno 100 addetti (indagine SCI). Entrambe le

fonti rilevano informazioni dettagliate sulle voci di conto economico, sull’occupazione,

sul costo del personale, sugli investimenti. Per le grandi imprese sono inoltre fornite

informazioni tratte dallo stato patrimoniale.

Sulla base di tali informazioni è possibile comparare il risultato economico della

propria impresa rispetto a quello medio delle imprese appartenenti allo stesso settore

di attività economica, alla stessa classe dimensionale, allo stesso contesto territoriale.

Il limite principale di queste statistiche è la scarsa tempestività con cui esse vengono

rilasciate. Inoltre, la cadenza annuale delle indagini consente l’analisi di dinamiche di

medio-lungo periodo ma non di cogliere i movimenti infra-annuali.

L’evoluzione di breve periodo è misurata tramite i cosiddetti indicatori congiunturali,

ovvero serie trimestrali e mensili di fenomeni riguardanti vari ambiti di interesse per

l’impresa, come il fatturato e gli ordinativi dell’industria, i costi delle materie prime, la

retribuzione e il costo del lavoro nelle grandi imprese o i prezzi di vendita dei prodotti

dell’industria.

Le banche dati sui bilanci aziendali.

Queste banche dati sono ottenute rielaborando dati di origine amministrativa tratti

dai bilanci delle singole società di capitali italiane. Il contenuto, pertanto, ricalca quello

del bilancio, cui si accompagnano, in alcuni casi, informazioni tratte dalla nota

integrativa e dalle relazioni che vengono allegate al bilancio stesso.

Le principali banche dati sui bilanci aziendali sono fornite dalla Cerved B.I. S.p.A. e dalla

Centrale dei bilanci. I dati tratti da queste fonti sono utilizzati principalmente per

confrontare la performance dell’impresa con quella delle imprese concorrenti.

trattandosi di dati individuali, i confronti possono essere più mirati rispetto a quanto

possa essere fatto utilizzando i dati di indagine richiamati al punto precedente.

2.6. La produzione di dati ad hoc: le indagini campionarie.

Quando le statistiche disponibili non sono in grado di rispondere alle esigenze

conoscitive dell’impresa, è necessario condurre un’indagine ad hoc. Le informazioni

possono essere acquisite su tutte le unità che compongono la popolazione oppure

soltanto su una parte di esse: nel primo caso si parla di indagine censuaria, nel

secondo, si parla di indagine campionaria.

La popolazione oggetto di indagine è detta popolazione obiettivo (universo), mentre

il campione è la parte di popolazione sulla quale vengono raccolte le informazioni. Le

unità del campione, indicate come unità di rilevazione, non sempre coincidono con gli

individui/entità su cui vengono rilevate le informazioni, ovvero con le unità di analisi.

Molte indagini ISTAT con la famiglia come unità di rilevazione hanno l’individuo,

l’abitazione e la stessa famiglia come unità di analisi.

I dati raccolti devono essere registrati, corretti e, infine, analizzati. L’indagine si

conclude con la stesura di un rapporto di ricerca che contiene, oltre all’analisi dei

risultati, anche la descrizione delle modalità seguite per l’esecuzione dell’indagine

stessa.

Il processo di realizzazione di un’indagine è dunque molto complesso. Le fasi di

progettazione dell’indagine riguardano:

  1. L’identificazione della popolazione di riferimento (obiettivo) dalla quale

selezionare il campione;

  1. La definizione degli obiettivi conoscitivi della ricerca e conseguentemente

l’individuazione delle informazioni da raccogliere;

  1. La scelta della procedura di rilevazione;
  2. La scelta dei criteri di selezione del campione (piano di campionamento);
  3. La scelta della metodologia di stima dei parametri di interesse della

popolazione, se si è selezionato un campione con criterio casuale;

  1. La determinazione della dimensione del campione da realizzare;
  2. La messa a punto del questionario;
  3. La valutazione dei costi di progettazione e di esecuzione dell’intera ricerca.

La soluzione di un’indagine campionaria è giustificata dai diversi vantaggi che una

rilevazione campionaria presenta rispetto ad una rilevazione censuaria:

 Modalità organizzative più flessibili;

 Contenimento dei costi di indagine sul campo;

 Maggiore rapidità nella raccolta e nella elaborazione dei dati;

 Possibilità di approfondire l’analisi dei fenomeni oggetti di studio e di

garantire una maggiore accuratezza in tutte le fasi dell’indagine, poiché la

minore complessità organizzativa favorisce la possibilità di concentrare le

risorse sul controllo della qualità della rilevazione.

Aspetti Indagine censuaria Indagine campionaria

Risorse economiche Elevate Contenute

Durata delle operazioni Lunga Breve

Errore campionario Assente Presente

Altri tipi di errore Presente Presente

2.6.1. Popolazione obiettivo, popolazione effettiva, popolazione

d’indagine.

Una delle domande principali cui dobbiamo rispondere nella fase di progettazione di

un’indagine campionaria è la seguente: “A chi vogliamo che siano generalizzate le

informazioni rilevate sul campione?” Tale specifico gruppo di elementi costituisce

l’universo o popolazione obiettivo.

Nelle popolazioni di dimensione finita è teoricamente possibile enumerare ed

etichettare gli elementi che la compongono. Una popolazione infinita, per contro, è

composta da tutte le unità potenzialmente osservabili e non necessariamente già

esistenti. In questo capitolo faremo riferimento esclusivamente a popolazioni di

dimensione finita e indicheremo di norma con N il numero complessivo di unità

componenti la popolazione.

Una volta specificato l’universo, è necessario reperire la lista delle unità che ne fanno

parte, la cosiddetta lista di campionamento, in modo da poter identificare e

raggiungere le unità stesse. La lista è dunque un insieme ordinato di contrassegni delle

unità della popolazione, registrati su un supporto che ne consenta la consultazione.

Nella pratica, questa operazione è difficoltosa, talvolta impossibile. La questione non

è di poco conto, perché la mancanza di una lista di campionamento impedisce di

selezionare il campione con metodi probabilistici e dunque di estendere all’intera

popolazione i risultati osservati sul campione attraverso il processo di inferenza

statistica. Quando è impossibile reperire la lista di campionamento, si ricorre, come

vedremo, a schemi di campionamento non probabilistici.

Anche quando è possibile individuare o costruire una lista di campionamento, può

accadere che questa possa non identificare esattamente la popolazione obiettivo. Il

più dele volte, soprattutto in campo sociale ed economico, la popolazione individuata

tramite la lista di campionamento (detta popolazione di selezione) corrisponde a

un’approssimazione della popolazione obiettivo.

Per indagini su famiglie o individui possiamo utilizzare come liste di campionamento

alcuni archivi di tipo amministrativo, come le liste dell’anagrafe della popolazione, le

liste elettorali o gli elenchi di abbonati alla rete fissa telefonica. In questi casi è

evidente come la popolazione di selezione differisca dalla popolazione obiettivo: nelle

liste elettorali, per esempio, non sono presenti i minori, né le persone che, pur

abitando nell’aria di interesse risiedono altrove, né tantomeno coloro che non hanno

diritto di voto; gli elenchi telefonici, d’altra parte, hanno il limite di raggiungere

soltanto gli individui che hanno un abbonamento alla rete telefonica fissa. [errore di

mancata copertura disallineamento della popolazione di selezione da quella

obiettivo].

Per la selezione di campioni di imprese o di esercizi commerciali, la principale lista di

riferimento è il Registro delle imprese tenuto dalle Camere di Commercio.

La popolazione di selezione non rappresenta ancora la popolazione a cui possono

effettivamente essere generalizzate le informazioni raccolte sul campione. Infatti, la

composizione del campione (e quindi delle informazioni rilevate su di esso) può

cambiare anche in maniera significativa a causa dell’impossibilità di rintracciare alcune

unità (unità cadute o dropouts) o del rifiuto da parte di alcune di queste, di partecipare

alla rilevazione o di rispondere ad alcune domande. Il fenomeno della mancata

osservazione di un’unità che fa parte della popolazione di selezione prende il nome di

non risposta o mancata risposta totale.

In presenza di mancate risposte, il campione effettivo diventa un sottoinsieme del

campione teorico, in grado di fornire evidenza soltanto per quella parte della

popolazione di selezione rappresentata dalle unità effettivamente osservate. Tale

popolazione è detta popolazione di indagine.

2.6.2. Formazione del campione.

L’obiettivo di un’indagine campionaria è quello di giungere a stimare alcuni parametri

della popolazione sulla base della evidenza fornita dal campione selezionato. La

differenza tra la stima del parametro ottenuta sulla base dell’osservazione delle unità

del campione e il valore del parametro nella popolazione è detta errore statistico.

L’indagine censuaria, a meno di errori riconducibili a una non corretta esecuzione delle

fasi di rilevazione e registrazione dei dati (mancata copertura della lista di

campionamento, errori di risposta ecc.), restituisce il vero valore del parametro di

interesse, mentre l’indagine campionaria ne fornisce solo una stima, proprio per il

fatto di rilevare il carattere su una parte e non sul totale della popolazione. Tuttavia,

quest’ultimo tipo di errore (errore campionario) può essere stimato se il campione è

stato selezionato con meccanismo casuale (campione probabilistico). Al contrario,

non sarà possibile affiancare una misura dell’errore campionario alle stime ottenute

sulla base di campioni non probabilistici, selezionati cioè sulla base di scelte arbitrarie

dello stesso intervistatore, spesso dettate da considerazioni di ordine pratico.

Mentre per i campioni probabilistici deve essere nota a priori la probabilità di

inclusione nel campione per ciascuna unità statistica, nel caso dei campioni non

probabilistici, tale probabilità è ignota o non viene considerata.

Campionamento

probabilistico

Campionamento non

probabilistico

Risorse economiche Elevate Contenute

Durata delle operazioni Lunga Breve

Errore campionario Valutabile Non valutabile

Rappresentatività della

popolazione

Buona Non valutabile

La figura 2.2 elenca i principali metodi di campionamento, raggruppandoli nelle due

macrocategorie dei campioni di tipo probabilistico da quelli di tipo non probabilistico.

Tecniche di campionamento non probabilistico: metodi di selezione campionaria.

Perché effettuarli se sappiamo che non sono utili per fare inferenza statistica?

Forniscono informazioni, indicazioni di partenza e ipotesi di lavoro. L’importante è non

avere la pretesa di attribuire a un campione di quel tipo caratteristiche che non ha,

ossia conoscere a prescindere che tramite campioni non probabilistici non è possibile

effettuare inferenza statistica. Dunque, il campionamento non probabilistico trova

largo impiego nelle ricerche di mercato, gode di diversi vantaggi come la semplicità

organizzativa, i bassi costi di realizzazione e la velocità di esecuzione. Per contro, i limiti

estremi. In tutti questi casi la dimensione del campione viene fissata di norma in base

a criteri di pura convenienza. L’organizzazione dell’indagine risulta generalmente

snella e i tempi di realizzazione sono abbastanza rapidi, il che si traduce, non di rado,

in un sensibile contenimento dei costi.

 Campionamento per quote.

Il metodo si basa sulla riproduzione nella composizione del campione di alcune

caratteristiche distributive note della popolazione, nonostante non si dispone di una

lista di campionamento e nonostante non si applicano criteri di casualità nella

selezione delle unità campionarie. Questa metodologia prevede quattro fasi:

  1. Si individuano le caratteristiche rilevanti della popolazione da riprodurre nel

campione (es. genere e/o età, settore e/o dimensione);

  1. Attraverso idonee fonti statistiche si calcola il peso percentuale dei

corrispondenti gruppi sul totale della popolazione;

  1. Stabilita la numerosità campionaria, essa è ripartita tra i gruppi individuati in

modo che il campione rispecchi la composizione della popolazione;

  1. Ai rilevatori sono assegnate le quote, ovvero il numero di interviste da

effettuare liberamente in ognuno dei gruppi.

Il campionamento per quote può essere interpretato come una variante del

campionamento a scelta ragionata, realizzata però con le modalità organizzative

tipiche del campionamento di comodo. Come avviene per quest’ultimo, si prescinde

completamente dalla disponibilità di una lista che contenga i nominativi degli

appartenenti alla popolazione obiettivo e non vi è dunque alcuna selezione

campionaria che imponga ai rilevatori di contattare determinate unità statistiche. Gli

intervistatori hanno la massima discrezionalità nel decidere chi avvicinare e

coinvolgere nell’indagine, ma devono rispettare rigorosamente un vincolo prestabilito

in fase di progettazione: il campione realizzato dovrà avere una composizione per

specifiche caratteristiche (generalmente di natura sociodemografica) perfettamente

identica a quella della popolazione di riferimento, cioè appunto dovrà riprodurne le

quote. In altri termini, campione e popolazione devono condividere la medesima

composizione relativa rispetto a caratteri delle unità statistiche quali il sesso, l’età, la

zona di residenza, il livello di istruzione, la condizione professionale, la posizione nella

professione. Grande importanza vengono ad avere in questo caso l’aggiornamento e

l’attendibilità delle fonti statistiche a partire dalle quali sono tratte le informazioni

necessarie per determinare le quote.

Le quote prefissate possono essere marginali, se ognuna delle assegnazioni è

indipendente dalle altre, oppure associate, se la documentazione statistica disponibile

consente di dare indicazioni su due o più caratteri simultaneamente incrociati tra loro.

Spesso chi progetta la ricerca, per tenere sotto controllo l’operato degli intervistatori

frenandone l’arbitrio nella fase di reclutamento del campione, li obbliga a seguire

percorsi predeterminati a partire da un punto di partenza assegnato se l’intervista è

diretta, oppure a rispettare modalità di contatto prefissate nel caso l’intervista

avvenga telefonicamente. Il criterio ragionato sottostante a questo tipo di

campionamento consiste nel pensare che, a parità di composizione strutturale tra

campione e popolazione, il campione possa ritenersi automaticamente

rappresentativo. Si tratta ovviamente di una rappresentatività solo presunta e non

verificata in concreto. In realtà, il fatto di intervistare soprattutto le persone più

disponibili a collaborare o più facilmente reperibili, e quindi verosimilmente tra loro

più simili per abitudini e atteggiamenti – caratteristica tipica del campionamento per

quote – potrebbe comportare una sottostima sistematica della variabilità esistente

nella popolazione di riferimento.

La scelta casuale di un campione consiste in una procedura equivalente all’estrazione

di palline numerate, di forma e peso uguali, indistinguibili, da un’urna nel quadro di

una strategia o piano di campionamento (sampling frame) che assegna una

probabilità di estrazione nota a priori ad ogni campione appartenente ad un certo

insieme (universo dei campioni).

Solo quando il campione è scelto casualmente è possibile calcolare il rischio

dell’errore a cui ci si espone nella stima delle caratteristiche oggetto di interesse

(errore casuale di campionamento) ed estendere mediante procedimenti di inferenza

induttiva inversa i risultati all’intera popolazione. Questa operazione è di grande

importanza, tanto sul piano teorico che nella pratica, ed è illegittima – è opportuno

ripeterlo ancora una volta – quando si lavora con campioni ragionati o per quote.

Nel campo dei sondaggi di opinione e delle indagini di mercato è della massima

importanza fornire stime affidabili delle caratteristiche della popolazione da cui

proviene il campione rispettando l’ordine di grandezza della spesa che viene

generalmente preventivata (vincolo di bilancio). Per i motivi appena ricordati il

campionamento probabilistico è il solo procedimento capace di garantire questa

possibilità. L’inevitabile margine di errore che accompagna i risultati di un’indagine

campionaria, per quanto le operazioni di progettazione e di rilevazione siano condotte

in modo accurato, richiede che la loro presentazione sia corredata da informazioni che

ne consentano una lettura corretta, soprattutto nei casi in cui gli utilizzatori abbiano

conoscenze statistiche limitate o ne siano addirittura sprovvisti. La teoria degli

intervalli di confidenza rende disponibile la strumentazione statistica necessaria per

valutare il rischio (o la probabilità) di commettere errori casuali di prefissata ampiezza

nella stima delle grandezze (parametri) d’interesse. Ciò avviene in base ai risultati che

si osservano sul solo campione di cui normalmente si dispone, tenuto conto di

relazioni note tra i valori caratteristici della popolazione e quelli corrispondenti

dell’universo dei campioni casuali. Tali relazioni vanno riferite non già al singolo

campione, che a priori non è noto e di cui a posteriori si ignora pur sempre il grado di

rappresentatività, ma all’insieme di tutti i possibili campioni. Solo in questo senso si

perviene a risultati precisi e sicuri.

Tipi di liste e metodi di rilevazione. (Dispensa paragrafo 2)

Fissare gli obiettivi di un sondaggio di opinione o di un’indagine di mercato significa

essenzialmente che il committente e il ricercatore si accordino su cosa si vuole

conoscere e – aspetto della massima importanza – con quale approssimazione.

Successivamente occorre identificare la popolazione di riferimento, l’unità di

osservazione, il tipo e le caratteristiche del piano di campionamento e, nel caso di

campionamento probabilistico, scegliere gli stimatori.

Prima ancora di decidere i criteri da seguire per la selezione delle unità campionarie,

è fondamentale definire in modo chiaro la popolazione oggetto di studio, cioè

identificare quali unità elementari ne fanno parte e quali ne sono invece escluse. Ciò

che fa di un aggregato di elementi una popolazione è l’esistenza di una o più

caratteristiche presenti in tutte le unità e che possono interessare come oggetto di

analisi. Se una volta contattato un individuo risulta piuttosto agevole stabilirne

l’appartenenza o meno a questa popolazione, non è altrettanto immediato individuare

a priori le unità che costituiscono il collettivo di riferimento. Capita spesso, infatti, di

non disporre di una lista ufficiale di tutti gli appartenenti alla popolazione di interesse,

e crearne una ex novo potrebbe rivelarsi abbastanza oneroso in termini di tempo e di

risorse necessari. Pertanto, anche in ragione degli obiettivi conoscitivi che si vogliono

raggiungere, la progettazione di un campione probabilistico può risultare molto

complessa in rapporto alla disponibilità ed alla qualità delle liste da utilizzare per la

sua selezione. La lista, base dell’indagine per l’identificazione delle unità che

costituiscono la popolazione obiettivo, può infatti essere causa di problemi di vario

ordine: ad esempio, può risultare incompleta e/o contenere duplicazioni, soprattutto

per difetti di aggiornamento, ed essere quindi fonte di errori sistematici.

Per la selezione di campioni di famiglie o di individui sono disponibili liste di vario tipo:

l’anagrafe della popolazione, le liste elettorali, gli elenchi degli abbonati alla telefonia

residenziale, gli elenchi delle utenze domestiche dell’ENEL, ecc. L’uso dei registri

anagrafici è consentito tuttavia solo agli enti pubblici e agli organismi privati con

finalità pubbliche appartenenti al Sistema statistico nazionale (SISTAN). Diverso è il

caso delle liste elettorali, per le quali il legislatore ha previsto che la consultazione sia

consentita a chiunque ne faccia richiesta per finalità di ricerca o di sondaggio

d’opinione, pur nel rispetto della normativa vigente sulla privacy.

Le liste elettorali sono organizzate per sezioni, che corrispondono a frazioni del

territorio comunale comprendenti all’incirca 500-600 elettori, e per elenchi generali,

nei quali gli elettori compaiono in ordine alfabetico, distintamente per maschi e

femmine. L’esclusione dei minorenni limita la copertura completa della popolazione.

Le interviste personali, condotte abitualmente presso l’abitazione delle unità

statistiche se il campione è selezionato con criterio casuale da una lista, o presso luoghi

pubblici ed esercizi commerciali nel caso di criterio di comodo o per quote, presentano

alcuni vantaggi legati soprattutto alla possibilità di approfondire determinati

argomenti nell’ambito di indagini su temi molto articolati. In particolare, può risultare

più semplice grazie all’interazione positiva che spesso si stabilisce tra intervistato e

intervistatore mantenere elevate l’attenzione e la qualità di collaborazione dei

rispondenti. D’altra parte, gli intervistatori, anche in conseguenza del rigoroso

processo di selezione e formazione al quale sempre dovrebbero essere sottoposti,

sono in grado di fornire chiarimenti sulle domande e possono aiutarsi con il supporto

di elementi visivi grazie ai dispositivi di rilevazione (pc, tablet, smartphone, ecc.) a loro

disposizione, seguendo regole di comportamento il più possibile standardizzate.

Nel caso di interviste face-to-face quindi gli intervistatori siedono davanti agli

intervistati e man mano che l’intervista procede compilano contestualmente il

questionario in formato elettronico che appare sullo schermo del dispositivo utilizzato.

Si parla in questo caso di metodologia CAPI (Computer Assisted Personal Interview)

come alternativa alla tradizionale modalità di compilazione manuale di un

questionario cartaceo, nota anche con l’acronimo PAPI (Paper And Pencil Interview).

La metodologia CAPI permette di progettare un questionario completamente assistito,

che consente un controllo sulla coerenza formale delle domande e costituisce uno

schema di intervista lineare per l’intervistatore. Il percorso delle domande da porre è

controllato dal software utilizzato, per cui sono ridotte al minimo le possibilità di

errore per il rilevatore. È disponibile anche un servizio di help in linea che fornisce

istruzioni dettagliate per la gestione di ogni domanda, in sostituzione del manuale

solitamente affidato agli intervistatori per i questionari cartacei.

Tra i principali svantaggi che contraddistinguono le interviste personali vanno

segnalati i costi più elevati rispetto a tutte le altre tecniche di rilevazione, i tempi

verosimilmente più lunghi di realizzazione delle interviste e la potenziale influenza, se

non addirittura il vero e proprio condizionamento, che l’intervistatore potrebbe

esercitare sull’intervistato qualora nel questionario vengano affrontati argomenti di

natura personale e riservata, determinando di conseguenza distorsioni nelle risposte

(response bias).

Nella pratica, a fronte dei costi crescenti delle interviste personali e della diffidenza

con cui, soprattutto nelle grandi città, sono accettate visite a domicilio da parte degli

intervistatori, trova sempre più frequente applicazione nei sondaggi demoscopici e

nelle indagini di mercato su campioni numerosi l’alternativa rappresentata dalle

interviste telefoniche. Queste consentono di:

 conseguire vantaggi in termini di economicità e soprattutto di tempestività

della rilevazione;

 esercitare un maggiore controllo sull’operato degli intervistatori durante lo

svolgimento delle interviste, e non solo a posteriori;

 ottenere un contatto più agevole con gli intervistati, con la possibilità di

raggiungere anche coloro che non sono reperibili negli orari in cui di solito si

svolgono le interviste personali o che hanno l’abitudine di non aprire la porta

di casa ad estranei;

 utilizzare una metodologia che gestisce automaticamente le fasi

dell’intervista e soprattutto esercita un rigoroso controllo sul suo

svolgimento, nota come CATI (Computer Assisted Telephone Interview),

rendendo possibile un notevole miglioramento nella qualità dei dati raccolti.

Per realizzare sondaggi telefonici su linea residenziale fissa è particolarmente comodo

ricorrere agli elenchi telefonici gestiti da Telecom Italia piuttosto che ad altre liste,

perché ciò consente di disporre subito dei numeri per effettuare i contatti,

conoscendone però i limiti illustrati in precedenza.

Come è stato segnalato in precedenza, la maggior parte degli istituti di ricerca utilizza

la metodologia CATI come supporto per la definizione e la selezione delle unità di

campionamento, per l’inserimento dei dati, per la codifica delle risposte, per la

tabulazione e l’analisi dei risultati, grazie soprattutto alla graduale riduzione del costo

dei sistemi informatici. La rilevazione CATI si basa sull’interazione tra intervistatore e

personal computer. Il questionario è memorizzato nel pc e nel corso della telefonata

le domande scorrono a video. Le risposte sono digitate direttamente

dall’intervistatore e poi salvate in un database abbinato al questionario. Il software

controlla passo per passo lo svolgimento dell’intervista e compie in tempo reale

verifiche di completezza e di coerenza tra le risposte ottenute. Inoltre, è possibile

gestire automaticamente le telefonate, ovvero gli appuntamenti concordati con gli

intervistati. Il sistema CATI presuppone una struttura telefonica centralizzata con la

presenza di supervisori che controllano lo svolgimento delle interviste sia mediante

l’inserimento sulla linea telefonica (senza alcun disturbo per l’intervistato e con un

segnale di preavviso che può udire solo l’intervistatore), sia con un monitoraggio a

video del personal computer nel corso dell’intervista, sia ancora attraverso il riascolto

delle registrazioni. Per esaminare più in dettaglio le modalità con le quali il software

interviene nelle diverse fasi della ricerca, è opportuno suddividere quest’ultima in

almeno quattro fasi.

  1. Estrazione del campione. È possibile fornire al sistema l’esatta lista dei nominativi

e dei numeri telefonici preregistrati relativi alle persone da intervistare, in modo

che il sistema possa poi distribuirli ai rilevatori sulla base di proporzioni di

campionamento o di altri parametri prestabiliti. Inoltre, poiché sono necessari

mediamente tra i tre e i quattro contatti telefonici per far sì che un tentativo di

intervista vada a buon fine, e in ogni caso possono sempre verificarsi situazioni di

irreperibilità o di rifiuto a collaborare, è possibile affiancare al campione

programmato una lista di nominativi di riserva. Per evitare distorsioni questa lista

dovrebbe essere formata da persone con caratteristiche sociodemografiche il più

possibile analoghe a quelle del campione originario.

  1. Rilevazione dei dati. Il software segnala il numero telefonico da contattare e

procede alla sua composizione e chiamata attraverso la scheda modem collegata.

L’intervistatore legge le domande che compaiono sullo schermo e registra da

tastiera le relative risposte. Il sistema ne accerta la congruenza e seleziona

automaticamente la sequenza delle domande da porre. Durante l’intervista, alla

quale viene attribuito un codice univoco, sono registrati tutti gli avvenimenti di

interesse (ad esempio abbandoni o mancate risposte) e i tempi di svolgimento

(giorno, orario e durata dell’intervista e tentativi necessari prima di completarla).

I dati vengono memorizzati in un archivio centralizzato e rimane traccia degli

appuntamenti telefonici concordati con riferimento a quanti non fossero

reperibili in casa o disponibili al momento del primo contatto utile.

  1. Field telefonico. Il software interviene nelle fasi necessarie al controllo ed alla

verifica della rilevazione telefonica. Assolve innanzitutto ad una funzione di

monitoraggio dell’attività del rilevatore, consentendo al supervisore di osservare

sul proprio terminale lo svolgersi di un’intervista come se fosse effettuata in sua

presenza, ed eventualmente di scambiare messaggi con gli intervistatori.

Permette inoltre il controllo continuo dei dati rilevati in termini di percentuali di

risposte ottenute per una o più domande del questionario quando ancora

l’indagine non è terminata. È possibile aggiornare costantemente il valore delle

eventuali quote di campionamento e verificare, istante per istante, quali

sottogruppi del campione siano prossimi al completamento di quelle previste.

  1. Elaborazione dei risultati. Il sistema è in grado di effettuare il controllo e l’editing

dei dati rilevati. Inoltre, attraverso la definizione di un piano di elaborazione, può

generare tabelle statistiche di spoglio e di consultazione dei risultati in maniera

guidata.

Nella valutazione delle performances del metodo CATI vanno ricordati anche alcuni

importanti punti di forza, in primis la rapidità di realizzazione della ricerca, grazie

all’automatizzazione delle chiamate, alla gestione informatizzata degli appuntamenti,

alla rapidità dei sistemi di controllo centralizzati e alla riduzione dei tempi e dei costi

di elaborazione. Sono ovviamente eliminate tutte le fasi preliminari alle elaborazioni

tipiche di un’indagine telefonica gestita secondo modalità tradizionali (compilazione

manuale dei questionari, data entry, predisposizione di un piano di controllo dei dati

in termini di compatibilità e di coerenza reciproca).

Ragionando in termini generali, la tecnica dell’intervista telefonica presenta alcuni

svantaggi rispetto alle altre modalità d rilevazione, riconducibili sostanzialmente

all’assenza di un confronto faccia a faccia tra intervistatore e intervistato. Più

precisamente:

 È necessario limitare la durata dell’intervista per evitare conseguenze

imputabili a stanchezza e disinteresse del rispondente (in genere si suggerisce

di non superare i 10-15 minuti);

 È opportuno ricorrere a questionari strutturati o semi-strutturati;

 È impossibile presentare eventuale materiale di accompagnamento, a meno

di non inviarlo preventivamente.

I sondaggi postali hanno costituito per molto tempo la più tradizionale alternativa alle

interviste personali e telefoniche, anche se ormai vengono sempre meno impiegati.

Utilizzati soprattutto per motivi legati al contenimento dei costi, forniscono in genere

risultati di qualità inferiore perché danno luogo a tassi di risposta decisamente più

bassi (di solito inferiori alla metà di quelli che si ottengono con le altre tecniche

d’intervista). Richiedono peraltro un’organizzazione meno complessa, dal momento

che si elimina qualsiasi interferenza o distorsione causata dalla presenza

dell’intervistatore (ma al tempo stesso anche la possibilità di migliorare qualità e

quantità della collaborazione), permettendo all’intervistato di scegliere il momento

più opportuno per la compilazione del questionario, con maggior tempo a disposizione

per riflettere sulle risposte. La realizzazione standard di un sondaggio postale prevede

una serie di decisioni che incidono fortemente sul suo esito e che coinvolgono:

a) le caratteristiche del questionario in termini di formato, lunghezza, aspetto

editoriale (layout), ecc.;

b) la lettera di accompagnamento e presentazione della ricerca (cover letter);

origine dal notevolissimo abbattimento dei costi (inviare simultaneamente migliaia di

messaggi di posta elettronica contenenti gli inviti a partecipare all’indagine comporta

spese praticamente nulle) e dalla velocità enormemente superiore di spedizione e di

ricezione da parte degli interessati. A differenza di quanto avviene per i sondaggi

postali, la probabilità che il messaggio sia aperto direttamente dalla persona alla quale

è stato indirizzato è molto più elevata. Gli accessi per la compilazione del questionario

on-line possono essere personalizzati mediante l’assegnazione ad ogni intervistato di

specifici codici identificativi (userid e password) che permettono ai ricercatori di

seguire con precisione la dinamica temporale delle risposte. In questo modo inoltre

l’invio di solleciti successivi a chi non ha ancora risposto può essere pianificato con

grande meticolosità. L’analisi delle informazioni presenti all’interno dei log-files del

sito dove risiede il questionario fornisce altre interessanti indicazioni, consentendo ad

esempio di quantificare il numero degli accessi che si risolvono in una semplice

visualizzazione del questionario senza una sua successiva compilazione. Il ricorso ad

un questionario on-line facilita il compito del rispondente in presenza di domande

filtro, rende possibile l’effettuazione di controlli automatici sulle risposte e permette

l’accesso pressoché immediato ai dati forniti dagli intervistati.

Gli svantaggi principali dei sondaggi via Internet sono legati ovviamente alla necessità

di dover fare riferimento ai soli utenti della rete per la rilevazione. Quanto più le

caratteristiche sociodemografiche di questi differiscono da quelle riscontrabili

nell’intera popolazione – e sicuramente così avviene tuttora in Italia a causa delle

problematiche riconducibili al cosiddetto divario digitale (digital divide) – tanto più i

risultati ottenuti corrono il rischio di dare un’immagine parziale e distorta della realtà

complessiva. Infatti, chi ha consuetudine quotidiana con la rete Internet ed i suoi

strumenti non può essere considerato tuttora un sottoinsieme casuale, e di

conseguenza rappresentativo, dell’intera popolazione italiana. Lo stesso

ragionamento può essere fatto per il collettivo delle imprese dotate di un accesso

continuativo alla rete. Un’altra difficoltà importante è determinata dalla quasi totale

assenza di liste o elenchi già predisposti, che possano rendere agevole il lavoro di chi

deve progettare la selezione campionaria. Spesso non è facile individuare

nominativamente gli appartenenti alla popolazione di riferimento, e quindi una grande

quantità di energie deve essere dedicata alla ricostruzione di liste ad hoc.

Richiami ai principali chiami di campionamento probabilistico. (Dispensa par. 3).

Campionamento casuale semplice.

Il modo più semplice di formare un campione probabilistico da una popolazione

costituita di un numero finito (N) di elementi consiste nel selezionarne casualmente

un numero prestabilito (n < N) in modo tale da garantirsi che tutti i possibili campioni

di un uguale numero di elementi abbiano la stessa probabilità di essere selezionati.

Tale condizione è rispettata quando si procede alla selezione delle unità campionarie

estraendo in un’unica soluzione n palline da un’urna che ne contiene N, o estraendole

una alla volta senza mai rimettere la pallina estratta nell’urna (estrazione in blocco o

campionamento casuale semplice senza ripetizione). Alternativo a questo

procedimento è l’estrazione con ripetizione, che consiste nel reintrodurre la pallina

nell’urna dopo ogni estrazione, con la conseguenza che la stessa unità potrebbe

risultare selezionata più volte. Questa eventualità non è adeguata peraltro alle

esigenze operative di un’indagine campionaria e quindi questo tipo di estrazione non

viene mai utilizzato.

Disponendo di un elenco completo degli elementi della popolazione obiettivo

numerati progressivamente da 1 a N, e solo a questa condizione, un modo per

simulare l’estrazione di un campione di dimensione pari a n, mantenendo fermo il

riferimento allo schema dell’urna, è quello di ricorrere alla generazione di n numeri

pseudocasuali compresi nell’intervallo [1, N]. Tutti i principali software disponibili per

l’analisi statistica dei dati presentano routines in grado di dare origine a successioni di

numeri di questo tipo.

Il principale vantaggio di questa modalità di campionamento è sicuramente la

semplicità. Presenta tuttavia anche alcuni possibili svantaggi: innanzitutto, il campione

potrebbe presentarsi sparso sul territorio con conseguenti costi elevati di

organizzazione; in secondo luogo, poiché tutti i possibili campioni hanno uguale

probabilità di essere estratti, è possibile estrarre un cattivo campione, ossia un

campione poco rappresentativo della popolazione.

Il campionamento sistematico.

Un’alternativa può essere rappresentata dalla selezione campionaria con passo

sistematico. In altri termini, se si vuole estrarre da una popolazione costituita da N

unità un campione di dimensione pari a n, posto:

si potrà selezionare casualmente da un’urna contenente i primi k numeri naturali uno

di questi (che risulterà minore o uguale a k), indicato con il simbolo r. Questo numero

contrassegna il posto d’ordine occupato dalla prima unità da estrarre dalla lista di tutte

le unità che compongono la popolazione di base. Dopo l’unità che occupa il posto r si

contano k posizioni successive e si seleziona quella che occupa il posto (r + k), e poi

quelle che occupano via via i posti (r + 2k), (r + 3k), fino a quella che occupa il posto [r

  • (n – 1) k]; dopodiché il campione di n casi sarà stato selezionato. In questo quadro il

numero r estratto casualmente si chiama numero di partenza e il rapporto N/n è detto

passo di campionamento. Il procedimento è molto semplice e presenta rispetto al

campionamento casuale semplice vantaggi di implementazione.

È tuttavia cruciale il modo in cui viene formata la lista, perché solo se l’ordine in cui

compaiono i nominativi è davvero casuale allora il campione sistematico equivarrà in

tutto e per tutto a quello che si otterrebbe mediante la scelta casuale delle singole

unità. Ma - giova ripeterlo - solo a questa condizione, perché se nella lista c’è qualche

sistematicità o periodicità rispetto alla variabile che interessa prendere in

considerazione i due procedimenti non sono equivalenti.

Il problema va considerato caso per caso e, non di rado, può risultare controverso. Ad

esempio, se si dovesse selezionare un campione di fatture dall’elenco di tutte le

fatture di un’azienda, nel caso in cui il numero delle fatture emesse mensilmente fosse

relativamente stabile e fossero riscontrabili regolarità periodiche sulla fatturazione (si

pensi ad un programma informatico che emetta le fatture seguendo l’ordine

alfabetico del destinatario), l’adozione di un passo di campionamento fisso potrebbe

condurre ad osservare più frequentemente le schede relative ai clienti che acquistano

più spesso. In questo caso campionamento sistematico e campionamento casuale

potrebbero differire per quanto riguarda l’attendibilità dei risultati, a svantaggio del

campionamento sistematico.

Il vantaggio del campionamento sistematico è che per formare il campione è

sufficiente una sola estrazione casuale. Tuttavia, con tale metodo esistono rischi di

scarsa rappresentatività nella selezione del campione nel caso in cui la lista presenti

un qualche ordinamento di tipo ciclico o stagionale che, a causa di un passo di

campionamento non adatto, non venga colta.

Il campionamento stratificato.

Una questione molto importante è quella relativa alla predisposizione di piani di

campionamento alternativi a quello casuale semplice. Schemi di campionamento più

complessi possono richiedere:

a. il ricorso preliminare a procedimenti di stratificazione, che prevedono la

possibilità di suddividere la popolazione in gruppi o strati omogenei secondo

un criterio prestabilito;

b. la selezione del campione in due o più fasi (o stadi), che si realizza mediante

la scelta casuale di un campione di grappoli di unità statistiche elementari e

successivamente, nell’ambito di ciascun grappolo, di un numero prefissato di

unità elementari sempre con selezione casuale. Il grappolo (o cluster) è

costituito da elementi contigui di una popolazione.

Le ragioni sostanziali che inducono ad utilizzare schemi più complessi sono la finalità

di contenere la dimensione del campione (il che comporta minor lavoro e minori

spese) e/o di ottenere migliori risultati come conseguenza dell’aumento della

precisione delle stime rispetto ad un campione casuale semplice, nonché quella di

rendere più flessibile l’organizzazione della rilevazione.

Restando nell’ambito dei campioni probabilistici, il campionamento stratificato

sfrutta alcune conoscenze relative alla popolazione e possedute a priori dal

ricercatore. Poiché esiste una relazione diretta tra l’ampiezza di un campione e la

variabilità della caratteristica d’interesse, può risultare vantaggioso in termini di

efficienza degli stimatori suddividere la popolazione in strati quanto più possibile

omogenei al loro interno ed eterogenei tra loro. L’omogeneità va ricercata rispetto al

carattere oggetto di stima, anche se è raro disporre di informazioni sulla distribuzione

dello stesso prima di effettuare l’indagine. Perciò gli strati sono costruiti in genere a

partire da una o più variabili ad esso correlate, ipotizzando che unità omogenee

rispetto a queste lo siano anche per il carattere d’interesse.

Dunque, la popolazione è classificata in sottopopolazioni dette strati; gli strati devono

essere possibilmente omogenei al loro interno ed eterogenei tra di loro; da ogni strato

si estrae un campione casuale semplice; infine, l’aggregazione di tali campioni produce

il campione stratificato. Da ricordare che è necessario disporre di informazioni

aggiuntive (variabili ausiliari) per ogni unità della popolazione.

Possiamo indicare con N la dimensione della popolazione obiettivo, con L il numero

degli strati e con Nh (h = 1, 2, …, L) la dimensione di ciascun strato.

Il simbolo 𝑊

identificherà allora la frequenza relativa (o peso) delle unità

appartenenti ad ogni strato. Il campione complessivo, di dimensione n, si ottiene come

unione di campioni, di ampiezza 𝑛

, estratti da ogni singolo strato. La frazione di

campionamento da ciascun strato è pari a 𝑓

Requisito fondamentale per l’estrazione di un campione stratificato è che per tutte le

unità della popolazione sia nota la variabile (o le variabili) scelta come base per la

stratificazione. È stato inoltre osservato che, per indagini su vasta scala, la suddivisione

sottodomini di riferimento. Così, se la variabile di stratificazione considerata è di tipo

territoriale (ad esempio la regione di residenza dei consumatori) nell’ambito di

un’indagine nazionale, possiamo desiderare che le stime dei parametri d’interesse

siano statisticamente affidabili anche a livello delle singole regioni. Per far sì che ciò si

verifichi potrebbe rivelarsi indispensabile fissare una numerosità campionaria minima

da selezionare in ciascun strato, sovra campionando evidentemente da alcuni strati

ogniqualvolta un criterio di allocazione puramente proporzionale non consenta di

rispettare il vincolo indicato.

In che cosa consista la stratificazione e quali vantaggi sia in grado di offrire è utile

chiarirlo ulteriormente con un esempio. Per selezionare un campione di negozi di un

grande centro urbano avendo a disposizione elenchi completi degli esercizi

commerciali potrebbe essere utile raggruppare i punti di vendita secondo la loro

ubicazione (quartiere), oppure in base alle modalità di gestione del negozio

(distinguendo quelli tradizionali da supermercati, hard discounts, negozi specializzati

o di altro tipo), oppure facendo riferimento ad entrambi i criteri o ad altri ancora. In

tal modo si formeranno gruppi di esercizi commerciali omogenei rispetto al criterio di

raggruppamento prescelto, denominati strati, da ognuno dei quali sarà possibile

estrarre in modo indipendente un campione casuale semplice. Raggruppando i negozi

secondo l’ubicazione e la modalità di gestione il vantaggio potrebbe essere duplice,

nel senso che il criterio geografico renderà le successive operazioni di rilevazione più

agevoli e quello per tipo di gestione consentirà di identificare sottopopolazioni

contraddistinte da una più ridotta variabilità di particolari caratteristiche organizzative

ed economiche.

Campionamento a grappoli.

Nel campionamento a grappoli, la lista degli N elementi è suddivisa in grappoli,

ciascuno rappresentativo della popolazione, ovvero tale da riprodurre la variabilità del

carattere di interesse nella popolazione. Si procede quindi alla seleziona casuale di un

numero di grappoli e si includono nel campione tutti gli elementi a essi appartenenti.

Idealmente i grappoli devono essere individuati in modo che la variabilità del

parametro da stimare sia alta entro i grappoli e bassa tra i grappoli. Questo tipo di

campionamento è utilizzato principalmente per esigenze organizzative: infatti, spesso

i grappoli sono definiti sulla base di raggruppamenti realmente esistenti come città,

quartieri, edifici, famiglie.

Un altro schema di campionamento fra i più utilizzati è il cosiddetto campionamento

casuale a grappoli (cluster sampling), la scelta del quale è suggerita dalle

caratteristiche della popolazione o imposta, in qualche caso, da esigenze operative.

La sua utilizzazione è tuttavia possibile a condizione che la popolazione sia suddivisa o

suddivisibile in sottoinsiemi o segmenti di elementi legati da vincoli di contiguità

spaziale o di altro tipo. Ogni grappolo deve riprodurre quanto più possibile fedelmente

la variabilità rispetto alla caratteristica d’interesse che si ritrova nell’intera

popolazione. Dunque, per definizione i grappoli, all’opposto degli strati, devono

risultare fortemente eterogenei al loro interno ed omogenei tra loro. Il campione

viene in questo caso realizzato selezionando casualmente alcuni dei grappoli che sono

poi sottoposti integralmente a rilevazione, oppure a partire dai quali si procede ad

un’ulteriore selezione campionaria di unità statistiche.

Per realizzare, come suggerito nell’esempio precedente, un campione di negozi di un

centro urbano, qualora non si disponga di un elenco degli stessi si potrà suddividere il

territorio in zone di piccola dimensione (grappoli) che si presume contengano

pressappoco lo stesso numero di negozi o di abitanti, oppure ricorrere alla partizione

del territorio comunale per sezioni di censimento (che presentano per l’appunto tale

caratteristica). Successivamente si potrà procedere alla selezione casuale di un dato

numero di grappoli e quindi alla rilevazione delle informazioni che interessano in tutti

i negozi reperibili al loro interno.

Dunque, lo schema di campionamento a grappoli prevede: 1) l’estrazione casuale di

alcuni grappoli e 2) l’analisi completa di tutte le unità in essi contenute. Può essere

più efficiente della stratificazione? In teoria, se i grappoli fossero eterogenei al loro

interno e omogenei tra essi, ma nella realtà in genere si verifica il contrario.

Per finire, risulta vantaggioso il campionamento a grappoli quando i grappoli

costituiscono una naturale aggregazione delle unità finali per le quali invece non si

possiede una lista. Un ulteriore vantaggio è dato dal fatto che effettuare la rilevazione

solo su alcuni grappoli è molto meno dispendioso rispetto al campionamento casuale

semplice, soprattutto se si rende necessario un contatto diretto e se le unità sono

caratterizzate da dispersione sul territorio. Lo svantaggio è che in genere è meno

efficiente: i raggruppamenti naturali di unità tendono ad essere omogenei al loro

interno ed eterogenei tra loro.

Campionamento a stadi.

Ricordiamo infine il campionamento a stadi che può essere considerato come una

variante del campionamento a grappoli. Esso viene utilizzato per rilevazioni

campionarie di grandi dimensioni: una volta selezionati casualmente i grappoli (unità

di primo stadio), si procede alla selezione casuale soltanto di una parte delle unità

elementari presenti nel grappolo (unità di secondo stadio). Rientrano in questa

tipologia molte delle indagini ISTAT con copertura nazionale, nelle quali i Comuni sono

le unità di primo stadio e le famiglie registrate nelle Anagrafi dei Comuni sono le unità

del secondo stadio.

L’adozione di questa tecnica si giustifica per i vantaggi organizzativi e per la

conseguente riduzione dei costi dell’indagine. Un punto a sfavore è rappresentato

dalla complessità dei metodi di stima dei parametri e, in alcuni casi, dal fatto che non

tutti gli stimatori godono delle proprietà desiderabili.

Il campionamento a due o più stadi si adatta soprattutto alle grandi rilevazioni come,

ad esempio, le indagini nazionali sulle forze di lavoro, oppure sulle spese delle famiglie

o ancora sulla audience dei principali mezzi di comunicazione di massa. In questi casi

è preferibile estrarre dapprima un gruppo di comuni, che rappresentano grappoli di

unità elementari, e selezionare successivamente da ciascuno di questi un numero

prestabilito di famiglie. In questo modo, oltre ad ovviare alle difficoltà connesse con la

formazione della lista, si può conseguire un vantaggio sul piano organizzativo in

quanto le unità da intervistare non sono disperse su tutto il territorio, ma localizzate

solo in alcuni comuni. Ciò comporterà una limitazione degli spostamenti dei rilevatori

e una riduzione dei costi dell’indagine sul campo. Va osservato, a questo proposito,

che se i grappoli non sono sufficientemente omogenei tra loro, i vantaggi organizzativi

potrebbero essere attenuati o anche annullati dall’elevata variabilità campionaria

delle stime. Tale inconveniente potrà essere superato ricorrendo alla stratificazione

delle unità del primo stadio, come in effetti avviene nelle indagini nazionali citate in

precedenza.

Noi vorremmo che le unità contenute nel primo stadio fossero più eterogenee

possibili, perché a queste noi chiediamo di rappresentare tutta la popolazione. Di

conseguenza, maggiore è l’omogeneità all’interno del primo stadio, maggiore è

l’inefficienza del campionamento a più stadi. DI norma si verifica che le unità del primo

stadio sono omogenee al loro interno ed eterogenee tra esse. Di conseguenza, il

campionamento è più stadi risulta meno efficiente del campionamento casuale

semplice.

La determinazione della dimensione campionaria nei piani di campionamento

probabilistico. (Dispensa paragrafo 4)

Al crescere della dimensione del campione crescono anche i costi dell’indagine. Nella

fase di progettazione è importante, quindi, fissare la numerosità del campione

cercando di salvaguardare la massima precisione delle stime compatibile con il limite

di spesa prestabilito. In alternativa è possibile calcolare la spesa minima necessaria per

conseguire una prestabilita precisione ad un determinato livello di fiducia. Specificare

la precisione significa di fatto fissare il grado di approssimazione (o margine di errore)

che si è disposti ad accettare in relazione agli obiettivi conoscitivi dell’indagine.

Ovviamente quanto più un campione è grande tanto più sono attendibili le stime; ma

a prescindere da questa osservazione del tutto intuitiva, la scelta più conveniente

dell’ampiezza del campione è uno dei compiti principali della teoria dei campioni, al

centro della quale viene trattato un tema di risparmio di risorse. Il problema da

risolvere è quello di decidere quale sia l’ampiezza più piccola che soddisfi specifici

requisiti di precisione delle stime stabiliti a priori e dipendenti dall’oggetto

dell’indagine e dalle esigenze di chi utilizza i risultati.

Indicare la precisione delle stime vuole dire fissare il margine di errore che si è disposti

a tollerare e, al tempo stesso, un grado di fiducia o di confidenza, ovvero la probabilità

che la stima si collochi all’interno di un intervallo definito appunto dai margini di errore

che si ritengono tollerabili. Per ogni tipo di piano di campionamento e per ciascun

specifico parametro da stimare (una proporzione, una percentuale, un valore medio,

un totale, ecc.) la teoria dei campioni fornisce relazioni matematiche per il calcolo

della numerosità campionaria. Di conseguenza la dimensione n del campione può

essere determinata in modo univoco mediante formule appropriate, una volta

stabilito il piano di campionamento, la dimensione della popolazione di riferimento, la

grandezza dell’errore che si è disposti a tollerare e il grado di fiducia che l’accompagna

(nella realtà operativa livelli di fiducia pari al 95 o al 99 per cento vengono considerati

di pratica certezza) nel quadro della determinazione dell’intervallo di confidenza di un

parametro incognito. Viceversa, se sono prefissate le modalità del campionamento, la

dimensione della popolazione e la numerosità del campione, imposta ad esempio da

un vincolo di spesa complessiva da non superare, grazie alle stesse formule sono

calcolabili gli errori massimi corrispondenti a diversi gradi di fiducia. In questo caso è

possibile ovviamente scegliere fra combinazioni alternative delle due grandezze; ma

se il campione è piccolo si riscontra non di rado un margine di errore molto elevato e

un corrispondente grado di fiducia relativamente basso.

Per comprenderne appieno le modalità di impiego conviene ricondursi ad un quesito

del tipo seguente: quanti casi occorre osservare per stimare la percentuale di clienti

dell’azienda Gamma che hanno aderito ad una specifica iniziativa promozionale, con

una precisione della stima tale da evitare differenze in più o in meno superiori al 3 per

cento e con un grado di fiducia del 95 o del 99 per cento, vale a dire in condizioni di

pratica certezza?

Nella sua parte superiore (contrassegnata da P = 0,50) la tabella consente di

determinare quale sarà la numerosità campionaria massima compatibile con diverse

combinazioni della numerosità della popolazione (da una di 1.000 unità ad una di

1.000.000), del margine d’errore in percentuale della stima (±1, ±2, ±3, ±5 𝑒 ±

10 per cento) e del grado di fiducia che l’accompagna (95 e 99 per cento). Nella sua

parte inferiore (contrassegnata da P = 0,15) viene preso in considerazione anche il caso

di una stima preliminare della proporzione P pari a 0,15, assai distante dal valore 0,

che rende massima la varianza dello stimatore p. I valori che compaiono nella tabella

suggeriscono le seguenti considerazioni generali:

 Fissati il margine d’errore della stima e il grado di fiducia, all’aumentare della

dimensione della popolazione corrispondono incrementi meno che proporzionali

della numerosità del campione, fino al punto in cui non vi saranno ulteriori

incrementi (attorno ad un milione di casi);

 Fissati la dimensione della popolazione e il grado di fiducia, la diminuzione del

margine d’errore richiede aumenti più che proporzionali della numerosità

campionaria;

 Per un dato margine d’errore, e quando la dimensione della popolazione supera

N= 5.000, la scelta di un grado di fiducia del 99 per cento richiede incrementi della

numerosità campionaria di entità non trascurabile rispetto a quella necessaria per

ottenere stime ad un grado di fiducia del 95 per cento;

 La numerosità campionaria è direttamente proporzionale alla variabilità della

caratteristica nella popolazione indagata, a parità di dimensione della

popolazione stessa, di margine d’errore e di grado di fiducia.

Campionamento per variabili.

Quando il parametro oggetto d’interesse è costituito dal valore medio o dal totale di

un carattere (campionamento per variabili), il problema di determinare la dimensione

del campione in funzione degli altri elementi più volte ricordati trova una soluzione

del tutto simile.

Ipotizzando di ricorrere di nuovo al campionamento casuale semplice e volendo

stimare un valore medio, indichiamo con μ la media incognita di popolazione, con 𝜎

la varianza incognita di popolazione e con 𝑥̅ lo stimatore media campionaria. Lo

stimatore 𝑥

è corretto per μ e, se il campione è sufficientemente grande, il teorema

centrale del limite garantisce che la sua distribuzione sia approssimativamente

normale con valor medio 𝐸(𝑥̅ ) = 𝜇 e varianza data da:

La statistica campionaria:

Si distribuirà a sua volta approssimativamente come una variabile normale

standardizzata.

Prefissato il margine d’errore θ e il grado di fiducia 1-α risulterà:

𝑃𝑟{|𝑥̅ − 𝑥| ≤ θ} = 𝑃𝑟 ቊ|𝑧| ≤

θ

Dalle tavole della distribuzione normale standardizzata si deduce che la relazione

precedente è verificata quando:

θ

ఈ ଶ

Da cui segue che:

θ

ఈ ଶ⁄

Si tratta di un’equazione nell’incognita n che ammette la seguente soluzione:

ఈ ଶ⁄

(𝑁 − 1)θ

  • 𝑧

ఈ ଶ⁄

Possiamo considerare infine il caso in cui il parametro oggetto di interesse sia

l’ammontare totale di un carattere. La soluzione del problema ripercorre i passi

precedenti; lo stimatore del totale sarà:

Mentre la varianza dello stimatore del totale sarà data da:

E la soluzione per n da:

ఈ ଶ⁄

(𝑁 − 1)θ

ఈ ଶ⁄

Poiché i valori di N, θ e 𝑧 ఈ ଶ⁄

sono noti o prefissati, per risolvere le equazioni è

indispensabile un valore per la varianza 𝜎

, di solito a sua volta non conosciuta. Per

rendere operativa la relazione trovata potrebbe quindi essere utile una stima

preliminare della variabilità del carattere, proveniente ad esempio da conoscenze a

priori disponibili sulla popolazione in questione, perché già studiata in passato, o su

popolazioni analoghe.

Un’altra possibilità è quella di far uso di una stima della varianza ottenuta nella fase di

pre-test del questionario, quando una versione preliminare di quest’ultimo viene

sottoposta al vaglio di un piccolo campione ragionato di intervistati, in genere

selezionato per elementi tipici o per elementi estremi.

Una terza soluzione sfrutta l’esistenza di una relazione nota tra lo scarto quadratico

medio σ e il campo di variazione (range) CV di una variabile; è infatti:

σ =

CV

da cui segue che la varianza 𝜎

è al più uguale a 𝐶𝑉

Se nell’equazione si sostituisce proprio questo valore si perviene ad una valutazione

prudenziale della numerosità campionaria compatibile con l’assunto di massima

variabilità teorica del carattere.

Ragionando in questo modo il problema di determinare una stima preliminare per la

varianza si trasforma in realtà in quello di indicare il valore del campo di variazione,

che a sua volta generalmente non sarà noto. E poiché tale campo di variazione

coincide con la differenza fra l’intensità massima e quella minima del carattere della

popolazione, il tutto si riconduce alla stima delle intensità massima e minima sulla

base di ragionevoli congetture.

Finora abbiamo chiarito che la dimensione n di un campione casuale semplice può

essere calcolata in modo univoco mediante formule appropriate una volta stabiliti il

piano di campionamento, la dimensione della popolazione, la grandezza dell’errore

che si è disposti a tollerare e il grado di fiducia che l’accompagna, nel quadro della

determinazione dell’intervallo di confidenza di un parametro incognito.

Viceversa, se sono prefissate le modalità del campionamento, la dimensione della

popolazione e la numerosità del campione, imposta ad esempio da un ammontare di

spesa complessiva dell’indagine da non superare, grazie alle stesse formule sono

calcolabili gli errori massimi corrispondenti a diversi gradi di fiducia.

In questo caso è possibile ovviamente scegliere fra combinazioni alternative delle due

grandezze; ma se il campione è piccolo, si riscontra non di rado un margine di errore

molto elevato e un grado di fiducia relativamente basso.

Quando si utilizza un piano di campionamento diverso da quello casuale semplice,

come ad esempio quello stratificato, pur seguendo sostanzialmente la stessa linea di

ragionamento si perviene ad espressioni analitiche più complesse di quelle appena

riprodotte.

Se indichiamo con 𝑃

la proporzione oggetto di studio in un generico strato della

popolazione, il campionamento stratificato per attributi porta alla seguente relazione

con riferimento alla dimensione del campione:

௛ୀଵ

ఈ/ଶ

௛ୀଵ

ఈ/ଶ

Dove i simboli N, 𝑊

, 𝜃 e 𝑧

ఈ/ଶ

assumono il significato già visto.

Se indichiamo poi con 𝜎

la varianza del carattere d’interesse in ciascun strato della

popolazione, il campionamento stratificato per variabili consentirà di pervenire alla

seguente equazione:

[∑ 𝑊

௛ୀଵ

]

ఈ/ଶ

௅ ଶ

௛ୀଵ

ఈ/ଶ

Quanto esposto finora può essere chiarito meglio illustrando alcune possibili soluzioni

per il caso di interesse il cui enunciato è stato proposto all’inizio della dispensa. Il

problema è quello di progettare un’indagine campionaria per stimare il numero di

famiglie già in possesso di una lavastoviglie a Bologna. Conoscendo il numero totale

delle famiglie residenti, si tratta più semplicemente di stimare la proporzione di quelle

che possiedono l’elettrodomestico in questione. Come è stato osservato in

precedenza, la formazione di un campione di famiglie per quote richiederebbe di

reperire in primo luogo informazioni statistiche utili alla determinazione preventiva di

tali quote. A questo riguardo va tenuto presente che sulla domanda di lavastoviglie

possono incidere il livello del reddito di cui la famiglia dispone e le caratteristiche del

nucleo familiare (ampiezza, età e sesso dei singoli componenti e condizione

professionale di quelli attivi). Le quote dovrebbero pertanto comprendere famiglie

tendenzialmente omogenee rispetto a questi aspetti. Numerose ricerche hanno

evidenziato che nei centri urbani l’insediamento dei gruppi sociali è influenzato da

fattori demografici, economici, culturali, talvolta anche puramente psicologici, che

agiscono come forze attrattive o repulsive dando luogo ad una distribuzione