Data Analysis - Prof. Della Beffa | Appunti di Analisi Dei Dati

Data analysis: Sondaggi e questionari

Dati primari e secondari si differenziano in base all’obbiettivo di marketing.

Primari: ho una domanda di marketing direttamente legata a questi dati.

Secondari: dati raccolti per altri scopi che tornano utili per obiettivi di marketing. Raccolti da fonti interne

provengono ad esempio da crm e erp. Fonti esterne sono Istat, banche, ecc. Questi dati non sono

specializzati (tizio non compra carne all’esselunga – è vegetariano o ha il suo macellaio di fiducia?).

Sondaggio: rilevazione di dati primari con interviste strutturate a un campione di soggetti. È uno strumento

molto generale, potenzialmente costoso, richiede competenza e rigore nella definizione degli obbiettivi.

Le alternative al sondaggio sono l’utilizzo dei dati secondari provenienti da fonti esterne (es. Istat), da fonti

interne e infine interviste a tutta la popolazione (censimento).

Con il censimento si interrogano tutte le unità statistiche, è una rilevazione individuale universale (!),

simultanea (!) e periodica. I dati dei censimenti ISTAT sono ufficiali e hanno valore legale.

Popolazione: insieme di tutte le unità oggetto di studio, deve essere identificata inequivocabilmente

attraverso (almeno) una caratteristica osservabile (es. “italiani” non è sufficiente, includono gli immigrati?

—> “residenti in Italia alla tot data” corretto). Va quindi definito con molta precisione CHI voglio analizzare.

Unità statistica: ogni singolo elemento della popolazione.

Campione: il sottoinsieme della popolazione sul quale si rilevano i dati.

Fasi di un sondaggio

1) Definizione dell’obiettivo

a. Formula di ricerca

b. Popolazione

c. Campione (modalità di campionamento e criteri)

2) Metodo di contatto delle unità del campione

3) Costruzione del questionario

4) Test del questionario

Metodi di contatto

CAPI: intervista personale, è il metodo più raffinato, sicuro e costoso. Una persona (intervistatore) compila

con l’intervistato il questionario.

Pro: assicura qualità e accuratezza, perché l’intervistatore è lì per dare spiegazioni e relazionarmi facilmente

con l’intervistato. Non c’è limitazione di target.

Contro: ma tempi e costi sono alti. Inoltre, i risultati possono essere influenzati dai bias dell’intervistatore e

dagli effetti della desiderabilità sociale sull’intervistato.

CATI\CAMI: interviste via telefono. Il costo indicativamente è di 15€ a intervista per mille casi (su cui

spalmare i costi fissi del call center) da popolazione italiana (???).

Pro: tempi brevi (più operatori in contemporanea), qualità e accuratezza (stessi motivi di cui sopra),

controllo rilevazione (il controllo dei dati è in real time, se devo intervistare 100 uomini e 100 donne posso

controllare la rilevazione man mano che va avanti).

Contro: costi (?).

CAWI: inviati tramite link via mail\web\social.

Pro: costi (potenzialmente nulli, non c’è l’intervistatore), tempi a volte brevissimi.

Contro: minore accuratezza (perché non c’è relazione con una persona, l’intervistato capisce quello che

vuole), filtro internet (non tutti hanno accesso a internet e quindi si perde quella fascia di popolazione),

autoselezione (se per CAPI e CATI c’è controllo diretto del target, qui non è possibile, risponde chi vuole.

Questo è tanto più rischioso quanto più la rilevazione tratta tematiche estremamente polarizzate quindi

anche i risultati saranno polarizzati).

Costruzione del questionario

Principi fondamentali: chiarezza, semplicità e brevità.

Data Analysis - Prof. Della Beffa, Appunti di Analisi Dei Dati

Documenti correlati

Anteprima parziale del testo

Scarica Data Analysis - Prof. Della Beffa e più Appunti in PDF di Analisi Dei Dati solo su Docsity!

Data analysis: Sondaggi e questionari

Dati e statistica univariata

Data visualization

caratterizzata da due parametri μ e σ.

𝜇 e 𝜎^2 sono la media e la varianza della distribuzione.

La media dice come si sposta da destra a sinistra la curva: al

crescere della media la curva scorre verso destra e viceversa

rimanendo invariata. Più grande è la varianza più è schiacciata

la curva.

Caratteristiche della distribuzione normale

Esempi di distribuzione normale solitamente sono variabili biologiche come il peso alla nascita, la

pressione sanguigna, le precipitazioni annuali a Milano (in generale in una precisa località), il

tempo del percorso casa-ufficio, il peso e la dimensione di pezzi prodotti da una macchina, errori

casuali, ecc.

Esempi di variabili non normale sono:

piccole.

variabile discreta in quanto è unico, ma l’approssimazione permette di trattarlo come

distribuzione normale.

Uso delle distribuzioni di probabilità (a cosa serve)

La conoscenza di una distribuzione teorica permette di ricondurre la distribuzione osservata

(campionaria) a una distribuzione teorica nota.

Distribuzione normale standard: 𝑵 ( 𝟎 ; 𝟏 )

 Se 𝜇 = 0 e 𝜎 = 1 la distribuzione è una normale standard

 qualunque variabile casuale normale 𝑥~𝑁(𝜇; 𝜎 2 ) può essere convertita in una variabile

normale standardizzata 𝑧~𝑁(0; 1) mediante l'operazione di standardizzazione.

ERRORE

Alcuni valori convenzionali: 95% e 99% (sono i valori che ci aspettiamo di trovare con una

maggiore frequenza)

 in una distribuzione 𝑁 0; 1 il 95% dei valori è compreso (approssimativamente) tra −1,96 e

 il 99% dei valori è compreso tra −2.57 e +2.

Statistica inferenziale

1) Stime campionarie

Riduzione della dimensionalità (analisi fattoriale)

Analisi predittiva e modelli di regressione