Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti completi Data Analysis, Appunti di Analisi Dei Dati

Documento completo dove ho integrato slide, dispense e appunti presi a lezione nell'anno accademico 2025/2026.

Tipologia: Appunti

2025/2026

In vendita dal 14/01/2026

Sofi.Sofi-17
Sofi.Sofi-17 🇮🇹

27 documenti

1 / 84

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DATA ANALYSIS
1. CONTESTO
Le ANALISI DI MERCATO le fanno:!
-le strutture interne all’aziende -> almeno una persona se ne occupa nel 75% delle aziende.!
-fornitori esterni -> possono essere!
generalisti -> a cui si appalta tutto, dicendogli solo quale era il mio problema e concordato il
modo con cui lo voglio risolvere -> svolgono ricerche multiclient e ad- hoc, come Nielsen,
Ipsos, Doxa, GFK!
specializzati (istituti) -> ai quali appalto solo la rilevazione di dati -> specializzati per
segmento, per attività, per tipo di analisi.!
IL PROCESSO DELL’ANALISI QUANTITATIVA DI MERCATO -> La definizione del progetto di
analisi non è un passaggio né banale né univoco. Quando si avvia un’analisi di mercato, l’azienda
organizza una riunione con diverse figure: i responsabili marketing, i decisori (cioè coloro che
hanno il problema e lo conoscono bene) e i tecnici della ricerca, ovvero chi sa come strutturare
correttamente un’indagine. In particolare, i ricercatori di mercato – che possono essere tecnici,
psicologi o altri specialisti – tendono a usare un linguaggio specifico, con termini propri, che
talvolta può creare dicoltà di comunicazione se non c’è chiarezza sin dall’inizio. Per questo
motivo è fondamentale definire e formalizzare l’obiettivo dell’analisi in modo chiaro e
inequivocabile. Se questo passaggio viene trascurato o lasciato troppo vago, si rischia che, una
volta iniziata l’analisi, emergano altre tematiche – spesso non pertinenti – che possono diluire o
deviare gli obiettivi iniziali. Esempio: l’analisi della concorrenza: in questo caso è necessario
chiarire sin da subito alcune domande chiave, come: Chi sono i concorrenti? Cosa li distingue da
noi? Quali sono i nostri punti di forza? E quali, invece, le nostre debolezze?!
Solo partendo da una base solida e condivisa è possibile condurre un’analisi ecace, capace di
fornire informazioni utili e coerenti con le esigenze dell’azienda.!
Per capire quanto possa essere complesso avviare un’analisi di mercato, prendiamo in
considerazione i passaggi principali:!
1. Identificazione e formulazione dell’obiettivo -> chiarire cosa vogliamo scoprire. Esempio:
l’analisi della concorrenza -> a prima vista può sembrare un obiettivo chiaro, ma in realtà non
lo è. Infatti, cosa intendiamo esattamente per “concorrenza”? Chi sono i concorrenti?…
Queste sono tutte sotto-domande che fanno parte dello stesso tema, ma riguardano aspetti
diversi. Serve quindi grande chiarezza e precisione nella definizione dell’obiettivo, altrimenti si
rischia di raccogliere dati poco utili o di perdere il focus.!
2. Formula di ricerca -> come raggiungere l’obiettivo -> una volta definito l’obiettivo, bisogna
stabilire come perseguirlo, ovvero quale tipo di formula di ricerca adottare. Le principali sono:!
Analisi esplorativa = serve a cercare indizi e informazioni utili per individuare le cause principali
del problema. Esempio: ricerche qualitative, interviste, focus group.
Analisi descrittiva = fornisce una rappresentazione chiara dei dati, spesso tramite grafici,
tabelle o indici. Esempi: brand awareness, segmentazione del mercato.
Analisi causale o predittiva = mira a capire che cosa provoca certi fenomeni. Esempio: l’età
influisce sul gradimento di un prodotto? Domande tipiche: customer satisfaction, prevenzione
del churn (abbandono del cliente).
3. Selezione dei dati -> si definisce quali dati servono per rispondere all’obiettivo prefissato. È
importante distinguere tra dati secondari (già esistenti) e dati primari (raccolti appositamente).!
4. Raccolta dei dati -> può avvenire tramite questionari, interviste, osservazioni, strumenti
digitali, ecc.!
5. Analisi dei dati -> i dati raccolti vengono poi elaborati, organizzati e analizzati con strumenti
statistici o software di analisi, per ricavare informazioni utili.!
6. Interpretazione e presentazione dei risultati -> i risultati vanno interpretati correttamente e
presentati in modo chiaro, con grafici, tabelle o report. L’obiettivo è fornire risposte utili e
comprensibili ai decisori aziendali.!
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54

Anteprima parziale del testo

Scarica Appunti completi Data Analysis e più Appunti in PDF di Analisi Dei Dati solo su Docsity!

DATA ANALYSIS

1. CONTESTO

Le ANALISI DI MERCATO le fanno:

  • (^) le strutture interne all’aziende -> almeno una persona se ne occupa nel 75% delle aziende.
  • (^) fornitori esterni -> possono essere
    • generalisti -> a cui si appalta tutto, dicendogli solo quale era il mio problema e concordato il modo con cui lo voglio risolvere -> svolgono ricerche multiclient e ad- hoc, come Nielsen, Ipsos, Doxa, GFK
    • specializzati (istituti) -> ai quali appalto solo la rilevazione di dati -> specializzati per segmento, per attività, per tipo di analisi. IL PROCESSO DELL’ANALISI QUANTITATIVA DI MERCATO -> La definizione del progetto di analisi non è un passaggio né banale né univoco. Quando si avvia un’analisi di mercato, l’azienda organizza una riunione con diverse figure: i responsabili marketing, i decisori (cioè coloro che hanno il problema e lo conoscono bene) e i tecnici della ricerca, ovvero chi sa come strutturare correttamente un’indagine. In particolare, i ricercatori di mercato – che possono essere tecnici, psicologi o altri specialisti – tendono a usare un linguaggio specifico, con termini propri, che talvolta può creare difficoltà di comunicazione se non c’è chiarezza sin dall’inizio. Per questo motivo è fondamentale definire e formalizzare l’obiettivo dell’analisi in modo chiaro e inequivocabile. Se questo passaggio viene trascurato o lasciato troppo vago, si rischia che, una volta iniziata l’analisi, emergano altre tematiche – spesso non pertinenti – che possono diluire o deviare gli obiettivi iniziali. Esempio: l’analisi della concorrenza: in questo caso è necessario chiarire sin da subito alcune domande chiave, come: Chi sono i concorrenti? Cosa li distingue da noi? Quali sono i nostri punti di forza? E quali, invece, le nostre debolezze? Solo partendo da una base solida e condivisa è possibile condurre un’analisi efficace, capace di fornire informazioni utili e coerenti con le esigenze dell’azienda. Per capire quanto possa essere complesso avviare un’analisi di mercato, prendiamo in considerazione i passaggi principali:
  1. Identificazione e formulazione dell’obiettivo -> chiarire cosa vogliamo scoprire. Esempio: l’analisi della concorrenza -> a prima vista può sembrare un obiettivo chiaro, ma in realtà non lo è. Infatti, cosa intendiamo esattamente per “concorrenza”? Chi sono i concorrenti?… Queste sono tutte sotto-domande che fanno parte dello stesso tema, ma riguardano aspetti diversi. Serve quindi grande chiarezza e precisione nella definizione dell’obiettivo, altrimenti si rischia di raccogliere dati poco utili o di perdere il focus.
  2. Formula di ricerca -> come raggiungere l’obiettivo -> una volta definito l’obiettivo, bisogna stabilire come perseguirlo, ovvero quale tipo di formula di ricerca adottare. Le principali sono:
    • Analisi esplorativa = serve a cercare indizi e informazioni utili per individuare le cause principali del problema. Esempio: ricerche qualitative, interviste, focus group.
    • Analisi descrittiva = fornisce una rappresentazione chiara dei dati, spesso tramite grafici, tabelle o indici. Esempi: brand awareness, segmentazione del mercato.
    • Analisi causale o predittiva = mira a capire che cosa provoca certi fenomeni.^ Esempio:^ l’età influisce sul gradimento di un prodotto? Domande tipiche: customer satisfaction, prevenzione del churn (abbandono del cliente).
  3. Selezione dei dati -> si definisce quali dati servono per rispondere all’obiettivo prefissato. È importante distinguere tra dati secondari (già esistenti) e dati primari (raccolti appositamente).
  4. Raccolta dei dati -> può avvenire tramite questionari, interviste, osservazioni, strumenti digitali, ecc.
  5. Analisi dei dati -> i dati raccolti vengono poi elaborati, organizzati e analizzati con strumenti statistici o software di analisi, per ricavare informazioni utili.
  6. Interpretazione e presentazione dei risultati -> i risultati vanno interpretati correttamente e presentati in modo chiaro, con grafici, tabelle o report. L’obiettivo è fornire risposte utili e comprensibili ai decisori aziendali.
  1. Follow-up -> se dai dati emergono risposte operative, si procede con il follow-up, che prevede l’attuazione delle decisioni, il monitoraggio e l’eventuale revisione delle strategie sulla base di nuovi dati. ANALISI QUALITATIVA -> Nel contesto della ricerca e analisi di mercato, raramente ci si limita all’analisi qualitativa. Nella maggior parte dei casi, essa rappresenta un primo passo esplorativo utile per poi passare a un’analisi quantitativa più strutturata. L’analisi qualitativa viene spesso utilizzata per:
  • definire i contorni del problema,
  • sviluppare ipotesi di lavoro,
  • individuare variabili e relazioni da approfondire successivamente. Il suo impiego è particolarmente rilevante quando l’ambito d’indagine non è ancora ben conosciuto. Se l’azienda ha già una chiara visione del problema, può spiegare con precisione ai fornitori di servizi cosa serve. Ma se si affronta un tema nuovo o poco esplorato, diventa necessario “esplorare il terreno” per raccogliere informazioni preliminari, utili a costruire una ricerca quantitativa efficace. In questi casi si parla di scopo esplorativo: la ricerca qualitativa assume un ruolo propedeutico alle fasi successive. L’analisi qualitativa si basa su strumenti specifici, utili a raccogliere informazioni in profondità:
  • (^) Focus group : un moderatore guida la discussione con un piccolo gruppo di persone, stimolando il confronto di opinioni, percezioni e vissuti.
  • (^) Interviste in profondità : un intervistatore dialoga individualmente con un consumatore o un decisore, ponendo domande aperte e lasciando spazio all’esplorazione libera di pensieri ed esperienze. FONTI INFORMATIVE -> Nel processo di ricerca di mercato, una delle prime scelte riguarda quali dati utilizzare:
  • (^) primari (rilevati appositamente per l’obiettivo di marketing) o secondari (ono già stati raccolti per altri scopi);
  • interni o esterni all’azienda.. La decisione dipende dall’obiettivo di marketing e dal livello di approfondimento necessario. I dati primari sono raccolti appositamente per rispondere a uno specifico obiettivo di marketing. Si ottengono, ad esempio, attraverso questionari, interviste strutturate e sondaggi ad hoc- ✅ Vantaggi -> sono mirati e specifici: rispondono direttamente all’obiettivo posto. ❌ Svantaggi -> richiedono tempo e risorse: la rilevazione ha costi elevati e tempi lunghi. Esempio: se voglio conoscere la soddisfazione dei clienti su un nuovo servizio, dovrò strutturare un’indagine apposita, rivolta solo a quel fine. I dati secondari sono già stati raccolti, per altri scopi, ma possono essere riutilizzati per finalità di marketing. Esempio: per registrarsi a un sito è necessario avere più di 14 anni. Il sito raccoglie quindi la data di nascita degli utenti per motivi legali. In un secondo momento, l’azienda potrebbe usare queste informazioni per analizzare l’età media degli iscritti e confrontarla con i dati ISTAT relativi alla popolazione italiana. In questo esempio:
  • (^) La data di nascita degli utenti è un dato secondario interno: raccolto per l’accesso al servizio, non per fini di marketing.
  • (^) I dati ISTAT sono dati secondari esterni: non raccolti per quell’azienda, ma utilizzabili per confronto. Anche i dati generati da servizi come Netflix, Prime Video o le catene di supermercati (es. Esselunga) sono secondari interni: raccolti per motivi operativi (fatturazione, scontrini, visione dei

SOFTWARE PER DATA SCIENCE: PLAYER PRINCIPALI -> Nel contesto della data science applicata al marketing e alla gestione dei clienti, spesso si lavora con dataset estratti da sistemi CRM, ovvero archivi contenenti informazioni sui clienti di un’azienda. Durante l’analisi è anche possibile generare nuovi dati, ad esempio costruendo un modello interpretativo della customer satisfaction. Questi dati derivati sono preziosi e diventano parte integrante del patrimonio informativo aziendale. Il churn è un termine nato nel settore delle telecomunicazioni e indica il comportamento di abbandono da parte di un cliente, che passa da un’azienda concorrente a un’altra. È una metrica centrale nell’analisi della customer retention. I software possono essere classificati in base a diversi criteri:

  1. Per ambito di applicazione :
    • Statistica
    • Machine learning, data mining, big data
    • Business intelligence e data visualization
  2. Per politica commerciale :
    • Software a pagamento: richiedono licenza annuale o perpetua (es. SPSS, SAS).
    • Freeware: gratuiti, con tutte le funzionalità attive (es. antivirus completi).
    • Shareware: gratuiti solo per un periodo di prova o con funzionalità limitate (es. prova 10 giorni).
    • Open source: distribuiti con codice sorgente aperto, modificabile liberamente (es. R, Python, Orange).
  3. Per tipo di utilizzo e facilità d’uso -> A seconda delle competenze richieste e del tipo di interazione:
    • Software con interfacce grafiche (GUI) -> Facili da usare, con menu e comandi visuali (es. Excel, Tableau, Power BI).
    • Software a controllo tramite comandi propri -> Richiedono conoscenza del linguaggio specifico del software (es. SPSS, Stata).
    • Linguaggi di programmazione generali -> Potenti e versatili, usano librerie già pronte per fare praticamente tutto (es. Python, R). Richiedono maggiori competenze informatiche, ma offrono massima flessibilità.

2. SONDAGGI E QUESTIONARI

SONDAGGIO = rilevazione di dati primari ottenuti tramite interviste strutturate rivolte a un campione di soggetti. Le interviste strutturate prevedono un questionario con domande definite e ordinate secondo gli obiettivi della ricerca. Il sondaggio presenta alcune caratteristiche fondamentali:

  • raccoglie dati primari;
  • utilizza interviste strutturate;
  • coinvolge un campione, cioè una parte della popolazione. Dal punto di vista operativo, il sondaggio è uno strumento molto generale, applicabile a qualsiasi ambito e capace di esplorare qualsiasi fenomeno con il livello di dettaglio desiderato. Tuttavia, può risultare costoso in termini di tempo e organizzazione e richiede competenza e rigore nella definizione degli obiettivi, del questionario e del campione. Alternative al sondaggio Oltre al sondaggio, è possibile effettuare analisi basate su dati secondari, sia esterni sia interni:
  • (^) Censimento → rilevazione su tutta la popolazione.
  • (^) Analisi di dati secondari esterni → provenienti da fonti come Istat, Auditel, Google Analytics o database come Aida, che raccolgono informazioni disponibili in rete.
  • (^) Analisi di dati secondari interni , utilizzati in diversi settori:
    • Banche, telefonia, assicurazioni^ →^ segmentazione e scoring dei clienti, con algoritmi che permettono di individuare chi è a rischio di abbandono e attuare interventi mirati.
    • GDO (grande distribuzione organizzata) → market basket analysis, cioè l’analisi delle associazioni tra prodotti acquistati insieme. Questa tecnica permette di individuare combinazioni ricorrenti, anche non intuitive, utili per strategie come il posizionamento dei prodotti o le promozioni incrociate.
  • E-commerce ed entertainment^ (es. Netflix)^ →^ sistemi di raccomandazione basati sulla creazione di profili tipici e sulla loro associazione agli utenti, per proporre contenuti personalizzati a partire da dati comportamentali. ❗ Le ricerche di mercato si basano principalmente sui sondaggi, mentre le analisi di mercato possono includere anche le alternative al sondaggio, sfruttando dati già disponibili per ottenere informazioni approfondite sui comportamenti dei consumatori. POPOLAZIONE = l’insieme di tutte le unità oggetto di studio, cioè l’insieme delle persone, prodotti o aziende a cui si vuole fare riferimento in una ricerca. Per essere definita correttamente, la popolazione deve essere identificata in modo inequivocabile attraverso una o più caratteristiche precise, osservabili e verificabili. Definizioni generiche come “italiani” o “consumatori abituali” non sono sufficienti, perché includono casi borderline e non permettono di stabilire con certezza chi appartiene o meno alla popolazione. Esempio: “Italiani” è ambiguo: gli immigrati irregolari rientrano? Gli italiani temporaneamente all’estero? Una definizione più corretta sarebbe “residenti in Italia dal 1° settembre 2023”, poiché è precisa, verificabile e non lascia zone d’ombra. In sintesi, una caratteristica che definisce la popolazione deve essere:
  • (^) identificabile inequivocabilmente;
  • (^) osservabile;
  • (^) precisamente delineata;
  • (^) verificabile. UNITA’ STATISTICA = ogni singolo elemento della popolazione, ad esempio una specifica azienda lombarda appartenente alla popolazione delle aziende analizzate. CAMPIONE = il sottoinsieme della popolazione sul quale vengono effettivamente rilevati i dati, cioè il gruppo di unità selezionate per effettuare lo studio. CAMPIONAMENTO = processo attraverso cui si estrae il campione. La scelta del metodo di campionamento è fondamentale perché determina la qualità delle stime e la validità dei risultati. La distinzione principale è tra due grandi categorie di metodi:
  1. Campionamento probabilistico -> ogni unità della popolazione ha una probabilità nota e non nulla di essere selezionata. Sono i metodi migliori perché permettono di ottenere campioni rappresentativi e stime affidabili. Troviamo: A. Campionamento casuale semplice = il metodo teoricamente più puro: richiede la lista completa della popolazione e assegna a ogni unità la stessa probabilità di essere estratta (come un’estrazione da un’urna). È raramente applicabile perché avere l’elenco completo della popolazione è quasi sempre impossibile. B. Campionamento stratificato = la popolazione viene suddivisa in strati sulla base di caratteristiche note (es. età, genere, area geografica). Dentro ogni strato si seleziona un campione casuale. Gli strati devono essere: omogenei all’interno, eterogenei tra loro. Questo metodo assicura che le variabili ritenute importanti rispetto al fenomeno siano rappresentate correttamente nel campione. C. Campionamento a grappoli (cluster) = si usa quando la popolazione è già naturalmente divisa in gruppi (es. classi scolastiche, comuni). Si selezionano alcuni cluster casualmente e si includono tutte le unità all’interno dei cluster scelti. I cluster sono: eterogenei al loro interno, omogenei tra loro. È un metodo veloce ed economico, preferito quando è difficile campionare singoli elementi uno per uno. È possibile combinare stratificazione e cluster, ad esempio dividendo prima le città in categorie (grandi/medie/piccole) e poi selezionando alcuni comuni per campionarne gli abitanti.
  2. Campionamento non probabilistico -> le unità non vengono selezionate in modo casuale: non tutte hanno la stessa probabilità di far parte del campione. Il campione non è rappresentativo e le stime non possono essere generalizzate all’intera popolazione. Si utilizzano solo quando il probabilistico non è possibile. Troviamo: A. Campione di esperti -> si scelgono persone ritenute particolarmente competenti sull’argomento. Es.: intervistare i product manager di grandi aziende del settore yogurt. B. Campionamento a valanga -> si intervista una persona e si chiede di indicarne un’altra disponibile, e così via. È usato per popolazioni difficili da raggiungere o sensibili (es.

Formulazione delle domande -> Molti errori nascono da una formulazione sbagliata delle domande. Alcuni esempi di domande errate:

  • “Ha mai comprato online biglietti aerei e ferroviari?” → due domande in una (biglietti aerei e ferroviari).
  • (^) “Nella sua famiglia ci sono bambini?” → non è definito cosa si intende per “bambini” (fino a che età? Di chi? Del nucleo familiare?).
  • (^) “L’intervento dello Stato non è stato adeguato…” → presenza di negazione e formulazione tendenziosa.
  • “In che paese è nato: Italia | Francia | Spagna | Europa?” → le risposte non sono mutuamente esclusive (Europa contiene anche Italia, Francia, Spagna).
  • (^) “Dove è andato in vacanza l’estate scorsa?” → dà per scontato che l’intervistato sia andato in vacanza.
  • (^) “In che anno ha aperto l’account?” → domanda troppo precisa sul passato, spesso non ricordata.
  • “Ha malattie croniche?” → riguarda dati sensibili, richiede tutele particolari.
  • (^) “Lei ritiene che i clandestini…” → termine tendenzioso: meglio “immigrati irregolari”.
    1. CATI/CAMI – Computer Assisted Telephone/Mobile Interviewing = interviste telefoniche assistite da computer. Pro: tempi brevi (i dati vengono raccolti in pochi giorni, spesso nello stesso giorno), buona qualità e accuratezza, possibilità di controllare in itinere l’andamento della rilevazione (quante interviste fatte, chi manca, ecc.). Nota sui costi: il costo ha una componente fissa (programma e organizzazione) che si spalma sul numero di interviste: più casi, minore costo medio per intervista.
    2. CAWI – Computer Assisted Web Interviewing = questionario compilato online, tramite link inviato via email, social o sito web. Pro: costo molto basso (spesso quasi nullo), tempi brevi, anche se non sempre prevedibili. Contro: minore accuratezza: se l’intervistato ha dubbi, non c’è un intervistatore che possa chiarire, filtro internet (=chi non ha accesso a internet non può partecipare -> problema per alcune popolazioni, es. anziani), autoselezione (risponde chi vuole → tendono a rispondere i più soddisfatti o i più arrabbiati, mentre gli indifferenti spesso non compilano). 3. COSTRUZIONE DEL QUESTIONARIO -> Chiarezza – Semplicità – Brevità (principi fondamentali). Le tre fasi essenziali:
  1. Identificare le informazioni da raccogliere – “Cosa chiedere?” -> Distinguere tra informazioni primarie (centrali per la ricerca) e accessorie.
  2. Stabilire la sequenza logica – “In che ordine chiederle?” -> Organizzare il questionario in sezioni (es. opinioni, comportamenti, marche, dati sociodemografici). Inoltre, bisogna definire l’ordine delle domande:
  • Di solito^ si parte da domande più generali^ per mettere a proprio agio l’intervistato e poi si passa a domande più specifiche e personali.
  • Le^ domande sociodemografiche^ (età, titolo di studio, reddito…) stanno in genere^ alla^ fine, presentate come “solo per fini statistici”.
  • Fanno eccezione le domande usate per selezionare il campione (es. “Età 18–65?” se sto studiando solo adulti): in questo caso vanno poste all’inizio per escludere chi non rientra nei criteri. Esempio: domanda di gradimento complessivo su un prodotto (“Quanto le piace complessivamente questo yogurt?”): se mi interessa una valutazione non influenzata dagli attributi, la metto all’inizio; se mi interessa capire come gli attributi (gusto, prezzo, freschezza…) influenzano il gradimento, la metto alla fine, dopo le altre domande.
  1. Decidere la forma delle risposte e formulare le domande – “Come chiedere?” -> Scelta tra domande aperte o chiuse, tipo di scala (es. scala di Likert), presenza di opzioni come “non so” o “non risponde”. Attenzione al valore centrale nelle scale: può diventare rifugio per chi non vuole prendere posizione.

Raccomandazioni per formulare buone domande :

  1. Evitare domande doppie (due domande in una).
  2. Evitare ambiguità (termini vaghi o non definiti).
  3. Fare attenzione alle negazioni (possono confondere).
  4. Le risposte devono essere esaustive e mutuamente esclusive.
  5. Non dare nulla per scontato (es. che tutti vadano in vacanza).
  6. Prudenza con domande sul passato (problemi di memoria) e temi sensibili (salute, reddito, orientamento, ecc.).
  7. Evitare formulazioni tendenziose o giudicanti.
  8. Inserire domande replicate o con scala invertita :
    • riproporre la stessa domanda in forma diversa per verificare la coerenza;
    • usare, ogni tanto, scale al negativo per interrompere la risposta “automatica”.

3. DATI

Tutte le analisi di mercato utilizzano come input una matrice di dati unità × variabili, cioè una tabella in cui:

  • n righe rappresentano le unità statistiche (casi, osservazioni)
  • k colonne rappresentano le variabili (attributi, feature) Esempio: negli annunci Airbnb, le righe sono gli appartamenti, mentre le colonne indicano caratteristiche come numero di posti letto, numero di camere, prezzo, valutazione, ecc.

SURVEY MOZZARELLA

Obiettivi:

  • (^) Obiettivo principale: analisi della concorrenza → posizionamento dei concorrenti, punti di forza/debolezza della marca Pettinicchio.
  • Obiettivo secondario: segmentazione dei prodotti → es. mozzarella di bufala “gourmet”, mozzarella industriale. Formula di ricerca:
  • (^) Survey a un campione di consumatori
  • (^) Analisi previste: mapping , preference analysis , cluster analysis Criteri di campionamento
  • (^) Responsabile acquisti (variabile a seconda del prodotto)
  • (^) Consuma mozzarella
  • (^) Conosce Pettinicchio
  • (^) Campione rappresentativo per:
  • (^) Età: 21–45 / 45–
  • (^) Area: Nord, Centro, Sud Le domande filtro servono per includere/escludere i rispondenti. Sezioni del questionario:
  1. Criteri di campionamento
  2. Conoscenza e consumo (per marca)
  3. Tipi, formati e confezioni
  4. Modalità di consumo
  5. Preferenze (per marca)
  6. Immagine di marca
  7. Attributi del prodotto (per marca) Variabili per la sezione: Immagine di marca
    • (^) Famosa, conosciuta
    • (^) Specializzata (latte vaccino / bufala)
    • (^) Affidabile
    • (^) Tecniche di produzione avanzate
    • (^) Tradizione ed esperienza
    • (^) Distribuzione nazionale
    • (^) Promozioni
    • (^) Ampia gamma
    • (^) Pubblicità
    • (^) Presenza di prodotti DOP Questionario su Google Forms:
    • Organizzazione in sezioni
    • (^) Logiche “go to section based on answer”
    • Registrazione risposte in Google Sheets
    • Distribuzione via email/social/ web
    • Opzioni di controllo: raccogliere e-mail, limitare 1 risposta, mostrare risultati

meglio la popolazione che si voleva rappresentare. È una tecnica fondamentale quando, dopo la raccolta dei dati, ci si accorge che alcune categorie sono sovra- o sotto-rappresentate. Ponderare significa aggiungere una colonna di pesi alla matrice dei dati , così che ogni unità contribuisca all’analisi in misura proporzionata e non abbiano tutte la stessa importanza:

  • un peso 2 significa che quell’unità equivale a due unità identiche;
  • un peso inferiore a 1 significa che quell’unità “conta meno”. La numerosità totale del campione non deve cambiare: la media dei pesi deve sempre essere 1. Si ponderano le righe (le unità), non le colonne (le variabili). Esempio: atteso 50 uomini e 50 donne, rilevato 52 F e 48 M. Per riequilibrare:
  • (^) Gli uomini sono 48, quindi ognuno deve “valere di più” per arrivare all’equivalente di 50.
  • (^) Le donne sono 52, quindi ognuna deve “valere un po’ meno” per scendere virtualmente a 50. In pratica si aggiunge una colonna dei pesi:
  • (^) peso M = 50/
  • (^) peso F = 50/ Esempio campionamento e ponderazione: nel sondaggio SWG sul Green Pass obbligatorio al lavoro:
  • (^) Il campione è composto da 800 soggetti maggiorenni residenti in Italia.
  • (^) La rilevazione è stata fatta con tecnica mista CATI–CAMI–CAWI (telefono, mobile, web).
  • (^) Il campione è stratificato per zona (Nord, Centro, Sud) e prevede quote per età e sesso, così da evitare squilibri nelle categorie più importanti della popolazione. Perché serve la ponderazione in questo caso? Anche se si impongono quote, nella raccolta vera e propria possono comparire piccole distorsioni: magari si ottengono un po’ troppi giovani, troppi uomini, o troppi residenti del Nord rispetto alla popolazione italiana. Per questo motivo, i dati vengono ponderati rispetto a: zona geografica, sesso, età, livello di istruzione e voto alle ultime elezioni. La ponderazione corregge queste di ff erenze: se, ad esempio, si sono intervistate più donne del previsto, il loro peso verrà leggermente ridotto; se invece mancano uomini, il loro peso verrà aumentato. In questo modo il campione finale rappresenta correttamente la popolazione italiana. Risultato del sondaggio (dopo ponderazione): 65% favorevoli, 25% contrari, 10% non sa. Margine di errore -> ± 3,5% con un intervallo di confidenza del 95% -> significa che, se ripetessimo molte volte lo stesso sondaggio, i risultati oscillerebbero entro circa 3,5 punti percentuali. DAT I MANCANT I (missing data) = veri e propri buchi nella matrice dei dati, e rappresentano un problema importante perché molte analisi statistiche non possono funzionare correttamente in loro presenza. Cause:.
  1. Nei sondaggi -> mancata risposta totale o parziale, rifiuto di rispondere, domande non applicabili.
  • Nei^ dati^ ufficiali^ -> assenze dovute a festività o chiusura degli uffici.^ Es.:^ nei^ dati^ di^ borsa, alcuni giorni sono vuoti perché i mercati erano chiusi.
  1. Nei dati secondari (aziendali) -> mancata registrazione di alcune informazioni. Es.: un supermercato non può segmentare i clienti senza carta fedeltà → crea buchi nei dati.
  2. Errori e problemi tecnici -> Bug nei sistemi, database non sincronizzati, malfunzionamenti. Caratteristiche dei dati mancanti:
  3. Distribuzione dei missing -> La prima cosa da capire è se i dati mancanti sono casuali oppure sistematici, perché da questo dipende la possibilità di trattarli correttamente.
  • Missing casuali -> Le mancanze compaiono senza un vero criterio. I dati disponibili contengono abbastanza informazione per “compensare” ciò che manca. In questi casi è possibile ricorrere a tecniche di imputazione senza distorcere il dataset.
  • Missing sistematici (i più problematici) -> Le mancanze si concentrano in un gruppo specifico o in una certa tipologia di rispondenti. L’informazione mancante non può essere ricostruita usando i dati presenti, perché quel gruppo non è rappresentato. Esempi: Chi fa uso di sostanze tende a non rispondere a domande illegali → il missing stesso è un segnale informativo.

In queste situazioni, la mancanza non è un semplice errore: diventa parte del fenomeno da interpretare. Esistono test statistici specifici che permettono di verificare se i missing sono casuali o sistematici.

  1. Numerosità dei missing -> Non esiste una percentuale “giusta” o una soglia che renda automaticamente un dataset inutilizzabile. La quantità accettabile di missing dipende da diversi fattori:
  • il fenomeno che si sta analizzando,
  • il tipo di variabile coinvolta,
  • il tipo di analisi che si intende svolgere. In pratica, ogni caso va valutato nel suo contesto. Come trattare i dati mancanti (solo se CASUALI) -> Quando i dati mancanti sono distribuiti in modo casuale, possiamo applicare alcune tecniche per gestirli senza compromettere l’analisi.
  1. Mancanza di interi casi → Ponderazione -> Si usa quando mancano intere righe, cioè persone che non hanno risposto a tutto il questionario. La ponderazione permette di riequilibrare il campione rispetto alla struttura prevista (es. quote per età, sesso, area). In pratica, si aumentano o riducono leggermente i pesi delle unità presenti per compensare quelle mancanti.
  2. Mancanza di singoli valori → Eliminazione (sconsigliata) -> Consiste nell’eliminare le righe che contengono valori mancanti. È accettabile solo quando si lavora con dataset enormi, dove perdere alcune osservazioni non compromette l’analisi. Nei campioni piccoli è molto rischioso, perché si riduce eccessivamente la numerosità del campione.
  3. Mancanza di singoli valori → Imputazione -> Qui si sostituisce il dato mancante con un valore stimato, che rappresenta al meglio l’informazione che manca. Le tecniche più frequenti sono:
  • Media → per variabili numeriche.
  • Media per strati → se si ritiene che gruppi diversi (es. maschi e femmine) abbiano valori differenti.
  • Moda^ →^ per variabili categoriche. In alcuni casi, il dato mancante non va sostituito , perché è informativo. Esempio: aerei corazzati nella II Guerra Mondiale -> Gli ingegneri rilevavano dove gli aerei rientrati erano stati colpiti. Le zone senza fori sembravano “meno colpite”. Ma questo era un errore -> gli aerei colpiti in quelle zone non tornavano a ff atto → non erano nel campione. Il dato mancante ha rivelato il vero fenomeno: quelle zone andavano corazzate maggiormente. VALORI ANOMALI (outlier) = valori numericamente molto diversi dagli altri: possono essere estremamente alti o estremamente bassi rispetto alla distribuzione generale. Non riguardano i dati categorici, perché lì non esistono “numeri troppo grandi o troppo piccoli”. Gli outlier possono essere errori (es. età digitata come 610 → è scappato uno zero) oppure dati molto interessanti (malattie molto poco frequenti, casi di grande successo). La domanda centrale è: esiste una spiegazione per la presenza dell’outlier? Se sì, non è un errore ma un dato rilevante. Se no, probabilmente è un errore. Tipi di outlier:
  1. Outlier univariati → anomali rispetto a una sola variabile.
  2. Outlier multivariati → anomali solo quando si considerano più variabili insieme. Come individuare gli outlier -> l’individuazione avviene tramite strumenti grafici e statistici -> Boxplot = uno dei metodi più immediati: i punti fuori dai “baffi” indicano possibili outlier.
  • Distribuzione univariata: mostra se un valore è raro rispetto a una singola variabile.
  • Distribuzione multivariata: mostra valori che non sono anomali presi singolarmente, ma lo diventano quando si combinano due o più variabili. Trattamento degli outlier -> Una volta identificato l’outlier, si decide come trattarlo. Le opzioni principali sono:
  1. Eliminazione -> Si elimina il valore come se fosse un missing (per poi imputarlo). È una soluzione drastica: utile solo se l’outlier è chiaramente un errore.
  2. Ranking -> Si sostituiscono i valori reali con il loro ordine (rango). Il valore più

4. PROBABILITA’

PROBABILITA’ = misura della possibilità che un evento si verifichi. Intuitivamente si può definire come il rapporto tra: Esempio: lanciamo una moneta, la probabilità di ottenere testa è 1/2, perché ci sono due possibili risultati e uno solo è favorevole. La probabilità è sempre un numero compreso tra 0 e 1 :

  • p = 1 → evento certo. Es.: lanciando un dado è certo che esca un numero minore di 10.
  • (^) p = 0 → evento impossibile. Es.: lanciando un dado è impossibile ottenere 6. La somma delle probabilità di tutti gli eventi possibili è 1. DISTRIBUZIONI DI FREQUENZA = descrivono un fenomeno a partire da un campione osservato. Mostrano:
  • (^) tutti i valori possibili assunti da una variabile,
  • (^) la frequenza con cui ciascun valore si è presentato nel campione. Sono quindi empiriche, basate su dati reali rilevati (campionari), e possono riguardare variabili di qualunque tipo: numeriche o categoriche. DISTRIBUZIONE DI PROBABILITA’ = modelli teorici che generalizzano le distribuzioni di frequenza. Servono a modellare fenomeni casuali in modo astratto, senza dover raccogliere ogni volta nuovi dati. Esistono moltissimi modelli per fenomeni diversi (es.: normale, binomiale, Poisson…). Inoltre, si distinguono in distribuzioni:
  1. Discrete = la variabile assume valori distinti, separati, numerabili (interi). Esempio: Lancio di un dado → valori 1, 2, 3, 4, 5, 6.
  2. Continue = la variabile può assumere infiniti valori in un intervallo. Si usano numeri con la virgola perché la grandezza è concettualmente continua. Esempi: reddito, altezza, peso.
  3. Distribuzioni discrete -> modellano fenomeni in cui la variabile casuale può assumere solo valori interi (conteggi). La probabilità è concentrata in punti specifici. Lancio di un dado – distribuzione uniforme discreta Variabile casuale: risultato del dado.
  • (^) Valori possibili: 1, 2, 3, 4, 5, 6
  • (^) Tutti hanno la stessa probabilità -> Caratteristiche:
  • (^) In mezzo ai valori (es. 2,5) la probabilità è 0, perché il fenomeno è discreto.
  • (^) Se aumentiamo il numero dei lanci, le frequenze relative si avvicinano sempre più a 1/6. Quando aumentiamo il numero delle prove (es. lanci di un dado), la distribuzione di frequenza sperimentale tende sempre più alla distribuzione di probabilità teorica. Due dadi – variabile = somma dei due dadi Valori possibili: da 2 a 12. Totale combinazioni: 36 (6×6). Ogni somma ha una probabilità diversa perché può essere ottenuta con un numero diverso di combinazioni. Esempi -> La distribuzione risultante forma la classica piramide simmetrica con picco in 7. Due dadi – variabile = massimo dei due dadi Ora la variabile non è più la somma, ma il valore più alto tra i due dadi. Valori possibili: 1, 2, 3, 4, 5, 6 La tabella si costruisce cercando, per ogni coppia, il massimo tra i due numeri: questo genera una struttura a cornici concentriche. Esempi di probabilità -> È più facile che almeno uno dei due dadi mostri un 6.

Esempi pratici di distribuzioni discrete – caso CALL CENTER: Molti fenomeni reali sono modellabili con distribuzioni discrete. Consideriamo un call center o una persona che deve contattare l’INPS. Variabile casuale: prendere la linea / trovare la persona → chiamato “successo” Ipotesi tipiche del modello:

  1. Il risultato può essere successo o insuccesso (variabile dicotomica).
  2. I tentativi sono ripetuti.
  3. I tentativi sono indipendenti (una chiamata non influenza la successiva).
  4. La probabilità di successo è costante ad ogni tentativo (es. p = 0,2). Con questo modello si possono calcolare molti tipi di probabilità: A. Probabilità di prendere la linea al primo tentativo: dal punto di vista nostro B. Probabilità di dover chiamare n volte per prendere la linea, cioè di riuscire la prima volta al tentativo n-esimo. Spero che la probabilità decresca ossia la probabilità di chiamare 10 volte sia bassa. Per calcolarla devo fare la distribuzione di probabilità. C. Probabilità di dover fare n tentativi per trovare k persone: dal punto di vista del call center, quante telefonate dovrà fare dato che la probabilità a ogni chiamata che accettino l’intervista sia 0,2? D. Probabilità di trovare k persone in n tentativi: definendo il numero di chiamate (ne voglio fare 100, quanta probabilità c’è di trovare 15 persone che accettano l’intervista?).
  5. Distribuzioni continue -> modellano variabili che possono assumere infiniti valori all’interno di un intervallo (come altezza, peso, reddito). A differenza delle variabili discrete, qui la probabilità non è “concentrata nei punti”, ma distribuita in modo continuo. Nelle distribuzioni continue la probabilità è descritta da una curva. Il modo corretto di interpretarla è il seguente: Probabilità che X sia tra a e b = area sotto la curva tra a e b Proprietà fondamentali delle distribuzioni continue:
  6. L’area totale sotto la curva è 1 -> È la stessa logica delle distribuzioni discrete: la somma delle probabilità deve essere 1. La differenza è che, nelle DPC, la “somma” è un’area che copre tutta la retta reale (da −∞ a +∞).
  7. La probabilità in un singolo punto è ZERO -> Perché? Se restringiamo sempre di più l’intervallo [a, b], l’area sotto la curva diventa sempre più piccola. Quando b coincide con a, l’intervallo diventa un punto → l’area è zero, quindi la probabilità è zero. Esempio: se diciamo che una persona è alta 1,67 m, in realtà stiamo usando un valore arrotondato. Il vero valore sta in un intervallo minuscolo (es. 1,665–1,675). È questo intervallo ad avere probabilità > 0, non il singolo numero. DISTRIBUZIONE NORMALE = distribuzione di probabilità continua, con la tipica forma a campana simmetrica (le probabilità si concentrano intorno al centro, e diminuiscono andando verso l’esterno). È definita per tutti i valori reali: ed è descritta da due parametri fondamentali: dove:
  • μ (mu) = media (posizione della curva)
  • σ² (sigma quadro) = varianza (dispersione della curva)
  • σ (sigma) = deviazione standard Proprietà della distribuzione:
  1. Simmetria perfetta : la curva è speculare rispetto alla media.

Le distribuzioni normali non sono una sola, ma infinitamente molte, perché ogni combinazione di media (μ) e varianza (σ²) genera una diversa curva normale. Per semplificare i calcoli, si usa una distribuzione di riferimento: DISTRIBUZIONE NORMALE STANDARD -> caratterizzata da: cioè media = 0 e varianza = 1 (deviazione standard = 1). Ogni variabile normale 𝑥~𝑁(𝜇; 𝜎2) può essere trasformata in una variabile standardizzata 𝑧~𝑁 (0; 1). Come? Attraverso la standardizzazione -> Se la varianza è 0 -> significa che tutte le osservazioni sono identiche, quindi non c’è area. Alcuni valori convenzionali -> Nella distribuzione 𝑁 (0; 1) valgono le seguenti percentuali fondamentali:

  • 68 % dei valori è compreso tra –1 e +
  • 95 % dei valori è compreso tra –1.96 e +1.96 (≈ tra –2 e +2)
  • 99 % dei valori è compreso tra –2.57 e +2. Queste soglie permettono di capire quanto un valore è “alto” o “basso” rispetto alla media.

5. ANALISI BIVARIATA

Esempi di domande di marketing:

  • (^) Come si distribuisce la brand awareness tra le marche principali?
  • (^) Quali sono gli attributi del prodotto con la valutazione più alta?
  • (^) Su quali attributi i consumatori sono più d’accordo e su quali mostrano opinioni più diversificate?
  • (^) C’è relazione tra gradimento e propensione all’acquisto? Se sì, quanto è forte questa relazione? Al venditore interessa soprattutto la propensione all’acquisto, anche se non può agire direttamente su di essa. Per questo si concentra sul gradimento: più il prodotto piace, maggiore sarà la probabilità che venga acquistato. Tuttavia, l’intensità di questo legame varia in base al settore: nei prodotti di largo consumo (es. alimentari, cosmetici) il legame è molto forte; nel caso di beni occasionali (es. quotidiani) è più debole.
  • (^) La propensione all’acquisto è la stessa per tutte le marche? Se no, quali hanno la propensione più alta?
  • (^) La distribuzione delle marche è la stessa su tutto il territorio nazionale (Nord, Centro, Sud)? Le domande di marketing si distinguono per il livello di analisi utilizzato:
  1. ANALISI UNIVARIATA -> Considera una sola variabile alla volta e utilizza statistiche descrittive come frequenze, media, varianza, ecc. Le distribuzioni di frequenza e la moda si possono calcolare per qualunque variabile e nel caso di quelle categoriche, costituiscono gli unici strumenti disponibili; la media e la varianza si possono calcolare solo per variabili numeriche, mentre la mediana anche per le variabili ordinali come il livello di istruzione. Esempio: “Qual è l’attributo con la valutazione media più alta?”
  2. ANALISI BIVARIATA -> Analizza la relazione tra due variabili. Serve a comprendere se esiste un legame, e quanto è forte, tra le due variabili considerate. Può riguardare:
  • numerica + numerica → es. gradimento e propensione all’acquisto
  • categorica + categorica → es. marche distribuite per territorio
  • numerica + categorica^ →^ es. propensione all’acquisto per marca
  1. ANALISI MULTIVARIATA -> Considera più variabili contemporaneamente (k variabili). Include tecniche complesse come modelli statistici e metodi di machine learning.
  2. ANALISI UNIVARIATA -> Nella prima rappresentazione tabellare non si ha una distribuzione di frequenza, dal momento che la somma dei valori rappresentati non corrisponde a 100. Ciascuna unità, infatti, ha la possibilità di fornire più di una risposta (sono percentuali rispetto al numero di intervistati partecipanti). Nella seconda rappresentazione tabellare, in riferimento agli attributi del prodotto aventi una valutazione maggiore, si

awareness

Vallelata prod locali Francia Boiano Granarolo Cuomo 23,6% 24,0% 30,8% 31,5% 33,3% 94, numero citazioni n % Vallelata 427 94, prod locali 151 33, Francia 143 31, Boiano 140 30, Granarolo 109 24, Cuomo 107 23, attributi med devs prodotti sempre 7,58 1, prodotti di qualità 7,57 1, affidabile 7,46 1, lunga esperienza 7,20 1, distribuzione 7,19 1, rispetta la 7,11 1, molta pubblicità 6,63 1, prodotti DOP 6,23 1, offerte 5,70 2, mozzarella di 5,27 2,

esegue la media tra tutti gli attributi riferiti alla mozzarella (per ciascuna variabile si esegue una media). In riferimento alla diversificazione dei pareri, si risponde con le varianze e in particolare con le devianze standard: sui prodotti di qualità gli intervistati sono più d’accordo rispetto a quanto dimostrato dalle offerte promozionali (si guarda il secondo valore).

  1. ANALISI BIVARIATA = insieme delle tecniche statistiche utilizzate per studiare la relazione tra due variabili. I suoi obiettivi principali sono:
  • descrivere come le variabili si distribuiscono congiuntamente (es. titolo di studio e occupazione),
  • individuare se tra esse esiste una relazione (sotto forma di associazione, correlazione o dipendenza),
  • misurarne l’intensità e la direzione. Quando i caratteri della distribuzione doppia sono QUANTITATIVI , si può rappresentare la distribuzione doppia attraverso il grafico di dispersione -> nel quale le coppie di modalità di due caratteri quantitativi, osservate per ogni unità del collettivo, vengono rappresentate come punti di un piano cartesiano i cui assi ortogonali corrispondono ai due caratteri. Osservare i valori tramite un grafico di dispersione permette di capire rapidamente come si comportano due variabili e quale relazione le lega. Nell’esempio dei paesi OCSE, si vede chiaramente una relazione positiva: al crescere delle importazioni aumentano anche le esportazioni, con punti che seguono un andamento simile a una retta crescente. La relazione non è però perfettamente proporzionale, perché compaiono alcuni valori anomali, in particolare USA e Giappone, che si discostano dal trend generale pur essendo dati corretti. Riconoscerli è importante per interpretarli correttamente. In sintesi, il grafico evidenzia una relazione diretta e crescente tra le due variabili, utile per valutare la forza e la coerenza del legame. Si distinguono due casi:
  • (^) Concordanza : a valori elevati di una variabile corrispondono valori elevati dell'altra (reddito e consumi = associazione positiva dal momento che i consumi aumentano all’aumentare del reddito);
  • (^) Discordanza : a valori elevati di una variabile corrispondono valori bassi dell'altra (prezzo e merce venduta = associazione negativa dal momento che le vendite diminuiscono all’aumentare del prezzo). Esistono due misure fondamentali che indicano l’ associazione lineare tra due variabili: E. la correlazione = tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a co- variare. La relazione è detta lineare quando, rappresentata su un piano cartesiano, tende ad avvicinarsi alla forma di una retta. In questo caso:
  • Correlazione^ positiva /diretta/crescente: al crescere di X cresce anche Y.
  • Correlazione^ negativa /inversa/decrescente: al crescere di X, Y diminuisce. In alcuni casi, al crescere di una variabile non è possibile prevedere come si comporterà l’altra. C’è quindi assenza di relazione : la variazione di X non permette di capire come varierà Y. Esempio: al crescere delle ore di studio non è detto che cambi in modo chiaro il voto all’università. Talvolta le variabili non seguono un andamento rettilineo ma, ad esempio, prima diminuiscono e poi aumentano (relazione parabolica). In questo caso la correlazione esiste, ma non è lineare. F. la covarianza = media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie: Esportazioni 0 40 80 120 160 200 240 Importazioni 020406080100120140160180200220240260280300320340360380 baricentro

𝑛

𝑖 = 1

( 𝑥𝑖 −^ 𝜇𝑋 )( 𝑦𝑖 −^ 𝜇𝑌 )

Media degli scarti di x dalla sua media * media degli scarti di y dalla sua media = TOT / N

compresi tra –1 e +1:

  • +1 → correlazione positiva perfetta -> i punti nel grafico di dispersione sono perfettamente allineati (crescente).
  • (^) –1 → correlazione negativa perfetta -> i punti nel grafico di dispersione sono perfettamente allineati (decrescente).
  • r > 0 → relazione positiva, diretta (al crescere di una variabile cresce anche l’altra).
  • (^) r < 0 → relazione negativa, inversa (al crescere di una variabile l’altra diminuisce).
  • (^) r = 0 (o vicino) → assenza di relazione lineare Perché la covarianza assume valori all’interno di: −𝜎𝑥𝜎𝑦 ≤ 𝜎𝑥𝑦 ≤ 𝜎𝑥𝜎𝑦 Il segno della correlazione deriva dal segno della covarianza , perché il prodotto dei due scarti è una quantità sempre positiva. ESERCIZIO: Il responsabile commerciale di un’azienda paga alcune stazioni radio locali per mandare in onda per una settimana un messaggio pubblicitario relativo all’immissione sul mercato di un nuovo prodotto. Poiché le stazioni richiedono compensi diversi, esiste una variabilità nel numero di messe in onda del messaggio pubblicitario. Si calcoli la correlazione tra la frequenza dei messaggi pubblicitari e le vendite del prodotto.
  1. Calcolo delle medie
  2. Calcolo dei valori medi del prodotto
  3. Covarianza
  4. Deviazioni standard
  5. Coe ffi ciente di correlazione di Pearson Ai fini interpretativi si fa spesso riferimento alle seguenti indicazioni :
  • (^) Correlazione forte → tra 0,50 e 1
  • (^) Correlazione media → tra 0,30 e 0,
  • (^) Correlazione debole → tra 0 e 0, È simmetrica per valori negativi. Nell’interpretazione del coefficiente di correlazione bisogna prestare attenzione ad alcuni punti:
  1. Il coefficiente di correlazione misura la presenza di relazioni lineari -> indica quanto i punti di un grafico di dispersione sono allineati lungo una retta. Può quindi accadere che tra due variabili esista una relazione molto forte ma non lineare (ad esempio una relazione parabolica), che la correlazione non è in grado di rilevare.
  2. La correlazione non implica una relazione di causa-effetto -> Un valore elevato del coefficiente indica solo che tra due variabili c’è una relazione sistematica, non che una determini l’altra. L’eventuale interpretazione causale è esterna all’analisi statistica ed è responsabilità di chi legge i dati. Ad esempio, nel caso dei biglietti dei concerti, si può ipotizzare che le vendite dipendano dall’investimento pubblicitario, ma questa è una Stazioni radio  Fox (^4 15 60 16 ) FXZ 2 8 16 4 64 Power 5 21 105 25 441 Lizard 6 24 144 36 576 Rodeo 3 17 51 9 289 Totale (^20 85 376 90 ) 𝜇𝑋 = = 4 20 5 𝜇𝑦 =^ = 17 85 5 𝜇𝑋 𝑌 = = 75, 376 5 𝜎𝑋 𝑌 = 75,2 − 4 ∙ 17 = 7, 𝜎𝑥 = 2 = 1,41 𝜎𝑥 = 30 = 5, 𝜌𝑥𝑦 = 𝜎𝑥𝑦 𝜎𝑥𝜎𝑦 = 7, 1,415, = 0, 93

deduzione teorica, non un’informazione fornita dalla correlazione stessa. In questi casi, una correlazione elevata non dimostra la causalità: può solo confermare una teoria già esistente.

  1. Correlazioni spurie = correlazioni elevate che si manifestano anche in assenza di un reale legame logico tra le variabili. Possono derivare dal puro caso oppure dalla dipendenza di entrambe da una terza variabile. Un esempio classico è la correlazione tra l’entità dei danni causati da un incendio e il numero di pompieri intervenuti: non è il numero di pompieri a “causare” i danni, ma entrambe le variabili dipendono dalla dimensione dell’incendio. Lo stesso ragionamento può valere per altri contesti: ad esempio, nel caso dei concerti, sia la pubblicità sia la vendita di biglietti potrebbero dipendere dall’importanza dell’artista. CORRELAZIONE CON JUMP: RELAZIONE TRA UNA VARIABILE CATEGORICA (ORDINALE) E UNA NUMERICA -> non si può utilizzare la correlazione, perché questa misura ha senso solo tra variabili numeriche. In questi casi, la relazione si analizza confrontando le medie della variabile numerica all’interno dei diversi gruppi identificati dalla variabile categorica. La variabile categorica suddivide infatti le osservazioni in gruppi, e per ciascun gruppo si calcola la media della variabile numerica.
  • (^) Se le medie sono tutte uguali , non c’è relazione: al variare del gruppo (es. marca), la media non cambia.
  • (^) Se le medie sono diverse , allora esiste una relazione: al cambiare della categoria, la variabile numerica assume valori medi differenti, quindi la variabile categorica influenza quella numerica. ESEMPIO: relazione tra una variabile categorica e una numerica è il caso della modalità di pagamento (contanti, bancomat, carta di credito) e dell’importo dello scontrino. Per analizzare questa relazione si confrontano le medie dell’importo calcolate separatamente per ciascuna modalità di pagamento, poiché la variabile categorica identifica i gruppi e la variabile numerica è l’importo. La relazione è tanto più forte quanto più queste medie di ff eriscono tra i gruppi. Al contrario, se le medie fossero uguali, significherebbe che non c’è relazione: al variare della modalità di pagamento, l’importo medio non cambia. Nell’esempio, invece, le medie risultano chiaramente diverse: i pagamenti in contanti hanno un importo medio più basso, mentre quelli con carta di credito presentano un importo medio più alto, indicando una relazione tra le due variabili. La correlazione e la differenza in media misurano relazioni diverse e rappresentano concetti distinti e indipendenti.
  • (^) La correlazione indica come una variabile varia rispetto all’altra, cioè se al crescere dell’una l’altra tende a crescere o a diminuire con una certa regolarità.
  • (^) La differenza in media , invece, confronta il valore di una variabile in