Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti Data Analysis Professor. Della Beffa, Appunti di Statistica

Appunti di Data Analysis del Professor. Della Beffa, completi di slide, esempi ed esercitazioni realizzate in classe.

Tipologia: Appunti

2021/2022

In vendita dal 19/01/2023

sofiaaaaaas
sofiaaaaaas 🇮🇹

4.3

(19)

21 documenti

1 / 121

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
giovedì 19 gennaio 2023
DATA ANALYSIS
PRIMA LEZIONE
Obiettivi del corso.
-Conoscere i concetti, i termini e i metodi principali dell’analisi per il mercato. !
-Formulare problemi di marketing in modo adatto all’analisi. !
-Produrre, interpretare e presentare i risultati delle analisi. !
-Riconoscere il ruolo del dati come supporto alle decisioni. !
-Saper usare autonomamente un software statistico è un obiettivo strumentale
facoltativo. !
Metodi.
-Lezioni frontali. !
-Esercitazioni con software statistico + Excel. !
-Durante il corso faremo l’analisi di due casi reali. !
-Martedì teoria e mercoledì pratica. !
-Report di analisi = mettersi nella logica professionale. È opzionale ed è valido per
l’esame. !
Libri. !
TESI CONSIGLIATI.
-Sarstedt, Mooi, A Concise Guide to Market Research, Springer, SIngapore, 2019. !
-Mooi, Sarstedt, Mooi-Reci, Market Research, Springer, SIngapore, 2018. !
Password. !
data2023. !
Software. !
-Excel. !
-JMP. !
Esame. !
-Prova scritta con 10 domande chiuse e 2 domande aperte (domande teoriche e
interpretazione di output). !
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica Appunti Data Analysis Professor. Della Beffa e più Appunti in PDF di Statistica solo su Docsity!

DATA ANALYSIS

PRIMA LEZIONE

Obiettivi del corso.

- Conoscere i concetti, i termini e i metodi principali dell’analisi per il mercato.

- Formulare problemi di marketing in modo adatto all’analisi.

- Produrre, interpretare e presentare i risultati delle analisi.

- Riconoscere il ruolo del dati come supporto alle decisioni.

- Saper usare autonomamente un software statistico è un obiettivo strumentale

facoltativo.

Metodi.

- Lezioni frontali.

- Esercitazioni con software statistico + Excel.

- Durante il corso faremo l’analisi di due casi reali.

- Martedì teoria e mercoledì pratica.

- Report di analisi = mettersi nella logica professionale. È opzionale ed è valido per

l’esame.

Libri.

TESI CONSIGLIATI.

- Sarstedt, Mooi, A Concise Guide to Market Research , Springer, SIngapore, 2019.

- Mooi, Sarstedt, Mooi-Reci, Market Research , Springer, SIngapore, 2018.

Password.

data2023.

Software.

- Excel.

- JMP.

Esame.

- Prova scritta con 10 domande chiuse e 2 domande aperte (domande teoriche e

interpretazione di output).

  • (^) Orale a richiesta.
  • (^) Il report di analisi vale massimo tre punti. Consegna almeno una settimana prima dell’appello scelto i punti valgono per tutto l’a.a (fino a settembre 2023). PUÒ ESSERE FATTO IN GRUPPI.

Obiettivi.

Ci muoviamo nel mondo delle analisi di mercato. In ogni caso, l’analisi di mercato non serve a rispondere a domande nell’immediato, serve più a conoscere dandosi il tempo di fare. Si può poi decidere di monitorare il mercato.

Chi fa analisi di mercato?

  • (^) Strutture interne all’azienda - (^) Fornitori esterni = l’azienda chiede a qualcuno di aiutarla. Nel tavolo dell’analisi

ci sarà, quindi, l’azienda (conosce bene se stessa) e la società di consulenza, che è esperta nel fare analisi di mercato. Anche se l’azienda realizza tutto da sola, è molto probabile che, quando meno, a far fare le interviste si affida ad un fornitore esterno specializzato.

  • Generalisti es. Nielsen, Ipsos, Doxa, GFK ricerche multiclient e ad-hoc.
  • Specializzati = per segmento, per attività, per tipo di analisi.

Il processo di analisi (quantitativa) di mercato.

La definizione del progetto di analisi non è banale, né univoca. Bisogna chiedersi: quale obiettivo? Quali dati? Quali strumenti?

  1. Identificazione e formulazione dell’obiettivo = bisogna mettersi d’accordo sugli obiettivi. Ad esempio:
  • Analisi della concorrenza: chi sono i concorrenti? Cosa li distingue? Quali sono i miei punti di forza e di debolezza? È fondamentale capire chi sono i concorrenti nelle varie parti di territorio, quali sono le differenze, le peculiarità, le caratteristiche.
  1. Quale formula di ricerca?
  • (^) Esplorativa: come l’analisi qualitativa.
  • (^) Descrittiva: come brand awareness, segmentazione.
  • (^) Causale-predittiva: come customer satisfaction, prevenzione del churn.
  1. Quali dati?
  2. Raccolta dei dati.
  • Sviluppare ipotesi di lavoro.
  • Individuare variabili e relazioni da approfondire.
  • (^) Focus group.
  • Moderatore con un gruppo ristretto = si riesce a comprendere cosa è importante/ interessante, tramite una conversazione libera-guidata, da far poi diventare un questionario. - (^) Interviste in profondità.
  • Intervistatore con un consumatore o un decisore.

L'analisi qualitativa rappresenta il 17% della spesa in ricerca di mercato. ESOMAR, 2013.

Analisi quantitativa.

  • (^) Dati primari = sono stati rilevati apposta per l’obiettivo di marketing. Sono quasi sempre che arrivano dei dati ad hoc , dei survey.
  • (^) Dati secondari = sono stati rilevati per altri scopi, però risultano interessanti

anche per l’analisi di mercato. Sono di due tipi:

  1. Nascono dall’interno dell’azienda.
  2. Nascono all’esterno dell’azienda.

Sono molto convenienti dal punto di vista del denaro, poiché i costi sono molto bassi. I dati

  • ERP = enterprise resource program.
  • CRM = customer relationship management.

secondari non è detto che rispondano necessariamente alle mie esigenze (tessera dell’Esselunga). Un esempio è: Esselunga, vede chi prende un prodotto se ne prende anche un altro, tipo latte e biscotti e dunque sono prodotti che si trascinano a vicenda e un’idea è non mettere mai entrambi i prodotti in promozione.

  • (^) Dati socio-demografici = sono età, genere, istruzione. Se si fa un’indagine sulle aziende non si può parlare dell’età dell’azienda, però ci sono dei dati socio- demografici, come area geografica, in che settore merceologico lavora, numero di sedi/dipendenti.
  • (^) Opinioni = sono possibili solo con i dati rilevati apposta.
  • (^) Comportamenti = si differenziano tra primari e secondari poiché questi ultimi sono osservati, mentre i primi sono dichiarati.

La survey si rivolge ad un campione.

  • (^) Popolazione : l'insieme di tutte le unità oggetto di studio, che si vogliono studiare

(persone, prodotti, aziende). La popolazione deve essere definita in modo inequivocabile attraverso una caratteristica osservabile , non bisogna dunque essere generici. “I miei consumatori sono italiani” = questa è una definizione molto sfumata, molto irregolare che non permette di identificare bene la popolazione alla quale ci si riferisce. “Residenti in Italia dal primo settembre 2022” = questa permette di lasciare dentro la definizione alcune persone e lasciarne fuori altre. Anche “ Consumatore abituale ” è una definizione sfumata, mentre più precisa è “ Quante volte ha consumato yogurt negli ultimi trenta giorni? ”. A quel punto si può decidere la popolazione:

  • Consumatore zero = chi non consuma.
  • Consumatore medio = chi consuma 5 -7 volte lo yogurt.
  • Consumatore alto = più di 7.

deve essere identificata inequivocabilmente attraverso (almeno) una caratteristica osservabile

es. "italiani" o "consumatori abituali" non basta

  • (^) Unità statistica : ogni singolo elemento della popolazione (se si parla di persone, ogni persona)
  • (^) Campione : il sottoinsieme della popolazione sul quale si rilevano i dati.+

Campionamento.

È il processo attraverso il quale si estrae il campione dalla popolazione: si scelgono le persone da intervistare.

  1. Probabilistico = buono poiché più utile per rilevazioni statistiche.
  • Casuale semplice: è quello perfetto/ideale. Il cui modello idea è l’estrazione di un numero, tutti hanno la stessa probabilità di essere scelti. Questo è un modello teorico, impraticabile nella pratica poiché bisognerebbe avere l’elenco di tutta la popolazione. Allora si sfruttano delle strategie per ottenere dei campioni che siano migliori.
  • Campionamento stratificato : si basa sull’ipotesi che all’interno della popolazione ci siano delle differenze note (su un certo argomento, le donne le pensano diversamente dagli uomini). Si suppone si

conoscere/ si ipotizzano delle differenze nella popolazione, quindi si divide la popolazione in strati. Dopodiché si fa un campione casuale semplice in ciascuno degli strati (campione casuale semplice tra uomini e donne). Si presuppone quindi che nella popolazione ci siano delle differenze: all’interno degli strati, invece, ci sono delle omogeneità. Gli strati sono ipotizzati omogenei all’interno ed eterogenei all’esterno. Sono omogenei all’interno ed eterogenei tra loro.

  • Campionamento a grappoli : si applica in un’altra situazione. Un esempio tipico è quello delle classi scolastiche: se si vuole fare una survey sugli studenti della IULM. Si scelgono dieci aule (si scelgono a caso) e saranno più o meno tutte uguali tra di loro, la variabilità è all’interno della classe. Sono cluster eterogenei all’interno e omogenei tra di loro.
  • Una^ logica^ mescolata^ si^ applica^ ai^ comuni^ = all’interno di ogni strato simile per ampiezza dei comuni, si fa una selezione per cluster all’interno omogenei.
  1. Non probabilistico = cattivo, capita di non poter far diversamente o di poter attingere a informazioni diverse/più ricche con campionamenti non probabilistici.
  • Campione di esperti : si intervista un piccolissimo sottoinsieme di persone che si ritengono molto competenti sull’argomento. Se si sta sullo yogurt —> si intervista il PROMO Manager di Yomo, Muller. E qui, trattandosi un gruppetto di mezza dozzina di persone, si tratta di una ricerca più qualitativa con interviste di persone esperte. In un altro campo, ad esempio la politica, si può chiedere a dei commentatori politici.
  • Campionamento^ a^ valanga :^ si^ identifica^ la^ prima^ persona^ che^ si^ desidera intervistare e dopo gli si chiede “C’è qualcun altro a cui mi pupi indirizzare?”. Così si crea una catena di persone che si auto-selezionano. Un ambito è che si vuole esplorare qualcosa di illegale (immigrati illegali).

Dimensione del campione.

Campioni più grandi migliorano la precisione delle stime, però:

  • (^) Sono più costosi = quando si definisce la dimensione del campione si deve sempre pensare ai vincoli di costo.

Fasi di un sondaggio.

1. Definizione dell’obiettivo = formula di ricerca, popolazione, campione.

2. Scelta del metodo di contatto.

  • CAPI ( Computer Assisted Personal Interviewing ) = esempio, indagini nei centri commerciali, exit-poll, Auditel.

↑ Qualità, accuratezza, nessuna limitazione di target

↓ Tempi e costi alti, bias dell'intervistatore, desiderabilità sociale (cercare di rispondere ciò che gli altri si aspettano).

  • CATI/CAMI ( Computer Assisted Telephone/Mobile Interviewing ) = 15€/intervista per mille casi da popolazione italiana —> ha dei costi fissi di impianti da intervista e sono abbastanza facili da reperire.

↑ Tempi brevi (i più brevi), qualità, accuratezza, controllo rilevazione (controllo sulla rappresentatività del campione).

  • CAWI ( Computer Assisted Web Interviewing ) = invito via email/web/social, link per la compilazione

↑ Costi come vantaggio, tempi a volte ma non sempre brevi (se si tengono in considerazione gli amici, di solito in 24h si ha concluso, mentre se non bastano i tempi sono molto più lunghe).

↓ Minore accuratezza (l’intervistato è abbandonato a sé stesso), filtro internet (chi non ha internet, non lo può fare), auto-selezione (risponde chi vuole).

3. Costruzione del questionario.

  • (^) Identificare informazione di interesse primario e accessorio —> cosa chiedere?

Cosa scoprire?

  • (^) Stabilire la sequenza logica delle sezioni (blocchi di informazioni) e delle

domande (cosa chiedo prima/cosa chiedo dopo) —> struttura del questionario.

  • SEZIONI:

A. Prima si fanno le domande più generiche e poi quelle più specifiche.

B. Domande su definizione del campione (sul web: se il test è per delle donne, se il candidato afferma di essere un uomo, non può fare il questionario).

C. Caratteri socio-demografici = alla fine, tranne quelle che mi servono per selezionare il campione —> genere ed età per prima cosa, poi alla fine area geografica, istruzione, componenti della famiglia.

  • (^) Decidere la forma della risposte e formulare le domande (come chiedere). Più la domanda è difficile, più le persone sceglieranno il problema centrale, quindi si potrebbe non metterlo.
  • ALLA FINE:

A. “Sei soddisfatto del prodotto?” Le cose su cui il candidato ragiona saranno fortemente influenti sulla risposta finale —> scoprire gli attributi del prodotto che influenzano di più il gradimento verso il prodotto.

  • ALL’INIZIO:

B. Sei soddisfatto del prodotto?” Se chiesto all’invio si avrà una risposta pura.

4. Test del questionario.

5. Somministrazione del questionario al campione.

  1. Raccolta dati.

7. Analisi.

8. Reporting.

Formulazione domande: esercizio.

  1. Ha mai comprato online biglietti aerei e ferroviari? Bisogna mettere la o al posto della e; dovrebbero essere divise le domande.
  2. Nella sua famiglia ci sono bambini? Non è specificata l’età dei bambini.
  3. L'intervento dello Stato non è stato adeguato…: è una domanda tendenziosa, bisognerebbe essere più neutri e c’è anche la negazione.
  4. In che paese è nato: Italia | Francia | Spagna | Europa = le risposte non sono esaustive.
  5. Dove è andato in vacanza l'estate scorsa? Non è detto che sia andato in vacanza.
  6. In che anno ha aperto l'account? Le domande sul passato sono un po’ difficili da ricordare.
  7. Ha malattie croniche? Intrusiva.
  • Conosce Pettinicchio.
  • Campione della pop italiana uniformemente distribuito per età^ (due classi: 21-45 e 46-64) e per area (nord, centro, sud).
  • (^) Lei è responsabile acquisti?
  • (^) Lei, o qualcuno della sua famiglia, i qualcuno della sua famiglia?

TERZA LEZIONE

  • (^) Per l’ ambito di applicazione = statistica e machine learning. Noi useremo Jump.
  • (^) Per politica commerciale = vicenda (annuale o perpetua), freeware (software

distribuito gratuitamente per uso senza limitazioni), shareware (distribuito gratuitamente con limitazioni, principalmente di tempo) open source.

  • (^) Tipo di utilizzo/facilità d’uso = interfacce grafiche (a menu o workflow, controllo

a comandi e linguaggi di programmazione.

Dati.

Tutte le analisi si basa su matrici di dati dove le righe sono unità (casi, osservazioni) e le colonne sono variabili. Tutte le variabili del dataset sono una dimensione dello spazio, mentre le unità sono un punto nello spazio di k dimensioni.

Nella prima immagine ci sono due variabili che creano due dimensioni (X, Y), mentre nella seconda ci sono tre dimensioni.

  • (^) Dati numerici , quantitativi = rappresentano informazioni intrinsecamente

numeriche e si possono eseguire calcoli matematici (ad esempio la media).

  • (^) Dati categorici , qualitativi = rappresentano variabili che non si possono esprimere con veri e propri numeri.
  • Nominali = la marca.
  • Ordinali = categorie che possono essere ordinate con distanze non uguali (hanno un ordinamento). Un esempio è l’istruzione: elementari, medie, superiori, laurea triennale, laurea magistrale ecc. Altri esempi: classifiche e ordinamenti, Scale di Likert (per niente, poco, così così, abbastanza, molto). Queste scale sono diffusissime ed è accettato accettarle come dati numerici, ciò permette di accedere ad un sacco di tecniche (vendite) altrimenti inaccessibili.

Esercizio.

  • (^) CAP —> categorico, non c’è nessun ordinamento.
  • (^) NUMERO CIVICO —> i numeri civici hanno due ordinamenti diversi, divisi tra pari e disperi entrambi ordinali.
  • (^) SCALA —> categorico, non c’è ordinamento.
  • (^) PIANO —> numerico.

PONDERAZIONE.

Ponderare la matrice dei dati, significa aggiungere ai dati una colonna che serve per alterare l’importanza della singola riga. Ciascun dato, senza ponderazione vale 1, mentre con la ponderazione, ogni dato avrà un peso differente.

  • (^) 49 maschi —> avrebbero dovuto essere 50. Questi 49 ragazzi contribuiscono ciascuno un po’ di più del loro peso normale, affinché si possa avere una perversa di 50 maschi.
  • (^) 51 femmine —> avrebbero dovuto essere 50.

Questo serve a raddrizzare la numerosità di un campione che nasce non perfetto. La numerosità totale deve rimanere uguale, se il campione è 100 deve rimanere 100.

VALORI MANCANTI.

I valori mancanti ( missing ) sono un problema per molte analisi. Sono due buchi all’interno della tabella; i motivi per cui si creano dei buchi possono essere di tanti tipi:

  • (^) In dati provenienti da sondaggi = possono essere una mancata risposta totale o parziale oppure a domanda non applicabili.
  • (^) In dati ufficiali = mancata pubblicazioni.
  • (^) In generale = errori o problemi tecnici.

A volte ci possono essere dei buchi anche se non sono causati da errori, semplicemente può non esserci il dato.

Distribuzione.

  • (^) Missing distribuiti casualmente: possiamo ipotizzare che l’informazione presente sia sufficiente a calmare la lacuna (contengono l’informazione assente).
  • (^) Missing distribuiti in modo sistematico: il problema è grave, l'informazione mancante non si può desumere dai dati presenti es. valori mancanti concentrati in uno strato → esistono test per vedere se i missing sono casuali o no.

Numerosità.

È ovviamente meglio avere meno valori mancanti. Non è possibile dare delle soglie se ci sono tanti valori mancanti.

  • (^) La percentuale accettabile di missing dipende dal problema e dalla variabile in esame, non esistono indicazioni generali

Se mancano casi interi, si può utilizzare la ponderazione (come nel caso dei 49 maschi, ne mancava 1). Mentre se mancano singoli valori (manca la casella, però il resto della colonna c’è) si utilizza la tecnica dell’ imputazione , ovvero la sostituzione con la media (si fa la media della colonna e si inserisce all’interno della cella mancante. Si può essere ancora più fini e inserire la media di uno strato nello strato in cui manca il dato e la media di un altro strato nell’altro strato in cui manca il dato.

OUTLIER.

I valori anomali sono valori di una variabile numerica che si discostano molto dagli altri. Ogni volta si trovano outlier è necessario investigarne le origini. Essi si possono presentare casualmente oppure possono essere il risultato di errori durante la misurazione della variabile o in fase di immissione o di campionamento dei dati.

  1. Gli outlier univariati sono un punto dati che è estremo per una variabile.
  2. Un outlier multivariato è una combinazione di punti dati insoliti, che comprende almeno due punti dati.
  • (^) Possono essere degli errori oppure dei dati molto interessanti (casi rari o casi di successo).
  • (^) Il punto è: c’è una spiegazione per la presenza di outlier? Se esiste una spiegazione, abbiamo scoperto un fenomeno, abbiamo scoperto qualcosa di interessante.
  • (^) L’individuazione degli outlier può essere l’obiettivo dell’analisi (ad esempio identificazioni di frodi).

Seconda immagine : il IN-LINE OUTLIER si vede che è un outlier, mentre il CROSS- TREND OUTLIER è più difficile da percepire se si guarda da sola la X e la Y.

  • (^) Individuazione :
  • Strumenti grafici e statistici trattamento.
  • (^) Trattamento :

Ci sono delle operazioni che possono mettere insieme due variabili e crearne una terza:

  • (^) Popolazione + superficie = densità.
  • (^) Altezza + peso = BMI.
  • (^) Località —> su questo non si potrebbe fare nulla poiché è “nominale”, però se trasformiamo le località in coordinate geografiche abbiamo due valori numerici su cui si possono fare moltissime cose.

QUARTA LEZIONE

Probabilità.

È la misura della possibilità che un evento possa verificarsi. essendo definita come un rapporto tra numero di casi favorevoli e numero di prove, il risultato è compreso 0 e 1.

  • (^) p è 1 = casi favorevoli = al numero di prove ( evento certo ). - (^) p è 0 = evento impossibile.

Distribuzione di probabilità.

Quello di cui ci interessa parlare sono le distribuzioni. Sono la generalizzazione delle distribuzioni di frequenza: mentre queste ultime sono di solito desunte da dati campionari, le distribuzioni di probabilità sono modelli teorici di riferimento che servono a descrivere situazioni teoriche che riguardano il modo in cui si presentano variabili casuali. Ne esistono moltissime e servono per modellare fenomeni diversi.

Bisogna distinguere i due casi: quelli relativi a distribuzioni di variabili discrete e quelle relative a variabili continue. Questo è l’unico caso in cui questa distinzione tra variabili è veramente importante. I numeri interi sono variabili discrete (1, 2, 3 ecc), mentre quelle continue sono quelle che possono ottenere qualsiasi valore. Dobbiamo pensare alla caratteristica intrinseca del fenomeno su cui stiamo lavorando.

- (^) La variabile che misura “Quante sigarette ho fumato ieri”, è una variabile discreta. - (^) La variabile “ALTEZZA”, è una variabile continua. Dobbiamo pensare alla caratteristica che stiamo usando, non al numero —> l’altezza può assumere qualsiasi valore, siamo noi che approssimiamo. Le variabile continue sono espresse come numeri reali —> sappiamo però che i numeri reali non possono essere rappresentati (1/3 —> sarebbe 0,333333333 con infiniti decimali).

Distribuzioni di probabilità discrete.

Probabilità dei possibili risultati di un lancio di dati = quali sono i possibili valori che usciranno se lancio un dado? Usciranno i numeri da 1 a 7.