Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione ai Sistemi Informativi di Marketing: Rilevazione e Analisi dei Dati - Prof. D, Appunti di Analisi Dei Dati

Appunti presi in aula di Data Analysis

Tipologia: Appunti

2020/2021

Caricato il 03/01/2021

ValerioTumiatti
ValerioTumiatti 🇮🇹

5

(2)

5 documenti

1 / 11

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Data analysis
Lezione 1
Libri di testo:
-Ricerche di marketing Molteni, Trolio, Ricerche di marketing, Egea, Milano, 2012 (guardare che capitoli su
slide community)
-Materiale sulla community ( password comumunity data2021) (nome corso: data analysis 2020-2021)
-Software: excel, JMP
Per teams usare i codici del gurppo 1.
CONTESTO (cap1,cap2,cap11)
Ipotesi: la conoscenza è fonte doi vantaggio competitivo
la soddisfazione dei clienti produce redditività ( questo non è certo, è certo che l'insoddisfazione
abbatte la redditività.)
Requisiti dell'impresa:
-apertura: ottenere e mantenere aggiornata la conoscenza
-trasparenza: fare circolare la conocenza al proprio interno, una volta acquista la conoscenza
deve essere condivisa con i collaboratori
-innovazione: saper rispondere agli stimoli del mercato, sfruttare la conoscenza.
-sistema informativo di marketing: raccogliere dati sugli aspetti di interesse e traformarli in
informazioni utili per le decisioni
Cos'è un sistema informativo di marketing?
è l'insieme strutturato di persone, modelli organizzativi di analisi, tecnologie disegnato per generare un
fluso ordinato e continuativo di informazioni destinate
ad essere utilizzate come supporto alle decisioni del marketing aziendale.
Fonti informative:
fonti interne fonti esterne
dati prodotti dall'azienda istituti di ricerca di mercato, fonti istituzionali
Dati primari area vendite indagini ad hoc, survey, approccio qualitativo,
approccio quantitativo
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Introduzione ai Sistemi Informativi di Marketing: Rilevazione e Analisi dei Dati - Prof. D e più Appunti in PDF di Analisi Dei Dati solo su Docsity!

Data analysis

Lezione 1 Libri di testo: -Ricerche di marketing Molteni, Trolio, Ricerche di marketing, Egea, Milano, 2012 (guardare che capitoli su slide community) -Materiale sulla community ( password comumunity data2021) (nome corso: data analysis 2020-2021) -Software: excel, JMP Per teams usare i codici del gurppo 1. CONTESTO (cap1,cap2,cap11) Ipotesi: la conoscenza è fonte doi vantaggio competitivo la soddisfazione dei clienti produce redditività ( questo non è certo, è certo che l'insoddisfazione abbatte la redditività.) Requisiti dell'impresa: -apertura: ottenere e mantenere aggiornata la conoscenza -trasparenza: fare circolare la conocenza al proprio interno, una volta acquista la conoscenza deve essere condivisa con i collaboratori -innovazione: saper rispondere agli stimoli del mercato, sfruttare la conoscenza. -sistema informativo di marketing: raccogliere dati sugli aspetti di interesse e traformarli in informazioni utili per le decisioni Cos'è un sistema informativo di marketing? è l'insieme strutturato di persone, modelli organizzativi di analisi, tecnologie disegnato per generare un fluso ordinato e continuativo di informazioni destinate ad essere utilizzate come supporto alle decisioni del marketing aziendale. Fonti informative: fonti interne fonti esterne dati prodotti dall'azienda istituti di ricerca di mercato, fonti istituzionali Dati primari area vendite indagini ad hoc, survey, approccio qualitativo, approccio quantitativo

rilevati per l'obiettivo Dati secondari ERP, CRM Istat, PA, Banca d'italia, UE, WTO/OMC prodotti per altri scopi TIPI ED UTILIZZI DI DATI: fonti interne fonti esterne Sociodemografici età, genere, reddito analisi quantitative analisi quantitative e campionamento opinioni analisi quantitative, analisi qualitative valori,stili di vita comportamenti analisi quantitative, micro mkt e micro targeting analisi quantitative (con dati dichiarati) acquisti, frequenza, social C'è differenza tra dati oggettivi e dati dichiarati, in quanto i dati dichiarati possono non essere sempre veritieri.

alle esigenze di chi redige il questionario ( dal generale al particolare, le domande anagrafiche prima se mi servono per scremare, dopo se non interessa la scrematura, le domande più complesse alla fine dopo aver instaurato fiducia.) Le aree possono essere filtrate, ovvero in base alle risposte che vengono date forniscono delle sezioni differenti. 3.definire la lista delle variabili (non le domande) 4.definire la sequenza delle domande (è una scelta per scegliere su cosa l’intervistato deve concentrarsi) 5.decidere la forma delle risposte  aperte o chiuse, in che scala 6.formulare le domande, ovvero come chiedere. E’ molto importante limitarsi alle domande necessarie. -evitare domande doppie -evitare ambiguità -prestare attenzione alle negazioni (tende a influenzare le risposte e genera forte ambiguità nella risposta) -evirare risposte esaustive e mutamente esclusive -non dare nulla per scontato -molta attenzione alle domande sul passato e ai temi etici  Somministrazione del questionario  AnalisiReporting Prerequisiti di statistica Tutte le analisi si basano su matrici di datu unità per variabili , dove ogni riga è una unità statistica e ogni colonne sono variali (attributi,feature). Ogni variabile si può interpretare come una dimensione, ogni unità si può interpretare come un punto nello spazio a k dimensioni. I dati sono di due tipi dversi: categorici e numerici. I dati categorici non sono numeri, ma delle etichette al contrario di quelli numerici. I dati categorici (qualitativi) si esprimono in categorie o modalità e ad ogni unità deve appartenere una e una sola categoria e su essi non si possono eseguire operazioni aritmetiche (media), ma si possono calcolare frequenze e percentuali. I dati categorici possono essere nominali ( ad esempio la marca, la nazionalità etc.), oppure ordinali dove le categorie sono ordinate, ma le distanze tra di esse non sono uguali. Comprendono la possibilità di applicare classifiche e ordinamenti e l’ applicazioni di scale come Likert (scale categoriche usate come scale numeriche). I dati numerici sono veri numeri sotto tutti i profili e rappresentano informazioni intrinsicamente numerico e su di essi si possono eseguire tutti i tipi di calcoli aritmetici. I darti numerici si dividono in dati a intervalli o a rapporti, nel primo caso lo zero non significa assenza di quantità ma si limita ad essere un dato, nei dati numerici a rapporti il dato zero considera realmente assenza di quantità. I dati numeri, inoltre, possono essere discreti o continui, i primi non considerano la virgola, i secondi sì. Dari binari: sono dati nominali, ma si possono utilizzare come numerici in molte analisi. Un dato categorico con k categorie si può trasformare in k dati. Lezione 3

Distribuzione di frequenza: associano ogni possibile variabile la loro frequenza (relativa o assoluta) con la quale si presentano. Si può applicare a qualunque tipo di dato. Per le variabili discrete fornisce tutta l’informazione disponibile, per le variabili continue raggruppano i valori in classi. Il motivo dell’esistenza delle frequenze relative esiste per consentire un confronto tra le frequenze assolute Media: Mediana: metà dei valori sono maggiori e metà dei valori sono minori Moda: valore più frequente Percentili Quartili: dividono in quarti Varianza: è il quadrato della deviazione standard , il problema della varianza non è espressa nella stessa scala della variabile originale ( se il dato originale è espresso in euro, la varianza è euro al quadrato) Deviazione standard: è la radice quadrata della varianza , esprime la varianza ma nella stessa misura del dato originale. Scarto interquartile Probabilità: è una misura della possibilità che un evento possa verificarsi. definizione frequentista: p= numero di casi favorevoli/numero di prove quando il numero di prove tende a infinito. 0< p <1 (minore o uguale a uno) evento probabile p=1 corrisponde ad un evento certo p=0 corrisponde ad un evento possibile La somma di tutte le probabilità è 1, Sommatori P= Distribuzione di probabilità Le distribuzioni di frequenza sono in genere basate su dati osservati. Le distribuzioni di probabilità discrete, qui la probabilità è concentrata nei punti, per le variabili continua la probabilità è l’area sotto la curva. L’area sotto la curva tra a e b rapprensenta la probabilità che x sia compreasa tra a e b: Prob(a<x<b). Per le variabili continue la probabilità di u singolo punto è 0 perché è un valore approssimativo. Lezione 4 Box Plot Schematizzano la distribuzione di una variabile numerica, evidenziano i valori anomali (outlier) Istogramma

Grafici a torta mostrano la distribuzione di una variabile qualitativa (la somma degli spicchi considera sempre il 100%) I grafici a torta funzionano molto bene se si espongono variabili distinte tra di loro, il loro limite consiste nel non evidenziare precisamente le differenze tra le parti. Quando i valori sono molto simili tra loro fare confusione è semplice, meglio utilizzare un istogramma. In particolare sono sempre da evitare i grafici a torta 3D, sono belli ma inutili, non mantengono le proporzioni. Grafici a linea tipicamente utilizzati per esporre dei trend, solitamente l’asse orizzontale è il tempo. ( l’asse orizzontale, come per l’istogramma deve essere numerico). Grafici a dispersione a bolle rappresentano due variabili numeriche in un piano cartesiano, le bolle possono raggiungere una terza dimensione che non considera solo un fatto estetico, ma la dimensione delle bolle è data da appunto una terza variabile.

Nel primo caso il grafico è poco rappresentativo, solo nel secondo grafico, con l’etichettamento dei dati il charge comincia a prendere forma, nell’ultimo i dati sono esposti in maniera dettagliata. Si potrebbe aggiungere una quarta dimensione cambiando il colore delle bolle (esempio: i paesi protestanti in blu e quelli a prevalenza cattolica in arancione). Grafici gerarchici Il rettangolo più grande viene suddiviso in altri rettangoli proporzionamente.

Campionamento Il processo col quale si estrae un campione può essere probabilistico o non probabilistico (a valanga, per convenienza). A livello di statistica inferenziale l’unico valido è il campione probabilistico, risultano però, per alcune analisi, utile anche quello probabilistico. Il campionamento probabilistico può essere:  Casuale sempliceestrazione casuale ad esempio da un’urna  Campionamento sistematico ogni k unità  Campionamento stratificato si utilizzano delle caratteristiche note della popolazione per suddividerle in strati es. età, area.  Campionamento a grappoli quando una popolazione è naturalmente divisa in gruppi ad esempio classi scolastiche, comuni etc. Nulla vieta di combinare campionamento a grappoli e stratificato. Caratteristiche di un buon campione:  Casualità  Rappresentatività deve rappresentare tutte le caratteristiche della popolazione in modo diretto  Numerosità più il campione è grande, più l’intervallo di confidenza è minore Non bisogna confondere la numerosità con la rappresentatività, non sempre un campione numeroso significa anche rappresentativo. Alle volte la numerosità è negativa ad esempio se non c’è rappresentatività. Data cleaning: ponderazione La ponderazione serve a modificare artificialmente la numerosità, totale o parziale, di un campione. Esistono tecniche per ovviare al problema della rappresentatività. La ponderazione consiste nell’associare a ogni unità un peso in modo che le unità non abbiamo tutte la stessa importanza (abbiamo un campione di due donne e un uomo, se consideriamo le don e ½ e l’uomo 2 abbiamo una ponderazione) (abbiamo 50 donne e le facciamo valere 1, mentre se abbiamo 49 uomini li facciamo valere 50/49 così da ottenere ancora una perfetta ponderazione). La ponderazione serve appunto a correggere le distorsioni in dati provenienti dai campioni, ma serve anche correggere la scala, ovvero esprime i risultati campionari nella scala della popolazione. Serve, inoltre, ad attribuire importanza o dimensione diversa alle unità statistiche per analizzare i parametri demografici dei comuni italiani bisogna ponderare rispetto al numero di abitanti. Quando viene corretta la numerosità degli strati di un campione correggendone un peso bisogna pur sempre mantenere la numerosità totale del campione senza variarla. La media dei pesi deve essere 1, bisognerebbe mantenersi a pesi compresi tra 0.5 e 2. I dati mancanti (missing) sono un problema per l’analisi e ciò può avvenire poiché dai sondaggi risultano domande non applicabili, mancate risposte parziali o mancate risposte totali. In dati ufficiali può avvenire una mancata pubblicazione oppure in generale si possono verificarsi errori o vari problemi tecnici. La presenza di dati mancanti va indagata: la caratteristica che rende i dati mancanti poco gravi è la casualità (può capitare che qualche dato sia assente e che gli altri dati possono compensare la lacuna), se i dati mancanti sono distribuiti in modo sistematico il problema diventa grave, l’informazione mancante non si può desumere dai dati presenti. Es: valori mancanti concentrati in uno strato. La percentuale accettabile di missing dipende dal problema e dalla variabile generale, non esistono indicazioni generali. Con mancanza di dati di casi interi (mancanza di risposta totale) si può procedere con la ponderazione. In mancanza di singoli valori (mancata risposta parziale) si può procedere in maniera differente ed il più

utilizzato è l’imputazione, ovvero sostituire il valore con un altro valore, di solito si fa con la media degli altri. I valori anomali (outlier) sono valori di una variabile numerica che si discostano molto dagli altri. Non necessariamente sono errori, alle volte sono solo casi rari. Esistono outlier univariati e outlier multivariati (combinazioni inusuali di valori di più variabili). L’individuazione di outlier può essere l’obiettivo dell’analisi come ad esempio l’identificazione delle frodi. Gli outlier possono essere trattati in maniera differente: eliminazione, filtro (confronta i risultati con e senza outlieri), capping ( x>xmaxx=Xmax, ad esempio per l’altezza se supera i 2mt si mette 2mt, si istituisce un tetto massimo), stimatori troncati (trimmed), ranking (sostituisce ai valori il loro ordinamento, li si mette in fila e li si ordina ordinalmente e ora quindi l’ultimo è solo x+1). SI possono annullare le differenze di scala e di variabilità tra le variabili. Tramite:  Standardizzazione media zero, varianza 1 z= x- media/S  Normalizzazioneintervallo [0;1]. V=x-min(x)/max(x)-min(x) Generazione di nuove variabili: dalla popolazione e dalla superficie si può arrivare la densità, da altezza e peso il BMI, da tempo e spazio la velocità etc.