Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Introduzione ai Sistemi Informativi di Marketing: Rilevazione e Analisi dei Dati - Prof. D, Appunti di Analisi Dei Dati

Libera università di lingue e comunicazione (IULM)Analisi Dei Dati

Prof. Francesco Della Beffa

Appunti presi in aula di Data Analysis

Tipologia: Appunti

2020/2021

Caricato il 03/01/2021

ValerioTumiatti 🇮🇹

5

(2)

5 documenti

1 / 11

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

Data analysis

Lezione 1

Libri di testo:

-Ricerche di marketing Molteni, Trolio, Ricerche di marketing, Egea, Milano, 2012 (guardare che capitoli su

slide community)

-Materiale sulla community ( password comumunity data2021) (nome corso: data analysis 2020-2021)

-Software: excel, JMP

Per teams usare i codici del gurppo 1.

CONTESTO (cap1,cap2,cap11)

Ipotesi: la conoscenza è fonte doi vantaggio competitivo

la soddisfazione dei clienti produce redditività ( questo non è certo, è certo che l'insoddisfazione

abbatte la redditività.)

Requisiti dell'impresa:

-apertura: ottenere e mantenere aggiornata la conoscenza

-trasparenza: fare circolare la conocenza al proprio interno, una volta acquista la conoscenza

deve essere condivisa con i collaboratori

-innovazione: saper rispondere agli stimoli del mercato, sfruttare la conoscenza.

-sistema informativo di marketing: raccogliere dati sugli aspetti di interesse e traformarli in

informazioni utili per le decisioni

Cos'è un sistema informativo di marketing?

è l'insieme strutturato di persone, modelli organizzativi di analisi, tecnologie disegnato per generare un

fluso ordinato e continuativo di informazioni destinate

ad essere utilizzate come supporto alle decisioni del marketing aziendale.

Fonti informative:

fonti interne fonti esterne

dati prodotti dall'azienda istituti di ricerca di mercato, fonti istituzionali

Dati primari area vendite indagini ad hoc, survey, approccio qualitativo,

approccio quantitativo

Scopri Appunti di Analisi Dei Dati Libera università di lingue e comunicazione (IULM)

Documenti correlati

Sistemi Informativi Aziendali: Dati, Informazioni e Conoscenza

3. Analisi dei dati.

SISTEMI INFORMATIVI, INFORMAZIONI E DATI

Introduzione all'Informatica: Dati, Informazione, Tecnologie e Sistemi Informativi

Infrastrutture dei sistemi informativi

APPUNTI SISTEMI INFORMATIVI

Appunti sistemi informativi

Sistemi Informativi e Informazione Aziendale: Dati, Elaborazione e Utilizzo

Sistemi Informativi e Trend Digitali: Introduzione ai Sistemi Informativi

SBOBINA SISTEMI INFORMATIVI

Sistemi Informativi e Trend Digitali - Infrastruttura dei Sistemi Informativi

Appunti Basi Dati dei Sistemi informativi

Anteprima parziale del testo

Scarica Introduzione ai Sistemi Informativi di Marketing: Rilevazione e Analisi dei Dati - Prof. D e più Appunti in PDF di Analisi Dei Dati solo su Docsity!

Data analysis

Lezione 1 Libri di testo: -Ricerche di marketing Molteni, Trolio, Ricerche di marketing, Egea, Milano, 2012 (guardare che capitoli su slide community) -Materiale sulla community ( password comumunity data2021) (nome corso: data analysis 2020-2021) -Software: excel, JMP Per teams usare i codici del gurppo 1. CONTESTO (cap1,cap2,cap11) Ipotesi: la conoscenza è fonte doi vantaggio competitivo la soddisfazione dei clienti produce redditività ( questo non è certo, è certo che l'insoddisfazione abbatte la redditività.) Requisiti dell'impresa: -apertura: ottenere e mantenere aggiornata la conoscenza -trasparenza: fare circolare la conocenza al proprio interno, una volta acquista la conoscenza deve essere condivisa con i collaboratori -innovazione: saper rispondere agli stimoli del mercato, sfruttare la conoscenza. -sistema informativo di marketing: raccogliere dati sugli aspetti di interesse e traformarli in informazioni utili per le decisioni Cos'è un sistema informativo di marketing? è l'insieme strutturato di persone, modelli organizzativi di analisi, tecnologie disegnato per generare un fluso ordinato e continuativo di informazioni destinate ad essere utilizzate come supporto alle decisioni del marketing aziendale. Fonti informative: fonti interne fonti esterne dati prodotti dall'azienda istituti di ricerca di mercato, fonti istituzionali Dati primari area vendite indagini ad hoc, survey, approccio qualitativo, approccio quantitativo

rilevati per l'obiettivo Dati secondari ERP, CRM Istat, PA, Banca d'italia, UE, WTO/OMC prodotti per altri scopi TIPI ED UTILIZZI DI DATI: fonti interne fonti esterne Sociodemografici età, genere, reddito analisi quantitative analisi quantitative e campionamento opinioni analisi quantitative, analisi qualitative valori,stili di vita comportamenti analisi quantitative, micro mkt e micro targeting analisi quantitative (con dati dichiarati) acquisti, frequenza, social C'è differenza tra dati oggettivi e dati dichiarati, in quanto i dati dichiarati possono non essere sempre veritieri.

alle esigenze di chi redige il questionario ( dal generale al particolare, le domande anagrafiche prima se mi servono per scremare, dopo se non interessa la scrematura, le domande più complesse alla fine dopo aver instaurato fiducia.) Le aree possono essere filtrate, ovvero in base alle risposte che vengono date forniscono delle sezioni differenti. 3.definire la lista delle variabili (non le domande) 4.definire la sequenza delle domande (è una scelta per scegliere su cosa l’intervistato deve concentrarsi) 5.decidere la forma delle risposte  aperte o chiuse, in che scala 6.formulare le domande, ovvero come chiedere. E’ molto importante limitarsi alle domande necessarie. -evitare domande doppie -evitare ambiguità -prestare attenzione alle negazioni (tende a influenzare le risposte e genera forte ambiguità nella risposta) -evirare risposte esaustive e mutamente esclusive -non dare nulla per scontato -molta attenzione alle domande sul passato e ai temi etici  Somministrazione del questionario  Analisi  Reporting Prerequisiti di statistica Tutte le analisi si basano su matrici di datu unità per variabili , dove ogni riga è una unità statistica e ogni colonne sono variali (attributi,feature). Ogni variabile si può interpretare come una dimensione, ogni unità si può interpretare come un punto nello spazio a k dimensioni. I dati sono di due tipi dversi: categorici e numerici. I dati categorici non sono numeri, ma delle etichette al contrario di quelli numerici. I dati categorici (qualitativi) si esprimono in categorie o modalità e ad ogni unità deve appartenere una e una sola categoria e su essi non si possono eseguire operazioni aritmetiche (media), ma si possono calcolare frequenze e percentuali. I dati categorici possono essere nominali ( ad esempio la marca, la nazionalità etc.), oppure ordinali dove le categorie sono ordinate, ma le distanze tra di esse non sono uguali. Comprendono la possibilità di applicare classifiche e ordinamenti e l’ applicazioni di scale come Likert (scale categoriche usate come scale numeriche). I dati numerici sono veri numeri sotto tutti i profili e rappresentano informazioni intrinsicamente numerico e su di essi si possono eseguire tutti i tipi di calcoli aritmetici. I darti numerici si dividono in dati a intervalli o a rapporti, nel primo caso lo zero non significa assenza di quantità ma si limita ad essere un dato, nei dati numerici a rapporti il dato zero considera realmente assenza di quantità. I dati numeri, inoltre, possono essere discreti o continui, i primi non considerano la virgola, i secondi sì. Dari binari: sono dati nominali, ma si possono utilizzare come numerici in molte analisi. Un dato categorico con k categorie si può trasformare in k dati. Lezione 3

Distribuzione di frequenza: associano ogni possibile variabile la loro frequenza (relativa o assoluta) con la quale si presentano. Si può applicare a qualunque tipo di dato. Per le variabili discrete fornisce tutta l’informazione disponibile, per le variabili continue raggruppano i valori in classi. Il motivo dell’esistenza delle frequenze relative esiste per consentire un confronto tra le frequenze assolute Media: Mediana: metà dei valori sono maggiori e metà dei valori sono minori Moda: valore più frequente Percentili Quartili: dividono in quarti Varianza: è il quadrato della deviazione standard , il problema della varianza non è espressa nella stessa scala della variabile originale ( se il dato originale è espresso in euro, la varianza è euro al quadrato) Deviazione standard: è la radice quadrata della varianza , esprime la varianza ma nella stessa misura del dato originale. Scarto interquartile Probabilità: è una misura della possibilità che un evento possa verificarsi. definizione frequentista: p= numero di casi favorevoli/numero di prove quando il numero di prove tende a infinito. 0< p <1 (minore o uguale a uno) evento probabile p=1 corrisponde ad un evento certo p=0 corrisponde ad un evento possibile La somma di tutte le probabilità è 1, Sommatori P= Distribuzione di probabilità Le distribuzioni di frequenza sono in genere basate su dati osservati. Le distribuzioni di probabilità discrete, qui la probabilità è concentrata nei punti, per le variabili continua la probabilità è l’area sotto la curva. L’area sotto la curva tra a e b rapprensenta la probabilità che x sia compreasa tra a e b: Prob(a<x<b). Per le variabili continue la probabilità di u singolo punto è 0 perché è un valore approssimativo. Lezione 4 Box Plot Schematizzano la distribuzione di una variabile numerica, evidenziano i valori anomali (outlier) Istogramma

Grafici a torta mostrano la distribuzione di una variabile qualitativa (la somma degli spicchi considera sempre il 100%) I grafici a torta funzionano molto bene se si espongono variabili distinte tra di loro, il loro limite consiste nel non evidenziare precisamente le differenze tra le parti. Quando i valori sono molto simili tra loro fare confusione è semplice, meglio utilizzare un istogramma. In particolare sono sempre da evitare i grafici a torta 3D, sono belli ma inutili, non mantengono le proporzioni. Grafici a linea tipicamente utilizzati per esporre dei trend, solitamente l’asse orizzontale è il tempo. ( l’asse orizzontale, come per l’istogramma deve essere numerico). Grafici a dispersione a bolle rappresentano due variabili numeriche in un piano cartesiano, le bolle possono raggiungere una terza dimensione che non considera solo un fatto estetico, ma la dimensione delle bolle è data da appunto una terza variabile.

Nel primo caso il grafico è poco rappresentativo, solo nel secondo grafico, con l’etichettamento dei dati il charge comincia a prendere forma, nell’ultimo i dati sono esposti in maniera dettagliata. Si potrebbe aggiungere una quarta dimensione cambiando il colore delle bolle (esempio: i paesi protestanti in blu e quelli a prevalenza cattolica in arancione). Grafici gerarchici Il rettangolo più grande viene suddiviso in altri rettangoli proporzionamente.

Campionamento Il processo col quale si estrae un campione può essere probabilistico o non probabilistico (a valanga, per convenienza). A livello di statistica inferenziale l’unico valido è il campione probabilistico, risultano però, per alcune analisi, utile anche quello probabilistico. Il campionamento probabilistico può essere:  Casuale sempliceestrazione casuale ad esempio da un’urna  Campionamento sistematico ogni k unità  Campionamento stratificato si utilizzano delle caratteristiche note della popolazione per suddividerle in strati es. età, area.  Campionamento a grappoli quando una popolazione è naturalmente divisa in gruppi ad esempio classi scolastiche, comuni etc. Nulla vieta di combinare campionamento a grappoli e stratificato. Caratteristiche di un buon campione:  Casualità  Rappresentatività deve rappresentare tutte le caratteristiche della popolazione in modo diretto  Numerosità più il campione è grande, più l’intervallo di confidenza è minore Non bisogna confondere la numerosità con la rappresentatività, non sempre un campione numeroso significa anche rappresentativo. Alle volte la numerosità è negativa ad esempio se non c’è rappresentatività. Data cleaning: ponderazione La ponderazione serve a modificare artificialmente la numerosità, totale o parziale, di un campione. Esistono tecniche per ovviare al problema della rappresentatività. La ponderazione consiste nell’associare a ogni unità un peso in modo che le unità non abbiamo tutte la stessa importanza (abbiamo un campione di due donne e un uomo, se consideriamo le don e ½ e l’uomo 2 abbiamo una ponderazione) (abbiamo 50 donne e le facciamo valere 1, mentre se abbiamo 49 uomini li facciamo valere 50/49 così da ottenere ancora una perfetta ponderazione). La ponderazione serve appunto a correggere le distorsioni in dati provenienti dai campioni, ma serve anche correggere la scala, ovvero esprime i risultati campionari nella scala della popolazione. Serve, inoltre, ad attribuire importanza o dimensione diversa alle unità statistiche per analizzare i parametri demografici dei comuni italiani bisogna ponderare rispetto al numero di abitanti. Quando viene corretta la numerosità degli strati di un campione correggendone un peso bisogna pur sempre mantenere la numerosità totale del campione senza variarla. La media dei pesi deve essere 1, bisognerebbe mantenersi a pesi compresi tra 0.5 e 2. I dati mancanti (missing) sono un problema per l’analisi e ciò può avvenire poiché dai sondaggi risultano domande non applicabili, mancate risposte parziali o mancate risposte totali. In dati ufficiali può avvenire una mancata pubblicazione oppure in generale si possono verificarsi errori o vari problemi tecnici. La presenza di dati mancanti va indagata: la caratteristica che rende i dati mancanti poco gravi è la casualità (può capitare che qualche dato sia assente e che gli altri dati possono compensare la lacuna), se i dati mancanti sono distribuiti in modo sistematico il problema diventa grave, l’informazione mancante non si può desumere dai dati presenti. Es: valori mancanti concentrati in uno strato. La percentuale accettabile di missing dipende dal problema e dalla variabile generale, non esistono indicazioni generali. Con mancanza di dati di casi interi (mancanza di risposta totale) si può procedere con la ponderazione. In mancanza di singoli valori (mancata risposta parziale) si può procedere in maniera differente ed il più

utilizzato è l’imputazione, ovvero sostituire il valore con un altro valore, di solito si fa con la media degli altri. I valori anomali (outlier) sono valori di una variabile numerica che si discostano molto dagli altri. Non necessariamente sono errori, alle volte sono solo casi rari. Esistono outlier univariati e outlier multivariati (combinazioni inusuali di valori di più variabili). L’individuazione di outlier può essere l’obiettivo dell’analisi come ad esempio l’identificazione delle frodi. Gli outlier possono essere trattati in maniera differente: eliminazione, filtro (confronta i risultati con e senza outlieri), capping ( x>xmaxx=Xmax, ad esempio per l’altezza se supera i 2mt si mette 2mt, si istituisce un tetto massimo), stimatori troncati (trimmed), ranking (sostituisce ai valori il loro ordinamento, li si mette in fila e li si ordina ordinalmente e ora quindi l’ultimo è solo x+1). SI possono annullare le differenze di scala e di variabilità tra le variabili. Tramite:  Standardizzazione media zero, varianza 1 z= x- media/S  Normalizzazioneintervallo [0;1]. V=x-min(x)/max(x)-min(x) Generazione di nuove variabili: dalla popolazione e dalla superficie si può arrivare la densità, da altezza e peso il BMI, da tempo e spazio la velocità etc.