
























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti delle lezioni integrati con slide + screen delle esercitazioni + indicazioni sulle domande d'esame.
Tipologia: Appunti
1 / 32
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

























Dati primari e secondari si differenziano in base all’obbiettivo di marketing. Primari: ho una domanda di marketing direttamente legata a questi dati. Secondari: dati raccolti per altri scopi che tornano utili per obiettivi di marketing. Raccolti da fonti interne provengono ad esempio da crm e erp. Fonti esterne sono Istat, banche, ecc. Questi dati non sono specializzati (tizio non compra carne all’esselunga – è vegetariano o ha il suo macellaio di fiducia?). Sondaggio : rilevazione di dati primari con interviste strutturate a un campione di soggetti. È uno strumento molto generale, potenzialmente costoso, richiede competenza e rigore nella definizione degli obbiettivi. Le alternative al sondaggio sono l’utilizzo dei dati secondari provenienti da fonti esterne (es. Istat), da fonti interne e infine interviste a tutta la popolazione (censimento). Con il censimento si interrogano tutte le unità statistiche, è una rilevazione individuale universale (!), simultanea (!) e periodica. I dati dei censimenti ISTAT sono ufficiali e hanno valore legale. Popolazione : insieme di tutte le unità oggetto di studio, deve essere identificata inequivocabilmente attraverso (almeno) una caratteristica osservabile (es. “italiani” non è sufficiente, includono gli immigrati? —> “residenti in Italia alla tot data” corretto). Va quindi definito con molta precisione CHI voglio analizzare. Unità statistica : ogni singolo elemento della popolazione. Campione : il sottoinsieme della popolazione sul quale si rilevano i dati. Fasi di un sondaggio
Tutte le analisi si basano su matrici di dati definiti unità per variabili :
Due variabili categoriche sono indipendenti se la distribuzione di una non dipende dai valori dell’altra. Frequenza teorica Indipendenza tra due variabili categoriche significa che:
Obiettivo delle rappresentazioni grafiche dei dati è presentare i risultati, descriverli ed esplorarli. I tipi più importanti di grafico Box plot : è una rappresentazione sintetica della distribuzione di una variabile numerica. Il rettangolo centrale è compreso tra il primo e il terzo quartile (la distanza tra il primo e il terzo quartile corrisponde al 50% dei valori in mezzo). Il segmento che taglia il rettangolo centrale è la mediana e corrisponde al secondo quartile. I due bracci laterali hanno la lunghezza pari ad una volta e mezza la lunghezza del rettangolo centrale. Il rombo è la media. Da una rappresentazione così si capisce che una distribuzione di frequenza è asimmetrica verso destra o sinistra. Istogrammi : diversi dai grafici a barre perché mostrano la distribuzione di frequenza di una variabile numerica. I dati sono organizzati in classi. Grafico a barre : si caratterizza perché a differenza degli istogrammi rappresentano frequenze o altri indici (es. medie) di variabili categoriche. L’ordine delle barre non è necessariamente predefinito.
Diagramma di Pareto : è un grafico a barre ordinato per frequenze decrescenti. Utile ad invidiare facilmente i primi e gli ultimi valori. Grafici a torta e ad anello : mostrano la distribuzione di una variabile categorica. Ottimo quando abbiamo poche variabili con valori molto diversi, perché in caso contrario non si notano le differenze. Per lo stesso motivo è bene evitare le versioni in 3D. Grafici a linee : rappresentano valori numerici. L’asse orizzontale è molto frequentemente il tempo Grafici a dispersione e a bolle : rappresentano due variabili numeriche in un piano cartesiano. Le bolle aggiungono una terza dimensione. Grafici gerarchici ( treemap ): permette di rappresentare qualunque tabella di incrocio con variabili nominali e frequenze. Sono delle righe proporzionali alla loro frequenza totale al cui interno si trovano altri spazi proporzionali che rappresentano le frequenze.
Allora la probabilità che una persona abbia esattamente 27 anni o è alta 175cm dovrebbe essere 0, invece esistono perché quando dico l’età o la grandezza non dico un valore secco ma un intervallo di valori. Ad esempio non ha compiuto gli anni oggi ma è nell’anno dei 27, così come puoi essere alto 174,5cm o 175.5. Distribuzione normale La distribuzione normale o gaussiana è una distribuzione continua
Quando lavoro su un campione quello che scopro sul singolo campione può essere diverso se seleziono un campione ragionevolmente diverso. La statistica inferenziale nel suo complesso si occupa di come trasferire sulla popolazione i risultati ottenuti sul campione. Le tecniche sono essenzialmente due:
La stima ottenuta sul campione (statistica campionaria) è una variabile casuale. Conoscere la distribuzione di probabilità di una variabile casuale permette di calcolare la probabilità associata a qualunque intervallo di valori. Nella pratica la distribuzione teorica della statistica campionaria (distribuzione campionaria) è nota. La conoscenza della distribuzione campionaria è la base della statistica inferenziale. N.B. Non tutte le statistiche campionarie hanno una distribuzione normale. Distribuzione campionaria della media La media campionaria è una variabile aleatoria e la sua distribuzione campionaria è nota. La distribuzione della media campionaria è una normale con media μ e varianza σ2\n anche se la popolazione non è normale. Dato il grafico sotto, i valori delle medie campionarie si concentrano in mezzo e sono tanto meno probabili quanto sono lontane dal centro. Quindi la distribuzione della media campionaria è una normale con caratteristiche note, cioè con la stessa media e la varianza n volte più piccola della varianza della popolazione. Stima puntale e stima intervallare La statistica ha un modo particolare di fornire le stime:
Quindi 𝜒2 è abbastanza grande per dire che le due variabili sono indipendenti? Vistose so che chi-quadrato è uguale a 71,58 devo vedere qual è la probabilità di ottenere valori più grandi. Il test chi-quadrato non fa nessuna ipotesi sulla distribuzione delle variabili (è un test non parametrico). Per questo la condizione di applicabilità del test chi-quadrato è solo che il campione sia abbastanza grande. Test dell’indipendenza tra variabili categorica e numerica – analisi della varianza (ANOVA) Prendiamo il caso che io voglia confrontare due medie. Vedo che le medie sono un pochino diverse e voglio capire se quella diversità è attribuibile al caso (quindi in realtà sono uguali) o se invece la differenza è abbastanza grande da rifiutare l’ipotesi che le due medie siano in realtà uguali. L’analisi della varianza (ANOVA) è il test per verificare la significatività delle differenze tra due o più medie. Se le medie sono solo due ci sono anche altri metodi, ma danno lo stesso risultato. Il primo passo è definire l’ipotesi nulla e l’ipotesi alternativa: Ipotesi nulla: le medie sono uguali Ipotesi alternativa: almeno una media è diversa (si può dire anche almeno due medie sono diverse tra loro). L’ANOVA verifica se almeno due medie sono diverse, ma ovviamente non dice quali. Inoltre richiede delle ipotesi e bisogna che i dati soddisfino certe condizioni, ovvero: Le osservazioni devono essere indipendenti; La variabile numerica deve avere una distribuzione normale (casualità) e varianza uguale in tutti i gruppi. Da qui daremo per appurate le condizioni per l’ANOVA. Il test ANOVA si svolge utilizzando la statistica campionaria F che ha una distribuzione F (con due parametri gradi di libertà che sono 3 e 1129). Se F≈1, quindi se F è piccola, le medie sono uguali e quindi accetto H 0. Se F>>1, quindi se F è grande, le medie sono diverse e rifiuto H 0. Il p -value è la probabilità di ottenere valori ≥ F: p -value "piccolo" (es. 𝑝 < 0,05) → test significativo: ci sono differenze statisticamente significative tra le medie.
p -value "grande" (es. 𝑝 > 0,05) → test non significativo: nessuna differenza statisticamente significativa tra le medie In sostanza siccome la significatività del test ANOVA è molto piccola, rifiuto l’ipotesi nulla. Tra le medie ce n’è almeno una diversa. Perché si chiama test della varianza un test che considera le medie? Considero 3 gruppi e voglio sapere se le medie sono uguali. Nel grafico i triangoli sono le medie e sono uguali nel grafico 1 e 2. Quindi cosa le differenzia? Nel gruppo di sinistra i punti di ogni singolo gruppo sono molto vicini tra di loro (ovvero hanno una varianza molto piccola), mentre a destra i punti di ogni singolo gruppo sono fortemente sparsi (hanno una varianza grande). Se mi trovo nel caso di sinistra e mi chiedo se le medie sono uguali o diverse e guardo anche il dettaglio dei singoli punti e non solo il triangolo, mi verrebbe da dire “si sono diverse” perché si sovrappongono. A destra invece c’è sovrapposizione tra punti blu, rossi e verdi, in questo secondo caso sarei molto in difficoltà a dire ad occhio se le medie sono uguali o diverse. Allora da cosa dipende il fatto che posso dire che a sx mi aspetto che le medie siano diverse mentre a dx bo? Dal fatto che la differenza tra medie viene valutata nel test non come una singola differenza tra i tre punti delle medie, ma tenendo conto anche delle varianze all’interno dei singoli gruppi. Le varianze all’interno dei gruppi a sx sono piccole e quindi so che mi uscirà un test significativo, al contrario mi esce un test quasi sicuramente non significativo. Quindi si chiama test delle varianze perché di vanno ad analizzare le varianze all’interno dei gruppi per poter trarne conclusioni sulle medie. Domanda esame: test chi quadrato o ANOVA? Schema riassuntivo delle analisi bivariate Errore di I e di II tipo α è la probabilità di respingere H0 quando in realtà è vera l'errore di I tipo (α) non è l'unico possibile 𝛽 è la probabilità di accettare H0 quando in realtà è falsa Relazione tra α e β α è fissata dal ricercatore (nel nostro caso il 5%) β dipende da α e da H1 (l’errore di secondo tipo il ricercatore non lo sceglie, ma deriva dalla scelta di alfa e dalla distribuzione di H1) se α diminuisce β aumenta (quindi se diminuisco dal 5% al 1% aumenta la possibilità di incorrere nell’errore del secondo tipo) favorisco l’errore di primo tipo per evitare l’errore di secondo tipo che è più dannoso ! per diminuire sia α che 𝛽 bisogna aumentare la numerosità del campione (le curve si stringono e le face di sovrapposizione diminuiscono tra alfa e beta).
Quando ho 1000 questionari ognuno da 1 millesimo delle informazioni che ho, il costo del 1001 è uguale al primo ma dopo una certo numero non ha più senso raccoglierne. Caratteristiche di un buon campione casualità: se per esempio scelgo un determinato corso di studio invece di estrarne diversi magari gli studenti di quel corso hanno tra loro delle caratteristiche uguali tra loro che però non si possono ampliare a tutti gli studenti quindi il campione non è rappresentativo rappresentatività: deve presentare tutte le caratteristiche della popolazione in proporzione ridotta, non deve essere distorto (se è distorto non si mira al valore vero della popolazione ma si avranno delle medie distorte) → validità, accuratezza numerosità, maggiore è maggiore possono essere → affidabilità (livello di confidenza) e precisione (ampiezza intervallo). Il campione può essere rappresentativo ma piccolo, oppure distorto ma grande… le due cose sono DISTINTE. Se il campione è grande ma distorto è peggio, perché sono sicuro di una cosa sbagliata. La rappresentatività è fondamentale, mentre la numerosità è un di più. Quando un azienda fa un analisi su tutti i suoi clienti si tratta di big data, che sono rappresentativi della loro popolazione ma non può estendere le conclusioni alla popolazione globale. Es. Netflix italia che usa i suoi dati è rappresentativa solo di quello e non di tutti quelli che vedono film in streaming. Data cleaning (pulizia dei dati) che è una grande parte della data analysis 60% Data cleaning: ponderazione Ponderazione = aggiungere al data set una colonna con il significato di peso, attribuire a ogni riga, unità, un peso (es. se ha peso 2 è come se avessimo 2 questionari per quella unità) La ponderazione serve a modificare artificialmente la numerosità – totale o parziale – di un campione consiste nell'associare a ogni unità un peso in modo che le unità non abbiano tutte la stessa "importanza" es. un'unità con peso = 2 è equivalente a due unità (identiche)
Ponderazione: scopi
I valori anomali ( outlier ) sono valori di una variabile numerica che si discostano molto dagli altri. Possono avere cause diverse e quindi ad esempio essere errori oppure dati molto importanti. L’individuazione degli outlier può essere l’obiettivo dell’analisi. Si possono individuare con metodi grafici e statistici. Il primo metodo grafico è il boxplot che permette di individuarli osservando una variabile alla volta ( outlier univariati ). Il secondo metodo permette di osservare gli outlier che vengono fuori se faccio il grafico di due variabili numeriche contemporaneamente. Cioè ci sono outlier che posso individuare come tali semplicemente in modo univariato, mentre altri osservati singolarmente non sono outlier ma in relazione ad altre variabili sì e quindi sono outlier multivariati. Con gli strumenti statistici invece si individuano i valori lontani nella gaussiana. I trattamenti sono: Eliminazione dei valori mancanti (ad esempio se analizzo l’età delle persone e salta fuori il valore - ovviamente è un errore). Ranking : sostituisce i dati con l’ordinamento, in modo tale che i dati vengono organizzati in ordine di “arrivo”. L’importante è chiedersi se gli outlier sono degli errori o casi interessanti\rilevanti. Se sono interessanti, li lascio nel data set anche se mi sporcano le statistiche? Trasformazione dei dati numerici
Il problema nasce quando aumenta la complessità, cioè quando il volume dei dati aumenta e quindi vi è il bisogno di sintesi. Aumentare la dimensione dei data set significa aumentare la dimensione dei big data, ovvero milioni di righe e di colonne. Il problema dell’aumento dei dati nel data set si declinano in due modi diversi:
Entrambe le soluzioni sono valide e corrette, le posizioni dei punti non cambiano, si sceglie semplicemente quella che funziona meglio interpretativamente. Mi concentro su quei numeri che hanno un valore maggiore (tra 0 e 1) poi analizzo se in positivo o in negativo. Analizziamo alcuni di questo valori:
Le finalità sono due strettamente intrecciate ma concettualmente diverse: Esistono dei predittori di una certa variabile? Ci sono delle informazioni che permettono di stimare un’altra variabile? Quindi il problema non è stimarla, ma capire se c’è. Ad esempio, dati degli attributi di prodotto, quali sono quelli che influenzano maggiormente la customer satisfaction? Si possono fare previsioni su una certa variabile? Per poter fare la previsione c’è bisogno che io abbia individuato prima i predittori, ma in quali casi può interessare questa previsione nel marketing? Tipicamente su situazioni come la prevenzione del churn (clienti che abbandonano un servizio rispetto ai clienti totali). Gli strumenti che in generale fanno capo all’analisi predittiva sono i modelli di regressione, le analisi delle serie storiche e il marchine learning e l’AI. Modelli di regressione L’obiettivo tecnico è individuare la relazione tra una o più variabili esplicative (predittori) di un fenomeno e una variabile risposta. L’idea è che le variabili esplicative (indipendenti) spieghino la variabile risposta (dipendente, come la preferenza o il gradimento), ovvero che tramite le variabili esplicativa si possa spiegare o prevedere la variabile risposta, generando un algoritmo o una formula mediante i quali la variabile risposta può essere spiegata. Esistono diversi modelli di regressione che dipendono da: Il tipo di relazione che si cerca tra predittori e risposta (es. lineare o non lineare); Le caratteristiche della variabile risposta (es. numerica, binaria, categorica, ordinale).