Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Data Analysis - Prof. Della Beffa, Appunti di Analisi Dei Dati

Appunti delle lezioni integrati con slide + screen delle esercitazioni + indicazioni sulle domande d'esame.

Tipologia: Appunti

2020/2021

In vendita dal 19/01/2022

eleonora-gba
eleonora-gba 🇮🇹

4

(1)

15 documenti

1 / 32

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Data analysis: Sondaggi e questionari
Dati primari e secondari si differenziano in base all’obbiettivo di marketing.
Primari: ho una domanda di marketing direttamente legata a questi dati.
Secondari: dati raccolti per altri scopi che tornano utili per obiettivi di marketing. Raccolti da fonti interne
provengono ad esempio da crm e erp. Fonti esterne sono Istat, banche, ecc. Questi dati non sono
specializzati (tizio non compra carne all’esselunga – è vegetariano o ha il suo macellaio di fiducia?).
Sondaggio: rilevazione di dati primari con interviste strutturate a un campione di soggetti. È uno strumento
molto generale, potenzialmente costoso, richiede competenza e rigore nella definizione degli obbiettivi.
Le alternative al sondaggio sono l’utilizzo dei dati secondari provenienti da fonti esterne (es. Istat), da fonti
interne e infine interviste a tutta la popolazione (censimento).
Con il censimento si interrogano tutte le unità statistiche, è una rilevazione individuale universale (!),
simultanea (!) e periodica. I dati dei censimenti ISTAT sono ufficiali e hanno valore legale.
Popolazione: insieme di tutte le unità oggetto di studio, deve essere identificata inequivocabilmente
attraverso (almeno) una caratteristica osservabile (es. “italiani” non è sufficiente, includono gli immigrati?
—> “residenti in Italia alla tot data” corretto). Va quindi definito con molta precisione CHI voglio analizzare.
Unità statistica: ogni singolo elemento della popolazione.
Campione: il sottoinsieme della popolazione sul quale si rilevano i dati.
Fasi di un sondaggio
1) Definizione dell’obiettivo
a. Formula di ricerca
b. Popolazione
c. Campione (modalità di campionamento e criteri)
2) Metodo di contatto delle unità del campione
3) Costruzione del questionario
4) Test del questionario
Metodi di contatto
CAPI: intervista personale, è il metodo più raffinato, sicuro e costoso. Una persona (intervistatore) compila
con l’intervistato il questionario.
Pro: assicura qualità e accuratezza, perché l’intervistatore è lì per dare spiegazioni e relazionarmi facilmente
con l’intervistato. Non c’è limitazione di target.
Contro: ma tempi e costi sono alti. Inoltre, i risultati possono essere influenzati dai bias dell’intervistatore e
dagli effetti della desiderabilità sociale sull’intervistato.
CATI\CAMI: interviste via telefono. Il costo indicativamente è di 15€ a intervista per mille casi (su cui
spalmare i costi fissi del call center) da popolazione italiana (???).
Pro: tempi brevi (più operatori in contemporanea), qualità e accuratezza (stessi motivi di cui sopra),
controllo rilevazione (il controllo dei dati è in real time, se devo intervistare 100 uomini e 100 donne posso
controllare la rilevazione man mano che va avanti).
Contro: costi (?).
CAWI: inviati tramite link via mail\web\social.
Pro: costi (potenzialmente nulli, non c’è l’intervistatore), tempi a volte brevissimi.
Contro: minore accuratezza (perché non c’è relazione con una persona, l’intervistato capisce quello che
vuole), filtro internet (non tutti hanno accesso a internet e quindi si perde quella fascia di popolazione),
autoselezione (se per CAPI e CATI c’è controllo diretto del target, qui non è possibile, risponde chi vuole.
Questo è tanto più rischioso quanto più la rilevazione tratta tematiche estremamente polarizzate quindi
anche i risultati saranno polarizzati).
Costruzione del questionario
Principi fondamentali: chiarezza, semplicità e brevità.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20

Anteprima parziale del testo

Scarica Data Analysis - Prof. Della Beffa e più Appunti in PDF di Analisi Dei Dati solo su Docsity!

Data analysis: Sondaggi e questionari

Dati primari e secondari si differenziano in base all’obbiettivo di marketing. Primari: ho una domanda di marketing direttamente legata a questi dati. Secondari: dati raccolti per altri scopi che tornano utili per obiettivi di marketing. Raccolti da fonti interne provengono ad esempio da crm e erp. Fonti esterne sono Istat, banche, ecc. Questi dati non sono specializzati (tizio non compra carne all’esselunga – è vegetariano o ha il suo macellaio di fiducia?). Sondaggio : rilevazione di dati primari con interviste strutturate a un campione di soggetti. È uno strumento molto generale, potenzialmente costoso, richiede competenza e rigore nella definizione degli obbiettivi. Le alternative al sondaggio sono l’utilizzo dei dati secondari provenienti da fonti esterne (es. Istat), da fonti interne e infine interviste a tutta la popolazione (censimento). Con il censimento si interrogano tutte le unità statistiche, è una rilevazione individuale universale (!), simultanea (!) e periodica. I dati dei censimenti ISTAT sono ufficiali e hanno valore legale. Popolazione : insieme di tutte le unità oggetto di studio, deve essere identificata inequivocabilmente attraverso (almeno) una caratteristica osservabile (es. “italiani” non è sufficiente, includono gli immigrati? —> “residenti in Italia alla tot data” corretto). Va quindi definito con molta precisione CHI voglio analizzare. Unità statistica : ogni singolo elemento della popolazione. Campione : il sottoinsieme della popolazione sul quale si rilevano i dati. Fasi di un sondaggio

  1. Definizione dell’obiettivo a. Formula di ricerca b. Popolazione c. Campione (modalità di campionamento e criteri)
  2. Metodo di contatto delle unità del campione
  3. Costruzione del questionario
  4. Test del questionario Metodi di contatto CAPI : intervista personale, è il metodo più raffinato, sicuro e costoso. Una persona (intervistatore) compila con l’intervistato il questionario. Pro : assicura qualità e accuratezza, perché l’intervistatore è lì per dare spiegazioni e relazionarmi facilmente con l’intervistato. Non c’è limitazione di target. Contro : ma tempi e costi sono alti. Inoltre, i risultati possono essere influenzati dai bias dell’intervistatore e dagli effetti della desiderabilità sociale sull’intervistato. CATI \ CAMI : interviste via telefono. Il costo indicativamente è di 15€ a intervista per mille casi (su cui spalmare i costi fissi del call center) da popolazione italiana (???). Pro : tempi brevi (più operatori in contemporanea), qualità e accuratezza (stessi motivi di cui sopra), controllo rilevazione (il controllo dei dati è in real time, se devo intervistare 100 uomini e 100 donne posso controllare la rilevazione man mano che va avanti). Contro : costi (?). CAWI : inviati tramite link via mail\web\social. Pro : costi (potenzialmente nulli, non c’è l’intervistatore), tempi a volte brevissimi. Contro : minore accuratezza (perché non c’è relazione con una persona, l’intervistato capisce quello che vuole), filtro internet (non tutti hanno accesso a internet e quindi si perde quella fascia di popolazione), autoselezione (se per CAPI e CATI c’è controllo diretto del target, qui non è possibile, risponde chi vuole. Questo è tanto più rischioso quanto più la rilevazione tratta tematiche estremamente polarizzate quindi anche i risultati saranno polarizzati). Costruzione del questionario Principi fondamentali: chiarezza, semplicità e brevità.
  1. Identificare informazioni di interesse primario e accessorie, quindi quali aree: opinioni, comportamenti, sociodemo…
  2. Definire la lista delle variabili (non le domande), ovvero cosa chiedere per le aree scelte.
  3. Definire la sequenza dei temi (sezioni e filtri) e delle domande campione, dal generale al particolare, sociodemo alla fine. Ad esempio, si chiede prima la soddisfazione globale o gli attributi del prodotto? Nel secondo caso, è possibile che alla domanda sulla soddisfazione generale l’intervistato tenga in considerazione le risposte date sui singoli attributi. Così facendo
  4. Definire la forma delle risposte (aperte o chiuse, in che scala, “non so”).
  5. Formulare le domande, quindi come chiedere. Formulazione delle domande
  • Evitare domande doppie
  • Evitare ambiguità
  • Attenzione alle negazioni
  • Risposte esaustive e mutuamente esclusive
  • Non dare nulla per scontato
  • Attenzione alle domande sul passato e ai temi sensibili
  • Evitare formulazioni tendenziose - Inserire domande replicate o con scala invertita.

Dati e statistica univariata

Tutte le analisi si basano su matrici di dati definiti unità per variabili :

  • N righe, che sono le unità statistiche (casi, osservazioni, example);
  • K colonne, che sono le variabili (attributi, feature). I dati possono essere categorici\qualitativi o numerici\quantitativi. Per i dati categorici i valori si esprimono in categorie o modalità, ogni unità deve appartenere a una e una sola categoria, non si possono eseguire operazioni aritmetiche e si possono calcolare frequenze e percentuali. Possono essere:
  • Nominali, come la marca;
  • Ordinali, per cui le categorie sono ordinate, ma le distanze tra di esse non sono uguali (istruzione, scala Likert, scala Mercalli, classifiche e ordinamenti, ecc). I dati numerici rappresentano informazioni intrinsecamente numeriche con le quali si può eseguire ogni tipo di calcolo. Possono essere:
  • A intervallo, come la temperatura o le date;
  • A rapporti, come i conteggi, l’età, il reddito – c’è uno zero vero che corrisponde all’assenza del fenomeno;
  • Discreti (il conteggio) o continui (la misura). I dati binari sono dati nominali che possono essere utilizzati come numerici in molte analisi. Un dato categorico con k categorie si può trasformare in k dati binari (one-hot econding). Esistono 3 livelli di analisi:
  1. Analisi univariata: si considera una variabile alla volta con statistiche descrittive (frequenze, media, varianza, ecc).
  2. Analisi bivariata: si considerano le relazioni tra due variabili.
  3. Analisi multivariata: si considerano k variabili alla volta. Un dato importante che si calcola nell’analisi univariata è la distribuzione di frequenza, che associa ad ogni possibile valore di una variabile la frequenza (relativa o assoluta) con la quale si presenta. Si può applicare a qualunque tipo di dato:
  • Per variabili discrete fornisce tutta l’informazione disponibile.
  • Per variabili continue si raggruppano i valori in classi. I passaggi sono:
  1. Ordinare tutte le variabili.

Due variabili categoriche sono indipendenti se la distribuzione di una non dipende dai valori dell’altra. Frequenza teorica Indipendenza tra due variabili categoriche significa che:

  • Le percentuali di riga sono approssimativamente uguali in tutte le righe (e lo stesso per le colonne).
  • Le frequenze congiunte dipendono solo dalle frequenze marginali.
  • Le frequenze osservate sono uguali a quelle teoriche. L’ indice χ^2 è una misura sintetica della distanza dall’indipendenza. Se χ^2 = 0 —> indipendenza Se χ^2 >> 0 —> dipendenza

Data visualization

Obiettivo delle rappresentazioni grafiche dei dati è presentare i risultati, descriverli ed esplorarli. I tipi più importanti di grafico Box plot : è una rappresentazione sintetica della distribuzione di una variabile numerica. Il rettangolo centrale è compreso tra il primo e il terzo quartile (la distanza tra il primo e il terzo quartile corrisponde al 50% dei valori in mezzo). Il segmento che taglia il rettangolo centrale è la mediana e corrisponde al secondo quartile. I due bracci laterali hanno la lunghezza pari ad una volta e mezza la lunghezza del rettangolo centrale. Il rombo è la media. Da una rappresentazione così si capisce che una distribuzione di frequenza è asimmetrica verso destra o sinistra. Istogrammi : diversi dai grafici a barre perché mostrano la distribuzione di frequenza di una variabile numerica. I dati sono organizzati in classi. Grafico a barre : si caratterizza perché a differenza degli istogrammi rappresentano frequenze o altri indici (es. medie) di variabili categoriche. L’ordine delle barre non è necessariamente predefinito.

Diagramma di Pareto : è un grafico a barre ordinato per frequenze decrescenti. Utile ad invidiare facilmente i primi e gli ultimi valori. Grafici a torta e ad anello : mostrano la distribuzione di una variabile categorica. Ottimo quando abbiamo poche variabili con valori molto diversi, perché in caso contrario non si notano le differenze. Per lo stesso motivo è bene evitare le versioni in 3D. Grafici a linee : rappresentano valori numerici. L’asse orizzontale è molto frequentemente il tempo Grafici a dispersione e a bolle : rappresentano due variabili numeriche in un piano cartesiano. Le bolle aggiungono una terza dimensione. Grafici gerarchici ( treemap ): permette di rappresentare qualunque tabella di incrocio con variabili nominali e frequenze. Sono delle righe proporzionali alla loro frequenza totale al cui interno si trovano altri spazi proporzionali che rappresentano le frequenze.

Allora la probabilità che una persona abbia esattamente 27 anni o è alta 175cm dovrebbe essere 0, invece esistono perché quando dico l’età o la grandezza non dico un valore secco ma un intervallo di valori. Ad esempio non ha compiuto gli anni oggi ma è nell’anno dei 27, così come puoi essere alto 174,5cm o 175.5. Distribuzione normale La distribuzione normale o gaussiana è una distribuzione continua

caratterizzata da due parametri μ e σ.

𝜇 e 𝜎^2 sono la media e la varianza della distribuzione.

La media dice come si sposta da destra a sinistra la curva: al

crescere della media la curva scorre verso destra e viceversa

rimanendo invariata. Più grande è la varianza più è schiacciata

la curva.

Caratteristiche della distribuzione normale

  • Simmetrica, forma a campana
  • Probabilità concentrate al centro
  • Media=moda=mediana

Esempi di distribuzione normale solitamente sono variabili biologiche come il peso alla nascita, la

pressione sanguigna, le precipitazioni annuali a Milano (in generale in una precisa località), il

tempo del percorso casa-ufficio, il peso e la dimensione di pezzi prodotti da una macchina, errori

casuali, ecc.

Esempi di variabili non normale sono:

  • Reddito: poche persone con reddito alto e tante persone con reddito alto.
  • Dimensione delle aziende italiane: ci sono poche aziende grandi e molte aziende medio-

piccole.

  • Numero (!) di accessi giornalieri a un sito web: il numero di accessi dovrebbe essere una

variabile discreta in quanto è unico, ma l’approssimazione permette di trattarlo come

distribuzione normale.

  • Tempi di attesa a uno sportello.
  • Tempo tra due chiamate consecutive a un call center.
  • Durata di una lampadina.
  • Tempo di attesa della metropolitana
  • Probabilità della probabilità (es. preferenze politiche).

Uso delle distribuzioni di probabilità (a cosa serve)

La conoscenza di una distribuzione teorica permette di ricondurre la distribuzione osservata

(campionaria) a una distribuzione teorica nota.

Distribuzione normale standard: 𝑵 ( 𝟎 ; 𝟏 )

 Se 𝜇 = 0 e 𝜎 = 1 la distribuzione è una normale standard

 qualunque variabile casuale normale 𝑥~𝑁(𝜇; 𝜎 2 ) può essere convertita in una variabile

normale standardizzata 𝑧~𝑁(0; 1) mediante l'operazione di standardizzazione.

ERRORE

Alcuni valori convenzionali: 95% e 99% (sono i valori che ci aspettiamo di trovare con una

maggiore frequenza)

 in una distribuzione 𝑁 0; 1 il 95% dei valori è compreso (approssimativamente) tra −1,96 e

 il 99% dei valori è compreso tra −2.57 e +2.

Statistica inferenziale

Quando lavoro su un campione quello che scopro sul singolo campione può essere diverso se seleziono un campione ragionevolmente diverso. La statistica inferenziale nel suo complesso si occupa di come trasferire sulla popolazione i risultati ottenuti sul campione. Le tecniche sono essenzialmente due:

  • Stime campionarie
  • Test delle ipotesi

1) Stime campionarie

La stima ottenuta sul campione (statistica campionaria) è una variabile casuale. Conoscere la distribuzione di probabilità di una variabile casuale permette di calcolare la probabilità associata a qualunque intervallo di valori. Nella pratica la distribuzione teorica della statistica campionaria (distribuzione campionaria) è nota. La conoscenza della distribuzione campionaria è la base della statistica inferenziale. N.B. Non tutte le statistiche campionarie hanno una distribuzione normale. Distribuzione campionaria della media La media campionaria è una variabile aleatoria e la sua distribuzione campionaria è nota. La distribuzione della media campionaria è una normale con media μ e varianza σ2\n anche se la popolazione non è normale. Dato il grafico sotto, i valori delle medie campionarie si concentrano in mezzo e sono tanto meno probabili quanto sono lontane dal centro. Quindi la distribuzione della media campionaria è una normale con caratteristiche note, cioè con la stessa media e la varianza n volte più piccola della varianza della popolazione. Stima puntale e stima intervallare La statistica ha un modo particolare di fornire le stime:

  • La stima puntuale è il valore della statistica campionaria.
  • L’intervallo di confidenza è la stima puntuale ampliata con l’errore campionario. L’ampiezza dell’intervallo di confidenza della media dipende:
  • Dalla distribuzione campionaria N (μ ; σ^2 \n)
  • Dal livello di confidenza scelto: 95% —> 1,
  • Dalla numerosità del campione: n Domanda esame: da cosa dipende l’intervallo di confidenza della media? Non dipende dalla stima puntuale della media campionaria perché è semplicemente calcolata sulla base di 1,96*σ\rad di n, e la media x segnato non c’è. Il livello di confidenza rappresenta la percentuale di intervalli (al variare dei campioni) che contengono il valore vero. Parlare di confidenza al 95% vuol dire che il 95% dei campioni conterranno il valore della media vera e il 5% invece no. Il 95% è la probabilità che facendo un’affermazione io dica una cosa vera. **- L’ampiezza dell’intervallo è una misura della precisione della mia stima.
  • Il livello di confidenza è una misura dell’affidabilità della mia stima.** Se si alza il livello di confidenza c’è maggiore affidabilità ma l’ampiezza dell’intervallo aumenta e quindi c’è minore precisione. Per aumentare il livello di confidenza e nello stesso tempo diminuire l’ampiezza dell’intervallo di confidenza bisogna aumentare la numerosità del campione.

Quindi 𝜒2 è abbastanza grande per dire che le due variabili sono indipendenti? Vistose so che chi-quadrato è uguale a 71,58 devo vedere qual è la probabilità di ottenere valori più grandi. Il test chi-quadrato non fa nessuna ipotesi sulla distribuzione delle variabili (è un test non parametrico). Per questo la condizione di applicabilità del test chi-quadrato è solo che il campione sia abbastanza grande. Test dell’indipendenza tra variabili categorica e numerica – analisi della varianza (ANOVA) Prendiamo il caso che io voglia confrontare due medie. Vedo che le medie sono un pochino diverse e voglio capire se quella diversità è attribuibile al caso (quindi in realtà sono uguali) o se invece la differenza è abbastanza grande da rifiutare l’ipotesi che le due medie siano in realtà uguali. L’analisi della varianza (ANOVA) è il test per verificare la significatività delle differenze tra due o più medie. Se le medie sono solo due ci sono anche altri metodi, ma danno lo stesso risultato. Il primo passo è definire l’ipotesi nulla e l’ipotesi alternativa:  Ipotesi nulla: le medie sono uguali  Ipotesi alternativa: almeno una media è diversa (si può dire anche almeno due medie sono diverse tra loro). L’ANOVA verifica se almeno due medie sono diverse, ma ovviamente non dice quali. Inoltre richiede delle ipotesi e bisogna che i dati soddisfino certe condizioni, ovvero:  Le osservazioni devono essere indipendenti;  La variabile numerica deve avere una distribuzione normale (casualità) e varianza uguale in tutti i gruppi. Da qui daremo per appurate le condizioni per l’ANOVA. Il test ANOVA si svolge utilizzando la statistica campionaria F che ha una distribuzione F (con due parametri gradi di libertà che sono 3 e 1129).  Se F≈1, quindi se F è piccola, le medie sono uguali e quindi accetto H 0.  Se F>>1, quindi se F è grande, le medie sono diverse e rifiuto H 0. Il p -value è la probabilità di ottenere valori ≥ F:p -value "piccolo" (es. 𝑝 < 0,05) → test significativo: ci sono differenze statisticamente significative tra le medie.

p -value "grande" (es. 𝑝 > 0,05) → test non significativo: nessuna differenza statisticamente significativa tra le medie In sostanza siccome la significatività del test ANOVA è molto piccola, rifiuto l’ipotesi nulla. Tra le medie ce n’è almeno una diversa. Perché si chiama test della varianza un test che considera le medie? Considero 3 gruppi e voglio sapere se le medie sono uguali. Nel grafico i triangoli sono le medie e sono uguali nel grafico 1 e 2. Quindi cosa le differenzia? Nel gruppo di sinistra i punti di ogni singolo gruppo sono molto vicini tra di loro (ovvero hanno una varianza molto piccola), mentre a destra i punti di ogni singolo gruppo sono fortemente sparsi (hanno una varianza grande). Se mi trovo nel caso di sinistra e mi chiedo se le medie sono uguali o diverse e guardo anche il dettaglio dei singoli punti e non solo il triangolo, mi verrebbe da dire “si sono diverse” perché si sovrappongono. A destra invece c’è sovrapposizione tra punti blu, rossi e verdi, in questo secondo caso sarei molto in difficoltà a dire ad occhio se le medie sono uguali o diverse. Allora da cosa dipende il fatto che posso dire che a sx mi aspetto che le medie siano diverse mentre a dx bo? Dal fatto che la differenza tra medie viene valutata nel test non come una singola differenza tra i tre punti delle medie, ma tenendo conto anche delle varianze all’interno dei singoli gruppi. Le varianze all’interno dei gruppi a sx sono piccole e quindi so che mi uscirà un test significativo, al contrario mi esce un test quasi sicuramente non significativo. Quindi si chiama test delle varianze perché di vanno ad analizzare le varianze all’interno dei gruppi per poter trarne conclusioni sulle medie. Domanda esame: test chi quadrato o ANOVA? Schema riassuntivo delle analisi bivariate Errore di I e di II tipo  α è la probabilità di respingere H0 quando in realtà è vera  l'errore di I tipo (α) non è l'unico possibile  𝛽 è la probabilità di accettare H0 quando in realtà è falsa Relazione tra α e β  α è fissata dal ricercatore (nel nostro caso il 5%)  β dipende da α e da H1 (l’errore di secondo tipo il ricercatore non lo sceglie, ma deriva dalla scelta di alfa e dalla distribuzione di H1)  se α diminuisce β aumenta (quindi se diminuisco dal 5% al 1% aumenta la possibilità di incorrere nell’errore del secondo tipo)  favorisco l’errore di primo tipo per evitare l’errore di secondo tipo che è più dannoso ! per diminuire sia α che 𝛽 bisogna aumentare la numerosità del campione (le curve si stringono e le face di sovrapposizione diminuiscono tra alfa e beta).

Quando ho 1000 questionari ognuno da 1 millesimo delle informazioni che ho, il costo del 1001 è uguale al primo ma dopo una certo numero non ha più senso raccoglierne. Caratteristiche di un buon campione  casualità: se per esempio scelgo un determinato corso di studio invece di estrarne diversi magari gli studenti di quel corso hanno tra loro delle caratteristiche uguali tra loro che però non si possono ampliare a tutti gli studenti  quindi il campione non è rappresentativo  rappresentatività: deve presentare tutte le caratteristiche della popolazione in proporzione ridotta, non deve essere distorto (se è distorto non si mira al valore vero della popolazione ma si avranno delle medie distorte) → validità, accuratezza  numerosità, maggiore è maggiore possono essere → affidabilità (livello di confidenza) e precisione (ampiezza intervallo). Il campione può essere rappresentativo ma piccolo, oppure distorto ma grande… le due cose sono DISTINTE. Se il campione è grande ma distorto è peggio, perché sono sicuro di una cosa sbagliata. La rappresentatività è fondamentale, mentre la numerosità è un di più. Quando un azienda fa un analisi su tutti i suoi clienti si tratta di big data, che sono rappresentativi della loro popolazione ma non può estendere le conclusioni alla popolazione globale. Es. Netflix italia che usa i suoi dati è rappresentativa solo di quello e non di tutti quelli che vedono film in streaming. Data cleaning (pulizia dei dati) che è una grande parte della data analysis  60% Data cleaning: ponderazione Ponderazione = aggiungere al data set una colonna con il significato di peso, attribuire a ogni riga, unità, un peso (es. se ha peso 2 è come se avessimo 2 questionari per quella unità)  La ponderazione serve a modificare artificialmente la numerosità – totale o parziale – di un campione  consiste nell'associare a ogni unità un peso in modo che le unità non abbiano tutte la stessa "importanza" es. un'unità con peso = 2 è equivalente a due unità (identiche)

Ponderazione: scopi

  1. correggere distorsioni (non esagerate) in dati provenienti da campioni, ad esempio far coincidere perfettamente la distribuzione campionaria con quella teorica della popolazione (es. abbiamo raccolto 100 questionari ma ci sono 49 maschi e 51 donne, cerchiamo di fare in modo che le 51 donne pesino un po' di meno e i maschi di più perché le cose siano ponderate)
  2. correggere la scala, quindi esprimere i risultati campionari nella scala della popolazione. Es. "un programma tv visto da 5,2 milioni di persone"  la rilevazioni l’hanno fatta solo su alcuni es. 30% di 16 000 e dopo l’anno proporzionato ai 60 milioni di residenti
  3. attribuire importanza o dimensione diversa alle unità statistiche. Per analizzare i parametri demografici (tasso di natalità, di immigrazione, ecc.) dei comuni italiani bisogna ponderare rispetto al numero di abitanti Ponderazione per correggere distorsioni La correzione per ponderazione è fattibile se la distorsione non è enorme. Se nell’esempio di prima le donne erano solo 5 non si può fare. Ponderare per correggere distorsioni in generale migliora la qualità delle stime campionarie e quella dei test statistici, purché la numerosità totale del campione non cambi (se sono 100 devono rimanere tali). Regola pratica: media dei pesi = 1 (se è 2 vuol dire che ho la metà della gente che dovrei avere) pesi più vicini possibile a 1 (non vuol dire 0,99 o 1,01  ok anche 5) Campionamento e ponderazione, esempio Data cleaning: valori mancanti (non sono sempre errori) I dati mancanti (missing) sono un problema per molte analisi Cause:  in dati provenienti da sondaggi: domande non applicabili, mancata risposta totale o parziale  in dati ufficiali: mancata pubblicazione  in generale: errori, problemi tecnici, ecc. Valori mancanti che non corrisponde ad un errore: esempio

I valori anomali ( outlier ) sono valori di una variabile numerica che si discostano molto dagli altri. Possono avere cause diverse e quindi ad esempio essere errori oppure dati molto importanti. L’individuazione degli outlier può essere l’obiettivo dell’analisi. Si possono individuare con metodi grafici e statistici.  Il primo metodo grafico è il boxplot che permette di individuarli osservando una variabile alla volta ( outlier univariati ).  Il secondo metodo permette di osservare gli outlier che vengono fuori se faccio il grafico di due variabili numeriche contemporaneamente. Cioè ci sono outlier che posso individuare come tali semplicemente in modo univariato, mentre altri osservati singolarmente non sono outlier ma in relazione ad altre variabili sì e quindi sono outlier multivariati. Con gli strumenti statistici invece si individuano i valori lontani nella gaussiana. I trattamenti sono:  Eliminazione dei valori mancanti (ad esempio se analizzo l’età delle persone e salta fuori il valore - ovviamente è un errore).  Ranking : sostituisce i dati con l’ordinamento, in modo tale che i dati vengono organizzati in ordine di “arrivo”. L’importante è chiedersi se gli outlier sono degli errori o casi interessanti\rilevanti. Se sono interessanti, li lascio nel data set anche se mi sporcano le statistiche? Trasformazione dei dati numerici

  • Standardizzare —> x meno la media diviso s (vedi standardizzazione media)
  • Normalizzare —> riportare tutti i valori in un intervallo [0,1] (vedi grafico sotto)
  • Discretizzare —> da una variabile numerica diventa una variabile categorica (separo in classi.
  • Si può infine migliorare la distribuzione dei dati , ridurre l’asimmetria e quindi il numero di outlier (utilizzando ad esempio la radice quadrata o il logaritmo). Feature extraction A volte i dati non sono nella forma di cui abbiamo bisogno, a volte è necessario manipolarli per ottenere nuove informazioni. La feature extraction è la generazione di nuove variabili da quelle originali. Ad esempio, se ho altezza e peso posso unirle e ottenere il dato del BMI. Se parto dalle località e le sostituisco con le coordinate geografiche, da una variabile categorica derivo due variabili numeriche che posso anche rappresentare come punti nello spazio e usarle per analizzare le distanze per esempio (il nome della città mi avrebbe dato solo una lista di nomi). Nella GDO ad esempio ho ogni singolo scontrino con tot righe per ciascun prodotto, poi posso aggregare i dati per scontrino e ancora per cliente (carta fedeltà) da cui ricavare poi frequenza di acquisto, spesa mensile, ecc. Variabili dummy (one hot encoding) cerca nelle vecchie lezioni.

Riduzione della dimensionalità (analisi fattoriale)

Il problema nasce quando aumenta la complessità, cioè quando il volume dei dati aumenta e quindi vi è il bisogno di sintesi. Aumentare la dimensione dei data set significa aumentare la dimensione dei big data, ovvero milioni di righe e di colonne. Il problema dell’aumento dei dati nel data set si declinano in due modi diversi:

  1. se aumentano le righe significa che aumenta la numerosità nel data set quindi il tempo di elaborazione aumenta in maniera lineare, e questo sarà un problema modesto;
  2. se aumenta il numero di colonne aumenta la dimensionalità e il problema è più grande, perché il tempo di elaborazione aumenta esponenzialmente e anche i software possono riscontrare problemi. Si verificano anche difficoltà interpretative e ridondanze informative. Se abbiamo a che fare con i Big Data dobbiamo porci questo il problema. La riduzione della dimensionalità serve a rendere leggibili ed interpreatibili grandi masse di dati. Si possono seguire due obiettivi che inquadrano due problematiche differenti:
  1. Riduzione del numero di variabili , anche se si perde una fetta di informazioni (bisogna controllare questo aspetto); l’obiettivo della riduzione consiste nel generare nuove variabili (ovviamente meno di quelle di partenza) che contengono il più possibile le informazioni dei dati originali e si possono affiancare o sostituire a quelle originali. Es. parto da 200 variabili e ne genero 100 che posso sostituire.
  2. Individuare strutture nelle relazioni tra le variabili. Se ci sono delle ridondanze informative (più variabili vogliono dire più o meno la stessa cosa) posso scegliere una sola variabile, senza considerare le altre. Esistono diverse tecniche di riduzione della dimensionalità, essenzialmente sono l’analisi fattoriale e l’analisi delle componenti principali. Queste differiscono per dettagli tecnici e per l’obiettivo prevalente, tuttavia danno in genere risultati simili. Proprio perché sono diverse solo concettualmente, vengono spesso e volentieri sovrapposte. Metodo (delle componenti principali)
  1. selezione delle variabili
  2. calcolo della matrice di correlazione
  3. estrazione delle componenti principali
  4. rotazione (opzionale)
  5. interpretazione (opzionale)
  6. generazione dei punteggi (opzionale) Se due variabili possono voler dire la stessa cosa lo vedo all’interno della matrice di correlazione (che ha valore alto). Ipotizzo di lavorare su una matrice di dati con variabili xi standardizzate; le relazioni tra le p variabili sono riassunte dalla matrice di correlazione. Estrazione della prima componente principale Lo scopo è individuare k componenti 𝑦𝑗, con k < p , costruite come somme ponderate delle variabili 𝑥𝑖:  la prima componente ha la forma: 𝑦1 = 𝑤 11 𝑥1 + 𝑤 12 𝑥2 + ⋯ + 𝑤 (^1) 𝑝𝑥𝑝;  i pesi 𝑤 1 𝑖 sono calcolati in modo che la varianza di 𝑦1 sia massima. Questo perché vogliamo aggregare i dati originali il più possibile e la prima componente vogliamo che contenga il massimo dell’informazione possibile ovvero il massimo della varianza. Peso delle componenti Queste condizioni si traducono in un’equazione che fornisce quei pesi e associa a quei pesi un indice, detto autovalore λ , che rappresenta la varianza della prima componente (scialla fa tutto JMP). La prima componente è identificata dall’autovalore maggiore 𝜆 1 che rappresenta la sua varianza. Le altre componenti avranno la massima varianza residua (perché la massima assoluta è stata usata per la prima componente). Se per esempio individuo la seconda componente, si procede allo stesso modo della prima con il vincolo che le due componenti devono essere ortogonali, ovvero non correlate. Quindi la seconda componente è identificata dal secondo autovalore λ 2 che rappresenta la varianza della seconda componente.

Entrambe le soluzioni sono valide e corrette, le posizioni dei punti non cambiano, si sceglie semplicemente quella che funziona meglio interpretativamente. Mi concentro su quei numeri che hanno un valore maggiore (tra 0 e 1) poi analizzo se in positivo o in negativo. Analizziamo alcuni di questo valori:

  • Coefficiente di correlazione 0,699… = coefficiente alto, il fattore 1 c’entra con l’età (al crescere dell’età cresce il fattore 1)
  • coefficiente di correlazione - 0,45…= al crescere dell’età il fattore due diminuisce; quindi, in questo caso dove il fattore 2 rappresenta la predisposizione all’indebitamento, la tendenza all’indebitamento è giovanile, maggiore è la tendenza dell’indebitamento minore è l’età.
  • “Anni all’indirizzo attuale” di valore negativo = l’indebitamento è tendenziale nei clienti più giovani Comunalità o stime di comunanza: è la percentuale della varianza di una variabile spiegata dalle k componenti estratte, ovvero indica quanto ogni variabile contribuisce alla soluzione finale (avendo a disposizione ad esempio due fattori). Come criterio generico ci si aspetta una comunanza maggiore dello 0,5 (50%) per tutte le variabili. Se aumento le componenti aumenta la varianza spiegata totale insieme alla comunanza (o comunalità). Se aumento a 3 fattori, le stime di comunanza finali infatti aumentano. Il fattore 1 di prima conteneva tutte le cose di età e reddito ora si è spaccato in due. Le variabili importanti del fattore 1 sono reddito e anzianità nel posto di lavoro, mentre nel fattore 3 sono finiti l’età e l’età nell’indirizzo attuale. Il fattore 1 che conteneva età e reddito (due concetti distanti) sono stati divisi in due, con il fattore 3, facendo pulizia. Le varianze all’interno delle componenti sono più bilanciate con 3 fattori. Quante componenti estrarre? Non c’è una risposta univoca, il numero massimo è uguale al numero di variabili, il numero minimo è 1. Se ho meno componenti ho una maggiore sintesi ma se ne ho di più spiego meglio il fenomeno. Il punto di equilibrio tra queste due esigenze si deve trovare ogni volta in base a una serie di criteri:
  1. Criterio dell’importanza della componente: le componenti corrispondenti ad autovalori maggiori di 1 vengono selezionate. Questo perché autovalore 1 vuol dire che quella componente ha la stessa varianza delle variabili originali. Se l’autovalore scende sotto l’1 le componenti pesano meno delle variabili originali.
  2. Criterio della varianza totale spiegata: le componenti necessarie perché la varianza totale spiegata raggiunga una soglia ritenuta accettabile (ALMENO IL 50%).
  1. Criteri grafici: lo scree plot rappresenta graficamente gli autovalori. Dove il grafico segna un marcato gomito, fino a lì va bene. (al prof non piace quindi amen)
  2. Interpretabilità del risultato Punteggi fattoriali Dopo aver scelto la soluzione si possono generare i punteggi fattoriali (coi pesi 𝑤𝑖𝑗). Le nuove variabili:  sono non correlate tra loro (ortogonali) = correlazione 0  hanno media zero e varianza 1 ! i punteggi non sono espressi nella scala delle variabili originali. Tipo le variabili originali possono essere età, scale ecc.. Le variabili di ricerche di mercato per esempio sono tutte su scala likert (1-9) ma i fattori non sono in scala (sono sempre media 0 e varianza 1). Dati  L'analisi richiede variabili numeriche (ma l'uso di scale di Likert è molto comune, quindi posso usare variabili ordinali come numeriche). No variabili binarie/dicotomiche (solo alcune).  le variabili dovrebbero appartenere alla stessa area semantica e non ci dovrebbero essere variabili overall (cioè variabili generali come preferenza, gradimento ecc..): tenere separate le variabili come opinioni, comportamenti quando faccio l’analisi fattoriale. Nell’esempio della mozzarella la preferenza (ovvero una variabile overall) è correlata con un po' tutto quindi nell’analisi tende a generare un fattore con dentro tutto.  le variabili devono presentare correlazioni non nulle (si può verificare col test di Bartlett, deve essere p < 0,05)  l'analisi è influenzata da outlier e missing  numerosità del campione: 10 casi per ogni variabile (min 100) Le nuove variabili non sono identificate univocamente come se fossero osservate direttamente: c'è sempre un margine di discrezionalità che deve essere controllato dal ricercatore es. quante componenti? rotazione? In pratica non esistono test globali per valutare la bontà del risultato.

Analisi predittiva e modelli di regressione

Le finalità sono due strettamente intrecciate ma concettualmente diverse:  Esistono dei predittori di una certa variabile? Ci sono delle informazioni che permettono di stimare un’altra variabile? Quindi il problema non è stimarla, ma capire se c’è. Ad esempio, dati degli attributi di prodotto, quali sono quelli che influenzano maggiormente la customer satisfaction?  Si possono fare previsioni su una certa variabile? Per poter fare la previsione c’è bisogno che io abbia individuato prima i predittori, ma in quali casi può interessare questa previsione nel marketing? Tipicamente su situazioni come la prevenzione del churn (clienti che abbandonano un servizio rispetto ai clienti totali). Gli strumenti che in generale fanno capo all’analisi predittiva sono i modelli di regressione, le analisi delle serie storiche e il marchine learning e l’AI. Modelli di regressione L’obiettivo tecnico è individuare la relazione tra una o più variabili esplicative (predittori) di un fenomeno e una variabile risposta. L’idea è che le variabili esplicative (indipendenti) spieghino la variabile risposta (dipendente, come la preferenza o il gradimento), ovvero che tramite le variabili esplicativa si possa spiegare o prevedere la variabile risposta, generando un algoritmo o una formula mediante i quali la variabile risposta può essere spiegata. Esistono diversi modelli di regressione che dipendono da:  Il tipo di relazione che si cerca tra predittori e risposta (es. lineare o non lineare);  Le caratteristiche della variabile risposta (es. numerica, binaria, categorica, ordinale).