





















































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica sulle principali nozioni relative all'analisi dei dati, con particolare focus sulle matrici di dati, le distribuzioni di frequenza e di probabilità, le relazioni tra variabili numeriche e categoriche, e le tecniche di riduzione della dimensionalità come l'analisi fattoriale e l'analisi delle componenti principali. Vengono inoltre discussi i requisiti e le assunzioni per l'applicazione di queste tecniche, come la standardizzazione delle variabili, la presenza di correlazioni non nulle tra le variabili, la numerosità del campione e il trattamento di outlier e dati mancanti. Il documento sottolinea l'importanza di interpretare con cautela i risultati di queste analisi, in quanto le variabili latenti estratte non hanno lo stesso livello di oggettività delle variabili osservate direttamente. Infine, vengono accennate alcune tecniche per arricchire l'interpretazione, come l'analisi della varianza (anova) e il test del chi-quadrato.
Tipologia: Appunti
1 / 93
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






















































































Community: data Esame: 10 domande chiuse e 2 aperte sui casi Report di analisi facoltativo: max 3 punti, da consegnare almeno una settima prima dell’appello Codice Microsoft Teams: t5tszhh 28 settembre 17.30 ripasso su Teams
Si parla di analisi del mercato. L’obiettivo dell’analisi di mercato, attraverso i dati, è quello di rispondere a domande sul mercato in generale (sui concorrenti, clienti). L’esigenza di rispondere a domande sul mercato sorge da motivi diversi, per esempio, per cercare di reagire a problemi che si manifestano, approfondire aspetti che sembrano interessanti. Si ha anche la necessità di un monitoraggio sistematico del mercato. Ad esempio Audit il mercato che si vuole monitorare con l’auditem è quello pubblicitario.
Chi fa analisi dei dati?
generalisti che fanno di tutto, fanno ricerche ad hoc ma fanno anche ricerche multiclient cioè generaliste, per esempio una ricerca sul mondo della finanza, della telefonia, dell’energia che vengono vendute a chiunque
specializzati: possono essere specializzate per segmento di mercato, per attività, per tipo di dati. Ad esempio, i call center fanno parte di questo mondo ma si limitano alla rilevazione dei dati
La definizione dei progetti di analisi non è banale né univoca, quale obiettivo? Quali dati? Quali strumenti? Noi ci concentreremo su ANALISI QUANTITATIVE.
Il processo di analisi ( quantitativo ) di mercato:
Per fare un’analisi fatta bene il primo passo è definire e formulare gli obiettivi. Una volta capito l’obiettivo, bisogna decidere la formula di ricerca: Esplorativa (ad esempio analisi qualitativa ): quando non ne so nulla di una cosa, devo cominciare a rendermi conto di quali sono i problemi in gioco in maniera anche molto descrittiva/esplorativa Descrittiva: quando cominciamo a saperne qualcosa va bene l’analisi descrittiva, per esempio il livello di conoscenza oppure una segmentazione dei clienti. Causale- predittiva: si vanno a vedere le cause, come ad esempio la customer satisfation, non mi interessa vedere chi è soddisfatto e chi no ma mi interessa vedere quali sono i driver della soddisfazione, cosa rende più soddisfatto il cliente. Deciso in che ambito siamo e che tipo di analisi vogliamo fare, a questo punto si tratta di raccogliere i dati , analizzarli e interpretarli.
comportamenti : con quale frequenza compri la mozzarella, quantità, pagamenti, che tipo di mozzarella compri etc.; i comportamenti con i dati secondari possono essere rilevati (che film ha visto, cosa ha comprato etc.)
Diversi software statistici, che si differenziano per ambito di applicazione (statistica o machine learning o data mining o big data), per politica commerciale (licenza, freeware o open source), per tipo di utilizzo e facilità d’uso (interfacce grafiche, linguaggi di programmazione).
Differenza tra freeware e shareware: Freeware è il software distribuito gratuitamente e completo di tutte le funzionalità; shareware è il software distribuito gratuitamente con limitazioni (es. temporali)
Sondaggio rilevazione di dati primari con interviste strutturate a un campione di soggetti; strumento molto generale, potenzialmente costoso che richiede particolare competenza e rigore nel definire gli obiettivi.
Pro e contro della Survey:
Alternative:
Dati dichiarati VS dati oggettivi I dati rilevati con le survey però purtroppo non sono mai perfettamente oggettivi, anche se riguardano comportamenti Ad es. Auditel utilizza Meter per fare un monitoraggio abbastanza preciso degli ascolti.
Popolazione l'insieme di tutte le unità oggetto di studio (es. persone, prodotti, aziende), deve essere identificata inequivocabilmente attraverso (almeno) una caratteristica osservabile (es. "italiani" o "consumatori abituali" non basta); significa “l’universo di riferimento” Unità statistica ogni singolo elemento della popolazione Campione il sottoinsieme della popolazione sul quale si rilevano i dati
Campionamento : il processo col quale si estrae il campione
Campionamento probabilistico :
Dimensione del campione campioni più grandi migliorano la precisione delle stime, ma…
Caratteristiche di un buon campione :
E’ molto probabile che non tutte le quote siano state riempite. Poniamo che la quota di laureati non sia stata soddisfatta: c’era bisogno di intervistarne almeno 50 ma gli intervistatori ne hanno trovati solo 40 prima di esaurire le chiamate che avevano a disposizione. Quando si calcolano i risultati del sondaggio, quindi, bisognerà pesare sul totale quei 40 laureati come fossero 50. Si possono fare, oppure non fare, numerose “ponderazioni” di questo tipo. Una delle più diffuse è la ponderazione sul voto precedente. Oltre a chiedere cosa voteranno in futuro, agli intervistati viene spesso domandato anche cosa hanno votato l’ultima volta. Visto che si sa come sono andate realmente le ultime elezioni, si guarda al rapporto tra quante persone dicono di aver votato un certo partito alle ultime elezioni e quanti lo votarono effettivamente e si prova a fare la stessa operazione per le elezioni successive e lo stesso vale per un prodotto acquistato.
Se ci accorgiamo per esempio che un partito era sottovalutato di una certa percentuale alle ultime elezioni, cioè meno persone dicono di averlo votato rispetto alla realtà, allora è possibile provare a tenere conto di questo fatto anche nello stimare quante persone voteranno in futuro per questo partito.
Se il 20 per cento afferma di voler votare per quel partito, sarà possibile deciderle di correggerlo un po’ al rialzo. Come, quanto e con che formule tenere conto di questi fattori viene di solito deciso da ogni società di sondaggi, e i metodi che vengono utilizzati possono essere anche molto differenti e portare anche ad errori clamorosi in un senso o nell’altro.
I sondaggi sono tentativi di descrivere una realtà molto complessa e come tali devono essere trattati con prudenza. Sono però l’unico strumento che abbiamo per farci un’idea di come stanno le cose prima delle elezioni e per questo non possiamo pensare di rinunciare a loro completamente. Spostamenti settimanali della forza di un partito che ammontano a qualche zero virgola sono probabilmente inutili e fuorvianti, se il margine di errore di quello stesso sondaggio è dieci o venti volte superiore. Ma le tendenze di lungo periodo vanno prese con maggiore serietà.
Tutte le analisi si basano su matrici di dati espresse in unità per variabili , dove ci sono n righe che rappresentano le unità statistiche (casi, osservazioni) e k colonne che rappresentano le variabili (attributi, feature). Ogni variabile si può interpretare come una dimensione, mentre ogni unità si può interpretare come un punto nello spazio con k dimensioni. Ipotizzando quindi di avere una matrice di dati con due dimensioni allora abbiamo un piano in cui ogni unità è un punto del piano; se le variabili sono 3, abbiamo uno spazio tridimensionale ecc.
Ogni variabile si può interpretare come una dimensione nello spazio -> ogni colonna si può interpretare come una dimensione nello spazio
Ogni unità si può interpretare come un punto nello spazio a k dimensioni -> ogni riga si può interpretare etc.
I dati binari (dicotomici) sono dati che possono assumere solamente 2 valori e sono un tipo speciale di variabile categorica, in particolare si tratta di una categoria di dati nominali. I dati binari sono formalmente dati categorici ma in molte analisi si possono usare lecitamente come dati numerici. Si usa codificare dati come 0-1 e si possono poi svolgere in tutto e per tutto operazioni numeriche, ad es. calcolare la media. Questo permette di fare un utilizzo del dato numerico anche per i dati categorici > es il dato categorico “marca” si pu ò trasformare sempre in variabili dicotomiche, permettendo di usare i dati “marca” in analisi che richiedono dati numerici. Importanti le azioni di Data Cleaning; il 20% del tempo va nel raccogliere i dati, mentre il 60% è impiegato per la pulizia dei dati. Solo il circa 20% rimanente è dedicato all’analisi vera e propria. Tra le operazioni di data cleaning c’ è la ponderazione Ponderare un dataset o una matrice di dati consiste nell’aggiungere una colonna di dati che ha il significato di peso che serve per alterare artificialmente l’importanza dei singoli dati. Es se campione di 100 persone sono 49 maschi e 51 femmine, con la ponderazione posso raddrizzare un campione un po’ “storto”, es. i 49 maschi avranno un peso un pochino maggiore di uno così da poter pesare come 50 e viceversa le femmine che pesano un po’ meno, così il campione è equilibrato. Scopo è lavorare su un campione che dia la massima rappresentatività.
Un aspetto a cui bisogna fare attenzione durante il processo di data clening sono i valori mancanti ( missing ) Questi sono dei veri e propri vuoti/buchi nella matrice dei dati dalla quale si è partiti. Le cause di queste mancanze sono molteplici:
L’aspetto sostanziale che riguarda i dati mancanti è chiedersi se questi sono distribuiti casualmente nel dataset o se sono distribuiti in modo sistematico (es. concentrati in uno strato). Se sono distribuiti casualmente, posso ipotizzare che i dati presenti contengano abbastanza info da compensare le mancanze, e quindi posso fare ad es la media dei dati presenti e sostituire la media al dato mancante. Se invece i dati sono mancanti in un preciso strato, allora il dato è mancante per un motivo sistematico, quindi sarebbe proprio sbagliato utilizzare info provenienti da altri strati. In questo caso non si può fare niente. Per quanto riguarda invece la numerosità, si può affermare che la gravità del missing dipende dall’ambito di applicazione, non esistono indicazioni generali. Trattamento del missing Per poter agire e fare qualcosa, bisogna prima verificare che i missing siano distribuiti casualmente. Quando ciò è verificato e mancano casi interi, si agisce con la
Un altro aspetto importante a cui prestare attenzione durante le operazioni di data cleaning sono i valori anomali ( outlier). Questi sono valori di una variabile numerica che si discostano molto dagli altri. Possono derivare da varie cause, come ad es errori (610 al posto di 61 nell’ambito delle età che è improbabile, ma anche dati di pazienti con malattie rare che si discostano moltissimo dai dati della popolazione sana) Bisogna chiedersi se gli outlier che abbiamo trovato hanno un motivo o meno; se capiamo che c’è una causa sotto, allora ci hanno mostrato l’esistenza di un fenomeno (allo stesso modo dei missing), altrimenti capiamo che è un errore. Box plot (vedi slide 18) > il puntino così lontano dagli altri, quindi il valore anomalo, va esaminato bene: perché è così lontano dagli altri?? Ci sono casi per ò in cui gli outlier si identificano per combinazione di altri dati e pi ù variabili, tutte inusuali (es. ragazzo di 12 anni con già una laurea, grafico slide 18) > in questo caso, si parla di outlier multivariato.
Individuazione dell’outlier con strumenti grafici e statistici. A seguire, Trattamento dell’outlier:
Trasformazione di dati numerici Usare i dati così come sono non sempre va bene, ma c’ è bisogno di manipolare i dati affinché si “esprimano” al meglio. Spesso succede di dover manipolare i dati per poter lavorare adeguatamente con certe procedure statistiche. Un caso tipico è quello in cui si vuole annullare la differenza di scala e di variabilità tra le variabili numeriche ; per fare ciò , diverse tecniche:
Parlando di variabili discrete e continue non dobbiamo pensare al valore che usiamo per rappresentarle, ma al tipo di dato che stiamo misurando e alle sue caratteristiche intrinseche. Es. numero di sigarette che ho fumato ieri sono solo numeri interi, quindi, quella è una variabile discreta perché non può assumere valori intermedi. L’altezza delle donne adulte è invece una variabile continua perché qualunque altezza è possibile. Il fatto che la variabile sia discreta o continua è intrinseco al tipo di variabile che stiamo usando
variabile discreta → distribuzione discreta la probabilità è concentrata nei punti
variabile continua → distribuzione continua la probabilità è l’area sottostante alla curva ( Sull’asse delle x ci sono tutti gli infiniti punti; la funzione di probabilità continua si descrive come una curva e descrive la probabilità che la variabile continua x sia compresa tra i punti a e b come l’area sottostante alla curva compresa tra a e b.
Due conseguenze:
Abbiamo 20 osservazioni di una determinata variabile e ci interessa descriverle la prima cosa che si fa è una distribuzione di frequenza: indentifico tutti i valori presenti nei dati e conto quante volte si presentano. Per comodità, nella seconda colonna, i numeri della colonna 1 vengono messi in ordine crescente. Nella tabella in cui si andrà a fare la distribuzione di frequenza si inseriscono prima i numeri, poi il numero di volte in cui si presentano n ( frequenza assoluta ), e successivamente la frequenza relativa f (esprime in proporzioni la frequenza assoluta). La somma delle frequenze assolute è uguale a 20, cioè pari al numero di soggetti che avevamo inizialmente. (Se la sequenza di dati fosse una frequenza di dati non numerici, e quindi categorico (es. 3 marca a, 2 marca c, 2 marca b, etc.) il ragionamento si può fare allo stesso modo).
La distribuzione di frequenza ci dice tanto sul dato. Il problema è che non è comoda da gestire. Ecco che nasce l’esigenza di avere delle misure che ci dicano intorno a quale valore si muovono i dati queste misure si chiamano:
- ‘ misure di tendenza centrale’ -> media, moda e mediana - ‘misure di dispersione’ -> varianza
MEDIA -> la somma dei valori diviso n tot La media è molto sensibile a valori particolarmente alti o bassi: anche un solo dato particolarmente alto o basso, cambia molto la distribuzione di frequenza e cambia molto la media
Questa ipersensibilità della media, che sfrutta molto bene i dati, è anche un contro. In alcune situazioni può dare fastidio, e questo genera la necessit à di sviluppare un’altra misura alternativa alla media che sia un può più stabile e che si sposti un po' meno allo spostarsi dei valori in gioco MEDIANA : il valore centrale fra tutti quelli che la variabile può assumere. Se metto in ordine i dati, la mediana è il valore centrale, quello che ne lascia tanti sopra quanti sotto. Se i numeri di valori è
meno sensibile alla variazione dei valori. È sensibile solo all’ordinamento ma non alla grandezza dei dati.
Un’altra misura di tendenza centrale -> MODA : il valore più alto, la frequenza più alta che c’è nella distribuzione. Si può definire anche per variabili categoriche nominali, perch é basta che ce n’è una che ha una frequenza più alta e c’è la moda. La moda potrebbe anche non esistere, oppure potrebbe esserci una bimodale (quando ci sono due massimi).
PERCENTILI E QUARTILI La definizione della mediana è quella di una posizione tale che alla sua sx c’è il 50% dei casi e alla sua destra un altro 50%. Esattamente con la stessa logica si possono definire misure più raffinate. Si può dividere in quattro parti: 25%, 25%, 25%, 25% -> l’abbiamo diviso in Quartili.
Oppure, dividere la mia curva in pezzettini di 1% -> percentili I percentili agli estremi posso essere interessanti, ha senso nelle code delle distribuzioni.
LA CORRELAZIONE tra due variabili (fenomeni) c’è correlazione: tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a co-variare
appare come una retta crescente)
appare come una retta decrescente)
ANALISI BIVARIATA Esaminare la relazione tra due variabili numeriche significa misurare l’andamento relativo di una variabile rispetto all’altra (al crescere di una variabile cresce anche l’altra). Ad esempio la propensione all’acquisto e il gradimento è un esempio di due variabili legate tra loro.
1. RELAZIONE TRA VARIABILI NUMERICHE:
Una misura della concordanza/discordanza di due variabili è la covarianza , ottenuta dalla media aritmetica del prodotto tra le differenze di una variabile dalla sua media e dell’altra variabile e della sua media.
La frase “differenza tra una variabile e la sua media” indica la distanza fisica di un punto del grafico rispetto alla retta che corrisponde alla sua media
Se entrambi gli scarti sono positivi o negativi, la covarianza è positiva (perché è il loro prodotto); in questo caso si ha concordanza tra le variabili. Se invece il prodotto dà una covarianza negativa, si ha discordanza tra le variabili.
La covarianza può avere come massimo il valore corrispondente al prodotto tra le deviazioni standard delle due variabili. La covarianza minima è = 0 , e significa che non c’è nessuna relazione tra le variabili.