Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Data mining, Appunti di Statica

statistica data mining

Tipologia: Appunti

2015/2016

Caricato il 23/02/2016

turmax01
turmax01 🇮🇹

3.8

(13)

43 documenti

1 / 26

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Lombardo R.
Dipartimento di Economia
Seconda Università di Napoli
Dispensa didattica
Data Mining
Lombardo R.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a

Anteprima parziale del testo

Scarica Data mining e più Appunti in PDF di Statica solo su Docsity!

Lombardo R.

Dipartimento di Economia

Seconda Università di Napoli

Dispensa didattica

Data Mining

Lombardo R.

Cos’é il Data Mining?

Premessa Il Data Mining è un processo di analisi dei dati da diverse prospettive per la scoperta di relazioni e di informazioni sconosciute e potenzialmente utili presenti all’interno di grandi database. Tecnicamente il Data Mining è un processo che ricerca pattern in grandi database relazionali.

Un pattern indica una struttura relazionale tra i dati che può essere espressa da un modello. Il risultato di tale processo è una quantità a volte piccola, comunque molto preziosa, di informazioni. L’informazione risultante viene messa in circolo con tutti gli altri dati per poter essere utilizzata più volte e per creare altra informazione. Così l’informazione ottenuta può essere tramutabile in azioni commerciali allo scopo di ottenere un vantaggio di business per aumentare redditi, e/o ridurre i costi in impresa.

Oggi il data mining (letteralmente: estrazione di dati ) ha una duplice valenza:

 Estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;  Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi) significativi.

I concetti di informazione e di significato dei dati sono legati strettamente al dominio applicativo in cui si esegue data mining, in altre parole un dato può essere interessante o trascurabile a seconda del tipo di applicazione in cui si vuole operare.

L’ attività di estrazione/esplorazione è cruciale in molti ambiti della ricerca scientifica, soprattutto in alcuni settori (per esempio in quello delle ricerche di mercato). Nel mondo professionale è utilizzata per risolvere problematiche spesso diverse tra loro, che vanno dalla gestione delle relazioni con i clienti (CRM), all'individuazione di comportamenti fraudolenti, per finire all'ottimizzazione di siti web.

L’esigenza delle aziende di essere efficienti ed efficaci nella conduzione del business cresce di pari passo con il progredire della competizione, della tecnologia e della dinamicità dell’ambiente. E’ evidente che la possibilità di accedere ad ampie basi di dati, (formatesi nel corso degli anni di attività o provenienti da fonti esterne, riguardanti diversi aspetti dell’attività aziendale) e la conoscenza degli strumenti di analisi dei dati possano fornire una nuova risposta alle esigenze ed agli obiettivi del management.

La statistica si è da sempre occupata della costruzione di metodologie per l’analisi dei dati. Tuttavia i metodi statistici vengono solitamente sviluppati in relazione ai dati in esame e secondo un paradigma concettuale di riferimento. Sebbene ciò abbia reso i numerosi metodi statistici coerenti e rigorosi, ne ha limitato la capacità di fronteggiare, in tempi rapidi, le richieste metodologiche avanzate dagli sviluppi della tecnologia dell’informazione e dallo sviluppo delle applicazioni di apprendimento automatico. Questo ha fatto si che anche gli statistici hanno volto la loro attenzione al data mining, e ciò non può che costruire un importante fattore di rigore e sviluppo della disciplina.

Un’ultima importante distinzione è che i risultati del data mining devono essere rilevanti: ciò implica una costante attenzione alla valutazione dei risultati economici ottenuti con i modelli di analisi dei dati^3.

In termini generali, ciò che distingue l’attività di DM dall’analisi statistica comunemente intesa non è solamente la mole di dati su cui vengono effettuate le elaborazioni, così come nemmeno la disponibilità di un numero rilevante di tecniche, quando l’orientamento verso le esigenze aziendali e la possibilità di operare in un ambiente predisposto per l’integrazione di contributi tecnici e conoscenze di business.

Nonostante in molti ritengono che il DM non sia “nulla di nuovo” dal punto di vista statistico ciò è stato smentito dall’evolversi di tale processo. La novità offerta dalla nuova tecnologia e dal DM non sta nel rinnegare il tipo tradizionale di conoscenza, che rimane fondamentale, ma nell’integrare i processi decisionali con regole costruite sintetizzando complessi ed estesi patrimoni informativi.

Nel contesto aziendale, l’utilità del risultato si traduce in un risultato di business e, pertanto, ciò che distingue il data mining da una mera analisi statistica, non è tanto la quantità di dati che vengono analizzati o le particolari tecniche che vengono impiegate, quanto la necessità di operare in una modalità in cui la conoscenza delle caratteristiche del database, la metodologia di analisi e le conoscenze di business devono essere integrate. Fare data mining significa, infatti, seguire un processo metodologico integrato, che va dalla traduzione delle esigenze di business in una problematica da analizzare, al reperimento del database necessario per l’analisi, fino all’implementazione di una tecnica statistica, implementata in un algoritmo informatico, al fine di produrre risultati rilevanti per prendere una decisione strategica. Tale decisione, a sua volta, comporterà nuove esigenze di misurazione e, quindi, nuove esigenze di business, facendo ripartire quello che è stato definito “il circolo virtuoso della conoscenza” indotto dal data mining^17. Anche se ad una prima analisi il data mining può avere delle analogie con l’Olap, in realtà tale attività non può essere confusa con quella volta alla realizzazione di strumenti di reportistica multidimensionale. Diversamente dall’Olap, il data mining combina in modo multivariato tutte le variabili a disposizione. Permette inoltre di andare oltre la visualizzazione dei riassunti presenti nelle applicazioni Olap, formulando modelli funzionali all’attività di business. Il data mining non si esaurisce nell’attività di analisi dei dati, bensì in un processo più complesso, in cui l’analisi dei dati è solo uno degli aspetti. L’Olap permette di estrarre informazioni utili dai database aziendali ma, diversamente dal data mining, le ipotesi di ricerca vengono suggerite e non scoperte nei dati. Inoltre, l’estrazione viene effettuata in modo puramente informatico, senza avvalersi degli strumenti di modellazione e di sintesi forniti dalla metodologia statistica. Pertanto, sebbene l’Olap possa dare indicazioni utili per database con un numero limitato di variabili, i problemi diventano insormontabili quando il numero delle variabili da analizzare simultaneamente cresce e raggiunge l’ordine delle decine o delle centinaia. Diventa sempre più dispendioso e difficile in termini di tempo trovare una buona ipotesi e analizzare il database con gli strumenti di Olap per confermarla o smentirla. Risulta quindi più utile ricorrere alle tecniche di DM che liberano l’utente da compiti specifici, dal

(^3) Paolo Giudici “Data Mining, Metodi statistici per le applicazioni aziendali” McGraw-Hill 2001 (^17) Berry e Linoff, 1997

5

momento che in tale ambito non si utilizzano più strumenti di Query e Olap, ma tecniche derivate dalla statistica e dall’intelligenza artificiale. In definitiva , l’Olap non è un sostituto del data mining, ma anzi, le due tecniche di analisi sono complementari e il loro impegno congiunto può produrre utili sinergie. L’Olap può essere impiegato nelle fasi preliminari del data mining (pre-processing), agevolando la comprensione dei dati: per esempio permettendo di focalizzare l’attenzione sulle variabili più importanti, identificando i casi particolari o trovando le interazioni principali. Solo dopo aver utilizzato le tecniche Olap per individuare cosa sta succedendo verrà utilizzato il DM che indicherà il perché di un dato fenomeno. D’altra parte, i risultati finali dell’attività data mining, riassunti da opportune variabili di sintesi, possono a loro volta essere convenientemente rappresentati in un ipercubo di tipo Olap, che permette una comoda visualizzazione^18. E’ quindi evidente che gli strumenti Olap rappresentano una base di partenza, ma non sono in grado di fornire lo stesso contributo informativo delle tecniche di DM. Tuttavia l’esempio dimostra come le tecniche di Olap e DM siano tecniche complementari piuttosto che alternative.

Altre Definizioni di Data Mining La difficoltà di trovare una definizione precisa di DM si accompagna, come già accennato in precedenza, ad un uso improprio del termine, confondendolo con tutta una serie di altre tecniche o metodologie. Le differenze con la statistica classica ad esempio si possono riassumere nella non necessità di ipotesi sui dati per lo sviluppo di modelli e di analisi sui fenomeni studiati. A volte sotto il termine DM vengono inclusi reportistica, il ricorso a query su database e la costruzione di grafici per ottenere indicazioni riassuntive dei dati che si analizzano. Quelli appena citati sono strumenti di cui ci si può servire in fase preliminare nel corso di un’analisi per avere un’idea delle variabili a disposizione, ma si discostano decisamente dal concetto alla base del DM: la scoperta di conoscenza guidata dai dati. Tutte le tecniche descritte prevedono ipotesi da parte di chi svolge l’analisi facendo si che query o conteggi vengono effettuati sulla base di idee che ne guidano la realizzazione. Il DM, con cui a volte vengono confusi l’OLAP e altre tecniche di visualizzazione avanzata ha come scopo quello di capire il perché e non il come delle cose e portare quindi conoscenza di valore più elevato. La costruzione di report di vendita ad esempio prevede ipotesi forti, delimitando in modo deciso l’informazione che si richiede: “Quanto è stato venduto nel corso dell’anno passato?”, “Quanto è stato venduto nell’area X il mese scorso?”, “Quali clienti hanno mostrato irregolarità nei pagamenti?”. Per la risposta a queste quattro domande si ricorre a strumenti di reportistica, query o OLAP. Le risposte a queste domande sono numeri, conteggi, liste di prodotti che hanno la caratteristica di dover essere semplicemente estratti. “Perché le vendite sono calate nel corso dell’ultimo anno?”, “Che pattern di comportamento seguono i miei clienti?”, “Quali sono i clienti maggiormente a rischio di mancato pagamento?”, “Quali sono i clienti che aderiranno ad una iniziativa commerciale?”. E’ chiaro come a queste quattro domande non sia possibile rispondere con i classici strumenti di analisi. Come si potrebbero impostare delle query e soprattutto

(^18) Paolo Giudici “Data Mining, Metodi statistici per le applicazioni aziendali” McGraw-Hill 2001 pag.4, 5

7

assistere i manager nel trovare modelli e relazioni nei dati, ma questi modelli devono essere costantemente verificati nel mondo reale.

Verso il Data Mining: le fasi del processo di KDD Il termine DM è spesso citato in letteratura anche come Knowledge Discovery in Databases (scoperta della “conoscenza” dei dati contenuti nei database). In realtà esiste una differenza tra i due concetti in quanto il DM è ritenuto la fase più importante dell’intero processo di KDD anche se è proprio questa preminenza che rende sempre più difficile, soprattutto in termini pratici, distinguere il processo di KDD dal DM. Gli stadi che caratterizzano un processo KDD sono stati identificati nel 1996 da Usama Fayyad, Piatetsky-Shapiro e Smyth (fig 3).

Figura 2: Fasi del processo di KDD

Fonte: Usama Fayyad, Piatetsky-Shapiro e Smyth

Nella fig. 2 è facile individuare come il DM è solo una delle cinque fasi, sotto indicate, di cui il KDD si compone al fine di utilizzare come dati in input dati grezzi e fornisce come output informazioni utili ottenute attraverso le fasi di:  Selezione : i dati grezzi vengono segmentati e selezionati secondo alcuni criteri al fine di pervenire ad un sottoinsieme di dati, che rappresentano il nostro target data o dati obiettivo. Risulta abbastanza chiaro come un database possa contenere diverse informazioni, che per il problema sotto studio possono risultare inutili  Pre-elaborazione : spesso, pur avendo a disposizione il target data non è conveniente né, d’altra parte, necessario analizzarne l’intero contenuto; può essere più adeguato prima campionare le tabelle e in seguito esplorare tale campione effettuando in tal modo un’analisi su base campionaria. Fanno inoltre parte del seguente stadio del KDD la fase di pulizia dei dati (data cleaning) che

prevede l’eliminazione dei possibili errori e la decisione dei meccanismi di comportamento in caso di dati mancanti.  Trasformazioni : effettuata la fase precedente, i dati, per essere utilizzabili, devono essere trasformati. Si possono convertire tipi di dati in altri o definire nuovi dati ottenuti attraverso l’uso di operazioni matematiche e logiche sulle variabili. Inoltre, soprattutto quando i dati provengono da fonti diverse, è necessario effettuare una loro riconfigurazione al fine di garantirne la consistenza.  Data Mining : ai dati trasformati vengono applicate una serie di tecniche in modo da poterne ricavare dell’informazione non banale o scontata, bensì interessante e utile. I tipi di dati che si hanno a disposizione e gli obiettivi che si vogliono raggiungere possono dare un’indicazione circa il tipo di metodo/algoritmo da scegliere per la ricerca di informazioni dai dati. Un fatto è certo: l’intero processo KDD è un processo interattivo tra l’utente, il software utilizzato e gli obiettivi, che devono essere costantemente inquadrati, ed iterativo nel senso che la fase di DM può prevedere un’ulteriore trasformazione dei dati originali o un’ulteriore pulizia dei dati, ritornando di fatto alle fasi precedenti.  Interpretazioni e Valutazioni : il DM crea dei pattern, ovvero dei modelli, che possono costituire un valido supporto alle decisioni. Non basta però interpretare i risultati attraverso dei grafici che visualizzano l’output del DM, ma occorre valutare questi modelli e cioè capire in che misura questi possono essere utili. E’ dunque possibile, alla luce di risultati non perfettamente soddisfacenti, rivedere una o più fasi dell’intero processo KDD. Parlare di KDD e DM vuol dire mettersi in un’ottica di ricerca, in una posizione in cui l’obiettivo è di scoprire quello che si ammette di non sapere e non di validare quello che si ritiene corretto. Da quanto sopra detto risulta chiaro come, nell’elencare e descrivere le fasi di KDD Usama Fayyad, Piatetsky Shapiro e Smyth pongono particolare attenzione allo stadio di DM, cioè a quella fase del KDD composta da tutti quegli algoritmi per l’esplorazione e lo studio dei dati, ricalcando così la differenza esistente dai due concetti.

Data I dati sono informazioni, numeri o testo che possono essere elaborati da un computer. I dati possono essere codificati in vario modo.

Il Data Mining che lavora sul cliente, richiede che ad ogni riga (record) corrisponda un singolo cliente, che viene inteso come l’unità di azione e che può fornire utili informazioni per comprendere meglio i pattern. I dati sono quindi strutturati in una serie di righe e colonne.

RIGHE: unità statistiche o individui oggetto della rilevazione memorizzati in record di un database.

COLONNE: Le colonne, ovvero le variabili statistiche, rappresentano i dati relativi a ciascun record. COLONNE UNARIE: è possibile che una colonna abbia un unico valore (colonne unitarie). Non offrono nessuna informazione utile che ci permetta di distinguere un record dall’altro perciò una variabile di questo tipo viene ignorata dall’analisi di Data Mining. La formazione di colonne unarie può essere il risultato di un’analisi mirata ad uno specifico sottogruppo di clienti, il campo che definisce questo sottogruppo presenta lo stesso valore per tutti i clienti.

 Alcuni algoritmi (alberi decisionali) non sono sensibili alla presenza degli outlier perché usano il rango delle variabili numeriche. Altri algoritmi (reti neurali) sono molto sensibili e basta la presenza di pochi valori anomali per comprometterne il funzionamento.  Filtrare le righe che li contengono: potrebbe portare ad una distorsione nei dati, ma è vero anche che potrebbe essere una buona idea per non considerare gli acquisti dei non clienti: se in un supermercato ignoriamo gli acquisti che si discostano di molto dalla media significa che prendiamo in considerazione solo clienti abituali, cioè che fanno acquisti in media.  Ignorare le colonne: soluzione estrema. La colonna può essere sostituita da informazioni relative alla colonna.  Sostituire gli outlier: tecniche di imputazione dei valori anomali univariate (mediana) e multivariate (regressione).

SERIE TEMPORALI:

Le serie temporali rappresentano i dati che si ripresentano più volte a precisi intervalli di tempo. Per poter utilizzare questi dati in modo migliore è necessario normalizzarli all’ultima data disponibile. Se l’oggetto di studio è l’abbandono, avremmo numerosi clienti che lasciano in momenti diversi. Per poter costruire un modello che descriva questi clienti è necessario riallineare i dati rispetto alla data di abbandono, prendendo in considerazione il mese finale di ciascun cliente, eliminando però la stagionalità ed altre informazioni che sono comunque recuperabili tramite l’aggiunta di variabili derivate. Un esempio utile di serie temporali sono i dati relativi all’uso di telefoni cellulari, sono serie temporali perché i dati vengono raccolti e analizzati mensilmente. Possiamo distinguere anche diversi tipi di clienti:

 Clienti stabili: il loro profilo è ogni mese lo stesso.  Clienti in crescita: l’uso del telefono cresce in maniera costante.  Ricevitori: il loro profilo presenta solo chiamate ricevute.  Mittenti: il loro profilo presenta solo chiamate in uscita.

COME SI PRESENTANO I DATI E DA DOVE PROVENGONO:

Nel mondo reale i dati non sono mai pronti per essere utilizzati dal Data Mining, quindi una volta raccolti bisogna trasformarli nel formato richiesto dalle tecniche che si vogliono usare.

I dati per il Data Mining devono essere importati da altri sistemi (possono essere immagazzinati in database relazionali, log file, ecc.) e tutti o quasi i sistemi operazionali possono esportare dati.

Sistemi operazionali:

I sistemi operazionali sono tutti quei sistemi usati per far funzionare l’azienda (2)^1 :

 Bancomat.  Web server e database per e-commerce.  Sistemi di fatturazione.

(^1) Berry & Linoff, Data Mining.

11

I sistemi operazionali sono una fonte ricchissima di dati, dati che vengono raccolti direttamente dal punto di contatto con il cliente. Non tutti i S.O. però sono in grado di raccogliere i dati e quindi l’azienda dovrà rivolgersi ad altre fonti (sondaggi, profili di mercato e intuizioni) per avere a disposizione qualcosa su cui fare del Data Mining, aumentando la spesa ed ottenendo dati incompleti.

I dati memorizzati sui S.O. non sono immediatamente accessibili, perché ci sono attività (per esempio la fatturazione) che hanno la precedenza sulle attività di business intelligence; i dati inoltre sono sempre sporchi.

Tutti i dati che un’azienda possiede sono immagazzinati in un datawarehouse e si trovano tutti in un solo posto, pronti per essere utilizzati.

I datawarehouse sono database relazionali che presentano centinaia di tabelle descritte da migliaia di campi; i dati vengono inseriti nel sistema, puliti e verificati. E’ possibile fare del Data Mining anche senza datawarehouse, anche se questi ultimi sono una fonte utilissima di dati.

Spesso i clienti sono invitati a fornire informazioni personali su di loro, questo accade per i sondaggi e le inchieste. Tutti questi dati però devono essere trattati con molta cautela perché:

 La gente se può non risponde alle domande. C’è però un gruppo ristretto di persone che lo fanno, questi sono la minoranza e quindi non rappresentano tutta la popolazione.  Le risposte possono essere non del tutto corrette, o per errori di battitura o per volontà delle persone stesse.  Le inchieste condotte nel passato potrebbero non essere confrontabili con quelle più recenti, perché la popolazione di riferimento potrebbe cambiare con il passare del tempo.  I dati raccolti spesso soni incompleti, perciò non sono utilizzabili come input per i modelli.

Nonostante tutto però i sondaggi e le inchieste sono molto utili per avere maggiori informazioni sui clienti. I risultati possono servire per trovare un nuovo approccio alla commercializzazione di un prodotto, o per ricavare un nuovo tema per una campagna pubblicitaria.

Quanti dati?

Più dati ci sono e meglio è ….. I dati sono sempre sporchi! (Berry & Linoff, Data Mining).

La quantità di dati disponibili dipende dal rapporto tra azienda-cliente. I “prospect” offrono la minore disponibilità e spesso il loro elenco viene acquistato da terzi. Le campagne pubblicitarie vengono mirate secondo una divisione demografica e comunque non si sa nulla di chi riceve il messaggio promozionale finché il “prospect” non decide di rispondere alla campagna. Spesso quando un cliente potenziale chiede informazioni relative ad un prodotto o ad un servizio, lascia delle tracce che sono informazioni utili ed importanti, ma che spesso sono dati imprecisi ed incompleti. I dati generati dal comportamento dei clienti effettivi contengono informazioni più precise ed informazioni riguardanti i segmenti a cui appartengono. Importante infine è registrare i gruppi esposti alle diverse campagne per poter dividere chi ha effettivamente risposto da chi non ha risposto. Spesso però i dati a disposizione per costruire il modello sono troppi, per

13

Data Warehouses Data Warehouse: fonte “magazzino” dei dati storici, dal quale si possono estrarre database tematici di interesse. I database sono integrati tra loro per formare data warehouses.

Data warehousing rappresenta una visione ideale di un magazzino centrale di tutti i dati di organizzazione.

Modello standard per il Data Mining: CRISP-DM

Nei paragrafi precedenti è stato più volte precisato che il DM non è ancora un concetto ben delimitato. Tuttavia, la sempre più forte affermazione del DM e la necessità di capire effettivamente come sfruttare l’enorme capacità dello stesso, ha fatto si che la commissione europea abbia ritenuto necessario finanziare un progetto il cui obiettivo è quello di definire un approccio standard ai progetti di DM, chiamato CRISP-DM (CRoss Industry Standard Process for Data Mining). Il CRISP-DM affronta la necessità di tutti gli utenti coinvolti nella diffusione di tecnologie di DM per la soluzione di problemi aziendali. Scopo del progetto è definire e convalidare uno schema d’approccio indipendente dalla tipologia di business^6. La figura 3 riassume lo schema CRISP-DM, oltre che chiarire l’essenza del DM e il suo utilizzo da parte delle imprese per incrementare il loro business. Come si evince dalla figura il ciclo di vita di un progetto di DM consiste di sei fasi la cui sequenza non è rigida. E’ quasi sempre richiesto un ritorno indietro ed un proseguimento tra le differenti fasi. Ciò dipende dalla bontà del risultato di ogni fase, che costituisce la base di partenza della fase successiva. Le frecce indicano le più importanti e frequenti dipendenze tra le fasi. L’ellisse fuori lo schema rappresenta la natura ciclica di un processo di DM il quale continua anche dopo che una soluzione è stata individuata e sperimentata. Figura 3: Fasi del CRISP-DM Fonte: http://www.spss.it/datamine/crisp is.html

(^6) Per maggiori informazioni sul progetto si veda l’URL: http://www.spss.it/datamine/crisp is.html.

Spesso quanto imparato durante un processo di DM porta a nuove informazioni in processi di DM consecutivi. La figura 3 sintetizza le seguenti fasi:

Business Understanding : è opportuno che in un progetto di DM si conosca il settore di affari in cui si opera. In questo senso il DM non deve, né può sostituire il compito dei manager tradizionali, ma solo porsi come strumento aggiuntivo di supporto alle decisioni. Non sempre il fenomeno che si vuole analizzare è di facile definizione. Infatti, mentre gli obiettivi aziendali a cui si vuole mirare sono generalmente ben chiari, le problematiche sottostanti possono risultare complesse da tradursi in obiettivi dettagliati di analisi. Una chiara esplicazione del problema e degli obiettivi che si vogliono raggiungere è il presupposto per impostare correttamente l'analisi. Questa fase del processo è sicuramente una delle più critiche, perché a seconda di quanto stabilito in essa, verrà organizzata tutta la metodologia successiva^7. Avendo chiare le idee sul settore di affari in cui si opera, si procede alla conversione di questa conoscenza di settore nella definizione di un problema di DM e quindi alla stesura preliminare di un piano prefissato per raggiungere gli obiettivi stabiliti.  Data Understanding : individuati gli obiettivi del progetto di DM, ciò di cui disponiamo per il raggiungimento di tali obiettivi è rappresentato dai dati. Quindi la fase successiva prevede una iniziale raccolta dei dati e una serie di operazioni sui dati stessi che permettono di acquisire maggiore familiarità con essi, di identificare problemi nella qualità dei dati stessi, nonché scoprire le prime informazioni che a volte si possono ricavare dal semplice calcolo delle statistiche di base ( medie, indici di variabilità, ecc). E’ necessario, anzitutto, individuare le fonti dei dati. Solitamente si scelgono dati da fonti interne, più economiche e affidabili. Hanno inoltre il vantaggio di essere il risultato di esperienze e processi diretti dell'azienda stessa. La fonte ideale dei dati è rappresentata dal datawarehouse aziendale, un "magazzino" di dati storici non più soggetti a mutamenti nel tempo, dal quale è semplice estrarre dei data base tematici (data mart^8 ) di interesse. E’ chiaro inoltre come le prime due fasi siano collegate dato che rappresentano l’individuazione dei fini e dei mezzi di un progetto di DM.  Data preparation : tale fase copre tutte le attività che poi portano alla costruzione dell’insieme di dati finale a partire dai dati grezzi e dunque dell’insieme di dati cui applicare le tecniche di DM. Ottenuta la matrice dei dati (Data mart) è spesso necessario effettuare operazioni di pulizia preliminare dei dati. In altre parole, si effettua un controllo di qualità dei dati disponibili (data cleaning). Si tratta di un controllo formale per l’individuazione di variabili non utilizzabili: esistenti, ma inadatte all'analisi. Ma anche di un controllo sostanziale , per la verifica del contenuto delle variabili implementate e della eventuale presenza di dati mancanti o errati. Nel caso emergesse la mancanza di elementi informativi essenziali sarà necessario rivedere la

(^7) Paolo Giudici “Data Mining, Metodi statistici per le applicazioni aziendali” McGraw-Hill 2001

(^8) Un data mart (database di marketing) è un database tematico, solitamente orientato all’attività di

marketing. Può essere considerato un archivio aziendale, contenente tutte le informazioni relative alla clientela acquisita e/o potenziale. In altri termini, si tratta di una base di dati relativi alla clientela.

soprattutto la trasparenza degli stessi portano ad una preferenza nel loro utilizzo rispetto ai metodi più complessi e di più difficile analisi. I metodi utilizzati possono essere classificati in base allo scopo immediato per il quale l’analisi viene effettuata. In conformità a tale criterio si possono distinguere essenzialmente, quattro grandi classi di metodologie:Metodi descrittivi Questo gruppo di metodologie (denominate anche simmetriche o non supervisionate o indirette) hanno lo scopo di descrivere l'insieme dei dati, in un modo più parsimonioso. Ciò può riguardare .sia la sintesi delle osservazioni, che vengono pertanto classificate in gruppi non noti a priori (distanze, analisi di raggruppamento) sia la sintesi delle variabili, che vengono fra loro relazionate, secondo legami non noti a priori (metodi associativi, modelli log-lineari, modelli grafici). In questo tipo di metodologie, tutte le variabili a disposizione sono trattate allo stesso livello, e non si fanno ipotesi di casualità. La descrizione delle caratteristiche del database può essere complessiva (analisi globale), o peculiare, relative a sottoinsiemi di interesse del database (analisi locali). Esempi di quest'ultima tipologia di analisi includono le regole associative per l'analisi di dati transazionali, oppure l'individuazione di osservazioni anomale.Metodi esplorativi Questo primo gruppo di metodi presenta forti analogie con le tecniche di tipo OLAP. Sono metodologie interattive e, solitamente, visuali, che hanno lo scopo di trarre le prime conclusioni ipotetiche dalla massa di dati disponibili, oltre che fornire indicazioni su eventuali trasformazioni della matrice dei dati, ovvero sulla necessità di integrare o sostituire il database disponibile. L’esplorazione dei dati serve per rilevare su quale sotto insieme di attributi è più opportuno lavorare per scoprire in anticipo relazioni e anomalie nei dati e per capire quali possono essere quelle di interesse.Metodi previsivi In questo gruppo di metodologie (denominate anche asimmetriche o supervisionate o dirette) l'obiettivo è spiegare una o più variabili in funzione di tutte le altre, ricercando, sulla base dei dati, delle regole di classificazione o previsione. Tali regole permettono di prevedere o classificare il risultato futuro di una o più variabili risposta o target, in funzione di quanto accade alle variabili esplicative o input. Le principali metodologie di questo tipo sono sia quelle sviluppate nell'ambito dell'apprendimento automatico, quali le reti neurali supervisionate (percettroni multistrato) e gli alberi decisionali, ma anche classici modelli statistici, quali i modelli di regressione lineare e di regressione logistica.

Evaluation : prima di procedere all’impiego del modello o dei modelli costruiti, è molto importante valutare il modello e i passi eseguiti per costruirlo, accertarsi che attraverso tale modello si possono veramente raggiungere obiettivi di business, capire se qualcosa di importante non è stato sufficientemente considerato nella costruzione dello stesso. La scelta del modello e, quindi della regola decisionale finale, si basa su considerazioni che riguardano il confronto dei risultati ottenuti con i diversi metodi. Indicazioni quali gli obiettivi da raggiungere ed i vincoli di business, sia in termini di budget che di tempo, concorrono alla valutazione della performance di un modello. Il rilascio di una tecnica metodologicamente ottimale potrebbe richiedere molto più del tempo effettivamente disponibile, in questi casi è preferibile perseguire soluzioni più semplici, ma in grado di fornire indicazioni più efficaci rispetto ai criteri tradizionalmente usati in azienda.

17

Quando si costruisce un modello è necessario poi valutarlo. Distinguiamo la valutazione in interna ed esterna al modello in questione. La valutazione interna è senz’altro la più semplice da eseguire; qualunque sia il modello posto in essere è in genere semplice costruire degli indici che misurino l’accuratezza del modello nel descrivere i dati. Nel caso del DM il processo di costruzione di modelli predittivi prevede di per sé l'adozione di un protocollo talvolta chiamato "apprendimento supervisionato" in grado di assicurare le più accurate e robuste previsioni. L'essenza di questo protocollo consiste nello stimare il modello su una parte di dati a disposizione (training s e t - c a m p i o n e d i a p p r e n d i m e n t o ) e successivamente saggiare e, se è opportuno, validare il modello sulla base della rimanente porzione di dati (test set). Un modello è effettivamente costruito quando il ciclo di stima è concluso con la validazione di quest'ultimo.

In un contesto di questo tipo disporre di una tecnologia ricca costituisce l’elemento caratterizzante l’attività di DM: produrre una grande quantità di modelli in modo semplice e rapido, confrontare i risultati da essi prodotti, dare una quantificazione economica della regola costruita, sono gli elementi necessari per la scelta ottimale del modello finale. Potrebbe darsi che nessuno, fra i metodi impiegati, permetta un soddisfacente raggiungimento degli obiettivi di analisi^14 ; in tale caso, si tratterà di "tornare indietro" e specificare una nuova metodologia, più opportuna per l'analisi in oggetto.

Deployment : è la fase finale che prevede l’utilizzo del modello o dei modelli creati e valutati che possono permettere il raggiungimento dei fini desiderati. L'attività di data mining non è semplice analisi dei dati ma integrazione dei risultati nel processo decisionale, che permettono di passare dalla fase di analisi alla produzione di un motore decisionale. Preso atto dei benefici che il data mining può apportare, diventa cruciale, al fine dell'adeguato sfruttamento delle sue potenzialità, riuscire a implementare correttamente il data mining nei processi aziendali. Il progetto di inserimento del data mining nell'organizzazione aziendale deve essere affrontato in modo graduale, ponendosi obiettivi realistici e misurando i risultati lungo il percorso. L’obiettivo finale è il raggiungimento della piena integrazione del data mining con le altre attività di supporto alle decisioni, all'interno delle procedure operative dell'impresa.

Per pianificare, implementare e mettere a punto con successo un progetto di data mining è necessaria una soluzione software integrata che racchiuda tutti i passi del processo analitico partendo dal campionamento dei dati, per passare alle fasi di analisi e modellazione fino alla divulgazione delle risultanti informazioni di business. Inoltre, la soluzione ideale dovrebbe essere sufficientemente user-friendly, intuitiva e flessibile da permettere a utenti con diversi gradi di esperienza in campo statistico di comprenderla e utilizzarla. Le caratteristiche che una soluzione di data mining deve avere sono:  la disponibilità di un vasto repertorio di tecniche di analisi statistica classica e non, insieme a tecniche di reporting avanzate e di facile utilizzo con attività di pre-

(^14) Nella valutazione della performance di uno specifico metodo occorrono, oltre a misure diagnostiche di

tipo statico, la considerazione dei vincoli di business, sia in termini di risorse che di tempo, oltre alla qualità e disponibilità dei dati.

19

Sebbene il processo illustrato nel diagramma sia circolare, non necessariamente ogni passaggio conduce direttamente a quello successivo. La creazione di un modello di data mining è un processo dinamico e iterativo. Dopo avere esplorato i dati, è possibile scoprire che questi dati non sono sufficienti per la creazione di modelli di data mining appropriati e che pertanto è necessario cercarne altri. In alternativa, è possibile compilare diversi modelli e successivamente rendersi conto che tali modelli non consentono di risolvere in modo appropriato il problema definito, il quale deve pertanto essere ridefinito. Potrebbe inoltre essere necessario aggiornare i modelli dopo la loro distribuzione perché nel frattempo sono diventati disponibili altri dati. Potrebbe inoltre essere necessario ripetere molte volte ogni passaggio del processo per creare un modello funzionale.

Definizione del problema

Il primo passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nel definire chiaramente il problema aziendale e nel considerare le diverse modalità per risolverlo.

Tale passaggio include l'analisi dei requisiti aziendali e la definizione dell'ambito del problema, della metrica in base alla quale verrà valutato il modello e degli obiettivi specifici per il progetto di data mining. È necessario trasformare queste attività nelle domande seguenti:

 Quali tipi di dati sono necessari? Quali tipi di relazioni si intende trovare?  Il problema che si sta tentando di risolvere riflette i criteri o i processi aziendali?  Si desidera eseguire stime in base al modello di data mining o soltanto cercare schemi e associazioni interessanti?  Quale attributo del set di dati si desidera stimare?  Come sono correlate le colonne? Se esistono più tabelle, che tipo di relazione esiste tra di esse?  Come sono distribuiti i dati? Si tratta di dati stagionali? I dati rappresentano accuratamente i processi aziendali?

Per rispondere a queste domande, potrebbe essere necessario effettuare uno studio sulla disponibilità dei dati al fine di individuare le esigenze degli utenti aziendali in relazione ai dati disponibili. Se i dati non soddisfano le esigenze degli utenti, potrebbe essere necessario ridefinire il progetto.

Preparazione dei dati

Il secondo passaggio del processo di data mining, illustrato nel diagramma seguente, consiste nel consolidamento e nella pulizia dei dati identificati nel passaggio Definizione del problema.

I dati possono essere sparsi nell'intera azienda e archiviati in formati diversi oppure possono contenere incoerenze quali voci errate o mancanti. I dati potrebbero ad esempio indicare che un cliente ha acquistato un prodotto prima che tale prodotto fosse disponibile sul mercato o che effettua acquisti periodicamente presso un negozio situato a 2.000 chilometri di distanza da casa sua.