Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Big data e sistemi informativi process mining, Appunti di Sistemi Informativi Aziendali

Big data s sistemi informativi process mining

Tipologia: Appunti

2020/2021

Caricato il 19/05/2021

giuliaga96
giuliaga96 🇮🇹

4.7

(3)

8 documenti

1 / 23

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Oggi parliamo di process mining che è anche una tecnica che cercheremo di utilizzare in pratica anche poi
nella seconda parte del corso, quindi stiamo con la dottoressa Presti preparando un database da farvi
analizzare e vi diremo per tempo quale software dovrete scaricare. Il software è chiaramente gratuito,
basta accedere con la vostra e-mail di ateneo e avete capacità di calcolo illimitata e gratuita per cui dovrete
solo fare il download ma non dovrete chiaramente pagar nulla. Quindi pariamo di process mining. Avevamo
già un po’ introdotto il concetto di data mining, l’avevamo definito come una ricerca non strutturata
nell’ambito di dati provenienti da fonti diverse per cercare delle relazioni inusuali o non apparenti tra i dati,
delle relazioni significative. Il process mining fa un po’ la stessa cosa applicata ai processi.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17

Anteprima parziale del testo

Scarica Big data e sistemi informativi process mining e più Appunti in PDF di Sistemi Informativi Aziendali solo su Docsity!

Oggi parliamo di process mining che è anche una tecnica che cercheremo di utilizzare in pratica anche poi nella seconda parte del corso, quindi stiamo con la dottoressa Presti preparando un database da farvi analizzare e vi diremo per tempo quale software dovrete scaricare. Il software è chiaramente gratuito, basta accedere con la vostra e-mail di ateneo e avete capacità di calcolo illimitata e gratuita per cui dovrete solo fare il download ma non dovrete chiaramente pagar nulla. Quindi pariamo di process mining. Avevamo già un po’ introdotto il concetto di data mining, l’avevamo definito come una ricerca non strutturata nell’ambito di dati provenienti da fonti diverse per cercare delle relazioni inusuali o non apparenti tra i dati, delle relazioni significative. Il process mining fa un po’ la stessa cosa applicata ai processi.

Però vorrei un po’ partire dal principio. Cioè, come nasce questa tecnica. Nasce, innanzitutto, grazie a quel fenomeno, di cui tra l’altro abbiamo avuto modo di parlare anche nelle scorse settimane, di digitalizzazione del mondo, di datificazione del mondo. Ovvero quel processo in cui in sostanza il mondo fisico e il mondo digitale si stanno avvicinando progressivamente tra di loro. Quello che avviene nel mondo fisico trova quasi sempre una corrispondenza nell’ambito del mondo digitale. Quindi, il fatto che gli eventi che accadono all’interno della realtà fisica possano trovare una loro corrispondenza nel mondo digitale, quindi trasformarsi in un dato, in formato digitale elaborabile, ha stimolato lo sviluppo di tecniche di analisi di questi dati provenienti da quello che vedete definito nella slide come internet degli eventi , che è proprio l’anello di congiunzione tra il mondo fisico e il mondo digitale. Vedremo nella prossima slide che l’Internet degli eventi si compone di dati provenienti chiaramente da fonti diverse e in formati diversi. Per avere una percezione immediata di cosa vuol dire internet degli eventi, pensate a tutte le volte che prenotate per esempio un biglietto aereo, un biglietto del treno, un biglietto per un concerto, qualsiasi cosa. Che fate una prenotazione online. Ecco, la rete in quel momento vi sta mettendo in contatto con tutta una serie di attori. Pensiamo al biglietto aereo: voi in questo caso interagirete con la compagnia aerea, quindi avrete il motore di ricerca in cui appunto andate a scegliere il volo che volete acquistare, questo motore di ricerca vi mette in contatto con la compagnia aerea, con eventualmente il provider dei servizi di viaggio, con la banca perché quando andate a inserire i dati della vostra carta di credito per pagare si genera un collegamento con la vostra banca e così via. E tutti questi contatti in realtà risultano da un elemento abbastanza banale se vogliamo che è il vostro biglietto elettronico che è caratterizzato da un codice e quel codice rappresenta proprio il momento di congiunzione tra la realtà, quindi il fatto che voi avete una prenotazione, avete richiesto una prenotazione su un volo e il mondo digitale. Quindi, tutti i sistemi informativi di tutte le organizzazioni con cui siete entrati in contatto in quel momento. Sempre per fare un esempio di cosa vuol dire lavorare con l’internet degli eventi, avete visto alcuni esempi di SAP, del sistema informativo integrato con SAP. Bene, se nel modulo di gestione del magazzino di SAP per un errore di immissione, per qualche motivo, risulta che un prodotto non è più in giacenza, anche se quel prodotto è fisicamente presente in magazzino, l’operatore non riuscirà a emettere una bolla di uscita per quel bene perché c’è un disallineamento tra il dato fisico e il dato digitale. Quindi, questo per darci un’idea di quanto questi due mondi si stiano allineando, quindi di quanti contatti si generano tra noi e i sistemi informativi di organizzazioni di vario genere, compiendo eventi abbastanza banali nell’arco di una giornata e, dall’altro punto di vista, l’altro esempio che cosa ci dimostra? Ci dimostra che dobbiamo prestare particolare attenzione ai momenti di contatto, appunto, tra il mondo digitale e il mondo fisico perché gestire questi contatti ci consente di avere basi di dati più affidabili (se la guardiamo dal punto di vista aziendale) e ci consente di sfruttare al meglio le potenzialità della tecnologia.

che fa un prodotto munito di una targhetta RFID. Quindi, vedete che non esiste un modo per generare i dati in una e sola categoria, cioè nel senso è improbabile che la tecnologia digitale sia riferita a una sola di queste categorie, generalmente ci sono appunto delle sovrapposizioni. E come vedremo tra poco il process mining ha proprio l’obiettivo di sfruttare tutti questi dati che emergono dall’internet degli eventi per fornire informazioni significative, quindi che abbiano una rilevanza nel supportare una serie di processi decisionali, in relazione, nello specifico, ai processi aziendali, alla definizione, allo svolgimento e al monitoraggio dei processi aziendali. Quindi, stiamo utilizzando le possibilità della rete e della tecnologia digitale per migliorare le modalità di gestione dei processi aziendali. E se dobbiamo vedere il process mining nell’ambito delle tecnologie digitali, lo possiamo interpretare come il momento di congiunzione tra due forme diverse ma complementari di scienza. Ovvero, la data science e la process science. Vedete, questa è un’immagine presa dal libro di uno degli autori più famosi e più attivi nel campo del process mining che è Van Der Aalst , che appunto ci dà quest’immagine anche grafica dove il process mining è collocato al centro come forma di interazione tra data science e process science. Dove la data science è quella scienza interdisciplinare che si propone di immagazzinare, trasformare, preparare ed elaborare dati per estrarre da loro un valore attraverso diverse tecniche, diversi strumenti. Tra cui rientrano anche i data analytics di cui abbiamo parlato le volte scorse. Quindi, cosa fa la data science? Sfrutta una serie di tecniche di raccolta, elaborazione, trasformazione e visualizzazione dei dati che si fondano su tecniche matematico-statistiche ma che vanno oltre la statistica perché che cosa facciamo? Andiamo a raccogliere, trasformare ed elaborare dati al fine di supportare vari processi decisionali. Quindi, nel contorno della data science vedete alcuni esempi degli strumenti che fanno parte della data science: il data mining, il machine learning, il predictive analytics, la statistica e così via. Abbiamo tutta una serie di tecniche. Mentre la process science è invece la scienza applicata ai processi. Stiamo prescindendo da particolari tipologie di tecniche matematico-statistiche ma parliamo di scienza dei processi in ottica aziendale, quindi andiamo a combinare le potenzialità dell’IT (information technology) con tutte le competenze e conoscenze di carattere manageriale sui processi aziendali. Per cui di cosa parliamo? Parliamo di ottimizzazione dei

processi, parliamo di gestione dei processi aziendali, parliamo di automazione dei processi, miglioramento dei processi e così via. Quindi nel process mining cosa succede? Andiamo ad integrare le tecniche avanzate di raccolta, elaborazione e analisi dei dati con le competenze manageriali in relazione alla gestione dei processi aziendali. È chiaro che data science e process science da sole manifestano dei limiti. Il process mining nasce come uno dei modi per superare alcuni dei limiti manifestati da questi due ambiti diversi nel supportare la gestione aziendale. Perché? Perché se noi utilizziamo in maniera esclusiva ed isolata le tecniche di data science, quindi di scienza dei dati, potremmo in realtà andare a elaborare informazioni, e quindi assumere decisioni sulla base di queste informazioni, che però non hanno una visione gestionale operativa della realtà aziendale. Quindi possiamo farci guidare dai dati nelle nostre decisioni perdendo però di vista quella che è la natura operativa della nostra azienda, di cosa accade poi veramente nella quotidianità. Dall’altra parte, se invece adottiamo un approccio esclusivamente basato sulla scienza dei processi, e quindi tutta una logica decisionale che si basa sui modelli di processo, sulla modellizzazione dei processi, rischiamo di dare un’importanza eccessiva al modello di processo e considerarlo come unica guida nella gestione dell’azienda, quando in realtà dovremmo tener conto anche di tutti quei dati, tutte quelle informazioni che emergono dalla realtà e non basarci solo su una visione manageriale dei modelli di processo, altrimenti corriamo il rischio che il modello di processo venga visto come l’unico modo per condurre la nostra attività aziendale in maniera efficace ed efficiente, senza però riuscire a sfruttare la tecnologia dell’informazione per avere riscontri reali su quanto avviene effettivamente nello svolgimento dei processi aziendali. Quindi il process mining fa proprio questo, permette di combinare le analisi basate sui modelli di processo, quindi la process science, con tecniche di analisi, invece, datacentriche, quindi con la data science. In questo senso il process mining ci permette di fare che cosa? Ci permette di andare a utilizzare i dati che emergono dalla realtà dello svolgimento delle attività aziendali, di elaborarli tramite tecniche di data science e interpretarli nell’ambito della scienza dei processi. Quindi, integra le potenzialità di entrambi cercando di superarne i limiti. Quindi, si parte da un modello di processo, questo modello viene confrontato con i dati che emergono dalla realtà e che vengono raccolti ed elaborati tramite la data science e da questo confronto emergono quelle informazioni utili a supportare i processi decisionali nella gestione e nell’ottimizzazione dei processi aziendali.

Vediamo come si può creare un modello di processo. Ora, prescindiamo dalla data science e cerchiamo di farlo in maniera anche un po’ grezza, quindi cerchiamo di capire come possiamo rappresentare un processo. Allora, quello che vedete piccolissimo, poi dovrete aver modo di rivedervelo un attimo con calma con la slide sottomano perché io faccio fatica a leggerlo, ho dovuto stampare la slide, è un esempio di processo di gestione delle richieste di risarcimento da parte di una compagnia aerea. Voi dalle lezioni che avete fatto anche nelle settimane precedenti sulla gestione dei processi tramite il sistema informativo, avete ormai chiaro il fatto che un processo altro non è che una sequenza di attività. Ciascun processo di qualunque tipo lo possiamo interpretare come una sequenza ordinata di attività. Quella che vedete in figura è sostanzialmente una tecnica di rappresentazione dei processi che si chiama rete di Petri , non vi preoccupate di prendere tantissimi appunti, se volete scrivervi qualcosa assolutamente sì ma tutto quello che ci diciamo oggi io ve l’ho messo in una dispensa che vi rendo poi disponibile su e-learning a fine lezione, ritroverete le stesse immagini con tutta la spiegazione di quello che c’è sotto, tutto quello che ci diremo io ve l’ho messo bene in una dispensa, grazie dell’applauso perché mi rendo conto che nel libro la parte sul process mining non c’è perché si ferma ai sistemi integrati, il libro di Van Der Aalst che inizialmente avevamo consigliato per i non frequentanti l’hanno tolto dalla disponibilità della biblioteca, avreste dovuto acquistarlo per vederlo, e quindi a questo punto ho combinato varie fonti informative per farvi una dispensa, sono poche pagine, una trentina ma sono tutte figure quindi tranquilli. Dicevo, questo è un esempio di gestione dei risarcimenti da parte di una compagnia aerea. La tecnica utilizzata per la rappresentazione di questo processo si chiama rete di Petri. Vedete che tutti i quadratini che voi vedete sono le attività che vengono svolte nell’ambito della gestione delle richieste di risarcimento. Quindi, come attività abbiamo: registrazione della richiesta, esame approfondito della richiesta, esame veloce della richiesta (examine casually), controllo del ticket cioè della richiesta. Poi abbiamo, in mezzo, il quadratino decisione, sotto troviamo riiniziare la richiesta, quindi far ripartire la richiesta, e poi le ultime due attività sono: pagare il risarcimento oppure rigettare la richiesta. Come funziona la rete di Petri? Ciascun quadrato, vi dicevo, rappresenta un’attività o transizione. Lo svolgimento delle transizioni, queste transizioni sono collegate, vedete, da quei cerchietti che vengono denominati posizioni. Perché si chiamano posizioni? Perché a seconda di dove troviamo il pallino nero nei cerchi ci dà un’idea dello stato del processo in cui ci troviamo. Per esempio, nella figura nell’immagine di

sinistra noi vediamo che il pallino nero è in posizione start , quindi, vuol dire che, al momento, il nostro processo si trova nello stato iniziale. Quindi, siamo al momento prima di registrare una richiesta di risarcimento. Una determinata attività, quindi un quadratino, può essere abilitato, quindi possiamo procedere con lo svolgimento dell’attività successiva, se tutte le posizioni di input, cioè se tutti i cerchietti che precedono quella determinata attività hanno il pallino nero, che si chiama token. Quindi, nello stato in cui il processo si trova nella figura di sinistra, io capisco che l’unica attività che posso svolgere nell’ambito di questo processo è registrare una richiesta di risarcimento. Ok? E lo posso fare perché tutte le posizioni di input di questa attività, ovvero l’unico cerchietto che si trova prima di quest’attività, ha un token , quindi un pallino nero, al suo interno. Quindi, l’attività può essere svolta. Quando io svolgo l’attività di registrazione della richiesta di risarcimento, una volta che ho completato quest’attività, vado ad alimentare le successive posizioni di input per le altre attività, quindi vedete che l’attività “registrazione della richiesta” ha una posizione di input e ha due posizioni di output, c1 e c2. Quando io registro la richiesta all’interno del mio sistema alimento due posizioni di output, c1 e c2. A questo punto, il fatto di aver registrato la richiesta di risarcimento mi va ad abilitare le attività successive, ovvero esame approfondito, esame superficiale e controllo del biglietto aereo. Domanda studentessa: start è il mio input e poi dopo c1 e c2 è l’output? Prof: esattamente. Start è l’input di registrazione della richiesta. L’attività “registrazione della richiesta” ha due output, c1 e c2, dove c1 e c2 rappresentano a loro volta l’input delle attività successive: esame approfondito, esame superficiale e controllo del biglietto. Cosa vediamo ora? L’esempio di processo c’è nella dispensa, non v’ho fatto tutto il ciclo nella slide. Domanda studente: perché in questo caso ci sono due output? Prof: perché abbiamo diverse possibilità di azione dopo aver registrato la richiesta. Studente: eh però quello che non capisco è se devono essere le due con il pallino nero, in ogni caso hai più soluzioni ma comunque le devi far tutte… Prof: non tutte , infatti adesso ci arrivo. C1 e c2 sono input di altre attività. Da qui cosa vediamo? Che c abilita due attività alternative , quindi possiamo o esaminare approfonditamente o esaminare in modo superficiale la richiesta. C2 abilita necessariamente la verifica del biglietto, quindi, alla registrazione della richiesta devono seguire necessariamente due attività in parallelo, di cui una sicuramente è il controllo del biglietto e l’altra è o l’esame approfondito o l’esame superficiale. Ho chiarito il dubbio? Studente: sisi, poi guardando dopo comunque c3 lo dovresti fare per forza. Prof: esattamente. Tant’è che esame approfondito ed esame superficiale, ora sulla dispensa trovate “esaminare in modo informale”, questo perché dovendolo tradurre dall’inglese superficiale mi è venuto solo adesso a lezione, ai tempi in cui l’ho tradotto non mi era venuto in mente “superficiale” e quindi c’è scritto esaminare in modo informale, non vado a cambiare la dispensa però tenetelo a mente che a volte per velocità di traduzione magari non è scritto in italianissimo però almeno non ve l’ho fatta in inglese la dispensa. Dicevo, le due attività “esame approfondito” ed “esame superficiale” sono alternative , tant’è che hanno una sola posizione di output, che è quella di c3. Ok? Qual è la particolarità dell’attività decisione? Che in questo caso ha due posizioni di input. Quindi, per poter assumere una decisione l’utente dovrà aver svolto un esame, che sia approfondito o superficiale secondo le linee guida chiaramente, non è una scelta discrezionale, ci sarà un criterio ma il modello di processo non è che mi può descrivere il criterio secondo cui scelgo tra l’una e l’altra, ok? Questa è un’analisi a un livello di profondità diverso rispetto a quella che è la modellizzazione del processo. Però, per poter assumere una decisione l’utente dovrà aver prima fatto un

Vediamo quindi, una volta che abbiamo un po’ inquadrato cosa si intende per modelli di processo che è appunto, abbiamo detto, la base fondamentale per la process science, vediamo a questo punto come si colloca il process mining nell’ambito della gestione dei processi aziendali. Quindi, andiamo a configurare il process mining all’interno del business process management. Tutto questo ciclo, che è il cosiddetto ciclo di vita del business process management (anche questo trovate in dispensa) parte dall’attività che vedete tutta a destra, cioè dall’attività di design , o progettazione del processo, dove, sostanzialmente, cosa facciamo? Ora, prescindiamo dal process mining, ma nella fase di design che cosa stiamo andando a fare? Stiamo andando a progettare il nostro processo, cioè a definire la sequenza di attività che devono essere svolte affinché un processo venga completato. Quindi, questa è la prima parte del processo ed è un po’ come abbiamo visto nel database: andiamo a progettare logicamente il nostro database. Cerchiamo di definire nel database i dati e le relazioni tra i dati. Quando andiamo a progettare un processo definiamo le attività che dobbiamo svolgere e i collegamenti tra le diverse attività. Poi il progetto può essere arricchito in vario modo. Possiamo definire le persone che si devono occupare di ciascuna attività, possiamo andare a definire i documenti che devono essere che devono essere elaborati per ciascuna di queste attività e così via. Però intanto lo mettiamo “su carta”. Poi attiviamo la seconda fase. Scendiamo e andiamo alla fase di implementazione del nostro processo, cioè trasformiamo il nostro progetto in un sistema funzionante. Poi che succede? Che dobbiamo andare a farlo funzionare. Cioè andiamo a svolgere questo processo concretamente, quindi siamo nella fase di enactment. Ma in parallelo cosa avviene? Avviene la fase di monitoraggio del processo: mentre svolgiamo le nostre attività andiamo a verificare che tutto si sta svolgendo secondo il progetto e la specifica configurazione che abbiamo dato al nostro processo e, che cosa può succedere? Qui si attivano due possibili percorsi : se lo svolgimento non è allineato al progetto di processo possiamo procedere con progressivi aggiustamenti del modo di fare, del modo di svolgere le varie attività. Oppure posso andare a fare un’attività di diagnosi su quello che non va nel funzionamento del mio processo, cioè posso andare a misurare gli scostamenti tra il mio progetto di processo e il suo effettivo svolgimento. Per fare che cosa? Non per migliorare lo svolgimento, che è l’adjustment che vediamo a sinistra. Ma per rivedere il progetto. Quindi, il business process management, è vero che si basa sui modelli di processo, ma il processo non deve essere una gabbia, non deve essere una verità assoluta che dobbiamo seguire. Sviluppiamo i progetti, li mettiamo in atto, ottimizziamo il funzionamento del processo tra i vari aggiustamenti, ma in presenza di scostamenti di vario genere posso andare a rivedere il progetto stesso.

Quindi, aggiusto, non più il modo di fare, ma aggiusto il progetto per allinearlo alle mie esigenze operative. Pensate a un progetto di processo che stabilisce in maniera rigida le tempistiche con cui devono essere svolte determinate attività. Ora, nella fase di enactment io posso fare degli aggiustamenti per cercare di avvicinarmi il più possibile alle tempistiche dettate dalla configurazione di processo, dal modello di processo che ho elaborato. Ma può anche darsi che le condizioni di operatività normale della mia azienda non mi consentano di raggiungere quegli obiettivi in termini di tempistiche. E quindi sarà necessario, non tanto ottimizzare il mio modo di fare le cose, ma andare a rivedere il progetto e prevedere dei tempi più coerenti con quella che è la realtà delle cose. Se io stabilisco delle tempistiche rispetto alle normali condizioni di funzionamento dei macchinari, arriverò a un certo limite di capacità produttiva, a un certo punto, più che andare a intervenire. E così avviene nell’ambito dei processi gestionali. Che tra le attività in mezzo e la decisione devono trascorrere al massimo due giorni non rende possibile, nella maggior parte dei casi, svolgere delle attività nei tempi immaginati, è chiaro che o rivedo il mio modello di processo, cercando di adattarmi di più alle mie esigenze. Ok? Pensate al processo di produzione, no? Se io stabilisco delle tempistiche di svolgimento delle varie attività di produzione che sono irrealistiche rispetto a quelle che sono le normali condizioni di funzionamento dei macchinari, io posso intervenire sui macchinari quanto voglio, arriverò a un certo limite di velocità produttiva. A un certo punto dovrò rivedere le tempistiche stabilite nel mio ciclo di lavorazione, più che andare a intervenire sull’attività, sul modo di svolgerla. E così avviene nell’ambito dei processi gestionali. Se nel mio modello di processo io ho stabilito che dalla registrazione della richiesta al check del ticket, o meglio, che tra le attività in mezzo e la decisione devono trascorrere al massimo due giorni, e poi mi rendo conto che concretamente la mole di richieste di risarcimento da esaminare non rende possibile, nella maggior parte dei casi, di svolgere le attività nei tempi immaginati, è chiaro che o incremento le risorse incaricate dello svolgimento di queste attività o rivedo il mio modello di processo, cercando di adattarmi di più alle mie esigenze concrete. Dove lo troviamo il process mining? Il process mining lo troviamo esattamente al centro del ciclo del BPM. Perché? Perché mi consente di elaborare i dati, che io prendo dall’effettivo svolgimento dei miei processi, quindi prendo dati reali, generati dallo svolgimento delle attività nell’ambito dei miei processi gestionali e immagazzinati nelle varie fonti a disposizione dell’azienda, primo fra tutti il sistema gestionale. Li confronto con i modelli di processo che ho preso dalla progettazione e cerco di stimolare lo svolgimento del mio ciclo, basandomi su dati, non solo una quantità di dati maggiore, che quindi mi consente di svolgere delle analisi più approfondite, ma anche più accurati e soprattutto tracciabili all’interno delle mie fonti di dati. Quindi, il process mining interviene lungo tutto il ciclo di vita perché andando a elaborare dati provenienti dal concreto funzionamento che cosa mi consente di fare? Mi consente di migliorare la mia analisi diagnostica, fornendomi suggerimenti, fornendomi misure di performance e poi, nel confronto con i modelli mi consente di effettuare attività di verifica, di monitoraggio, di andare ad esplorare quello che succede dentro i miei processi, quindi di spacchettare, di avere anche delle visualizzazioni dinamiche dei miei modelli di processo e del loro concreto funzionamento.

L’ultima attività, vedete c’è una freccia un po’ strana, che è quella di miglioramento , dove torniamo (va alla slide precedente del process mining nell’ambito del BPM), tornando all’esempio di prima del ciclo del Business Process Management, l’enouncement lo abbiamo nell’ambito del concreto funzionamento e nell’ambito della riprogettazione dei processi. Cioè cerco di sfruttare i dati reali per migliorare o lo svolgimento, quindi migliorare i dati consuntivi andando a misurare la performance, quindi poi agendo sulle attività, oppure andando a migliorare il mio processo per renderlo maggiormente aderente alla realtà della mia azienda. Per cui queste sono, poi chiaramente le vedremo singolarmente nel dettaglio le diverse tecniche però insomma era per farvi capire che il process mining è un’attività che mi consente di realizzare tre attività principali, poi vedremo il caso di ciascuno. Per concludere la parte introduttiva sul process mining, anche qui grazie a Van der Aalst che ci fornisce le immagini, vi ho portato un esempio di workflow del process mining. Che vuol dire? Cioè quali sono tutte le varie attività o tutti i vari step per poter efficacemente implementare delle tecniche di process mining. Vedete che il process mining è qui sulla destra della figura in basso ma se vedete, in realtà, tante delle componenti di questo workflow sono cose a noi ben note. Perché? Perché innanzitutto partiamo dal nostro data warehouse. Quindi vedete che abbiamo una serie di fonti di dati che, sulla base di tecniche di estrazione, trasformazione e caricamento ( ETL ), vengono caricati all’interno del data warehouse, che viene definito come opzionale eh però chiaramente il data warehouse è uno strumento particolarmente utile soprattutto per immagazzinare i risultati delle analisi per poi permettere la stratificazione della conoscenza. Questi dati immagazzinati all’interno del data warehouse vengono a loro volta elaborati per, tramite una serie di operazioni di pulizia, filtraggio ecc, andare a creare i cosiddetti event log, che è il primo cilindro a sinistra in basso. Questi event log vengono poi analizzati tramite tecniche di process mining con finalità di elaborazione di modelli di processo, con finalità di conformance checking, quindi di confronto con i modelli di processo, e con finalità di ennouncement che vedete poi le frecce partono e vanno o a migliorare i processi o a fornire risposte nel senso di misure della performance e analisi diagnostiche sul funzionamento dei processi.

Questo è il software che useremo, si chiama Disco. Ora qui vediamo solo le mappe del processo però vedete questo software ha un’altra modalità di rappresentazione dei processi, no? Ci dà questa rappresentazione grafica come sequenza di attività dove abbiamo il punto start, i vari collegamenti tra le attività e chiaramente il segnale di stop.

Che cosa sono gli event log? Ovvero il requisito essenziale per poter fare process mining, per poter applicare strumenti di process mining. Event log abbiamo detto traduzione di registro degli eventi. Si tratta di basi di dati contenute in qualsiasi tipi di file, cioè basi di dati, è scritto malissimo, che possono essere estratte da fonti diverse, che contengono una varietà di informazioni sull’esecuzione di un’attività, ossia sulla manifestazione di un evento. Perché possono essere contenute in qualsiasi tipo di file, nel senso che da fonti diverse? Perché nell’ambito della gestione di un ciclo, le interazioni che l’utente ha con il software possono interessare anche moduli diversi ma fa riferimento sempre ad una unica sequenza di attività, ok? Quando vado a emettere la bolla di fattura della merce o la fattura accompagnatoria sto andando a interrogare diversi moduli nel mio software gestionale: quello della gestione delle scorte, il modulo per l’elaborazione dei documenti di trasporto, il modulo per la fatturazione. Quindi una sequenza di attività che appartiene allo stesso processo ha generato dati in fonti diverse. Ok? Oppure, quando lo svolgimento di un’attività prevede anche il collegamento con utenti all’esterno dell’impresa. Quella è un’attività svolta nell’ambito di un processo interno che però ha generato dati anche su fonti esterne. E in genere quali sono le informazioni che troviamo all’interno dell’event log? Voi vi dovete immaginare, anzi lo vedrete proprio fatto così, l’event log come una tabella, come un archivio, solo che è un archivio di eventi, anziché un archivio semplicemente di dati. Il fenomeno rappresentato in questo caso sono le istanze di processo. Quindi, in qualità di archivio, ogni evento presenta un case-ID, quindi un codice, una chiave che identifica univocamente ciascun record all’interno dell’event log, dove il caso, se vi ricordate da prima quando guardavamo il modellino, il caso è la specifica sequenza di attività svolta per completare un determinato processo tra le varie alternative possibili (registrazione richiesta, esame approfondito, controllo del biglietto, decisione e risarcimento). Quello è un caso composto da N attività ma il caso ha un unico codice identificativo. Nell’ambito di ciascun caso vengono svolte una serie di attività, ognuna delle quali chiaramente avrà un proprio nome, una propria descrizione. E un altro elemento importantissimo che troviamo all’interno dei registri degli eventi sono i timestamp. Domanda studentessa: non ho capito scusi. Lei ha detto che l’identificativo identifica il caso quindi quando l’abbiamo visto abbiamo visto tutta la combinazione possibile dei percorsi che vanno dallo start all’end. E le singole attività quindi è questa combinazione o è il controllo superficiale?

Prof: no, l’attività è attività 1: registrazione richiesta; attività 2: controllo superficiale; attività 3: controllo del biglietto. Quindi, allo stesso case-id corrispondono poi tante righe quante sono le attività svolte. Ora ve la faccio vedere la rappresentazione grafica. Vedete il caso è l’istanza di processo. Vedete che il case ID 1, 2, 3, ogni case ID è associato a una serie di event ID. il singolo caso, la combinazione specifica, la sequenza specifica di attività svolta nell’ambito dello stesso processo è rappresentata da una sequenza di eventi o attività che sono a loro volta identificate tramite un codice univoco. Dopo di che, ogni evento avrà una serie di attributi, tra cui il più importante necessario per lo svolgimento di attività di process mining è il timestamp , ovvero il marcatore temporale. Per ciascun evento, quindi per ciascuna attività svolta nell’ambito di una istanza di processo è necessario andare a registrare la data e l’ora in cui sono avvenuti, altrimenti sarebbe impossibile stabilire la sequenza di attività seguita nella realtà e quindi non si potrebbero fare analisi di nessun genere, come le ordino io le varie attività? ok? Questo tanto è lo stesso processo, è sempre la stessa richiesta di risarcimento. Vedete che appunto io ho registrato una serie di attività tra quelle che appunto abbiamo visto, non solo ho registrato la data e ora in cui sono avvenute, ma ho registrato anche chi ha svolto quella specifica attività e il costo associato allo svolgimento di quella specifica attività. Quindi un ulteriore attributo dell’evento. Domanda studentessa: ma quindi, dato che leggo sotto timestamp che ci sono degli orari diversi, ma vanno poi messi in un ordine cronologico o…? Prof: Lo fa il software da solo. Ora non vi volevo anticipare. Ora vi faccio un esempio. Chiaramente prendetelo con le pinze nel senso che poi su questo database ci dobbiamo un po’ lavorare quindi ora vi riapro il software con uno dei possibili event log che possiamo utilizzare per le nostre analisi.

Poi ho definito cosa devo andare a considerare come il nome delle attività. Ho identificato l’attributo da considerare come risorse. Eccolo qui, qui ho il timestamp (colonna azzurra immagine qui sotto). Vado a identificare questa colonna come timestamp. Il software mi fa una verifica. Se la colonna che io ho selezionato rispetta i requisiti di formato previsti per i timestamp che sono diversi possibili. In questo caso la colonna che ho rispetta questo tipo di formato. Quindi uso questa colonna come timestamp e a quel punto io potrò poi importare il mio log all’interno del mio software e le analisi verranno fatte considerando queste colonne che ho appena selezionato (inizia a selezionare tutte le colonne) come elementi di base per lo svolgimento delle analisi.

Quindi questi sono gli elementi imprescindibili per poter fare un’analisi con un software di process mining. E chiaramente, quando parliamo di event log nella slide (sopra) vi ho un po’ riassunto quelle che sono le assunzioni di base perché un determinato registro eventi possa essere considerato tale nell’ambito del process mining. Innanzitutto, un processo deve consistere in una serie di istanze di processo o casi. Quindi, un processo per essere elaborato nell’ambito di un software di process mining deve prevedere diverse istanze di processo. Ciascun caso o istanza si compone di un certo numero di eventi o attività riferiti univocamente ad uno ed un solo caso. Quindi, ciascun’attività svolta nell’ambito di quell’istanza di processo ci deve essere una corrispondenza biunivoca. Non ci può essere un’attività che corrisponde a due diverse istanze di processo. Gli eventi devono essere ordinati in base al momento in cui sono stati svolti, quindi devono essere ordinati cronologicamente e sono caratterizzati da attributi che riguardano la tipologia di attività, il tempo impiegato, i costi, le risorse coinvolte e altri attributi di nostro interesse: l’area geografica di riferimento, il cliente di riferimento, quindi possiamo poi arricchire le nostre analisi con tutta un’altra serie di variabili.