Data Warehouse e Modelli multidimensionali | Appunti di Sistemi Digitali

DW & MODELLI MULTIDIMENSIONALI

CONCETTO DI DATA WAREHOUSE & DIFFERENZE CON I DATABASE

Nel capitolo precedente si è parlato approfonditamente dell’architettura dell’ambiente di BI. Non si

specificato, però, quale sia il cuore di tale architettura, ossia il DATA WAREHOUSING (DW).

Tale fenomeno nasce dall’enorme accumulo di dati registrato nell’ultimo decennio, e dalla

pressante richiesta di utilizzare attivamente questi dati per scopi che superino quelli, di routine, legati

all’elaborazione giornaliera. Il data warehousing può infatti essere definito come una collezione di

metodi, tecnologie e strumenti di ausilio al cosiddetto “lavoratore della conoscenza” (knowledge

worker: dirigente, amministratore, gestore, analista, …) per condurre analisi dei dati finalizzate

all’attuazione di processi decisionali e al miglioramento del patrimonio informativo dell’azienda.

Ancora oggi, purtroppo, è frequente sentire all’interno delle imprese frasi come queste:

1. “Abbiamo montagne di dati ma non possiamo accedervi!”

2. “Come è possibile che persone che svolgono lo stesso ruolo presentino risultati

sostanzialmente diversi?”

3. “Vogliamo selezionare, raggruppare e manipolare i dati in ogni modo possibile!”

4. “Mostratemi solo ciò che è importante!”

5. “Tutti sanno che alcuni dati non sono corretti!”

Si intuisce, quindi, come molte aziende non hanno dati perché non sanno come raccoglierli, oppure

ne hanno troppi o parziali, oppure ancora ne hanno in una giusta quantità, ma non sanno gestirli

(nel senso che non sanno quali siano di valore o non hanno i sistemi giusti per analizzarli e sintetizzarli).

Da questi problemi possiamo facilmente estrarre un elenco di REQUISITI DEL DATA WAREHOUSING

(che possiamo definire anche come le SFIDE a cui il DW è chiamato a rispondere) affinché sia di

effettivo ausilio ai decisori aziendali:

1. ACCESSIBILITÀ a utenti con conoscenze limitate di informatica e strutture dati:

2. INTEGRAZIONE dei dati sulla base di un modello standard dell’impresa;

3. FLESSIBILITÀ DI INTERROGAZIONE di interrogazione per trarre il massimo vantaggio dal

patrimonio informativo esistente;

4. SINTESI per permettere analisi mirate ed efficaci;

5. RAPPRESENTAZIONE MULTIDIMENSIONALE DEI DATI per offrire all’utente una visione intuitiva ed

efficacemente manipolabile delle informazioni;

6. CORRETTEZZA & COMPLETEZZA dei dati integrati.

Al centro del processo, il Data Warehouse è un contenitore di dati che diventa garante dei requisiti

sopra esposti. In altre parole, si può dire che un Data Warehouse (DW – DWH) è una collezione di

dati di supporto per il processo decisionale che presenta le seguenti CARATTERISTICHE:

1. ORIENTAMENTO AL SOGGETTO: il database relazionale è legato alla transazione (es.

pagamento delle imposte, …), mentre il data warehouse al soggetto (es. fornitore, cliente,

dipendente, …);

2. INTEGRAZIONE & CONSISTENZA: utilizza più fonti di dati tra loro eterogenee e si impegna a

dare una risposta unificata (risposta sintetica al fine di prendere una decisione);

3. RAPPRESENTATIVITÀ DELL’EVOLUZIONE TEMPORALE: si effettuano aggiornamenti continui e

costanti per mantenerlo sempre “sul pezzo”.

Da queste caratteristiche ne consegue che la costruzione di un DW non comporta l’inserimento di

nuove informazioni, bensì la riorganizzazione di quelle esistenti, e implica pertanto l’esistenza di un

sistema informativo. Quindi, mentre i dati operazionali coprono un arco temporale di solito piuttosto

limitato (poiché la maggior parte delle transazioni coinvolge i dati più recenti), il DW deve

permettere analisi che spazino sulla prospettiva anche di anni: ecco perché il DW è aggiornato a

intervalli regolari a partire dai dati operazionali ed è in crescita continua. In linea di principio, quindi,

i dati non vengono mai eliminati dal DW, per cui si potrebbe considerare quest’ultimo come un

“database a sola lettura”. Si possono quindi così riassumere le principali DIFFERENZE TRA DATA

WAREHOUSING & DATABASE OPERAZIONALI:

Anteprima parziale del testo

Scarica Data Warehouse e Modelli multidimensionali e più Appunti in PDF di Sistemi Digitali solo su Docsity!

DW & MODELLI MULTIDIMENSIONALI

CONCETTO DI DATA WAREHOUSE & DIFFERENZE CON I DATABASE

Nel capitolo precedente si è parlato approfonditamente dell’ architettura dell’ambiente di BI. Non si specificato, però, quale sia il cuore di tale architettura , ossia il DATA WAREHOUSING (DW). Tale fenomeno nasce dall’enorme accumulo di dati registrato nell’ultimo decennio, e dalla pressante richiesta di utilizzare attivamente questi dati per scopi che superino quelli, di routine, legati all’elaborazione giornaliera. Il data warehousing può infatti essere definito come una collezione di metodi, tecnologie e strumenti di ausilio al cosiddetto “lavoratore della conoscenza” (knowledge worker : dirigente, amministratore, gestore, analista , …) per condurre analisi dei dati finalizzate all’attuazione di processi decisionali e al miglioramento del patrimonio informativo dell’azienda. Ancora oggi, purtroppo, è frequente sentire all’interno delle imprese frasi come queste:

“Abbiamo montagne di dati ma non possiamo accedervi!”
“Come è possibile che persone che svolgono lo stesso ruolo presentino risultati sostanzialmente diversi?”
“Vogliamo selezionare, raggruppare e manipolare i dati in ogni modo possibile!”
“Mostratemi solo ciò che è importante!”
“Tutti sanno che alcuni dati non sono corretti!” Si intuisce, quindi, come molte aziende non hanno dati perché non sanno come raccoglierli, oppure ne hanno troppi o parziali, oppure ancora ne hanno in una giusta quantità, ma non sanno gestirli (nel senso che non sanno quali siano di valore o non hanno i sistemi giusti per analizzarli e sintetizzarli). Da questi problemi possiamo facilmente estrarre un elenco di REQUISITI DEL DATA WAREHOUSING (che possiamo definire anche come le SFIDE a cui il DW è chiamato a rispondere ) affinché sia di effettivo ausilio ai decisori aziendali:
ACCESSIBILITÀ a utenti con conoscenze limitate di informatica e strutture dati:
INTEGRAZIONE dei dati sulla base di un modello standard dell’impresa;
FLESSIBILITÀ DI INTERROGAZIONE di interrogazione per trarre il massimo vantaggio dal patrimonio informativo esistente;
SINTESI per permettere analisi mirate ed efficaci;
RAPPRESENTAZIONE MULTIDIMENSIONALE DEI DATI per offrire all’utente una visione intuitiva ed efficacemente manipolabile delle informazioni;
CORRETTEZZA & COMPLETEZZA dei dati integrati. Al centro del processo, il Data Warehouse è un contenitore di dati che diventa garante dei requisiti sopra esposti. In altre parole, si può dire che un Data Warehouse (DW – DWH) è una collezione di dati di supporto per il processo decisionale che presenta le seguenti CARATTERISTICHE :

1. ORIENTAMENTO AL SOGGETTO: il database relazionale è legato alla transazione (es.

pagamento delle imposte, …) , mentre il data warehouse al soggetto (es. fornitore, cliente, dipendente, …) ;

2. INTEGRAZIONE & CONSISTENZA: utilizza più fonti di dati tra loro eterogenee e si impegna a

dare una risposta unificata (risposta sintetica al fine di prendere una decisione);

3. RAPPRESENTATIVITÀ DELL’EVOLUZIONE TEMPORALE: si effettuano aggiornamenti continui e

costanti per mantenerlo sempre “sul pezzo”. Da queste caratteristiche ne consegue che la costruzione di un DW non comporta l’inserimento di nuove informazioni, bensì la riorganizzazione di quelle esistenti , e implica pertanto l’esistenza di un sistema informativo. Quindi, mentre i dati operazionali coprono un arco temporale di solito piuttosto limitato (poiché la maggior parte delle transazioni coinvolge i dati più recenti), il DW deve permettere analisi che spazino sulla prospettiva anche di anni : ecco perché il DW è aggiornato a intervalli regolari a partire dai dati operazionali ed è in crescita continua. In linea di principio, quindi, i dati non vengono mai eliminati dal DW, per cui si potrebbe considerare quest’ultimo come un “database a sola lettura”. Si possono quindi così riassumere le principali DIFFERENZE TRA DATA WAREHOUSING & DATABASE OPERAZIONALI :

DATABASE OPERAZIONALE/TRANSAZIONALE: raccolta organizzata di dati archiviati su un sistema informatico. Memorizza una grande quantità di dati (in tempo reale) e spesso cambiano a causa di vari aggiornamenti. Pertanto, non può essere utilizzato per un’analisi per raggiungere una decisione. In altre parole, viene utilizzato per l’ elaborazione delle transazioni ;
DATA WAREHOUSE: estrae i dati da varie fonti , inclusi i database generali, e quindi li riporta (tramite aggregazioni) in modo conveniente per eseguire facilmente un’analisi. In altre parole, viene utilizzato per un’elaborazione analitica (e quindi più complessa). Un’ altra importante differenza tra i due è legata alle TIPOLOGIE DI INTERROGAZIONE. Si distinguono, infatti:
ON-LINE TRANSACTIONAL PROCESSING (OLTP): le interrogazioni eseguono (spesso quotidianamente) transazioni che in genere leggono e scrivono un ridotto numero di record da diverse tabelle legate da semplici relazioni (esempio: si ricercano i dati di un cliente per inserire un suo nuovo ordine ). Questo tipo di elaborazione avviene all’interno dei database operazionali/transazionali ;
ON-LINE ANALYTICAL PROCESSING (OLAP): è caratterizzato da un’analisi dinamica e multidimensionale (spesso e volentieri massiva) che richiede la scansione di un’enorme quantità di record per calcolare un insieme di dati numerici di sintesi che quantifichino le prestazioni dell’azienda. Questo tipo di elaborazione avviene all’interno dei DW. Le peculiari caratteristiche delle interrogazioni OLAP fanno sì che i dati nel DW siano normalmente rappresentati in FORMA MULTIDIMENSIONALE. L’idea di base è quella di vedere i dati come punti in uno spazio le cui dimensioni corrispondono ad altrettante possibili dimensioni di analisi ; ciascun punto, rappresentativo di un evento accaduto nell’azienda, viene descritto tramite un insieme di misure di interesse per il processo decisionale (esempio: analizzare le vendite secondo le dimensioni: cliente, prodotto, area geografica, tempo…). ARCHITTETTURA DEL DATA WAREHOUSING Le CARATTERISTICHE ARCHITETTURALI irrinunciabili per un sistema DW sono le seguenti:
SEPARAZIONE: l’elaborazione analitica e quella transazionale devono essere mantenute il più possibile separate ( si effettuano solo analisi e non elaborazioni , cioè non si entra nel database ma si rimane solo all’interno dei confini del DW);
SCALABILITÀ: l’ architettura hardware e software deve poter essere facilmente ridimensionata a fronte della crescita nel tempo dei volumi di dati da gestire ed elaborare e del numero di utenti da soddisfare (si può aggiungere capacità di memoria e analisi senza doverlo riprogettare da zero);

sintesi provenienti dalle sorgenti, i data mart possono, invece, essere intesi come DW “locali” che replicano (ed eventualmente sintetizzano ulteriormente) la porzione di DW primario di interesse per una particolare area applicativa dell’azienda che è oggetto di analisi (e quindi di interrogazione). In altre parole, con il termine DATA MART , si intende un sottoinsieme o un’aggregazione dei dati presenti nel DW primario, contenente l’insieme delle informazioni rilevanti per una particolare area del business , una particolare divisione dell’azienda, una particolare categoria di soggetti (etc). L’ estrazione dei data mart può essere: a. DIPENDENTE: l’estrazione dei data mart deriva dal DW. Sono utili soprattutto nelle medio-grandi imprese, perché: o Delineano i contorni delle informazioni necessarie a un particolare tipo di utenti per le loro interrogazioni specifiche ; o Permettono di raggiungere prestazioni migliori essendo di dimensioni inferiori rispetto al DW primario; b. INDIPENDENTE: i data mart vengono direttamente alimentati dalle sorgenti. L’assenza di un DW primario snellisce le fasi procedurali (spesso e volentieri, infatti, non si ha nel momento in cui l’azienda è troppo grandi e sarebbe troppo complesso aggregare tutti i dati di tutta l’azienda in un unico contenitore), ma allo stesso tempo determina uno schema complesso di accessi ai dati e ingenera il rischio di inconsistenze tra i data mart.

ARCHITETTURA A TRE LIVELLI: il terzo livello introdotto da questa architettura (oltre a quelli presenti nel modello a due livelli) è il c.d. LIVELLO DEI DATI RICONCILIATI , che materializza i dati operazionali ottenuti a valle del processo di integrazione e ripulitura dei dati sorgente. Il vantaggio principale di tale livello aggiuntivo è che esso crea un modello di dati comune e di riferimento per l’intera azienda, introducendo al contempo una separazione tra le problematiche legate all’estrazione e integrazione dei dati dalle sorgenti e quelle inerenti l’alimentazione del DW (si ha un livello di dettaglio aggiuntivo utile in caso di dubbi). Si suppone, in ogni caso, che l’utente sia interessato ad accedere ai dati sorgente a partire dai dati aggregati. Quindi, parte delle interrogazioni vengono riscritte sulle sorgenti (o sui dati riconciliati). Abbiamo accennato nell’architettura a due livello del ruolo degli ETL (EXTRACTION, TRANSFORMATION AND LOADING). Essi, infatti alimentano una sorgente dati singola , dettagliata,

esauriente e di alta qualità che possa a sua volta alimentare il DW (i dati così come sono all’inizio, infatti, sono molto diversi tra loro e non fattibili di caricamento all’interno di un DW). In caso di architettura a tre livelli , di fatto questi strumenti alimentano il livello di dati riconciliati. Ma come avviene quindi il PROCESSO DI ALIMENTAZIONE (o, nel caso di modello a tre livelli, di RICONCILIAZIONE) DEL DW? Esso consiste in quattro distinti stadi , detti rispettivamente:

ESTRAZIONE (EXTRACTION O CAPTURE): durante questa fase i dati vengono estratti dalle sorgenti. La scelta dei dati da estrarre avviene principalmente in base alla loro qualità , che dipende tra l’altro dalla completezza e accuratezza dei vincoli implementati nelle sorgenti, dall’adeguatezza del formato dei dati, dalla chiarezza dei schemi. Si possono eseguire due differenti tipologie di estrazioni: a. ESTRAZIONE STATICA: viene effettuata quando il DW deve essere popolato per la prima volta e consiste concettualmente in una fotografia dei dati operazionali; b. ESTRAZIONE INCREMENTALE: viene usata per l’aggiornamento periodico del DW , e cattura solamente i cambiamenti avvenuti nelle sorgenti dall’ultima estrazione.
PULITURA (CLEANING O CLEANSING O SCRUBBING): consiste nel sostanziale miglioramento della qualità dei dati (piuttosto scarsa nelle sorgenti). Tra gli errori e le inconsistenze tipiche che rendono i dati “sporchi” si segnalano: a. Dati duplicati (esempio: uno stesso paziente che compare più volte in un’anagrafica ospedaliera) ; b. Inconsistenza tra valori logicamente associati (esempio: tra l’indirizzo e il CAP); c. Dati mancanti (esempio: la professione di un cliente) ; d. Uso non previsto di un campo (esempio: un campo codice fiscale potrebbe essere impropriamente utilizzato per memorizzare il numero di telefono d’ufficio) ; e. Valori impossibili o errati (esempio: '30/2/1999’) ; f. Valori inconsistenti per la stessa entità dovuti a differenti convenzioni (esempio: una nazione può essere indicata dalla sua sigla internazionale o dal suo nome per esteso) e abbreviazioni (per esempio, 'V. Risorgimento' e 'Via Risorgimento’) ; g. Valori inconsistenti per la stessa entità dovuti a errori di battitura (esempio, ‘Via Risorgimento' e 'Via Risogimento').
TRASFORMAZIONE (TRANSFORMATION): si tratta della fase centrale del processo in quanto converte i dati dal formato operazionale della sorgente a quello che viene accolto nel DW (il quale accoglie solo dati consistenti ). In caso di architettura a tre livelli, l’output di questa fase è il

Esempio infocubo (figura a fianco) → Il fatto descritto è la vendita di una catena di negozi. Si tratta di una rappresentazione grafica di una base di dati a tre dimensioni: PRODOTTO, DATA, LUOGO. Un evento corrisponde alla vendita di un certo prodotto in un certo negozio in un certo giorno, ed è descritto da due misure: la quantità venduta e l’incasso. Nell’immagine si specifica, ad esempio, che nel negozio ‘DiTutto’, il giorno 05/04/01 sono state vendute 10 confezioni di detersivo ‘Brillo’ per un incasso complessivo pari a 25 euro. La figura mette in evidenza anche il fatto che il cubo è sparso, ossia che molti eventi non si sono in effetti verificati: non tutti i prodotti possono essere venduti tutti i giorni in tutti i negozi! Normalmente, ciascuna dimensione non è piatta, ma associata ad una GERARCHIA DI LIVELLI DI AGGREGAZIONE (GERARCHIA DI ROLL-UP) che ne raggruppa/aggrega i valori in diversi modi. Vengono chiamati attributi professionali i livelli che compongono una gerarchia; questi dipendono dalle necessità di analisi e, quindi, dalle domande che il decision maker deve porre ai dati. Esempio sulle gerarchie di prodotto (figura a fianco) → gerarchie sulle dimensioni PRODOTTO e NEGOZIO. I prodotti sono raggruppati in tipo e categoria (prodotto → tipo → categoria), mentre i negozi in città e regione (negozio → città → regione). In cima ciascuna gerarchia si trova un livello fittizio che raggruppa tutti i lavori relativi ad una dimensione. Riassumendo, quindi, si può dire che un CUBO DIMENSIONALE è incentrato su un fatto di interesse per il processo decisionale. Esso rappresenta un insieme di eventi, descritti quantitativamente da misure numeriche. Ogni asse del cubo rappresenta una possibile dimensione di analisi; ciascuna dimensione può essere vista a più livelli di dettaglio individuati da attributi strutturati in gerarchie. È doveroso osservare che le informazioni rappresentate nel cubo multidimensionale , pur costituendo di fatto una sintesi di quelle memorizzate nella base di dati operazionale, sono ancora difficilmente fruibili dall’utente a causa della loro quantità. Esempio per capirne la portata: se la catena comprende 50 negozi che vendono complessivamente 1000 prodotti, e il DW copre 3 anni di transazioni (circa 1000 giorni), il numero totale di eventi possibili risulta pari a 50×1000×1000=5×10^7_. Anche supponendo che, in ciascun giorno, ogni negozio riesca a vendere solo il 10% dei prodotti disponibili, il numero complessivo degli eventi risulta pari a 5×10_^6 : ancora troppi per poter essere analizzati da un utente senza far ricorso a strumenti automatici! Per ovviare a tale problema si può ricorrere a due TECNICHE differenti :

RESTRIZIONE DEI DATI: restringere i dati significa ritagliare una precisa porzione dal cubo circoscrivendo il campo di analisi di interesse. La forma più semplice di restrizione è rappresentata dallo SLICING (affilatura) dei dati, in cui si riduce la dimensionalità del cubo fissando un valore per una o più dimensioni. Nella terminologia dell’algebra relazionale, slicing vuol dire fare selezione e/o proiezione.

a. SELEZIONE: generalizzazione dello slicing in cui si riduce la grandezza del cubo esprimendo condizioni sugli attributi dimensionali (esempio: vendite di detersivo Brillo nei negozi di Bologna nei giorni di gennaio 2001) ; b. PROIEZIONE: scelta di mantenere, per ciascun evento, solo un sottoinsieme di misure , scartando le altre. Esempio restrizione (figura a fianco): a. 1 DIMENSIONE: 1 negozio = ‘DiTutto’ → si ottiene come risultato l’insieme degli eventi associati alle vendite effettuate presso il negozio ‘DiTutto’; ). Graficamente è un piano; b. 2 DIMENSIONI: negozio = ‘DiTutto’ e data = ‘05/04/2001’ → si ottiene come risultato tutte le vendite effettuate presso ‘DiTutto’ il 5 aprile. Graficamente è un piano; c. 3 DIMENSIONI (TUTTE): si identifica un unico evento. Graficamente, un punto nello spazio.

AGGREGAZIONE DEI DATI: tramite essa ciascun evento conterrà una sintesi di dati presenti negli eventi che esso aggrega. Esempio aggregazione (figura a fianco) → si supponga di voler analizzare le vendite non nel loro dettaglio giornaliero, bensì a livello mensile. Ciò significa raggruppare tutte le celle relative ai giorni dello stesso mese in un’unica macro-cella. L’evento conterrà quindi il numero totale di esemplari venduti nel mese e l’incasso complessivo calcolati sommando i valori elementari delle corrispondenti misure. Il trattino dell’immagine a fianco indica l’assenza di un evento dovuta al fatto che non è stato venduto alcun esemplare. L’aggregazione può essere operata anche contemporaneamente su più dimensioni : si parla, in questo caso, di AGGREGAZIONI MULTIPLE. I valori delle misure in ogni macro-evento sono la somma dei valori per gli eventi componenti. Esempio aggregazione multipla (figura a fianco) → Nel mese in esame, sono stati venduti complessivamente 6500 esemplari di prodotti del tipo in esame, ripartiti su 3 città, per un incasso complessivo pari a 19 400 euro.

trimestrali complessivi per ciascuna regione). Si potrebbe arrivare ad avere una riduzione della dimensionalità del risultato, qualora tutti i dettagli di una gerarchia vengano eliminati; b. DRILL-DOWN: diminuisce l’aggregazione dei dati introducendo un’ulteriore livello di dettaglio di una gerarchia (esempio: dall’aggregazione per regione del cliente si passa a quella per città del cliente) ; c. SLICE-AND-DICE: lo slicing fa riferimento alla riduzione della dimensionalità del cubo tramite la fissazione di un valore per una delle dimensioni , mentre la selezione (dice) alla riduzione dell’insieme dei dati oggetto di analisi attraverso la formulazione di un criterio di selezione ; d. PIVOTING: comporta un cambiamento nella modalità di presentazione con l’obiettivo di analizzare le stesse informazioni secondo diversi punti di vista, diverse prospettive; e. DRILL-ACROSS: possibilità di stabilire un collegamento tra due o più cubi correlati al fine di compararne i dati (esempio: drill-across tra cubo delle vendite e cubo delle promozioni per confrontare gli incassi e gli sconti per ciascun trimestre e categoria di prodotti) ; f. DRILL-THROUGH: consiste nel passaggio dei dati aggregati multidimensionali del DW ai dati operazionali presenti nelle sorgenti o nel livello riconciliato.

Data Warehouse e Modelli multidimensionali, Appunti di Sistemi Digitali

Documenti correlati

Anteprima parziale del testo

Scarica Data Warehouse e Modelli multidimensionali e più Appunti in PDF di Sistemi Digitali solo su Docsity!

DW & MODELLI MULTIDIMENSIONALI

CONCETTO DI DATA WAREHOUSE & DIFFERENZE CON I DATABASE

1. ORIENTAMENTO AL SOGGETTO: il database relazionale è legato alla transazione (es.

2. INTEGRAZIONE & CONSISTENZA: utilizza più fonti di dati tra loro eterogenee e si impegna a

3. RAPPRESENTATIVITÀ DELL’EVOLUZIONE TEMPORALE: si effettuano aggiornamenti continui e