






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
- Il concetto di Data Warehouse - Architettura del Data Warehousing: caratteristiche e livelli - Il modello multidimensionale - I meta-dati - Accedere al Data Warehouse: reportistica ed OLAP
Tipologia: Appunti
1 / 10
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







Nel capitolo precedente si è parlato approfonditamente dell’ architettura dell’ambiente di BI. Non si specificato, però, quale sia il cuore di tale architettura , ossia il DATA WAREHOUSING (DW). Tale fenomeno nasce dall’enorme accumulo di dati registrato nell’ultimo decennio, e dalla pressante richiesta di utilizzare attivamente questi dati per scopi che superino quelli, di routine, legati all’elaborazione giornaliera. Il data warehousing può infatti essere definito come una collezione di metodi, tecnologie e strumenti di ausilio al cosiddetto “lavoratore della conoscenza” (knowledge worker : dirigente, amministratore, gestore, analista , …) per condurre analisi dei dati finalizzate all’attuazione di processi decisionali e al miglioramento del patrimonio informativo dell’azienda. Ancora oggi, purtroppo, è frequente sentire all’interno delle imprese frasi come queste:
pagamento delle imposte, …) , mentre il data warehouse al soggetto (es. fornitore, cliente, dipendente, …) ;
dare una risposta unificata (risposta sintetica al fine di prendere una decisione);
costanti per mantenerlo sempre “sul pezzo”. Da queste caratteristiche ne consegue che la costruzione di un DW non comporta l’inserimento di nuove informazioni, bensì la riorganizzazione di quelle esistenti , e implica pertanto l’esistenza di un sistema informativo. Quindi, mentre i dati operazionali coprono un arco temporale di solito piuttosto limitato (poiché la maggior parte delle transazioni coinvolge i dati più recenti), il DW deve permettere analisi che spazino sulla prospettiva anche di anni : ecco perché il DW è aggiornato a intervalli regolari a partire dai dati operazionali ed è in crescita continua. In linea di principio, quindi, i dati non vengono mai eliminati dal DW, per cui si potrebbe considerare quest’ultimo come un “database a sola lettura”. Si possono quindi così riassumere le principali DIFFERENZE TRA DATA WAREHOUSING & DATABASE OPERAZIONALI :
sintesi provenienti dalle sorgenti, i data mart possono, invece, essere intesi come DW “locali” che replicano (ed eventualmente sintetizzano ulteriormente) la porzione di DW primario di interesse per una particolare area applicativa dell’azienda che è oggetto di analisi (e quindi di interrogazione). In altre parole, con il termine DATA MART , si intende un sottoinsieme o un’aggregazione dei dati presenti nel DW primario, contenente l’insieme delle informazioni rilevanti per una particolare area del business , una particolare divisione dell’azienda, una particolare categoria di soggetti (etc). L’ estrazione dei data mart può essere: a. DIPENDENTE: l’estrazione dei data mart deriva dal DW. Sono utili soprattutto nelle medio-grandi imprese, perché: o Delineano i contorni delle informazioni necessarie a un particolare tipo di utenti per le loro interrogazioni specifiche ; o Permettono di raggiungere prestazioni migliori essendo di dimensioni inferiori rispetto al DW primario; b. INDIPENDENTE: i data mart vengono direttamente alimentati dalle sorgenti. L’assenza di un DW primario snellisce le fasi procedurali (spesso e volentieri, infatti, non si ha nel momento in cui l’azienda è troppo grandi e sarebbe troppo complesso aggregare tutti i dati di tutta l’azienda in un unico contenitore), ma allo stesso tempo determina uno schema complesso di accessi ai dati e ingenera il rischio di inconsistenze tra i data mart.
esauriente e di alta qualità che possa a sua volta alimentare il DW (i dati così come sono all’inizio, infatti, sono molto diversi tra loro e non fattibili di caricamento all’interno di un DW). In caso di architettura a tre livelli , di fatto questi strumenti alimentano il livello di dati riconciliati. Ma come avviene quindi il PROCESSO DI ALIMENTAZIONE (o, nel caso di modello a tre livelli, di RICONCILIAZIONE) DEL DW? Esso consiste in quattro distinti stadi , detti rispettivamente:
Esempio infocubo (figura a fianco) → Il fatto descritto è la vendita di una catena di negozi. Si tratta di una rappresentazione grafica di una base di dati a tre dimensioni: PRODOTTO, DATA, LUOGO. Un evento corrisponde alla vendita di un certo prodotto in un certo negozio in un certo giorno, ed è descritto da due misure: la quantità venduta e l’incasso. Nell’immagine si specifica, ad esempio, che nel negozio ‘DiTutto’, il giorno 05/04/01 sono state vendute 10 confezioni di detersivo ‘Brillo’ per un incasso complessivo pari a 25 euro. La figura mette in evidenza anche il fatto che il cubo è sparso, ossia che molti eventi non si sono in effetti verificati: non tutti i prodotti possono essere venduti tutti i giorni in tutti i negozi! Normalmente, ciascuna dimensione non è piatta, ma associata ad una GERARCHIA DI LIVELLI DI AGGREGAZIONE (GERARCHIA DI ROLL-UP) che ne raggruppa/aggrega i valori in diversi modi. Vengono chiamati attributi professionali i livelli che compongono una gerarchia; questi dipendono dalle necessità di analisi e, quindi, dalle domande che il decision maker deve porre ai dati. Esempio sulle gerarchie di prodotto (figura a fianco) → gerarchie sulle dimensioni PRODOTTO e NEGOZIO. I prodotti sono raggruppati in tipo e categoria (prodotto → tipo → categoria), mentre i negozi in città e regione (negozio → città → regione). In cima ciascuna gerarchia si trova un livello fittizio che raggruppa tutti i lavori relativi ad una dimensione. Riassumendo, quindi, si può dire che un CUBO DIMENSIONALE è incentrato su un fatto di interesse per il processo decisionale. Esso rappresenta un insieme di eventi, descritti quantitativamente da misure numeriche. Ogni asse del cubo rappresenta una possibile dimensione di analisi; ciascuna dimensione può essere vista a più livelli di dettaglio individuati da attributi strutturati in gerarchie. È doveroso osservare che le informazioni rappresentate nel cubo multidimensionale , pur costituendo di fatto una sintesi di quelle memorizzate nella base di dati operazionale, sono ancora difficilmente fruibili dall’utente a causa della loro quantità. Esempio per capirne la portata: se la catena comprende 50 negozi che vendono complessivamente 1000 prodotti, e il DW copre 3 anni di transazioni (circa 1000 giorni), il numero totale di eventi possibili risulta pari a 50×1000×1000=5×10^7_. Anche supponendo che, in ciascun giorno, ogni negozio riesca a vendere solo il 10% dei prodotti disponibili, il numero complessivo degli eventi risulta pari a 5×10_^6 : ancora troppi per poter essere analizzati da un utente senza far ricorso a strumenti automatici! Per ovviare a tale problema si può ricorrere a due TECNICHE differenti :
a. SELEZIONE: generalizzazione dello slicing in cui si riduce la grandezza del cubo esprimendo condizioni sugli attributi dimensionali (esempio: vendite di detersivo Brillo nei negozi di Bologna nei giorni di gennaio 2001) ; b. PROIEZIONE: scelta di mantenere, per ciascun evento, solo un sottoinsieme di misure , scartando le altre. Esempio restrizione (figura a fianco): a. 1 DIMENSIONE: 1 negozio = ‘DiTutto’ → si ottiene come risultato l’insieme degli eventi associati alle vendite effettuate presso il negozio ‘DiTutto’; ). Graficamente è un piano; b. 2 DIMENSIONI: negozio = ‘DiTutto’ e data = ‘05/04/2001’ → si ottiene come risultato tutte le vendite effettuate presso ‘DiTutto’ il 5 aprile. Graficamente è un piano; c. 3 DIMENSIONI (TUTTE): si identifica un unico evento. Graficamente, un punto nello spazio.
trimestrali complessivi per ciascuna regione). Si potrebbe arrivare ad avere una riduzione della dimensionalità del risultato, qualora tutti i dettagli di una gerarchia vengano eliminati; b. DRILL-DOWN: diminuisce l’aggregazione dei dati introducendo un’ulteriore livello di dettaglio di una gerarchia (esempio: dall’aggregazione per regione del cliente si passa a quella per città del cliente) ; c. SLICE-AND-DICE: lo slicing fa riferimento alla riduzione della dimensionalità del cubo tramite la fissazione di un valore per una delle dimensioni , mentre la selezione (dice) alla riduzione dell’insieme dei dati oggetto di analisi attraverso la formulazione di un criterio di selezione ; d. PIVOTING: comporta un cambiamento nella modalità di presentazione con l’obiettivo di analizzare le stesse informazioni secondo diversi punti di vista, diverse prospettive; e. DRILL-ACROSS: possibilità di stabilire un collegamento tra due o più cubi correlati al fine di compararne i dati (esempio: drill-across tra cubo delle vendite e cubo delle promozioni per confrontare gli incassi e gli sconti per ciascun trimestre e categoria di prodotti) ; f. DRILL-THROUGH: consiste nel passaggio dei dati aggregati multidimensionali del DW ai dati operazionali presenti nelle sorgenti o nel livello riconciliato.