Systèmes d’Information Décisionnels, Papers of Information Systems

Les systèmes d’information décisionnels désignent l’ensemble des méthodes et des techniques permettant de collecter, consolider, modéliser et présenter les données d’une organisation dans le but d’aider les décideurs dans le processus de prise de décision. L’objectif de ce cours est de présenter aux étudiants les concepts et de les faire maitriser les compétences théoriques et techniques nécessaires pour effectuer l’analyse des situations, la conception et le déploiement de solutions de systèmes d’information décisionnel. Pour cela, la bonne exploitation du contenu de ce cours nécessite un pré-requis devant être maitrisé par les étudiants. Ça concerne en particulier : la conception et l’implémentation de Bases des Données Relationnelles et des notions sur la mod

Typology: Papers

2023/2024

Uploaded on 01/08/2024

ikram-benchenni
ikram-benchenni 🇩🇿

1 document

1 / 100

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
Systèmes d’Information Décisionnels
Support de Cours Présenté Par
ABDALLAH BENSALLOUA Charef
Université Abdelhamid Ibn Badis - Mostaganem
Faculté des Sciences Exactes et de l’Informatique
Département de Mathématiques et Informatique
Juillet 2019
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Partial preview of the text

Download Systèmes d’Information Décisionnels and more Papers Information Systems in PDF only on Docsity!

Systèmes d’Information Décisionnels

Support de Cours Présenté Par

ABDALLAH BENSALLOUA Charef

Université Abdelhamid Ibn Badis - Mostaganem Faculté des Sciences Exactes et de l’Informatique Département de Mathématiques et Informatique

Juillet 2019

I

Avant-propos Le cours de Systèmes d’Information Décisionnels est destiné aux étudiants de Master en Informatique, option Ingénierie des Systèmes d’Information (ISI), dans le Semestre 3. Les systèmes d’information décisionnels désignent l’ensemble des mé- thodes et des techniques permettant de collecter, consolider, modéliser et présenter les données d’une organisation dans le but d’aider les décideurs dans le processus de prise de décision. L’objectif de ce cours est de présenter aux étudiants les concepts et de les faire maitriser les compétences théoriques et techniques nécessaires pour effectuer l’analyse des situations, la conception et le déploiement de solutions de sys- tèmes d’information décisionnel. Pour cela, la bonne exploitation du contenu de ce cours nécessite un pré-requis devant être maitrisé par les étudiants. Ça concerne en particulier : la conception et l’implémentation de Bases des Données Relationnelles et des notions sur la modélisation UML. Le contenu du cours peut se résumer dans les points suivant :

SID : Définitions et Architecture

Modélisation multidimensionnelle

Dimension spatiale dans les Systèmes d’information décisionnels

Qualité d’analyse dans les systèmes décisionnels

Optimisation des requêtes dans les EDD

Entrepôt de données NoSqQL

Annexe A : panorama des différentes solutions logicielles pour la mise en oeuvre.

Annexe B : Série d’exercices

Sommaire

Liste des figures VI

Liste des tableaux VIII

LISTE DES FIGURES VII

  • Introduction Générale Liste des abréviations IX
  • 1 SID : Définitions et Architecture
    • 1.1 Introduction (Système d’information)
    • 1.2 Définitions
    • 1.3 Enjeux du décisionnel
    • 1.4 Exploitation des données
      • 1.4.1 Reporting
      • 1.4.2 Exploration
      • 1.4.3 Analyse de données
    • 1.5 Limites des systèmes décisionnels
    • 1.6 Architecture d’un système décisionnel
      • 1.6.1 Sources de données
      • 1.6.2 Entrepôts et magasins de données
      • 1.6.3 Serveurs OLAP
      • 1.6.4 Les outils d’analyse
    • 1.7 Conclusion
  • 2 Modélisation multidimensionnelle
    • 2.1 Introduction
    • 2.2 Modélisation conceptuelle
      • 2.2.1 Concepts de base
      • 2.2.2 Schémas de données
    • 2.3 Modélisation logique
    • 2.4 Modélisation physique
    • 2.5 Limite des systèmes OLAP
    • 2.6 Conclusion
  • 3 Dimension spatiale et Systèmes d’Information Décisionnels SOMMAIRE IV
    • 3.1 Introduction
    • 3.2 ED Spatial et Spatial-OLAP
      • 3.2.1 Modèle spatio-multidimensionnel
      • 3.2.2 Opérateurs de navigation SOLAP
      • 3.2.3 Fonctions d’Agrégation dans le SOLAP
    • 3.3 Architecture d’un système décisionnel basée sur SOLAP
      • 3.3.1 Modes d’intégration SIG-OLAP
      • 3.3.2 Modélisation spatio-multidimensionnelle
    • 3.4 Limite des systèmes SOLAP
    • 3.5 Conclusion
  • 4 Qualité d’analyse dans les systèmes décisionnels
    • 4.1 Introduction
    • 4.2 Qualité d’analyse multidimensionnelle
      • 4.2.1 Selon la qualité de données
      • 4.2.2 Selon la façon d’agrégation des mesures
      • 4.2.3 Selon l’exploration des données
    • 4.3 Contraintes d’intégrité dans les cubes de données (spatiales)
    • 4.4 Le cadre conceptuel
    • 4.5 Conclusion
  • 5 Optimisation des requêtes dans les ED
    • 5.1 Introduction
    • 5.2 Techniques d’optimisation des requêtes
    • 5.3 Les vues matérialisées
      • 5.3.1 Problème de sélection de vue matérialisée
      • 5.3.2 Problème de maintenance de vue matérialisée
    • 5.4 Les index
      • 5.4.1 Techniques d’indexation
      • 5.4.2 Sélection d’index
    • 5.5 La fragmentation
      • 5.5.1 La fragmentation verticale
      • 5.5.2 La fragmentation horizontale
      • 5.5.3 La fragmentation mixte
    • 5.6 Conclusion
  • 6 Entrepôts de données NoSQL
    • 6.1 Introduction
    • 6.2 Modèles NoSQL
      • 6.2.1 Modèle orienté clé-valeur
      • 6.2.2 Modèle orienté documents
      • 6.2.3 Modèle orienté colonnes
      • 6.2.4 Modèles orienté graphes SOMMAIRE V
    • 6.3 Entrepôts de données sous NoSQL
      • 6.3.1 Processus de traduction indirecte
      • 6.3.2 Processus de traduction direct
    • 6.4 Modélisation Logique Not-Only-Sql
      • 6.4.1 Modélisation multidimensionnelle orientée documents
      • 6.4.2 Modélisation multidimensionnelle orientée colonnes
    • 6.5 Conclusion
  • Conclusion Générale
  • Annexe A. Panorama des Solutions Industrielles
  • Annexe B. Série d’exercices
  • Bibliographie
  • 1.1 Architecture d’un système décisionnel Liste des figures
  • 2.1 Exemple de table de fait
  • 2.2 Exemple de Tables de dimension
  • 2.3 Un cube de données à trois dimensions
  • 2.4 Modèle en étoile
  • 2.5 Modèle en flocon de neige
  • 2.6 Modèle en constellation
  • 2.7 Architecture ROLAP
  • 2.8 Architecture MOLAP
  • 2.9 Architecture MOLAP
  • 3.1 Modèle spatio-multidimensionnel -"Analyse des ventes"
  • 3.2 Exemple de mesure spatiale
  • 3.3 Exemple d’instance d’hypercube spatiale
  • 3.4 Architecture typique d’un système SOLAP
  • 3.5 Exemple de Client SOLAP
  • 4.1 Classification des CI SOLAP
  • 4.2 Exemple de Le Profile d’EDS
  • 4.3 Instance du model d’EDS
  • 4.4 Instance du model d’EDS
  • 4.5 Instance du model CI de Requête
  • 5.1 Solutions d’optimisation
  • 5.2 Index en B-arbre construit sur l’attribut Personne "Titre"
  • 5.3 Index de hachage construit sur l’attribut Nom
  • 5.4 Index bitmap construit sur le sexe des clients
  • 5.5 L’architecture de l’outil de sélection d’index
  • 5.6 Fragmentation verticale
  • 5.7 Fragmentation Horizontale
  • 5.8 Fragmentation mixte
    • nant des tweets 6.1 Exemple d’entrepôts de données multidimentionnelles R-OLAP concer-
  • 6.2 Principe du modèle orienté clé-valeur
  • 6.3 Principe du modèle orienté documents
  • 6.4 Principe du modèle orienté colonnes
  • 6.5 Principe du modèle orienté graphes
    • NoSQL 6.6 Nouvelle architecture des systèmes d’aide à la décision intégrant le
    • sionnelles du niveau conceptuel vers le niveau logique 6.7 Processus de transformation des entrepôts de données multidimen-
  • 6.8 Architecture Hive
  • 6.9 Représentation logique orientée graphes (Castelltort et Laurent 2014)
  • 6.10 Exemple de document par traduction plate
  • 6.11 Exemple de document par traduction imbriquée
  • 6.12 Exemple de document par traduction hybride
  • 6.13 exemple de ligne par traduction plate
  • 6.14 Exemple de ligne par traduction imbriquée
  • 6.15 Exemple de ligne par traduction hybride
  • 6.16 Exemple de documents par traduction éclatée

Liste des abréviations

BI : business intelligence CI (IC) : Contrainte d’Intégrité (Integrity Constraint) DM : Data Mart ED (DW) : Entrepôts de données (Data Warehouse) EDS (SDW) : Entrepôts de données Spatiales (Spatial Data Warehouse) ETL : Extract - Transform - Load NoSQL : Not-only SQL MD : MultiDimensionnel OLAP : On-Line Analytical Processing OCL : Object Constraint Language SDSS : Spatial Decision Support System SID : Système d’Information Décisionnel SIG : Système d’Information Géographique SOLAP : Spatial On-Line Analytical Processing SQL : Structured Query Language UML : Unified Modeling Language

Introduction Générale

Le système d’information décisionnel est devenu très essentiel pour les entreprises du fait qu’il s’agit de moyen de gérer leurs performances et de définir leur stratégie de déve- loppement. Toutefois, l’introduction de systèmes décisionnels présente des caractéristiques spécifiques à ne pas négliger, à savoir la gestion des données historiques, notamment en termes de modèle de données, de référence, de qualité et de protection des données. Dans les entreprises, la prise de décision est encore souvent un domaine moins solide du système d’information. Ceci peut être traduit par le fait que les dirigeants ne le considèrent pas, depuis longtemps, au sommet de leurs priorités.

Le système d’information décisionnel doit permettre de développer la capacité de l’en- treprise à penser et à agir. A ce titre, l’information nécessaire, élaborée par un processus de transformation itératif, est basée sur des données élémentaires relatives aux différents acteurs et événements (marketing, ventes, facturation, comptes clients,... etc.). Pour que les systèmes décisionnels créent de la valeur et fournissent un avantage concurrentiel, il est nécessaire de veiller à ce qu’ils soient alignés sur les besoins de l’entreprise. Pour ce faire, il est nécessaire de définir un système d’information décisionnel et de mettre en place les moyens nécessaires à son implémentation et optimisation. Généralement, la planification et la création d’un système décisionnel doivent intégrer les contraintes nécessaires similaires à celles liées à la réalisation des autres composants majeurs du système d’information. Il s’agit donc, de se focaliser sur certaines inquiétudes, telles que les méthodes de développe- ment, le choix de solutions technologiques et les conditions favorables pour l’exploitation de solutions.

Ce cours est présenté en six chapitres suivis par deux annexes organisés comme suit : i) le premier chapitre est consacré pour présenter les définitions et l’architecture des systèmes d’information décisionnels ; ii) dans le deuxième chapitre nous étudierons les différentes techniques de modélisation multidimensionnelle ; iii) dans le troisième chapitre, nous pré- senterons la dimension spatiale dans les systèmes décisionnels. iv) la qualité d’analyse dans les systèmes décisionnels et présentée dans le quatrième chapitre. v) Les techniques d’op- timisation des requêtes dans les entrepôts de données sont présentées dans le cinquième chapitre. vi) le sixième chapitre est consacré pour la présentation des entrepôts de données NoSqQL. En Annexe A, un panorama des différentes solutions logicielles pour la mise en oeuvre est présenté. En fin, une série d’exercices est proposée dans Annexe B. Le présent document s’achève par une conclusion où nous récapitulons les apports du présent cours dans l’informatique décisionnelle.

Chapitre 1.SID : Définitions et Architecture 3

1.2 Définitions

Définition1.1 « Un système d’information décisionnel, SID, est un système qui réalise la collecte, la transformation des données brutes issues de sources de données et le stockage dans d’autres espaces ainsi que la caractérisation des données résumées en vue de faciliter le processus de prise de décision ». Définition1.2 « Le système d’information décisionnel est un ensemble de données orga- nisées de façon spécifiques, facilement accessibles et appropriées à la prise de décision [...]. La finalité d’un système décisionnel est le pilotage d’entreprise. Les systèmes de gestion sont dédiés aux métiers de l’entreprise [...]. Les systèmes décisionnels sont dédiés au management de l’entreprise [...]. » (Goglin, 2001) Le système d’information décisionnel doit remplir trois fonctions : L’extraction de données. Le stockage. La restitution des données sous une forme exploitable.

1.3 Enjeux du décisionnel

La prise de décisions stratégiques dans une organisation nécessite le recours et le croi- sement de multiples informations qui concernent tous les départements : production, res- sources humaines, achats, ventes, marketing, service après-vente, maintenance,... etc. Or ces données sont généralement :

éparpillées au sein des départements et non connectées entre elles

hétérogènes dans leurs formats techniques et leurs organisations structurelles, voire leurs sémantiques

implémentées pour l’action (par construction) et non pour l’analyse

volatiles, au sens où leur mise à jour peut conduire à oublier des informations obsolètes.

Exemple 1. Un catalogue de produits sera conçu pour permettre de trouver facilement un produit en fonction de caractéristiques précises, de faire des mises à jour rapides et fiables, de gérer des stocks... Mais un système décisionnel souhaitera :

connaître l’organisation des produits selon certaines caractéristiques et regroupements qui ne sont pas forcément premiers dans la gestion quotidienne ;

croiser le catalogue avec les ventes...

Résultat L’enjeu des systèmes décisionnels est de donner accès aux données existantes dans l’or- ganisation, sous une forme intégrée, afin de faciliter leur interrogation croisée et massive.

Chapitre 1.SID : Définitions et Architecture 4

1.4 Exploitation des données

Les données agrégées dans un système décisionnel servent à trois grandes catégories d’usage :

La production de rapports récurrents (reporting)

L’exploration manuelle

L’analyse de données (descriptive ou prédictive)

1.4.1 Reporting

Le principe du reporting est d’agréger et de synthétiser des données nombreuses et complexes sous forme d’indicateurs, de tableaux, de graphiques permettant d’en avoir une appréhension globale et simplifiée. Le reporting s’appuie principalement sur les agrégats (GROUP BY en SQL par exemple) afin de faire apparaître des comptages, sommes ou moyennes en fonction de critères d’ana- lyses. Le reporting est généralement récurrent, c.à.d. le même rapport sera produit à intervalles réguliers pour contrôler les variations des indicateurs.

1.4.2 Exploration

Une autre exploitation de données en contexte décisionnel consiste à pouvoir explorer les données de façon peu dirigée (heuristique) afin de trouver des réponses à des questions que l’on ne s’est pas posées. L’idée générale est plutôt que les réponses aux premières questions que l’on se pose conduiront à se poser de nouvelles questions. L’exploration de données s’appuie sur des outils permettant de manipuler et de visualiser les données grâce à des interfaces selon des requêtes dynamiquement produites par des utilisateurs experts du domaine.

1.4.3 Analyse de données

L’analyse de données est une technique qui permet de mettre en évidence des tendances des données ou corrélations entre les données non évidentes a priori. Dans le cas de l’analyse descriptive, elle cherche une information statistique "cachée" que l’on ne connaît pas a priori. L’approche prédictive consiste à réaliser un modèle statistique des corrélations entre les données à partir d’échantillons d’apprentissage, puis à appliquer le modèle à des données nouvelles pour prédire leur comportement, avec des raisonnements du type "si ... alors". Une autre technique consiste à classifier des données (tel objet caractérisé par telles don- nées appartient-il à telle classe ?). Les résultats sont généralement qualifiés par une pro- babilité d’occurrence.

Chapitre 1.SID : Définitions et Architecture 6

Figure 1.1 – Architecture d’un système décisionnel

  1. Extract (E) : Dans la phase d’extraction seules les données destinées à l’exploitation pour l’analyse qui sont gardées en connectant aux différentes applications ou bases en production.
  2. Transform (T) : Dans la phase de transformation, la mise au format des données, la fusion ou l’éclatement des informations et l’agrégation des données peuvent être effectuées.
  3. Load (L) : Enfin, dans la phase de chargement, les informations sont stockées dans les entrepôts de données.

1.6.2 Entrepôts et magasins de données

  1. Entrepôts de données Un Entrepôt de Données (ED) est défini comme étant « une collection de données orientées sujet, intégrées, non volatiles, historisées disponibles pour le support du processus de prise de décision » (Inmon, 2005). Cette définition peut être expliquée comme suit : Orientées sujet : les données sont organisées par sujet d’analyse suivant les be- soins analytiques des entreprises. Intégrées : les données hétérogènes venues de différentes sources feront l’objet d’une intégration dans un seul espace de stockage. Non volatiles : les données ne sont ni modifiables, ni supprimable. Historisées : du fait que les données sont non volatiles, des intervalles de temps les sont associés. Pour gérer l’ensemble des données entreposées, l’entrepôt de données doit disposer des "informations sur les données", à savoir les « métadonnées ». Celles-ci doivent permettre de répondre aux questions telles que : Comment extraire les données? Quelles transformations effectuer?... etc. Les métadonnées doivent également spé- cifier les droits d’accès et d’utilisation associés à ces données. Les données entreposées dans les entrepôts de données sont souvent stockées sous forme de vues matérialisées. Il s’agit de tables contenant les résultats de requêtes.

Chapitre 1.SID : Définitions et Architecture 7

Elles améliorent l’exécution des requêtes en pré-calculant les opérations les plus coûteuses comme la jointure et l’agrégation.

  1. Magasins de données Un magasin de données (DM : data mart) est un sous-ensemble de l’entrepôt de don- nées concernant un secteur particulier de l’entreprise. Il s’agit de données extraites, adaptées à une classe particulière de décideurs. Un magasin de données peut être considéré comme un petit entrepôt correspondant à un sujet précis. Ceci permet de réduire le temps de réponse aux requêtes (Naoum, 2006).

1.6.3 Serveurs OLAP

Dans cette section nous allons définir le concept de système OLAP et les opérateurs assurés par son serveur.

  1. Système OLAP Sur la base de ce type de structure (ED), les systèmes OLAP sont utilisés pour définir un modèle analytique transformant les données entreposées en informations d’aide à la décision. Selon (Codd et al., 1993 ; Kimball et Ross, 2002), un système OLAP est «... une catégorie d’outils qui permet exploration interactive suivant une approche multidi- mensionnelle à plusieurs niveaux d’agrégation... ».

Ceci peut se réalisé en exploitant un entrepôt de données. Il a pour but d’évaluer l’activité et aide à la décision au sein d’une organisation.

E. F. Codd (1993) définit un cahier des charges comprenant douze règles que doivent satisfaire les modèles OLAP : (a) la structure multidimensionnelle : le modèle OLAP est multidimensionnel, (b) la transparence : le serveur OLAP est transparent pour l’utilisateur, (c) l’accessibilité : l’utilisateur OLAP dispose de l’accessibilité à toutes les données nécessaires à ses analyses, (d) la stabilité : le système reste stable quelque soit le nombre de dimensions, (e) architecture client-serveur : le serveur OLAP s’intègre dans une architecture client serveur, (f) le dimensionnement : le dimensionnement est générique pour assurer les ana- lyses, (g) la gestion complète : le serveur OLAP assure la gestion des données clairsemées, (h) les multiutilisateurs : le serveur OLAP offre un support multiutilisateur (gestion des mises à jour, intégrité, sécurité), (i) l’inter-dimension : le serveur OLAP permet la réalisation d’opérations inter dimensions sans restriction,

Chapitre 1.SID : Définitions et Architecture 9

Dice :cet opérateur est utilisé pour réaliser une sélection en utilisant une condi- tion définie sur deux dimensions ou plus. Projection : cet opérateur permet de sélectionner un sous-ensemble de mesures de l’hypercube. Pivot : cet opérateur effectue un pivotage des axes de l’hypercube.

1.6.4 Les outils d’analyse

L’outil d’analyse (client OLAP) représente l’élément le plus important pour l’utilisa- teur final qui permet d’exploiter les données stockées. C’est l’élément qui correspond à la partie visible du système par rapport au décideur.

En ce qui concerne les techniques de traitements des donnees, on distingue trois solu- tions :

SQL : SQL est utilise pour effectuer les differents traitements sur les données. On réalise les opérations de traitement (forage vers le haut, vers le bas, etc.) en utilisant des requêtes en général très complexes et tres exigeantes en terme de ressources et de temps d’exécution. Il s’agit de l’alternative relationnelle (ROLAP).

Serveur de traitement OLAP : il s’agit de l’approche la plus adaptée aux trai- tements de données. Un serveur, conjointement avec la base de données, est alors dédié a effectuer les différents traitements de données. Dans ce cas, les performances sont généralement très bonnes. Il s’agit de l’alternative multidimensionnelle pure (MOLAP).

Client de traitement OLAP : un nombre limite de traitements OLAP se font sur le poste client de l’utilisateur. Il s’agit de l’alternative Bureau, en local (DOLAP).

En se basant sur ces deux critères, on peut alors différencier aisément les alternatives en combinant une technologie de stockage et une technique de traitement. Les combinaisons sont regroupées dans le Tableau 1.2.

Table 1.2 – Alternatives de mise en oeuvre OLAP

Chapitre 1.SID : Définitions et Architecture 10

1.7 Conclusion

L’analyse de données dans un système décisionnel repose sur des outils d’analyse sta- tistiques dont le concept d’OLAP se base. Il représente la technologie qui offre une analyse multidimensionnelle avec un affichage des résultats sous forme de graphiques ou des ta- bleaux. Dans le chapitre suivant, nous allons explorer les différentes techniques de modéli- sation multidimensionnelles. Cette nomenclature se base sur le mode de stockage et de traitement des données. Le vocable exploitant l’acronyme OLAP ne cesse de croitre au- jourd’hui (peut-être parfois parce qu’il est commercialement porteur). Il ne faut pas alors chercher à positionner ces termes les uns par rapport aux autres puisqu’ils référencent des concepts incomparables. Ainsi, on voit aujourd’hui apparaitre un terme comme JOLAP (Java OLAP) qui constitue en fait une API (Application Programming Interface) Java qui permet de se connecter a des applications et des serveurs OLAP, tentant de normaliser l’accès aux bases de données multidimensionnelles. On parle de SOLAP (Spatial OLAP) lorsqu’il s’agit de traiter des données spatiales. D’ailleurs, le SOLAP constitue à présent un domaine a part entière de recherche. On parle également d’OOLAP (Object OLAP), faisant référence à l’utilisation du paradigme objet. Néanmoins, à notre connaissance, cette technologie n’apparait pas dans les solutions commerciales.