


































































Study with the several resources on Docsity
Earn points by helping other students or get them with a premium plan
Prepare for your exams
Study with the several resources on Docsity
Earn points to download
Earn points by helping other students or get them with a premium plan
data mining computer science intelligence artificielle
Typology: Schemes and Mind Maps
1 / 74
This page cannot be seen from the preview
Don't miss anything!



































































Mohamed NEMICHE Faculté des Sciences d’Agadir (2014/2015) Master MASI
Qu'est-ce que le data Mining?
Extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données. C’est analyser les données pour trouver des patrons cachés en utilisant des moyens automatiques.
C’est un processus non élémentaire de recherche de relations, corrélations, dépendances, associations, modèles, structures, tendances, classes (clusters), segments, lesquelles sont obtenues de grande quantité de données (généralement stockées sur des bases de données (relationnelles ou no)). Cette recherche est effectuée à l’aide des méthodes mathématiques, statistiques ou algorithmiques.
Data Mining se considère comme un processus le plus automatique possible, qui part de données élémentaires disponibles dans un Data Warehouse à la décision. L’objectif principale de Dat Mining c’est de créer un processus automatique qui a comme point de départ les données y comme finalité l’aide à la prise des décisions.
Data Mining versus KDD (Knowledge Discovery in Databses)
O habituellement les deux termes sont interchangés.
O KDD (Knowledge Discovery in Databses) : C’est le processus de trouver information et/ou partons utiles à partir de données.
O Data Mining : C’est l’utilisation des algorithmes pour extraire information et/ou partons comme partie du processus KDD.
Data Mining: C’est une partie du processus KDD
Data Mining: Le cœur du processus d’extraction de connaissances.
O Corpus d’apprentissage.
Data Mining versus Data Warehouse
Data warehouse est un entrepôt de données d’une entreprise qui contient quelques données opérationnelles, données agrégées (agrégations), données historiques, données évolutives et possiblement des données externe à l’entreprise qui ont une relation avec l’activité de l’entreprise. Ces données sont stockées dans une ou plusieurs base de données relationnelle et sont accessibles par toutes les applications orientées aide à la décision.
Évidemment Data Warehouse et Data Mining sont deux choses très différentes. Data Warehouse est usuellement le point le départ de Data Mining. Data Warehouse et Data Mining sont des parties du processus KDD.
Qu'est-ce que le Data Warehouse
Data Mining versus Machine Learning
Machine Learning: C’est un sujet de l’intelligence artificielle (IA) qui s’occupe de la façon d'écrire des programmes qui peuvent apprendre. Dans Data Mining machine learning est habituellement utilisés pour la prédiction et classification.Machine learning se divise en deux : Apprentissage supervisé (learn by example) et apprentissage non supervisé.
Data Mining: sur quels types de données O Fichiers plats
O BD’s relationnelles
O Data warehouses
BDD DataWarehouse
O BD’s transactionnelles
O BD’s avancées
O BD’s objet et objet-relationnelles O BD’s spatiales
O Séries temporelles
O BD’s Textes et multimedia
O BD’s Hétérogènes
O WWW (web mining)
Data Mining: Intersection de multiples disciplines
Applications par domaine
O Clustering : (classification non supervisée, apprentissage non supervisé) : c’est similaire à la classification, sauf que les groupes no sont pas prédéfinies. L’objectif est de décomposer ou de segmenter un ensemble de données ou individus en groupes qui peuvent être disjoints ou non.
O Les groupes se forment à base de la similarité des données o des individus en certaines variables.
O Comme groupes suggérés (imposés) par les données, pas définis a priori l'expert doit donner une interprétation des groupes qui se forment.
O Méthodes :
K-means Classification hiérarchique (groupes disjoints) nuées dynamiques (groupes disjoints) Classification pyramidale (groupes non disjoints)
O Classification : (discrimination) : associer des données à des groupes prédéfinis (apprentissage supervisé)
Trouver des modèles (fonctions) qui décrivent et distinguent des concepts pour de futures prédictions.
O Méthodes :
Arbres de décision,
règles de classification,
réseaux neuronaux.
Régression : la régression est utilisée pour prédire les valeurs absentes d’une variable en se basant sur sa relation avec les autres variables de l’ensemble de données.
O Régression linéaire, non linéaire, logistique, logarithmique, univariée, multivariée, entre d’autres.
Règles d’association (analyse d’affinité) : connue comme (Link Analysis) se réfère à découvrir les relations non évidentes entre les données.
O Méthodes :
Règles d’associations (association rules)
Analyse de corrélation et de causalité
Business Intelligence
Business Intelligence (BI) est un concept proposé par IBM, Microsoft, Oracle, … pour « Consolider la quantité gigantesque de données atomiques que les entreprises génèrent en information pour que les gens puissent les accéder, les comprendre et les utiliser »
=> Présenter l’information dans des formats plus utiles, en utilisant des outils d’exploration, de reporting et de visualisation avancés.
Cycle de vie d’un projet de Data Mining
O Connaissances nécessaires et buts de l’application
O Trouver les caractéristiques utiles, dimensionnalité/réduction des variables
O synthèse, classification, régression, association, clustering
O visualisation, transformation, élimination des motifs redondants, etc.
Ce qui n’est pas de Data Mining
O En générale Data Mining n'est pas basé sur des modèles déterministes.
O Un modèle déterministe ne fait intervenir aucune variable aléatoire. Les relations entre variables sont strictement fonctionnelles.
Ce qui n’est pas de la fouille de données
O En générale Data Mining est basé sur des modèles probabilistes.
O Un modèle probabiliste est un modèle mathématique qui nous aide à prévoir le comportement des futures répétitions d’une expérience aléatoire en se basant sur l’estimation d’une probabilité d’apparition de cet évènement concret.
O Pour l’installer
O install.packages(« rattle »,dependencies=TRUE)
O Pour l’éxecuter :
O library (rattle)
O rattle ()
O Site web :
O http://rattle.togaware.com/
Interface de R sous Windows
Interface de Rattle
O FactoMineR a été créé dans le département de Mathématiques Appliquées de: Agrocampus de l’Université de Rennes, France.
O Vous avez la possibilité d’installer FactoMineR comme un package classique ou d'installer FactoMineR et son interface graphique afin de l'utiliser de façon plus conviviale:http://factominer.free.fr/index_fr.html
O Pou installer FacoMineR GUI :source("http://factominer.free.fr/install-facto-fr.r")
Une variable est une propriété ou caractéristique d’un individu
O Exemple : Couleur des yeux d’une personne, température, état civil, …
O Une collection de variables décrivant à un individu
On dit individu ou enregistrement, point, cas, objet, entité, exemple d’observation
Qualitative : les variables représentent des catégories différentes au lieu des numéros. Les opérations mathématiques comme la somme et la soustraction n’ont pas de sens.
O Exemples : couleur des yeux, niveau académique, adresse IP
Quantitative : les variables sont les numéros
O Exemple : poids, la température, le nombre d’enfants