data mining computer science, Schemes and Mind Maps of Data Mining

data mining computer science intelligence artificielle

Typology: Schemes and Mind Maps

2020/2021

Uploaded on 02/16/2025

khattab-rayen
khattab-rayen 🇩🇿

2 documents

1 / 74

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
Master
MASI
Mohamed NEMICHE
Faculté des Sciences d’Agadir
(2014/2015)
Master MASI
Data mining
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a

Partial preview of the text

Download data mining computer science and more Schemes and Mind Maps Data Mining in PDF only on Docsity!

Master

MASI

Mohamed NEMICHE Faculté des Sciences d’Agadir (2014/2015) Master MASI

Data mining

  • I) Introduction
  • II) Chapitre 1 : Histoire et installation de R
    • II.1 - R Project
    • II.2 - Rstudio
    • II.3 - Rattle
    • II.4 - FactoMineR..........................................................................................
  • III) Chapitre 2 : Analyse exploratoire (descriptive).......................................
    • III.1 - Types de variables.............................................................................
      • III.1.1) Variables qualitatives
      • III.1.2) Transformation d’une variable quantitative envariable qualitative
    • III.2 - Les données
    • III.3 - Nuage de points
    • III.4 - Description d’une variable quantitative
    • III.5 - Matrice de Corrélation
      • III.5.1) Interprétation géométrique du coefficient de corrélation
  • IV) Chapitre 3 : Les Règles d’Association Concepts Basiques
    • IV.1 - Règles d’association?
    • IV.2 - Représentation des transactions.......................................................
    • IV.3 - Représentation verticale
    • IV.4 - Représentation horizontale
    • IV.5 - Critères d’évaluation des règles d’association
    • IV.6 - Métriques : Critères d’évaluation des règles d’association
    • IV.7 - L’algorithme Apriori[Agrawal93]
  • V) Chapitre 4 : Clustering (Segmentation)
    • V.1 - Qualité d’un clustering
    • V.2 - Objectifs du clustering
    • V.3 - Exemples d’applications
    • V.4 - Méthodes de Clustering
  • VI) Chapitre 5 : Classification Datamining: Méthodes prédictives
    • VI.1 - Arbre de décision méthode de classification
      • VI.1.1) Processus de Classification (2): Prédiction
    • VI.2 - Classification Réseaux de Neurones
    • VI.3 - Structure d’un Réseau de Neurones
      • VI.3.1) Algorithme d’apprentissage
  • VII) Chapitre 6 : Régression
    • VII.1 - Régression Linéaire simple
      • VII.1.1) Prévision avec la régression linéaire simple
      • VII.1.2) Comment construire un intervalle de confiance?
    • VII.2 - Régression linéaire multiple
    • VII.3 - Régression logistique

I) Introduction

Qu'est-ce que le data Mining?

Extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données. C’est analyser les données pour trouver des patrons cachés en utilisant des moyens automatiques.

C’est un processus non élémentaire de recherche de relations, corrélations, dépendances, associations, modèles, structures, tendances, classes (clusters), segments, lesquelles sont obtenues de grande quantité de données (généralement stockées sur des bases de données (relationnelles ou no)). Cette recherche est effectuée à l’aide des méthodes mathématiques, statistiques ou algorithmiques.

Data Mining se considère comme un processus le plus automatique possible, qui part de données élémentaires disponibles dans un Data Warehouse à la décision. L’objectif principale de Dat Mining c’est de créer un processus automatique qui a comme point de départ les données y comme finalité l’aide à la prise des décisions.

Data Mining versus KDD (Knowledge Discovery in Databses)

O habituellement les deux termes sont interchangés.

O KDD (Knowledge Discovery in Databses) : C’est le processus de trouver information et/ou partons utiles à partir de données.

O Data Mining : C’est l’utilisation des algorithmes pour extraire information et/ou partons comme partie du processus KDD.

Data Mining: C’est une partie du processus KDD

Data Mining: Le cœur du processus d’extraction de connaissances.

O Corpus d’apprentissage.

Data Mining versus Data Warehouse

Data warehouse est un entrepôt de données d’une entreprise qui contient quelques données opérationnelles, données agrégées (agrégations), données historiques, données évolutives et possiblement des données externe à l’entreprise qui ont une relation avec l’activité de l’entreprise. Ces données sont stockées dans une ou plusieurs base de données relationnelle et sont accessibles par toutes les applications orientées aide à la décision.

Évidemment Data Warehouse et Data Mining sont deux choses très différentes. Data Warehouse est usuellement le point le départ de Data Mining. Data Warehouse et Data Mining sont des parties du processus KDD.

Qu'est-ce que le Data Warehouse

Data Mining versus Machine Learning

Machine Learning: C’est un sujet de l’intelligence artificielle (IA) qui s’occupe de la façon d'écrire des programmes qui peuvent apprendre. Dans Data Mining machine learning est habituellement utilisés pour la prédiction et classification.Machine learning se divise en deux : Apprentissage supervisé (learn by example) et apprentissage non supervisé.

Data Mining: sur quels types de données O Fichiers plats

O BD’s relationnelles

O Data warehouses

BDD DataWarehouse

O BD’s transactionnelles

O BD’s avancées

O BD’s objet et objet-relationnelles O BD’s spatiales

O Séries temporelles

O BD’s Textes et multimedia

O BD’s Hétérogènes

O WWW (web mining)

Data Mining: Intersection de multiples disciplines

Applications par domaine

O Clustering : (classification non supervisée, apprentissage non supervisé) : c’est similaire à la classification, sauf que les groupes no sont pas prédéfinies. L’objectif est de décomposer ou de segmenter un ensemble de données ou individus en groupes qui peuvent être disjoints ou non.

O Les groupes se forment à base de la similarité des données o des individus en certaines variables.

O Comme groupes suggérés (imposés) par les données, pas définis a priori l'expert doit donner une interprétation des groupes qui se forment.

O Méthodes :

 K-means  Classification hiérarchique (groupes disjoints)  nuées dynamiques (groupes disjoints)  Classification pyramidale (groupes non disjoints)

O Classification : (discrimination) : associer des données à des groupes prédéfinis (apprentissage supervisé)

Trouver des modèles (fonctions) qui décrivent et distinguent des concepts pour de futures prédictions.

O Méthodes :

 Arbres de décision,

 règles de classification,

 réseaux neuronaux.

Régression : la régression est utilisée pour prédire les valeurs absentes d’une variable en se basant sur sa relation avec les autres variables de l’ensemble de données.

O Régression linéaire, non linéaire, logistique, logarithmique, univariée, multivariée, entre d’autres.

Règles d’association (analyse d’affinité) : connue comme (Link Analysis) se réfère à découvrir les relations non évidentes entre les données.

O Méthodes :

 Règles d’associations (association rules)

 Analyse de corrélation et de causalité

Business Intelligence

Business Intelligence (BI) est un concept proposé par IBM, Microsoft, Oracle, … pour « Consolider la quantité gigantesque de données atomiques que les entreprises génèrent en information pour que les gens puissent les accéder, les comprendre et les utiliser »

=> Présenter l’information dans des formats plus utiles, en utilisant des outils d’exploration, de reporting et de visualisation avancés.

Cycle de vie d’un projet de Data Mining

  1. Apprentissage du domaine d’application :

O Connaissances nécessaires et buts de l’application

  1. Création du jeu de données cible : sélection des données
  2. Nettoyage et prétraitement des données (jusqu’à 60% du travail !)
  3. Réduction et transformation des données

O Trouver les caractéristiques utiles, dimensionnalité/réduction des variables

  1. Choix des fonctionnalités data mining

O synthèse, classification, régression, association, clustering

  1. Choix des algorithmes
  2. Data mining : recherche de motifs (patterns) intéressants
  3. Évaluation des motifs et représentation des connaissances

O visualisation, transformation, élimination des motifs redondants, etc.

  1. Utilisation des connaissances découvertes.

Ce qui n’est pas de Data Mining

O En générale Data Mining n'est pas basé sur des modèles déterministes.

O Un modèle déterministe ne fait intervenir aucune variable aléatoire. Les relations entre variables sont strictement fonctionnelles.

Ce qui n’est pas de la fouille de données

O En générale Data Mining est basé sur des modèles probabilistes.

O Un modèle probabiliste est un modèle mathématique qui nous aide à prévoir le comportement des futures répétitions d’une expérience aléatoire en se basant sur l’estimation d’une probabilité d’apparition de cet évènement concret.

Chapitre 1

Histoire et

installation de R

II.3 - Rattle

O Pour l’installer

O install.packages(« rattle »,dependencies=TRUE)

O Pour l’éxecuter :

O library (rattle)

O rattle ()

O Site web :

O http://rattle.togaware.com/

Interface de R sous Windows

Interface de Rattle

II.4 - FactoMineR

O FactoMineR a été créé dans le département de Mathématiques Appliquées de: Agrocampus de l’Université de Rennes, France.

O Vous avez la possibilité d’installer FactoMineR comme un package classique ou d'installer FactoMineR et son interface graphique afin de l'utiliser de façon plus conviviale:http://factominer.free.fr/index_fr.html

O Pou installer FacoMineR GUI :source("http://factominer.free.fr/install-facto-fr.r")

Chapitre 2

Analyse

exploratoire

III) Analyse exploratoire (descriptive)

Une variable est une propriété ou caractéristique d’un individu

O Exemple : Couleur des yeux d’une personne, température, état civil, …

O Une collection de variables décrivant à un individu

On dit individu ou enregistrement, point, cas, objet, entité, exemple d’observation

III.1 - Types de variables

Qualitative : les variables représentent des catégories différentes au lieu des numéros. Les opérations mathématiques comme la somme et la soustraction n’ont pas de sens.

O Exemples : couleur des yeux, niveau académique, adresse IP

Quantitative : les variables sont les numéros

O Exemple : poids, la température, le nombre d’enfants