Prepare for your exams
Get points
Guidelines and tips
Sell on Docsity
Docsity AI

Prepare for your exams

Study with the several resources on Docsity

Earn points to download

Earn points by helping other students or get them with a premium plan

Guidelines and tips

Sell on Docsity

Docsity AI

Prepare for your exams

Study with the several resources on Docsity

Find documents

Prepare for your exams with the study notes shared by other students like you on Docsity

Search for your university

Find the specific documents for your university's exams

Docsity AINEW

Summarize your documents, ask them questions, convert them into quizzes and concept maps

Explore questions

Clear up your doubts by reading the answers to questions asked by your fellow students

Earn points to download

Earn points by helping other students or get them with a premium plan

Share documents

20 Points

For each uploaded document

Answer questions

5 Points

For each given answer (max 1 per day)

All the ways to get free points

Get points immediately

Choose a premium plan with all the points you need

Study Opportunities

Choose your next study program

Get in touch with the best universities in the world. Search through thousands of universities and official partners

Community

Ask the community

Ask the community for help and clear up your study doubts

Free resources

Our save-the-student-ebooks!

Download our free guides on studying techniques, anxiety management strategies, and thesis advice from Docsity tutors

data mining computer science, Schemes and Mind Maps of Data Mining

Université Badji Mokhtar-Annaba Data Mining

data mining computer science intelligence artificielle

Typology: Schemes and Mind Maps

2020/2021

Uploaded on 02/16/2025

khattab-rayen 🇩🇿

2 documents

1 / 74

This page cannot be seen from the preview

Don't miss anything!

Master

MASI

Mohamed NEMICHE

Faculté des Sciences d’Agadir

(2014/2015)

Master MASI

Data mining

Discover Schemes and Mind Maps of Data Mining Université Badji Mokhtar-Annaba

Partial preview of the text

Download data mining computer science and more Schemes and Mind Maps Data Mining in PDF only on Docsity!

Master

MASI

Mohamed NEMICHE Faculté des Sciences d’Agadir (2014/2015) Master MASI

Data mining

I) Introduction
II) Chapitre 1 : Histoire et installation de R
- II.1 - R Project
- II.2 - Rstudio
- II.3 - Rattle
- II.4 - FactoMineR..........................................................................................
III) Chapitre 2 : Analyse exploratoire (descriptive).......................................
- III.1 - Types de variables.............................................................................
  - III.1.1) Variables qualitatives
  - III.1.2) Transformation d’une variable quantitative envariable qualitative
- III.2 - Les données
- III.3 - Nuage de points
- III.4 - Description d’une variable quantitative
- III.5 - Matrice de Corrélation
  - III.5.1) Interprétation géométrique du coefficient de corrélation
IV) Chapitre 3 : Les Règles d’Association Concepts Basiques
- IV.1 - Règles d’association?
- IV.2 - Représentation des transactions.......................................................
- IV.3 - Représentation verticale
- IV.4 - Représentation horizontale
- IV.5 - Critères d’évaluation des règles d’association
- IV.6 - Métriques : Critères d’évaluation des règles d’association
- IV.7 - L’algorithme Apriori[Agrawal93]
V) Chapitre 4 : Clustering (Segmentation)
- V.1 - Qualité d’un clustering
- V.2 - Objectifs du clustering
- V.3 - Exemples d’applications
- V.4 - Méthodes de Clustering
VI) Chapitre 5 : Classification Datamining: Méthodes prédictives
- VI.1 - Arbre de décision méthode de classification
  - VI.1.1) Processus de Classification (2): Prédiction
- VI.2 - Classification Réseaux de Neurones
- VI.3 - Structure d’un Réseau de Neurones
  - VI.3.1) Algorithme d’apprentissage
VII) Chapitre 6 : Régression
- VII.1 - Régression Linéaire simple
  - VII.1.1) Prévision avec la régression linéaire simple
  - VII.1.2) Comment construire un intervalle de confiance?
- VII.2 - Régression linéaire multiple
- VII.3 - Régression logistique

I) Introduction

Qu'est-ce que le data Mining?

Extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données. C’est analyser les données pour trouver des patrons cachés en utilisant des moyens automatiques.

C’est un processus non élémentaire de recherche de relations, corrélations, dépendances, associations, modèles, structures, tendances, classes (clusters), segments, lesquelles sont obtenues de grande quantité de données (généralement stockées sur des bases de données (relationnelles ou no)). Cette recherche est effectuée à l’aide des méthodes mathématiques, statistiques ou algorithmiques.

Data Mining se considère comme un processus le plus automatique possible, qui part de données élémentaires disponibles dans un Data Warehouse à la décision. L’objectif principale de Dat Mining c’est de créer un processus automatique qui a comme point de départ les données y comme finalité l’aide à la prise des décisions.

Data Mining versus KDD (Knowledge Discovery in Databses)

O habituellement les deux termes sont interchangés.

O KDD (Knowledge Discovery in Databses) : C’est le processus de trouver information et/ou partons utiles à partir de données.

O Data Mining : C’est l’utilisation des algorithmes pour extraire information et/ou partons comme partie du processus KDD.

Data Mining: C’est une partie du processus KDD

Data Mining: Le cœur du processus d’extraction de connaissances.

O Corpus d’apprentissage.

Data Mining versus Data Warehouse

Data warehouse est un entrepôt de données d’une entreprise qui contient quelques données opérationnelles, données agrégées (agrégations), données historiques, données évolutives et possiblement des données externe à l’entreprise qui ont une relation avec l’activité de l’entreprise. Ces données sont stockées dans une ou plusieurs base de données relationnelle et sont accessibles par toutes les applications orientées aide à la décision.

Évidemment Data Warehouse et Data Mining sont deux choses très différentes. Data Warehouse est usuellement le point le départ de Data Mining. Data Warehouse et Data Mining sont des parties du processus KDD.

Qu'est-ce que le Data Warehouse

Data Mining versus Machine Learning

Machine Learning: C’est un sujet de l’intelligence artificielle (IA) qui s’occupe de la façon d'écrire des programmes qui peuvent apprendre. Dans Data Mining machine learning est habituellement utilisés pour la prédiction et classification.Machine learning se divise en deux : Apprentissage supervisé (learn by example) et apprentissage non supervisé.

Data Mining: sur quels types de données O Fichiers plats

O BD’s relationnelles

O Data warehouses

BDD DataWarehouse

O BD’s transactionnelles

O BD’s avancées

O BD’s objet et objet-relationnelles O BD’s spatiales

O Séries temporelles

O BD’s Textes et multimedia

O BD’s Hétérogènes

O WWW (web mining)

Data Mining: Intersection de multiples disciplines

Applications par domaine

O Clustering : (classification non supervisée, apprentissage non supervisé) : c’est similaire à la classification, sauf que les groupes no sont pas prédéfinies. L’objectif est de décomposer ou de segmenter un ensemble de données ou individus en groupes qui peuvent être disjoints ou non.

O Les groupes se forment à base de la similarité des données o des individus en certaines variables.

O Comme groupes suggérés (imposés) par les données, pas définis a priori l'expert doit donner une interprétation des groupes qui se forment.

O Méthodes :

 K-means  Classification hiérarchique (groupes disjoints)  nuées dynamiques (groupes disjoints)  Classification pyramidale (groupes non disjoints)

O Classification : (discrimination) : associer des données à des groupes prédéfinis (apprentissage supervisé)

Trouver des modèles (fonctions) qui décrivent et distinguent des concepts pour de futures prédictions.

O Méthodes :

 Arbres de décision,

 règles de classification,

 réseaux neuronaux.

Régression : la régression est utilisée pour prédire les valeurs absentes d’une variable en se basant sur sa relation avec les autres variables de l’ensemble de données.

O Régression linéaire, non linéaire, logistique, logarithmique, univariée, multivariée, entre d’autres.

Règles d’association (analyse d’affinité) : connue comme (Link Analysis) se réfère à découvrir les relations non évidentes entre les données.

O Méthodes :

 Règles d’associations (association rules)

 Analyse de corrélation et de causalité

Business Intelligence

Business Intelligence (BI) est un concept proposé par IBM, Microsoft, Oracle, … pour « Consolider la quantité gigantesque de données atomiques que les entreprises génèrent en information pour que les gens puissent les accéder, les comprendre et les utiliser »

=> Présenter l’information dans des formats plus utiles, en utilisant des outils d’exploration, de reporting et de visualisation avancés.

Cycle de vie d’un projet de Data Mining

Apprentissage du domaine d’application :

O Connaissances nécessaires et buts de l’application

Création du jeu de données cible : sélection des données
Nettoyage et prétraitement des données (jusqu’à 60% du travail !)
Réduction et transformation des données

O Trouver les caractéristiques utiles, dimensionnalité/réduction des variables

Choix des fonctionnalités data mining

O synthèse, classification, régression, association, clustering

Choix des algorithmes
Data mining : recherche de motifs (patterns) intéressants
Évaluation des motifs et représentation des connaissances

O visualisation, transformation, élimination des motifs redondants, etc.

Utilisation des connaissances découvertes.

Ce qui n’est pas de Data Mining

O En générale Data Mining n'est pas basé sur des modèles déterministes.

O Un modèle déterministe ne fait intervenir aucune variable aléatoire. Les relations entre variables sont strictement fonctionnelles.

Ce qui n’est pas de la fouille de données

O En générale Data Mining est basé sur des modèles probabilistes.

O Un modèle probabiliste est un modèle mathématique qui nous aide à prévoir le comportement des futures répétitions d’une expérience aléatoire en se basant sur l’estimation d’une probabilité d’apparition de cet évènement concret.

Chapitre 1

Histoire et

installation de R

II.3 - Rattle

O Pour l’installer

O install.packages(« rattle »,dependencies=TRUE)

O Pour l’éxecuter :

O library (rattle)

O rattle ()

O Site web :

O http://rattle.togaware.com/

Interface de R sous Windows

Interface de Rattle

II.4 - FactoMineR

O FactoMineR a été créé dans le département de Mathématiques Appliquées de: Agrocampus de l’Université de Rennes, France.

O Vous avez la possibilité d’installer FactoMineR comme un package classique ou d'installer FactoMineR et son interface graphique afin de l'utiliser de façon plus conviviale:http://factominer.free.fr/index_fr.html

O Pou installer FacoMineR GUI :source("http://factominer.free.fr/install-facto-fr.r")

Chapitre 2

Analyse

exploratoire

III) Analyse exploratoire (descriptive)

Une variable est une propriété ou caractéristique d’un individu

O Exemple : Couleur des yeux d’une personne, température, état civil, …

O Une collection de variables décrivant à un individu

On dit individu ou enregistrement, point, cas, objet, entité, exemple d’observation

III.1 - Types de variables

Qualitative : les variables représentent des catégories différentes au lieu des numéros. Les opérations mathématiques comme la somme et la soustraction n’ont pas de sens.

O Exemples : couleur des yeux, niveau académique, adresse IP

Quantitative : les variables sont les numéros

O Exemple : poids, la température, le nombre d’enfants

data mining computer science, Schemes and Mind Maps of Data Mining

Related documents

Partial preview of the text

Download data mining computer science and more Schemes and Mind Maps Data Mining in PDF only on Docsity!

Master

MASI

Data mining

I) Introduction

Chapitre 1

Histoire et

installation de R

II.3 - Rattle

II.4 - FactoMineR

Chapitre 2

Analyse

exploratoire

III) Analyse exploratoire (descriptive)

III.1 - Types de variables