Exercices sur le thème de l'analyse des données - 1° partie, Exercices de Réseaux informatiques avancés
Christophe
Christophe3 March 2014

Exercices sur le thème de l'analyse des données - 1° partie, Exercices de Réseaux informatiques avancés

PDF (90.8 KB)
9 pages
559Numéro de visites
Description
Exercices d’informatique sur le thème de l'analyse des données - 1° partie. Les principaux thèmes abordés sont les suivants:introduction a l’analyse de données, analyse en composantes principales.
20points
Points de téléchargement necessaire pour télécharger
ce document
Télécharger le document
Aperçu3 pages / 9
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document
analyse_donnees.dvi

ANALYSE DE DONNEES

Johann PAVIS (selon source :)

Table des matières

1 INTRODUCTION A L’ANALYSE DE DONNÉES 4 1.1 Retapes préliminaires . . . . . . . . . . . . . . . . . . . . . . . 4

1.1.1 Construction du tableau de données . . . . . . . . . . . 4 1.1.2 Notion d’individu et de variable . . . . . . . . . . . . . 5

1.1.2.1 Typologie de Diday . . . . . . . . . . . . . . . 5 1.1.2.2 Typologie de Lerman . . . . . . . . . . . . . . 5

1.1.3 Tableaux de données . . . . . . . . . . . . . . . . . . . 6 1.1.3.1 Tableau de données quantitatives . . . . . . . 6 1.1.3.2 Tableau de contingence . . . . . . . . . . . . 6 1.1.3.3 Tableau d’incidence . . . . . . . . . . . . . . 7 1.1.3.4 Tableau de préférences . . . . . . . . . . . . . 7 1.1.3.5 Tableau de modalités . . . . . . . . . . . . . . 7 1.1.3.6 Tableau de proximité . . . . . . . . . . . . . . 7

1.2 Eléments descriptifs d’un tableau de données . . . . . . . . . . 7 1.2.1 Les notions . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2.2 Eléments descriptifs . . . . . . . . . . . . . . . . . . . . 8

1.2.2.1 Au niveau des variables . . . . . . . . . . . . 8 1.2.2.2 Au niveau des individus . . . . . . . . . . . . 9

1.3 Choix d’une mesure de ressemblance . . . . . . . . . . . . . . 9 1.3.0.3 Quelques définitions . . . . . . . . . . . . . . 9 1.3.0.4 Calcul de distance . . . . . . . . . . . . . . . 10

1.3.1 Mesures de ressemblance entre groupes d’objets . . . . 10

2 ANALYSE EN COMPOSANTES PRINCIPALES 12 2.1 Problème à traiter . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2 Formulation mathématique . . . . . . . . . . . . . . . . . . . . 12 2.3 Résolution du problème . . . . . . . . . . . . . . . . . . . . . 13

2.3.1 Choix de a . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3.2 Choix des vecteurs générateurs . . . . . . . . . . . . . 13

2.4 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.4.1 Axes principaux d’inertie . . . . . . . . . . . . . . . . . 14

2

2.4.2 Les composantes principales . . . . . . . . . . . . . . . 14 2.4.3 La valeur du critère IW . . . . . . . . . . . . . . . . . . 14 2.4.4 Interprétation des résultats : les individus . . . . . . . 14

2.4.4.1 Coordonnées . . . . . . . . . . . . . . . . . . 14 2.4.4.2 Qualité globale de la représentation . . . . . . 15 2.4.4.3 Qualité ponctuelle de représentation . . . . . 15 2.4.4.4 Contribution absolue d’un individu à l’axe . . 15

2.4.5 Interprétation des résultats : les variables . . . . . . . . 15 2.5 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3 ANALYSE FACTORIELLE DES CORRESPONDANCES 17 3.1 Le but de la méthode . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 La méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2.1 Transformation des données initiales : passage aux ma- trices de profil . . . . . . . . . . . . . . . . . . . . . . . 17

3.2.2 Les nuages NI et NJ . . . . . . . . . . . . . . . . . . . 18 3.2.3 Choix des métriques : matrices MI et MJ . . . . . . . . 18 3.2.4 Calcul de X̂I et de X̂J . . . . . . . . . . . . . . . . . . 18 3.2.5 Calcul de VI et de VJ . . . . . . . . . . . . . . . . . . . 18 3.2.6 Recherche des axes principaux d’inertie . . . . . . . . . 19

3.3 Les résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.1 Les composantes principales . . . . . . . . . . . . . . . 21 3.3.2 Contributions absolue et relative . . . . . . . . . . . . 21 3.3.3 Représentation graphique . . . . . . . . . . . . . . . . 22

4 CLASSIFICATION AUTOMATIQUE 23 4.1 But . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.2 Classification par hiérarchie et par arbre . . . . . . . . . . . . 23

4.2.1 Principe de la méthode . . . . . . . . . . . . . . . . . . 23 4.2.2 Définition d’une hiérarchie . . . . . . . . . . . . . . . . 24 4.2.3 Construction de hiérarchies indicées . . . . . . . . . . . 26 4.2.4 Classification hiérarchique ascendante de saut minimal

et arbre des poids minimaux . . . . . . . . . . . . . . . 27

3

Chapitre 1

INTRODUCTION A L’ANALYSE DE DONNÉES

L’analyse de données traite des données statistiques, souvent triées sous forme de tableaux, de dimension n× p.

Il existe deux grandes méthodes pour réduire la taille des données à ana- lyser :

- l’analyse factorielle (analyse en composantes principales, analyse facto- rielle des correspondances)

- la classification automatique (classification ascendante hiérarchique)

x

x

x

x

x

x

xx

x

x x

xx

x

x x

x

x

x x

x

xx

xObtention d’un

Plan

ANALYSE FACTORIELLE Pour la classification, on mesure toutes les distances, puis on trace un

arbre. Plus les individus sont éloignés, plus les palliés sont importants.

1.1 Retapes préliminaires

1.1.1 Construction du tableau de données

Il se fabrique en général à partir d’un questionnaire. Pour pouvoir le traiter en analyse de données, il faut que ce tableau soit homogène, c’est à dire qu’il ne doit contenir qu’un seul type de données.

4

1.1.2 Notion d’individu et de variable

Notion d’individu Un individu est un élément de la population Ω étudiée (cette population est supposée finie). Il correspond à une ligne du tableau.

Notion de variable A chaque paramètre choisi par l’utilisateur pour décrire les individus, on associe une ou plusieurs variables. Une variable est définie par les données suivantes :

- un ensemble O, appelé espace d’observation ; - une structure S sur O ; - une application v de Ω sur (O,S)

1.1.2.1 Typologie de Diday

O continu O fini/dénombrable O est sous CSP, yeux, nominales

structure = = département O sous Age, température rang ordonnables

structure d’ordre O corps Revenu (mensuel, . . .) mesurables

ordonnable quantitatives qualitatives

1.1.2.2 Typologie de Lerman

Variables d’incidence

Attributs descriptifs

x ∈ Ω : v(x) = {

1, si x vérifie v 0, sinon

Ceci permet parfois d’homogénéiser un tableau, en “éclatant”les indivi- dus.

Variables numériques

x → v(x) R Elles peuvent servir pour la description des propriétés agricoles (surface

agricole utile, ...), par exemple.

Variables relationnelles

5

Ensemble de modalités totalement ordonné

x → v(x) = Ck Ck ∈ {C0, C1, C2, ..., Cp} où (i, j) [1, p]2, i ≤ j ⇒ Ci ≤ Cj

Ensemble de modalités sans relation d’ordre

x → Ck = v(x) ∈ {C0, C1, ..., Cp}

Variable “rang” Note, sur une échelle suffisamment fine pour que 2 individus n’aient pas

la même note.

Variable mesure sur Ω× Ω Elle peut être utile pour les exportations vers d’autres pays, par exemple.

1.1.3 Tableaux de données

Ils doivent être homogènes.

1.1.3.1 Tableau de données quantitatives

Profondeur 5m 10 m 15 m

Sondage S1 Sondage S2 Sondage S3 x

3 2

1.1.3.2 Tableau de contingence

Il s’agit d’un tableau d’effectifs (sans unité donc...). En voici un exemple :

Alezan Corsaire Directoire Orly distingué 14 12 mièvre ridicule

pour 1 femme

Pour ce genre de tableaux, on utilise la méthode d’analyse factorielle des correspondances.

6

1.1.3.3 Tableau d’incidence

Ce sont des tableaux de variables attributs descriptifs (département, de rérsidence, entre autres). Les tableaux étant en général très volumineux, on tente de les réduire (classe d’âge, région, etc...)

1.1.3.4 Tableau de préférences

Voici un exemple, un échantillon de vins :

V1 V2 V3 V4 V5 V6 V7 V8 V9 n˚1 1 3 2 7 9 4 6 5 8

1.1.3.5 Tableau de modalités

Ils peuvent servir pour les enquêtes sur la fréquence de lecture de revues ou de journaux par exemple. Il peut, dans ces tableaux, y avoir plusieurs fois la même réponse sur une ligne.

1.1.3.6 Tableau de proximité

Ils servent à traiter les mesures sur Ω×Ω. Par exemple, pour les échnges internationnaux :

M1 M2 M3 M4 M1 20 3 5 10 M2 20 M3 20

1.2 Eléments descriptifs d’un tableau de données

1.2.1 Les notions

n est le nombre d’individus, soit celui de lignes. p est le nombre de va- riables, soit le nombre de colonnes.

Le tableau est souvent notéX, les valeurs pour l’individu i pour la variable j est noté xji .

7

On note xji l’individu correspondant à la ligne i. C’est le vecteur :

⎛⎜⎜⎜⎜⎜⎝ x1i ...

xji ... xpi

⎞⎟⎟⎟⎟⎟⎠ Rp

De même, on note xj la variable correspondant à la ligne j. C’est le

vecteur :

⎛⎜⎜⎜⎜⎜⎝ xj1 ...

xji ... xjn

⎞⎟⎟⎟⎟⎟⎠ Rn

Rp est l’espace des individus, Rn celui des variables.

1.2.2 Eléments descriptifs

1.2.2.1 Au niveau des variables

On peut considérer chaque variable comme une série statistique de n observations. On peut donc calculer sa moyenne, notée xj =

n i=1 pi.x

j i où

pi est le poids de l’individu i (en général, on a : pi = 1 n ).

On peut également calculer : - la variance :

V ar(xj) =

ni=1

pi.(x j i − xj)2

- l’écart-type :

σxj = √

V ar(xj)

Pour deux variables, on peut calculer la covariance :

Cov(xj, xj ′ ) =

ni=1

pi.(x j i − xj).(xj

′ i − xj

)

De même, on calcule la corrélation :

Coor(xj , xj ′ ) =

Cov(xj, xj ′ )

σxjσxj′

8

1.2.2.2 Au niveau des individus

On peut considérer chaque individu comme une série statistiques de p observations. On peut donc en calculer la moyenne, l’écart-type, etc. Il y a cependant ici un problème de signification.

En revanche, on représente souvent le nuage des individus (NI) comme un solide auquel il est assimilé. On peut donc en calculer le centre de gravité :

x = n

i=1

pi.xi

Les coordonnées de ce centre de gravité (en développant) sont les moyennes des variables. On calcule également l’inertie de ce solide :

I = ∑ i=1

npi.d 2(xi, x

où d est une distance. En analyse de données, la distance dépend du nombre de variables.

1.3 Choix d’une mesure de ressemblance

1.3.0.3 Quelques définitions

Indice de similarité Il s’agit d’une application s de Ω2 dans R+ telle que :⎧⎨⎩ s est symétrique et ∀(ω, ω′) Ω2, ω = ω′ ⇒ s(ω, ω) = s(ω′, ω′) ≥ s(ω, ω′)

Indice de dissimilarité Il s’agit d’une application de Ω2 dans R+ telle que :

∀ω ∈ Ω, s(ω, ω) = 0

Distance Il s’agit d’un indice de dissimilarité vérifiant de plus :

(ω, ω′, ω′′) Ω3, {

s(ω, ω ′ ) = 0 ⇔ ω = ω′ (a)

s(ω, ω ′′ ) ≤ s(ω, ω′) + s(ω′, ω′′) (b)

Ultramétrique Il s’agit d’une distance vérifiant (a) et :

(ω, ω′, ω′′) Ω3, s(ω, ω′′ ≤ max(s(ω, ω′), s(ω′, ω′′)

9

commentaires (0)
Aucun commentaire n'a été pas fait
Écrire ton premier commentaire
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Docsity n'est pas optimisée pour le navigateur que vous utilisez. Passez à Google Chrome, Firefox, Internet Explorer ou Safari 9+! Téléchargez Google Chrome