Notes sur l'analyse en composantes principales (A.C.P.) - 1° partie, Notes de Applications informatiques
Francine88
Francine8813 January 2014

Notes sur l'analyse en composantes principales (A.C.P.) - 1° partie, Notes de Applications informatiques

PDF (121.3 KB)
9 pages
811Numéro de visites
Description
Notes d'informatique sur l'analyse en composantes principales (A.C.P.) - 1° partie.Les principaux thèmes abordés sont les suivants:L'analyse en composantes principales (A.C.P.),la matrice centrée,le plan factoriel.
20points
Points de téléchargement necessaire pour télécharger
ce document
Télécharger le document
Aperçu3 pages / 9
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document

L'analyse en composantes principales (A.C.P.) est une méthode mathématique d'analyse

graphique de données qui consiste à rechercher les directions de l'espace qui représentent le

mieux les corrélations entre n variables aléatoires (relation linéaire entre elles).

Simplement dit, une A.C.P. permet de trouver des similitudes de comportement d'achat entre

les classes des données observées.

Même si l'A.C.P. est majoritairement utilisée pour visualiser des données, il ne faut pas oublier

que c'est aussi un moyen :

- De décorréler ces données. Dans la nouvelle base, constituée des nouveaux axes, les points

ont une corrélation nulle (nous le démontrerons).

- De classifier ces données en amas (clusters) corrélés (dans l'industrie c'est surtout cette

possibilité qui est intéressante!).

Remarque: L'A.C.P. est aussi connue sous le nom de "transformée de Karhunen-Loève" ou de

"transformée de Hotelling" et peut aussi bien être appliquée sans programmation V.B.A. dans

MS Excel que dans des logiciels spécialisés (ou le temps de calcul sera par contre plus bref... et

plus précis aussi...).

Lorsque nous ne considérons que deux effets, il est usuel de caractériser leurs effets conjoints

via le coefficient de corrélation. Lorsque l'on se place en dimension deux, les points disponibles

(l'échantillon de points tirés suivant la loi conjointe) peuvent être représentés sur un plan. Le

résultat d'une A.C.P. sur ce plan est de déterminer les deux axes qui expliquent le mieux la

dispersion des points disponibles.

Lorsqu'il y a plus de deux effets, par exemple trois effets, il y a trois coefficients de corrélations

à prendre en compte. La question qui a donné naissance à l'A.C.P. est : comment avoir une

intuition rapide des effets conjoints?

En dimension plus grande que deux, une A.C.P. va toujours déterminer les axes qui expliquent

le mieux la dispersion du nuage des points disponibles..

L'objectif de l'A.C.P. est de décrire graphiquement un tableau de données d'individus avec leurs

variables quantitatives de grande taille :

individus/variables

Tableau: 57.1 - Représentation type d'un tableau A.C.P.

Afin de ne pas alourdir l'exposé de cette méthode et de permettre au lecteur de refaire

complètement les calculs, nous travaillerons sur un exemple.

Considérons pour l'exemple une étude d'un botaniste qui a mesuré les dimensions de 15 fleurs

d'iris. Les trois variables mesurées sont :

- : longueur du sépale

- : largeur du sépale

- : longueur du pétale

Les données sont les suivantes :

Fleur n°

1

2

3

4

5

6

7

8

9

10

11

12

13

14

5.1

4.9

4.7

4.6

5.0

7.0

6.4

6.9

5.5

6.5

6.3

5.8

7.1

6.3

3.5

3.0

3.2

3.1

3.6

3.2

3.2

3.1

2.3

2.8

3.3

2.7

3.0

2.9

1.4

1.4

1.3

1.5

1.4

4.7

4.5

4.9

4.0

4.6

6.0

5.1

5.9

5.6

15 6.5 3.0 5.8

Tableau: 57.2 - Exemple pratique de données tabulaires A.C.P.

Pour nous un tel tableau de données sera tout simplement une matricée réelle à n lignes (les

individus) et à p colonnes (les variables) :

(57.1)

Par suite l'indice i correspondra à l'indice ligne et donc aux individus. Nous identifierons donc

l'individu i avec le point ligne qui sera considéré comme un point dans un

espace affine (cf. chapitre de Calcul Vectoriel) de dimension p. L'indice j correspondra à l'indice

colonne donc aux variables. Nous identifierons la variable j avec le vecteur colonne :

(57.2)

c'est donc un vecteur dans l'espace vectoriel de dimension n dans .

Nous nous placerons dans la suite suivant deux points de vue : Soit nous prendrons le tableau

de données comme n points dans un espace affine de dimension p, soit nous prendrons ce

tableau comme p points d'un espace vectoriel de dimension n. Nous verrons qu'il y a des

dualités entre ces deux points de vue.

L'outil mathématique que nous allons utiliser ici est l'algèbre linéaire (cf. chapitre d'Algèbre

Linéaire), avec les notions de produit scalaire, de norme euclidienne et de distance euclidienne.

Afin de simplifier la présentation, nous allons dans un premier temps considérer que chaque

individu, comme chaque variable, a la même importance, le même poids. Nous ne

considérerons aussi, que le cas de la distance euclidienne.

Nous allons commencer en centrant les données, c'est-à-dire mettre l'origine du système

d'axes au centre de gravité du nuage de points. Ceci ne modifie pas l'aspect du nuage, mais

permet d'avoir les coordonnées du pointM égales aux coordonnées du vecteur et donc de

ce placer dans l'espace vectoriel pour pouvoir y faire les calculs! Comme nous supposons dans

toute la suite que le poids des individus sont identiques, nous prendrons

donc avec .

Nous considérons le repère orthonormé dans la bas

canonique de . Soit donc G le centre de gravité du nuage de point, Comme

nous considérons ici chaque variable, comme chaque individu, ayant le même poids, G a alors

pour coordonnées dans le repère :

(57.3)

avec :

(57.4)

Nous avons alors pour l'instant sous forme graphique :

(57.5)

Nous appelons "matrice centrée" la matrice :

(57.6)

Remarque: La matrice des données centrées contient les coordonnées centrées (que nous

noterons ) des individus dans le repère . Nous nous placerons dans la suite

toujours dans ce repère pour le nuage de points des individus et nous prendrons .

Pour notre exemple, nous avons :

(57.7)

et pour la matrice centrée :

(57.8)

et sous forme graphique :

(57.9)

Pour donner une importance identique à chaque variable afin que le type d'unités des mesures

n'influence pas l'analyse, nous travaillerons avec les données centrées réduites (cf. chapitre de

Statistiques). Pour cela, nous noterons d'abord:

(57.10)

la variance d'échantillon de la variable est donc égale à un facteur 1/n près à la norme de

cette même variable mais centrée. La matrice des données centrées réduites (sans dimensions)

est alors :

(57.11)

Si nous notons la matrice diagonale suivante :

(57.12)

Nous avons alors :

(57.13)

Remarque: La moyenne de la variable est nulle et donc sa variance est alors 1 (ce qui revient

à dire que la norme de la variable centrée réduite est de norme unitaire comme nous allons de

suite le démontrer).

Nous définissons la "matrice des données centrées normées" par :

(57.14)

Soit encore (il s'agit simplement de l'erreur quadratique moyenne que nous avions introduit

dans le chapitre de Statistiques) :

(57.15)

La terminologie vient bien évidemment du fait que la variable (vecteur) est de norme

unitaire. En effet :

(57.16)

Ce qui donne:

(57.17)

Nous avons graphiquement :

(57.18)

Représenter le nuage de points des données centrées réduites ou centrées normées ne modifie

rien à la forme de celui-ci. En effet, la différence entre les deux n'est qu'un changement

d'échelle.

L'information intéressante pour les individus est la distance entre les points! En effet plus cette

distance sera grande entre deux individus et plus les deux individus seront différents et

mieux on pourra les caractériser. Mais il faut d'abord choisir une distance. Nous prendrons la

distance euclidienne (cf. chapitre de Topologie) :

(57.19)

Les figures suivantes montrent les projections orthogonales dans l'espace de ce nuage de

points respectivement dans les plans et enfin dans qui est la

meilleure projection, appelé "plan factoriel" (ou parfois "diagramme des scores"), dans le sens

où elle respecte le mieux les distances entre les individus (in extenso, elle déforme moins le

nuage de points dans l'espace). L'objectif de l'A.C.P. est de déterminer ce meilleur plan et nous

démontrerons comment.

commentaires (0)
Aucun commentaire n'a été pas fait
Écrire ton premier commentaire
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Docsity n'est pas optimisée pour le navigateur que vous utilisez. Passez à Google Chrome, Firefox, Internet Explorer ou Safari 9+! Téléchargez Google Chrome