Notes sur  l'analyse en composantes principales (A.C.P.) - 2° partie., Notes de Mathématiques
Caroline_lez
Caroline_lez13 January 2014

Notes sur l'analyse en composantes principales (A.C.P.) - 2° partie., Notes de Mathématiques

PDF (140.7 KB)
9 pages
387Numéro de visites
Description
Notes de mathématique sur l'analyse en composantes principales (A.C.P.) - 2° partie. Les principaux thèmes abordés sont les suivants: Définition, Démonstration,
20points
Points de téléchargement necessaire pour télécharger
ce document
Télécharger le document
Aperçu3 pages / 9
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document

(57.20)

(57.21)

(57.22)

Et la vue plane de chacune des projections :

(57.23)

Avant de déterminer le plan factoriel, nous allons maintenant chercher à détecter les liens

possibles entre les variables.

Nous rappelons (cf. chapitre de Statistiques) que la covariance entre deux

variables et est donnée par :

(57.24)

et que le coefficient de corrélation linéaire (cf. chapitre de Statistiques) est :

(57.25)

Nous noterons par la suite:

et (57.26)

les matrices des covariances et de corrélations carrées (toutes deux étant pour rappel des

matrices carrées et symétriques) avec .

Nous voyons facilement que la matrices des covariances et au coefficient 1/n près, la matrice

des produit scalaires canoniques des vecteurs de la matrice des données centrées (en

d'autres termes, chaque composante de la matrice des covariances est égale au produit scalaire

des variables centrées). Nous en déduisons la relation suivante :

(57.27)

La matrice des covariances-variances (puisque comme nous l'avons vu dans le chapitre de

Statistiques, la diagonale contient les variances) est un outil connu d'interprétation sur ce site.

Par contre ce qui est nouveau et va nous être très utile pour déterminer le plan factoriel est la

matrice de corrélation linéaire qui peut aussi être écrite sous la forme suivante :

(57.28)

Ce qui donne pour notre exemple où nous avons trois variables, la matrice carrée suivante (que

les données soient centrées ou non les composantes de la matrice sont identiques):

(57.29)

Pour continuer, toujours dans le but de déterminer le plan factoriel, définissons le concept

d'inertie de nuage de point.

Définition: Nous appelons "inertie d'un nuage de points" la quantité :

(57.30)

où G est le centre de gravité du nuage de point et le point de de coordonnées .

Remarque: Le carré de la distance est pris par anticipation des développements qui vont suivre.

Ensuite, démontrons que nous avons la relation suivante :

(57.31)

Démonstration:

(57.32)

C.Q.F.D

Nous allons dans toute la suite travailler avec les données centrées normées, in extenso avec la

matrice Z. Les points auront donc ici comme coordonnées .

Le problème est maintenant de trouver le meilleur espace affine de dimension p dans le sens où

il respecte au mieux les distances entre les points. Pour cela, nous allons rechercher la

meilleure droite vectorielle qui est parfaitement déterminée par le vecteur .

Appelons la projection orthogonale de sur la droite . Alors notre problème est de

trouver la droite (in extenso le vecteur u) qui fasse que la somme des carrés des distances

entres les points soit maximale. Nous écrirons le problème sous la forme d'un problème de

programmation quadratique :

(57.33)

Or ici, nous avons :

(57.34)

En effet, le centre de gravité du nuage de point projeté est aussi l'origine. Par suite, notre

problème peut s'écrire :

(57.35)

Lui même équivalent donc à :

(57.36)

Résolvons donc ce problème :

Tout d'abord, puisque est la projection orthogonale du point sur nous

avons pour tout i avec . Par suite les coordonnées des points sur

la droite sont :

(57.37)

Par suite, nous avons :

(57.38)

Ici nous cherchons le vecteur unitaire . La matrice Z nous est parfaitement connue. Or, nous

avons :

(57.39)

La matrice de corrélation R est symétrique donc, selon le théorème spectral vu dans le chapitre

d'Algèbre Linéaire, elle est diagonalisable dans une base orthonormée de vecteurs propres.

Ainsi, nous avions démontré dans le théorème spectral que :

(57.40)

est diagonale si R est symétrique et S orthogonale (qui donc une matrice carrée dans

notre exemple!). Donc :

(57.41)

et comme S avait été démontrée comme orthogonale, nous avons (cf. chapitre d'Algèbre

Linéaire) :

(57.42)

Donc :

(57.43)

où nous choisissons pour la matrice diagonale des valeurs propres mises en ordre

décroissant : .

Nous avons donc :

(57.44)

Mais U étant orthogonale nous avons par conséquent :

(57.45)

et ceci provient du fait que la matrice orthogonales est comme nous l'avions démontré dans le

chapitre d'algèbre linéaire une isométrie (elle conserve donc la norme!).

Comme les valeurs propres sont dans l'ordre croissant nous avons :

(57.46)

Or le terme entre parenthèses est strictement inférieur ou égal à1. Donc :

(57.47)

Soit :

(57.48)

Or rappelons que notre objectif est de maximiser cette inégalité. En d'autres termes de

chercher tel que l'égalité soit respectée. Or nous voyons immédiatement que cela est faire

si . Ainsi, une solution de notre problème de maximisation est donc :

(57.49)

soit puisque qui est alors le premier vecteur propre

de R (puisque R se diagonalise dans cette base) associé à la plus grande valeur propre . D'où

le fait que cette solution soit notée souvent sous la forme avec (il est

donc relativement aisé de déterminer S avec des logiciels lorsque R et sont connus).

Une fois que l'on a trouvée la première droite vectorielle, nous cherchons une deuxième droite

dans le sous-espace vectoriel orthogonal à la droite vectorielle qui maximise l'inertie du nuage

de point projeté. Nous démontrons, et devinons, que la solution est donnée par la droite

vectorielle dirigée par le vecteur propre associé à la deuxième valeur propre de la matrice de

corrélation est ainsi de suite...

Ainsi, nous obtenons une nouvelle base dont un des plans constitue le plan

factoriel. Cependant il nous faut connaître les composantes de Z dans cette base. Comme cette

base a été construite sous la condition que R y est diagonalisable via la matrice S alors cette

dernière matrice est l'application linéaire qui va nous permettre d'exprimer Z dans la

base via la relation :

(57.50)

Ainsi, dans notre exemple les trois valeurs propres sont (cf. chapitre d'Algèbre Linéaire) :

(57.51)

Remarque: Certains logiciels indiquent les poids en % respectifs et cumulés pour chacune des

valeurs propres. Ainsi, nous avons dans le cas présent respectivement les poides suivants en %

du total:

(57.52)

Nous avons alors comme cordonnées des points dans la base :

(57.53)

Les coordonnées des projections du nuage de points dans le meilleur plan défini par les

vecteurs sont donc les deux premières colonnes de la matrice précédente

(correspondant donc à la longueur du sépale et la largeur du sépale).

Effectivement nous voyons immédiatement que ce sont ces deux colonnes qui maximiseront la

somme des normes dans le plan donné:

(57.54)

Un logiciel comme Minitab 15.1 (référence dans l'industrie de la gestion de la qualité) donne les

informations suivantes pour les valeurs propres (info pas très utile sous forme graphique... à

mon avis):

commentaires (0)
Aucun commentaire n'a été pas fait
Écrire ton premier commentaire
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Docsity n'est pas optimisée pour le navigateur que vous utilisez. Passez à Google Chrome, Firefox, Internet Explorer ou Safari 9+! Téléchargez Google Chrome