Analyse de données : Exercices d'Analyse en Composantes Principales (ACP), Exercises of Mathematics

Ce document présente une série d'exercices d'analyse en composantes principales (ACP) centrée réduite, illustrant les étapes de calcul et d'interprétation de l'ACP. Il couvre des concepts clés tels que le calcul de l'individu moyen, la matrice des données centrées, les écarts types, la matrice des données centrées-réduites, la matrice de variance-covariance et la matrice de corrélation. Le document explore également la décomposition spectrale de la matrice de corrélation, la détermination des facteurs principaux et des axes principaux, le calcul de l'inertie et de la part d'inertie expliquée par chaque axe, ainsi que l'interprétation des composantes principales.

Typology: Exercises

2023/2024

Uploaded on 04/04/2025

mama-yes
mama-yes 🇩🇿

1 document

1 / 5

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
Université de Caen TDs Partie 4 Analyse de données
UFR des Sciences Par Faïcel Chamroukhi 2017/2018
Exercice 1 Considérons un échantillon de n= 5 individus chaque individu xiRdest décrit
par d= 3 variables réelles. Cet échantillon est représen par la matrice X= (x1,x2,x3,x4,x5)t
suivante :
X=10
223
312
103
214
213
On va faire une ACP centrée réduite de ce jeu de données.
1. Calculer l’individu moyen (le centre de gravité du nuage de données) ¯
x
2. Calculer la matrice Ydes données centrées
3. Calculer les écarts types σjde chacune des variables
4. Calculer la matrice Zdes données centrées-réduites
5. Calculer la matrice de variance-covariance Σde Zet la matrice de corrélation Rde X.
Commenter.
6. Effectuer une décomposition spectrale de la matrice de corrélation R: déterminer les valeurs
propres λjassociées aux vecteurs propres non-nuls ujde R.
7. Déterminer les facteurs principaux fjet les axes principaux ajdu nuage des individus.
Vérifier leurs propriétés statistiques
8. Calculer pour chacun des axes factoriels, l’inertie du jeu de données projetées sur l’axe
considéré, et la part d’inertie qu’il explique.
9. Calculer les composantes principales cjpour les individus. Comment s’interprètent les com-
posantes principales en fonction des variables de départ. Vérifier leur propriétés statistiques.
10. Représenter graphiquement le nuage des individus sur le plan factoriel défini par les deux
premiers axes factoriels. Commenter.
11. Représenter graphiquement le nuage des variables sur le plan factoriel défini par les deux
premiers axes factoriels. Commenter.
Solution 1
1. L’individu moyen est obtenu en faisant la moyenne des lignes du tableau X:¯
x=Pn
i=1 xi/n =
10(2,1,3)T
2. La matrice Ydes données centrées est obtenue en soustrayant à chaque ligne de Xla
moyenne ¯
x:
Y=X(¯
x,¯
x,¯
x,¯
x,¯
x)T=10
010
1 0 1
11 0
001
000
1
pf3
pf4
pf5

Partial preview of the text

Download Analyse de données : Exercices d'Analyse en Composantes Principales (ACP) and more Exercises Mathematics in PDF only on Docsity!

Université de Caen TDs Partie 4 Analyse de données

UFR des Sciences Par Faïcel Chamroukhi 2017/

Exercice 1 Considérons un échantillon de n = 5 individus où chaque individu xi ∈ R d est décrit

par d = 3 variables réelles. Cet échantillon est représenté par la matrice X = (x 1 , x 2 , x 3 , x 4 , x 5 )

t

suivante :

X =

On va faire une ACP centrée réduite de ce jeu de données.

  1. Calculer l’individu moyen (le centre de gravité du nuage de données) x¯
  2. Calculer la matrice Y des données centrées
  3. Calculer les écarts types σj de chacune des variables
  4. Calculer la matrice Z des données centrées-réduites
  5. Calculer la matrice de variance-covariance Σ de Z et la matrice de corrélation R de X.

Commenter.

  1. Effectuer une décomposition spectrale de la matrice de corrélation R : déterminer les valeurs

propres λj associées aux vecteurs propres non-nuls uj de R.

  1. Déterminer les facteurs principaux fj et les axes principaux aj du nuage des individus.

Vérifier leurs propriétés statistiques

  1. Calculer pour chacun des axes factoriels, l’inertie du jeu de données projetées sur l’axe

considéré, et la part d’inertie qu’il explique.

  1. Calculer les composantes principales cj pour les individus. Comment s’interprètent les com-

posantes principales en fonction des variables de départ. Vérifier leur propriétés statistiques.

  1. Représenter graphiquement le nuage des individus sur le plan factoriel défini par les deux

premiers axes factoriels. Commenter.

  1. Représenter graphiquement le nuage des variables sur le plan factoriel défini par les deux

premiers axes factoriels. Commenter.

Solution 1

  1. L’individu moyen est obtenu en faisant la moyenne des lignes du tableau X : ¯x =

n i= xi/n = √ 10(2, 1 , 3)

T

  1. La matrice Y des données centrées est obtenue en soustrayant à chaque ligne de X la

moyenne x¯ :

Y = X − (¯x, ¯x, ¯x, ¯x, ¯x)

T

  1. Le calcul des écarts-type σj (racines carrées des variances σ

2 j ) de chacune des variables peut

se faire de deux façons. La première en appliquant la définition de la variance pour chaque

variable :

σj =

n

n ∑

i=

(xij − x¯j ) 2 =

n

n ∑

i=

y 2 ij

pour j = 1,... , 3 et n = 5.

La deuxième en calculant directement la matrice de variances-covariances et en exploitant

ainsi la formulation vectorielle on trouve directement toutes les variances (et donc les écarts

type) car celles-ci sont les éléments diagonaux de la matrice de variances-covariances :

ΣX =

n

n ∑

i=

(xi−x¯)(xi−x¯)

T

n

n ∑

i=

y i y

T i

n

Y

T Y =

donc σ = (σ 1 , σ 2 , σ 3 ) T = (2, 2 , 2) T

  1. La matrice Z des données centrées-réduites est de terme général zij =

xij −¯xj σj

yij σj

. Cela

revient donc à diviser chaque colonne de Y par l’écart type de la variable correspondante :

Z =

Y

  1. La matrice de variance-covariance Σ de Z : Z étant la matrice centrée-réduite de X donc

sa matrice de covariance de terme correspond à la matrice de corrélation de X. En effet :

n

n ∑

i=

(zi − ¯z)(zi − ¯z)

T

n

n ∑

i=

ziz

T

n

n ∑

i=

yi

y

T

n

n ∑

i=

xi − x¯

xi − ¯x

T

R =

n

n ∑

i=

xi − x¯

σ

xi − ¯x

σ

T

n

n ∑

i=

xi − x¯

xi − x¯

T = Σ

car Z est centrée et donc sa moyenne suivant les lignes ¯z est le vecteur nul. Pour le calcul

on trouve donc :

Σ = R =

Z

T Z =

  1. L’ACP centrée réduite nécessite le calcul des valeurs propres λj associées aux vecteurs

propres non-nuls uj de la matrice de corrélation R. On résout l’équation Ru = λu. Pour

les valeurs propres, cela revient à résoudre le système det(R − λI) = 0 : ∣ ∣ ∣ ∣ ∣ ∣ ∣ ∣ ∣

1 − λ 1 / 2 − 1 / 2

1 / 2 1 − λ 0

− 1 / 2 0 1 − λ

= (1−λ)

1 − λ 0

0 1 − λ

0 1 − λ

1 − λ 0

  1. Les composantes principales cj sont les variables définies par les axes principaux (représen-

tant donc la projection des données Z centrées réduites dans ce cas, sur les axes principaux

aj ) : cj = Zaj pour j = 1,... , 3. Ainsi :

c 1 =

c 2 =

c 3 =

Les composantes principales Zuj sont ainsi des combinaisons linéaires des variables de dé-

parts zi.

Les composantes principales sont centrées (¯cj = 0, facile vérifier), orthogonales deux à deux

et donc non corrélées entre elles (c T j ck = 0 pour tout j 6 = k, facile à vérifier), et leurs

variances sont égales aux valeurs propres qui leur sont associées :

1 n

c T j c T j = λj

Exercice 2 Considérons un échantillon de n individus où chaque individu xi ∈ R d est décrit par

d = 3 variables réelles qui ont pour matrice de corrélation

R =

1 ρ −ρ

ρ 1 ρ

−ρ ρ 1

ave − 1 ≤ ρ ≤ 1.

On va faire une ACP centrée-réduite de ce jeu de données.

  1. Effectuer une décomposition spectrale de la matrice de corrélation R : déterminer les valeurs

propres λj associées aux vecteurs propres non-nuls uj de R.

  1. Quelles sont les valeurs possibles pour ρ. Justifier que ρ doit vérifier − 1 ≤ ρ ≤ 1.
  2. Calculer pour chacun des axes factoriels, l’inertie du jeu de données projetées sur l’axe

considéré, et la part d’inertie qu’il explique. Faire une représentation graphique.

  1. Calculer les composantes principales cj pour les individus. Comment s’interprètent les com-

posantes principales en fonction des variables de départ. Vérifier leur propriétés statistiques.

  1. Comment s’interprète en fonction des données d’origines xi l’unique composante à retenir

dans ce cas.