



Study with the several resources on Docsity
Earn points by helping other students or get them with a premium plan
Prepare for your exams
Study with the several resources on Docsity
Earn points to download
Earn points by helping other students or get them with a premium plan
Ce document présente une série d'exercices d'analyse en composantes principales (ACP) centrée réduite, illustrant les étapes de calcul et d'interprétation de l'ACP. Il couvre des concepts clés tels que le calcul de l'individu moyen, la matrice des données centrées, les écarts types, la matrice des données centrées-réduites, la matrice de variance-covariance et la matrice de corrélation. Le document explore également la décomposition spectrale de la matrice de corrélation, la détermination des facteurs principaux et des axes principaux, le calcul de l'inertie et de la part d'inertie expliquée par chaque axe, ainsi que l'interprétation des composantes principales.
Typology: Exercises
1 / 5
This page cannot be seen from the preview
Don't miss anything!




Université de Caen TDs Partie 4 Analyse de données
UFR des Sciences Par Faïcel Chamroukhi 2017/
Exercice 1 Considérons un échantillon de n = 5 individus où chaque individu xi ∈ R d est décrit
par d = 3 variables réelles. Cet échantillon est représenté par la matrice X = (x 1 , x 2 , x 3 , x 4 , x 5 )
t
suivante :
On va faire une ACP centrée réduite de ce jeu de données.
Commenter.
propres λj associées aux vecteurs propres non-nuls uj de R.
Vérifier leurs propriétés statistiques
considéré, et la part d’inertie qu’il explique.
posantes principales en fonction des variables de départ. Vérifier leur propriétés statistiques.
premiers axes factoriels. Commenter.
premiers axes factoriels. Commenter.
Solution 1
n i= xi/n = √ 10(2, 1 , 3)
T
moyenne x¯ :
Y = X − (¯x, ¯x, ¯x, ¯x, ¯x)
2 j ) de chacune des variables peut
se faire de deux façons. La première en appliquant la définition de la variance pour chaque
variable :
σj =
n
n ∑
i=
(xij − x¯j ) 2 =
n
n ∑
i=
y 2 ij
pour j = 1,... , 3 et n = 5.
La deuxième en calculant directement la matrice de variances-covariances et en exploitant
ainsi la formulation vectorielle on trouve directement toutes les variances (et donc les écarts
type) car celles-ci sont les éléments diagonaux de la matrice de variances-covariances :
n
n ∑
i=
(xi−x¯)(xi−x¯)
n
n ∑
i=
y i y
T i
n
T Y =
donc σ = (σ 1 , σ 2 , σ 3 ) T = (2, 2 , 2) T
xij −¯xj σj
yij σj
. Cela
revient donc à diviser chaque colonne de Y par l’écart type de la variable correspondante :
sa matrice de covariance de terme correspond à la matrice de corrélation de X. En effet :
n
n ∑
i=
(zi − ¯z)(zi − ¯z)
n
n ∑
i=
ziz
n
n ∑
i=
yi
y
n
n ∑
i=
xi − x¯
xi − ¯x
T
n
n ∑
i=
xi − x¯
σ
xi − ¯x
σ
n
n ∑
i=
xi − x¯
xi − x¯
T = Σ
car Z est centrée et donc sa moyenne suivant les lignes ¯z est le vecteur nul. Pour le calcul
on trouve donc :
T Z =
propres non-nuls uj de la matrice de corrélation R. On résout l’équation Ru = λu. Pour
les valeurs propres, cela revient à résoudre le système det(R − λI) = 0 : ∣ ∣ ∣ ∣ ∣ ∣ ∣ ∣ ∣
1 − λ 1 / 2 − 1 / 2
1 / 2 1 − λ 0
− 1 / 2 0 1 − λ
= (1−λ)
1 − λ 0
0 1 − λ
0 1 − λ
1 − λ 0
tant donc la projection des données Z centrées réduites dans ce cas, sur les axes principaux
aj ) : cj = Zaj pour j = 1,... , 3. Ainsi :
c 1 =
c 2 =
c 3 =
Les composantes principales Zuj sont ainsi des combinaisons linéaires des variables de dé-
parts zi.
Les composantes principales sont centrées (¯cj = 0, facile vérifier), orthogonales deux à deux
et donc non corrélées entre elles (c T j ck = 0 pour tout j 6 = k, facile à vérifier), et leurs
variances sont égales aux valeurs propres qui leur sont associées :
1 n
c T j c T j = λj
Exercice 2 Considérons un échantillon de n individus où chaque individu xi ∈ R d est décrit par
d = 3 variables réelles qui ont pour matrice de corrélation
1 ρ −ρ
ρ 1 ρ
−ρ ρ 1
ave − 1 ≤ ρ ≤ 1.
On va faire une ACP centrée-réduite de ce jeu de données.
propres λj associées aux vecteurs propres non-nuls uj de R.
considéré, et la part d’inertie qu’il explique. Faire une représentation graphique.
posantes principales en fonction des variables de départ. Vérifier leur propriétés statistiques.
dans ce cas.