Notes sur l'analyse en composantes principales (A.C.P.) - 3° partie, Notes de Applications informatiques
Francine88
Francine8813 January 2014

Notes sur l'analyse en composantes principales (A.C.P.) - 3° partie, Notes de Applications informatiques

PDF (192.9 KB)
8 pages
680Numéro de visites
Description
Notes d'informatique sur l'analyse en composantes principales (A.C.P.) - 3° partie.Les principaux thèmes abordés sont les suivants:le diagramme,l'analyse factorielle des correspondances (a.f.c.),la "métrique du Khi-2".
20points
Points de téléchargement necessaire pour télécharger
ce document
Télécharger le document
Aperçu3 pages / 8
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document

(57.55)

et le plan factoriel suivant (resterait à savoir comment les valeurs sont calculées car elles ne

sont pas identiques à celles que nous avons obtenues ici... mais la forme graphique est bien

juste et c'est le principal!):

(57.56)

ANALYSE FACTORIELLE DES

CORRESPONDANCES (A.F.C.)

L'analyse factorielle des correspondances, en abrégée AFC, est une méthode statistique

d'analyse des données. La technique de l'AFC est essentiellement utilisée pour de grands

tableaux de données toutes comparables entre elles (si possible exprimées toutes dans la

même unité, comme une monnaie, une dimension, une fréquence ou toute autre grandeur

mesurable). Elle peut en particulier permettre d'étudier des tableaux de contingence (ou tableau

croisé de co-occurrence). Elle sert à déterminer et à hiérarchiser toutes les dépendances entre

les lignes et les colonnes du tableau.

Voyons directement un exemple:

Considérons le tableau suivant des superficies des types de peuplements d'arbres en Picardie

en 1984 en hectares:

Feuillus Résineux Mixtes Total par dép.

L'Aisne (A) 106'500 3'380 1'470 111'350

L'Oise (O) 101'700 10'000 0 111'700

La Somme (S) 45'200 4'350 50 49'600

Total 253'400 17'730 1'520 272'650

Tableau: 57.3 - Tableau de contingence (tableau croisé) de l'A.F.C.

Nous souhaitons analyser s'il existe les degrés de ressemblance et de différence entre les

variables. Remarquons, que nous ne cherchons pas à comparer l'égalité des moyennes ou des

variances donc les outils statistiques vus dans le chapitre du même nom ne sont pas adaptés à

ce genre d'analyse.

Si nous choisissons la distance euclidienne:

(57.57)

sur les données brutes pour mesurer ces différences entre départements, nous obtenons les

écarts suivants :

(57.58)

et ainsi de suite pour les autres régions. Nous obtenons alors:

(57.59)

Nous voyons en regardant le tableau et avant tout calcul que les départements de l'Aisne et

l'Oise se ressemblent alors que le département de la Somme se diffère nettement. Les distances

obtenues mettent en évidence cette observation.

Mais! Pourtant, sur dans le tableau ci-dessus les profils de l'Oise et de la Somme, avec une forêt

mixte très faible, sont pourtant très proches en proportion.

Dans ce contexte, nous voyons que la distance euclidienne transcrit les différences de masse

entre les départements. En d'autres termes, l'Aisne et l'Oise se ressemblent car leurs superficies

sont proches. Pour éliminer l'artefact lié aux ordres de grandeur, il nous faut transformer les

données en pourcentage. Nous obtenons alors:

Feuillus Résineux Mixtes %Région

Aisne 95.6 3.0 1.3 40.8

Oise 91.0 9.0 0.0 41.0

Somme 91.1 8.8 0.1 18.2

Tableau: 57.4 - Transformation du tableau de contingence en pourcents

Si nous choisissons la distance euclidienne sur les proportions (données relatives), nous

obtenons:

(57.60)

soit:

(57.61)

Cette fois, l'Oise et la Somme apparaissent bien comme se ressemblant le plus avec leurs

forêts. Nous voyons que travailler avec les données relatives semblent donc plus pertinent dans

ce cas!

Maintenant, nous allons emprunter une idée des économistes qui lorsqu'ils ont des tableaux du

même genre que le précédent calculent ce qu'ils appellent "l'index" ou "élasticité" et qui est

donné par:

(57.62)

Voici un exemple obtenu avec les tableaux croisés dynamiques de MS Excel qui inclut la

fonction Index:

(57.63)

et en activant la fonction Index:

(57.64)

Pour voir d'où viennent ces valeurs, regardons par exemple l'article Desk dans la

région Alberta a un rendement de:

(57.65)

par rapport à toutes les régions ce qui est au-dessus de la valeur de 33.33% qu'aurait comme

rendement cette article dans toutes les régions confondues s'il n'y avait pas de préférences de

région!

La région Alberta a elle un rendement de:

(57.66)

par rapport à toutes les régions ce qui est en-dessous des 33.33% de rendement qu'elle aurait

s'il n'y avait de préférences de région. Ainsi, ce tableau d'index permet de savoir si les

différences sont significatives!!

Le rapport donne donc:

(57.67)

ce qui montre un fort décalage entre la valeur obtenue et la valeur que nous aurions si les

proportions étaient respectées.

C'est donc une sorte de calcul de conformité: si le rapport valait 1, c'est que le rendement

régional des ventes de cet article particulier serait conforme au rapport de toutes les ventes de

cette région relativement à un marché national. Il n'y aurait alors pas d'anomalies Voyons cela

par exemple pour nos arbres où nous avions les effectifs observés:

Feuillus Résineux Mixtes Total par dép.

L'Aisne (A) 106'500 3'380 1'470 111'350

L'Oise (O) 101'700 10'000 0 111'700

La Somme (S) 45'200 4'350 50 49'600

Total 253'400 17'730 1'520 272'650

Tableau: 57.5 - Tableau de contingence (tableau croisé) de l'A.F.C.

et pour lequel nous obtenons le tableau des index effectifs observés suivant dans MS Excel:

(57.68)

et nous voyons encore clairement à l'aide de ce tableau que ce sont l'Oise et la Somme qui se

ressemblent le plus!

Avant de continuer, nous pourrions nous poser la question extrêmement importante suivante:

Quels seraient les effectifs théoriques qui auraient été obtenus si les proportions des arbres

dans les régions étaient rigoureusement équivalentes à la proportion d'ensemble (soit de telle

manière à ce que les index soient tous unitaires)?

Eh bien simplement en faisant le calcul suivant:

Feuillus Résineux Mixtes

Aisne =(253'400/272'650)*111'350

=103'488

=(17'730/272'650)*111'350

=7'240

=(1'470/272'650)*111'350

=620

Oise =(253'400/272'650)*111'700

=103'813

=(17'730/272'650)*111'700

=7'263

=(1'470/272'650)*111'700

=622

Somme =(253'400/272'650)*49'600

=46'098

=(17'730/272'650)*49'600

=3'225

=(1'470/272'650)*49'600

=276

Tableau: 57.6 - Respect des proportions de l'A.F.C.

Et nous obtenons avec ces nouvelles valeurs le tableau des index des effectifs théoriques

suivant dans MS Excel:

(57.69)

ce qui montre que les proportions sont maintenant respectées! Paranthèse fermée (mais sur

laquelle nous reviendrons un peu plus loin)!

Eh bien quand nous voulons faire de l'analyse factorielle de correspondance, notre relation:

(57.70)

devient alors:

(57.71)

soit:

(57.72)

Cette fois encore, l'Oise et la Somme apparaissent bien comme se ressemblant le plus.

La distance ci-dessus se nomme la "métrique du Khi-2" car elle ressemble (mais c'est tout!) à la

distance utilisée dans le test d'ajustement du même nom (cf. chapitre de Statistiques) mais ici,

elle permet seulement de mettre en place une hiérarchie dans le cadre d'un tableau de

contingences et d'observer les variables similaires de manière plus aisée!!

commentaires (0)
Aucun commentaire n'a été pas fait
Écrire ton premier commentaire
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Docsity n'est pas optimisée pour le navigateur que vous utilisez. Passez à Google Chrome, Firefox, Internet Explorer ou Safari 9+! Téléchargez Google Chrome