Notes sur la notion de moyenne - 1° partie, Notes de Mathématiques. Université des Sciences et Technologies de Lille (Lille I)
Caroline_lez
Caroline_lez14 January 2014

Notes sur la notion de moyenne - 1° partie, Notes de Mathématiques. Université des Sciences et Technologies de Lille (Lille I)

PDF (141 KB)
10 pages
203Numéro de visites
Description
Notes de mathématique sur la notion de moyenne - 1° partie. Les principaux thèmes abordés sont les suivants: La notion de "moyenne" ou "tendance centrale", les définitions, la table de salaires, les exemples.
20points
Points de téléchargement necessaire pour télécharger
ce document
Télécharger le document
Aperçu3 pages / 10
Ceci c'est un aperçu avant impression
3 shown on 10 pages
Télécharger le document
Ceci c'est un aperçu avant impression
3 shown on 10 pages
Télécharger le document
Ceci c'est un aperçu avant impression
3 shown on 10 pages
Télécharger le document
Ceci c'est un aperçu avant impression
3 shown on 10 pages
Télécharger le document

MOYENNES

La notion de "moyenne" ou "tendance centrale" (les financiers appellent cela aussi une "mesure de

localisation"...) est avec la notion de "variable" à la base des statistiques.

Cette notion nous semble très familière et nous en parlons beaucoup sans nous poser trop de

questions. Pourtant il existe divers qualificatifs (nous insistons sur le fait que ce ne sont que des

qualificatifs!) pour distinguer la forme de la résolution d'un problème consistant à calculer la

moyenne.

Il faut donc être très très prudent quant aux calculs des moyennes car il y a une fâcheuse tendance

dans les entreprises à se précipiter et à utiliser systématiquement la moyenne arithmétique sans

réfléchir, ce qui peut amener à de graves erreurs!

Nous verrons ci-dessous différentes moyennes avec des exemples relatifs à l'arithmétique, au

dénombrement, à la physique, à l'économétrie, à la géométrie et à la sociologie. Le lecteur

trouvera d'autres exemples pratiques en parcourant l'ensemble du site.

Définitions: Soit des nombres réels, nous avons alors :

D1. La "moyenne arithmétique" ou "moyenne empirique" (la plus communément connue) définie

par le quotient de la somme des nvaleurs observées par l'effectif total n:

(7.1)

et très souvent notée ou encore et est pour toute loi statistique discrète ou continue un

estimateur sans biais de l'espérance (mais pas forcément).

Si plusieurs valeurs occurrent plus d'une fois dans les mesures, la moyenne arithmétique sera

alors souvent notée formellement:

(7.2)

et appelée "moyenne pondérée par les effectifs". Enfin, indiquons que dans le cadre de cette

démarche, la moyenne pondérée par les effectifs prendra le nom "d'espérance mathématique"

dans le domaine d'étude des probabilités.

Nous pouvons tout aussi bien utiliser les fréquences d'apparition des valeurs observées (dites

"fréquence des classes"):

(7.3)

Nous avons alors la "moyenne pondérée par les fréquences de classe":

(7.4)

Avant de continuer, indiquons que dans le domaine de la statistique il est souvent utile et

nécessaire de regrouper les mesures/données dans des intervalles de classe de largeur donnée

(voir les exemples plus loin). Il faut souvent faire plusieurs essais pour cela même s'il existe des

formules semi-empiriques pour choisir le nombre de classes lorsque nous avons n valeurs à

disposition. Une des ses règles semi-empiriques utilisée par de nombreux praticiens consiste à

retenir le plus petit nombre entier de classes k tel que:

(7.5)

la largeur de l'intervalle de classe étant alors obtenue en divisant l'étendue (différence entre la

valeur maximale mesurée et la minimale) par k. Par convention et en toute rigueur... (donc

rarement respecté dans les notations), un intervalle de classe est fermé à gauche et ouvert à

droite: [...,...[.

Ensuite, pour chaque intervalle i le praticien prendra par tradition pour la moyenne entre les deux

bornes pour le calcul et la multipliera par la fréquence fi de classe correspondante. Dès lors, le

regroupement en fréquence de classe fait que :

1. La moyenne pondérée par les effectifs diffère de la moyenne arithmétique.

2. Vue l'approximation effectuée elle sera un moins bon indicateur que la moyenne arithmétique

3. Elle est très sensible aux choix du nombre de classes donc médiocre à ce niveau là

Plus loin, nous verrons deux propriétés extrêmement importantes de la moyenne arithmétique et

de l'espérance mathématique qu'il vous faudra absolument comprendre (moyenne pondérée des

écarts à la moyenne et la moyenne des écarts à la moyenne).

Remarque: Le "mode", noté Mod ou simplement M, est par définition la valeur qui apparaît le plus

grand nombre de fois dans une série de valeurs. Dans MS Excel, soulignons que la fonction

MODE( ) renvoie la première valeur dans l'ordre des valeurs ayant le plus grand nombre

d'occurrences en supposant donc une distribution unimodale.

D2. La "médiane" ou "moyenne milieu", notée (ou plus simplement M), est la valeur qui coupe

une population en deux parties égales. Dans le cas d'une distribution statistique continue f(x)

d'une variable aléatoireX, il s'agit de la valeur qui représente 50% de probabilités cumulées d'avoir

lieu tel que (nous détaillerons le concept de distribution statistique plus loin très en détails):

(7.6)

Dans le cas d'une série de valeurs ordonnées , la médiane est donc de par sa

définition la valeur de la variable telle que l'on ait autant d'éléments qui ont une valeur qui lui est

supérieure ou égale, que d'éléments qui ont une valeur qui lui est inférieure ou égale. Elle est

principalement utilisée pour les distributions asymétriques, car elle les représente mieux que la

moyenne arithmétique

Plus rigoureusement:

- Si le nombre de termes est impair, de la forme 2n+1, la médiane de la série est le terme de

rang n+1 (que les termes soient tous distincts ou non!).

- Si le nombre de termes est pair, de la forme 2n, la médiane de la série est la demi-somme

(moyenne arithmétique) des valeurs des termes de rang n et n + 1 (que les termes soient tous

distincts ou non!).

Dans tous les cas, de par cette définition, il découle qu'il y a au moins 50 % des termes de la série

inférieurs ou égaux à la médiane, et au moins 50% des termes de la série supérieurs ou égaux à la

médiane.

Considérons par exemple la table de salaires ci-dessous:

N° Employé Salaire Cumul employés %Cumul employés

1 1200 1 6%

2 1220 2 12%

3 1250 3 18%

4 1300 4 24%

5 1350 5 29%

6 1450 6 35%

7 1450 7 41%

8 1560 8 47%

9 1600 9 53%

10 1800 10 59%

11 1900 11 65%

12 2150 12 71%

13 2310 13 76%

14 2600 14 82%

15 3000 15 88%

16 3400 16 94%

17 4800 17 100%

Tableau: 7.1 - Identification de la médiane

Il y a un nombre impair 2n+1 de valeurs. Donc la médiane de la série est le terme de rang n+1.

Soit 1'600.- (résultat que vous donnera n'importe quel tableur informatique). La moyenne

arithmétique quant à elle vaut 2'020.

En relation directe avec la médiane il est important de définir le concept suivant afin de

comprendre le mécancisme sous-jacent:

Définition: Soit donné une série statistique , nous appelons "dispersion des écarts

absolus" autour de x le nombre défini par :

(7.7)

est minimum pour une valeur de x la plus proche d'une valeur donnée au sens de l'écart

absolu. La médiane est la valeur qui réalise ce minimum (extrémum)! L'idée va alors consister à

étudier les variations de la fonction pour trouver le rang de cet extrémum.

En effet, nous pouvons écrire :

(7.8)

Donc par définition de la valeur x :

(7.9)

Ce qui nous permet donc de faire sauter les valeurs absolues est simplement le choix de

l'indice r qui est pris de telle manière que la série de valeurs peut en pratique toujours être coupé

en deux parties: tout ce qui est inférieur à un élément de la série indexé par r et tout ce qui lui est

supérieur (la médiane donc par anticipation).

est donc une fonction affine (assimilable à l'équation d'une droite pour r et n fixés) par

morceaux (discrète) où l'on peut assimiler le facteur:

2r-n (7.10)

à la pente et:

(7.11)

à l'ordonnée à l'origine.

La fonction est donc décroissante (pente négative) tant que r est inférieur à n/2 et croissante

quand r est supérieur à n/2. Plus précisément, nous distinguons deux cas qui nous intéressent

particulièrement puisque n est un entier (elle pas donc par un extremum!) :

- Si n est pair, nous pouvons poser , alors la pente peut s'écrire et elle est nulle

si et dès lors puisque ce résultat n'est valable par construction que

pour alors est constante sur et nous avons un extrémum

obligatoirement au milieu de cet intervalle (moyenne arthmétique des deux termes).

- Si n est impair, nous pouvons poser (nous coupons la série en deux parties égales),

alors le pente peut s'écrire et elle est donc nulle si et dès lors puisque ce

résultat n'est valable que pour alors il est immédiat que la valeur du milieu sera la

médiane .

Nous retrouvons donc bien la médiane dans les deux cas. Nous verrons aussi plus loin comment la

médiane est définie pour une variable aléatoire continue.

Il existe un autre cas pratique où le statisticien n'a à sa disposition que des valeurs regroupées

sous forme d'intervalles de classes statistiques. La procédure pour déterminer la médiane est alors

différente:

Lorsque nous avons à notre disposition uniquement une variable classée, l'abscisse du point de la

médiane se situe en général à l'intérieur d'une classe. Pour obtenir alors une valeur plus précise de

la médiane, nous procédons à une interpolation linéaire. C'est ce que nous appelons la "méthode

d'interpolation linéaire de la médiane".

La valeur de la médiane peut être lue sur le graphique ou calculée analytiquement. Effectivement,

considérons le graphique représentant la probabilité cumulée F(x) en intervalles de classe comme

ci-dessous où les bornes des intervalles ont été reliées par des droites:

(7.12)

La valeur de la médiane M se trouve évidemment au croisement entre la probabilité de 50% (0.5) et

l'abscisse. Si nous prenons dans le cadre particulier de l'exemple ci-dessus la borne supérieure de

l'intervalle de classe précédant celle contenant la médiane nous avons 2 et 4 pour la borne

inférieure de l'intervalle suivant. Nous avons alors en calculant la pente la relation suivante:

(7.13)

Ce que nous écrivons fréquemment:

(7.14)

d'où la valeur de la médiane:

(7.15)

Prenons le tableau suivant que nous retrouverons bien plus tard dans le présent chapitre:

Montant des

tickets Nombre de tickets Nombre cumulés de

tickets

Fréquences

relatives cumulées

[0;50[ 668 668 0.068

[50,100[ 919 1'587 0.1587

[100,150[ 1'498 3'085 0.3085

[150,200[ 1'915 5000 0.5000

[200,250[ 1'915 6'915 0.6915

[250,300[ 1'498 8'413 0.8413

[300,350[ 919 9'332 0.9332

[350,400[ 440 9'772 0.9772

[400 et + 228 10'000 1

Tableau: 7.2 - Identification de la classe médiane et du mode

Nous voyons que la "classe médiane" est dans l'intervalle [150,200] car la valeur cumulée de 0.5

s'y trouve (colonne toute à droite) mais la médiane a elle, en utilisant la relation établie

précédemment, précisément une valeur de (c'est trivial dans l'exemple particulier du tableau ci-

dessus mais faisons quand même le calcul...):

(7.16)

et nous pouvons faire de même avec n'importe quel autre centile bien évidemment!

Nous pouvons également donner une définition pour déterminer la valeur modale si nous sommes

seulement en possession des fréquences des classes d'intervalles. Pour cela partons du

diagramme en barre des fréquences simplifié ci-dessous:

(7.17)

En utilisant les relations de Thalès (cf. chapitre de Géométrie Euclidienne), nous avons

immédiatement, en notantM la valeur modale:

(7.18)

Comme dans une proportion, on ne change pas la valeur du rapport en additionnant les

numérateurs et en additionnant les dénominateurs, il vient:

(7.19)

Nous avons alors:

(7.20)

Avec l'exemple précédent cela donne alors:

(7.21)

La question qui se pose ensuite est celle de la pertinence du choix de la moyenne, du mode ou de

la médiane et termes de communication...

Un bon exemple reste celui du marché du travail où de façon générale, alors que le salaire moyen

et le salaire médian sont relativement différents, les institutions de statistiques étatiques calculent

la médiane que beaucoup de médias traditionnels assimilent alors explicitement au concept de

"moyenne arithmétique" dans leurs communiqués.

Remarque: Pour éviter d'obtenir une moyenne arithmétique ayant peu de sens, nous calculons

souvent une "moyenne élaguée", c'est à dire une moyenne arithmétique calculée après avoir enlevé

des valeurs aberrantes à la série.

Les "quantiles" généralisent la notion de médiane en coupant la distribution en des ensembles

données de parties égales (de même cardinal pourrions nous dire...) ou autrement dit en

intervalles réguliers. Nous définissons ainsi les "quartiles", les "déciles" et les "centiles" (ou

"percentiles") sur la population, ordonnée dans l'ordre croissant, que nous divisons en 4, 10 ou

100 parties de même effectif.

Nous parlerons ainsi du centile 90 pour indiquer la valeur séparant les premiers 90% de la

population des 10% restant.

Précisons que dans la version francophone de MS Excel les fonctions QUARTILE( ), CENTILE( ),

MEDIANE( ), RANG.POURCENTAGE ( ) sont disponibles et spécifions qu'il existe plusieurs variantes

de calcul des ces centiles d'où une variation possible entre les résultats sur différents logiciels.

Ce concept est très important dans le cadre des intervalles de confiance que nous verrons

beaucoup plus loin dans ce chapitre et très utile dans le domaine de la qualité avec l'utilisation des

boîtes à moustaches (traduction de Box & Whiskers Plot ou BoxPlot) permettant de comparer

rapidement deux populations de données et surtout d'éliminer les valeurs aberrantes (prendre

comme référence la médiane sera justement plus judicieux!):

(7.22)

Une autre représentation mentale très importante des boîtes à moustache est la suivante (elle

permet de se donner donc une idée de l'asymétrie de la distribution):

(7.23)

D4. Par analogie avec la médiane, nous définissons la "médiale" comme étant la valeur (dans

l'ordre croissant des valeurs) qui partage la somme (cumuls) des valeurs en deux masses égales

(donc la somme totale divisée par deux).

Dans le cas de salaires, alors que le médiane donne le 50% des salaires se trouvant en-dessous et

en-dessus, la médiale donne combien de salariés se partagent (et donc le salaire partageant) la

première moitié et combien de salariés se partagent la seconde moitié de l'ensemble des coûts

salariaux.

Par exemple pour revenir à notre tableau sur les salaires:

N° Employé Salaire Cumul salaire %Cumulé salaire

1 1200 1200 3.5%

2 1220 2420 7%

3 1250 3670 10.7%

4 1300 4970 14.5%

5 1350 6320 18.4%

6 1450 7770 22.6%

7 1450 9220 26.8%

8 1560 10780 31.4%

9 1600 12380 36.1%

10 1800 14180 41.3%

11 1900 16080 46.8%

12 2150 18230 53.1%

13 2310 20540 59.8%

14 2600 23140 67.4%

15 3000 26140 76.1%

16 3400 29540 86%

17 4800 34340 100%

Tableau: 7.3 - Identification de la médiale

La somme de tous les salaires fait donc 34'340 et la médiale est alors 17'170 (entre l'employé n°11

et 12) alors que la médiane était de 1'600. Nous voyons alors que la médiale correspond au 50%

du cumul. Ce qui est un indicateur très utile dans le cadre des analyse de Pareto ou de Lorenz par

exemple (cf. chapitre de Technique de Gestion).

D5. La "moyenne quadratique" parfois simplement notée Q qui est définie par :

(7.24)

avec m=2.

Remarque: C'est une des moyennes les plus connues en statistiques car l'écart-type est une moyenne

quadratique (voir plus loin).

Exemple:

Soit un carré de côté a , et un autre carré de côté b. La moyenne des aires des deux carrés est

égale à carrée de côté:

(7.25)

D6. La "moyenne harmonique" parfois simplement notée H est définie par :

commentaires (0)
Aucun commentaire n'a été pas fait
Écrire ton premier commentaire
Ceci c'est un aperçu avant impression
3 shown on 10 pages
Télécharger le document