








































Study with the several resources on Docsity
Earn points by helping other students or get them with a premium plan
Prepare for your exams
Study with the several resources on Docsity
Earn points to download
Earn points by helping other students or get them with a premium plan
Ce document présente les méthodes de regroupement des données, en particulier la règle de Sturge et la règle de Yule. Il explique comment calculer le nombre optimal de classes pour une distribution de données et fournit des exemples concrets pour illustrer les concepts. Le document aborde également la construction d'histogrammes et de polygones de fréquences, ainsi que la notion de courbe de Lorenz et d'indice de Gini pour analyser la concentration des données.
Typology: Papers
1 / 48
This page cannot be seen from the preview
Don't miss anything!









































Par le
La statistique désigne l’ensemble des méthodes mathématiques relative à la collecte, à la pré- sentation, à l’analyse et à l’utilisation des données numériques. Ces opérations permettent de tirer des conclusions et de prendre des décisions dans les situa- tions d’incertitudes qu’on rencontre dans les domaines scientifiques, économiques, sciences sociales ou des affaires ...
En présence d’un ensemble de données chiffrées, on a un désir spontané de simplification. Se- lon des critères, la statistique cherche d’une part à représenter, ordonner et classer des données ; d’autre part, à résumer la multiplicité et la complexité des notions par des caractéristiques syn- thétiques.
Le statisticien est ainsi conduit à collecter des données, construire des graphiques, déterminer des caractéristiques centrale, calculer des caractéristiques de dispersion et étudier la symétrie.
L’organisation, la description et la présentation des données sous forme de tableaux ou de graphiques sont l’objet de la “statistique descriptive”. L’interprétation et les conclusions que l’on peut tirer d’un ensemble de données font l’objet de la “statistique Inférentielle”
iii
1.1 Généralités
Toute étude statistique concerne un ensemble Ω appelé population dont les éléments sont appelés des individus.
Définition 1.1.1 : Une population c’est l’ensemble d’individus ou d’objets qui possèdent un ou plusieurs caractères spécifiques en commun. Une population statistique est dite finie si l’on peut déterminer avec précision le nombre d’in- dividus qui la composent sinon elle est dite infinie.
Exemple 1.1.1 :
L’étude statistique consiste en l’analyse d’une variable X appelé parfois caractère qui sert à dé- crire l’aspect d’une population objet de l’étude. On distingue deux types de variables : qualitatives et quantitatives.
Définition 1.1.2 : Une variable X est dite qualitative si les valeurs prises sont des mots ou des lettres. Une variable X est dite quantitative si les valeurs prises sont des nombres réels.
Exemple 1.1.2 :
Exemple 1.2.1 :
Donnée Niveau de précision Décimale Chiffre suivant Résultat
L’étude concrète d’une variable X donne N valeurs qui constituent la distribution statistique de X (aussi appelé série statistique). Cette distribution est, en générale, présentée d’une façon groupée :
Définition 1.2.2 : l’effectif ni est le nombre d’individus de la population ou de l’échantillon pour lesquels X prend la valeur xi (dans le cas d’une variable qualitative ou quantitative discrète) ou une valeur de l’intervalle ]xi, xi+1] (dans le cas d’une variable quantitative continue). La somme des effectifs est appelée la taille de la population ou de l’échantillon et est notée N. N = n 1 + n 2 + · · · + np On appelle fréquence de la valeur xi ou de la classe ]xi, xi+1] le nombre réel fi = n Ni On a évidement
∑^ p i=
fi = 1
C’est la proportion de l’effectif d’une valeur de la variable par rapport à N la taille totale de la population ou de l’échantillon. On appelle fréquence cumulée de la valeur xi ou de la classe ]xi, xi+1] la somme des fré- quences de cette valeur ou classe et des fréquences des valeurs ou classes qui la précèdent
Fi =
∑^ i k=
fi
C’est la proportion des unités statistiques de la population ou de l’échantillon qui possèdent une valeur inférieure ou égale à une valeur x donnée d’une variable quantitative.
Exemple 1.2.2 :
avec αi = fi × 360
Hauteur effectifs fréquences fréquences cumulées en cm ni fi F (x) 191 2 0. 2 0. 2 194 1 0. 1 0. 3 197 2 0. 2 0. 5 200 2 0. 2 0. 7 203 3 0. 3 1 Total N = 10 1
1.3.1.2 Représentation circulaire
C’est une représentation où chaque modalité est représentée par une portion du disque. Si S est l’aire du disque, l’aire d’une portion est égale à f × S, où f est la fréquence de la modalité correspondante. L’angle α de chaque portion s’obtient en multipliant la fréquence par 360◦, l’angle du disque (α = f × 360 )
Exemple 1.3.2 : Représentation du digramme circulaire des fréquences pour le niveau d’étude des adultes d’une résidence.
Figure 1.2 – Diagramme circulaire
1.3.2.1 Diagramme en bâtons
Le diagramme en bâtons des effectifs (respectivement des fréquences) de la distribution sta- tistique {(xi, ni) / 1 ≤ i ≤ p} (respectivement {(xi, fi) / 1 ≤ i ≤ p}) s’obtient en traçant sur un repère orthonormé les “ bâtons ” AiBi, c’est à dire les segments joignant les point Ai(xi, 0) et Bi(xi, ni) (respectivement Bi(xi, fi)) pour 1 ≤ i ≤ p.
Sur l’axe des abscisses on représente les valeurs de la variable, alors que sur l’axe des ordonnées on représente les effectifs ou les fréquences selon que l’on désire tracer un diagramme des effectifs ou des fréquences.
Exemple 1.3.3 : La distribution des performances en saut en hauteur de 100 athlètes sont re- présentées dans le tableau suivant :
Hauteur effectifs fréquences fréquences cumulées en cm ni fi F (x) 191 6 0. 06 0. 06 194 17 0. 17 0. 23 197 41 0. 41 0. 64 200 27 0. 27 0. 91 203 9 0. 09 1 Total 100 1
Représentation du diagramme en bâtons pour la distribution des performances en saut en hauteur de 100 athlètes.
Figure 1.3 – Diagramme en bâtons
Figure 1.5 – Courbe des fréquences cumulées
Considérons une variable continue X dont les valeurs se situent dans un intervalle I. On divise cet intervalle en k classes disjointes ]xi, xi+1], i = 1, ..., p. On prendra toujours des classes de même amplitude (xi+1 − xi = constante). Plus le nombre d’observations est grand plus le nombre de classes est élevé. On admet cepen- dant, pour aider à la compréhension, que ce nombre devrait être entre 5 et 15. Pour tout i, on note ni le nombre de valeurs de X dans la classe ]xi, xi+1] qu’on appelle effectif de cette classe. Pour dresser le tableau de distribution, on pourra suivre les étapes suivantes :
Etape 1 : Déterminer p le nombre de classes à considérer dans l’étude. Pour N l’effectif de la population ou de l’échantillon, on peut le calculer selon l’une des deux règles suivantes : i) Règle de Sturge : P = 1 + 3. 3 × log 10 (N ) ii) Règle de Yule : P = 2. 5 × 4
Avec p = l’entier naturel le plus proche de P.
Etape 2 : Calculer l’étendue e = xmax − xmin où xmin est la valeur minimale de la variable X et xmax est la valeur maximale de la variable X. Etape 3 : Diviser l’étendue e par p le nombre de classes, pour avoir une idée sur la valeur de l’amplitude des classes que l’on notera a. on a, a = e p Etape 4 : On construit alors les classes
[xmin, xmin + a], ]xmin + a, xmin + 2a], · · · , ]xmin(p − 1) a, xmin + p a]
Etape 5 : S’assurer que chaque observation appartient à une et une seule classe.
Exemple 1.3.6 : Etude de la consommation aux 100 km de 20 voitures d’un nouveau modèle : 6.11, 6.05, 5.98, 5.77, 5.18, 5.66, 5.28, 5.11, 5.58, 5.49, 5.62, 5.33, 5.55, 5.45, 5.76, 5.23, 5.57, 5.52, 5.8, 6.0. Pour la méthode de Sturge P = 1 + 3. 3 × log 10 (20) = 5. 293. Pour la méthode de Yule P = 2. 5 × 4
20 = 5. 287 , D’où le nombre de classe est p = 5. Nous avons xmin = 5. 11 et xmax = 6. 11. D’ou e = 6. 11 − 5 .11 = 1 et a = e p
Consommation effectifs fréquences fréquences cumulées en litre ni fi F (x) [5. 11 , 5 .31] 4 0. 2 0. 2 ]5. 31 , 5 .51] 3 0. 15 0. 35 ]5. 51 , 5 .71] 6 0. 3 0. 65 ]5. 71 , 5 .91] 3 0. 15 0. 8 ]5. 91 , 6 .11] 4 0. 2 1 Total 20 1
1.3.3.1 Histogramme
L’histogramme des effectifs (respectivement des fréquences) de la distribution statistique {(]xi, xi+1], ni) / 1 ≤ i ≤ p} (respectivement {(]xi, xi+1], fi) / 1 ≤ i ≤ p}) s’obtient en traçant sur un repère orthonormé, pour tout i = 1, · · · , p, un rectangle de base la longueur du segment ]xi, xi+1] et de hauteur égale à l’effectif ou la fréquence de cette classe. Sur l’axe des abscisses on représente les bornes des classes ]xi, xi+1] de la variable c’est à dire les points x 1 , x 2 , · · · , xp, xp+1, alors que sur l’axe des ordonnées on représente les effectifs ou les fréquences selon que l’on désire tracer un histogramme des effectifs ou des fréquences.
Exemple 1.3.7 : Représentation de l’histogramme des fréquences de la distribution de l’exemple 1.3.6.
Figure 1.7 – Polygone des fréquences
1.3.3.3 Courbe des fréquences cumulées
La courbe des fréquences cumulées de la distribution {(]xi, xi+1], fi) / 1 ≤ i ≤ p} s’obtient en joignant les points de coordonnées (y, 0), (ci, Fi) pour i = 0, 1 , · · · , p et (x, 1) pour y ≤ c 0 et x ≥ cp avec , F 0 = 0, Fi = f 1 + · · · + fi et ci = xi+1 pour i = 0, 1 , · · · , p. Lorsque la borne inférieure de la première classe est observée c’est à dire l’intervalle est fermé en x 1 , F (x 1 ) 6 = 0, (comme c’est le cas dans l’exemple 1.3.6), on a c 0 = x 1 − a 2
Lorsque la borne inférieure de la première classe n’est pas observée c’est à dire l’intervalle est ouvert en x 1 , F (x 1 ) = 0, on a c 0 = x 1.
Exemple 1.3.9 : Représentation de la courbe des fréquences cumulées de la distribution de l’exemple 1.3.6.
Figure 1.8 – Courbe des fréquences cumulées
2.1 Les mesures de tendance centrale
La tendance centrale se propose de synthétiser l’ensemble d’une série statistique en faisant ressortir une position centrale de la valeur du caractère étudié. Il existe plusieurs mesures de tendance centrale.
Le mode , la médiane et la moyenne
2.1.1.1 Variable qualitative ou quantitative discrète
Définition 2.1.1 : Le mode est une valeur de la variable pour laquelle l’effectif ou la fréquence est maximal(e). Le mode est noté md. Une distribution peut être unimodale, bimodale ou pmultimodale.
Exemple 2.1.1 :
xi 8 / 20 9 / 20 10 / 20 11 / 20 12 / 20 13 / 02 14 / 20 ni 2 7 12 17 11 6 3
l’effectif maximal est 17
La variable est quantitative discrète. On a md = 11/ 20. Cette distribution est unimodale.
xi Rouge Blanche Verte Jaune Noire Grise ni 2 7 5 7 5 7 l’effectif maximal est 7
La variable est qualitative. Ici on a trois modes : Blanche, Jaune et Grise. Cette distribution est multimodale.
Figure 2.1 – Histogramme
cotg(α) =
a =^
xC − xI
cotg(β) = AD AB
a
xC − xI
d’où le système
xC − xI^ =^
YA − Yc a
YA − YI xC − xI
a en faisant la somme on obtient YA − YC xC − xI^ =
a On en déduit
xC − xI YA − YC = a (YA − YC ) + (YA − YD) ou encore xI = xC − a(YA^ −^ YC^ ) (YA − YC ) + (YA − YD)
où xi+1 est la borne supérieure de la classe modale, a l’amplitude commune à toutes les classes, fi+1 la fréquence de la classe modale, fi la fréquence de la classe qui précède la classe modale et fi+2 la fréquence de la classe qui suit la classe modale.
md = xi+1 − a × (fi+1 − fi+2) (fi+1 − fi+2) + (fi+1 − fi) ou^ md^ =^ xi+1^ −^ a^ ×^
(ni+1 − ni+2) (ni+1 − ni+2) + (ni+1 − ni)
Application numérique : xi+1 = 4, a = 1, fi = 0. 19 , fi+1 = 0. 25 et fi+2 = 0. 125 , on a
md = 4 − 1 × (0.^25 −^0 .125) (0. 25 − 0 .125) + (0. 25 − 0 .19)
La médiane est la valeur me de la variable qui partage les éléments de la série statistique, préalablement classés par ordre croissant, en deux groupes d’effectifs égaux : 50% des individus présentent une valeur inférieure ou égale à la médiane et 50% présentent une valeur supérieure ou égale à la médiane.
2.1.2.1 Variable quantitative discrète
Soient x 1 , x 2 , · · · , xN les valeurs prises par la variable. On les ordonne de la plus petite à la plus grande et on note x(1) la plus petite valeur x(2) la deuxième valeur, · · ·, x(i) la ime^ valeur, · · · x(N ) la plus grande valeur. Alors on a
me =
x( N +1 2 ) si N est impair x( N 2 ) + x( N 2 +1) 2 si^ N^ est pair
Exemple 2.1.3 :
On a N = 30
donc N est pair d’où
2 = 15^ et^ me^ =
x( N 2 ) + x( N 2 +1) 2 =^
x(15) + x(16) 2 =
x(16) = 40 car le premier effectif cumulé supérieur ou égal à 16 est 24 et x(24) = 40.
On a N = 33
donc N est impair d’où N^ + 1 2 = 17 et me = x(17) = 30 car le premier effectif cumulé supérieur ou égal à 17 est 18 et x(18) = 30.
2.1.2.2 Variable quantitative continue
La médiane est la solution de l’équation F (x) = 0, 5. Pour la déterminer, on commence par déterminer la classe médiane ]xi, xi+1] qui vérifie
F (xi) < 0 , 5 et F (xi+1) ≥ 0 , 5
La médiane me (qui appartient à la classe médiane) est ensuite déterminée à partir d’une interpolation linéaire. Reprenons l’exemple de la distribution des salaires mensuels (en milliers de dirhams) du personnel d’une entreprise :