Méthodes de regroupement des données : Règle de Sturge et Règle de Yule, Papers of Probability and Statistics

Ce document présente les méthodes de regroupement des données, en particulier la règle de Sturge et la règle de Yule. Il explique comment calculer le nombre optimal de classes pour une distribution de données et fournit des exemples concrets pour illustrer les concepts. Le document aborde également la construction d'histogrammes et de polygones de fréquences, ainsi que la notion de courbe de Lorenz et d'indice de Gini pour analyser la concentration des données.

Typology: Papers

2024/2025

Uploaded on 02/12/2025

mohammed-lakhal-2
mohammed-lakhal-2 🇲🇦

2 documents

1 / 48

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
Filière : SMI
Semestre 3
Module 18
Cours de Statistique Descriptive
Par le
Professeur HAKAM Samir
Année : 2020 - 2021
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30

Partial preview of the text

Download Méthodes de regroupement des données : Règle de Sturge et Règle de Yule and more Papers Probability and Statistics in PDF only on Docsity!

Filière : SMI

Semestre 3

Module 18

Cours de Statistique Descriptive

Par le

Professeur HAKAM Samir

Année : 2020 - 2021

Table des matières

Introduction

La statistique désigne l’ensemble des méthodes mathématiques relative à la collecte, à la pré- sentation, à l’analyse et à l’utilisation des données numériques. Ces opérations permettent de tirer des conclusions et de prendre des décisions dans les situa- tions d’incertitudes qu’on rencontre dans les domaines scientifiques, économiques, sciences sociales ou des affaires ...

En présence d’un ensemble de données chiffrées, on a un désir spontané de simplification. Se- lon des critères, la statistique cherche d’une part à représenter, ordonner et classer des données ; d’autre part, à résumer la multiplicité et la complexité des notions par des caractéristiques syn- thétiques.

Le statisticien est ainsi conduit à collecter des données, construire des graphiques, déterminer des caractéristiques centrale, calculer des caractéristiques de dispersion et étudier la symétrie.

L’organisation, la description et la présentation des données sous forme de tableaux ou de graphiques sont l’objet de la “statistique descriptive”. L’interprétation et les conclusions que l’on peut tirer d’un ensemble de données font l’objet de la “statistique Inférentielle”

iii

Chapitre 1

Distribution statistique

1.1 Généralités

1.1.1 Population

Toute étude statistique concerne un ensemble Ω appelé population dont les éléments sont appelés des individus.

Définition 1.1.1 : Une population c’est l’ensemble d’individus ou d’objets qui possèdent un ou plusieurs caractères spécifiques en commun. Une population statistique est dite finie si l’on peut déterminer avec précision le nombre d’in- dividus qui la composent sinon elle est dite infinie.

Exemple 1.1.1 :

  • Dans une étude sur le sport, la population peut être l’ensemble des personnes qui pratiquent un sport.
  • Dans une étude sur les revenus mensuels dans une entreprise, la population peut être l’en- semble des personnes qui travaillent dans cette entreprise.

1.1.2 Variables statistiques

L’étude statistique consiste en l’analyse d’une variable X appelé parfois caractère qui sert à dé- crire l’aspect d’une population objet de l’étude. On distingue deux types de variables : qualitatives et quantitatives.

Définition 1.1.2 : Une variable X est dite qualitative si les valeurs prises sont des mots ou des lettres. Une variable X est dite quantitative si les valeurs prises sont des nombres réels.

Exemple 1.1.2 :

  • La couleur des cheveux, état du temps constaté à Rabat pendant les six premiers mois de l’année 2017 (pluvieux, orageux, beau, venteux, brouillard, ...), mode de transport pour se rendre à la faculté (voiture, taxi, bus, tramway, moto, bicyclette, à pied) définissent des variables qualitatives.
  • Augmenter cette décimale d’une unité si le chiffre suivant est supérieur strictement à 5 (soit 6, 7, 8 ou 9).
  • Conserver cette décimale si le chiffre suivant est inférieur strictement à 5 (soit 0, 1, 2, 3 ou 4).
  • Enfin si le chiffre suivant la décimale est le cinq lui même suivi par des chiffres différents de zéro, alors l’augmentée d’une unité, tandis que si cinq n’est suivi d’aucun chiffre (ou que par des zéros) alors la décimale est augmentée d’une unité lorsqu’elle est impaire et reste inchangée si elle est paire.

Exemple 1.2.1 :

Donnée Niveau de précision Décimale Chiffre suivant Résultat

  1. 237 au centième près 3 7 > 5 47. 24
  2. 5251 au centième près 2 5 76. 13
  3. 438 au dixième près 4 3 < 5 16. 4
  4. 04 au dixième près 0 4 < 5 12. 0
  5. 12350 au millième près 3 5 5. 124
  6. 3245 au millième près 4 5 49. 324
  7. 646 au centième près 4 6 > 5 21. 65
  8. 63521 au centième près 3 5 7. 64
  9. 48 au dixième près 4 8 > 5 1. 5
  10. 0465 au millième près 6 5 678. 046
  11. 56132 au millième près 1 3 < 5 2. 561

1.2.2 Effectifs - Fréquences - Fréquences cumulées

L’étude concrète d’une variable X donne N valeurs qui constituent la distribution statistique de X (aussi appelé série statistique). Cette distribution est, en générale, présentée d’une façon groupée :

  • Sous la forme {(xi, ni) / 1 ≤ i ≤ p} dans le cas d’une variable qualitative ou quantitative discrète (avec x 1 < x 2 < · · · < xp dans le cas d’une variable quantitative discrète).
  • Sous la forme d’intervalles ou de classes {(]xi, xi+1], ni) / 1 ≤ i ≤ p} dans le cas d’une variable quantitative continue.

Définition 1.2.2 : l’effectif ni est le nombre d’individus de la population ou de l’échantillon pour lesquels X prend la valeur xi (dans le cas d’une variable qualitative ou quantitative discrète) ou une valeur de l’intervalle ]xi, xi+1] (dans le cas d’une variable quantitative continue). La somme des effectifs est appelée la taille de la population ou de l’échantillon et est notée N. N = n 1 + n 2 + · · · + np On appelle fréquence de la valeur xi ou de la classe ]xi, xi+1] le nombre réel fi = n Ni On a évidement

∑^ p i=

fi = 1

C’est la proportion de l’effectif d’une valeur de la variable par rapport à N la taille totale de la population ou de l’échantillon. On appelle fréquence cumulée de la valeur xi ou de la classe ]xi, xi+1] la somme des fré- quences de cette valeur ou classe et des fréquences des valeurs ou classes qui la précèdent

Fi =

∑^ i k=

fi

C’est la proportion des unités statistiques de la population ou de l’échantillon qui possèdent une valeur inférieure ou égale à une valeur x donnée d’une variable quantitative.

Exemple 1.2.2 :

  • Variable qualitative : La répartition des adultes d’une résidence selon le niveau d’instruction. Niveau effectifs fréquences Angles d’instruction ni fi αi Sans 25 0. 072 25. 92 Primaire 36 0. 103 37. 08 Secondaire 81 0. 231 83. 16 Universitaire 208 0. 594 213. 84 Total N = 350 1 360

avec αi = fi × 360

  • Variable quantitative discrète : Les performances en saut en hauteur (en cm) de 10 athlètes sont : 191, 194, 197, 191, 200, 203, 200, 197, 203, 203.

Hauteur effectifs fréquences fréquences cumulées en cm ni fi F (x) 191 2 0. 2 0. 2 194 1 0. 1 0. 3 197 2 0. 2 0. 5 200 2 0. 2 0. 7 203 3 0. 3 1 Total N = 10 1

  • Variable quantitative continue : Etude de la consommation aux 100 km de 20 voitures d’un nouveau modèle : 5.56, 5.35, 5.98, 5.77, 5.18, 5.66, 5.28, 5.11, 5.58, 5.49, 5.59, 5.33, 5.55, 5.45, 5.76, 5.23, 5.57, 5.52, 5.8, 6.0. Consommation effectifs fréquences fréquences cumulées en litre ni fi F (x) [5, 5 .2] 2 0. 1 0. 1 ]5. 2 , 5 .4] 4 0. 2 0. 3 ]5. 4 , 5 .6] 8 0. 4 0. 7 ]5. 6 , 5 .8] 4 0. 2 0. 9 ]5. 8 , 6] 2 0. 1 1 Total N = 20 1

1.3.1.2 Représentation circulaire

C’est une représentation où chaque modalité est représentée par une portion du disque. Si S est l’aire du disque, l’aire d’une portion est égale à f × S, où f est la fréquence de la modalité correspondante. L’angle α de chaque portion s’obtient en multipliant la fréquence par 360◦, l’angle du disque (α = f × 360 )

Exemple 1.3.2 : Représentation du digramme circulaire des fréquences pour le niveau d’étude des adultes d’une résidence.

Figure 1.2 – Diagramme circulaire

1.3.2 Représentations graphiques d’une distribution de variables quantitatives

discrètes

1.3.2.1 Diagramme en bâtons

Le diagramme en bâtons des effectifs (respectivement des fréquences) de la distribution sta- tistique {(xi, ni) / 1 ≤ i ≤ p} (respectivement {(xi, fi) / 1 ≤ i ≤ p}) s’obtient en traçant sur un repère orthonormé les “ bâtons ” AiBi, c’est à dire les segments joignant les point Ai(xi, 0) et Bi(xi, ni) (respectivement Bi(xi, fi)) pour 1 ≤ i ≤ p.

Sur l’axe des abscisses on représente les valeurs de la variable, alors que sur l’axe des ordonnées on représente les effectifs ou les fréquences selon que l’on désire tracer un diagramme des effectifs ou des fréquences.

Exemple 1.3.3 : La distribution des performances en saut en hauteur de 100 athlètes sont re- présentées dans le tableau suivant :

Hauteur effectifs fréquences fréquences cumulées en cm ni fi F (x) 191 6 0. 06 0. 06 194 17 0. 17 0. 23 197 41 0. 41 0. 64 200 27 0. 27 0. 91 203 9 0. 09 1 Total 100 1

Représentation du diagramme en bâtons pour la distribution des performances en saut en hauteur de 100 athlètes.

Figure 1.3 – Diagramme en bâtons

Figure 1.5 – Courbe des fréquences cumulées

1.3.3 Représentations graphiques d’une distribution de variables quantitatives

continues

Considérons une variable continue X dont les valeurs se situent dans un intervalle I. On divise cet intervalle en k classes disjointes ]xi, xi+1], i = 1, ..., p. On prendra toujours des classes de même amplitude (xi+1 − xi = constante). Plus le nombre d’observations est grand plus le nombre de classes est élevé. On admet cepen- dant, pour aider à la compréhension, que ce nombre devrait être entre 5 et 15. Pour tout i, on note ni le nombre de valeurs de X dans la classe ]xi, xi+1] qu’on appelle effectif de cette classe. Pour dresser le tableau de distribution, on pourra suivre les étapes suivantes :

Etape 1 : Déterminer p le nombre de classes à considérer dans l’étude. Pour N l’effectif de la population ou de l’échantillon, on peut le calculer selon l’une des deux règles suivantes : i) Règle de Sturge : P = 1 + 3. 3 × log 10 (N ) ii) Règle de Yule : P = 2. 5 × 4

N

Avec p = l’entier naturel le plus proche de P.

Etape 2 : Calculer l’étendue e = xmax − xmin où xmin est la valeur minimale de la variable X et xmax est la valeur maximale de la variable X. Etape 3 : Diviser l’étendue e par p le nombre de classes, pour avoir une idée sur la valeur de l’amplitude des classes que l’on notera a. on a, a = e p Etape 4 : On construit alors les classes

[xmin, xmin + a], ]xmin + a, xmin + 2a], · · · , ]xmin(p − 1) a, xmin + p a]

Etape 5 : S’assurer que chaque observation appartient à une et une seule classe.

Exemple 1.3.6 : Etude de la consommation aux 100 km de 20 voitures d’un nouveau modèle : 6.11, 6.05, 5.98, 5.77, 5.18, 5.66, 5.28, 5.11, 5.58, 5.49, 5.62, 5.33, 5.55, 5.45, 5.76, 5.23, 5.57, 5.52, 5.8, 6.0. Pour la méthode de Sturge P = 1 + 3. 3 × log 10 (20) = 5. 293. Pour la méthode de Yule P = 2. 5 × 4

20 = 5. 287 , D’où le nombre de classe est p = 5. Nous avons xmin = 5. 11 et xmax = 6. 11. D’ou e = 6. 11 − 5 .11 = 1 et a = e p

=^1

Consommation effectifs fréquences fréquences cumulées en litre ni fi F (x) [5. 11 , 5 .31] 4 0. 2 0. 2 ]5. 31 , 5 .51] 3 0. 15 0. 35 ]5. 51 , 5 .71] 6 0. 3 0. 65 ]5. 71 , 5 .91] 3 0. 15 0. 8 ]5. 91 , 6 .11] 4 0. 2 1 Total 20 1

1.3.3.1 Histogramme

L’histogramme des effectifs (respectivement des fréquences) de la distribution statistique {(]xi, xi+1], ni) / 1 ≤ i ≤ p} (respectivement {(]xi, xi+1], fi) / 1 ≤ i ≤ p}) s’obtient en traçant sur un repère orthonormé, pour tout i = 1, · · · , p, un rectangle de base la longueur du segment ]xi, xi+1] et de hauteur égale à l’effectif ou la fréquence de cette classe. Sur l’axe des abscisses on représente les bornes des classes ]xi, xi+1] de la variable c’est à dire les points x 1 , x 2 , · · · , xp, xp+1, alors que sur l’axe des ordonnées on représente les effectifs ou les fréquences selon que l’on désire tracer un histogramme des effectifs ou des fréquences.

Exemple 1.3.7 : Représentation de l’histogramme des fréquences de la distribution de l’exemple 1.3.6.

Figure 1.7 – Polygone des fréquences

1.3.3.3 Courbe des fréquences cumulées

La courbe des fréquences cumulées de la distribution {(]xi, xi+1], fi) / 1 ≤ i ≤ p} s’obtient en joignant les points de coordonnées (y, 0), (ci, Fi) pour i = 0, 1 , · · · , p et (x, 1) pour y ≤ c 0 et x ≥ cp avec , F 0 = 0, Fi = f 1 + · · · + fi et ci = xi+1 pour i = 0, 1 , · · · , p. Lorsque la borne inférieure de la première classe est observée c’est à dire l’intervalle est fermé en x 1 , F (x 1 ) 6 = 0, (comme c’est le cas dans l’exemple 1.3.6), on a c 0 = x 1 − a 2

Lorsque la borne inférieure de la première classe n’est pas observée c’est à dire l’intervalle est ouvert en x 1 , F (x 1 ) = 0, on a c 0 = x 1.

Exemple 1.3.9 : Représentation de la courbe des fréquences cumulées de la distribution de l’exemple 1.3.6.

Figure 1.8 – Courbe des fréquences cumulées

Chapitre 2

Les mesures de tendance centrale et de

dispersion

2.1 Les mesures de tendance centrale

La tendance centrale se propose de synthétiser l’ensemble d’une série statistique en faisant ressortir une position centrale de la valeur du caractère étudié. Il existe plusieurs mesures de tendance centrale.

Le mode , la médiane et la moyenne

2.1.1 Le mode

2.1.1.1 Variable qualitative ou quantitative discrète

Définition 2.1.1 : Le mode est une valeur de la variable pour laquelle l’effectif ou la fréquence est maximal(e). Le mode est noté md. Une distribution peut être unimodale, bimodale ou pmultimodale.

Exemple 2.1.1 :

  • Considérons la distribution des notes d’un groupe d’étudiants.

xi 8 / 20 9 / 20 10 / 20 11 / 20 12 / 20 13 / 02 14 / 20 ni 2 7 12 17 11 6 3

l’effectif maximal est 17

La variable est quantitative discrète. On a md = 11/ 20. Cette distribution est unimodale.

  • Considérons la distribution des couleurs des voitures dans un parking

xi Rouge Blanche Verte Jaune Noire Grise ni 2 7 5 7 5 7 l’effectif maximal est 7

La variable est qualitative. Ici on a trois modes : Blanche, Jaune et Grise. Cette distribution est multimodale.

Figure 2.1 – Histogramme

cotg(α) =

BC

AB =^

C 1 C

C 1 I =⇒^

YA − YC

a =^

YI − YC

xC − xI

cotg(β) = AD AB

= C^1 B

C 1 I

=⇒ YA^ −^ YD

a

= YA^ −^ YI

xC − xI

d’où le système

YI − YC

xC − xI^ =^

YA − Yc a

YA − YI xC − xI

= YA^ −^ YD

a en faisant la somme on obtient YA − YC xC − xI^ =

(YA − YC ) + (YA − YD)

a On en déduit

xC − xI YA − YC = a (YA − YC ) + (YA − YD) ou encore xI = xC − a(YA^ −^ YC^ ) (YA − YC ) + (YA − YD)

où xi+1 est la borne supérieure de la classe modale, a l’amplitude commune à toutes les classes, fi+1 la fréquence de la classe modale, fi la fréquence de la classe qui précède la classe modale et fi+2 la fréquence de la classe qui suit la classe modale.

md = xi+1 − a × (fi+1 − fi+2) (fi+1 − fi+2) + (fi+1 − fi) ou^ md^ =^ xi+1^ −^ a^ ×^

(ni+1 − ni+2) (ni+1 − ni+2) + (ni+1 − ni)

Application numérique : xi+1 = 4, a = 1, fi = 0. 19 , fi+1 = 0. 25 et fi+2 = 0. 125 , on a

md = 4 − 1 × (0.^25 −^0 .125) (0. 25 − 0 .125) + (0. 25 − 0 .19)

2.1.2 La médiane

La médiane est la valeur me de la variable qui partage les éléments de la série statistique, préalablement classés par ordre croissant, en deux groupes d’effectifs égaux : 50% des individus présentent une valeur inférieure ou égale à la médiane et 50% présentent une valeur supérieure ou égale à la médiane.

2.1.2.1 Variable quantitative discrète

Soient x 1 , x 2 , · · · , xN les valeurs prises par la variable. On les ordonne de la plus petite à la plus grande et on note x(1) la plus petite valeur x(2) la deuxième valeur, · · ·, x(i) la ime^ valeur, · · · x(N ) la plus grande valeur. Alors on a

me =

x( N +1 2 ) si N est impair x( N 2 ) + x( N 2 +1) 2 si^ N^ est pair

Exemple 2.1.3 :

  • Considérons la distribution suivante xi 10 20 30 40 50 60 ni 3 8 4 9 3 3 effectifs cumulés 3 11 15 24 27 30

On a N = 30

donc N est pair d’où

N

2 = 15^ et^ me^ =

x( N 2 ) + x( N 2 +1) 2 =^

x(15) + x(16) 2 =

x(16) = 40 car le premier effectif cumulé supérieur ou égal à 16 est 24 et x(24) = 40.

  • Considérons la distribution suivante xi 10 20 30 40 50 60 ni 4 9 5 8 3 4 effectifs cumulés 4 13 18 26 29 33

On a N = 33

donc N est impair d’où N^ + 1 2 = 17 et me = x(17) = 30 car le premier effectif cumulé supérieur ou égal à 17 est 18 et x(18) = 30.

2.1.2.2 Variable quantitative continue

La médiane est la solution de l’équation F (x) = 0, 5. Pour la déterminer, on commence par déterminer la classe médiane ]xi, xi+1] qui vérifie

F (xi) < 0 , 5 et F (xi+1) ≥ 0 , 5

La médiane me (qui appartient à la classe médiane) est ensuite déterminée à partir d’une interpolation linéaire. Reprenons l’exemple de la distribution des salaires mensuels (en milliers de dirhams) du personnel d’une entreprise :