





















































Étudies grâce aux nombreuses ressources disponibles sur Docsity
Gagnz des points en aidant d'autres étudiants ou achete-les avec un plan Premium
Prépare tes examens
Étudies grâce aux nombreuses ressources disponibles sur Docsity
Obtiens des points à télécharger
Gagnz des points en aidant d'autres étudiants ou achete-les avec un plan Premium
Communauté
Demandes de l'aide à la communauté et dissipes tes doutes concernant l'étude
Guide gratuite
Télécharges gratuitement nos guides sur les techniques d'étude, les méthodes de gestion de l'anxiété, les conseils pour la thèse réalisés par les tuteurs Docsity
Cours de statistiques descriptive et inférences statistiques
Typologie: Notes
1 / 61
Cette page n'est pas visible dans l'aperçu
Ne manques pas les parties importantes!






















































Les statistiques ne se limitent pas à une simple collecte de chiffres mais en réalité elles dépassent largement cette idée par une étude approfondie qui utilisent des notions mathématiques et des outils informatiques parfois sophistiqués. Cela a fondé une discipline scientifique, à part entière, qui la Statistique.
La statistique répond à trois principales définitions :
Illustration : Un gouvernement veut réorienter sa politique sociale.
Il est tout d’abord indispensable de connaître la structure de la population :
Ils doivent pour cela suivre les étapes suivantes :
Ces trois points sont du domaine de la statistique descriptive.
La moyenne des revenus échantillonnés est par exemple de 4200 Dinars
Mais que représente cette valeur par rapport à l’ensemble de la population?
C’est cela qui importe vraiment pour le gouvernement. Nous entrons là dans le domaine des estimations. Dans ce cas particulier, il est impossible de recueillir la donnée pour l’ensemble de la population (recensement). La moyenne ci-dessus n’est donc pas représentative de l’ensemble car elle dépend du choix des 1000 personnes ; un choix généralement aléatoire qui introduit alors un facteur de hasard. Pour contrôler ces paramètres, on utilise les probabilités.
On peut se poser la question de savoir quelle influence a le hasard sur les résultats. Nous quittons alors les statistiques pour commencer le calcul des probabilités. Ensuite, la réflexion théorique sur la distribution des données, avec comme objectif de transposer les résultats d’un échantillon à l’ensemble constitue la statistique mathématique.
Dans notre illustration, cette dernière ne nous fournira pas la valeur exacte pour l’ensemble de la population, mais d’autres informations comme une probabilité de 0.95 qu’un intervalle indéterminé contienne la valeur moyenne des revenus de l’ensemble de la population.
Statistique descriptive : la moyenne est de 4200 Dinars sur 1000 individus.
Statistique mathématique : le revenu moyen de la population a 95% de chance de se situer dans l’intervalle [3670, 4741]
La statistique mathématique est donc plus valable, mais elle induit toujours une marge d’erreur, un certain droit à l’erreur, qui est connu néanmoins.
Une étude de statistiques peut se résumer ainsi :
Traitement et interprétation des données avec les outils du calcul de probabilité.
1 SEG 1 FC 2SEG 2 FC 3 SEG 3FC 4 SEG Total 1245 285 786 221 524 182 362 3605 n 1 n 2 n 3 n 4 n 5 n 6 n 7 N
N
n fi i
1 SEG 1 FC 2SEG 2 FC 3 SEG 3FC 4 SEG Total 0,345 0,079 0,218 0,061 0,145 0,050 0,100 (^1) f 1 f 2 f 3 f 4 f 5 f 6 f 7 F
a) graphique à bandes (tuyaux d'orgue): axe horizontal: modalités axe vertical: ni ou fi
b) graphique à secteur (camembert): angle pour la modalité i: fi. 360°
Nota bene: l'ordre des modalités pour les données nominales est arbitraire. Ainsi, il en est de même de l'aspect global des représentations graphiques.
discrètes = ensemble de ses valeurs est dénombrable continues = ensemble de ses valeurs est infini et non-dénombrable
Sous forme littérale: i i n i N (^) n x 1
a) diagrammes en bâtons
0
200
400
600
800
1000
1200
1400
Effectifs
Niveau des étudiants
Histogramme de la distribution des étudiants de la FSEG Mahdia
34% 22% 8% 6%
15%
5% 10%
1 SEG 1 FC 2SEG 2 FC 3 SEG 3FC 4 SEG
le mode: c'est la valeur la plus fréquente, ou la classe modale: classe qui correspond au maximum de la fréquence.
~ xou Me la médiane: la valeur qui partage la série d'observations ordonnées en deux parties de taille égales. Le rang de la médiane se détermine de la manière suivante: n, le nombre d'observations, est impaire; le rang de la médiane est n 2 ^1. n est pair; dans ce cas, le rang de la médiane se situe entre les observations de rang
2 n et 2^ n ^1. On^ en prend^ généralement la valeur intermédiaire^ comme valeur médiane. Si l’on ne dispose pas de mesures groupées, on doit définir la classe médiane : il s’agit de la classe qui contient l’observation de rang (k+1)/2, c’est-à-dire la première classe dont la fréquence cumulée égale ou dépasse 0.5. Puis il s’agit d’approximer la valeur de la médiane :
k k
k app (^) n a
n n x b
inf 2 ^1
1 ~
où : binf^ est la borne inférieure de la classe médiane. nk-1 est l’effectif cumulé de la classe précédent la médiane. nk est l’effectif appartenant à la classe médiane. ak est l’amplitude de la classe médiane. n est l’effectif total
x, la moyenne: c'est la somme des valeurs observées divisée par le nombre d'observations.
n i i
i (^) x n ou n
x 1 x x^1.
Pour les valeurs groupées , on a x 1 ,…,xk, où k est le nombre d'observations distinctes; n 1 ,…nk est l'ensemble de fois que l'on a observé xi.
Ainsi
k i
k i i i i
k i i i^ i
1 1 1
i est la fréquence de ni.
Lorsqu'on a affaire à une moyenne pondérée (systèmes de coefficients par exemple),
(^) k i i^ i x px 1 , où pi exprime l'importance (le poids) que l'on attribue à xi.
Pour les valeurs non groupées, k i k k
k i k
k (^) x f x N x n 1 1
(^) ( ) , mais ici, fk correspond à la
fréquence de la classe k, xk correspond à la valeur moyenne de chaque classe :
2
b sup^ b^ inf xk ^
Remarque: les valeurs extrêmes ne modifient pas la médiane. La moyenne par contre y est sensible, on dit qu'elle n'est pas robuste. Notation: Lorsque l'on doit comparer médiane et moyenne, on utilise les notations suivant: (^) x~ x;x~x;x~x;x~x.
Par la suite, on peut représenter graphiquement la loi générale:
i) x 5. 4 x ~ 5 x x ~ symétrie
ii)
iii) (^) x x étalée à gauche
iii) x x ~étalée à droite
(^10) x 1000 ~ x ~ 1
1
Exemple: annexe II, N = 34, r* = 17, position de Q 1 : 172 ^1 9 [Q 1 ] = 440, Q 2 (médiane) = 500 et Q 3 = 670 (on compte le rang à rebours). Ainsi, l’écart interquartile = Q3-Q1 ; cet intervalle contient 50% des observations.
la variance sx^2 ou V( ) : il s’agit d’une moyenne arithmétique des carrés des écarts à la moyenne.
Sx^2 = (^) f (^) i ( xi x )^2 où i est la fréquence. Comme sx^2 n’est pas de même ordre unitaire que les observations, on en prend la racine carrée sx = (^) s x^2 que l’on appelle l’écart type.
Le changement de variable : Soit X : x 1^ ,..., xn ; f 1 , …, fn Y : y^ 1 ,..., yn où yi = axi + b. Sy^2 (^) f (^) i ( yi y )^2 fi ( axi b ( ax b ))^2 fi ( axi ax )^2 (^) f (^) ia^2 ( xi x )^2 a^2 fi ( xi x )^2 a^2 sx^2 Ainsi la variance est insensible aux translations. Il y a des cas particuliers où zi = x x i x
i s x x s s
x x (^1)
De la relation précédente, on trouve^2 12 x^2 1 x
sz (^) s s
Les zi ont leur moyenne égale à zéro et leur variance égale à 1 : on dit que Z est centré ( x 0 )et réduit (s^2 =1). Définition : La Variance de la variable aléatoire x, notée V(X), est définie par : V(X) ^ E^ [(^^ X^ E X (^ )) ]^2 , qui est donc l’écart de la variable aléatoire à son espérance, le tout au carré, dont on prend l’espérance.
V(X) =
n i i^ i p x E X 1
(^) [ ( )]^2 , qui est son expression opératrice. Commentaire : i) E(X) est une mesure de position de X. ii) V(X) est une mesure de dispersion autour de E(X). iii) V(X), E(X) R. Illustration : Soit X, une variable aléatoire discrète, telle que :
c c équiprobable
-c C P(X=) 0.5^ 0.
E(X) = ½(-c) + ½(c) = 0
2 2 2 2 1
(^2) (( ) ) 2 p ( x E ( X )) px^1 c c c i i i i i D’où (^) V ( X ) c , c’est donc la distance entre les valeurs et l’espérance.
Y = aX + b, où a, b R. Etant donné X, variable aléatoire, Y est aussi variable aléatoire. i) E ( Y ) E ( aX b ) pi ( axi b ) piaxi pib a pixi b pi aE ( X ) b
donc E(aX + b) = aE(X) + b
ii) ( ( )) ( ( )) ( )
2 2 2 2
2 2 2 EaX aE X a E X E X aV X
VY EY EY E aX b E aX b EaX b aE X b
ainsi, V(aX + b) = a^2 V(X) On remarque que ces propriétés sont les mêmes qu’en statistique descriptive pour
x et sx^2_._
Définition : La corrélation (Corr) est un lien entre deux variables défini par :
Corr(A ;B) = cov( V ( XX ) V ; Y ( Y ))
Exemple : x; y -1 0 1 0 0 ½ 0 ½ 1 ¼ 0 ¼ ½ ¼ ½ ¼ 1
Donc E(X) = 01/2 + 11/2 = ½ Et V(X) = (0-1/2)^2 1/2 + (1-1/2)^2 1/2 = ¼ E(Y) = 0 V(Y) = ½ Ensuite on peut construire un autre tableau avec les covariances : Cov(X ;Y) = E {(X-E(X))(Y-E(Y))}
-E(X) ; y-E(Y) -1 0 1 -½ 0 ½ 0 ½ ¼ 0 ¼ 1
Cov(X ;Y) = j i i^ j i j ( x E ( X ))( y E ( Y )) p ( X x Y y ) = - ½ - 1 0 + - ½ 0 ½ + - ½ 1 0 + ½ - 1 ¼ + ½ 0 0 + ½ 1 ¼ = 0 la covariance est nulle: il n’y a pas de lien de type linéaire (ax + b) entre X et Y. Corr( X;Y) = 0 1 / 41 / 2
(^0)
Non-indépendance
NOTE: Il faut bien distinguer corr et cov, car elles sont indépendantes l’une de l’autre (on peut avoir Cov Corr).
2. LES INDICES 2.1 GENERALITES Exemple: Prix à la consommation et quantité consommée par un ménage. On regarde la dépense du ménage en t = 0 et en t = t.
pi: prix du bien i; qi: quantité du bien i.
(^) doi p q.
it ti i dti pq , les prix et les quantités ont donc varié par rapport à l'année 0.
Pour les prix: i i it t (^) p P p (^0 ) /
Pour les quantités: i i ti t (^) q Q q (^0 ) / Donc la dépense: i i ti ti
it ti i i ti t (^) p q Q P p q d D d / (^0 00) 0 / 0 / 0
Les moyennes d'indices: i) i (^) f (^) 0 i^ Iti / 0 , on pondère par une quantité de base, c'est une moyenne arithmétique. ii)
1 , on pondère par une quantité du temps t , c'est une moyenne
harmonique.
Cela correspond à la dépense totale au temps t, divisée par la dépense totale des quantités au temps t payées au prix à t = 0.
quantité:
i ti i
j tj tj tP p q
p q I q (^0 ) / ( )
Ce qui correspond à la dépense totale au temps t, divisée par la dépense totale des quantités au temps t payées au prix à t = t.
Question: Quel indice choisir?
I F^ ( q ) IL ( q ) IP ( q )et IF ( p ) IL ( p ) IP ( p )
3 MESURE DE CONCENTRATION
Rappel: i) Moyenne, médiane et variance résument des ensembles de données. ii) Les indices comparent des données dans le temps. On introduit la notion de concentration. On mesure la différence d'aire à la diagonale: Plus la courbe de Lorenz s'éloigne de la diagonale, moins la distribution est égalitaire, et plus la concentration est
I (^) / ( p ) IL / t ( p ) tP (^00) ^1
forte. Pour calculer cette concentration, on doit calculer l'aire.
On doit sommer en fait les trapèzes formés par des bases x 0 Exemple:
Aire du trapèze: Gi^ 2 G i ^1 ( Fi Fi 1 )
Ainsi, l'indice de Gini est 2 (½ - somme des aires des trapèzes)
C'est le revenu qui partage la masse globale en deux partis égales( de même poids).
Il se détermine, par interpolation linéaire, de la même manière que la médiane. Seulement, les calculs se font sur les valeurs globales relatives cumulées croissante noté Q.
Fi- 1 Fi
Gi
Gi- 1
1. INTRODUCTION
Nous devons traiter de l’aléatoire pour deux raisons :
Le tableau de fréquence est un genre de tableau de données que l’on utilise pour les exploiter. On distingue généralement les tableaux à double entrée, relativement simples d’utilisation, et les tableaux à triple entrée et plus. Exemple : On mène une étude sur le relèvement de l’âge de la retraite. La question est de savoir s’il existe une disparité entre les opinions féminines et les opinions masculines. a) L’échantillon est de 400 personnes dont 250 hommes (H), et 150 femmes (F). b) On a catégorisé trois types d’opinions : défavorable (D), indifférent (I) et favorable (F). c) Nous avons donc, comme situation de départ, 400 données du type [sexe ; opinion], qu'on appelle unités statistiques , parmi six choix différents au total. d) Il nous faut donc les résumer dans un tableau à double entrée contenant ces données groupées. (Ces chiffres sont arbitraires et fournis à titre d’exemple)
Opinion
D I F
Sexe
Il est toujours nécessaire et indispensable de préciser si le choix des données représente un/des cas particulier/s (échantillon) ou une caractéristique de l’ensemble de la population.
Opinion D I F Sexe H 0.125 0.375 0.125 0. F 0.175 0.075 0.125 0. 0.3 0.45 0.25 1
Par exemple, cette valeur signifie que 7.5 % des individus interrogés sont des femmes et sont indifférentes à la proposition.
Les valeurs qui sont inscrites dans les marges du tableau sont appelées distribution marginale. Par exemple, la distribution marginale horizontale indique la distribution des opinions, sans aucune indication sur le sexe. L’autre marge contient la distribution marginale des sexes.
effectif