Docsity
Docsity

Prépare tes examens
Prépare tes examens

Étudies grâce aux nombreuses ressources disponibles sur Docsity


Obtiens des points à télécharger
Obtiens des points à télécharger

Gagnz des points en aidant d'autres étudiants ou achete-les avec un plan Premium


Guides et conseils
Guides et conseils


STATISTIQUE APPLIQUEE, Notes de Statistiques

Cours de statistiques descriptive et inférences statistiques

Typologie: Notes

2023/2024

Téléchargé le 27/10/2024

mohamed-belhedi
mohamed-belhedi 🇫🇷

1 document

1 / 61

Toggle sidebar

Cette page n'est pas visible dans l'aperçu

Ne manques pas les parties importantes!

bg1
Facu l t é d e s Scie n c e s é c o nomiq u e e t d e ge s t i o n d e Sou s s e
1 Mohamed BELHEDI
INTRODUCTION
Les statistiques ne se limitent pas à une simple collecte de chiffres mais en réalité elles
dépassent largement cette idée par une étude approfondie qui utilisent des notions
mathématiques et des outils informatiques parfois sophistiqués. Cela a fondé une discipline
scientifique, à part entière, qui la Statistique.
La statistique répond à trois principales définitions :
- Une statistique est un ensemble de données numériques concernant une catégorie de faits.
- La statistique est la science qui a pour objet la collecte, l’analyse et l’interprétation des
ensembles d’observations relatives à un phénomène.
- Elle peut aussi constituer une forme convaincante au « mensonge » des hommes
politiques.
Illustration : Un gouvernement veut réorienter sa politique sociale.
Il est tout d’abord indispensable de connaître la structure de la population :
- âge
- revenu
- catégorie socioprofessionnelle
- état civil
- etc.
Ils doivent pour cela suivre les étapes suivantes :
1. Recueillir les informations utiles.
2. Organiser ces données.
3. Les résumer si nécessaire.
4. La collecte de données :
a) De quelle information avons-nous besoin ?
b) C’est l’objet de l’étude.
c) Qui doit-on examiner ? Qui est/sont le/s sujet/s.
d) Comment faire ? C’est la méthode (sondages, entretiens).
5. L’organisation des données, nous cherchons ici par exemple à déterminer le revenu
mensuel moyen de la population. Partons d’un échantillon de 1000 personnes, nous
avons donc 1000 revenus (la première définition s’applique ici). Nous pouvons
présenter ces chiffres de plusieurs manières : tableaux, graphiques, etc. Mais si
l’information est trop riche, il nous faut en tirer des données caractéristiques, c’est à
dire :
6. Résumer l’information. On n’en choisi que quelques paramètres significatifs.
Attention toutefois à ne pas trahir les données de base.
Ces trois points sont du domaine de la statistique descriptive.
La moyenne des revenus échantillonnés est par exemple de 4200 Dinars
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d

Aperçu partiel du texte

Télécharge STATISTIQUE APPLIQUEE et plus Notes au format PDF de Statistiques sur Docsity uniquement!

INTRODUCTION

Les statistiques ne se limitent pas à une simple collecte de chiffres mais en réalité elles dépassent largement cette idée par une étude approfondie qui utilisent des notions mathématiques et des outils informatiques parfois sophistiqués. Cela a fondé une discipline scientifique, à part entière, qui la Statistique.

La statistique répond à trois principales définitions :

  • Une statistique est un ensemble de données numériques concernant une catégorie de faits.
  • La statistique est la science qui a pour objet la collecte, l’analyse et l’interprétation des ensembles d’observations relatives à un phénomène.
  • Elle peut aussi constituer une forme convaincante au « mensonge » des hommes politiques.

Illustration : Un gouvernement veut réorienter sa politique sociale.

Il est tout d’abord indispensable de connaître la structure de la population :

  • âge
  • revenu
  • catégorie socioprofessionnelle
  • état civil
  • etc.

Ils doivent pour cela suivre les étapes suivantes :

  1. Recueillir les informations utiles.
  2. Organiser ces données.
  3. Les résumer si nécessaire.
  4. La collecte de données : a) De quelle information avons-nous besoin? b) C’est l’ objet de l’étude. c) Qui doit-on examiner? Qui est/sont le/s sujet/s. d) Comment faire? C’est la méthode (sondages, entretiens).
  5. L’organisation des données, nous cherchons ici par exemple à déterminer le revenu mensuel moyen de la population. Partons d’un échantillon de 1000 personnes, nous avons donc 1000 revenus (la première définition s’applique ici). Nous pouvons présenter ces chiffres de plusieurs manières : tableaux, graphiques, etc. Mais si l’information est trop riche, il nous faut en tirer des données caractéristiques, c’est à dire :
  6. Résumer l’information. On n’en choisi que quelques paramètres significatifs. Attention toutefois à ne pas trahir les données de base.

Ces trois points sont du domaine de la statistique descriptive.

La moyenne des revenus échantillonnés est par exemple de 4200 Dinars

Mais que représente cette valeur par rapport à l’ensemble de la population?

C’est cela qui importe vraiment pour le gouvernement. Nous entrons là dans le domaine des estimations. Dans ce cas particulier, il est impossible de recueillir la donnée pour l’ensemble de la population (recensement). La moyenne ci-dessus n’est donc pas représentative de l’ensemble car elle dépend du choix des 1000 personnes ; un choix généralement aléatoire qui introduit alors un facteur de hasard. Pour contrôler ces paramètres, on utilise les probabilités.

On peut se poser la question de savoir quelle influence a le hasard sur les résultats. Nous quittons alors les statistiques pour commencer le calcul des probabilités. Ensuite, la réflexion théorique sur la distribution des données, avec comme objectif de transposer les résultats d’un échantillon à l’ensemble constitue la statistique mathématique.

Dans notre illustration, cette dernière ne nous fournira pas la valeur exacte pour l’ensemble de la population, mais d’autres informations comme une probabilité de 0.95 qu’un intervalle indéterminé contienne la valeur moyenne des revenus de l’ensemble de la population.

Statistique descriptive : la moyenne est de 4200 Dinars sur 1000 individus.

Statistique mathématique : le revenu moyen de la population a 95% de chance de se situer dans l’intervalle [3670, 4741]

La statistique mathématique est donc plus valable, mais elle induit toujours une marge d’erreur, un certain droit à l’erreur, qui est connu néanmoins.

Une étude de statistiques peut se résumer ainsi :

STATISTIQUES

DESCRIPTIVES

  • collecte des données
  • présentation
  • résumé

CALCUL DE PROBABILITÉS

  • étude de probabilité
  • mathématique des phénomènes aléatoires

STATISTIQUES

MATHÉMATIQUES

Traitement et interprétation des données avec les outils du calcul de probabilité.

1.1. CONCEPTS DE BASE

  • Individu ou une unité statistique = éléments sur lequel porte l'observation
  • Population statique = ensemble des unités statistiques  population finie ou infinie
  • échantillon = sous-ensemble de la population
  • collecte des données

A. LES CARACTERES OBSERVES

  • Modalité = un état possible du caractère
  • Mesure = modalité numérique = nombre
  • Qualitatif
  • Quantitatif

1.2. CARACTERE QUALITATIF

  • Nominal = sans ordre
  • Ordinal = ordonné Exemple: données nominales de la population des étudiants de la FSEG de Sousse

1 SEG 1 FC 2SEG 2 FC 3 SEG 3FC 4 SEG Total 1245 285 786 221 524 182 362 3605 n 1 n 2 n 3 n 4 n 5 n 6 n 7 N

N

n fii

1 SEG 1 FC 2SEG 2 FC 3 SEG 3FC 4 SEG Total 0,345 0,079 0,218 0,061 0,145 0,050 0,100 (^1) f 1 f 2 f 3 f 4 f 5 f 6 f 7 F

A. REPRÉSENTATION GRAPHIQUE

a) graphique à bandes (tuyaux d'orgue):  axe horizontal: modalités  axe vertical: ni ou fi

b) graphique à secteur (camembert):  angle pour la modalité i: fi. 360°

Nota bene: l'ordre des modalités pour les données nominales est arbitraire. Ainsi, il en est de même de l'aspect global des représentations graphiques.

1.3. LES CARACTERES QUANTITATIFS

  • modalités = mesures
  • variable = modalité

 discrètes = ensemble de ses valeurs est dénombrable  continues = ensemble de ses valeurs est infini et non-dénombrable

Sous forme littérale: i i n i N  (^)  nx  1

A. REPRESENTATION GRAPHIQUE

a) diagrammes en bâtons

  • Axe horizontal: valeurs de la variable i
  • Axe vertical: fréquences fi b) diagramme en bandes
  • Axe horizontal: limites de classes

0

200

400

600

800

1000

1200

1400

Effectifs

Niveau des étudiants

Histogramme de la distribution des étudiants de la FSEG Mahdia

34% 22% 8% 6%

15%

5% 10%

1 SEG 1 FC 2SEG 2 FC 3 SEG 3FC 4 SEG

A. LA TENDANCE CENTRALE

le mode: c'est la valeur la plus fréquente, ou la classe modale: classe qui correspond au maximum de la fréquence.

 ~ xou Me la médiane: la valeur qui partage la série d'observations ordonnées en deux parties de taille égales. Le rang de la médiane se détermine de la manière suivante: n, le nombre d'observations, est impaire; le rang de la médiane est n 2 ^1. n est pair; dans ce cas, le rang de la médiane se situe entre les observations de rang

2 n et 2^ n ^1. On^ en prend^ généralement la valeur intermédiaire^ comme valeur médiane. Si l’on ne dispose pas de mesures groupées, on doit définir la classe médiane : il s’agit de la classe qui contient l’observation de rang (k+1)/2, c’est-à-dire la première classe dont la fréquence cumulée égale ou dépasse 0.5. Puis il s’agit d’approximer la valeur de la médiane :

k k

k app (^) n a

n n x b

    inf 2 ^1

1 ~

où : binf^ est la borne inférieure de la classe médiane. nk-1 est l’effectif cumulé de la classe précédent la médiane. nk est l’effectif appartenant à la classe médiane. ak est l’amplitude de la classe médiane. n est l’effectif total

x, la moyenne: c'est la somme des valeurs observées divisée par le nombre d'observations.

Soit x 1 ,…,xn un ensemble de n observations non groupées,  

n i i

i (^) x n ou n

x 1 x x^1.

Pour les valeurs groupées , on a x 1 ,…,xk, où k est le nombre d'observations distinctes; n 1 ,…nk est l'ensemble de fois que l'on a observé xi.

Ainsi      

k i

k i i i i

k i i i^ i

x n nx nnx fx

1 1 1

1 , où f

i est la fréquence de ni.

Lorsqu'on a affaire à une moyenne pondérée (systèmes de coefficients par exemple),

 (^)  k i i^ i x px 1 , où pi exprime l'importance (le poids) que l'on attribue à xi.

Pour les valeurs non groupées,       k i k k

k i k

k (^) x f x N x n 1 1

(^) ( ) , mais ici, fk correspond à la

fréquence de la classe k, xk correspond à la valeur moyenne de chaque classe :

2

b sup^ b^ inf xk ^ 

Remarque: les valeurs extrêmes ne modifient pas la médiane. La moyenne par contre y est sensible, on dit qu'elle n'est pas robuste. Notation: Lorsque l'on doit comparer médiane et moyenne, on utilise les notations suivant: (^) x~  x;x~x;x~x;x~x.

Par la suite, on peut représenter graphiquement la loi générale:

i) x  5. 4 x ~ 5 xx ~ symétrie

ii)

iii) (^) xx étalée à gauche

iii) xx ~étalée à droite

(^10) x 1000 ~ x ~ 1

1

  • 1000 x ~ x ~ 10

Exemple: annexe II, N = 34, r* = 17, position de Q 1 : 172 ^1  9  [Q 1 ] = 440, Q 2 (médiane) = 500 et Q 3 = 670 (on compte le rang à rebours). Ainsi, l’écart interquartile = Q3-Q1 ; cet intervalle contient 50% des observations.

B. LES MESURES DE DISPERSION

 la variance sx^2 ou V() : il s’agit d’une moyenne arithmétique des carrés des écarts à la moyenne.

Sx^2 = (^)  f (^) i ( xix )^2 où i est la fréquence. Comme sx^2 n’est pas de même ordre unitaire que les observations, on en prend la racine carrée sx = (^) s x^2 que l’on appelle l’écart type.

LES PROPRIETES DE LA VARIANCE

Le changement de variable : Soit X : x 1^ ,..., xn ; f 1 , …, fn Y : y^ 1 ,..., yn où yi = axi + b. Sy^2  (^)  f (^) i ( yiy )^2  fi ( axib ( axb ))^2  fi ( axiax )^2  (^)  f (^) ia^2 ( xix )^2  a^2  fi ( xix )^2  a^2 sx^2 Ainsi la variance est insensible aux translations. Il y a des cas particuliers où zi = x x i x

i s x x s s

xx  (^1) 

De la relation précédente, on trouve^2  12  x^2  1 x

sz (^) s s

Les zi ont leur moyenne égale à zéro et leur variance égale à 1 : on dit que Z est centré ( x  0 )et réduit (s^2 =1). Définition : La Variance de la variable aléatoire x, notée V(X), est définie par : V(X) ^ E^ [(^^ X^  E X (^ )) ]^2 , qui est donc l’écart de la variable aléatoire à son espérance, le tout au carré, dont on prend l’espérance.

V(X) =   

n i i^ i p x E X 1

(^) [ ( )]^2 , qui est son expression opératrice. Commentaire : i) E(X) est une mesure de position de X. ii) V(X) est une mesure de dispersion autour de E(X). iii) V(X), E(X)  R. Illustration : Soit X, une variable aléatoire discrète, telle que :

X =



 c c équiprobable

 -c C P(X=) 0.5^ 0.

E(X) = ½(-c) + ½(c) = 0

V(X) =      

2 2 2 2 1

(^2) (( ) ) 2 p ( x E ( X )) px^1 c c c i i i i i D’où (^) V ( X ) c , c’est donc la distance entre les valeurs et l’espérance.

LES PROPRIETES DE LA VARIANCE ET DE L’ESPERANCE

 Y = aX + b, où a, b  R. Etant donné X, variable aléatoire, Y est aussi variable aléatoire. i) E ( Y ) E ( aXb ) pi ( axib ) piaxi  pibapixibpiaE ( X ) b

donc E(aX + b) = aE(X) + b

ii) ( ( )) ( ( )) ( )

2 2 2 2

2 2 2 EaX aE X a E X E X aV X

VY EY EY E aX b E aX b EaX b aE X b     

ainsi, V(aX + b) = a^2 V(X) On remarque que ces propriétés sont les mêmes qu’en statistique descriptive pour

x et sx^2_._

Définition : La corrélation (Corr) est un lien entre deux variables défini par :

Corr(A ;B) = cov( V ( XX ) V ; Y ( Y ))

Exemple : x; y -1 0 1 0 0 ½ 0 ½ 1 ¼ 0 ¼ ½ ¼ ½ ¼ 1

P(Y = -1  X = 0) = 0

P(Y = -1)  P(X = 0) = 1/41/2 = 1/

Donc E(X) = 01/2 + 11/2 = ½ Et V(X) = (0-1/2)^2 1/2 + (1-1/2)^2 1/2 = ¼ E(Y) = 0 V(Y) = ½ Ensuite on peut construire un autre tableau avec les covariances : Cov(X ;Y) = E {(X-E(X))(Y-E(Y))}

-E(X) ; y-E(Y) -1 0 1 -½ 0 ½ 0 ½ ¼ 0 ¼ 1

Cov(X ;Y) =        j i i^ j i j ( x E ( X ))( y E ( Y )) p ( X x Y y ) = - ½  - 1  0 + - ½  0  ½ + - ½  1  0 + ½  - 1  ¼ + ½  0  0 + ½  1  ¼ = 0 la covariance est nulle: il n’y a pas de lien de type linéaire (ax + b) entre X et Y. Corr( X;Y) = 0 1 / 41 / 2

(^0)  

Non-indépendance

NOTE: Il faut bien distinguer corr et cov, car elles sont indépendantes l’une de l’autre (on peut avoir Cov  Corr).

2. LES INDICES 2.1 GENERALITES Exemple: Prix à la consommation et quantité consommée par un ménage. On regarde la dépense du ménage en t = 0 et en t = t.

pi: prix du bien i; qi: quantité du bien i.

  • en t = 0: dépenseduménagepourlebieni: do ipoiqio d'où la dépense totale (^)   i oi oi i

(^) doi p q.

  • en t = t:  (^)   i

it ti i dti pq , les prix et les quantités ont donc varié par rapport à l'année 0.

2.2. INDICES ELEMENTAIRES

 Pour les prix: i i it t (^) p P p (^0 ) / 

 Pour les quantités: i i ti t (^) q Q q (^0 ) /   Donc la dépense: i i ti ti

it ti i i ti t (^) p q Q P p q d D d / (^0 00)  0  / 0  / 0

2.3. INDICES SYNTHETIQUES

 Les moyennes d'indices: i)  i (^) f (^) 0 i^ Iti / 0 , on pondère par une quantité de base, c'est une moyenne arithmétique. ii)

 fti ^ It^1 i / 0

1 , on pondère par une quantité du temps t , c'est une moyenne

harmonique.

Cela correspond à la dépense totale au temps t, divisée par la dépense totale des quantités au temps t payées au prix à t = 0.

quantité:

  i ti i

j tj tj tP p q

p q I q (^0 ) / ( )

Ce qui correspond à la dépense totale au temps t, divisée par la dépense totale des quantités au temps t payées au prix à t = t.

Question: Quel indice choisir?

  • On voit que , de même que ( ) ( ) / (^) I / q I q L t tP (^00)

^1.

  • D'autre part, pour les indices de dépense: I (^) tL / 0 ( q ) ItP / 0 ( p ) Dt / 0  ItL / 0 ( p ) ItP / 0 ( q ) , d'où It L / 0 ( p ) ItP / 0 ( q ) ItL / 0 ( q ) ItP / 0 ( p ) Dt^2 / 0_. On introduit ainsi un nouvel indice_

C. INDICE DE FISCHER

I F^ ( q ) IL ( q ) IP ( q )et IF ( p ) IL ( p ) IP ( p )

3 MESURE DE CONCENTRATION

Rappel: i) Moyenne, médiane et variance résument des ensembles de données. ii) Les indices comparent des données dans le temps. On introduit la notion de concentration. On mesure la différence d'aire à la diagonale: Plus la courbe de Lorenz s'éloigne de la diagonale, moins la distribution est égalitaire, et plus la concentration est

I (^) / ( p ) IL / t ( p ) tP (^00) ^1

forte. Pour calculer cette concentration, on doit calculer l'aire.

A. CALCUL D'AIRE

On doit sommer en fait les trapèzes formés par des bases x 0 Exemple:

Aire du trapèze: Gi^  2 G i ^1 ( FiFi  1 )

Ainsi, l'indice de Gini est 2 (½ - somme des aires des trapèzes)

B. LA MEDIALE

C'est le revenu qui partage la masse globale en deux partis égales( de même poids).

Il se détermine, par interpolation linéaire, de la même manière que la médiane. Seulement, les calculs se font sur les valeurs globales relatives cumulées croissante noté Q.

B

Fi- 1 Fi

Gi

Gi- 1

1. INTRODUCTION

Nous devons traiter de l’aléatoire pour deux raisons :

  • Etant donné que les données observées sont le plus souvent un échantillon choisi de manière aléatoire, il faut tenir compte de ce facteur.
  • Les résultats sont toujours assortis d’un risque de se tromper. Ce risque s’exprime en terme de probabilités. 2. TABLEAUX DE FREQUENCE

Le tableau de fréquence est un genre de tableau de données que l’on utilise pour les exploiter. On distingue généralement les tableaux à double entrée, relativement simples d’utilisation, et les tableaux à triple entrée et plus. Exemple : On mène une étude sur le relèvement de l’âge de la retraite. La question est de savoir s’il existe une disparité entre les opinions féminines et les opinions masculines. a) L’échantillon est de 400 personnes dont 250 hommes (H), et 150 femmes (F). b) On a catégorisé trois types d’opinions : défavorable (D), indifférent (I) et favorable (F). c) Nous avons donc, comme situation de départ, 400 données du type [sexe ; opinion], qu'on appelle unités statistiques , parmi six choix différents au total. d) Il nous faut donc les résumer dans un tableau à double entrée contenant ces données groupées. (Ces chiffres sont arbitraires et fournis à titre d’exemple)

  1. le tableau conjoint d’effectifs :

Opinion

D I F

Sexe

H 50 150 50 250

F 70 30 50 150

Il est toujours nécessaire et indispensable de préciser si le choix des données représente un/des cas particulier/s (échantillon) ou une caractéristique de l’ensemble de la population.

  1. On construit ensuite un tableau plus « parlant », où l’on exprime les valeurs de base en pourcentages. C’est un tableau de fréquences :

Opinion D I F Sexe H 0.125 0.375 0.125 0. F 0.175 0.075 0.125 0. 0.3 0.45 0.25 1

Par exemple, cette valeur signifie que 7.5 % des individus interrogés sont des femmes et sont indifférentes à la proposition.

Les valeurs qui sont inscrites dans les marges du tableau sont appelées distribution marginale. Par exemple, la distribution marginale horizontale indique la distribution des opinions, sans aucune indication sur le sexe. L’autre marge contient la distribution marginale des sexes.

effectif