Prépare tes examens
Obtiens points
Guides et conseils
Vends sur Docsity
Docsity AI

Prépare tes examens

Étudies grâce aux nombreuses ressources disponibles sur Docsity

Obtiens des points à télécharger

Gagnz des points en aidant d'autres étudiants ou achete-les avec un plan Premium

Guides et conseils

Vends sur Docsity

Docsity AI

Connexion Créer un compte

Prépare tes examens

Étudies grâce aux nombreuses ressources disponibles sur Docsity

Rechercher des documents

Prépares tes examens avec des documents partagés par des étudiants comme toi sur Docsity

Trouvez les documents spécifiques aux examens de votre université

Docsity AINEW

Résume tes documents, pose-leur des questions, convertisse-les en quiz et cartes conceptuelles

Explores les questions

Enleves tout doute en lisant les réponses aux questions posées par d'autres élèves comme vous

Obtiens des points à télécharger

Gagnz des points en aidant d'autres étudiants ou achete-les avec un plan Premium

Condiviser documents

20 Points

Pour chaque document téléchargé

Réponds aux questions

5 Points

Pour chaque réponse donnée (max 1 par jour)

Tous les moyens d'obtenir des points gratuits

Obtiens des points maintenant

Choisi un plan Premium avec tous les points dont tu as besoin

Opportunités d'étude

Choisi ton prochain programme d'études

Entre dès maintenant en contact avec les meilleures universités du monde. Recherche parmi des milliers d'universités et de partenaires officiels

Communauté

Demandes à la communauté

Demandes de l'aide à la communauté et dissipes tes doutes concernant l'étude

Guide gratuite

Nos e-books qui sauvent les étudiants!

Télécharges gratuitement nos guides sur les techniques d'étude, les méthodes de gestion de l'anxiété, les conseils pour la thèse réalisés par les tuteurs Docsity

STATISTIQUE APPLIQUEE, Notes de Statistiques

Université du Littoral-Côte-d'Opale (ULCO)Statistiques

Cours de statistiques descriptive et inférences statistiques

Typologie: Notes

2023/2024

Téléchargé le 27/10/2024

mohamed-belhedi 🇫🇷

1 document

1 / 61

Cette page n'est pas visible dans l'aperçu

Ne manques pas les parties importantes!

Facu l t é d e s Scie n c e s é c o nomiq u e e t d e ge s t i o n d e Sou s s e

1 Mohamed BELHEDI

INTRODUCTION

Les statistiques ne se limitent pas à une simple collecte de chiffres mais en réalité elles

dépassent largement cette idée par une étude approfondie qui utilisent des notions

mathématiques et des outils informatiques parfois sophistiqués. Cela a fondé une discipline

scientifique, à part entière, qui la Statistique.

La statistique répond à trois principales définitions :

- Une statistique est un ensemble de données numériques concernant une catégorie de faits.

- La statistique est la science qui a pour objet la collecte, l’analyse et l’interprétation des

ensembles d’observations relatives à un phénomène.

- Elle peut aussi constituer une forme convaincante au « mensonge » des hommes

politiques.

Illustration : Un gouvernement veut réorienter sa politique sociale.

Il est tout d’abord indispensable de connaître la structure de la population :

- âge

- revenu

- catégorie socioprofessionnelle

- état civil

- etc.

Ils doivent pour cela suivre les étapes suivantes :

1. Recueillir les informations utiles.

2. Organiser ces données.

3. Les résumer si nécessaire.

4. La collecte de données :

a) De quelle information avons-nous besoin ?

b) C’est l’objet de l’étude.

c) Qui doit-on examiner ? Qui est/sont le/s sujet/s.

d) Comment faire ? C’est la méthode (sondages, entretiens).

5. L’organisation des données, nous cherchons ici par exemple à déterminer le revenu

mensuel moyen de la population. Partons d’un échantillon de 1000 personnes, nous

avons donc 1000 revenus (la première définition s’applique ici). Nous pouvons

présenter ces chiffres de plusieurs manières : tableaux, graphiques, etc. Mais si

l’information est trop riche, il nous faut en tirer des données caractéristiques, c’est à

dire :

6. Résumer l’information. On n’en choisi que quelques paramètres significatifs.

Attention toutefois à ne pas trahir les données de base.

Ces trois points sont du domaine de la statistique descriptive.

La moyenne des revenus échantillonnés est par exemple de 4200 Dinars

Découvrez Notes de Statistiques Université du Littoral-Côte-d'Opale (ULCO)

Documents associés

Fonctions usuelles - Exercices de Jean-Louis Rouget

cristallographie: arrangement atomique des solides cristallins

luttes carnavalesque et singularité dans le Spleen de Paris de Baudelaire

Les techniques de biologie moléculaire d’analyse des populations bactériennes complexes

lorsque l'enfant paraît

Les petits poissons pélagiques dans le système d'upwelling de la zone NW africaine

Nouveau regard sur quelques caractéristiques physique du Soleil

I – Exemples d'algorithmes rencontrés au collège :

Matin brun

vie de la politique économique social

QCM su l’activité économique

(2)

Personnage principal du roman Bel-Ami vu par des différentes ...

Aperçu partiel du texte

Télécharge STATISTIQUE APPLIQUEE et plus Notes au format PDF de Statistiques sur Docsity uniquement!

INTRODUCTION

Les statistiques ne se limitent pas à une simple collecte de chiffres mais en réalité elles dépassent largement cette idée par une étude approfondie qui utilisent des notions mathématiques et des outils informatiques parfois sophistiqués. Cela a fondé une discipline scientifique, à part entière, qui la Statistique.

La statistique répond à trois principales définitions :

Une statistique est un ensemble de données numériques concernant une catégorie de faits.
La statistique est la science qui a pour objet la collecte, l’analyse et l’interprétation des ensembles d’observations relatives à un phénomène.
Elle peut aussi constituer une forme convaincante au « mensonge » des hommes politiques.

Illustration : Un gouvernement veut réorienter sa politique sociale.

Il est tout d’abord indispensable de connaître la structure de la population :

âge
revenu
catégorie socioprofessionnelle
état civil
etc.

Ils doivent pour cela suivre les étapes suivantes :

Recueillir les informations utiles.
Organiser ces données.
Les résumer si nécessaire.
La collecte de données : a) De quelle information avons-nous besoin? b) C’est l’ objet de l’étude. c) Qui doit-on examiner? Qui est/sont le/s sujet/s. d) Comment faire? C’est la méthode (sondages, entretiens).
L’organisation des données, nous cherchons ici par exemple à déterminer le revenu mensuel moyen de la population. Partons d’un échantillon de 1000 personnes, nous avons donc 1000 revenus (la première définition s’applique ici). Nous pouvons présenter ces chiffres de plusieurs manières : tableaux, graphiques, etc. Mais si l’information est trop riche, il nous faut en tirer des données caractéristiques, c’est à dire :
Résumer l’information. On n’en choisi que quelques paramètres significatifs. Attention toutefois à ne pas trahir les données de base.

Ces trois points sont du domaine de la statistique descriptive.

La moyenne des revenus échantillonnés est par exemple de 4200 Dinars

Mais que représente cette valeur par rapport à l’ensemble de la population?

C’est cela qui importe vraiment pour le gouvernement. Nous entrons là dans le domaine des estimations. Dans ce cas particulier, il est impossible de recueillir la donnée pour l’ensemble de la population (recensement). La moyenne ci-dessus n’est donc pas représentative de l’ensemble car elle dépend du choix des 1000 personnes ; un choix généralement aléatoire qui introduit alors un facteur de hasard. Pour contrôler ces paramètres, on utilise les probabilités.

On peut se poser la question de savoir quelle influence a le hasard sur les résultats. Nous quittons alors les statistiques pour commencer le calcul des probabilités. Ensuite, la réflexion théorique sur la distribution des données, avec comme objectif de transposer les résultats d’un échantillon à l’ensemble constitue la statistique mathématique.

Dans notre illustration, cette dernière ne nous fournira pas la valeur exacte pour l’ensemble de la population, mais d’autres informations comme une probabilité de 0.95 qu’un intervalle indéterminé contienne la valeur moyenne des revenus de l’ensemble de la population.

Statistique descriptive : la moyenne est de 4200 Dinars sur 1000 individus.

Statistique mathématique : le revenu moyen de la population a 95% de chance de se situer dans l’intervalle [3670, 4741]

La statistique mathématique est donc plus valable, mais elle induit toujours une marge d’erreur, un certain droit à l’erreur, qui est connu néanmoins.

Une étude de statistiques peut se résumer ainsi :

STATISTIQUES

DESCRIPTIVES

collecte des données
présentation
résumé

CALCUL DE PROBABILITÉS

étude de probabilité
mathématique des phénomènes aléatoires

STATISTIQUES

MATHÉMATIQUES

Traitement et interprétation des données avec les outils du calcul de probabilité.

1.1. CONCEPTS DE BASE

Individu ou une unité statistique = éléments sur lequel porte l'observation
Population statique = ensemble des unités statistiques  population finie ou infinie
échantillon = sous-ensemble de la population
collecte des données

A. LES CARACTERES OBSERVES

Modalité = un état possible du caractère
Mesure = modalité numérique = nombre
Qualitatif
Quantitatif

1.2. CARACTERE QUALITATIF

Nominal = sans ordre
Ordinal = ordonné Exemple: données nominales de la population des étudiants de la FSEG de Sousse

1 SEG 1 FC 2SEG 2 FC 3 SEG 3FC 4 SEG Total 1245 285 786 221 524 182 362 3605 n 1 n 2 n 3 n 4 n 5 n 6 n 7 N

N

n fi  i

1 SEG 1 FC 2SEG 2 FC 3 SEG 3FC 4 SEG Total 0,345 0,079 0,218 0,061 0,145 0,050 0,100 (^1) f 1 f 2 f 3 f 4 f 5 f 6 f 7 F

A. REPRÉSENTATION GRAPHIQUE

a) graphique à bandes (tuyaux d'orgue):  axe horizontal: modalités  axe vertical: ni ou fi

b) graphique à secteur (camembert):  angle pour la modalité i: fi. 360°

Nota bene: l'ordre des modalités pour les données nominales est arbitraire. Ainsi, il en est de même de l'aspect global des représentations graphiques.

1.3. LES CARACTERES QUANTITATIFS

modalités = mesures
variable = modalité

 discrètes = ensemble de ses valeurs est dénombrable  continues = ensemble de ses valeurs est infini et non-dénombrable

Sous forme littérale: i i n i N  (^)  n  x  1

A. REPRESENTATION GRAPHIQUE

a) diagrammes en bâtons

Axe horizontal: valeurs de la variable i
Axe vertical: fréquences fi b) diagramme en bandes
Axe horizontal: limites de classes

0

200

400

600

800

1000

1200

1400

Effectifs

Niveau des étudiants

Histogramme de la distribution des étudiants de la FSEG Mahdia

34% 22% 8% 6%

15%

5% 10%

1 SEG 1 FC 2SEG 2 FC 3 SEG 3FC 4 SEG

A. LA TENDANCE CENTRALE

 le mode: c'est la valeur la plus fréquente, ou la classe modale: classe qui correspond au maximum de la fréquence.

 ~ xou Me la médiane: la valeur qui partage la série d'observations ordonnées en deux parties de taille égales. Le rang de la médiane se détermine de la manière suivante: n, le nombre d'observations, est impaire; le rang de la médiane est n 2 ^1. n est pair; dans ce cas, le rang de la médiane se situe entre les observations de rang

2 n et 2^ n ^1. On^ en prend^ généralement la valeur intermédiaire^ comme valeur médiane. Si l’on ne dispose pas de mesures groupées, on doit définir la classe médiane : il s’agit de la classe qui contient l’observation de rang (k+1)/2, c’est-à-dire la première classe dont la fréquence cumulée égale ou dépasse 0.5. Puis il s’agit d’approximer la valeur de la médiane :

k k

k app (^) n a

n n x b 

    inf 2 ^1

1 ~

où : binf^ est la borne inférieure de la classe médiane. nk-1 est l’effectif cumulé de la classe précédent la médiane. nk est l’effectif appartenant à la classe médiane. ak est l’amplitude de la classe médiane. n est l’effectif total

 x, la moyenne: c'est la somme des valeurs observées divisée par le nombre d'observations.

Soit x 1 ,…,xn un ensemble de n observations non groupées,  



n i i

i (^) x n ou n

x 1 x x^1.

Pour les valeurs groupées , on a x 1 ,…,xk, où k est le nombre d'observations distinctes; n 1 ,…nk est l'ensemble de fois que l'on a observé xi.

Ainsi      

k i

k i i i i

k i i i^ i

x n nx nnx fx

1 1 1

1 , où f

i est la fréquence de ni.

Lorsqu'on a affaire à une moyenne pondérée (systèmes de coefficients par exemple),

 (^)  k i i^ i x px 1 , où pi exprime l'importance (le poids) que l'on attribue à xi.

Pour les valeurs non groupées,       k i k k

k i k

k (^) x f x N x n 1 1

(^) ( ) , mais ici, fk correspond à la

fréquence de la classe k, xk correspond à la valeur moyenne de chaque classe :

2

b sup^ b^ inf xk ^ 

Remarque: les valeurs extrêmes ne modifient pas la médiane. La moyenne par contre y est sensible, on dit qu'elle n'est pas robuste. Notation: Lorsque l'on doit comparer médiane et moyenne, on utilise les notations suivant: (^) x~  x;x~x;x~x;x~x.

Par la suite, on peut représenter graphiquement la loi générale:

i) x  5. 4 x ~ 5 x  x ~ symétrie

ii)

iii) (^) x  x étalée à gauche

iii) x  x ~étalée à droite

(^10) x 1000 ~ x ~ 1

1

1000 x ~ x ~ 10

Exemple: annexe II, N = 34, r* = 17, position de Q 1 : 172 ^1  9  [Q 1 ] = 440, Q 2 (médiane) = 500 et Q 3 = 670 (on compte le rang à rebours). Ainsi, l’écart interquartile = Q3-Q1 ; cet intervalle contient 50% des observations.

B. LES MESURES DE DISPERSION

 la variance sx^2 ou V(  ) : il s’agit d’une moyenne arithmétique des carrés des écarts à la moyenne.

Sx^2 = (^)  f (^) i ( xi  x )^2 où i est la fréquence. Comme sx^2 n’est pas de même ordre unitaire que les observations, on en prend la racine carrée sx = (^) s x^2 que l’on appelle l’écart type.

LES PROPRIETES DE LA VARIANCE

Le changement de variable : Soit X : x 1^ ,..., xn ; f 1 , …, fn Y : y^ 1 ,..., yn où yi = axi + b. Sy^2  (^)  f (^) i ( yi  y )^2  fi ( axi  b ( ax  b ))^2  fi ( axi  ax )^2  (^)  f (^) ia^2 ( xi  x )^2  a^2  fi ( xi  x )^2  a^2 sx^2 Ainsi la variance est insensible aux translations. Il y a des cas particuliers où zi = x x i x

i s x x s s

x  x  (^1) 

De la relation précédente, on trouve^2  12  x^2  1 x

sz (^) s s

Les zi ont leur moyenne égale à zéro et leur variance égale à 1 : on dit que Z est centré ( x  0 )et réduit (s^2 =1). Définition : La Variance de la variable aléatoire x, notée V(X), est définie par : V(X) ^ E^ [(^^ X^  E X (^ )) ]^2 , qui est donc l’écart de la variable aléatoire à son espérance, le tout au carré, dont on prend l’espérance.

V(X) =   

n i i^ i p x E X 1

(^) [ ( )]^2 , qui est son expression opératrice. Commentaire : i) E(X) est une mesure de position de X. ii) V(X) est une mesure de dispersion autour de E(X). iii) V(X), E(X)  R. Illustration : Soit X, une variable aléatoire discrète, telle que :

X =



 c c équiprobable

 -c C P(X=) 0.5^ 0.

E(X) = ½(-c) + ½(c) = 0

V(X) =      



2 2 2 2 1

(^2) (( ) ) 2 p ( x E ( X )) px^1 c c c i i i i i D’où (^) V ( X ) c , c’est donc la distance entre les valeurs et l’espérance.

LES PROPRIETES DE LA VARIANCE ET DE L’ESPERANCE

 Y = aX + b, où a, b  R. Etant donné X, variable aléatoire, Y est aussi variable aléatoire. i) E ( Y ) E ( aX  b ) pi ( axi  b ) piaxi  pib  a  pixi  b  pi  aE ( X ) b

donc E(aX + b) = aE(X) + b

ii) ( ( )) ( ( )) ( )

2 2 2 2

2 2 2 EaX aE X a E X E X aV X

VY EY EY E aX b E aX b EaX b aE X b     

ainsi, V(aX + b) = a^2 V(X) On remarque que ces propriétés sont les mêmes qu’en statistique descriptive pour

x et sx^2_._

Définition : La corrélation (Corr) est un lien entre deux variables défini par :

Corr(A ;B) = cov( V ( XX ) V ; Y ( Y ))

Exemple : x; y -1 0 1 0 0 ½ 0 ½ 1 ¼ 0 ¼ ½ ¼ ½ ¼ 1

P(Y = -1  X = 0) = 0

P(Y = -1)  P(X = 0) = 1/41/2 = 1/

Donc E(X) = 01/2 + 11/2 = ½ Et V(X) = (0-1/2)^2 1/2 + (1-1/2)^2 1/2 = ¼ E(Y) = 0 V(Y) = ½ Ensuite on peut construire un autre tableau avec les covariances : Cov(X ;Y) = E {(X-E(X))(Y-E(Y))}

-E(X) ; y-E(Y) -1 0 1 -½ 0 ½ 0 ½ ¼ 0 ¼ 1

Cov(X ;Y) =        j i i^ j i j ( x E ( X ))( y E ( Y )) p ( X x Y y ) = - ½  - 1  0 + - ½  0  ½ + - ½  1  0 + ½  - 1  ¼ + ½  0  0 + ½  1  ¼ = 0 la covariance est nulle: il n’y a pas de lien de type linéaire (ax + b) entre X et Y. Corr( X;Y) = 0 1 / 41 / 2

(^0)  

Non-indépendance

NOTE: Il faut bien distinguer corr et cov, car elles sont indépendantes l’une de l’autre (on peut avoir Cov  Corr).

2. LES INDICES 2.1 GENERALITES Exemple: Prix à la consommation et quantité consommée par un ménage. On regarde la dépense du ménage en t = 0 et en t = t.

pi: prix du bien i; qi: quantité du bien i.

en t = 0: dépenseduménagepourlebieni: do i  poi  qio d'où la dépense totale (^)   i oi oi i

(^) doi p q.

en t = t:  (^)   i

it ti i dti pq , les prix et les quantités ont donc varié par rapport à l'année 0.

2.2. INDICES ELEMENTAIRES

 Pour les prix: i i it t (^) p P p (^0 ) / 

 Pour les quantités: i i ti t (^) q Q q (^0 ) /   Donc la dépense: i i ti ti

it ti i i ti t (^) p q Q P p q d D d / (^0 00)  0  / 0  / 0

2.3. INDICES SYNTHETIQUES

 Les moyennes d'indices: i)  i (^) f (^) 0 i^ Iti / 0 , on pondère par une quantité de base, c'est une moyenne arithmétique. ii)

 fti ^ It^1 i / 0

1 , on pondère par une quantité du temps t , c'est une moyenne

harmonique.

Cela correspond à la dépense totale au temps t, divisée par la dépense totale des quantités au temps t payées au prix à t = 0.

quantité:



  i ti i

j tj tj tP p q

p q I q (^0 ) / ( )

Ce qui correspond à la dépense totale au temps t, divisée par la dépense totale des quantités au temps t payées au prix à t = t.

Question: Quel indice choisir?

On voit que , de même que ( ) ( ) / (^) I / q I q L t tP (^00)

^1.

D'autre part, pour les indices de dépense: I (^) tL / 0 ( q ) ItP / 0 ( p ) Dt / 0  ItL / 0 ( p ) ItP / 0 ( q ) , d'où It L / 0 ( p ) ItP / 0 ( q ) ItL / 0 ( q ) ItP / 0 ( p ) Dt^2 / 0_. On introduit ainsi un nouvel indice_

C. INDICE DE FISCHER

I F^ ( q ) IL ( q ) IP ( q )et IF ( p ) IL ( p ) IP ( p )

3 MESURE DE CONCENTRATION

Rappel: i) Moyenne, médiane et variance résument des ensembles de données. ii) Les indices comparent des données dans le temps. On introduit la notion de concentration. On mesure la différence d'aire à la diagonale: Plus la courbe de Lorenz s'éloigne de la diagonale, moins la distribution est égalitaire, et plus la concentration est

I (^) / ( p ) IL / t ( p ) tP (^00) ^1

forte. Pour calculer cette concentration, on doit calculer l'aire.

A. CALCUL D'AIRE

On doit sommer en fait les trapèzes formés par des bases x 0 Exemple:

Aire du trapèze: Gi^  2 G i ^1 ( Fi  Fi  1 )

Ainsi, l'indice de Gini est 2 (½ - somme des aires des trapèzes)

B. LA MEDIALE

C'est le revenu qui partage la masse globale en deux partis égales( de même poids).

Il se détermine, par interpolation linéaire, de la même manière que la médiane. Seulement, les calculs se font sur les valeurs globales relatives cumulées croissante noté Q.

B

Fi- 1 Fi

Gi

Gi- 1

1. INTRODUCTION

Nous devons traiter de l’aléatoire pour deux raisons :

Etant donné que les données observées sont le plus souvent un échantillon choisi de manière aléatoire, il faut tenir compte de ce facteur.
Les résultats sont toujours assortis d’un risque de se tromper. Ce risque s’exprime en terme de probabilités. 2. TABLEAUX DE FREQUENCE

Le tableau de fréquence est un genre de tableau de données que l’on utilise pour les exploiter. On distingue généralement les tableaux à double entrée, relativement simples d’utilisation, et les tableaux à triple entrée et plus. Exemple : On mène une étude sur le relèvement de l’âge de la retraite. La question est de savoir s’il existe une disparité entre les opinions féminines et les opinions masculines. a) L’échantillon est de 400 personnes dont 250 hommes (H), et 150 femmes (F). b) On a catégorisé trois types d’opinions : défavorable (D), indifférent (I) et favorable (F). c) Nous avons donc, comme situation de départ, 400 données du type [sexe ; opinion], qu'on appelle unités statistiques , parmi six choix différents au total. d) Il nous faut donc les résumer dans un tableau à double entrée contenant ces données groupées. (Ces chiffres sont arbitraires et fournis à titre d’exemple)

le tableau conjoint d’effectifs :

Opinion

D I F

Sexe

H 50 150 50 250

F 70 30 50 150

Il est toujours nécessaire et indispensable de préciser si le choix des données représente un/des cas particulier/s (échantillon) ou une caractéristique de l’ensemble de la population.

On construit ensuite un tableau plus « parlant », où l’on exprime les valeurs de base en pourcentages. C’est un tableau de fréquences :

Opinion D I F Sexe H 0.125 0.375 0.125 0. F 0.175 0.075 0.125 0. 0.3 0.45 0.25 1

Par exemple, cette valeur signifie que 7.5 % des individus interrogés sont des femmes et sont indifférentes à la proposition.

Les valeurs qui sont inscrites dans les marges du tableau sont appelées distribution marginale. Par exemple, la distribution marginale horizontale indique la distribution des opinions, sans aucune indication sur le sexe. L’autre marge contient la distribution marginale des sexes.

effectif