cette documment est de probàbility, Zusammenfassungen von Data Science

il est trés efficàse pour comprend

Art: Zusammenfassungen

2024/2025

Hochgeladen am 02.04.2026

mohammed-hannad
mohammed-hannad 🇩🇪

1 dokument

1 / 115

Toggle sidebar

Diese Seite wird in der Vorschau nicht angezeigt

Lass dir nichts Wichtiges entgehen!

bg1
1
Module : Probabilité et statistique descriptive
Niveau : BCG2
R. El khaoulani El idrissi
Année universitaire 2015-2016
FST de fès
Chapitre 1
Données statistiques, tableau, représentation
graphique, fréquence et effectif cumulés
Généralités
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Unvollständige Textvorschau

Nur auf Docsity: Lade cette documment est de probàbility und mehr Zusammenfassungen als PDF für Data Science herunter!

Module : Probabilité et statistique descriptive

Niveau : BCG

R. El khaoulani El idrissi

Année universitaire 2015-

FST de fès

Chapitre 1

Données statistiques, tableau, représentation graphique, fréquence et effectif cumulés

Généralités

c. de se servir de ces modèles de prévisions comme un outil pour prendre des décisions

Statistique = est une discipline qui a pour objet :

a. de collecter, d’obtenir, et de réunir des informations (ou données), puis à les organiser et les synthétiser pour faciliter une analyse méthodique et objective de ces données.

b. d’exploiter la synthèse de ces données pour établir, notamment grâce à la théorie des probabilités, des modèles de prévisions.

statistique descriptive

Statistique inférentielle

statistique décisionnelle

Qu’est ce que la statistique

Étapes d’une analyse statistique :

Qu’est ce que la statistique

  • Planifier la collecte de données;
  • Récolter les données;
  • Les organiser;
  • Les synthétiser;
  • Établir des modèles de prévisions à partir des données;
  • Utiliser ces modèles de prévisions pour prendre des décisions.

Typologie des séries statistiques

Les séries statistiques se répartissent en deux groupes selon le caractère étudié :

1. Variable quantitative : lorsque toutes les valeurs possibles sont numériques et

s’expriment par des nombres entiers ou réels …

2. Variable qualitative : les modalités sont des attributs qualitatifs, et non des valeurs

numériques.

a. Variable quantitative discrète : l’ensemble des valeurs possibles est dénombrable. Exemples : nombre d’enfant par famille

a. Variable qualitative nominale : la variable est dite qualitative nominale lorsque les modalités ne peuvent pas être ordonnées. Exemples : état civil : {célibataire, marié, veuf, divorcé}, couleur des yeux : {noir ; bleu ; vert}

b. Variable quantitative continue : l’ensemble des valeurs possibles est continu, toutes les valeurs réelles d’un intervalle sont susceptibles d’être prises. Exemple : taille d’une personne

b. Variable qualitative ordinale : lorsque les modalités peuvent être ordonnée. Exemple : très résistant, assez résistant, peu résistant

Représentation des données

Il existe plusieurs niveaux de description statistique :

o Des résumés numériques fournis par un petit nombre de paramètres caractéristiques  Réduction des données à quelques valeurs numériques caractéristiques

o La présentation de données brutes.

o Des présentations par des tableaux numériques

o Des représentations graphiques

Tableau statistique

Il s’agit de transformer les tableaux de données brutes en des tableaux qui se prêtent à l’analyse des données.

Tableau statistique

Effectif

On appelle effectif de la modali té xi le nombre ni de fois que cette modalitéest observée.

Cas discret

À chaque modalité xi du caractère X peut correspondre un ou plusieurs individus.

Remarque (^) ∑ ni = N , où N de la population ou la l'échantillon étidié

Fréquence

On appelle fréquence de la moda l ité i le nombre f i telque : i i

n

f

N

x =

Représentation des données

Remarques

a- =

b- 0 1

c- 100 : le d'individus ayant la modalité

d- : l

pourcentage

a proportion d'individus ayant la modalité i

i

i

i

i

i

f

f

f x

f x

×

Représentation des données

Caractère continu

On répartit les modalités en classes. En règle générale, on choisit les classes de façon à ce que chaque classe comprenne un nombre suffisant d’individus

→ A chaque classe [ e ei , (^) i (^) + 1 [, on associe l'amplitu de ai définie par : a = i ei (^) + 1 − ei

Exemple

→ De la même façon, on définit l'effectif ni et la fréquence fi de chaque classe

Un technicien mesurant des tiges métalliques, il obtient les valeurs suivantes :

[350,360[ 14

[345,350[ 30

[343,345[ 204

[340,343[ 195

[330,340[ 57

classe ni

ai

fi

Histogramme

Représentation graphique

Histogramme des effectifs

La hauteur du rectangle correspondant à la classe j est donc donnée par :

s'appell l'effectif corrigé,

amplitud

e

est une e éléme ntaire, en générale, on p rend l'amplitude la plus

j

j

j

j

n

n a

a

n

a

i =

courante

i On place sur l'axe des abscisses les différentes classes.

Dans le cas de données regroupées en classes on utilise un histogramme, il permet de représenter les données par une suite de rectangles contigus.

Représentation des données

Exemple

ni

[6-9[

[4-6[

[2-4[

[1-2[

classes

n’i

a=

En suite, on trace l’histogramme

Remarques

o L’aire de chaque rectangle est proportionnelle à l’effectif de la classe qu’il représente.

i i^ i

Aire = a × n = a × n

o Le choix de l’amplitude élémentaire ne modifie pas l’allure de l’histogramme

o La classe dont l’aire du rectangle associé est la plus grande est la classe ayant le plus d’effectif

On suit la même démarche pour tracer l’histogramme des fréquences

Histogramme des fréquences

Exemple On mesure la taille en centimètres de 50 élèves d’une classe

[167.5 ; 171.5[ 10

[159.5 ; 163.5[ 11

[163.5 ; 167.5[ 7

[155.5 ; 159.5[ 12

[151.5 ; 155.5[ 10

classe effectif

' fi

i

i

f a a

=

fréquence corrigée

fréquence

amplitude

On prend a=

Représentation des données

Fréquences et effectifs cumulés

Dans le cas d’une variable quantitative, il est souvent intéressant, de pouvoir dire « il y a tant d’observations » ou « il y a tel pourcentage d’observations » inférieures ou supérieures à telle valeur. C’est à ce genre de préoccupation que répond le calcul des fréquences ou des effectifs cumulés

Motivation

L’effectif cumulé croissant (ECC) correspond à une modalité donnée xi est le nombre d’individus dont la modalité est inférieure ou égale à xi.

Autrement dit, le ECC d’une valeur (ou d’une classe) est la somme des effectifs de cette valeur (ou de cette classe) et des effectifs précédents

Effectif cumulé croissant (cas discret)

ECCi est l’effectif cumulé croissant c’est dire le nombre d’observations ayant des valeurs inférieures ou égales à xi : i

i j j 1

ECC n

=

Fréquences et effectifs cumulés

L’effectif cumulé décroissant (ECD) correspond à une modalité donnée xi est le nombre d’individus dont la modalité est supérieure ou égale à xi.

Autrement dit, le ECD d’une valeur (ou d’une classe) est la somme des effectifs de cette valeur (ou de cette classe) et des effectifs suivants

Effectif cumulé décroissant (cas discret)

Remarque

On définit, de la même manière, la fréquence cumulée croissante FCC et la fréquence cumulée décroissante FCD

Fréquences et effectifs cumulés

Les définitions de FCC et FCD s’obtiennent en substituant pourcentage à nombre dans les définitions précédentes.

Fréquence cumulée croissante FCC, fréquence cumulée décroissante FCD

Exemple (série discrète) On considère la série statistique suivante :

xi ni

Calculer Les ECC, ECD, FCC et FCD Combien y a-t-il d’individus ayant une modalité a. au plus 3? b. au moins 3? c. plus de 3? d. moins de 3? Quel est le pourcentage et quelle est la proportion d’individus ayant une modalité a. au plus 3? b. au moins 3? c. plus de 3? d. moins de 3?

Locution || Symbole au plus || au moins || plus de || > moins de || <

≤ ≥

Vocabulaire

Exemple 2 (série continue) On considère la série statistique suivante

[8,11[ 1

[4,8[ 4

[2,4[ 3

[0,2[ 2

classe ni

Calculer les ECC, ECD, FCC et FCD

Remarques

  1. Le ECC correspondant à une classe donnée [a-b[ indique le nombre d’individus dont la modalité est strictement inférieure à b.
  2. Le ECD correspondant à une classe donnée [a-b[ indique le nombre d’individus dont la modalité est supérieure ou égale a.
  3. Les mêmes remarques sont valables pour le FCC et le FCD en substituant pourcentage à nombre.

Qu’en est-il pour une modalité qui n’est pas extrémité d’une classe?

Question

Fréquences et effectifs cumulés

Caractéristiques statistiques

Les caractéristiques statistiques sont des indicateurs numériques qui permettent de décrire, d’une manière synthétique, des données. On définit deux types de caractéristiques :

  1. Caractéristiques de position
  2. Caractéristiques de dispersion

a. Le mode, noté mo

Définition Le mode est la modalité la plus fréquente

Cas discret (^) La modalité d’effectif maximal est repérée directement sur le tableau ou

sur la représentation graphique Cas continu (^) On détermine la classe de densité maximale, la classe modale, à partir des n’ i, c’est la classe ayant le plus grand n’i. En suite, le mode est le centre de cette classe.

Remarque (^) Le mode n’est pas nécessairement unique

Paramètres-clefs de position

Ils permettent d’avoir des informations sur l’ordre de grandeur de l’ensemble des observations et de localiser la zone des fréquences maximales

Caractéristiques statistiques

b. La médiane, notée me

Définition La médiane est la modalité qui divise l’effectif total en deux parties égales Cas discret

i. Si l’effectif total, N, est impair, la médiane est la modalité qui occupe le rang central (N+1)/

ii. Si l’effectif total, N, est impair, alors a. si la modalité qui occupe le rang / 2 est égale à la modalité qui occupe le rang ( / 2) 1 alors la médiane est égale à cette modalité b. sinon on dit que la médiane n'existe pas ou la méd

N N + iane n'est pas une valeur observée. Exemples

xi ni ECC N= me=

xi ni ECC N= La 6ième^ modalité et la 7ième^ sont égales à 2 Donc me= 3 2 12

xi ni ECC

N=

La 5ième^ modalité égale à 1 et la 6ième^ égale à 2. Elles sont différentes

On peut prendre

me=(x5+x 6 )/2=1.

Mais ce n’est pas une valeur observée

Caractéristiques statistiques

Cas continu On détermine la classe médiane, i.e. la première classe telle que ( / 2) ( si est pair c'est la classe contenant le ( / 2) individu, noté [ , [.

La médiane est obtenue à partir de :

ième

ECC N

N N a b

me me

: ECC de la classe qui précède la classe [ , [

: effectif de la classe [ , [ : effectif total

-^ (^ / 2)

ECC a b

n a b N

a^ N^ ECC

b a n

Exemple

[8 - 15[ 4

[4 - 8[ 5

[2 - 4[ 3

[0 - 2[ 2

classe ni

On repére la classe modale

N=14, N/2=7 [4 - 8[ est la classe médiane

La médiane est obtenue à partir de :

me

me

me

ECC

Calculer la médiane me pour la série statistique suivante

Démonstration ….

Caractéristiques statistiques

Remarque

On détermine la classe médiane, i.e. la première classe telle que ( / 2)

La médiane est obtenue à partir de :

: ECD de la classe [ , [ : effectif d

  • ( / 2)

ECD N

me

ECD a b n

me a ECD N

b a n

e la classe [ , [ a b et N : effectif total

On peut déterminer la médiane grâce à ECD, FCC et FCD

Détermination grâce à ECD

On détermine la classe médiane, i.e. la prmière classe telle que FCC 0.5, noté [ , [.

La médiane est obtenue à partir de :

: FCC de la classe qui précède la classe [ , [

-^ 0.

a b

me

FCC a b

me a^ FCC

b a f

f : fréquence de la classe [ , [ et a b N : effectif total

Détermination grâce à FCC

Caractéristiques de position

On calcule les quantiles en suivant la même méthode vue

pour la détermination de la médiane.

Détermination des quantiles

Calcul du premier quartile (en utilisant ECC)

1

( / 4) et ( / 4)

i.e. la première classe telle que ( / 4)

On détermine la classe [ , [ telle que

Le premier quartile est obtenue à partir de :

: ECC de la

-^ (^ / 4)

ECC N ECC N

ECC N

Q

a b

ECC

a^ N^ ECC

b a n

=^ −^ −

classe qui précède la classe [ , [ : effectif de la classe [ , [ : effectif total

a b n a b N

Caractéristiques de position

1 1 1

1

(^1 2 1 )

On repére la première classe telle que ( / 4)

N=14, N/4=3.5 [2 - 4[ est la classe recherchée

Calcul de

est obtenu à partir de :

Q ECC N

Q

Q Q − = Q =

=^ − ==> = × ==>

Exemple

[8 - 15[ 4

[4 - 8[ 5

[2 - 4[ 3

[0 - 2[ 2

classe ni

ECC

Calculer la médiane Q 1 , Q 2 et Q 3 pour la série statistique suivante

3 3 3

3

(^3 8) 0.85 8.

On repére la première classe telle que (3 / 4)

N=14, 3N/4=10.5 [8 - 15[ est la classe recherchée

Calcul de

est obtenu à partir de :

Q ECC N

Q

Q Q − = Q =

=^ − ==> = × ==>

Calcul de Q 2 Q 2 = me =5.

Paramètres de dispersion

Grandeurs caractéristiques de dispersion

Ils précisent le degré de dispersion des différentes valeurs autour d’une valeur centrale.

Paramètres de dispersion

a. L’Etendue, noté e L’étendue est simplement la différence entre la plus grande et la plus petite valeur observée e = Max xiMin xi

 Ce paramètre quantifie l’étalement total des données, il permet de détecter d’éventuelles valeurs extrêmes

b. Intervalle interquartiles, notée IQ IQ^ = Q 3^ − Q 1

Définition

Intérêt

o Ce paramètre indique les 50% de modalités situées au centre de la distribution

o Il très peu sensible aux données extrêmes

Intérêt

étendueétendue

Paramètres de dispersion

d. L’écart type DéfinitionL’écart type est une mesure de la distance moyenne à la moyenne

σ x = V x ( )

e. Le coefficient de variation

Le coefficient de variation est le rapport entre l'écart type et la moyenne C v x

x

σ

Remarque L’unité de mesure de l‘écart type est la même que celle des modalités

o Il mesure la dispersion des modalités autour de la moyenne

o Plus l’écart type est grand plus les modalités peuvent être éloignées les unes des autres i.e. plus elles sont dispersées.

o Plus l’écart type est petit plus les modalités sont proches de la moyenne i.e. elles sont moins dispersées.

Intérêt

Remarque Le coefficient de variation permet de comparer la variabilité de données situées dans des ordres de grandeurs différents, par exemple la variabilité du poids des éléphants et des souris

o Plus le coefficient de variation est élevée, plus la dispersion autour de la moyenne est grande o Le paramètre est sans unité

Remarque

Chapitre 3

Statistique descriptive bivariée

Statistique descriptive bivariée

Statistique descriptive à deux dimensions

Dans la statistique bivariée, on traite deux variables conjointes, i.e. deux variables observées simultanément sur les mêmes individus d’une population.

L’intérêt se porte le plus souvent sur la relation entre les deux variables, recherche de corrélation (d’interdépendance, le liaison, de correspondance) entre les deux variables, mais sans tirer des conclusions sur l’existence de liens de causalités entre elles.

Remarque

Objectif La statistique descriptive bivariée vise à étudier l’existence d’éventuels liens entre deux séries statistiques, quantifier l’intensité et caractériser sa forme le cas échéant.

L’étude d’un couple de variables conjointes se fait au moyen de tableaux, graphiques et calcul de paramètres-clés

Comment réaliser une telle étude?

Les deux variables peuvent être soit quantitatives soit qualitatives, mais on examinera, dans ce cours, davantage le cas où les deux variables sont quantitatives

On considère donc le cas où l’on dispose de deux variables x et y observées sur les mêmes individus, par exemple poids et taille, présence en cours et note du module ….

Hypothèses

Couples de variables conjointes

On s'intéresse à deux variables statistiques conjointes x et y. Ces deux variables sont observées

sur les mêmes individus d'une population. Pour chaque individus, on obtient donc deux mesures.

La sé

1 1 i i^ n^ n

rie statistique est alors une suite de couples des valeurs prises par les deux variables sur

chaque individu (x ,y ), ⋯,(x ,y ), ⋯,(x ,y )

1

1

une variable pouvant prendre modalités , ,

y une variable pouvant prendre modalités , ,

K

L

x K x x

L x x

L es don nées obs ervées peuvent ê tre regroupées dans un tableauà doubles entrée

app

s

elé tableau de contingence