Prépare tes examens
Obtiens points
Guides et conseils
Vends sur Docsity
Docsity AI

Prépare tes examens

Étudies grâce aux nombreuses ressources disponibles sur Docsity

Obtiens des points à télécharger

Gagnz des points en aidant d'autres étudiants ou achete-les avec un plan Premium

Guides et conseils

Vends sur Docsity

Docsity AI

Connexion Créer un compte

Prépare tes examens

Étudies grâce aux nombreuses ressources disponibles sur Docsity

Rechercher des documents

Prépares tes examens avec des documents partagés par des étudiants comme toi sur Docsity

Trouvez les documents spécifiques aux examens de votre université

Docsity AINEW

Résume tes documents, pose-leur des questions, convertisse-les en quiz et cartes conceptuelles

Explores les questions

Enleves tout doute en lisant les réponses aux questions posées par d'autres élèves comme vous

Obtiens des points à télécharger

Gagnz des points en aidant d'autres étudiants ou achete-les avec un plan Premium

Condiviser documents

20 Points

Pour chaque document téléchargé

Réponds aux questions

5 Points

Pour chaque réponse donnée (max 1 par jour)

Tous les moyens d'obtenir des points gratuits

Obtiens des points maintenant

Choisi un plan Premium avec tous les points dont tu as besoin

Opportunités d'étude

Choisi ton prochain programme d'études

Entre dès maintenant en contact avec les meilleures universités du monde. Recherche parmi des milliers d'universités et de partenaires officiels

Communauté

Demandes à la communauté

Demandes de l'aide à la communauté et dissipes tes doutes concernant l'étude

Guide gratuite

Nos e-books qui sauvent les étudiants!

Télécharges gratuitement nos guides sur les techniques d'étude, les méthodes de gestion de l'anxiété, les conseils pour la thèse réalisés par les tuteurs Docsity

Tests statistiques - Notes de cours Notes de cours, Notes de Statistiques

Université de La Rochelle Statistiques

Typologie: Notes

2018/2019

Téléchargé le 11/09/2019

Marguerite_S 🇫🇷

(44)

369 documents

1 / 32

Cette page n'est pas visible dans l'aperçu

Ne manques pas les parties importantes!

Tests statistiques

Notes de cours

V. Monbet

L2 S1 - 2009

Découvrez Notes de Statistiques Université de La Rochelle

Documents associés

Cours de Statistiques niveau L1-L2 - Université Grenoble Alpes 2018

(1)

Cours de probabilites et statistiques - Universit ́e Claude Bernard Lyon 1

Statistiques - Cours et exercices

(1)

cours de comptabilite

(2)

Cours 1. La statistique et les statistiques

(1)

Exercices corrigés du Cours de Finance

Cours 6: TESTS - Généralités, Tests optimaux

Seconde Cours : statistiques descriptives

Mécanique des structures - Exercices du cours

(1)

Notes cours droit pénal

Droit pénal notes de cours

Logique: notes de cours

(1)

Aperçu partiel du texte

Télécharge Tests statistiques - Notes de cours Notes de cours et plus Notes au format PDF de Statistiques sur Docsity uniquement!

Tests statistiques

Notes de cours

V. Monbet

L2 S1 - 2009

Table des matières

Chapitre 1

Introduction

1.1 Qu'est ce que la statistique?

Les statistiques, dans le sens populaire du terme, traitent des populations. Leur objectif consiste à caractériser une population à partir d'une image plus ou moins oue constituée à l'aide d'un échantillon issu de cette population. On peut alors chercher à extrapoler une information obtenue à partir de l'échantillon.

Exemple - Répartition par classe d'age d'une population de poissons. Si on veut caractériser la po- pulation de morue dans une zone donnée de l'Atlantique Nord, on va prélever quelques poissons (ces quelques poissons vont constituer l'échantillon). Puis on va mesurer leur age (otolithe), leur poids, leur taille, ... on va enn chercher à extrapoler ces résultats à toute la population.

Mais on peut aussi chercher à synthétiser une information trop dense.

Exemple - Acheteurs potentiels (prospects) d'un certain forfait de téléphone portable. On va chercher les principales caractéristiques spéciques du groupe des clients du forfait an de mieux les connaître et d'être capable d'identier des prospects.

Ou encore à vérier une hypothèse.

Exemple - Contrôle de qualité. Le fabriquant de café fournit des paquets de 250 g. Le remplissage est automatisé. Régulièrement le fabriquant prélève quelques paquets de café ce qui constitue l'échantillon. Il pèse les paquets de l'échantillon an de vérier l'hypothèse selon laquelle les paquets de café pèsent bien 250 g en moyenne.

Exemple - Eet d'un traitement. Dans l'industrie pharmaceutique, il est obligatoire de tester l'ecacité d'un traitement avant de le mettre sur le marché. On procède alors de la façon suivante : on sélectionne deux groupes de patients. L'un reçoit le médicament, l'autre un placébo. Il faut alors vérier que le groupe qui reçoit le médicament voit bien ses symptômes diminuer en moyenne.

On trouve des applications de la statistique dans tous les domaines : industrie, environnement, médecine, nance, marketing, sport, ...

Dans le cadre de ce cours, nous allons nous intéresser principalement aux tests statistiques.

1.2 Qu'est ce qu'un test statistique?

Un test, qu'il soit statistique ou pas, consiste à vérier une information hypothétique. On parle d'ailleurs de tests d'hypothèses.

En statistique mathématique, l'information hypothétique concerne la population à laquelle on s'intéresse. C'est une information statistique qui peut être : Une distribution qu'une variable d'intérêt quelconque est censée présenter. Exemple : répartition de l'age des poissons. Une valeur ponctuelle à laquelle une statistique, par exemple une moyenne, une médiane, une fréquence, etc. serait égale. Exemple : poids des paquets de café. Un intervalle de valeurs auquel appartiendrait la valeur d'une statistique, comme ci-dessus (on qualie un tel intervalle d'hypothèse composite). L'indépendance statistique de deux variables.

Un test statistique peut aussi être utilisé pour vérier le succès (ou l'échec) d'une action entreprise pour modier la valeur d'une statistique de population. Par exemple, On cherche à augmenter le nombre moyen des clients servis à l'heure, qui est actuellement de

On cherche à faire tomber la proportion des appareils défectueux en dessous de 3%.

Il est généralement impossible de recenser toute la population. On prélève alors un échantillon dont on déduit une statistique (par exemple la moyenne de l'échantillon). Cette statistique est comparée à la valeur à laquelle on peut s'attendre si l'hypothèse est vraie. Cependant, on doit tenir compte du fait qu'on a observé seulement un échantillon de la population. L'observation d'un autre échantillon conduira vraisemblablement à une autre valeur de la statistique. La théorie des tests procure des outils pour bien prendre en compte cette variabilité.

1.3 Exemple

Traitons un exemple [?]. J'ai 114 livres dans ma bibliothèque. J'en extrais un échantillon de 12. Chaque livre doit avoir la même probabilité d'être choisi. Je veux tester l'hypothèse que la médiane du nombre de pages par volume est 220. Dans mon échantillon, j'observe les nombres de pages suivants :

Je leur associe un signe - si le nombre de pages est inférieur à 220 et un signe + sinon. Si la médiane est 220, il est également probable pour chaque livre sélectionné d'avoir plus ou moins de 220 pages.

Chapitre 2

Tests d'hypothèses, généralités

Dans ce chapitre nous énonçons (ou rappelons) un certain nombre de généralités autour des tests d'hypothèse, l'objectif étant d'être capable de bien formuler un test.

2.1 Hypothèses de test

En premier lieu, nous devons formuler les hypothèses. L'hypothèse que nous voulons vérier sera appelée hypothèse nulle et on la notera 퐻 0. Dans l'exemple concernant le nombre de pages des livres de ma bibliothèque, nous poserons alors

퐻 0 : 휃 = 220

où 휃 représente ici la médiane du nombre de page. Nous rassemblerons d'autre part l'ensemble des hypothèses alternatives sous 퐻 1 :

퐻 1 : 휃 ∕= 220

Et nous parlerons de tester 퐻 0 contre les alternatives bilatérales 퐻 1 (sous 퐻 1 , 휃 peut être inférieur ou supérieur à 220).

2.2 Statistique de test

Une fois les hypothèses de test posées, nous devons choisir la statistique de test. C'est en compa- rant la valeur de cette statistique observée dans l'échantillon à la sa valeur sous l'hypothèse 퐻 0 que nous pourrons prendre une décision (ie donner la conclusion du test).

Dans l'exemple de nombre de pages des livres tel que nous l'avons traité jusqu'à présent, la statistique de test est par exemple le nombre de signes + observé. On a alors que la loi de probabilité de la statistique de test sous 퐻 0 est ici une loi binomiale 퐵(12, 1 /2). Nous aurions pu choisir de manière équivalente le nombre de signes -.

D'après la table de la loi binomiale, nous constatons que si 퐻 0 est vraie, la probabilité est maximale pour 6 signes +.

2.3 Région de rejet et niveau de signication

En suivant une procédure formelle en test d'hypothèse, nous séparons les résultats possibles en deux sous-ensembles. Le premier regroupe les résultats les plus vraisemblables sous l'hypothèse nulle, de façon que la somme de leurs probabilités soit au moins égale à l'une des valeurs conventionnelles 0.90, 0.95 (valeur la plus souvent choisie), 0.99 ou 0.999.

On peut vérier facilement dans le tableau 1.1 que la probabilité de l'ensemble allant de 3 à 9 signes + est 0.962. Et on ne peut éliminer de l'ensemble aucun de ces résultats sans réduire la probabilité à une valeur inférieure à 0.95. On remarque que dans ce cas symétrique, on doit éliminer les résultats par paire.

Les résultats restants c'est à dire { 0 , 1 , 2 , 10 , 11 , 12 } forment un ensemble de probabilité 0. appelée région de rejet (ou région critique) de niveau de signication nominal 훼 ou encore de de niveau de signication réel (ou degré de signication 1 ) 0.038.

La règle des tests d'hypothèse consiste à rejeter 퐻 0 au niveau de signication 0.05 si et seulement si le résultat tombe dans la région de rejet.

La région complémentaire de tous les résultats hors de la région de rejet est appelée région de non rejet (ou d'acceptation) de l'hypothèse nulle.

En choisissant une région de rejet de probabilité inférieure au égale au niveau de signication on adopte une attitude dite conservatrice.

2.4 Les deux espèces d'erreur

Lorsque l'on fait un test d'hypothèse, deux sortes d'erreur sont possibles. On peut rejeter l'hypo- thèse nulle alors qu'elle est vraie. Ceci se produit si la valeur de la statistique de test tombe dans la région de rejet alors que l'hypothèse 퐻 0 est vraie.

La probabilité de cet évènement est le niveau de signication. On dira aussi que le niveau de signication est la probabilité de rejeter l'hypothèse nulle à tort.

Rejeter l'hypothèse nulle à tort constitue une erreur de première espèce.

Si nous ne rejetons pas l'hypothèse nulle alors qu'elle est fausse nous commettons une erreur de seconde espèce. C'est le cas si la valeur de la statistique de test tombe dans la région de non rejet (ou d'acceptation) alors que 퐻 0 est fausse (c'est à dire si 퐻 1 est vraie).

Lorsque l'alternative 퐻 1 est de la forme 휃 ∕= 휃 0 , notre 휃 peut prendre une innité de valeurs ; et la probabilité de rejeter 퐻 0 lorsqu'elle est fausse dépend beaucoup de la vraie valeur de 휃 (qui est inconnue !).

En anglais : p-value

Chapitre 3

Tests non paramétriques - Estimation

de la position pour un échantillon isolé

Dans ce chapitre, nous allons décrire plusieurs tests pour la position d'un échantillon isolé. La position d'un échantillon peut être caractérisée par diérents paramètres. Les plus usuels sont la moyenne et la médiane.

3.1 Le test du signe

Dans le chapitre précédent, nous avons déjà introduit le test du signe à titre d'exemple et nous ne reviendrons pas ici sur sa théorie. Mais ajoutons ici quelques remarques.

3.1.1 Quelques remarques

Il peut arriver que, dans un échantillon, une ou plusieurs observations soient exactement égales à la valeur 휃 0 du paramètre 휃 sous 퐻 0. Dans ce cas, il est recommandé d'ignorer ces observations.

Les tables habituellement utilisées pour construire la région de rejet sont les tables des probabilités binomiales cumulées qui correspondent aux probabilités d'observer au plus 푟 succès (c'est à dire 푟 signes plus). Nous voyons par exemple, dans le tableau de la loi 퐵(16, 12 ), que pour un test bilatéral de niveau nominal 5% (la partie inférieure de la région de rejet doit représenter une probabilité d'au plus 0.025), le plus petit des deux nombres de signes "plus" et "moins" ne doit pas dépasser 3. Pour un test unilatéral de

퐻 0 : 휃 ≥ 휃 0 contre 퐻 1 : 휃 < 휃 0

au niveau nominal 5%, la région de rejet contient les valeurs de 0 à 4.

Exercice - Quel est le niveau de signication réel du test du signe unilatéral

퐻 0 : 휃 ≥ 휃 0 contre 퐻 1 : 휃 < 휃 0

dans le cas où l'on a 24 observations et que le niveau nominal est 5%?

Exercice - Quel est la region de rejet du test du signe unilatéral

퐻 0 : 휃 ≥ 휃 0 contre 퐻 1 : 휃 < 휃 0

dans le cas où l'on a 24 observations et que le niveau de signication nominal est xé à 1%?

On remarque que la table des probabilités cumulées de la loi binomiale ne donne des valeurs que pour 푛 ≤ 20. Plus loin, nous verrons que pour des échantillons plus grands, nous utilisons des approximations.

3.1.2 Intervalle de conance

Vu en travaux dirigés.

3.1.3 Approximation pour les grands échantillons

Si 푛 > 20 , une approximation basée sur la loi Gauss est généralement satisfaisante. Lorsque 푛 est assez grand et 푝 pas trop petit (typiquement 푛푝 > 10 ), si 푋 suit la loi binomiale 퐵(푛, 푝), alors la variable

푍 =

p 푛푝(1 − 푝)

suit une loi de Gauss de moyenne égale à zéro et de variance égale à un. Dans le cas du test du signe, 푝 = 12 , et on utilise alors

푍 =

3.1.4 Test du signe modié : test d'un quantile

On peut adapter le test du signe pour tester des hypothèses sur un quantile d'une distribution.

On dénit le 푘-ième quantile de la distribution continue de la variable aléatoire 푋 comme la valeur 푞푘 telle que 푃 (푋 < 푞푘) ≤ 푘 et 푃 (푋 > 푞푘) ≤ 1 − 푘

On remarque que 푞 1 / 2 est la médiane.

Cas particuliers : si 푘 = 푟/ 10 avec 푟 ∈ { 1 , 2 , ⋅ ⋅ ⋅ , 9 } alors 푞푘 est appelé décile et si 푘 = 푟/ 4 avec 푟 ∈ { 1 , 2 , 3 } alors 푞푘 est appelé quartile.

Test du signe modié : voir exercices.

3.2 Inférence à base de rangs

Le test du signe utilise seulement une petite partie de l'information contenue dans un jeu de données comme les nombres de pages de l'exemple des livres : pour chaque observation nous avons noté si elle était supérieure ou inférieure à la médiane spéciée dans 퐻 0.

Si seul le rang 1 est négatif, que vaut 푆푛? Quelle est la probabilité associée?
Utiliser excel ou openoffice pour construire la loi de la statistique de test du test des signes et rangs de Wilcoxon dans le cas où le nombre d'observations est égal à 11. En déduire la probabilité que la statistique de test soit inférieure ou égale à 15, à 10.

Procédure. Dans l'exemple des livres, nous rangeons par ordre de valeur absolue croissante les écarts à 220. En conservant le signe, nous obtenons

Les signes et rangs correspondants sont

La somme des rangs négatifs est 푆푛 = 15. Or dans la table, nous voyons que si 푛 = 11, le test bilatéral de niveau 5% rejette 퐻 0 si la plus petite des deux sommes, 푆푛 et 푆푝 est inférieur ou égale à 10.

En conclusion, nous ne rejetons pas 퐻 0 au niveau nominal 5%.

Discussion

Hypothèse de symétrie?
Hypothèse de continuité?

3.2.2 Le problème des ex aequo

Nous avons supposé que la distribution de la variable d'intérêt est continue dans la population. Or pour une distribution continue, la probabilité d'obtenir des observations égales est nulle de même que celle d'obtenir des observations égales à la médiane de la population. Cependant, en pratique, les observations ne sont pas strictement continues (arrondis ou précision limitée des appareils de mesure).

Si une ou plusieurs valeurs coïncident avec la médiane spéciée sous 퐻 0 , nous leur attribuons le rang 0.

Si plusieurs écarts ont le même rang (en valeur absolue) ; nous leur attribuons le rang moyen. Par exemple, si les écarts signés sont :

nous leur attribuons les rangs suivants :

3.2.3 Approximation pour les grands échantillons

Pour des tailles d'échantillon 푛 > 20 , on peut approcher la statistique de test du test des signes et rangs de Wilcoxon par une variable aléatoire de loi de Gauss. Soit 푆 la statistique de test, on vérie que la moyenne de 푆 est 푛(푛 + 1)/ 4 et que sa variance est 푛(푛 + 1)(2푛 + 1)/ 24 et on a que la variable

p 푛(푛 + 1)(2푛 + 1)/ 24

suit approximativement une loi de Gauss de moyenne 0 et de variance 1 si 푛 est plus grand que 20. Le 1 / 2 au numérateur est une correction de continuité.

Si un grand échantillon comporte des valeurs égales à la médiane sous 퐻 0 ou des ex aequo, on modie 푍 de la façon suivante

q 푛(푛 + 1)(2푛 + 1)/ 24 − 푑 0 (푑 0 + 1)(2푑 0 + 1)/ 24 −

P푛푔푒

3 푖 −^ 푑푖)/^48

où 푑 0 est le nombre de valeurs égales à la médiane spéciée sous 퐻 0 , 푛푔푒 est le nombre de groupes d'ex aaequo et 푑푖 le nombre d'ex aequo dans le 푖ème groupe.

Pour simplier l'écriture, on notera parfois 푋 ∼ 풩 (휇, 휎) pour signier que la v.a. 푋 suit une loi de Gauss de moyenne 휇 et de variance 휎^2.

Proposition 1 Toute combinaison linéaire de variables aléatoires de loi de Gauss suit une loi de Gauss.

Exercice : Soient 푋 et 푌 deux variables aléatoires indépendantes de loi de Gauss. Notons respectivement 휇푋 et 휇푌 leurs moyennes et 휎^2 푋 et 휎 푌^2 leurs variances. Quelles est la loi de la variable aléatoire 푍 = 푋 + 2푌? Donner ses paramètres et écrire sa fonction de densité de probabilité.

Exemple important : Soient 푋 1 , ⋅ ⋅ ⋅ , 푋푛 푛 variables aléatoires de loi de Gauss de moyenne 휇 et de variance 휎^2. Alors l'estimateur empirique 푋¯ = (^) 푛^1

P푛

푖=1 푋푖^ de laa moyenne^ 휇^ est une variable aléatoire de loi de Gauss de moyenne 휇 et de variance 휎 2 푛.

Loi du chi La loi du chi2 permet de modéliser la loi d'une somme de carrés de variables aléatoires gaus- siennes centrées réduites : soient 푋 1 , ⋅ ⋅ ⋅ , 푋푘 푘 variables aléatoires gaussiennes indépendantes et de même variance 휎^2 alors, 푍 =

P푘

2 푖 suit une loi du chi 2 à^ 푘^ degrés de liberté.

Remarque : 푍 =

P푘

푖=1(푋푖^ −^ 푋¯)^ suit une loi du chi 2 à^ (푘^ −^ 1)^ degrés de liberté.

Loi de Student La loi de student permet de modéliser la loi du rapport d'une variable aléatoire gaussienne centrée réduite sur la racine carrée d'une variable aléatoire de loi chi 2 normalisée par le nombre de degrés de liberté : soient 푈 une variable gaussienne centrée réduite et 푍 une variable aléatoire du chi 2 à 푘 degrés de liberté, alors √푈 푍/푘 soit une loi de student à 푘 degrés de liberté.
Loi de Fisher La loi de Fisher permet de modéliser le rapport de deux variables distribuées suivant des lois du chi 2. Soient 푍 1 et 푍 2 deux variables de loi de chi 2 à 푘 1 et 푘 2 degrés de libertés et d'écart-types 휎 1 et 휎 2 alors

푍 1 /휎 1 푍 2 /휎 2

suit une loi de Fisher à (푘 1 , 푘 2 ) degrés de liberté.

Loi Prob. ou ddp Moyenne Variance 0-1 푃 (푋 = 0) = 1 − 푝 et 푃 (푋 = 1) = 푝 푝 푝(1 − 푝) Uniforme 푃 (푋 = 푥) = (^) 푛^1 , 푥 ∈ [1, 푛] 푛+1 2 푛^212 −^1 Binomiale 푃 (푋 = 푥) = 퐶푛푥 푝푥(1 − 푝)푛−푥^ pour 푥 ∈ [0, 푛] 푛푝 푛푝(1 − 푝) Géométrique 푃 (푋 = 푥) = 푝(1 − 푝)푥−^1 pour 푥 = 1, 2 ,... (^1) 푝^1 푝− 2 푝 Pascal 푃 (푋 = 푥) = 퐶 푥푛−− 11 푝푛(1 − 푝)푥−푛^ 푛푝 푛(1 푝− 2 푝) Poisson 푃 (푋 = 푥) = 푒 −휆휆푥 푥! pour^ 휆^ ≥^0 et^ 푥^ = 1,^2 ,...^ 휆^ 휆 Uniforme 푓 (푥) = (^) 푏−^1 푎 avec 푎 ≤ 푥 ≤ 푏 푎+ 2 푏 (푏−푎) 2 12 Gauss 푓 (푥) = √ 21 휋휎 푒−^

(푥−휇)^2 2 휎^2 pour 푥 ∈ ℝ 휇 휎^2 Cauchy 푓 (푥) = (^) 휋(푎 2 푎+푥 (^2) ) non déni non déni Gamma 푓 (푥) = 휆푘^ 푥푘 Γ(−^1 푘푒)−휆푥^ 푘휆 휆푘 2 Exponentielle 푓 (푥) = (^1) 푎 푒−^ 푥푎^ pour 푥 > 0 et 푎 > 0 푎 푎^2 Rayleigh 푓 (푥) = (^) 휎푥 2 푒−^ 2 푥휎^22 pour 푥 > 0 휎 p (^) 휋 2 휎 (^2) (2 − 휋 2 ) Laplace 푓 (푥) = 푎 2 푒−푎∣푥∣^0 푎^22 휒^2 푓 (푥) = 2 푚 (^2 1) Γ( 푚 2 )^

푥 푚^2 −^1 푒−^ 푥^2 푚 2 푚 Student 푓 (푥) =

푛+1 2 √푛휋Γ( 푛 2 )

1+ 푥 2 푛

(푛+1)/ (^2 0) 푛푛− 2 ; 푛 > 2

4.1.2 Convergence en loi

On s'intéresse à la loi d'une suite de v.a. identiquement distribuées, et plus particulièrement à la convergence à l'inni. Pour étudier cette convergence, il existe de nombreux outils ; nous utiliserons ici uniquement la notion de convergence en loi.

Dénition 1 - Convergence en loi. Soit une suite de v.a. 푋푛 de fonction de répartition 퐹푛(푥), et soit 푋 une v.a. de fonction de répartition 퐹 (푥). On dit que la suite 푋푛 converge en loi vers la v.a. 푋 si et seulement si 퐹푛(푥) converge vers 퐹 (푥).

C'est ce type de convergence qu'on utilise quand on dit abusivement qu'une statistique de test est approximativement distribuée suivant une loi de Gauss. On devrait toujours dire que la statistique de test converge en loi vers une variable aléatoire de loi normale.

4.1.3 Théorème de limite centrale

Le théorème de limite centrale est l'un des résultats les plus importants de la théorie des probabi- lités. De façon informelle, ce théorème donne une estimation très précise de l'erreur que l'on commet en approchant l'espérance mathématique par la moyenne arithmétique. Ce phénomène a d'abord été observé par Gauss qui l'appelait loi des erreurs ; mais ce dernier n'en a pas donné de démonstration rigoureuse. La preuve du théorème a été apportée par Moivre et Laplace ; le théorème porte donc parfois leurs noms.

Ce théorème est fondamental car il justie toutes les approximations par la loi normale.

Théorème 1 - Théorème de limite centrale Soit 푋푛 une suite de v.a. de même loi d'espérance 휇 et d'écart type 휎. Alors la v.a. √^1 푛 ( 푋^1 +푋^2 +...휎 +푋푛−푛휇) converge en loi vers une v.a. normale centrée réduite ℵ(0, 1) quand 푛 tend vers l'inni.

La statistique de test est la moyenne empirique (enocre appelée moyenne arithmétique). Si on note 푋 1 , ⋅ ⋅ ⋅ , 푋푛 un échantillon de variables aléatoires de même loi que 푋, la moyenne empirique est donnée par

푋^ ¯푛 =^1 푛

X^ 푛

푖=

Intuitivement, on comprend bien qu'on va rejeter 퐻 0 si 푋¯푛 − 휇 0 est trop grand en valeur absolue c'est à dire si la moyenne empirique est trop éloignée de la moyenne sous 퐻 0.

D'après le théorème de limite centrale, sous 퐻 0 , 푍 = 푋¯푛−휇 0 휎/√푛 converge vers une variable aléatoire de loi de Gauss de moyenne 0 et de variance 1 quand 푛 tend vers l'inni. D'autre part, d'après la remarque faite plus haut on comprend qu'on rejette 퐻 0 si ∣푍∣ > 푧 0. Pour construire la région de rejet de 퐻 0 , on cherche donc 푧 0 tel que 푃 (∣푍∣ > 푧 0 ) = 훼

soit encore 푃 (푍 > 푧 0 ou 푍 < 푧 0 ) = 푃 (푍 > 푧 0 ) + 푃 (푍 < −푧 0 ) = 훼

or on a par symétrie de la loi de Gauss de moyenne 0 et de variance 1

푃 (푍 > 푧 0 ) = 푃 (푍 < −푧 0 ) = Φ(−푧 0 ) = 1 − Φ(푧 0 )

où on note Φ la fonction de répartition de la loi Gauss de moyenne 0 et de variance 1. Ainsi 푧 0 est tel que 1 − Φ(푧 0 ) = 훼/ 2

ce qui s'écrit encore 푧 0 = Φ−^1 (1 − 훼 2 )

D'après la table de la fonction de répartition inverse de la loi normale, on en déduit que 푧 0 = 1. 96 car 훼 = 0. 05.

Finalement, on rejette donc 퐻 0 si

∣ 푋¯푛 − 휇 0 ∣ > 1. 96

Remarques On peut aussi conclure le test en calculant son degré de signication soit

푝푣 = 푃 (푍 >) = ⋅ ⋅ ⋅

Lorsque le nombre d'observations 푛 est grand (supérieur à 30), d'après le théorème de limite centrale on a que la statistique de test

suit approximativement une loi de Gauss quelque soit la loi de la variable 푋 considérée.

4.2.1 Si la variance est inconnue

Dans le cas où la variance n'est pas connue, on doit l'estimer en utilisant les observations. La statistique de test du test de la moyenne est alors donnée par

où 푠 est l'entimateur de la variance déni de la façon suivante

푆^2 =

X

푖

(푋푖 − ¯푥)^2

Dans ce cas, 푍 ne suit plus une loi de Gauss car le dénominateur n'est plus une constante mais une réalisation de l'estimateur de la moyenne de la variable 푋. L'écart-type 푠 Par construction, 푆^2 suit une loi du 휒^2 à (푛 − 1) degrés de liberté si 푋 suit une loi de Gauss. 푌 est alors une v.a. suivant une de Student à (푛 − 1) degrés de libertés. Et on utilise une table de la loi de Student pour conclure le test.

Remarque : Lorsque le nombre d'observations 푛 est grand (supérieur à 30), on peut utiliser le théorème de limite centrale pour approcher la loi de la statistique 푍.

4.2.2 Calcul de la puissance du test

Dans le cas d'un test de Student, on peut calculer la puissance du test si on peut donner une valeur de la moyenne sous l'hypothèse alternative.

퐻 0 : 휇 = 휇 0 contre 퐻 1 : 휇 = 휇 1

La puissance est dénie par

풫 = 푃 (rejeter 퐻 0 ∣퐻 0 est fausse)

Ainsi la puissance est la probabilité de la région de rejet de 퐻 0 sous la loi de 퐻 1.

suit une loi 풩 (0, 1)

푍 >^ ˜ 푧^0 −^ 휇^1

4.3 Test pour une proportion

Soit une population très grande où la proportion d'individus possédant le caractère 퐴 est égale à 푝. On pense que cette proportion ne peut avoir que deux valeurs 푝 0 ou 푝 1. Au vu d'un échantillon de taille 푛, on désire prendre une décision quant à la valeur de cette proportion, avec une signication 훼.

Tests statistiques - Notes de cours Notes de cours, Notes de Statistiques

Documents associés

Aperçu partiel du texte

Télécharge Tests statistiques - Notes de cours Notes de cours et plus Notes au format PDF de Statistiques sur Docsity uniquement!

Tests statistiques

Notes de cours

V. Monbet

L2 S1 - 2009

Table des matières

Chapitre 1

Introduction

Chapitre 2

Tests d'hypothèses, généralités

Chapitre 3

Tests non paramétriques - Estimation

de la position pour un échantillon isolé

3.1.1 Quelques remarques

3.1.2 Intervalle de conance

3.1.3 Approximation pour les grands échantillons

3.1.4 Test du signe modié : test d'un quantile

3.2.2 Le problème des ex aequo

3.2.3 Approximation pour les grands échantillons

P푛푔푒

P푛

P푘

P푘

4.1.2 Convergence en loi

4.1.3 Théorème de limite centrale

X^ 푛

4.2.1 Si la variance est inconnue

X

(푋푖 − ¯푥)^2

4.2.2 Calcul de la puissance du test

푍 >^ ˜ 푧^0 −^ 휇^1

3.1.2 Intervalle de conance

3.1.4 Test du signe modié : test d'un quantile