Notes sur  les tests d'hypothèse - 2° partie, Notes de Mathématiques
Caroline_lez
Caroline_lez14 janvier 2014

Notes sur les tests d'hypothèse - 2° partie, Notes de Mathématiques

PDF (332 KB)
10 pages
326Numéro de visites
Description
Notes de mathématique sur les tests d'hypothèse - 2° partie. Les principaux thèmes abordés sont les suivants: le test d'ajustement du khi-deux, les exemples.
20points
Points de téléchargement necessaire pour télécharger
ce document
Télécharger le document
Aperçu3 pages / 10
Ceci c'est un aperçu avant impression
3 shown on 10 pages
Télécharger le document
Ceci c'est un aperçu avant impression
3 shown on 10 pages
Télécharger le document
Ceci c'est un aperçu avant impression
3 shown on 10 pages
Télécharger le document
Ceci c'est un aperçu avant impression
3 shown on 10 pages
Télécharger le document

alors:

(7.245)

Donc:

(7.246)

Supposons maintenant que nous souhaitions comparer avec un certain intervalle de confiance la

moyenne de deux populations ayant une variance différente pour savoir si elles sont de natures

différentes ou non.

Nous connaissons pour le moment deux tests pour vérifier les moyennes. Le test-Z et le test-T.

Comme dans l'industrie il est rare que nous ayons le temps de prendre des grands échantillons,

concentrons-nous sur le deuxième que nous avions démontré plus haut:

(7.247)

Et rappelons aussi que:

(7.248)

Maintenant rappelons que nous avons démontré que si nous avions deux variables aléatoires de

loi:

(7.249)

alors la soustraction (différencier) des moyennes donne:

(7.250)

Donc pour la différence de deux moyennes de variables aléatoires provenant de deux échantillons

de population nous obtenons directement:

(7.251)

Et maintenant l'idée est de prendre l'approximation (sous l'hypothèse que les variances sont

égales):

(7.252)

Cette approximation est appelée "hypothèse homoscédastique".

Nous avons alors l'intervalle de confiance:

(7.253)

Comme l'idée est de tester l'égalité des moyennes théoriques à partir des estimateurs connus

alors:

(7.254)

avec:

(7.255)

Dans la plupart des logiciels disponibles sur le marché, le résultat est uniquement donné à partir

du fait que le que nous avons est compris dans le correspondant à l'intervalle de

confiance donné rappelons-le par:

(7.256)

dans le cas de l'hypothèse homoscédastique (égalité des variances).

Remarque: Cette dernière relation est appelée "independent two-sample T-test", ou "test-

T homoscédastique", avec taille des échantillons différentes et variances égales. Souvent dans la littérature,

les deux moyennes théoriques sont égales lors de la comparaison. Il s'en suit que nous avons alors:

(7.257)

Sinon, dans le cas plus général de l'hypothèse hétéroscédasticité (non égalité des variances), nous

écrivons explicitement :

(7.258)

Donc:

(7.259)

Remarque: La relation antéprécédente est appelée "independent two-sample T-test", ou "test-

Thétéroscédastique". Si la taille des échantillons est égale et que les variances le sont aussi et que nous

supposons les deux moyennes théoriques sont égales lors de la comparaison, il s'en suit que nous avons

alors:

(7.260)

Bref, fermons cette parenthèse et revenons à nos moutons... Nous en étions donc au tableau

suivant:

(7.261)

où nous avons donc le cas d'échantillons de même taille:

(7.262)

Ainsi que la variance totale qui est la somme de la variance des moyennes (interclasses) et de la

variance résiduelle (intra-classes) et ce que les échantillons soient de même taille ou non:

(7.263)

Effectivement:

(7.264)

Or, nous avons:

(7.265)

car:

(7.266)

Donc:

(7.267)

Sous les hypothèses mentionnées au début (égalité des moyennes entre échantillons) nous avons:

(7.268)

ce qui découle immédiatement de la démonstration que nous avions fait lors de notre étude de

l'inférence statistique où nous avions obtenu:

(7.269)

Ce que nous souhaitons faire c'est voir s'il y a une différence entre la variance des moyennes

(interclasses) et de la variance résiduelle (intra-classes). Pour comparer deux variances lorsque les

moyennes vraies sont inconnues nous avons vu que le mieux était d'utiliser le test de Fisher.

De même, nous avons:

(7.270)

Effectivement, d'abord nous avons:

(7.271)

Donc de par la linéarité de la loi du Khi-deux:

(7.272)

puisque:

(7.273)

et parce que:

(7.274)

Donc pour résumer nous avons:

et (7.275)

et puisque , nous avons alors:

(7.276)

C'est maintenant qu'intervient la loi de Fisher dans l'hypothèse où les variances sont égales!

Puisque:

et (7.277)

Or, nous avons démontré dans notre étude de la loi de Fisher un peu plus haut que:

(7.278)

où dans notre cas d'étude:

(7.279)

Indiquons encore que la relation précédente:

(7.280)

et souvent indiquée dans la littérature sous la formation suivante:

(7.281)

où MSK est appelé "Mean Square for treatments" et MSE "Mean Square for Error".

Remarque: S'il y a seulement deux populations, il faut bien comprendre qu'à ce moment l'utilisation du

test-T de Student suffit amplement.

Tous les calculs que nous avons fait sont très souvent représentés dans les logiciels sous la forme

d'une table standardisée donc voici la forme et le contenu (c'est ainsi que le présente MS Excel ou

Minitab par exemple):

Source Somme des carrés ddl du

Moyenne des

carrés

F Valeur critique F

Inter-

Classe

k-1

Intra-

Classe

N-k

Total

N-1

Tableau: 7.1 - Terminologie et paramètres traditionnels d'une ANOVA à un facteur

ainsi, pour que l'hypothèse soit acceptée, il faut que la valeur de:

(7.282)

soit plus petite ou égale à au centile de la même loi F avec une probabilité cumulée à l'intervalle de

confiance imposé.

10.2. TEST D'AJUSTEMENT DU KHI-DEUX

Nous allons étudier ici notre premier test d'hypothèse non-paramétrique, un des plus connus

certainement et des plus simples.

Supposons qu'une variable statistique suive une loi de probabilité P. Si nous tirons un échantillon

dans la population correspondant à cette loi, la distribution observée s'écartera toujours plus ou

moins de la distribution théorique, compte tenu des fluctuations d'échantillonnage.

Généralement, nous ne connaissons ni la forme de la loi P, ni la valeur de ses paramètres. C'est la

nature du phénomène étudié et l'analyse de la distribution observée qui permettent de choisir une

loi susceptible de convenir et d'en estimer les paramètres.

Les écarts entre la loi théorique et la distribution observée peuvent être attribués soit aux

fluctuations d'échantillonnage, soit au fait que le phénomène ne suit pas, en réalité, la loi

supposée.

En gros, si les écarts sont suffisamment faibles, nous admettrons qu'ils sont imputables aux

fluctuations aléatoires et nous accepterons la loi retenue ; au contraire, s'ils sont trop élevés, nous

en conclurons qu'ils ne peuvent pas être expliqués par les seules fluctuations et que le phénomène

ne suit pas la loi retenue.

Pour évaluer ces écarts et pouvoir prendre une décision, il faut :

1. Définir la mesure de la distance entre distribution empirique et distribution théorique résultant

de la loi retenue.

2. Déterminer la loi de probabilité suivie par cette variable aléatoire donnant la distance

3. Énoncer une règle de décision permettant de dire, d'après la distribution observée, si la loi

retenue est acceptable ou non.

Nous aurons pour cela besoin du théorème central limite et deuxièmement rappelons que lors lors

de la construction de la loi Normale, nous avons montré que la variable:

(7.283)

suivait une loi Normale centrée réduite lorsque n tendait vers l'infini (condition de Laplace).

En pratique, l'approximation est tout à fait acceptable... dans certaines entreprises...

lorsque et soit (c'était un des termes qui devait tendre vers zéro quand nous

avions fait la démonstration):

(7.284)

Par exemple dans les deux figures ci-dessous où nous avons représenté les lois binomiales

approchées par les lois Normales associées, nous avons à gauche et à

droite :

(7.285)

Rappelons enfin, que nous avons démontré que le sommes des carrées de n variables aléatoires

normales centrées réduites linéairement indépendantes suit une loi du khi-deux à n degrés de

liberté noté .

Considérons maintenant une variable aléatoire X suivant une fonction de distribution théorique

(continue ou discrète) P et tirons un échantillon de taille n dans la population correspondant à

cette loi P.

Les n observations seront réparties suivant k modalités (classes de valeurs) C1, C2, ..., Ck, dont les

probabilitésp1, p2, ..., pk sont déterminées par la fonction de distribution P (se référer à l'exemple

de la droite de Henry).

Pour chaque modalité Ci, l'effectif empirique est lui une variable aléatoire ki de loi binomiale:

(7.286)

Cet effectif ki correspond en effet au nombre de succès "résultat égal à la modalité Ci" de

probabilité pi, obtenus au cours des n tirages d'un lot expérimental (et non dans la population de

la loi théorique comme avant).

Nous avons démontré lors de l'étude de la loi binomiale que son espérance:

(7.287)

représente l'effectif théorique de la modalité Ci et sa variance est:

(7.288)

car pi est relativement petite, ce qui donne qui est assez proche de 1. Son écart-type est

donc:

(7.289)

Dans ces conditions, pourvu que la modalité Ci ait un effectif théorique npi au moins égal à 5,

l'écart réduit:

(7.290)

entre effectif empirique et effectif théorique peut être approximativement considéré comme une

variable normale centrée réduite comme nous l'avons vu plus haut.

Nous définissons alors la variable:

(7.291)

où est souvent nommée "fréquence expérimentale" et "fréquence théorique".

Signalons que cette variable est aussi parfois (un peu malheureusement) notée:

(7.292)

ou le plus souvent:

(7.293)

Cette variable D, somme des carrés des variables Ei, nous donne une mesure de ce que nous

pourrions appeler une "distance" ou "différence" ou "écart" entre distribution empirique et

distribution théorique. Notons bien cependant qu'il ne s'agit cependant pas d'une distance au sens

mathématique habituel (topologique).

Rappelons que D peut donc aussi s'écrire:

(7.294)

D est donc la somme des carrés de N variables aléatoires normales centrées réduites liées par la

seule relation linéaire:

(7.295)

où n est donc la taille de l'échantillon. Donc D suit une loi khi-deux mais à N-1 degrés de liberté,

donc un degré de moins à cause de l'unique relation linéaire qui les lie! Effectivement, rappelons

que le degré de liberté indique le nombre de variables indépendantes dans la somme et non pas

juste le nombre de termes sommés.

Donc:

(7.296)

Nous appelons ce test un "test non-paramétrique du khi-2" ou "test du khi-2 de Pearson" ou

encore "test d'ajustement du khi-2" ou encore "test de Karl Pearson".

Ensuite, l'habitude est de déterminer la valeur de la loi du khi-deux à N-1 degrés de liberté ayant

5% de probabilité d'être dépassée. Donc dans l'hypothèse où le phénomène étudié suit la loi

théorique P, il y a donc 95% de probabilité cumulée que la variable D prenne une valeur inférieur à

celle donnée par la loi du khi-deux.

Si la valeur de la loi du khi-deux obtenu à partir de l'échantillon prélevé est inférieure à celle

correspondant aux 95% de probabilité cumulée, nous acceptons l'hypothèse selon laquelle le

phénomène suit la loi P.

Remarques:

R1. Le fait que l'hypothèse de la loi P soit acceptée ne signifie pas pour autant que cette hypothèse

soit vraie, mais simplement que les informations données par l'échantillon ne permettent pas de la

rejeter. De même, le fait que l'hypothèse de la loi P soit rejetée ne signifie pas nécessairement que

cette hypothèse soit fausse mais que les informations données par l'échantillon conduisent plutôt à

conclure à l'inadéquation d'une telle loi.

R2. Pour que la variable D suive une loi du khi-deux, il est nécessaire que les effectifs

théoriques npi des différentes modalités Ci soient au moins égaux à 5, que l'échantillon soit tiré au

hasard (pas d'autocorrélation) et qu'aucune des probabilités pi soit trop proche de zéro.

commentaires (0)
Aucun commentaire n'a été pas fait
Écrire ton premier commentaire
Ceci c'est un aperçu avant impression
3 shown on 10 pages
Télécharger le document