Notes sur le KHI-2, Notes de Applications informatiques
Francine88
Francine8813 January 2014

Notes sur le KHI-2, Notes de Applications informatiques

PDF (135.7 KB)
6 pages
141Numéro de visites
Description
Notes d’informatique sur le KHI-2. Les principaux thèmes abordés sont les suivants: le tableau des effectifs observés, le tableau des effectifs théoriques, Les degrés de liberté pour le khi-2, la méthode des différences ...
20points
Points de téléchargement necessaire pour télécharger
ce document
Télécharger le document
Aperçu3 pages / 6
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Aperçu avant impression terminé
Chercher dans l'extrait du document

Pendant l'introduction de la méthode précédente permettant de comparer des effectifs (valeurs)

et détecter lesquels étaient les plus proches, nous avons donné le tableau des effectifs

observés:

Feuillus Résineux Mixtes Total par dép.

L'Aisne (A) 106'500 3'380 1'470 111'350

L'Oise (O) 101'700 10'000 0 111'700

La Somme (S) 45'200 4'350 50 49'600

Total 253'400 17'730 1'520 272'650

Tableau: 57.7 - Tableau de contingence de l'A.F.C.

et nous avons montré comment trouver le tableau des effectifs théoriques (arrondis à l'entier le

plus proche) dans les cas où les proportions auraient dû éventuellement être respectées:

Feuillus Résineux Mixtes Total par dép.

L'Aisne (A) 103'488 7'240 620 111'350

L'Oise (O) 103'813 7'263 622 111'700

La Somme (S) 46'098 3'225 276 49'600

Total 253'400 17'730 1'520 272'650

Tableau: 57.8 - Tableau de contingence avec effectifs théoriques

La construction du dernier tableau ci-dessus présuppose par exemple que les trois régions sont

dans des conditions identiques pour tout ce qui concerne la croissance et la multiplication des

arbres et que le nombre d'arbres est en relation de cause à effet directe!!!! avec les régions et

qu'il n'y a pas d'autres causes intermédiaires.... ce qui est une hypothèse forte!

Mais sous cette hypothèse, supposons que nous souhaiterions savoir si les différences

observées entre le nombre d'arbres et les régions sont significatives ou purement aléatoires à

cause de l'échantillon expérimental? Entre d'autres termes, nous voulons savoir si le nombre

d'arbre dépend réellement des régions dans lesquelles ils poussent où si ces valeurs que ne

sont que dues au hasard de l'échantillon?

Pour répondre à cette question il faut d'abord une référence. Et cette référence est justement

l'hypothèse de lien causal direct (proportions respectées) que nous avons donné juste

précédemment.

Si nous considérons que chaque case du tableau des effectifs observés correspond à l'issue

d'une variable aléatoire de loi inconnue et que chaque cas du tableau théorique (du moins la

classe d'effectifs) est considéré comme issu d'une variable aléatoire suivant une loi binomiale

alors nous pouvons utiliser le test d'ajustement du Khi-2:

(57.73)

(cf. chapitre de Statistiques) pour avoir une bonne idée (mais qui reste quand même

approximative!) si les différences entre les valeurs des effectifs observés est dû au hasard ou

sont réels. Or, si D est petit, la probabilité que ce soit dû au hasard est grande mais si D est

grand alors nous avons une différence réelle (donc nous utilisons le test d'ajustement du Khi-2

mais dans le sens inverse!).

Reste à déterminer le nombre de dégrées de liberté de loi que suit cette somme dans ce

type de configuration!

Dans le cas particulier (mais facilement généralisable par récurrence) d'une table à deux entrées

avec deux variables catégorisées X avec lniveaux et Y avec c niveaux aura

respectivement l lignes et c colonnes.

Ainsi, la table aura bien évidemment cellules. La table des effectifs théoriques (dont

chaque cellule est considérée comme une variable aléatoire) aura chaque cellule entièrement

déterminée par la somme des autres tel que les degrés de liberté s'écriront alors en toute

logique comme nous l'avons vu dans le chapitre de Statistiques:

(57.74)

Par exemple, en prenant notre exemple des forêts, c'est le total de totaux de 272'650 qui nous

permet d'écrire cette dernière relation et ainsi de déterminer la valeur d'une cellule

éventuellement vide, toutes les autres étant données!

Un test du khi-2 sur ce type de table teste l'hypothèse d'indépendance contre l'hypothèse

alternative de dépendance. Sous l'hypothèse d'indépendance nous estimons qu'il ya besoin de

seulement:

(57.75)

valeurs sur les N pour pouvoir en déterminer la totalité (en supposant implicitement connues

les sommes par ligne et par colonne).

Ainsi, si vous avec une table de 2 lignes par 2 colonnes, il vous suffit si vous connaissez les

totaux des lignes et des colonnes, d'avoir 2 valeurs (soit (2-1)+(2-1)) pour déterminer les 2

manquantes. Le raisonnement s'applique aussi pour une table de 3 lignes par 3 colonnes où il

vous suffit d'avoir au moins 4 valeurs (soit (3-1)+(3-1)) pour déterminer les 5 manquantes.

Les degrés de liberté pour le khi-2 sont alors:

(57.76)

C'est cette relation qui nous dit (trivialement!) que si dans un tableau de 2 lignes par 2 colonnes

comprenant donc 4 cellules (totaux des lignes et colonnes étant aussi connus!) que étant

donnée une seule des valeurs (ddlvalant 1), nous pouvons déterminer les 3 autres valeurs

manquantes.

Voici donc une définition possible du nombre de degrés de libertés: C'est le nombre maximum

de valeurs du modèle telles qu'aucune d'entre elle n'est calculable à partir des autres.

De même, pour un tableau de 3 lignes par 3 colonnes comprenant 9 cellules comme c'est le cas

de notre exemple dans ce chapitre avec les forêts, la connaissance de 4 cellules seules permet

grâce aux totaux en ligne et colonnes de déterminer les 5 autres qui seraient éventuellement

non connues.

D'où la relation dans le cadre de l'application du khi-2 de la relation finale:

(57.77)

en faisant usage des notations utilisées dans l'industrie.

Dans le cadre de notre exemple nous avons:

(57.78)

et la p-value de cette valeur avec la loi du khi-2 à quatre degrés de liberté:

(57.79)

est tellement proche de zéro (non significatif) que nous avons aucune chance de nous tromper

en affirmant que les différences observées dans le tableau sont significatives entre les 3 forêts.

Nous obtenons un résultat similaire entre l'Oise et la Somme alors qu'avec l'AFC nous avons vu

que ces deux forêts se ressemblaient beaucoup.

Remarque: Dans la pratique il est souvent d'usage de prendre le p-value à 5% pour considérer la

probabilité attachée aux écarts observés comme significative ou non significative.

MÉTHODE DES DIFFÉRENCES FINIES

Dans le domaine des méthodes numériques, nous pouvons être amenés à rechercher la solution

d'une équation aux dérivées partielles. Parmi les méthodes de résolutions couramment

pratiquées, la méthode des différences finies ou M.D.F. est la plus facile d'accès, puisqu'elle

repose sur deux notions : la discrétisation des opérateurs de dérivation/différentiation (assez

intuitive) d'une part, et la convergence du schéma numérique ainsi obtenu d'autre part.

Prenons un exemple fameux (car très scolaire) qui n'est qu'un cas particulier et simpliste

d'application de la M.D.F.

Rappelons que nous avons démontré dans le chapitre de Thermodynamique l'équation de la

chaleur suivante (nous présentons ici cette équation réduite à une dimension spatiale):

(57.80)

et remarquons que cette équation n'est pas très générale... (elle n'est pas relativiste et ne prend

pas en compte la chaleur dégagée sous forme de rayonnement par le matériau considéré ni

plein d'autres facteurs....).

Nous pouvons considérer (cf. chapitre de Calcul Différentiel Et Intégral) que:

(57.81)

et:

(57.82)

De même:

(57.83)

L'équation de la chaleur devient alors:

(57.84)

Après réarrangement nous avons:

(57.85)

Si nous regardons cette relation de plus près, nous observons qu'il s'agit d'une simple

récursivité. Il suffit de connaître la distribution pour déterminer ensuite toutes les

autres valeurs puisque:

(57.86)

et :

(57.87)

etc. Il est possible de mettre en oeuvre une telle simulation rien qu'avec un petit tableau et un

peu de temps... hest appelé alors le "pas de maillage" du modèle.

Pour le lecteur souhaitant s'entraîner.... une barre de Fer longitudinale de 1 kilogramme a une

capacité calorifique massique de , une densité de et sa

conductivité thermique est de .

commentaires (0)
Aucun commentaire n'a été pas fait
Écrire ton premier commentaire
Ceci c'est un aperçu avant impression
Chercher dans l'extrait du document
Docsity n'est pas optimisée pour le navigateur que vous utilisez. Passez à Google Chrome, Firefox, Internet Explorer ou Safari 9+! Téléchargez Google Chrome