




























































































Besser lernen dank der zahlreichen Ressourcen auf Docsity
Heimse Punkte ein, indem du anderen Studierenden hilfst oder erwirb Punkte mit einem Premium-Abo
Prüfungen vorbereiten
Besser lernen dank der zahlreichen Ressourcen auf Docsity
Download-Punkte bekommen.
Heimse Punkte ein, indem du anderen Studierenden hilfst oder erwirb Punkte mit einem Premium-Abo
Community
Finde heraus, welche laut den Docsity-Nutzern die besten Unis deines Landes sind
Kostenlose Leitfäden
Lade unsere Leitfäden mit Lernmethoden, Hilfen zur Angstbewältigung und von Docsity-Tutoren erstellte Tipps zum Verfassen von Haus- und Abschlussarbeiten kostenlos herunter
Ein Ziel der Statistik ist, in diesen Fällen klare Aussagen zu machen. Betrachten wir ein Beispiel. Vor der Fussball Weltmeisterschaft 2010 wurden Panini- ...
Art: Übungen
1 / 107
Diese Seite wird in der Vorschau nicht angezeigt
Lass dir nichts Wichtiges entgehen!
INHALTSVERZEICHNIS v
Dieses Skript basiert weitestgehend auf Vorlagen, die Markus Kalisch, Lukas Meier, Peter B¨uhlmann und Hansruedi K¨unsch f¨ur ihre Vorlesungen f¨ur die Studieng¨ange Biologie, Phar- mazeutische Wissenschaften, Umweltnaturwissenschaften und Bauingenieurwissenschaften ver- wendet haben. Das erkl¨art, weshalb fast alle Beispiele im Skript aus diesen Bereichen stammen. Ich, Alain Hauser, m¨ochte den Autoren an dieser Stelle meinen herzlichen Dank aussprechen, ihre in langen Jahren ausgearbeiteten Unterlagen verwenden zu d¨urfen.
Die Vorlesung behandelt zuerst die Wahrscheinlichkeitsrechnung und Statistik f¨ur diskrete Va- riablen, welche Werte zum Beispiel in { 0 , 1 }, in N 0 = { 0 , 1 , 2 ,.. .} oder in Z = {... , − 1 , 0 , 1 ,.. .} annehmen.
Danach werden die erarbeiteten Konzepte auf stetige Variablen ¨ubertragen, mit Wertebereichen zum Beispiel in R oder [0, 1]. Deshalb ist der Aufbau leicht repetitiv, was sich aber in vorigen Jahren gut bew¨ahrt hat.
Schlussendlich wird auf komplexere Modellierung anhand der Regressions-Analyse eingegangen.
F¨ur weitere Erl¨auterungen verweisen wir jeweils auf das folgende Buch: Werner A. Stahel, Statistische Datenanalyse. Eine Einf¨uhrung f¨ur Naturwissenschaftler. 4. Aufl. (2002), Vieweg, Braunschweig.
Manchmal erkl¨aren wir die grundlegenden Begriffe auch an Hand von Gl¨ucksspielen, obwohl wir wissen, dass Sie nicht speziell an solchen interessiert sind. Es gibt dort einfach weniger Verst¨andnis- und Interpretationsprobleme als bei anderen Beispielen. Wir hoffen auf Ihr Verst¨andnis.
Statistik ist die Lehre vom Umgang mit quantitativen Daten. Oft verschleiern Zufall oder Un- sicherheiten einen Sachverhalt. Ein Ziel der Statistik ist, in diesen F¨allen klare Aussagen zu machen.
Betrachten wir ein Beispiel. Vor der Fussball Weltmeisterschaft 2010 wurden Panini-Sammelalben f¨ur 661 verschiedene Aufkleber von Fussballstars und -stadien verkauft. Jedes Bild hat eine Num- mer von 1 bis 661 auf der R¨uckseite. Die Aufkleber gab es entweder in einzelnen 5er Packs oder in ganzen Kisten mit hundert 5er Packs zu kaufen. Gem¨ass Panini sind alle Bilder gleich h¨aufig und werden wohl zuf¨allig auf die T¨uten verteilt.
In den letzten Jahren hatten Kollegen von mir den Eindruck, dass man ¨uberraschend wenige doppelte Bilder hat, wenn man nicht einzelne 5er Packs sondern eine ganze Kiste mit hundert 5er Packs kauft. Sind die Bilder in einer Kiste vielleicht nicht zuf¨allig verteilt worden? Bei der Fussball Weltmeisterschaft 2010 wollte ich diese Vermutung pr¨ufen. Ich habe eine Kiste mit hundert 5er Packs gekaufte (500 Bilder) und alle in ein leeres Album geklebt. Ich konnte 477 Bilder einkleben, der Rest waren doppelte Bilder. Sind das nun “¨uberraschend wenige doppelte” oder nicht? Ist es also billiger eine Kiste statt einzelne 5er Packs zu kaufen? Mit der Intuition ist diese Frage praktisch nicht zu beantworten, aber die Statistik liefert eine L¨osung.
Angenommen, die Bilder werden tats¨achlich zuf¨allig auf die T¨uten verteilt. Ist es plausibel, dass man unter 500 Bildern 477 oder mehr Bilder hat, die nur einmal vorkommen? Anders gefragt: Wie wahrscheinlich ist es, dass man mit zuf¨alligem Eint¨uten 477 oder noch mehr aus 500 Bildern in ein leeres Album einkleben kann? Wenn diese Wahrscheinlichkeit sehr klein ist (kleiner als eine von uns festgelegte Grenze, z.B. eins zu einer Million = 10−^6 ), dann sind die Bilder wohl nicht zuf¨allig einget¨utet worden.
Nun, probieren wir es einfach aus! Mit dem Computer habe ich 500 Zahlen zuf¨allig aus der Menge 1,...,661 mit Zur¨ucklegen gezogen (jede Zahl steht f¨ur ein Panini-Bild; jedes Bild kann mehrfach gezogen werden). Dabei hatte ich 350 Zahlen, die nur einmal vorkommen. In diesem zuf¨allig gef¨ullten fiktiven Album h¨atte ich also nur 350 einfache Bilder einkleben k¨onnen. Das ist weniger als die beobachteten 477 Bilder, aber vielleicht k¨onnte ich ja bei dem n¨achsten zuf¨allig gef¨ullten Album viel mehr Bilder einkleben.
Um herauszufinden, ob 477 einfache Bilder durch Zufall entstehen k¨onnen, muss ich also noch mehr fiktive Alben f¨ullen. Mit dem Computer habe ich eine Million fiktive Alben zuf¨allig gef¨ullt. Die gr¨osste Anzahl einfacher Bilder war dabei 387. Falls die Bilder wirklich zuf¨allig einget¨utet
1
2 Einf¨uhrung (Stahel, Kap. 1)
werden, ist die Wahrscheinlichkeit mit einer Kiste mehr als 387 eingeklebte Bilder zu haben also kleiner als 10−^6.
Das l¨asst folgenden Schluss zu: Wenn ich ein Album mit 500 zuf¨allig ausgew¨ahlten Bildern f¨ullen w¨urde, k¨onnte ich nicht mal in einer Million Alben so viele Bilder einkleben, wie ich in Realit¨at beobachtet habe. Anders gesagt: In einer Welt, in der die Panini-Bilder zuf¨allig verteilt werden, ist die Wahrscheinlichkeit 477 oder mehr einfache Bilder in einer Kiste zu finden also kleiner als eine Million. Die Hypothese “Die 500 Bilder werden zuf¨allig verteilt” und die Beobachtung “Ich konnte 477 Bilder einkleben” passen also nicht zusammen. Die Hypothese wird deshalb verworfen: Die Panini-Bilder werden nicht zuf¨allig einget¨utet und es scheint vorteilhaft zu sein eine ganze Kiste zu kaufen.
In der Statistik ist das eben geschilderte Vorgehen fundamental und wird Hypothesentest genannt. Ein Hypothesentest besteht aus sechs Schritten:
Manchmal wird eine kleine Variante des obigen Verfahrens verwendet. Man berechnet den P- Wert: Angenommen die Nullhypothese stimmt. Wie wahrscheinlich ist es eine Teststatistik zu beobachten, die mindestens so extrem ist wie die beobachtete Teststatistik? Die Antwort liefert der P-Wert. (Wie wahrscheinlich ist es, in meiner Computersimulation 477 oder mehr einfache Bilder zu erhalten? Ich habe es in einer Million Simulationen kein einziges Mal beobachtet. Also ist die Wahrscheinlichkeit sicher^3 kleiner als 10000001 = 10−^6. Also ist p < 10 −^6 .) Der P-Wert
(^1) Die Namensgebung ist eher Konvention und macht f¨ur Sie im Augenblick wohl wenig Sinn. Oft wird ein Medikament getestet. Die Hypothese ist, dass das Medikament gar nicht wirkt. Der Effekt des Medikaments ist also Null. Daher wird die Hypothese dann “Nullhypothese” genannt. Dieser Sprachgebrauch hat sich auch in anderen Bereichen durchgesetzt. (^2) Ich habe mich hier f¨ur einen einseitigen Test entschieden; es gibt auch zweiseitige Tests. Sp¨ater erfahren Sie mehr dar¨uber. (^3) F¨ur diejenigen, die es ganz genau wissen wollen: Da wir die Wahrscheinlichkeit mit einer Computersimulation ermittelt haben, stimmt das Ergebnis nur approximativ. In unserem Fall ist der Unterschied aber so deutlich, dass das keine praktische Rolle spielt.
4 Einf¨uhrung (Stahel, Kap. 1)
Wir werden die Statistiksoftware R verwenden. Sie ist in den Computerr¨aumen installiert. Sie k¨onnen sie auch kostenlos f¨ur Ihren Heimcomputer beziehen: www.r-project.org. Unter Ma- nuals finden Sie dort auch die Einf¨uhrung An Introduction to R, die ich sehr empfehlen kann. Andere weit verbreitete Statistikprogramme sind SPSS und SAS. Alle Methoden, die wir in diesem Kurs besprechen sind in jeder g¨angigen Statistiksoftware implementiert. In den ersten Wochen des Semesters wird es eine Computereinf¨uhrung geben.
Ein gutes Begleitbuch in deutscher Sprache ist “Statistische Datenanalyse” von W. Stahel im Vieweg Verlag. Ein ausgezeichnetes Buch in englischer Sprache ist “Mathematical Statistics and Data Analysis” von John A. Rice. Inzwischen sind auch die Eintr¨age in Wikipedia brauchbar und vor allem meist gut verst¨andlich. Wenn Sie M¨uhe haben eine Methode zu verstehen, schlage ich Ihnen vor, den Begriff in Wikipedia nachzulesen.
4.1, 4.2)
Die Wahrscheinlichkeitsrechnung befasst sich mit Zufallsexperimenten. Bei einem Zufalls- experiment ist der Ausgang nicht (exakt) vorhersagbar. Zudem erhalten wir unter “gleichen Versuchsbedingungen” jeweils verschiedene Ergebnisse.
F¨ur einfache Beispiele greift man oft auf Gl¨ucksspiele wie z.B. W¨urfel oder Roulette zur¨uck. Es ist uns bewusst, dass diese nichts mit ihrem Fachgebiet zu tun haben. Oft eignen sie sich aber f¨ur kurze Illustrationen, insbesondere jetzt am Anfang. Daher erlauben wir uns, diese ab und zu zu verwenden.
Wenn man z.B. die Druckfestigkeit von Beton misst, ist dies auch ein Zufallsexperiment. Die Messung enth¨alt einen Messfehler und zudem gibt es sicher eine (kleine) Variation von Pr¨ufk¨orper zu Pr¨ufk¨orper. Von einer Serie von 10 Pr¨ufk¨orpern aus der gleichen Produktion werden wir also f¨ur jeden Pr¨ufk¨orper einen (leicht) anderen Wert erhalten.
Um richtig loslegen zu k¨onnen, m¨ussen wir am Anfang viele Begriffe neu einf¨uhren. Wir werden versuchen, so wenig wie m¨oglich “abstrakt” zu behandeln (aber so viel wie n¨otig) und hoffen, dass diese Durststrecke ertr¨aglich kurz bleibt.
5
2.1 Grundbegriffe der Wahrscheinlichkeitsrechnung (Stahel, Kap. 4.1, 4.2) 7
Alle diese Begriffe, Operationen und Regeln lassen sich einfach mit sogenannten Venn-Diagrammen illustrieren, siehe Abbildung 2.1.
Abbildung 2.1: Illustration der Operationen der Mengenlehre an Venn-Diagrammen: A ∩ B, A ∪ B, Ac^ und A \ B jeweils entsprechend markiert (von links nach rechts).
Beispiel: Sei A das Ereignis “Stahltr¨ager 1 hat strukturelle M¨angel” und B das entsprechende Ereignis bei Stahltr¨ager 2. Das Ereignis A ∪ B bedeutet dann: “Mindestens einer der beiden Stahltr¨ager hat strukturelle M¨angel” (dies beinhaltet die M¨oglichkeit, dass beide M¨angel haben). Die Schnittmenge A ∩ B ist das Ereignis “Beide Stahltr¨ager haben strukturelle M¨angel”, Ac bedeutet, dass Stahltr¨ager 1 keine M¨angel aufweist, etc.
Bis jetzt haben wir zwar teilweise schon den Begriff “Wahrscheinlichkeit” verwendet, diesen aber noch nicht spezifiziert.
Wir kennen also den Grundraum Ω bestehend aus Elementarereignissen ω und m¨ogliche Ereig- nisse A, B, C,... Jetzt wollen wir einem Ereignis aber noch eine Wahrscheinlichkeit zuordnen und schauen, wie man mit Wahrscheinlichkeiten rechnen muss.
F¨ur ein Ereignis A bezeichnen wir mit P (A) die Wahrscheinlichkeit, dass das Ereignis A eintritt (d.h. dass der Ausgang w des Zufallsexperiments in der Menge A liegt). Bei einem Wurf mit einer fairen M¨unze w¨are f¨ur A=“M¨unze zeigt Kopf” also P (A) = 0.5.
Es m¨ussen die folgenden Rechenregeln (die sogenannten Axiome der Wahrscheinlichkeitsrech- nung von Kolmogorov) erf¨ullt sein.
Axiome der Wahrscheinlichkeitsrechnung (Kolmogorov)
(A3) P (A ∪ B) = P (A) + P (B) f¨ur alle Ereignisse A, B die sich gegenseitig ausschlies- sen (d.h. A ∩ B = ∅).
(A1) bedeutet, dass Wahrscheinlichkeiten immer zwischen 0 und 1 liegen und (A2) besagt, dass das sichere Ereignis Ω Wahrscheinlichkeit 1 hat.
Weitere Rechenregeln werden daraus abgeleitet, z.B.
P (Ac) = 1 − P (A) f¨ur jedes Ereignis A (2.1) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) f¨ur je zwei Ereignisse A und B (2.2) P (A 1 ∪... ∪ An) ≤ P (A 1 ) +... + P (An) f¨ur je n Ereignisse A 1 ,... , An (2.3) P (B) ≤ P (A) f¨ur je zwei Ereignisse A und B mit B ⊆ A (2.4) P (A \ B) = P (A) − P (B) f¨ur je zwei Ereignisse A und B mit B ⊆ A (2.5)
8 Modelle f¨ur Z¨ahldaten
Wenn man sich Wahrscheinlichkeiten als Fl¨achen im Venn-Diagramm vorstellt (die Totalfl¨ache von Ω ist 1), so erscheinen diese Rechenregeln ganz nat¨urlich. Verifizieren sie dies als ¨Ubung f¨ur alle obigen Regeln.
Interpretation von Wahrscheinlichkeiten
Wir haben gesehen, welche Rechenregeln Wahrscheinlichkeiten erf¨ullen m¨ussen. Doch wie inter- pretiert man eine Wahrscheinlichkeit ¨uberhaupt? Die beiden wichtigsten Interpretationen sind die “Idealisierung der relativen H¨aufigkeit bei vielen unabh¨angigen Wiederholungen” (die soge- nannte frequentistische Interpretation) und das (subjektive) “Mass f¨ur den Glauben, dass ein Ereignis eintreten wird” (die sogenannte bayes’sche Interpretation).
Zur frequentistischen Interpretation: Wenn ein Ereignis A eines Zufallsexperiments Wahrscheinlichkeit 1/2 hat, so werden wir bei vie- len unabh¨angigen Wiederholungen des Experiments bei ca. der H¨alfte der F¨alle sehen, dass das Ereignis eingetreten ist (eine mathematische Definition f¨ur Unabh¨angigkeit werden wir sp¨ater sehen). F¨ur eine unendliche Anzahl Wiederholungen w¨urden wir exakt 1/2 erreichen. Man denke z.B. an den Wurf mit einer M¨unze. Wenn man die M¨unze sehr oft wirft, so wird die relative H¨aufigkeit von “Kopf” nahe bei 1/2 liegen, siehe Abbildung 2.2. Die frequentistische Interpre- tation geht also insbesondere von einer Wiederholbarkeit des Zufallsexperiments aus.
Etwas formeller: Sei fn(A) die relative H¨aufigkeit des Auftretens des Ereignisses A in n un- abh¨angigen Experimenten. Dieses Mass fn(·) basiert auf Daten oder Beobachtungen. Falls n gross wird, so gilt
fn(A) n→∞ −→ P (A).
Man beachte, dass P (A) also ein theoretisches Mass in einem Modell ist (wo keine Experimente oder Daten vorliegen).
0 50 100 150 200 250 300
n
f^ (n
Abbildung 2.2: Relative H¨aufigkeiten fn(A) f¨ur das Ereignis A=“M¨unze zeigt Kopf” beim Wurf mit einer M¨unze in Abh¨angigkeit der Anzahl W¨urfe n.
Zur bayes’schen Interpretation: Hier ist P (A) ein Mass f¨ur den Glauben, dass ein Ereignis eintreten wird. Sie vermuten zum Beispiel, dass mit Wahrscheinlichkeit 15% auf ihrem Grundst¨uck ¨Olvorr¨ate vorhanden sind. Dies
10 Modelle f¨ur Z¨ahldaten
Dies kennen sie vermutlich aus der Mittelschule. Dort bestand dann die Wahrscheinlichkeitsrech- nung oft darin, durch (m¨uhsames) Abz¨ahlen die Anzahl g¨unstiger F¨alle zu bestimmen. Wie wir aber sehen werden, geht die Wahrscheinlichkeitsrechnung weit ¨uber das Laplace-Modell hinaus. Insbesondere ist das Laplace-Modell f¨ur viele Anwendungen ungeeignet. Beispiel: M¨unzwurf. F¨ur die Elementarereignisse haben wir also
F¨ur das Ereignis A = {KZ, ZK} (genau 1 Mal Kopf) gilt demnach
Wenn man die Wahrscheinlichkeiten P (A) und P (B) kennt, so k¨onnen wir nur aus diesen An- gaben allein die Wahrscheinlichkeit P (A ∩ B) im Allgemeinen nicht berechnen (siehe Venn- Diagramm!). Es kann z.B. sein, dass die Schnittmenge die leere Menge ist oder dass B ganz in A liegt bzw. umgekehrt. Wir sehen anhand der einzelnen Wahrscheinlichkeiten P (A) und P (B) also nicht, was f¨ur eine Situation vorliegt und k¨onnen damit P (A ∩ B) nicht berechnen.
Ein Ausnahme bildet der Fall, wenn folgende Produktformel gilt
P (A ∩ B) = P (A)P (B).
Man nennt dann A und B (stochastisch) unabh¨angig.
Man multipliziert in diesem Fall einfach die Wahrscheinlichkeiten. Wenn also A mit Wahrschein- lichkeit 1/3 eintritt und B mit Wahrscheinlichkeit 1/6, dann sehen wir sowohl A wie auch B (also A∩B) mit Wahrscheinlichkeit 1/18, wenn die Ereignisse unabh¨angig sind. Bei einer grossen Population (n gross) “sammeln” wir also zuerst alle F¨alle, bei denen A eintritt (ca. 1/3) und davon nochmals diejenigen, bei denen B eintritt (ca. 1/6) und haben am Schluss so noch ca. 1 /18 der urspr¨unglichen F¨alle. Das Ereignis B “k¨ummert es also nicht”, ob A schon eingetroffen ist oder nicht, die Wahrscheinlichkeit 1/6 bleibt. Dies muss nicht immer der Fall sein, siehe auch das Beispiel unten.
Typischerweise wird die Unabh¨angigkeit basierend auf physikalischen und technischen ¨Uberlegungen postuliert, indem man verifiziert, dass zwischen zwei Ereignissen A und B kein kausaler Zusam- menhang besteht (d.h. es gibt keine gemeinsamen Ursachen oder Ausschliessungen).
Achtung: Unabh¨angige Ereignisse sind nicht disjunkt und disjunkte Ereignisse sind nicht un- abh¨angig (ausser wenn ein Ereignis Wahrscheinlichkeit 0 hat). Unabh¨angigkeit h¨angt ab von den Wahrscheinlichkeiten, w¨ahrend Disjunktheit nur ein mengentheoretischer Begriff ist.
Beispiel: Ein Ger¨at bestehe aus zwei Bauteilen und funktioniere, solange mindestens eines der beiden Bauteile noch in Ordnung ist. A 1 und A 2 seien die Ereignisse, dass Bauteil 1 bzw. Bauteil 2 defekt sind mit entsprechenden Wahrscheinlichkeiten P (A 1 ) = 1/100 und P (A 2 ) = 1/100. Wir wollen zudem davon ausgehen, dass die beiden Ereignisse A 1 und A 2 unabh¨angig voneinander sind.
Die Ausfallwahrscheinlichkeit f¨ur das Ger¨at ist also wegen der Unabh¨angigkeit gegeben durch
2.4 Bedingte Wahrscheinlichkeiten (Stahel, Kap. 4.7) 11
Wir sehen also, dass durch die Annahme der Unabh¨angigkeit eine kleine Ausfallwahrscheinlich- keit resultiert. Wenn in Tat und Wahrheit in obigem Beispiel aufgrund eines Ausfalls des einen Bauteils das andere Bauteil auch gerade ausf¨allt (also ist die Unabh¨angigkeit nicht mehr gege- ben), dann steigt die Ausfallwahrscheinlichkeit des Ger¨ats auf 1/100 (da in diesem Fall A 1 = A 2 und somit A 1 ∩ A 2 = A 1 = A 2 )!
Wenn man also Ausfallwahrscheinlichkeiten unter der Annahme von Unabh¨angigkeit berechnet, aber diese in der Realit¨at nicht erf¨ullt ist, so ist das Resultat oft um einige Gr¨ossenordnungen zu klein!
Der Begriff der Unabh¨angigkeit kann auch auf mehrere Ereignisse erweitert werden: Die n Er- eignisse A 1 ,... An heissen unabh¨angig, wenn f¨ur jedes k ≤ n und alle 1 ≤ i 1 <... < ik ≤ n gilt P (Ai 1 )∩...∩Aik = P (Ai 1 ) · · · P (Aik ).
Dies bedeutet nichts anderes, als dass die entsprechende Produktformel f¨ur alle k-Tupel von Ereignissen gelten muss.
Wenn zwei Ereignisse nicht unabh¨angig sind, k¨onnen wir also durch das (Nicht-) Eintreten des einen Ereignisses etwas ¨uber das andere aussagen (oder “lernen”).
Beispiel: Eine Konstruktion besteht aus zwei Stahltr¨agern. A priori nehmen wir an, dass ein Tr¨ager mit einer gewissen Wahrscheinlichkeit Korrosionssch¨aden aufweist. Wenn wir jetzt aber wissen, dass der erste Stahltr¨ager Korrosionssch¨aden hat, werden wir vermutlich annehmen, dass in diesem Falle der zweite Tr¨ager eher auch betroffen ist (da sie aus der selben Produktion stam- men und den gleichen Witterungsbedingungen ausgesetzt waren etc.). Die Wahrscheinlichkeit f¨ur den zweiten Tr¨ager (dessen Zustand wir noch nicht kennen) w¨urden wir also nach Erhalt der Information ¨uber den ersten Tr¨ager h¨oher einsch¨atzen als urspr¨unglich.
Dies f¨uhrt zum Konzept der bedingten Wahrscheinlichkeiten. Diese treten zum Beispiel dann auf, wenn ein Zufallsexperiment aus verschiedenen Stufen besteht und man sukzessive das Re- sultat der entsprechenden Stufen erf¨ahrt. Oder salopper: “Die Karten (die Unsicherheit) werden sukzessive aufgedeckt”.
Die bedingte Wahrscheinlichkeit von A gegeben B ist definiert als
P (A | B) =
Die Interpretation ist folgendermassen: “P (A | B) ist die Wahrscheinlichkeit f¨ur das Ereignis A, wenn wir wissen, dass das Ereignis B schon eingetroffen ist”.
Wie kann man die Formel verstehen? Da wir wissen, dass B schon eingetreten ist (wir haben also einen neuen Grundraum Ω′^ = B), m¨ussen wir von A nur noch denjenigen Teil anschauen, der sich in B abspielt (daher A ∩ B). Dies m¨ussen wir jetzt noch in Relation zur Wahrscheinlichkeit von B bringen: die Normierung mit P (B) sorgt gerade daf¨ur, dass P (Ω′) = P (B) = 1. Dies ist auch in Abbildung 2.3 illustriert. Wenn man wieder mit Fl¨achen denkt, dann ist die bedingte Wahrscheinlichkeit P (A | B) der Anteil der schraffierten Fl¨ache an der Fl¨ache von B.
Bemerkung: In der Definition sind wir stillschweigend davon ausgegangen, dass P (B) > 0 gilt.
Beispiel: W¨urfel. Was ist die Wahrscheinlichkeit, eine 6 zu w¨urfeln? Offensichtlich 1/6! Was ist die Wahrschein- lichkeit, eine 6 zu haben, wenn wir wissen, dass eine gerade Zahl gew¨urfelt wurde?
2.4 Bedingte Wahrscheinlichkeiten (Stahel, Kap. 4.7) 13
fall
P (A | B) 6 = P (B | A) P (A | Bc) 6 = 1 − P (A | B).
Man kann also bedingte Wahrscheinlichkeiten in der Regel nicht einfach “umkehren” (erste Gleichung). Dies ist auch gut in Abbildung 2.3 ersichtlich. P (A | B) ist dort viel gr¨osser als P (B | A).
Wie wir in (2.6) gesehen haben, kann man
P (A ∩ B) = P (A | B)P (B)
schreiben, d.h. P (A ∩ B) ist bestimmt durch P (A | B) und P (B). In vielen Anwendungen wird dieser Weg beschritten. Man legt die Wahrscheinlichkeiten f¨ur die erste Stufe P (B) und die bedingten Wahrscheinlichkeiten P (A | B) und P (A | Bc) f¨ur die zweite Stufe gegeben die erste fest (aufgrund von Daten, Plausibilit¨at und subjektiven Einsch¨atzungen). Dann lassen sich die ¨ubrigen Wahrscheinlichkeiten berechnen.
Beispiel: Es sei z.B. A = “Ein Unfall passiert” und B = “Strasse ist nass”. Wir nehmen an, dass wir folgendes kennen
P (A | B) = 0. 01 P (A | Bc) = 0. 001 P (B) = 0. 2.
Mit den Rechenregeln f¨ur Wahrscheinlichkeiten erhalten wir P (Bc) = 1 − P (B) = 0.8. K¨onnen wir damit die Wahrscheinlichkeit f¨ur A bestimmen? Wir k¨onnen A schreiben als disjunkte Ver- einigung (siehe Venn-Diagramm)
A = (A ∩ B) ∪ (A ∩ Bc).
Daher haben wir
P (A) = P (A ∩ B) + P (A ∩ Bc) = P (A | B)P (B) + P (A | Bc)P (Bc) = 0. 01 · 0 .2 + 0. 001 · 0. 8.
Dies ergibt P (A) = 0.0028. Mit der Wahrscheinlichkeit von B und den bedingten Wahrschein- lichkeiten von A gegeben B bzw. Bc^ k¨onnen wir also die Wahrscheinlichkeit von A berechnen.
Wir schauen also in den einzelnen Situationen (B bzw. Bc), was die bedingte Wahrscheinlichkeit f¨ur A ist und gewichten diese mit den entsprechenden Wahrscheinlichkeiten P (B) bzw. P (Bc).
Dieses Vorgehen wird besonders anschaulich, wenn man das Zufallsexperiment als sogenannten Wahrscheinlichkeitsbaum darstellt, siehe Abbildung 2.4. In jeder Verzweigung ist die Summe der (bedingten) Wahrscheinlichkeiten jeweils 1. Um die Wahrscheinlichkeit f¨ur eine spezifische “Kombination” (z.B. Ac^ ∩ B) zu erhalten, muss man einfach dem entsprechenden Pfad ent- lang “durchmultiplizieren”. Um die Wahrscheinlichkeit von A zu erhalten, muss man alle Pfade betrachten, die A enthalten und die entsprechenden Wahrscheinlichkeiten aufsummieren.
Diese Aufteilung in verschiedene sich gegenseitig ausschliessende Situationen (B, Bc) funktio- niert noch viel allgemeiner und f¨uhrt zum Satz der totalen Wahrscheinlichkeit.
14 Modelle f¨ur Z¨ahldaten
P (Ac^ ∩ Bc) = 0. 8 · 0. 999
Ac (^) | Bc (^0). 999
P (A ∩ Bc) = 0. 8 · 0. 001 A^ |^ B
c
0.^001
Bc (^0). 8
P (Ac^ ∩ B) = 0. 2 · 0. 99
Ac (^) | B (^0). 99
A^ |^ B 0.^01
Abbildung 2.4: Wahrscheinlichkeitsbaum.
Satz der totalen Wahrscheinlichkeit
Wir nehmen an, dass wir k disjunkte Ereignisse B 1 ,... , Bk haben mit
B 1 ∪... ∪ Bk = Ω (“alle m¨oglichen F¨alle sind abgedeckt”)
Dann gilt
P (A) (A3) =
∑^ k
i=
P (A ∩ Bi) (2.6) =
∑^ k
i=
P (A | Bi)P (Bi).
Dies ist genau gleich wie beim einf¨uhrenden Beispiel mit der Strasse und den Unf¨allen (dort hatten wir B 1 = B und B 2 = Bc). Wir haben jetzt einfach k verschiedene “Verzweigungen”. Wenn wir also die (bedingte) Wahrscheinlichkeit von A in jeder Situation Bi wissen, dann ist die Wahrscheinlichkeit von A einfach deren gewichtete Summe, wobei die Gewichte durch P (Bi) gegeben sind.
B 1 ,... , Bk heisst auch Partitionierung von Ω. Sie deckt alle m¨oglichen F¨alle ab und zwei Ereignisse Bi und Bj k¨onnen nicht zusammen eintreten. Ein Illustration einer Partitionierung findet man in Abbildung 2.5.
Manchmal will man die bedingten Wahrscheinlichkeiten auch “umkehren”. Sie haben z.B. ein technisches Verfahren entwickelt, um Haarrisse in Oberfl¨achen zu detektieren. Wir betrachten folgende Ereignisse
A = “Technisches Verfahren indiziert, dass Risse da sind” B 1 = “Oberfl¨ache weist in der Tat Haarrisse auf” B 2 = Bc 1 = “Oberfl¨ache weist in der Tat keine Haarrisse auf”
Das Verfahren arbeitet nicht ganz fehlerfrei, die Fehlerquote ist aber (auf den ersten Blick) relativ tief (fiktive Zahlen):
P (A | B 1 ) = 0. 99 P (A | B 2 ) = 0. 03
Zudem nehmen wir an, dass gilt P (B 1 ) = 0. 001.