Docsity
Docsity

Prüfungen vorbereiten
Prüfungen vorbereiten

Besser lernen dank der zahlreichen Ressourcen auf Docsity


Download-Punkte bekommen.
Download-Punkte bekommen.

Heimse Punkte ein, indem du anderen Studierenden hilfst oder erwirb Punkte mit einem Premium-Abo


Leitfäden und Tipps
Leitfäden und Tipps

Einführung Statistik, Übungen von Statistik

Ein Ziel der Statistik ist, in diesen Fällen klare Aussagen zu machen. Betrachten wir ein Beispiel. Vor der Fussball Weltmeisterschaft 2010 wurden Panini- ...

Art: Übungen

2021/2022

Hochgeladen am 29.06.2022

anHuber
anHuber 🇦🇹

4.5

(7)

10 dokumente

1 / 107

Toggle sidebar

Diese Seite wird in der Vorschau nicht angezeigt

Lass dir nichts Wichtiges entgehen!

bg1
Einf¨
uhrung Statistik
Weiterbildungs-Lehrgang 2015–2017
Markus Kalisch,Lukas Meier,Peter B¨
uhlmann,Hansruedi K¨
unsch
und Alain Hauser
April 2015
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Unvollständige Textvorschau

Nur auf Docsity: Lade Einführung Statistik und mehr Übungen als PDF für Statistik herunter!

Einf¨uhrung Statistik

Weiterbildungs-Lehrgang 2015–

Markus Kalisch, Lukas Meier, Peter B¨uhlmann, Hansruedi K¨unsch

und Alain Hauser

April 2015

  • 1 Einf¨uhrung (Stahel, Kap. 1)
    • 1.1 Was ist Statistik?
    • 1.2 Was ist der Inhalt dieses Kurses?
    • 1.3 Software
    • 1.4 Literatur
  • 2 Modelle f¨ur Z¨ahldaten
    • 2.1 Grundbegriffe der Wahrscheinlichkeitsrechnung (Stahel, Kap. 4.1, 4.2)
    • 2.2 Diskrete Wahrscheinlichkeitsmodelle
    • 2.3 Unabh¨angigkeit von Ereignissen
    • 2.4 Bedingte Wahrscheinlichkeiten (Stahel, Kap. 4.7)
      • 2.4.1 Satz der totalen Wahrscheinlichkeit und Satz von Bayes
    • 2.5 Zufallsvariable (Stahel, Kap. 4.3, 4.4)
    • 2.6 Binomialverteilung (Stahel Kap. 5.1)
    • 2.7 Kennzahlen einer Verteilung (Stahel Kap. 5.3)
      • 2.7.1 Kumulative Verteilungsfunktion
    • 2.8 Poissonverteilung (Stahel Kap. 5.2)
      • 2.8.1 Poisson-Approximation der Binomial-Verteilung
      • 2.8.2 Summen von Poisson-verteilten Zufallsvariablen
    • 2.9 Software
  • 3 Statistik f¨ur Z¨ahldaten
    • 3.1 Drei Grundfragestellungen der Statistik (Stahel Kap. 7.1)
      • hel Kap. 7.2, 8.2, 9.1, 9.2) 3.2 Sch¨atzung, statistischer Test und Vertrauensintervall bei Binomial-Verteilung (Sta-
      • 3.2.1 (Punkt-)Sch¨atzung
      • 3.2.2 Statistischer Test
      • 3.2.3 Vertrauensintervall
    • 3.3 Software
  • 4 Modelle und Statistik f¨ur Messdaten
    • 4.1 Lernziele
    • 4.2 Einleitung
    • 4.3 Deskriptive Statistik (Stahel, Kap. 2 und 3.1, 3.2)
      • 4.3.1 Kennzahlen
      • 4.3.2 Grafische Methoden
      • 4.3.3 Analogien zwischen Modellen und Daten
      • 6.4, 11.2) 4.4 Stetige Zufallsvariablen und Wahrscheinlichkeitsverteilungen (Stahel, Kap. 6.1 –
      • 4.4.1 (Wahrscheinlichkeits-)Dichte
      • 4.4.2 Kennzahlen von stetigen Verteilungen
    • 4.5 Wichtige stetige Verteilungen (Stahel, Kap. 6.2, 6.4, 6.5, 11.2) iv INHALTSVERZEICHNIS
      • 4.5.1 Uniforme Verteilung
      • 4.5.2 Exponential-Verteilung
      • 4.5.3 Normal-Verteilung (Gauss-Verteilung)
      • 4.5.4 Funktionen einer Zufallsvariable
      • 4.5.5 Uberpr¨¨ ufen der Normalverteilungs-Annahme
      • (Stahel, Kap. 6.8 – 6.11) 4.6 Funktionen von mehreren Zufallsvariablen
      • 4.6.1 Unabh¨angigkeit und i.i.d. Annahme
      • 4.6.2 Kennzahlen und Verteilung von Xn
      • 4.6.3 Verletzung der Unabh¨angigkeit
    • 4.7 Statistik f¨ur eine Stichprobe (Stahel, Kap. 8.3 – 8.5, 9.3)
      • 4.7.1 (Punkt-) Sch¨atzungen
      • 4.7.2 Tests f¨ur μ
      • 4.7.3 Vertrauensintervall f¨ur μ
      • 4.7.4 Tests f¨ur μ bei nicht-normalverteilten Daten
    • 4.8 Tests bei zwei Stichproben (Stahel, Kap. 8.8)
      • 4.8.1 Gepaarte Stichprobe
      • 4.8.2 Ungepaarte Stichproben
      • 4.8.3 Weitere Zwei-Stichproben-Tests bei ungepaarten Stichproben
    • 4.9 Versuchsplanung (Stahel, Kap. 14.1 - 14.2)
    • 4.10 Software
      • 4.10.1 Verschiedenes
      • 4.10.2 Zwei-Stichproben t-Test f¨ur ungepaarte Stichproben
      • 4.10.3 Zwei-Stichproben t-Test f¨ur gepaarte Stichproben
      • 4.10.4 t-Test f¨ur eine Stichprobe
  • 5 Regression
    • 5.1 Lernziele
    • 5.2 Einfache lineare Regression
      • 5.2.1 Das Modell der einfachen linearen Regression
      • 5.2.2 Parametersch¨atzungen
      • 5.2.3 Tests und Konfidenzintervalle
      • 5.2.4 Das Bestimmtheitsmass R
      • 5.2.5 Allgemeines Vorgehen bei einfacher linearer Regression
      • 5.2.6 Residuenanalyse
    • 5.3 Multiple lineare Regression
      • 5.3.1 Das Modell der multiplen linearen Regression
      • 5.3.2 Parametersch¨atzungen und t-Tests
      • 5.3.3 Der F-Test
      • 5.3.4 Das Bestimmtheitsmass R
      • 5.3.5 Residuenanalyse
    • 5.4 Software
      • 5.4.1 Einfache lineare Regression
      • 5.4.2 Multiple Lineare Regression
  • 6 Anhang
    • 6.1 Normalapproximation des Binomialtests: Zwischenrechnung

INHALTSVERZEICHNIS v

Vorbemerkungen

Dieses Skript basiert weitestgehend auf Vorlagen, die Markus Kalisch, Lukas Meier, Peter B¨uhlmann und Hansruedi K¨unsch f¨ur ihre Vorlesungen f¨ur die Studieng¨ange Biologie, Phar- mazeutische Wissenschaften, Umweltnaturwissenschaften und Bauingenieurwissenschaften ver- wendet haben. Das erkl¨art, weshalb fast alle Beispiele im Skript aus diesen Bereichen stammen. Ich, Alain Hauser, m¨ochte den Autoren an dieser Stelle meinen herzlichen Dank aussprechen, ihre in langen Jahren ausgearbeiteten Unterlagen verwenden zu d¨urfen.

Die Vorlesung behandelt zuerst die Wahrscheinlichkeitsrechnung und Statistik f¨ur diskrete Va- riablen, welche Werte zum Beispiel in { 0 , 1 }, in N 0 = { 0 , 1 , 2 ,.. .} oder in Z = {... , − 1 , 0 , 1 ,.. .} annehmen.

Danach werden die erarbeiteten Konzepte auf stetige Variablen ¨ubertragen, mit Wertebereichen zum Beispiel in R oder [0, 1]. Deshalb ist der Aufbau leicht repetitiv, was sich aber in vorigen Jahren gut bew¨ahrt hat.

Schlussendlich wird auf komplexere Modellierung anhand der Regressions-Analyse eingegangen.

F¨ur weitere Erl¨auterungen verweisen wir jeweils auf das folgende Buch: Werner A. Stahel, Statistische Datenanalyse. Eine Einf¨uhrung f¨ur Naturwissenschaftler. 4. Aufl. (2002), Vieweg, Braunschweig.

Manchmal erkl¨aren wir die grundlegenden Begriffe auch an Hand von Gl¨ucksspielen, obwohl wir wissen, dass Sie nicht speziell an solchen interessiert sind. Es gibt dort einfach weniger Verst¨andnis- und Interpretationsprobleme als bei anderen Beispielen. Wir hoffen auf Ihr Verst¨andnis.

Kapitel 1

Einf¨uhrung (Stahel, Kap. 1)

1.1 Was ist Statistik?

Statistik ist die Lehre vom Umgang mit quantitativen Daten. Oft verschleiern Zufall oder Un- sicherheiten einen Sachverhalt. Ein Ziel der Statistik ist, in diesen F¨allen klare Aussagen zu machen.

Betrachten wir ein Beispiel. Vor der Fussball Weltmeisterschaft 2010 wurden Panini-Sammelalben f¨ur 661 verschiedene Aufkleber von Fussballstars und -stadien verkauft. Jedes Bild hat eine Num- mer von 1 bis 661 auf der R¨uckseite. Die Aufkleber gab es entweder in einzelnen 5er Packs oder in ganzen Kisten mit hundert 5er Packs zu kaufen. Gem¨ass Panini sind alle Bilder gleich h¨aufig und werden wohl zuf¨allig auf die T¨uten verteilt.

In den letzten Jahren hatten Kollegen von mir den Eindruck, dass man ¨uberraschend wenige doppelte Bilder hat, wenn man nicht einzelne 5er Packs sondern eine ganze Kiste mit hundert 5er Packs kauft. Sind die Bilder in einer Kiste vielleicht nicht zuf¨allig verteilt worden? Bei der Fussball Weltmeisterschaft 2010 wollte ich diese Vermutung pr¨ufen. Ich habe eine Kiste mit hundert 5er Packs gekaufte (500 Bilder) und alle in ein leeres Album geklebt. Ich konnte 477 Bilder einkleben, der Rest waren doppelte Bilder. Sind das nun “¨uberraschend wenige doppelte” oder nicht? Ist es also billiger eine Kiste statt einzelne 5er Packs zu kaufen? Mit der Intuition ist diese Frage praktisch nicht zu beantworten, aber die Statistik liefert eine L¨osung.

Angenommen, die Bilder werden tats¨achlich zuf¨allig auf die T¨uten verteilt. Ist es plausibel, dass man unter 500 Bildern 477 oder mehr Bilder hat, die nur einmal vorkommen? Anders gefragt: Wie wahrscheinlich ist es, dass man mit zuf¨alligem Eint¨uten 477 oder noch mehr aus 500 Bildern in ein leeres Album einkleben kann? Wenn diese Wahrscheinlichkeit sehr klein ist (kleiner als eine von uns festgelegte Grenze, z.B. eins zu einer Million = 10−^6 ), dann sind die Bilder wohl nicht zuf¨allig einget¨utet worden.

Nun, probieren wir es einfach aus! Mit dem Computer habe ich 500 Zahlen zuf¨allig aus der Menge 1,...,661 mit Zur¨ucklegen gezogen (jede Zahl steht f¨ur ein Panini-Bild; jedes Bild kann mehrfach gezogen werden). Dabei hatte ich 350 Zahlen, die nur einmal vorkommen. In diesem zuf¨allig gef¨ullten fiktiven Album h¨atte ich also nur 350 einfache Bilder einkleben k¨onnen. Das ist weniger als die beobachteten 477 Bilder, aber vielleicht k¨onnte ich ja bei dem n¨achsten zuf¨allig gef¨ullten Album viel mehr Bilder einkleben.

Um herauszufinden, ob 477 einfache Bilder durch Zufall entstehen k¨onnen, muss ich also noch mehr fiktive Alben f¨ullen. Mit dem Computer habe ich eine Million fiktive Alben zuf¨allig gef¨ullt. Die gr¨osste Anzahl einfacher Bilder war dabei 387. Falls die Bilder wirklich zuf¨allig einget¨utet

1

2 Einf¨uhrung (Stahel, Kap. 1)

werden, ist die Wahrscheinlichkeit mit einer Kiste mehr als 387 eingeklebte Bilder zu haben also kleiner als 10−^6.

Das l¨asst folgenden Schluss zu: Wenn ich ein Album mit 500 zuf¨allig ausgew¨ahlten Bildern f¨ullen w¨urde, k¨onnte ich nicht mal in einer Million Alben so viele Bilder einkleben, wie ich in Realit¨at beobachtet habe. Anders gesagt: In einer Welt, in der die Panini-Bilder zuf¨allig verteilt werden, ist die Wahrscheinlichkeit 477 oder mehr einfache Bilder in einer Kiste zu finden also kleiner als eine Million. Die Hypothese “Die 500 Bilder werden zuf¨allig verteilt” und die Beobachtung “Ich konnte 477 Bilder einkleben” passen also nicht zusammen. Die Hypothese wird deshalb verworfen: Die Panini-Bilder werden nicht zuf¨allig einget¨utet und es scheint vorteilhaft zu sein eine ganze Kiste zu kaufen.

In der Statistik ist das eben geschilderte Vorgehen fundamental und wird Hypothesentest genannt. Ein Hypothesentest besteht aus sechs Schritten:

  1. Man stellt ein Modell auf, das erkl¨art, wie die Daten entstehen. (Wir ziehen 500 Bilder mit Zur¨ucklegen aus einer Menge von 661 Bildern.)
  2. Man stellt eine Hypothese (h¨aufig auch Nullhypothese^1 genannt) auf. (“Panini Bilder in einer Kiste werden zuf¨allig aus 661 Bildern mit Zur¨ucklegen gezogen und einget¨utet”.) Wenn die Nullhypothese nicht zutrifft, muss die sog. Alternative zutreffen. (“Panini Bilder werden nicht zuf¨allig, sondern nach irgendeinem Muster gezogen und einget¨utet”.)
  3. Man ¨uberlegt sich eine Teststatistik (Anzahl Bilder, die man in ein leeres Album ein- kleben kann, wenn man 500 Bilder hat) und die Wahrscheinlichkeitsverteilung der Teststatistik unter der Annahme, dass die Nullhypothese stimmt. (Welche Anzahlen von einfachen Bildern sind plausibel, wenn zuf¨allig 500 Bilder aus 661 mit Zur¨ucklegen gezo- gen werden? Ich habe die Frage mit dem Computer beantwortet; oft kann man analytische Resultate finden.)
  4. Man legt ein Signifikanzniveau fest. (Festgelegte Grenze von 10−^6 )
  5. Man bestimmt einen Verwerfungsbereich f¨ur die Teststatistik zum gegebenen Signifi- kanzniveau. (Angenommen, die Bilder werden zuf¨allig einget¨utet. In der Computersimu- lation haben wir gesehen, dass die Wahrscheinlichkeit mehr als 387 eingeklebte Bilder zu haben kleiner 10−^6 ist. Der Verwerfungsbereich ist also { 388 , 389 , ..., 500 }.)^2
  6. Man beobachtet einen Wert der Teststatistik (477 eingeklebte Bilder) und f¨allt den Testentscheid: Verwerfe die Nullhypothese, falls der beobachtete Wert in dem Verwer- fungsbereich liegt. (477 ist in der Menge { 388 , 389 , ..., 500 }. Daher wird die Nullhypothese verworfen.)

Manchmal wird eine kleine Variante des obigen Verfahrens verwendet. Man berechnet den P- Wert: Angenommen die Nullhypothese stimmt. Wie wahrscheinlich ist es eine Teststatistik zu beobachten, die mindestens so extrem ist wie die beobachtete Teststatistik? Die Antwort liefert der P-Wert. (Wie wahrscheinlich ist es, in meiner Computersimulation 477 oder mehr einfache Bilder zu erhalten? Ich habe es in einer Million Simulationen kein einziges Mal beobachtet. Also ist die Wahrscheinlichkeit sicher^3 kleiner als 10000001 = 10−^6. Also ist p < 10 −^6 .) Der P-Wert

(^1) Die Namensgebung ist eher Konvention und macht f¨ur Sie im Augenblick wohl wenig Sinn. Oft wird ein Medikament getestet. Die Hypothese ist, dass das Medikament gar nicht wirkt. Der Effekt des Medikaments ist also Null. Daher wird die Hypothese dann “Nullhypothese” genannt. Dieser Sprachgebrauch hat sich auch in anderen Bereichen durchgesetzt. (^2) Ich habe mich hier f¨ur einen einseitigen Test entschieden; es gibt auch zweiseitige Tests. Sp¨ater erfahren Sie mehr dar¨uber. (^3) F¨ur diejenigen, die es ganz genau wissen wollen: Da wir die Wahrscheinlichkeit mit einer Computersimulation ermittelt haben, stimmt das Ergebnis nur approximativ. In unserem Fall ist der Unterschied aber so deutlich, dass das keine praktische Rolle spielt.

4 Einf¨uhrung (Stahel, Kap. 1)

1.3 Software

Wir werden die Statistiksoftware R verwenden. Sie ist in den Computerr¨aumen installiert. Sie k¨onnen sie auch kostenlos f¨ur Ihren Heimcomputer beziehen: www.r-project.org. Unter Ma- nuals finden Sie dort auch die Einf¨uhrung An Introduction to R, die ich sehr empfehlen kann. Andere weit verbreitete Statistikprogramme sind SPSS und SAS. Alle Methoden, die wir in diesem Kurs besprechen sind in jeder g¨angigen Statistiksoftware implementiert. In den ersten Wochen des Semesters wird es eine Computereinf¨uhrung geben.

1.4 Literatur

Ein gutes Begleitbuch in deutscher Sprache ist “Statistische Datenanalyse” von W. Stahel im Vieweg Verlag. Ein ausgezeichnetes Buch in englischer Sprache ist “Mathematical Statistics and Data Analysis” von John A. Rice. Inzwischen sind auch die Eintr¨age in Wikipedia brauchbar und vor allem meist gut verst¨andlich. Wenn Sie M¨uhe haben eine Methode zu verstehen, schlage ich Ihnen vor, den Begriff in Wikipedia nachzulesen.

Kapitel 2

Modelle f¨ur Z¨ahldaten

Lernziele

  • Sie kennen die drei Axiome der Wahrscheinlichkeitsrechnung.
  • Sie kennen den Begriff der Unabh¨angigkeit und k¨onnen einfache Rechenaufgaben l¨osen.
  • Sie kennen den Begriff der bedingten Wahrscheinlichkeit und k¨onnen damit umgehen. Insbesondere kennen Sie den Satz von Bayes und den Satz der totalen Wahrscheinlichkeit. Sie wissen, wie man P (A|B) und P (B|A) mit Formeln in einen Zusammenhang bringen kann und k¨onnen einfache Aufgaben damit l¨osen.
  • Sie kennen den Begriff der Zufallsvariable, der Wahrscheinlichkeitsverteilung und kumula- tiven Verteilungsfunktion.
  • Sie kennen die Binomial- und die Poissonverteilung.
  • Sie kennen die Begriffe Erwartungswert, Varianz und Standardabweichung. Sie k¨onnen diese Werte f¨ur einfache Verteilungen berechnen.

2.1 Grundbegriffe der Wahrscheinlichkeitsrechnung (Stahel, Kap.

4.1, 4.2)

Die Wahrscheinlichkeitsrechnung befasst sich mit Zufallsexperimenten. Bei einem Zufalls- experiment ist der Ausgang nicht (exakt) vorhersagbar. Zudem erhalten wir unter “gleichen Versuchsbedingungen” jeweils verschiedene Ergebnisse.

F¨ur einfache Beispiele greift man oft auf Gl¨ucksspiele wie z.B. W¨urfel oder Roulette zur¨uck. Es ist uns bewusst, dass diese nichts mit ihrem Fachgebiet zu tun haben. Oft eignen sie sich aber f¨ur kurze Illustrationen, insbesondere jetzt am Anfang. Daher erlauben wir uns, diese ab und zu zu verwenden.

Wenn man z.B. die Druckfestigkeit von Beton misst, ist dies auch ein Zufallsexperiment. Die Messung enth¨alt einen Messfehler und zudem gibt es sicher eine (kleine) Variation von Pr¨ufk¨orper zu Pr¨ufk¨orper. Von einer Serie von 10 Pr¨ufk¨orpern aus der gleichen Produktion werden wir also f¨ur jeden Pr¨ufk¨orper einen (leicht) anderen Wert erhalten.

Um richtig loslegen zu k¨onnen, m¨ussen wir am Anfang viele Begriffe neu einf¨uhren. Wir werden versuchen, so wenig wie m¨oglich “abstrakt” zu behandeln (aber so viel wie n¨otig) und hoffen, dass diese Durststrecke ertr¨aglich kurz bleibt.

5

2.1 Grundbegriffe der Wahrscheinlichkeitsrechnung (Stahel, Kap. 4.1, 4.2) 7

Alle diese Begriffe, Operationen und Regeln lassen sich einfach mit sogenannten Venn-Diagrammen illustrieren, siehe Abbildung 2.1.

A B

A B A B

A BB A B

Abbildung 2.1: Illustration der Operationen der Mengenlehre an Venn-Diagrammen: A ∩ B, A ∪ B, Ac^ und A \ B jeweils entsprechend markiert (von links nach rechts).

Beispiel: Sei A das Ereignis “Stahltr¨ager 1 hat strukturelle M¨angel” und B das entsprechende Ereignis bei Stahltr¨ager 2. Das Ereignis A ∪ B bedeutet dann: “Mindestens einer der beiden Stahltr¨ager hat strukturelle M¨angel” (dies beinhaltet die M¨oglichkeit, dass beide M¨angel haben). Die Schnittmenge A ∩ B ist das Ereignis “Beide Stahltr¨ager haben strukturelle M¨angel”, Ac bedeutet, dass Stahltr¨ager 1 keine M¨angel aufweist, etc.

Bis jetzt haben wir zwar teilweise schon den Begriff “Wahrscheinlichkeit” verwendet, diesen aber noch nicht spezifiziert.

Wir kennen also den Grundraum Ω bestehend aus Elementarereignissen ω und m¨ogliche Ereig- nisse A, B, C,... Jetzt wollen wir einem Ereignis aber noch eine Wahrscheinlichkeit zuordnen und schauen, wie man mit Wahrscheinlichkeiten rechnen muss.

F¨ur ein Ereignis A bezeichnen wir mit P (A) die Wahrscheinlichkeit, dass das Ereignis A eintritt (d.h. dass der Ausgang w des Zufallsexperiments in der Menge A liegt). Bei einem Wurf mit einer fairen M¨unze w¨are f¨ur A=“M¨unze zeigt Kopf” also P (A) = 0.5.

Es m¨ussen die folgenden Rechenregeln (die sogenannten Axiome der Wahrscheinlichkeitsrech- nung von Kolmogorov) erf¨ullt sein.

Axiome der Wahrscheinlichkeitsrechnung (Kolmogorov)

(A1) 0 ≤ P (A) ≤ 1

(A2) P (Ω) = 1

(A3) P (A ∪ B) = P (A) + P (B) f¨ur alle Ereignisse A, B die sich gegenseitig ausschlies- sen (d.h. A ∩ B = ∅).

(A1) bedeutet, dass Wahrscheinlichkeiten immer zwischen 0 und 1 liegen und (A2) besagt, dass das sichere Ereignis Ω Wahrscheinlichkeit 1 hat.

Weitere Rechenregeln werden daraus abgeleitet, z.B.

P (Ac) = 1 − P (A) f¨ur jedes Ereignis A (2.1) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) f¨ur je zwei Ereignisse A und B (2.2) P (A 1 ∪... ∪ An) ≤ P (A 1 ) +... + P (An) f¨ur je n Ereignisse A 1 ,... , An (2.3) P (B) ≤ P (A) f¨ur je zwei Ereignisse A und B mit B ⊆ A (2.4) P (A \ B) = P (A) − P (B) f¨ur je zwei Ereignisse A und B mit B ⊆ A (2.5)

8 Modelle f¨ur Z¨ahldaten

Wenn man sich Wahrscheinlichkeiten als Fl¨achen im Venn-Diagramm vorstellt (die Totalfl¨ache von Ω ist 1), so erscheinen diese Rechenregeln ganz nat¨urlich. Verifizieren sie dies als ¨Ubung f¨ur alle obigen Regeln.

Interpretation von Wahrscheinlichkeiten

Wir haben gesehen, welche Rechenregeln Wahrscheinlichkeiten erf¨ullen m¨ussen. Doch wie inter- pretiert man eine Wahrscheinlichkeit ¨uberhaupt? Die beiden wichtigsten Interpretationen sind die “Idealisierung der relativen H¨aufigkeit bei vielen unabh¨angigen Wiederholungen” (die soge- nannte frequentistische Interpretation) und das (subjektive) “Mass f¨ur den Glauben, dass ein Ereignis eintreten wird” (die sogenannte bayes’sche Interpretation).

Zur frequentistischen Interpretation: Wenn ein Ereignis A eines Zufallsexperiments Wahrscheinlichkeit 1/2 hat, so werden wir bei vie- len unabh¨angigen Wiederholungen des Experiments bei ca. der H¨alfte der F¨alle sehen, dass das Ereignis eingetreten ist (eine mathematische Definition f¨ur Unabh¨angigkeit werden wir sp¨ater sehen). F¨ur eine unendliche Anzahl Wiederholungen w¨urden wir exakt 1/2 erreichen. Man denke z.B. an den Wurf mit einer M¨unze. Wenn man die M¨unze sehr oft wirft, so wird die relative H¨aufigkeit von “Kopf” nahe bei 1/2 liegen, siehe Abbildung 2.2. Die frequentistische Interpre- tation geht also insbesondere von einer Wiederholbarkeit des Zufallsexperiments aus.

Etwas formeller: Sei fn(A) die relative H¨aufigkeit des Auftretens des Ereignisses A in n un- abh¨angigen Experimenten. Dieses Mass fn(·) basiert auf Daten oder Beobachtungen. Falls n gross wird, so gilt

fn(A) n→∞ −→ P (A).

Man beachte, dass P (A) also ein theoretisches Mass in einem Modell ist (wo keine Experimente oder Daten vorliegen).

0 50 100 150 200 250 300

n

f^ (n

A)

Abbildung 2.2: Relative H¨aufigkeiten fn(A) f¨ur das Ereignis A=“M¨unze zeigt Kopf” beim Wurf mit einer M¨unze in Abh¨angigkeit der Anzahl W¨urfe n.

Zur bayes’schen Interpretation: Hier ist P (A) ein Mass f¨ur den Glauben, dass ein Ereignis eintreten wird. Sie vermuten zum Beispiel, dass mit Wahrscheinlichkeit 15% auf ihrem Grundst¨uck ¨Olvorr¨ate vorhanden sind. Dies

10 Modelle f¨ur Z¨ahldaten

Dies kennen sie vermutlich aus der Mittelschule. Dort bestand dann die Wahrscheinlichkeitsrech- nung oft darin, durch (m¨uhsames) Abz¨ahlen die Anzahl g¨unstiger F¨alle zu bestimmen. Wie wir aber sehen werden, geht die Wahrscheinlichkeitsrechnung weit ¨uber das Laplace-Modell hinaus. Insbesondere ist das Laplace-Modell f¨ur viele Anwendungen ungeeignet. Beispiel: M¨unzwurf. F¨ur die Elementarereignisse haben wir also

P ({KK}) = P ({KZ}) = P ({ZK}) = P ({ZZ}) =

F¨ur das Ereignis A = {KZ, ZK} (genau 1 Mal Kopf) gilt demnach

P (A) = P ({KZ}) + P ({ZK}) =

2.3 Unabh¨angigkeit von Ereignissen

Wenn man die Wahrscheinlichkeiten P (A) und P (B) kennt, so k¨onnen wir nur aus diesen An- gaben allein die Wahrscheinlichkeit P (A ∩ B) im Allgemeinen nicht berechnen (siehe Venn- Diagramm!). Es kann z.B. sein, dass die Schnittmenge die leere Menge ist oder dass B ganz in A liegt bzw. umgekehrt. Wir sehen anhand der einzelnen Wahrscheinlichkeiten P (A) und P (B) also nicht, was f¨ur eine Situation vorliegt und k¨onnen damit P (A ∩ B) nicht berechnen.

Ein Ausnahme bildet der Fall, wenn folgende Produktformel gilt

P (A ∩ B) = P (A)P (B).

Man nennt dann A und B (stochastisch) unabh¨angig.

Man multipliziert in diesem Fall einfach die Wahrscheinlichkeiten. Wenn also A mit Wahrschein- lichkeit 1/3 eintritt und B mit Wahrscheinlichkeit 1/6, dann sehen wir sowohl A wie auch B (also A∩B) mit Wahrscheinlichkeit 1/18, wenn die Ereignisse unabh¨angig sind. Bei einer grossen Population (n gross) “sammeln” wir also zuerst alle F¨alle, bei denen A eintritt (ca. 1/3) und davon nochmals diejenigen, bei denen B eintritt (ca. 1/6) und haben am Schluss so noch ca. 1 /18 der urspr¨unglichen F¨alle. Das Ereignis B “k¨ummert es also nicht”, ob A schon eingetroffen ist oder nicht, die Wahrscheinlichkeit 1/6 bleibt. Dies muss nicht immer der Fall sein, siehe auch das Beispiel unten.

Typischerweise wird die Unabh¨angigkeit basierend auf physikalischen und technischen ¨Uberlegungen postuliert, indem man verifiziert, dass zwischen zwei Ereignissen A und B kein kausaler Zusam- menhang besteht (d.h. es gibt keine gemeinsamen Ursachen oder Ausschliessungen).

Achtung: Unabh¨angige Ereignisse sind nicht disjunkt und disjunkte Ereignisse sind nicht un- abh¨angig (ausser wenn ein Ereignis Wahrscheinlichkeit 0 hat). Unabh¨angigkeit h¨angt ab von den Wahrscheinlichkeiten, w¨ahrend Disjunktheit nur ein mengentheoretischer Begriff ist.

Beispiel: Ein Ger¨at bestehe aus zwei Bauteilen und funktioniere, solange mindestens eines der beiden Bauteile noch in Ordnung ist. A 1 und A 2 seien die Ereignisse, dass Bauteil 1 bzw. Bauteil 2 defekt sind mit entsprechenden Wahrscheinlichkeiten P (A 1 ) = 1/100 und P (A 2 ) = 1/100. Wir wollen zudem davon ausgehen, dass die beiden Ereignisse A 1 und A 2 unabh¨angig voneinander sind.

Die Ausfallwahrscheinlichkeit f¨ur das Ger¨at ist also wegen der Unabh¨angigkeit gegeben durch

P (A 1 ∩ A 2 ) = P (A 1 )P (A 2 ) =

= 10−^4.

2.4 Bedingte Wahrscheinlichkeiten (Stahel, Kap. 4.7) 11

Wir sehen also, dass durch die Annahme der Unabh¨angigkeit eine kleine Ausfallwahrscheinlich- keit resultiert. Wenn in Tat und Wahrheit in obigem Beispiel aufgrund eines Ausfalls des einen Bauteils das andere Bauteil auch gerade ausf¨allt (also ist die Unabh¨angigkeit nicht mehr gege- ben), dann steigt die Ausfallwahrscheinlichkeit des Ger¨ats auf 1/100 (da in diesem Fall A 1 = A 2 und somit A 1 ∩ A 2 = A 1 = A 2 )!

Wenn man also Ausfallwahrscheinlichkeiten unter der Annahme von Unabh¨angigkeit berechnet, aber diese in der Realit¨at nicht erf¨ullt ist, so ist das Resultat oft um einige Gr¨ossenordnungen zu klein!

Der Begriff der Unabh¨angigkeit kann auch auf mehrere Ereignisse erweitert werden: Die n Er- eignisse A 1 ,... An heissen unabh¨angig, wenn f¨ur jedes k ≤ n und alle 1 ≤ i 1 <... < ik ≤ n gilt P (Ai 1 )∩...∩Aik = P (Ai 1 ) · · · P (Aik ).

Dies bedeutet nichts anderes, als dass die entsprechende Produktformel f¨ur alle k-Tupel von Ereignissen gelten muss.

2.4 Bedingte Wahrscheinlichkeiten (Stahel, Kap. 4.7)

Wenn zwei Ereignisse nicht unabh¨angig sind, k¨onnen wir also durch das (Nicht-) Eintreten des einen Ereignisses etwas ¨uber das andere aussagen (oder “lernen”).

Beispiel: Eine Konstruktion besteht aus zwei Stahltr¨agern. A priori nehmen wir an, dass ein Tr¨ager mit einer gewissen Wahrscheinlichkeit Korrosionssch¨aden aufweist. Wenn wir jetzt aber wissen, dass der erste Stahltr¨ager Korrosionssch¨aden hat, werden wir vermutlich annehmen, dass in diesem Falle der zweite Tr¨ager eher auch betroffen ist (da sie aus der selben Produktion stam- men und den gleichen Witterungsbedingungen ausgesetzt waren etc.). Die Wahrscheinlichkeit f¨ur den zweiten Tr¨ager (dessen Zustand wir noch nicht kennen) w¨urden wir also nach Erhalt der Information ¨uber den ersten Tr¨ager h¨oher einsch¨atzen als urspr¨unglich.

Dies f¨uhrt zum Konzept der bedingten Wahrscheinlichkeiten. Diese treten zum Beispiel dann auf, wenn ein Zufallsexperiment aus verschiedenen Stufen besteht und man sukzessive das Re- sultat der entsprechenden Stufen erf¨ahrt. Oder salopper: “Die Karten (die Unsicherheit) werden sukzessive aufgedeckt”.

Die bedingte Wahrscheinlichkeit von A gegeben B ist definiert als

P (A | B) =

P (A ∩ B)

P (B)

Die Interpretation ist folgendermassen: “P (A | B) ist die Wahrscheinlichkeit f¨ur das Ereignis A, wenn wir wissen, dass das Ereignis B schon eingetroffen ist”.

Wie kann man die Formel verstehen? Da wir wissen, dass B schon eingetreten ist (wir haben also einen neuen Grundraum Ω′^ = B), m¨ussen wir von A nur noch denjenigen Teil anschauen, der sich in B abspielt (daher A ∩ B). Dies m¨ussen wir jetzt noch in Relation zur Wahrscheinlichkeit von B bringen: die Normierung mit P (B) sorgt gerade daf¨ur, dass P (Ω′) = P (B) = 1. Dies ist auch in Abbildung 2.3 illustriert. Wenn man wieder mit Fl¨achen denkt, dann ist die bedingte Wahrscheinlichkeit P (A | B) der Anteil der schraffierten Fl¨ache an der Fl¨ache von B.

Bemerkung: In der Definition sind wir stillschweigend davon ausgegangen, dass P (B) > 0 gilt.

Beispiel: W¨urfel. Was ist die Wahrscheinlichkeit, eine 6 zu w¨urfeln? Offensichtlich 1/6! Was ist die Wahrschein- lichkeit, eine 6 zu haben, wenn wir wissen, dass eine gerade Zahl gew¨urfelt wurde?

2.4 Bedingte Wahrscheinlichkeiten (Stahel, Kap. 4.7) 13

fall

P (A | B) 6 = P (B | A) P (A | Bc) 6 = 1 − P (A | B).

Man kann also bedingte Wahrscheinlichkeiten in der Regel nicht einfach “umkehren” (erste Gleichung). Dies ist auch gut in Abbildung 2.3 ersichtlich. P (A | B) ist dort viel gr¨osser als P (B | A).

2.4.1 Satz der totalen Wahrscheinlichkeit und Satz von Bayes

Wie wir in (2.6) gesehen haben, kann man

P (A ∩ B) = P (A | B)P (B)

schreiben, d.h. P (A ∩ B) ist bestimmt durch P (A | B) und P (B). In vielen Anwendungen wird dieser Weg beschritten. Man legt die Wahrscheinlichkeiten f¨ur die erste Stufe P (B) und die bedingten Wahrscheinlichkeiten P (A | B) und P (A | Bc) f¨ur die zweite Stufe gegeben die erste fest (aufgrund von Daten, Plausibilit¨at und subjektiven Einsch¨atzungen). Dann lassen sich die ¨ubrigen Wahrscheinlichkeiten berechnen.

Beispiel: Es sei z.B. A = “Ein Unfall passiert” und B = “Strasse ist nass”. Wir nehmen an, dass wir folgendes kennen

P (A | B) = 0. 01 P (A | Bc) = 0. 001 P (B) = 0. 2.

Mit den Rechenregeln f¨ur Wahrscheinlichkeiten erhalten wir P (Bc) = 1 − P (B) = 0.8. K¨onnen wir damit die Wahrscheinlichkeit f¨ur A bestimmen? Wir k¨onnen A schreiben als disjunkte Ver- einigung (siehe Venn-Diagramm)

A = (A ∩ B) ∪ (A ∩ Bc).

Daher haben wir

P (A) = P (A ∩ B) + P (A ∩ Bc) = P (A | B)P (B) + P (A | Bc)P (Bc) = 0. 01 · 0 .2 + 0. 001 · 0. 8.

Dies ergibt P (A) = 0.0028. Mit der Wahrscheinlichkeit von B und den bedingten Wahrschein- lichkeiten von A gegeben B bzw. Bc^ k¨onnen wir also die Wahrscheinlichkeit von A berechnen.

Wir schauen also in den einzelnen Situationen (B bzw. Bc), was die bedingte Wahrscheinlichkeit f¨ur A ist und gewichten diese mit den entsprechenden Wahrscheinlichkeiten P (B) bzw. P (Bc).

Dieses Vorgehen wird besonders anschaulich, wenn man das Zufallsexperiment als sogenannten Wahrscheinlichkeitsbaum darstellt, siehe Abbildung 2.4. In jeder Verzweigung ist die Summe der (bedingten) Wahrscheinlichkeiten jeweils 1. Um die Wahrscheinlichkeit f¨ur eine spezifische “Kombination” (z.B. Ac^ ∩ B) zu erhalten, muss man einfach dem entsprechenden Pfad ent- lang “durchmultiplizieren”. Um die Wahrscheinlichkeit von A zu erhalten, muss man alle Pfade betrachten, die A enthalten und die entsprechenden Wahrscheinlichkeiten aufsummieren.

Diese Aufteilung in verschiedene sich gegenseitig ausschliessende Situationen (B, Bc) funktio- niert noch viel allgemeiner und f¨uhrt zum Satz der totalen Wahrscheinlichkeit.

14 Modelle f¨ur Z¨ahldaten

P (Ac^ ∩ Bc) = 0. 8 · 0. 999

Ac (^) | Bc (^0). 999

P (A ∩ Bc) = 0. 8 · 0. 001 A^ |^ B

c

0.^001

Bc (^0). 8

P (Ac^ ∩ B) = 0. 2 · 0. 99

Ac (^) | B (^0). 99

P (A ∩ B) = 0. 2 · 0. 01

A^ |^ B 0.^01

B

0.^2

Abbildung 2.4: Wahrscheinlichkeitsbaum.

Satz der totalen Wahrscheinlichkeit

Wir nehmen an, dass wir k disjunkte Ereignisse B 1 ,... , Bk haben mit

B 1 ∪... ∪ Bk = Ω (“alle m¨oglichen F¨alle sind abgedeckt”)

Dann gilt

P (A) (A3) =

∑^ k

i=

P (A ∩ Bi) (2.6) =

∑^ k

i=

P (A | Bi)P (Bi).

Dies ist genau gleich wie beim einf¨uhrenden Beispiel mit der Strasse und den Unf¨allen (dort hatten wir B 1 = B und B 2 = Bc). Wir haben jetzt einfach k verschiedene “Verzweigungen”. Wenn wir also die (bedingte) Wahrscheinlichkeit von A in jeder Situation Bi wissen, dann ist die Wahrscheinlichkeit von A einfach deren gewichtete Summe, wobei die Gewichte durch P (Bi) gegeben sind.

B 1 ,... , Bk heisst auch Partitionierung von Ω. Sie deckt alle m¨oglichen F¨alle ab und zwei Ereignisse Bi und Bj k¨onnen nicht zusammen eintreten. Ein Illustration einer Partitionierung findet man in Abbildung 2.5.

Manchmal will man die bedingten Wahrscheinlichkeiten auch “umkehren”. Sie haben z.B. ein technisches Verfahren entwickelt, um Haarrisse in Oberfl¨achen zu detektieren. Wir betrachten folgende Ereignisse

A = “Technisches Verfahren indiziert, dass Risse da sind” B 1 = “Oberfl¨ache weist in der Tat Haarrisse auf” B 2 = Bc 1 = “Oberfl¨ache weist in der Tat keine Haarrisse auf”

Das Verfahren arbeitet nicht ganz fehlerfrei, die Fehlerquote ist aber (auf den ersten Blick) relativ tief (fiktive Zahlen):

P (A | B 1 ) = 0. 99 P (A | B 2 ) = 0. 03

Zudem nehmen wir an, dass gilt P (B 1 ) = 0. 001.