




Besser lernen dank der zahlreichen Ressourcen auf Docsity
Heimse Punkte ein, indem du anderen Studierenden hilfst oder erwirb Punkte mit einem Premium-Abo
Prüfungen vorbereiten
Besser lernen dank der zahlreichen Ressourcen auf Docsity
Download-Punkte bekommen.
Heimse Punkte ein, indem du anderen Studierenden hilfst oder erwirb Punkte mit einem Premium-Abo
Community
Finde heraus, welche laut den Docsity-Nutzern die besten Unis deines Landes sind
Kostenlose Leitfäden
Lade unsere Leitfäden mit Lernmethoden, Hilfen zur Angstbewältigung und von Docsity-Tutoren erstellte Tipps zum Verfassen von Haus- und Abschlussarbeiten kostenlos herunter
Art: Zusammenfassungen
1 / 8
Vollständiges Dokument herunterladen
durch Erwerb eines Premium-Tarifplans
und hol dir die Punkte, die dir in 48 stunden
Daten Verteilung Beschreibung Z¨ahldaten Bernoulli Eintreffen / Nicht-Eintreffen (diskret) eines Ereignisses Binomial Anzahl Erfolge in einer Serie unabh¨angiger Bernoulli-Versuche Poisson Seltene Bernoulli-Ereignisse Messdaten Uniform Werte gleich wahrscheinlich, (stetig) bei v¨olligem Unwissen , Exponentiell Frage nach der Dauer von zuf¨alligen Zeitintervallen Normal/Gauss Glockenkurve Standard-Normal Normalverteilung mit μ = 0 und σ^2 = 1
Binomialkoeffizient Auf wie viele Arten kann man bei n Expe- rimenten k Erfolge und n − k Misserfolge anordnen.
( n k
= n^ ·^ (n^ −^ 1)^ · · ·^ (n^ −^ k^ + 1) k!
Komponenten eines Wahrscheinlichkeitsmodells
Grundraum Ω mit Elementarereignissen ω Ereignisse A, B, C als Teilmengen von Ω Wahrscheinlichkeit P (A) von Ereignis A
Operationen der Mengenlehre
A ∪ B (Vereinigung = A oder B) A ∩ B (Durchschnitt = A und B) Ac^ (Komplement = nicht A)
Rechenregeln mit Wahrscheinlichkeiten
P (A ∪ B) = P (A) + P (B) falls A ∩ B = ∅ P (Ac) = 1 − P (A) P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Unabh¨angigkeit von A und B
Zufallsvariable.
ω 7 → X(ω)
Erwartungswert E(X) mittlere Lage der Verteilung
∑
xWX
xP (X = x)
WX = Wertebereich von X
Varianz Quadrat der Standardabweichung
Var(X) =
xWX
(x − E(X))^2 P (X = x)
Standardabweichung σ(X) Streuung der Verteilung
σ(X) =
Var(X)
Eintreffen oder Nicht-Eintreffen eines Ereignisses.
P (X = 1) = π P (X = 0) = 1 − π 0 ≤ π ≤ 1
Bernoulli(π) = Binomial(1, π)
Anzahl der Erfolge in einer Serie von gleichartigen und unabh¨angigen (Bernoulli-)Versuchen mit jeweils nur zwei m¨oglichen Ergebnissen.
Wahrscheinlichkeitsfunktion P
P (X = x) =
n x
πx(1 − π)n−x^ x = 0, 1 ,... , n
Kennzahlen f¨ur X ∼ Binomial(n, π)
E(X) = nπ Var(X) = nπ(1 − π)
σ(X) =
nπ(1 − π)
Kumulative Verteilungsfunktion Sukzessive Summe
∑
yWX ;y≤x
P (X = y) = P (X ≤ x)
Zu erwartendes Ergebnis einer Reihe von (Bernoulli-) Experi- menten. Verteilung f¨ur unbeschr¨ankte Z¨ahldaten. Modellierung von seltenen Ereignissen.
Wahrscheinlichkeitsverteilung P
P (X = x) = e−λ^
λx x!
x = 0, 1 , 2 ,...
Kennzahlen f¨ur X ∼ Poisson(λ)
E(X) = λ Var(X) = λ
σ(X) =
λ
Poisson-Approximation f¨ur n gross und π klein
X ∼ Binomial(n, π) → Y ∼ Poisson(λ) λ = nπ
P (X = x) =
n x
πx(1 − π)n−x
≈ P (Y = x) = e−λ^
λx x!
Summen von Poisson-verteilten Zufallsvariablen
X ∼ Poisson(λX ), Y ∼ Poisson(λY ) unabh¨angig
X + Y ∼ Poisson(λX + λY )
4 Statistik f¨ur Z¨ahldaten
4.1.1 Sch¨atzung
Welches ist der plausibelste Parameterwert zu den Beobachtun- gen?
4.1.2 Statistischer Test
Sind die Beobachtungen kompatibel mit einem vorgegebenen Parameterwert? Fehler 1.Art F¨alschliches Verwerfen von H 0 , obwohl H 0 richtig ist. Wird als ”
schlimmer“ betrachtet. Mit der Konstrukti- on des Tests wird dieser Fehler direkt kontrolliert.
P (Fehler 1.Art) = PH 0 (XK) ≤ α
Fehler 2.Art F¨alschliches Beibehalten von H 0 , obwohl die Alter- native zutrifft. P (Fehler 2.Art) wird gr¨osser, falls α kleiner gew¨ahlt wird.
P-Wert Kleinstes Signifikanzniveau, bei dem die Nullhypothese H 0 gerade noch verworfen wird.
P ≈ 0 .05 : schwach signifikant P ≈ 0 .01 : signifikant P ≈ 0 .001 : stark signifikant P ≤ 10 −^4 : ¨ausserst signifikant
4.1.3 Konfidenzintervall / Vertrauensintervall
Welche Parameterwerte sind mit den Beobachtungen kompati- bel?
4.2.1 Sch¨atzung
Relative H¨aufigkeit
πˆ = x n
4.2.2 Statistischer Test
F¨ur den Parameter π im Modell X ∼ Binomial(n, π)
π = π 0
Alternativhypothese HA spezifizieren.
π 6 = π 0 (zweiseitig) π > π 0 (einseitig nach oben π < π 0 (einseitig nach unten)
K = [0, cu] ∪ [co, n] falls HA : π 6 = π 0 K = [c, n] falls HA : π > π 0 K = [0, c] falls HA : π < π 0
PH 0 (XK) = Pπ 0 (XK) ≤ α
4.2.3 Vertrauensintervall
Vertrauensintervall I zum Niveau 1 − α besteht aus allen Para- meterwerten, die im Sinne des statistischen Tests zum Signifi- kanzniveau α mit der Beobachtung vertr¨aglich sind.
I = {π 0 ; H 0 wird belassen} Pπ (πI(X)) > 1 − α f¨ur jedes π
Approximatives Vertrauensintervall zum Niveau 1 − α = 0. 95
x n
x n
x n
n
5.2.2 Wahrscheinlichkeitsdichte
f (x) = F ′(x) P (x < X ≤ x + h) ≈ hf (x) f¨ur h klein
F (x) =
∫ (^) x
−∞
f (y) dy
5.2.3 Kennzahlen
Erwartungswert E(X)
−∞
xf (x) dx
Varianz Var(X)
Var(X) =
−∞
(x − E(x))^2 f (x) dx = E(X^2 ) − (E(X))^2
Standardabweichung σ
σX =
Var(X)
Quantile q(α)(0 < α < 1)
P (X ≤ q(α)) = α
Bei Rundungsfehlern und als Formalisierung der v¨olligen Igno- ranz (gleiche Wahrscheinlichkeit auf dem ganzen Wertebereich). Formalisierung f (x)
f (x) =
b−a falls^ a^ ≤^ x^ ≤^ b 0 sonst
Kumulative Verteilungsfunktion F (x)
F (x) =
0 falls x < a x−a b−a falls^ a^ ≤^ x^ ≤^ b 1 falls x > b
Kennzahlen f¨ur X ∼ Uniform([a, b])
a + b 2
Var(X) =
(b − a)^2 12
σX = b √^ −^ a 12
Frage nach der Dauer von zuf¨alligen Zeitintervallen, Wartezeiten auf Ausf¨alle Formalisierung f (x)
f (x) =
λe−λx^ falls x ≥ 0 0 sonst
Kumulative Verteilungsfunktion F (x)
F (x) =
1 − e−λx^ falls x ≥ 0 0 sonst
Uberlebenswahrscheinlichkeit^ ¨ P (x)
P (X > x) = 1 − F (x) = e−λx
Kennzahlen f¨ur X ∼ Uniform([a, b])
λ
Var(X) =
λ^2
σX =^1 λ
Formalisierung f (x)
f (x) = 1 σ
2 π
e
( − (x−μ)
2 2 σ^2
)
Kennzahlen f¨ur X ∼ N (μ, σ^2 )
E(X) = μ Var(X) = σ^2 σX = σ
Normalverteilung mit μ = 0 und σ^2 = 1 Dichte ϕ(x)
ϕ(x) =
2 π
e
( − x 22
)
Kumulative Verteilungsfunktion φ(x) (tabelliert)
φ(x) =
∫ (^) x
−∞
= ϕ(y) dy
φ(−x) = 1 − φ(x)
Transformation der Zufallsvariablen Y = g(X)
X − μ σ
E(Y ) = E(g(X)) =
−∞
g(x)fX (x) dx
f¨ur g(x) = (x − E(X))^2 :
Var(X) = E((X − E(X))^2 ) =
−∞
(x − E(X))^2 f (x) dx
Uberpr¨^ ¨ ufen der Normalverteilungs-Annahme Ist die Verteilung ein brauchbares Modell f¨ur den Datensatz? Q-Q Plot Empirische Quantile gegen theoretische Quan- tile der Modell-Verteilung polten. Punkte sollten auf x = y liegen Normal-Plot Q-Q Plot mit Standard-Normalverteilung N (0, 1). Punkte sollten auf μ + σ · x liegen
5.7.1 Arithmetisches Mittel
g(x 1 ,... , xn) = xn =^1 n
∑^ n
i=
xi
xn ist eine Realisierung der Zufallsvariable Xn
5.7.2 Rechenregeln f¨ur Erwartungswerte
E(Y ) = E(c · X + d) = c · E(X) + d E(X · Y ) = E(X) · E(Y )
5.7.3 Rechenregeln f¨ur Varianzen
Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) Var(a · X + b) = a^2 · Var(X) Var(−X) = Var(X)
5.7.4 Unabh¨angigkeit
Keine gemeinsamen Faktoren beeinflussen den Ausgang ver- schiedener Messungen, keine carry over Ph¨anomene von einer Messung zur n¨achsten
5.7.5 i.i.d. Annahme
independent, identically distributed. Wichtig f¨ur Erwartungs- werte und Varianzen von Summen.
5.7.6 Kennzahlen und Verteilung von Xn
E(Xn) = μ
Var(Xn) = σ
(^2) X n σ(Xn) =
σX √ n
5.7.7 Standard-Fehler
Standardabweichung von Xn
5.7.8 Gesetz der grossen Zahlen
falls X 1 ,... , Xn i.i.d.
Xn → μ(n → ∞)
Streuung proportional zu √^1 n!
5.7.9 Zentraler Grenzwertsatz
falls X 1 ,... , Xn i.i.d.
Xn ≈ N (μ, σ^2 X /n)
5.7.10 Verletzung der Unabh¨angigkeit Kennzahlen unter Annahme identischer Verteilung
E(Xn) = μ
Var(Xn) =
σ^2 X n
n
1 ≤i<j≤n
ρ(Xi, Xj )
Korrelation ρ(Xi, Xj ) zwischen Xi und Xj
ρ(Xi, Xj ) =
Cov(Xi, Xj ) σXi σXj Cov(Xi, Xj ) = E((Xi − E(Xi))(Xj − E(Xj )))
6 Statistik f¨ur Messdaten
6.1.1 Gepaarter Vergleich
Von jeder Versuchseinheit wird eine Gr¨osse unter zwei verschie- denen Bedingungen gemessen. Gibt es einen systematischen Un- terschied?
6.1.2 Sch¨atzungen
μ ˆ =
n
∑^ n
i=
Xi
σ^ ˆ^2 X =^
n − 1
∑^ n
i=
(Xi − Xn)^2
6.1.3 Vorgehen bei Tests
6.1.4 z-Test
Annahme: σ^2 X bekannt
Teststatistik beim z-Test
z =
n(x − μ 0 ) σ
= beobachtet - erwartet Standardfehler
Verwerfungsbereich Verwerfe H 0 : μ = μ 0 , falls
|xn − μ 0 | >
σX √ n
φ−^1 (1 −
α 2
) bei HA : μ 6 = μ 0
xn < μ 0 − √σX n
φ−^1 (1 − α) bei HA : μ < μ 0
xn > μ 0 + √σX n
φ−^1 (1 − α) bei HA : μ > μ 0
6.1.5 t-Test
σX oft unbekannt
Sch¨atzung von σX zus¨atzliche Unsicherheit
ˆσ^2 X =
n − 1
∑^ n
i=
(Xi − Xn)^2
Teststatistik beim t-Test
t =
n(xn − μ 0 ) σˆX
beobachtet - erwartet gesch¨atzter Standardfehler
t-Verteilung langschw¨anziger als Standard-Normalverteilung N (0, 1)
7.1.1 Kovarianz
Cov(X, Y ) = E[(X − μX )(Y − μY )]
7.1.2 Korrelation
St¨arke und Richtung der Abh¨angigkeit zwischen X und Y
Corr(X, Y ) = ρXY =
Cov(XY ) σX σY
Corr(X, Y ) = +1 f¨ur Y = a + bX mit b > 0 Corr(X, Y ) = −1 f¨ur Y = a + bX mit b < 0 X, Y unabh¨angig ⇒ Corr(X, Y ) = 0
7.1.3 Empirische Korrelation
Corr C(ˆX, Y ) = ˆρXY =
∑n √∑ i=1(xi^ −^ x)(yi^ −^ y) n i=1(xi^ −^ x)^2
√∑n i=1(yi^ −^ y)^2
7.2.1 Modell
Y ist die Zielvariable, X ist die erkl¨arende Variable, Zufallsva- riable Ei Fehler-Variable oder Rausch-Term
h(x) = β 0 + β 1 x : einfache lineare Regression h(x) = β 1 x : durch den Nullpunkt
7.2.2 Parametersch¨atzungen
Sch¨atzung der Parameter β 1 und β 2 mit der Methode der Kleinsten-Quadrate
βˆ 1 =
∑n i=1 ∑(Yi^ −^ Y^ n)(xi^ −^ xn) n i=1(xi^ −^ xn)
2
β^ ˆ 0 = yn − βˆ 1 xn
Erwartungstreue Sch¨atzungen Das Prinzip der Kleinsten- Quadrate liefert erwartungstreue Sch¨atzungen (ohne sys- tematischen Fehler)
E( βˆ 0 ) = β 0 E( βˆ 1 ) = β 1
Sch¨atzung der Fehlervarianz σ^2 mit dem Konzept der Residu- en
Ri = Yi − ( βˆ 0 + βˆ 1 xi)
ˆσ^2 =
n − 2
∑^ n
i=
R^2 i
7.2.3 Bestimmtheitsmass R^2 Quantifiziert die G¨ute eines Regressionsmodelles, Anteil der to- talen Variation, welche durch Regression erkl¨art wird
∑^ n
i=
(yi − y)^2 ︸ ︷︷ ︸ SSY
∑^ n
i=
(yi − yˆi)^2 ︸ ︷︷ ︸ SSE
∑^ n
i=
(ˆyi − y)^2 ︸ ︷︷ ︸ SSR
R^2 = SSR SSY R^2 = ˆρ^2 XY bei einfacher linearer Regression
SSY : Totale Variation der Zielvariablen (ohne Einfluss der er- kl¨arenden Variablen x)
SSE : Variation des Fehlers (Residuen-Quadratsumme)
SSR: Variation, die durch Regression erkl¨art wird (Einfluss der erkl¨arenden Variablen x)
7.2.4 Allgemeines Vorgehen
7.2.5 Residuenanalyse
Zur ¨Uberpr¨ufung der Modell-Voraussetzungen f¨ur die einfache lineare Regression
Modell-Voraussetzungen in priorit¨arer Reihenfolge E(Ei) = 0 Somit gilt E(Yi) = β 0 + β 1 xi, das heisst es gibt keinen systematischen Fehler im Modell. Abweichun- gen von dieser Annahme k¨onnen zum Beispiel durch einen nicht-linearen Zusammenhang zwischen x und Y verursacht sein E 1 ,... , Eni.i.d Die Varianz aller Fehler ist gleich. Ab- weichungen von dieser Annahme k¨onnen durch ver- schiedene Genauigkeit der Beobachtungen oder durch Abh¨angigkeiten verursacht sein. E 1 ,... , Eni.i.dN (0, σ^2 ) Abweichungen k¨onnten durch ei- ne langschw¨anzige Fehlerverteilung verursacht sein.
Tuskey-Anscombe Plot Plot der Residuen ri gegen die ange- passten Werte ˆyi. Im Idealfall ergibt es eine gleichm¨assige Streuung der Punkte um Null. Bei gleichm¨assiger Vertei- lung kann man auf konstante Varianz schliessen.
Q-Q Plot Quantile zweier statistischer Variablen werden gegen- einander abgetragen, um ihre Verteilungen zu vergleichen. Wenn es eine sch¨one Gerade gibt, sind die Fehler normal- verteilt.
Plot bez¨uglich serieller Korrelation Plotte ri gegen die Beob- achtungsnummer i
Normalplot ergibt im Idealfall approximativ eine Gerade
7.3.1 Modell
Yi = β 0 +
p ∑− 1
j=
βj xi,j + Ei
n× 1
n×p
× β ︸︷︷︸ p× 1
n× 1
E 1 ,... , Eni.i.d. E(Ei) = 0 V ar(Ei) = σ^2
7.3.2 Einfache lineare Regression
Yi = β 0 + β 1 xi + Ei (i = 1,... n)
p = 2 X =
1 x 1 1 x 2 .. .
1 xn
β =
β 0 β 1
7.3.3 Quadratische Regression
Funktion quadratisch in den xi aber linear in den Koeffizienten βj
Yi = β 0 + β 1 xi + β 2 x^2 i + Ei (i = 1,... n)
p = 3 X =
1 x 1 x^21 1 x 2 x^22 .. .
1 xn x^2 n
β^ =
β 0 β 1 β 2
7.3.4 Transformierte erkl¨arenden Variablen
Das Modell ist linear in den Koeffizienten βj aber nichtlinear in den xij
Yi = β 0 + β 1 log(xi 2 ) + β 2 sin(πxi 3 ) + Ei (i = 1,... n)
p = 3 X =
1 log(x 12 ) sin(πx 13 ) 1 log(x 22 ) sin(πx 23 ) .. .
1 log(xn 2 ) sin(πxn 3 )
β =
β 0 β 1 β 2
7.3.5 Parametersch¨atzungen
Meist mit der Methode der kleinsten Quadrate. βˆ 0 , βˆ 1 ,... , βˆp− 1 sind Minimierer.
∑^ n
i=
(Yi − (β 0 + β 1 xi, 1 +... + βp− 1 xi,p− 1 ))^2
Eindeutige L¨osung explizit darstellbar falls p < n
Sch¨atzung der Fehlervarianz.
n − p
∑^ n
i=
R^2 i
Ri = Yi − ( βˆ 0 +
p ∑− 1
j=
β^ ˆj xi,j )
t-Tests Unter der Annahme, dass die Fehler normalverteilt sind. βj misst den linearen Effekt der j-ten erkl¨arenden Varia- blen auf die Zielvariable Y nach Elimination der linearen Effekte aller anderen Variablen auf Y (j = 1,... , p − 1).
H 0 ,j : βj = 0, HA,j : βj 6 = 0 (j = 0,... , p − 1)
7.3.6 F-Test
Quantifiziert die Frage, ob es mindestens eine erkl¨arende Va- riable gibt, welche einen relevanten Effekt auf die Zielvariable hat.
H 0 : β 1 =... = βp− 1 = 0 HA : mindestens ein βj 6 = 0(j,... , p − 1)
Im Funktionsaufruf wird lm verwendet, um ein Lineares Mo- dell zu sch¨atzen. Der folgende Variablenname bezeichnet die Zielvariable. Bei den Residuen sollte man sich fragen, ob das Maximum oder Minimum aussergew¨ohnlich grosse Werte an- nimmt (das k¨onnte z.B. auftreten, wenn man bei dem Eintippen der Daten den Dezimalpunkt bei einer Beobachtung um eine oder ein paar Positionen verschoben hat; also z.B. 103.0 statt 1.030).
Im Abschnitt Coefficients steht eine Tabelle mit allen wich- tigen Informationen zu den gesch¨atzten Parametern. Die Zeile (Intercept) behandelt den Parameter β0. Die zweite Spalte mit dem Titel Estimate beinhaltet die gesch¨atzten Parame- terwerte. Die dritte Spalte mit dem Titel Std. Error zeigt den gesch¨atzten Standardfehler des Parameters an. In der letz- ten Spalte werden die daraus berechneten P-Werte dargestellt. Direkt nach dem P-Wert wird mit Sternchen dargestellt, auf welchem Signifikanzniveau der Parameter unterschiedlich von null ist.
Im letzten Abschnitt wird die Fehlervarianz σ^2 gesch¨atzt, f¨ur die Standardabweichung σ muss nat¨urlich die Wurzel gezogen werden. Nach der Fehlervarianz steht noch die Information on .. degrees of freedom. Sie sind wichtig f¨ur den t-Test. Die degrees of freedom entsprechen n − p, wobei n die Anzahl Be- obachtugen und p die Anzahl β ist, die man gesch¨atzt hat. Der F-Test sagt aus, ob es mindestens eine erkl¨arende Variable gibt, welche einen relevanten Effekt auf die Zielvariable hat.
Um einen t-Wert zu berechnen, nimmt man den Wert aus der ersten Spalte (Estimate) und rechnet minus den Wert aus der zweiten Spalte (Std. Error). Um das Vertrauensintervall zu be- rechnen, darf man nicht den t-Wert aus der R-Ausgabe nehmen, sondern sollte ihn in einer Tabelle nachschauen. Die Antwort auf die Frage, ob eine Hypothese verworfen wird, entnimmt man der letzten Spalte.