Docsity
Docsity

Prüfungen vorbereiten
Prüfungen vorbereiten

Besser lernen dank der zahlreichen Ressourcen auf Docsity


Download-Punkte bekommen.
Download-Punkte bekommen.

Heimse Punkte ein, indem du anderen Studierenden hilfst oder erwirb Punkte mit einem Premium-Abo


Leitfäden und Tipps
Leitfäden und Tipps

Zusammenfassung und wichtige Formeln zu Statistik 1, Zusammenfassungen von Statistik

Zusammenfassung der Vorlesung Statistik 1 (Stand Frühjahrssemester 2017)

Art: Zusammenfassungen

2019/2020

Hochgeladen am 25.06.2020

Carola_Bretall
Carola_Bretall 🇩🇪

4.6

(23)

1 / 10

Toggle sidebar

Vollständiges Dokument herunterladen

durch Erwerb eines Premium-Tarifplans

und hol dir die Punkte, die dir in 48 stunden

bg1
Zusammenfassung Statistik 1 - FS17
G.E.
Januar 2018
Vorwort
Diese Zusammenfassung soll den gesamten Stoff der Vorlesung Statistik 1 (Stand Frühjahrssemester 2017) in kompakter Form ent-
halten und soll an der Basisprüfung verwendet werden können. Ich kann leider weder Vollständigkeit noch die Abwesenheit von
Fehlerngarantieren
1
pf3
pf4
pf5
pf8
pf9
pfa

Unvollständige Textvorschau

Nur auf Docsity: Lade Zusammenfassung und wichtige Formeln zu Statistik 1 und mehr Zusammenfassungen als PDF für Statistik herunter!

Zusammenfassung Statistik 1 - FS

G. E.

Januar 2018

Vorwort

Diese Zusammenfassung soll den gesamten Stoff der Vorlesung Statistik 1 (Stand Frühjahrssemester 2017) in kompakter Form ent- halten und soll an der Basisprüfung verwendet werden können. Ich kann leider weder Vollständigkeit noch die Abwesenheit von Fehlerngarantieren

1 Hypothesentest

1 ) Modell 2 ) Nullhypothese und Alternative 3 ) Teststatistik 4 ) Signifikanzniveau α 5 ) Verwerfungsbereich der Teststatistik K 6 ) Testentscheid

2 Modelle für Zähldaten

2.1 Wahrscheinlichkeitsmodelle

  • Grundraum Ω, Elemantarereignisse w
  • Ereignis: Teilmenge von Ω
  • Wahrscheinlichkeit für jedes Ereignis

AB (oder); AB (und); Ac^ , A (nicht A) Zwei Mengen sind disjunkt, wenn sie kein gemeinsames Element besitzen. Axiome:

1) P ( A ) ≥ 0 2) P (Ω) = 1 3) P ( AB ) = P ( A ) + P ( B ) ⇐= AB = {} = ;

2.1.1 Wahrscheinlichkeit berechnen

1 ) Summe von Elementarereignissen

P ( A ) =

∑^ i n = 1

P ( wi ) = 1

2 ) Laplace Modell: El.ereignisse gleich wa.

P ( A ) =

g unst i g er El ¨. er ei g ni sse

m og l i cher El ¨. er ei g ni sse

3 ) Mengenoperationen / Venn-Diagramme: z.B. Gegenereignis ( A und AC^ )

2.2 Unabhängigkeit

A , B sind unabhängig, wenn das Auftreten von A die Wa. von B nicht beeinflusst ⇐⇒ P ( AB ) = P ( A ) ∗ P ( B )

2.3 Bedingte Wahrscheinlichkeit

Die bedingte Wahrscheinlichkeit von Ereignis A wenn B eingetreten ist, wird mit P ( A | B ) bezeichnet. Es gilt:

P ( Ac^ | B ) = 1 − P ( A | B ) Satz von Bayes: P ( A | B ) =

P ( A ∩ B )
P ( B )
P ( B | A ) ∗ P ( A )
P ( B )
B P ( A | B ) 6 = P ( B | A )

Satz der totalen Wahrscheinlichkeiten: P ( X ) = P ( X | K ) ∗ P ( K ) + P ( X | K c^ ) ∗ P ( K c^ )

  • odd s ( E ) = (^1) − P^ P ( E (^ E ) )
  • l ogodd s ( E ) = l n ( odd s ( E ))
  • odd sRat i o = odd s odd s (( EE^ || GG ==1)2) mit Ereignisgruppen G = 1 und G = 2

2.4 Zufallsvariable

Funktion Ω æ ℜ ; X : A −→ X ( A ) = x

  • Grossbuchstabe: X = Funktion
  • Kleinbuchstabe: x = konkreter Wert P ( X = x ) = P ({ w | X ( w ) = x }) ;

al l e x

P ( X = x ) = 1

2.5 Binomialverteilung

Allgemein gilt: n = #Lose; x = #Gewinne; π = #Wa. Gewinn

  • Binomialkoeffizient:

( n x

= (^) x !( nn −! x )!

  • Binomialverteilung:

( n x

πx^ ∗ (1 − π ) nx

  • Erwartungswert: E ( X ) =
  • Varianz: V ar ( X ) = (1 − π )

2.6 Kennzahlen einer Verteilung

  • Erwartungswert: E ( X ) =

P ( X = x ) ∗ x Sind X , Y unabhängig so gilt: E ( aX + bY + c ) = aE ( X ) + bE ( Y ) + c

  • Varianz: V ar ( X ) = E [( XE ( X ))^2 ]

P ( X = x ) ∗ [ xE ( x )]^2 V ar ( aX + bY + c ) = a^2 V ar ( X ) + b^2 V ar ( Y )

  • 2 abC ov ( X , Y )
  • Standardabweichung: σX =

p V ar ( X )

2.7 Diskrete Verteilung

  • Binomialverteilung: XBi n ( n , π ) (→ siehe Kapitel 2.5)
  • Uniforme Verteilung: alle Ereignisse gleiche Wa. (→ siehe Kapitel 4.3.1) - XUni f ( n ) - P ( X = x ) = (^) n^1 , {1, 2, · · · , n } - E ( X ) = n + 2 1 , V ar ( X ) = ( n +1)( 12 n −1)
  • Poissonverteilung: vergleichsweise seltene Ereignisse während eines be- stimmten Zeitraums. - XPoi s ( x ) - P ( X = x ) = λ

x (^) eλ x! ( x^ =^ 0, 1, 2,.. .)

- E ( X ) = λ , V ar ( X ) = λ Die Summe zwei voneinander unabhängigen und poisson-verteilten Zufallsvariablen ist ebenfalls poisson-verteilt: XPoi sson ( λX ), YPoi sson ( λY ) → X + YPoi s ( λX + λY )

  • Hypergeometrischer Verteilung: Urne, N Kugeln, m markiert, n ziehen ohne zurücklegen, wieviele mar- kierte? Die Chance eine Markierte Kugel zu ziehen verändert sich nach jedem Zug. Bei sehr grossen N ist dies aber vernachlässigbar und die Binomialvertei- lung ist eine gute Approximation. - XH y per ( N , n , m ) - P ( X = x ) = (

m x )( Nm nx ) ( Nn ) , {0, 1,... , min( n , m )}

- E ( X ) = nm N , V ar ( X ) = nm ( NN − (^2) ( mN −)(1) N^ − n )

3 Statistik für Zähldaten

3.1 Drei Grundfragen

  • Bester Schätzwert für Parameter → Punktschätzung
  • Sind Beobachtungen und gewisse Parameterwerte kompatibel? → Hypothesentest
  • In welchem Bereich liegt Parameter? → Vertrauensintervall (VI)

3.2.3 Vertrauensintervall (VI, engl. CI)

Def. 1: Die Werte von π 0 bei denen H 0 nicht verworfen wird auf α , sind (1 − α )−VI für π Def. 2: Ein (1 − α )−VI enthält den wahren Parameter mit Wahrscheinlichkeit 1 − α.

Für α = 0.05 (95%-VI) kann die Normalapproximation be- nutzt werden. Dabei wird z = 1.64 für ein einseitiges VI und z = 1.96 für das zweiseitige VI eingesetzt:

I ≈

x n ± z

x n^2

x n

3.2.4 Vorhersage- und Vertrauensintervall

Das 95%-Vorhersageintervall für ein Ereignis ist in der Re- gel grösser als das 95%-Vertrauensintervall für das erwarte- te Ereignis. Ersteres gibt den Bereich für den wahren Wert bei einer Messung an, während letzteres bei vielen Wieder- holungen einer Messung mit der Wahrscheinlichkeit 1 − α angibt, dass der Wert darin liegt.

4 Modelle und Statistik für Messdaten

4.1 Deskriptive Statistik

4.1.1 Kennzahlen

Das α -Quantil ist der Wert , bei dem α ∗ 100% der Daten- punkte kleiner als sind. q 0.5 = “Median”, q 0.25 = “1. Quartil”, q 0.75 = “3. Quartil" Besteht unser Datensatz aus geordneten Werten x (1) ≤ x (2) ≤... ≤ x ( n ), können empirische α -Quantile wie folgt berechnet werden: 1 2

x ( αn ) + x ( αn +1)

wenn αn ∈ Z x ( αn + 12 )^ gerundet auf ganze Zahl wenn αn ∉ Z

Kennzahlen für die Lage arithmethische Mittel: ¯ x = (^) n^1 ∑ n i = 1 xi Median: q 0.5 (robust)

Kennzahlen für die Streuung empirische Standardabweichung:

sx =

n − 1

∑^ n i = 1

( xix ¯)^2

Inter-Quartile Range ( IQR ): IQR = q 0.75 − q 0.25 (robust)

Kennzahlen für linearen Zusammenhang V ar ( X ) = E (( Xμx )^2 ) wobei μx = E ( X ) Kovarianz: C ov ( X , Y ) = E [( XE ( X )) ∗ ( YE ( X ))] = E ( XY ) − E ( X ) ∗ E ( Y ) mit C ov ( X , X ) = V ar ( X ) Korrelation = “skalierte Kovarianz” Misst Stärke und Richtung von linearer Abhängigkeit. Kor- relation ∈ [−1, 1] ρX Y = C or r ( X , Y ) = C ov σx ( ∗ ^ , Yy^ ) C or r ( X , Y ) = 1 ←→ Y = a + bX , b > 0 C or r ( X , Y ) = − 1 ←→ Y = a + bX , b < 0 X , Y unabhängig −→ C or r ( X , Y ) = 0

empirische Korrelation:

rX Y = sX Y sXsY

, sX Y =

n i = 1 ( xi^ −^ x ¯)^ ∗^ ( yi^ −^ y ¯) n − 1 Standardisierung: Ein Datensatz kann standardisiert wer- den, so dass arithmetisches Mittel gleich Null und Standard- abweichung gleich 1 sind.

zi = xix ¯ sX

, ( i = 1,... , n )

4.1.2 Grafische Methoden

Histogramm: Klassen konstanter Breite; Anzahl Be- obachtungen pro Klasse; Balken proportional zur Anzahl Beobachtungen in der jeweiligen Klasse

Boxplot: Rechteck, dass von den empirischen 25%- und 75%-Quantilen begrenzt wird; Linien, welche von dem Rechteck bis zum kleinsten bzw grössten Wert reichen, der höchstens 1.5 mal die Quartilsdifferenz von einem der beiden Quartile entfernt ist; Ausreisser sind als Ster- ne aufgeführt; ein Strich, welcher den Median anzeigt

empirische kumulative Verteilungsfunktion F n (·): Treppen- funktion, die bei jedem x ( i ) einen Sprung der Höhe (^1) n oder eines Vielfachen bei mehrfachem Auftreten des jeweiligen Wertes macht

Fn ( x ) =

n

Anzahl{ i | xix }

Streudiagramm: Datenpunkte i mit Koordina- ten ( xi , yi ) werden in einer Ebene dargestellt

4.2 Stetige Zufallsvariablen und

Wahrscheinlichkeitsverteilung

Wertebereich stetig → P ( X = x ) = 0 für alle x 

4.2.1 Wahrscheinlichkeitsdichte

P ( Xx ) =: F ( x ) kumulative Verteilungsfunktion f ( x ) = (^) d xd F ( x ) Wahrscheinlichkeitsdichte

F ( x ) =

x

−∞

f ( x ′) d x

4.2.2 Kennzahlen

E ( X ) =

−∞

x f ( x ) d x ; V ar ( X ) = E (( XE ( X ))^2 )

σx =

V ar ( X ) ; Quant i l : = F −^1 ( α )

4.3 Wichtige stetige Verteilung

4.3.1 Uniforme Verteilung

XUni f or m ([ a , b ]) Jeder Wert im Intervall [a,b] ist gleich wahrscheinlich.

f ( x ) =

ba a^ ≤^ x^ ≤^ b 0 sonst

F ( x ) =

0 x < a xa ba a^ ≤^ x^ ≤^ b 1 x > b

E ( X ) = a + b 2

, V ar ( X ) = ( ba )^2 12

, σX = ba p 12

4.3.2 Exponentialverteilung

XE xp ( λ ) “Wartezeit auf Ausfälle” X mit Wertebereich Wx = ℜ+^ = [0, ∞) ist exponentiell ver- teilt mit Parameter λ ∈ ℜ+^ ( X ), falls

f ( x ) =

λeλx^ x ≥ 0 0 x < 0

F ( x ) =

1 − eλx^ x ≥ 0 0 x < 0

E ( X ) =

λ

, V ar ( X ) =

λ^2

, σX =

λ

4.3.3 Normal- oder Gauss-Verteilung

X ∼ N ( μ , σ^2 ) Häufigste Verteilung für Messwerte X mit Wertebereich Wx = ℜ ist normalverteilt mit Parame- ter μ ∈ ℜ und σ^2 ∈ ℜ+^ falls

f ( x ) =

σ

p 2 π

exp

( xμ )^2 2 σ^2

Die kumulative Verteilungsfunktion ist nicht explizit dar- stellbar und wird deswegen tabelliert. Dabei reicht eine Ta- belle für die Standard-Normalverteilung da jede Normalver- teilung immer in eine Standard-Normalverteilung transfor- miert werden kann (siehe Standardisierung einer Zufallsva- riablen weiter unten).

E ( X ) = μ , V ar ( X ) = σ^2 , σX = σ

Standard-Normalverteilung Die Normalverteilung mit μ = 0 und σ^2 = 1 heisst Standard-Normalverteilung. Dichte und kumulative Verteilungsfunktion sehen wie folgt aus:

φ ( x ) =

p 2 π

exp

x^2 2

, Φ( x ) =

x

−∞

φ ( y ) d y

P-Wert : p = P ( T > t ) = 1 − Ftn − 1 ( t ) Beachte: P ( T > t ) = 1 − P ( T <= t ), P ( T >= t ) = 1 − P ( T < t ) Ftn − 1 kann aus der Tabelle ausgelesen werden. Dazu sucht man in der Zeile n − 1 nach der Bedingung (z.B. T > 2.228). Die dazugehörige Spalte ( t 0.975) gibt einem den p-Wert an: p = 1 −0.975 = 0.025. Bei einem zweiseitigen Test währe p = 2(1 − 0.975) = 2 ∗ 0.05 = 0.05.

Vorzeichentest (Binomialtest)

1 ) Modell : X 1 ,... , Xn i i d wobei X 1 eine beliebige Ver- teilung hat. 2 ) Nullhypothese H 0 : μ = μ 0 ( μ ist der Median)

Verteilung unter H 0 V ∼ Bi n ( n , π 0 ) mit π 0 = 0.

Alternative HA : μ 6 = μ 0 (oder < oder >) 3 ) Teststatistik V : Anzahl Xi mit Xi > μ 0 4 ) Signifikanzniveau : α 5 ) Verwerfungsbereich von T : μ 6 = μ 0 : K = [0, cu ] ∪ [ co , n ] cu und co müssen mit der Binomialverteilung oder der Normalapproximation berechnet werden. 6 ) Testentscheid : Überprüfen, ob Wert im Verwerfungs- bereich liegt

Wilcoxon-Test

  • Kompromiss, der Normalverteilung nicht voraussetzt (t-Test) aber die Information der Daten besser aus- nützt als der Vorzeichentest.
  • Annahme: XiF i i d , F ist symmetrisch
  • Teste Median μ : H 0 : μ = μ 0
  • Intuition der Teststatistik - Rangiere | xiμ 0 | → ri - Gib Rängen ursprüngliches Vorzeichen von ( xiμ 0 ) (“signed ranks”) - Teststatistik: Summe aller Ränge, bei denen ( xiμ 0 ) positiv ist.
  • Falls H 0 stimmt, sollte Summe weder zu gross noch zu klein sein.

4.5.3 Vertrauensintervall für μ

95%-VI werden nach dem folgenden Schema berechnet. Dabei

μ 6 = μ 0 : [ cu , co ] μ < μ 0 : [−∞, co ] μ > μ 0 : [ cu , ∞]

B In der folgenden Formel für zweiseitiges Vertrauensin- tervall α /2 statt α verwenden.

co / u = xn ± t ( n −1,1− α ) σ^ ˆ X p n

= xn ± Φ−(1^1 − α ) σX p n B Die Formel mit t und ˆ σX gilt für den t-Test (geschätztes σ ) und diejenige mit Φ−^1 und σX für den z-Test (bekanntes σ ). Für Φ−^1 siehe Kapitel 6.

4.6 Test bei zwei Stichproben

4.6.1 Vergleich gepaarter und ungepaarter t-Test

Bei gepaarten Stichproben kann auch der ungepaarte t-Test verwendet werden. gepaart ungepaart gleich grosse Stichproben können, müssen aber nicht gleich gross sein klare Zuordnung (rechts - links, vorher - nachher)

keine Zuordnung

mehr Macht weniger Macht

4.6.2 Gepaarte Stichproben

Sind Daten gepaart (z.B. Messung vor und nach der Einnah- me eines Medikamentes), arbeitet man mit den Differenzen innerhalb der Paare (Test für eine Stichprobe).

ui = xiyi ( i = 1,... , n )

4.6.3 Ungepaarte Stichproben

Sind Daten ungepaart wendet man den ungepaarten t-Test an. 1 ) Modell :

X 1 ,... , Xn i i d ∼ N ( μX , σ^2 ) Y 1 ,... , Ym i i d ∼ N ( μY , σ^2 )

2 ) Nullhypothese H 0 : μX = μY Alternative :

  • HA : μX 6 = μY (zweiseitig)
  • HA : μX > μY (einseitig)
  • HA : μX < μY (einseitig) 3 ) Teststatistik T :
T =

X (^) nY (^) m Spool

p 1/ n + 1/ m

S^2 pool =

n + m − 2

( n − 1) ˆ σ^2 x + ( m − 1) ˆ σ^2 y

Verteilung der Teststatistik unter H 0 : Ttn + m − 2 4 ) Signifikanzniveau : α 5 ) Verwerfungsbereich von T :

  • μX 6 = μY : K = (−∞, − tn + m −2;1− α 2 ] ∪ [ tn + m −2;1− α 2 , ∞)
  • μX > μY : K = [− tn + m −2;1− α , ∞)
  • μX < μY : K = (−∞, tn + m −2;1− α ] 6 ) Testentscheid : Überprüfen, ob Wert im Verwerfungs- bereich liegt

Zwei-Stichproben t-Test bei ungleichen Varianzen (Welch-Test) In den meisten Fällen erhält man ähnliche P-Werte wie unter der Annahme von gleichen Varianzen.

X 1 ,... , Xn i i d ∼ N ( μX , σ^2 X ) Y 1 ,... , Ym i i d ∼ N ( μY , σ^2 Y )

Zwei-Stichproben Wilcoxon-Test (Mann-Whitney-Test)

X 1 ,... , Xn i i dFX Y 1 ,... , Ym i i dFY

Wobei FX eine beliebige Verteilungsfunktion und FY ( x ) = FX ( xδ ) (d.h. Verteilungen sind identisch aber um δ ver- schoben). Die Berechnung des P-Werts sollte mit dem Com- puter erfolgen.

4.7 Multiples Testen: Bonferroni Korrektur

Gesucht ist eine Liste mit der Eigenschaft P (mindestens ein Fehler 1. Art) ≤ α. Die Bonferroni Korrek- tur setzt das Signifikanzniveau auf (^) , wobei m die Anzahl Tests ist. Der Nachteil besteht darin, dass die Liste zu “kon- servativ” sein kann und keine beobachteten Werte mehr enthält.

P

m i = 1

Fi

∑^ m i = 1

P ( Fi ) =

∑^ m i = 1

α m = α

5 Regression

5.1 Einfache Lineare Regression

Aus dem Datensatz soll ein linearer Zusammenhang gefun- den werden. Dabei sind die Fehler um die Gerade herum normal verteilt. Das Modell kann die folgende Form haben:

yi = β 0 + β 1 xi + ǫi , ǫi ∼ N (0, σ^2 ) i i d

Sind die β ’s nicht wie oben linear (z.B. keine exp ( βxi ) oder l og ( β 0 + β 1 xi + ǫi )), so ist das Modell ebenfalls nicht linear. # Datenpunkte = degrees of freedom (dof) + # β ’s Koeffizienten: β ˆ = σ ( β ˆ) ∗ t ( β ˆ) 95%-VI genau: V I ( β ) = β ± td f ,0.975 ∗ σ ( β ) approximativ: V I ( β ) = β ± 2 ∗ σ ( β ) Verwerfungsbereich :

K ( β ) =

−∞, − tn −2,1− α 2

]
[

tn −2,1− α 2 , ∞

p-Wert: Bsp: t ( β 0 ) = β 0 / σ ( β 0 ) = −0.419/0.246 = −1. − t 47,1−(p-Wert/2) = −1.7 → t 47,1−(p-Wert/2) = 1.7 → Tabelle t 47,0.95 = 1.7 → p-Wert/2 = 0.05 → p-Wert = 0.

Erwartetes yi : x , β 0 und β 1 in yi = β 0 + β 1 xi einsetzen

5.2 R-Output bei Linearer Regression

Estimate: β ˆ 0

Std. Error: Standardfehler σ ( β ˆ)

t value: t-Wert

Pr(>|t|): p-Wert

(Intercept) β 0

Zeile darunter: β 1

5.3 Tukey-Anscombe-Plot

Der Tukey-Anscombe-Plot zeigt die Fehlervarianz über die ganze Breite der Daten an.

5.3.1 Konstante Fehlervarianz

5.3.2 Nicht Konstante Fehlervarianz

5.4 QQ-Plot und Histogramm: Verteilungen

Rechtsschief: Median < Erwartungswert, rechts flacher Linksschief: Median > Erwartungswert, links flacher

8 TI-83/

8.1 binompdf und binomcdf

DISTR: 2nd → VARS

  • binompdf: Wahrscheinlichkeitsfkt. der Binomialverteilung
  • binomcdf: Verteilungsfkt. der Binomialverteilung

X ∼ Binom( n , π )

  • P[ X = x ] ⇒ binompdf( n , π , x )
  • P[ Xx ] ⇒ binomcdf( n , π , x )
  • P[ X < x ] ⇒ binomcdf( n , π , x − 1)
  • P[ Xx ] ⇒ 1 −binomcdf( n , π , x − 1)
  • P[ X > x ] ⇒ 1 −binomcdf( n , π , x )

8.2 poissonpdf und poissoncdf

DISTR: 2nd → VARS

  • poissonpdf: Wa.fkt.
  • poissoncdf: Verteilungsfkt. X ∼ Poisson( m , x ) m oder λ : Mittelwert x : konkreter Wert Berechnung analog zu 8.

8.3 Binomialkoeffizient und Fakultät

MATH ( → PRB

n x

n nCr x oder (^) x !( nn −! x )!

8.4 Tests

Daten müssen in Listen gespeichert werden. z.B.: {15, 8, −1, 2} → L 1 {: 2nd → ( }: 2nd → ) →: STO> Lx : 2nd → STAT (LIST) Freq(1/2) immer = 1 STAT → TESTS

  • z-Test...
  • t-Test...
  • 2-SampTTest...: ungepaarter t-Test (immer mit Pooled: Yes)