Nur auf Docsity: Lade Zusammenfassung Statistik und mehr Grafiken und Mindmaps als PDF für Statistik herunter!
STATISTIK I
- Einführung
- Vom Erhebungsinstrument zur Verteilung
- Kennzahlen von univariaten Verteilungen
- Kennzahlen von Zusammenhängen
- Grundlagen der Wahrscheinlichkeitsrechnung
- Wahrscheinlichkeitsverteilung
- Idee der Inferenzstatistik
- T-Tests
- Weitere Signifikanztests 1.EINFÜHRUNG: Inferenzstatistik: - Vielseitig einsetzbar
- Mit Hilfe der Inferenzstatistik können wir herausfinden, wie wahrscheinlich ein Ergebnis ist
- Ermöglicht das Testen von Hypothesen Deskriptive Statistik: - Beschreibt beobachtete Ereignisse und Zusammenhänge Regression: dient, um Unterschiede zu erklären
- Bestimmung von Effekten und deren Stärke
- Herausrechnen von Alternativerklärungen
- Analyse v. den Mechanismen hinter Zusammenhänge Schlüsselbegriffe: - Population: Gesamtheit der Fälle, über die eine Aussage getroffen werden soll
- Sample: Teil einer Population (Stichprobe)
- Fall: Einzelne Einheit des Samples/der Population
- Parameter: wahrer Wert einer Charakteristik in der Population (griechischen Buchstaben)
- Statistik: geschätzer Wert einer Charakteristik auf Basis des Samples
- Univariate Statistik: Betrachtung einer Variable
- Bivariate Statistik: Betrachtung d. Zusammenhangs zw. zwei Variablen
- Multivariate Statistik: simultane Betrachtung mehrer Variablen (und ihre Zshg)
2.VOM ERHEBUNGSINSTRUMENT ZUR VERTEILUNG:
Begriffe: Merkmal: Eigenschaft v. Untersuchungsobjekte Ausprägung: beobachtete Eigenschaft eines Untersuchungsobjektes Wertebereich: alle möglichen Ausprägungen eines Merkmals Operationalisierung: Verknüpfung v. theoretischen Begriffen mit empirisich beobachtbaren Sachverhalte durch Korrespondenzregeln Messung: Datengewinnung Codierung: erhobene Info wird auf Zahlen übertragen Datensatz: Sammlung von Untersuchungsobjekten und Variablen Variablen: - nimmt mindestens 2 Werte an
- empirische Ausprägungen→numerische Relative (Korrespondenzregeln u. Codierung)
- Ausprägungen sollten sich wechselseitig ausschliessen und exhaustiv sein Kategoriale Variablen: endlich viele Ausprägungen (Parteizugehörigkeit, Familienstand,Schulabschluss) →Nominalskalaniveau: gleiche oder ungleiche Ausprägungen, keine Ordnung; z.B. Ost/West, Familienstand, Partei, Geschlecht →Ordinalskalaniveau: Merkmalausprägungen stehen in geordneter Relation; z.B. Intensität einer Einstellung, Schulabschluss, subj. Schichteneinstufung Kontinuierliche Variablen: unendlich viele Ausprägungen, teilbar in beliebig kleine Einheiten (Alter, Einkommen, Fernsehdauer) →Intervallskala: Differenzen über konstante Abstände zw Skalenwerten definiert; z.B. Temperatur in Grad, Kalenderzeit, Geburtsjahr →Ratioskala: Verhältnisse definiert, absoluten Nullpunkt; z.B. Einkommen, Alter, Fernsehdauer Je höher das Skalenniveau, desto höher das Informationsgehalt Transformation von Skalenniveaus: Bsp: Geburtsjahr: - Durch Klassifizierung in Geburtskohorten übersetzt: vor 1945, 1945- 1968, 1968- 1990 → Informationsgehalt reduziert (jetzt ordinalskaliert)
- Durch Subtraktion vom aktuellen Kalenderjahr lässt s das Alter errechnen→ Informationsgehalt erhöht (jetzt ratioskaliert) Verteilungen von kategorialen Variablen: →mögliche Ausprägungen: K; Population→N →absolute Häufigkeit des Auftretens einer Kategorie: 𝑛𝑘
→bei ungerader Anzahl: 𝑥𝑅𝑎𝑛𝑔𝑝𝑙𝑎𝑡𝑧 = ( 𝑛+ 1 2
→bei gerader Anzahl: Mittelwert v 𝑥𝑅𝑎𝑛𝑔𝑝𝑙𝑎𝑡𝑧 = ( 𝑛 2 )^ u^ 𝑥𝑅𝑎𝑛𝑔𝑝𝑙𝑎𝑡𝑧^ =^ ( 𝑛 2 +^1 )
- Eigenschaften: minimiert den Gesamtabstand Robust gegen Ausreiβer Arithmetisches Mittel 𝑥̅ : Schwerpunkt der Verteilung (Durchschnitt)
- Variable muss mindestens kontinuierlich sein
- Eigenschaften: minimiert die Summe der quadrierten Abw. bei einer 0/1-Variable entspricht rel. Häufigkeit NICHT Robust gegen Ausreiβer (dafür: gestutztes /getrimmtes ar. Mittel) Weitere Lageparameter:
- geometrisches Mittel (mittlere Veränderung bei multiplikativen Prozesse)
- harmonisches Mittel (für Mittel v Indexangaben, z.B. durchschn. Geschwindigkeit)
- Mid-Range: Streuung: Wie stark unterscheiden sich Datenpunkte einer Verteilung? Wie gut charakterisiert ein Lageparameter die Verteilung? Varianz 𝑠^2 𝑢𝑛𝑑 𝜎^2 : durchschnittliche quadratische Abweichung von arith. Mittel →Für Rückschlüsse auf Population: empirisch beobachtete Varianz (𝑠^2 ) mit Freiheitsgerade (df = n − 1) korrigiert: →geschätzte Populationsvarianz (immer gröβer als SPVarianz) Wir quadrieren, weil: a)negative Zahlen wurden sich sonst ausgleichen und b)gröβe Abweichungen werden deutlicher
Standardabweichung s und 𝜎: Varianz unhandlich→durch Quadrierung Maβeneinheit verändert Entsprechend: geschätzte Standardabweichung: Variationskoeffizient V: Maβ der Streuung in Relation zur Skala (Vergleich v Stdabw über unterschiedliche Skalenniveaus/Verteilungen/Merkmale) (In Prozent ausgedruckt) Interquartilabstände: Perzentile→geben Werte an, innerhalb deren Grenzen bestimmte Anteile der Fälle liegen Quartile→teilen die Verteilung in Viertel 1.Quartil→25%-Perzentil (𝑥𝑝 25 ) 2.Quartil→50%-Perzentil (𝑥𝑝 50 ) (Median) 3.Quartil→75%-Perzentil (𝑥𝑝 75 ) Interquartilabstand (𝑥𝑝 25 − 75 ): Abstand, zwischen den 50% der Verteilungen liegen Bsp: 𝑥𝑝 75 = 𝑥𝑅𝑝 (𝑛· 0 , 75 )=... 𝑥𝑝 25 = 𝑥𝑅𝑝(𝑛· 0 , 25 ) =... IQR= 𝑥𝑝 75 − 𝑥𝑝 25 Box-Plots: Darstellung der Perzentile einer Verteilung Weitere Streuungsmassen: - Range (Abstand zw Minimum und Maximum)
- Dezil-Ratios ( 𝑥𝑝 90 𝑥𝑝 10
- Gini-Koeffizient Form der Verteilung: beschreibt die graphische Form
- Zellenprozente: Häufigkeiten ausgedrückt in Relation zu allen Beobachtungen
- Reihenprozente: Häufigkeiten ausgedrückt in Relation zur Randverteilung der Reihen (horizontal→100%)
- Spaltenprozente: Häufigkeiten ausgedrückt in Relation zur Randverteilung der Spalten (vertikal→100%) →bedingte Aussagen Cramér’s V: - jedes Skalenniveau; gibt Stärke an
- zwischen 0 und 1→ 0 = vollkommener Unabhängigkeit; kein Zshg → 1 = vollkommener Abhängigkeit; perfekter Zshg Goodman’s und Krusall’s Gamma (𝛾):
- ab ordinalem Skalenniveau (Rangordnung als Voraussetzung), Richtung+Stärke
- Logik d Paarvergleichs:-Jede Beob mit allen anderen Beob vergliechen
- Konkordante Paare (C): gröβe Werte in x entspr gröβe Werte in y (bei kleine Werte auch so)
- Diskordante Paare (D): gröβe Werte in x entspr kleine Werte in y (und umgekehrt)
- zwischen - 1 und 1→ 𝛾= - 1 ; je höher x, desto niedriger y → 𝛾= 0 ; kein Zusammenhang → 𝛾= 1; je höher x, desto höher y
Kendall’s Tau-B (𝜏𝑏): - Erweiterung von Gamma (𝛾), kleinere Werte→ordinalskaliert
- Richtung+Stärke
- Berücksichtigung v Ties im Nenner (x oder y im Paarvergleich gleich)
- zwischen - 1 und 1
Für Tau-B, V: r ≤ 0,05→kein Zusammenhang r ≤ 0,2→schwaches Zusammenhang r ≤ 0,5→mittleres Zshg r > 0,5→ starkes Zshg Assoziationsmaβe von kontinuierlichen Variablen: Scatter-Plot: grafische Veranschaulichung v Zshg zwischen 2 kont. Variablen
- jede Beobachtung→ein einzelner Punkt
→positive Assoziation: je mehr, desto mehr →keine Assoziation: kein Zshg →negative Assoziation: je mehr, desto weniger Kovarianz: durchschnittliches Produkt korresp. Abweichungen vom Mittelwert
- Gibt nur Richtung an
- Zentrierung→ergibt Abweichung vom Mittelwert →man kann Kovarianzen nicht vergleichen (verschiedene Maβstäbe) Korrelation: standarisiert die Kovarianz durch Stdabw der Variablen (Richtung+Stärke) zwischen - 1 und 1 →r = 1; perfekte positive Assoziation →r = 0; keine Assoziation →r = - 1; perfekte negative Assoziation Anmerkungen: - Zshg sind immer beidseitig
- Kovarianz+Korrelation→lineare Zshg →Info der Scatter-Plots zu Zahlen verdichtet
- Immer auch Scatter-Plot anschauen
- angewendeten Zshgsmaβ→Variable mit geringerem Skalenniveau →Likert-Skalen: als kontinuierlich interpretiert, obwohl ordinalskaliert, wenn symmetrisch, Visualisierung, >5 Kategorie
- Assoziationen→nicht hinreichende Bedingungen für Kausalität Bedingungen für Kausalität: 1.Statistische Assoziation 2.Zeitliche Abfolge (Ursache, dann Wirkung) 3.Plausible Erklärung für kausaler Mechanismus (Theorie) 4.Alternativerklärungen ausgeschlossen
- Frequentistische Definition der Wahrscheinlichkeit:
- Rel. Häufigkeit→Annäherung an die theor. Wahrscheinlichkeit
- mehr Wiederholungen des Experiments, besser→Gesetz der groβen Zahl
- Relative Häufigkeit: →𝑛𝑘: Häufigkeit der günstigen Ausgänge k →N: Anzahl der Wiederholungen Rechenregeln: 1.Additionstheorem: a)für sich wechselseitig ausschlieβende Ereignisse b) für sich nicht wechselseitig ausschlieβende Ereignisse: 2.Komplementärereignis: alle zum Ereignis entgegengesetzte Ereignisse →Bedingte Wahrscheinlichkeit: p für ein Ereignis, wenn ein anderes Ereignis →bezieht sich auf p eines reduzierten Ereignisraums →”A unter der Bedingung von B” →Def von Unabhängigkeit: 3.Multiplikationstheorem: a) bei abhängigen Ereignisse: b)bei unabhängigen Ereignissen: →Erwartungswert: gibt an, wie viele Beobachtungen eines Ereignissen man bei N Zufallsexperimente erwarten wurde
6.WAHRSCHEINLICHKEITSVERTEILUNG:
Häufigkeit & Wahrscheinlichkeit: Wahrscheinlichkeit: auf ein Zufallsexperiment bezogen Relative Häufigkeit: auf eine Serie von Zufallsexperimenten bezogen →Beziehung ensteht, wenn Zufallsexperiment häufig wiederholt wird (Serie) Bernoulli-Theorem: Wahrscheinlichkeit, dass sich rel. Häufigkeit eines Ereignisses A von der theoretischen Wahrscheinlichkeit p(A) um einen beliebig kleinen Betrag (e) unterscheidet; geht gegen 0, wenn n gegen ∞ geht (→Gesetz der groβen Zahl) →rel Häufigkeit: →theor. Wahrsch.: p(A) →e: strebt gegen 0 →n: strebt gegen ∞ Frequentistische Wahrscheinlichkeit: Wahrscheinlichkeit entspricht Grenzwert der rel Häufigkeit Verteilungen: Von der Stichprobe zur Population→Vorstellung, über wie wahrscheinlich Werte in der Stichprobe sind ist nötig →Wahrscheinlichkeitsverteilungen
- Verteilungen von Zufallsvariablen (nicht beobachtete Verteilung); Zufallsvariablen als Funktion in der Population (ein Zufallsexperiment wird reellen Zahlen zugeordnet) Verteilungsfamilien: - Kategoriale Variablen: ( Binomialverteilung → zwei Ereignisse mit gleichbleibenden Wahrscheinlichkeiten...)
- Kontinuierliche Variablen: ( Normalverteilung, t-Verteilung...) Binomialverteilung: kategorialen Variablen Basiert auf Bernoulli-Experiment (Zufall, 2 Elementarereignisse, gleiche Wahrscheinlichkeit nicht unbedingt) Bernoulli-Prozess: Serie von Bernoulli-Experimente (Wahrscheinlichkeite ist konstant, Unabhängigkeit→ i.i.d.) Formel der Binomialverteilung: P(x=k | n)→Wahrscheinlichkeit k Beobachtungen aus n Bernoulli-Experimente “n über k”→Binomialkoeffizient (Anzahl der günstigen Kombinationen) p→ Wahrscheinlichkeit für günstiges Ereignis (1-p)→Gegenwahrscheinlichkeit (p für ungünstiges Ereignis) Jede einzelne Permutation (Kombination des Ereignisses):
7. IDEE DER INFERENZSTATISTIK:
→Aussagen über Mittelwert in der Population aus einer Stichprobe Stichprobenverteilung:
- Zufallsauswahl (jede Einheit aus Population hat die selbe Wahrscheinlichkeit, gezogen zu werden; unabhängig)(i.i.d.) Zentrales Grenzwerttheorem: Aus der selben Grundgesamtheit unterschiedlichen Stichproben gezogen→Mittelwerte der Stichproben sind normalverteilt →unabhängig v Verteilung des Merkmals →für n ≥ 30 und n ≥ 120 Mittelwertsverteilung: →Verteilung der Mittelwerte aus theoretisch unendlich vielen Stichproben →normalverteilt Parameter: Mittelwert der Mittelwertverteilung ( 𝑥̅𝑥̅ ) und Stdabw der MWV (𝜎𝑥̅ ) Mittelwert einer Stichprobe→Schätzer für Mittelwert der MWV Mittelwert der MWV→wahren Mittelwert in Population ABER Standardabweichung der MWV unbekannt→aus Stichprobe geschätzt →je stärker Streuung in Population, desto stärker Streuung der SP Standardfehler: (Stdabw der MWV)
Varianz in der Population: 𝜎̂ 2 = 𝑠^2 ·
𝑛 𝑛− 1 Konfidenzintervalle: Schätzung ist unsicher→Intervall für die Schätzung →In 95 von 100 SP liegt der wahre Populationsmittelwert 𝜇 im Bereich: →In 99 von 100 SP liegt der wahre Populationsmittelwert 𝜇 im Bereich: →In 66 von 100 SP liegt der wahre Populationsmittelwert 𝜇 im Bereich: →Je gröβer die Sicherheit, dass Populationsparameter im Intervall liegt, desto gröβer das Intervall
Für Anteilswerte: Gesucht ist Wahrscheinlichkeit in Population 𝜋 f(x)=𝑝̂ = 𝜋 (rel. Häufigkeit→Schätzung für Anteilswert in der Population) Standardfehler v Anteilswerten: Für n·p·(1-p)≥ 9 →Konfidenzintervall der Binomialverteilung über Normalverteilung bestimmt Hypothesen aufstellen: Alternativhypothese (𝐻 1 ): widerspricht andere Theorien/ ergänzt den bestehenden Wissensstand Nullhypothese (𝐻 0 ): Negativhypothese, komplementär zu Alternativhypothese (sollte spezifisch sein) Ungerichtete Hypothese: Unterschied oder kein Unterschied? = / ≠ →zweiseitiger Test (2,5-2,5) Gerichtete Hypothese: Gröβer bzw. Kleiner? ≥, < Spezifische Hypothesen: Enthalten Gleichheitsaussage →immer auf Populationsparameter bezogen ( 𝜇, 𝜎̂ , 𝜎̂ 2 ) 𝛼-Fehler-Wahrscheinlichkeit: Stichprobe spricht für H1, in Population gilt H β-Fehler-Wahrscheinlichkeit: Stichprobe spricht für H0, in Population gilt H Irrtumswahrscheinlichkeit: Wenn H0 in der Population gelten würde, wie wahrscheinlich wäre es, H1 zu beobachten? Bei einer 𝛼-Fehler-Wahrscheinlichkeit →von 5% → signifikanten Ergebnis →von 1% → sehr signifikanten Ergebnis Kritische z-Werte bei Normalverteilung: →bei ungerichteter Hypothese: 1,96 und 2, →bei gerichteter Hypothese: 1,64 und 2,
8.T-TESTS:
1.Stichprobenmittelwerte vs Populationsmittelwert: Unterscheidet sich der Stichprobenmittelwert signifikant vom Populationsmittelwert? (Gegeben der H0, wie wahrscheinlich wäre es, den Stichprobenmittelwert zu erhalten?) Standardfehler (Stdabw der MWV) Geschätzte Populationsvarianz:
𝜎̂ 2 = 𝑠^2 ·
𝑛 𝑛− 1 →zweiseitiger Test (2,5-2,5/0,5-0,5), wenn ungerichtete Hypothese →einseitiger Test (5/1), wenn gerichtete Hypothese 2.T-Test für unabhängige Stichproben: Ist ein Unterschied zwischen den Mittelwerten der Stichproben auch in der Population zu vermuten? (Wie hoch ist die Wahrscheinlichkeit, den Mittelwertsunterschied zu beobachten, wenn in der Population H0 gelten würde?) Form des t-Tests: →df=n1+n2-2 (Varianzen gleich) →df=? (Varianzen ungleich) Gegeben: - Wahrscheinlichkeitsverteilung der MWD unter der H0 ist normalverteilt
- Erwartungswert ist gleich 0 (abgeleitet aus der H0) Gesucht: Standardfehler der Verteilung der Mittelwertsdifferenzen Stdabw der Mittelwertsdifferenzen: (sofern Varianzen in der Population bekannt) ABER! Streuung in der Population selten bekannt (F-Test): a)Annahme, dass Varianzen in der Population gleich: Gepoolte Varianz: → b)Varianzen nicht gleich (Nachteil: Freiheitsgrade schwer bestimmbar):
→Varianzen beider Teilgruppen separat geschätzt (über Korrektur der Stichprobenvarianz)
- t-Test für abhängige Stichproben: Vergleich des Mittelwerts v Differenzen zwischen Stichproben mit Mittelwert v Differenzen in Population (Ist durchschnittlicher Unterschied zwischen den Stichproben signifikant verschieden vom durchschnittlichen Unterschied der Population?)→Beobachtungspaare 1.Differenzen zwischen Stichproben ausrechnen 2.Mittelwert der Differenzen und Varianz der Differenzen Form des t-Tests: →df= nd- 1 Standardfehler der Mittelwertsdifferenzen: Zusammenfassung t-Tests: 1.Hypothesen aufstellen 2.Kennwerte rausschreiben 3.Standardfehler schätzen 4.Freiheitsgrade berechnen 5.t-Test berechnen (Wie viele Stdfehler ist die Stichprobe v der H0 entfernt?) 6.Vergleichen mit kritischen t-Werten für 5%/1% 𝛼-Fehler-Wahrscheinlichkeit (!: gerichtete/ungerichtete Hypothese→einseitiger/zweiseitiger Test) 7.Antwortsatz →signifikantes Ergebnis wahrscheinlicher, je... ...gröβer der Unterschied zw Mittelwerten und Inhalt der H ...kleiner die Varianz (groβe Varianz→↑ Unsicherheit um MW ...gröβer n (Gesetz der groβen Zahl)
Beobachtungen→unabhängig voneinander Cramér’s V: →min(K,J)→das kleinere n-Wert