




































Besser lernen dank der zahlreichen Ressourcen auf Docsity
Heimse Punkte ein, indem du anderen Studierenden hilfst oder erwirb Punkte mit einem Premium-Abo
Prüfungen vorbereiten
Besser lernen dank der zahlreichen Ressourcen auf Docsity
Download-Punkte bekommen.
Heimse Punkte ein, indem du anderen Studierenden hilfst oder erwirb Punkte mit einem Premium-Abo
Community
Finde heraus, welche laut den Docsity-Nutzern die besten Unis deines Landes sind
Kostenlose Leitfäden
Lade unsere Leitfäden mit Lernmethoden, Hilfen zur Angstbewältigung und von Docsity-Tutoren erstellte Tipps zum Verfassen von Haus- und Abschlussarbeiten kostenlos herunter
Statistische Formelsammlung von Prof. Dr. Irene Rößler.
Art: Skripte
1 / 44
Diese Seite wird in der Vorschau nicht angezeigt
Lass dir nichts Wichtiges entgehen!
Weitere Beispiele und ausführliche Erläuterungen sowie detaillierte Lösungen der Aufgaben im Buch: Rößler/Ungerer (2016): Statistik für Wirtschaftswissenschaftler Springer Gabler
Übungsaufgaben zu Kapitel 4 und 5 des Buches unter www.prof-roessler.de/Dateien/Statistik/uebungsaufgaben.pdf
1 Grundlagen 1
1 Grundlagen
Statistik, als Methodenlehre und nicht als Zahlenergebnis verstanden ist eine wissenschaftliche Disziplin, die sich mit der Entwicklung und Anwendung von Verfahren zur Gewinnung, Beschreibung und Analyse von in Zahlen abbildbaren empirischen Befunden beschäftigt. Sie soll in einem Entscheidungsprozess informative Daten liefern; insbesondere soll sie helfen, Theorien an der Realität zu überprüfen.
Gestaltungsbeschränkung durch Rahmenbedingungen (z.B. rechtliche) und ein „ökonomisches Prinzip“ (Abwägung: aktuell–billig–genau).
Merkmalsart Skala Interpretation Transformation Beispiel rein quali- tativ
Nominal- skala
eineindeutige Transforma- tionen
Beruf, Fachrichtung, Famili- enstand, Geschlecht, Körper- größe(?) qualitativ kom- parativ
Ordinal- skala
streng mono- tone Transfor- mationen
Note, Kreditranking, Zufrie- denheitsgrad, soziale Schicht, Körpergröße(?) Intervall- skala
lineare Trans- formationen y = ax + b, a > 0
◦Celsius, Normabweichung, Altersjahrgang, Körpergrö- ße(?)
quantitativ Verhältnis- skala
linear-homoge- ne Transforma- tionen y = ax, a > 0
◦Kelvin, Alter in Jahren, Ein- kommen, Preis, Körpergröße
1 Grundlagen 2
Bsp.: Tab... Wohnbevölkerung der Stadt XY am 30.02.20.. (in Tsd.)
Geschlecht Familienstand Insgesamt ledig verheiratet verwitwet geschieden männl. 102 89 5 4 200 weibl. 109 90 15 6 220 Insgesamt 211 179 20 10 420
Quelle: Städtestatistisches Amt XY
Balkendiagramm Flächendiagramm
Streuungsdiagramm Kurvendiagramm
Aufgabe
^1
Erstellen Sie ein Kreisdiagramm des Merkmals Familienstand für das obige Beispiel der Wohnbevölkerung.
2 Deskriptive Statistik: Univariate Verteilungen 4
2 Deskriptive Statistik: Univariate Verteilungen
Die erste Stufe einer Auswertung erhobener Daten umfasst die sinnvolle Ordnung der Merkmalswerte bzw. ihre Zusammenfassung zu Gruppen mit gleichen Merkmalsausprägungen. Die tabellarische oder grafische Darstellung der Häufigkeiten des Auftretens von Merkmalsausprägungen heißt Häufigkeitsverteilung.
Begriffe Symbole
Statistische Masse (Grundgesamtheit) be- steht aus statistischen Einheiten mit densel- ben Identifikationsmerkmalen.
Umfang: n (N) durchnummerierte (verschlüsselte, an- onymisierte) statistische Einheiten: i = 1 , 2 ,... , n (N)
Urliste enthält Beobachtungswerte des Merkmals X von n statistischen Einheiten.
a 1 ,... , ai,... , an
Merkmalsausprägungen des Merkmals X x 1 ,... ,^ x^ j,... ,^ xm
absolute Häufigkeit der Ausprägung x (^) j h^ j =^ h(x^ j)^ mit
m ∑ j= 1
h (^) j = n
relative Häufigkeit von x (^) j f^ j =^ f^ (x^ j) =^
h (^) j n mit
m ∑ j= 1
f (^) j = 1
relative Häufigkeitsfunktion f (x) =
f (^) j für x = x (^) j, j = 1 ,... , m 0 sonst
kumulierte absolute Häufigkeit von x (^) j des mindestens ordinalen Merkmals X Hj = H(x (^) j) mit Hj =
j ∑ k= 1
hk, xk < xk+ 1 , Hm = n
kumulierte relative Häufigkeit von x (^) j des mindestens ordinalen Merkmals X Fj^ =^ F(x^ j)^ mit^ Fj^ =
j ∑ k= 1
fk = Hj n
, xk < xk+ 1 , Fm = 1
Empirische Verteilungsfunktion F(x) =
0 für x < x 1 Fj für x (^) j ≤ x < x (^) j+ 1 , j = 1 ,... , m − 1 1 für x ≥ xm
Auf- gabe ^2
Bei einer Erhebung stellt man folgende Personenzahl je Wohnung in den 40 Sozialwohnun- gen einer Stadt fest (Urliste): 5,2,1,4,6, 3,2,4,4,7, 6,1,2,3,5, 3,3,4,3,3 0,5,2,4,3, 3,6,5,6,4, 3,5,3,4,3, 3,5,7,3,4. Berechnen Sie in tabellarischer Form absolute und relative Häufigkeiten sowie die kumu- lierten Häufigkeiten. Zeichnen Sie die Häufigkeitsverteilungen.
2 Deskriptive Statistik: Univariate Verteilungen 5
Relative Häufigkeiten Relative Häufigkeitsfunktion
Kumulierte relative Häufigkeiten Empirische Verteilungsfunktion
2 Deskriptive Statistik: Univariate Verteilungen 7
Histogramm Histogramm
Ergebnis einer Schnellinventur
Teile f (^) j · 100 f ∗ j · 100 von... bis unter... E 0 – 1 10 10 1 – 4 20 6, 4 – 10 30 5 10 – 20 40 4
falsche Darstellung: richtige Darstellung:
Kumulierte relative Häufigkeiten Klassierte Verteilungsfunktion
2 Deskriptive Statistik: Univariate Verteilungen 8
In der zweiten Stufe der Auswertung werden Beobachtungswerte bzw. Häufigkeitsverteilungen zu Maß- zahlen verdichtet. Im Sachzusammenhang sinnvolle Maßzahlen sollen so u.a. – sofern sie nicht selbst Untersuchungsziel sind – einen übersichtlichen Vergleich verschiedener statistischer Reihen erlauben.
Mittelwerte Symbol Berechnung Skalenniveau Aussage
Modus (häu- figster Wert, Dichtemittel)
D D = xk mit hk = max j h (^) j
beliebig Die Merkmalsausprägung einer Verteilung, auf die die meisten Beobachtungswerte entfallen. Median (Zentralwert,
Z (^) Z = a(k) mit k = n+ 21 für n ungerade und k = n 2 für n gerade, ai der Größe nach ge- ordnet. Für Z = x (^) j gilt: F(x (^) j) = 0 , 5.
ordinal oder metrisch
Der Beobachtungswert einer der Größe nach geordneten Reihe (a(i)), unterhalb dem die Hälf- te aller Merkmalsträger liegt. Echte „Mitte“. Bei Verteilungen mit nur wenigen Beobachtungs- werten als Deskription oft nicht sinnvoll. Arithmetisches Mittel
x (μ)
x =
n
n ∑ i= 1
ai
n
m ∑ j= 1
h (^) jx (^) j
m ∑ j= 1
f (^) jx (^) j
metrisch Die Größe, die sich ergibt, wenn die Merkmalssumme gleichmä- ßig auf die Merkmalsträger auf- geteilt wird. Zur Beschreibung der „Mitte“ einer Verteilung nur bei symmetrischen Verteilungen geeignet.
symmetrisch linkssteil rechtssteil
x = D = Z D < Z < x x < Z < D
Aufgabe
^4
Berechnen Sie für die 2. Aufgabe die drei behandelten Mittelwerte.
2 Deskriptive Statistik: Univariate Verteilungen 10
Maßzahlen der Streuung sollen die Variation der Einheiten in den Merkmalsausprägungen abbilden, bei quan- titativen Merkmalen besonders bezüglich eines Mittelwertes. So gesehen sind sie auch eine Maßgröße für den Informationsgehalt eines Mittelwertes als Abbildungsergebnis einer statistischen Verteilung.
Streuungs- Symbol Berechnung Skalen- Aussage maße niveau Homogeni- tätsindex
P (^) P = m m − 1
m ∑ j= 1
f (^2) j ),
0 ≤ P ≤ 1
beliebig P ist bei der Gleichverteilung am größten und bei der Ein- punktverteilung am geringsten. Quartils- abstand
Merkmal X
ordinal oder metrisch
QA gibt den mittleren Bereich der Beobachtungswerte einer der Größe nach geordneten Rei- he an, unterhalb bzw. oberhalb dem je ein Viertel der Merk- malsträger liegt. Bei ordinalen Merkmalen nur sinnvoll, wenn nicht die Diffe- renz ausgerechnet wird (so aller- dings keine Maßzahl). Varianz und Standard- abweichung
s^2 (σ 2 ) s (σ ) s = +
s^2
s^2 =
n
n ∑ i= 1
(ai − x)^2
n
n ∑ i= 1
a^2 i − x^2
s^2 =
n
m ∑ j= 1
h (^) j(x (^) j − x)^2
n
m ∑ j= 1
h (^) jx^2 j − x^2
metrisch (^) s^2 ist ein Durchschnitt aus qua- drierten Differenzen zwischen Beobachtungswert und dem arithmetischen Mittel. Größere Differenzen werden stärker gewichtet als kleine.
Verschiebungssatz
Varianzzerlegung bei m Untergruppen ( j = 1 ,... , m)
s^2 =
n
n ∑ i= 1
(ai − x)^2 =
n
m ∑ j= 1
n (^) j ∑ i= 1
(ai j − x (^) j)^2 ︸ ︷︷ ︸ s^2 int
n
m ∑ j= 1
n (^) j(x (^) j − x)^2 ︸ ︷︷ ︸ s^2 ext
n
m ∑ j= 1
n (^) j · s^2 j + s^2 ext = s^2 int + s^2 ext
Die Gesamtvarianz lässt sich bei Einteilung einer Gesamtheit in Gruppen so zerlegen, dass ein Teil die Streuung der Einzelwerte innerhalb der Gruppen (s^2 int), der andere Teil die Streuung zwischen den Mittelwerten der Gruppen (s^2 ext) abbildet.
Aufgabe
Aufgabe
^6
^7
Berechnen Sie für die 2. Aufgabe den Quartilsabstand und die Standardabweichung. Nehmen Sie eine Varianzzerlegung für das Vertiefungsfach ( j = 1 , 2 , 3) und die Ausgaben für Kopien (ai j) des Beispieldatensatzes Seite 3 vor.
2 Deskriptive Statistik: Univariate Verteilungen 11
Spannweite R R = amax − amin Differenz zwischen größtem und kleinstem Beobachtungswert, z.B. bei Preis-/Kursentwicklungen.
Durchschnittliche (mittlere absolute) Abweichung dA
dA =
n
n ∑ i= 1
|ai − A|
n
m ∑ j= 1
h (^) j|x (^) j − A|
m ∑ j= 1
f (^) j|x (^) j − A|, A = x, Z,...
dA =
n
n ∑ i= 1
|ai − A| = min für A = Z
Da (^) ∑i(ai − x) = 0 gilt (Schwerpunkt- eigenschaft des arith. Mittels), bil- det man das arith. Mittel der Ab- solutbeträge der Abweichungen der Beobachtungswerte vom arith. Mittel (A = x). Als Bezugspunkt der Abwei- chungen der Beobachtungswerte kann auch der Median Z oder ein anderer Mittelwert gewählt werden.
Varianz
s^2 A =
n ∑ i (ai − A)^2 = min für A = x
s^2 A =
n ∑ i (ai − x)^2 + (x − A)^2
Die mittlere quadratische Abwei- chung bezogen auf das arith. Mittel ist stets kleiner als die mittlere quadrati- sche Abweichung bezogen auf einen beliebigen Wert A.
zi = c + d · ai =⇒ s^2 Z = d^2 · s^2 X
mit s^2 X =
n ∑ i (ai − x)^2
zi =
ai − x s =⇒ z = 0 und s^2 Z = 1 Aus rechnerischen Gründen bzw. we- gen des Vergleichs zwischen verschie- denen Merkmalen werden Daten oft z-transformiert.
sˆ^2 =
m ∑ j= 1
f (^) j
w^2 j 12 ︸ ︷︷ ︸ s ˆ^2 int
m ∑ j= 1
f (^) j(x (^) j − x)^2 ︸ ︷︷ ︸ s^2 ext
Dabei getroffene Annahme: Recht- eckverteilung innerhalb einer Klasse. Falls x (^) j unbekannt ist, wird ˜x (^) j ver- wendet. Variations- koeffizient V
s x , x (^) j ≥ 0 , j = 1 ,... , m und x > 0
Relatives Streuungsmaß (dimensions- los): Die Standardabweichung wird auf das arithmetische Mittel bezogen.
Aufgabe
^8
Berechnen Sie für die 2. Aufgabe den Variationskoeffizienten und für die 3. Aufgabe den Quartilsabstand und die Standardabweichung.
3 Deskriptive Statistik: Bivariate Verteilungen 13
Korrelationsrechnung bei ordinalen oder metrischen Merkmalen: Messung der Stärke und Richtung des rechneri- schen Zusammenhangs zwischen Merkmalen, der einseitig (x −→ y), gegenseitig (x ←→ y) oder über ein drittes Merkmal (oder einen Merkmalskomplex) (z −→ (x, y)) bewirkt sein kann. Die Korrelation ist an der Form der tabellarischen oder grafischen Anordnung erkennbar.
schwache starke schwache starke linearer nicht linearer positive Korrelation negative Korrelation statistischer Zusammenhang
Es wird ab jetzt nicht mehr in den Symbolen zwischen Beobachtungswert und Merkmalsausprä- gung unterschieden, sondern sowohl die Beobachtungswerte als auch die Merkmalsausprägungen des Merkmals X werden mit xi bzw. des Merkmals Y mit yi bezeichnet. Bei i = 1 ,... , n handelt es sich um Beobachtungswerte und bei i = 1 ,... , m(k) um Merkmalsausprägungen.
Auf-
gabe
^9
200 erwerbstätige Wähler werden nach der Stellung im Beruf (x (^) j mit x 1 : Arbeiter, x 2 : Angestellte/Beamte, x 3 : Selbständige) und ihrer Wahlentscheidung bei den letzten Landtagswahlen (yi mit y 1 : CDU, y 2 : SPD, y 3 : FDP, y 4 : Grüne) befragt. Man erhält fol- gendes Ergebnis:
x 1 x 2 x 3
y 1 30 51 9
y 2 44 32 4 y 3 2 11 7
y 4 4 6 −
Berechnen Sie die Randverteilungen, die (sieben) bedingten Verteilungen sowie die absoluten Häufigkeiten der Assozia- tionstabelle bei statistischer Unabhängigkeit der betrachteten Merkmale in dieser Gesamtheit. Wie hoch ist der Anteil
Auf- gabe
(^10)
In einem Betrieb werden für die letzten zwölf Quartale die Zahl der Arbeitslosen im zu- gehörigen Arbeitsamtsbezirk (x in Hdrt.) und die Zahl der Krankmeldungen (y in Hdrt.) verglichen:
xi 70 80 90 120 130 150 150 170 70 60 60 50 yi 8 7 10 7 6 4 3 2 13 14 16 18
Zeichnen Sie ein Streuungsdiagramm. Interpretation?
3 Deskriptive Statistik: Bivariate Verteilungen 14
Kenngrößen bivariater Verteilungen, die die Stärke des rechnerischen Zusammenhangs zwischen den beiden Merk- malen in der untersuchten Gesamtheit abbilden, heißen Assoziations- oder Kontingenzmaße (wenn eines der Merk- male nominal skaliert ist) bzw. Korrelationskoeffizienten (wenn keines der Merkmale nominal skaliert ist).
Bezeichn. Symbol Berechnung Skal.-niv. Aussage
Chi- Quadrat- Koeff. Pearson’s Kontin- genzkoeff. Korrigier- ter Kontin- genzkoeff.
χ^2
χ^2 =
m ∑ i= 1
k ∑ j= 1
(hi j − hei j)^2 hei j
χ^2 χ^2 + n
Cmax
mit
Cmax =
min(k, m) − 1 min(k, m)
beliebig (^) Es ist χ^2 > 0, wenn ein Zusammenhang besteht. Ei- ne Richtung des Zusammen- hangs ist nicht interpretier- bar. Viele Assoziationsmaße beruhen auf der Größe χ^2 , die den Unterschied zwischen den tatsächlichen Häufigkei- ten und den bei Unabhän- gigkeit geltenden Häufigkei- ten abbildet.
Kendalls Tau-b
Somers’ d
τb
dy
τb= √ nc^ −^ nd (nc + nd + Tx)(nc + nd + Ty) bei symmetr. Zusammenhang.
dy = nc − nd nc + nd + Ty
(Y abh. Variable)
dy = ad − bc (a + c)(b + d)
bei 2 × 2- Tabellen.
beide Merk- male min- destens ordinal
Paarvergleiche. Anzahl mög- licher Paare bei n Einheiten: n(n− 1 )
Korrela- tionskoeff. von Bravais- Pearson
r (ρ)
r =
sXY sX · sY mit der Kovarianz
sXY =
n
n ∑ i= 1
(xi − x)(yi − y)
n
n ∑ i= 1
xiyi − x y
beide Merk- male metrisch
r misst die Stärke des linearen Zusammenhangs. Es gilt: − 1 ≤ r ≤ 1.
r = 1 r = − 1 Eta- Quadrat- Koeff.
η^2 η^2 = s^2 ext s^2
s^2 int s^2
beeinflus- sendes M. beliebig, beeinflus- stes M. metrisch
η^2 gibt an, welcher Anteil der Streuung durch die Gruppen- zugehörigkeit erklärt werden kann. Es gilt: 0 ≤ η^2 ≤ 1.
Aufgabe
(^11)
Berechnen Sie für die Aufgaben 7, 9 und 10 sinnvolle Maßzahlen des rechnerischen Zusammenhangs.
4 Wahrscheinlichkeitsrechnung 16
4 Wahrscheinlichkeitsrechnung
Bisher wurden Methoden zur zahlenmäßigen Beschreibung genau abgegrenzter statistischer Massen vorgestellt. Ziel statistischer Untersuchungen ist jedoch meist, allgemeingültigere Ergebnisse zu erhalten. Werden solche Da- ten als Ergebnisse von Zufallsexperimenten – z.B. Befragungsergebnisse aus einer Zufallsstichprobe von Personen
P(A ∪ B) = P(A) + P(B)
Die Wahrscheinlichkeit P für ein Ereignis A (Zusam- menfassung möglicher Ergebnisse eines Zufallsexperi- ments) ist nie negativ. Die Wahrscheinlichkeit für das sichere Ereignis I ist 1. Die Wahrscheinlichkeiten für 2 sich ausschließende Ereignisse können addiert werden.
P(SPD∪Arbeiter) = 0 , 4 + 0 , 4 − 0 , 22 = 0 , 58
Schließen sich zwei Ereignisse nicht aus, so muss von der Summe der Wahrscheinlichkeiten für die Einzeler- gebnisse die Wahrscheinlichkeit der Schnittmenge ab- gezogen werden.
P(SPD ∩ Selbstg.) = 0 , 4 · 0 , 05 = 0 , 02 = 0 , 1 · 0 , 2 = 0 , 02
Bei (stochastischer) Unabhängigkeit zweier Ereignisse gilt: P(A ∩ B) = P(A) · P(B) P(A|B) = P(A)
4 Wahrscheinlichkeitsrechnung 17
scheinlichkeit wird als ein Maß für den Grad der Überzeugtheit von der Richtigkeit einer Aussage aufgefasst. Vielfach wird die Meinung vertreten, dass in praktischen Anwendungen jede Wahrschein- lichkeitsaussage subjektive Elemente enthalte.
Drückt man die möglichen Ergebnisse als Zufallsvariable X aus, d.h. als eine Abbildung, die jedem Ergebnis aus der Ergebnismenge eine reelle Zahl zuordnet, so könnte man in allen drei genannten Fällen eine Verteilung von Wahrscheinlichkeiten auf die Zufallsvariable X als Funktionsgleichung erstellen. Die Funktion F(x), die jedem x ∈ R die Wahrscheinlichkeit P(X ≤ x) zuordnet, also F(x) = P(X ≤ x), heißt Verteilungsfunktion von X. Die Wahrscheinlichkeiten für mögliche Realisationen x kann man dann an der Verteilungsfunktion F(x) ablesen. Für die praktische Anwendung üblich sind häufig verwendete Wahrscheinlichkeits- bzw. Verteilungsfunktionen, die schon tabellarisch (in „Tafeln“) ausgewertet sind.
P(X ≤ x 1 ) = F(x 1 ) P(X > x 1 ) = 1 − F(x 1 ) P(x 1 < X ≤ x 2 ) = F(x 2 ) − F(x 1 )
Auf- gabe
(^12)
a) Berechnen Sie die Wahrscheinlichkeitsverteilung für das Ereignis „Zahl der Arbei- ter“ in einer Stichprobe m.Z. von 3 Personen aus den 200 der Aufgabe 9, Seite 13. b) Angenommen, wir ziehen aus der Einkommensverteilung von Aufgabe 3, Seite 6, eine Stichprobe vom Umfang n = 1. Wie groß ist die Wahrscheinlichkeit, jemanden zu ziehen, dessen Einkommen weniger als 1 000 E, 2 000 E und mehr, zwischen 1 250 E und unter 3 000 E beträgt?