



Besser lernen dank der zahlreichen Ressourcen auf Docsity
Heimse Punkte ein, indem du anderen Studierenden hilfst oder erwirb Punkte mit einem Premium-Abo
Prüfungen vorbereiten
Besser lernen dank der zahlreichen Ressourcen auf Docsity
Download-Punkte bekommen.
Heimse Punkte ein, indem du anderen Studierenden hilfst oder erwirb Punkte mit einem Premium-Abo
Alle Informationen zur multiplen Regression mit Beispielen
Art: Grafiken und Mindmaps
1 / 6
Diese Seite wird in der Vorschau nicht angezeigt
Lass dir nichts Wichtiges entgehen!




Mehrere Einflussfaktoren auf die AV
Schätzen des Wertes Y einer Person anhand mehrerer Prädiktoren
Fehlerterm e ist nicht bekannt, also kann Y nur geschätzt werden
Die Schätzung verbessert sich, je mehr relevante Prädiktoren gefunden werden
können, die Y/AV vorhersagen können
Ungenaue Schätzungen, wenn der geschätzte Wert nicht mit dem tatsächlichen Wert
übereinstimmt -> Differenz/Abstand ist das Residuum
Beispiel: Der IQ und der Fleiß haben Einfluss auf die Abiturnote
Semipartialkorrelation: Korrelation eines Residuums mit einer Variable
o Varianzanteil, den ein Prädiktor allein am Kriterium erklärt
o Z.B. erklärt der IQ 60% der Varianz, der Fleiß 40% der Varianz
Verzerrung entsteht, da nicht nur Zusammenhang zwischen Prädiktoren & Kriterium
berücksichtig wird, sondern auch die Zusammenhänge zwischen den Prädiktoren
(Multikollinearität)
Multiple Regressionsanalyse mit wenig Probanden, aber vielen hoch miteinander
korrelierenden Prädiktoren, ist kritisch
Es soll mit möglichst wenigen & signifikanten Prädiktoren der größtmögliche Anteil
der Varianz des Kriteriums erklärt werden
Residuen ergeben addiert Null & sind unkorreliert mit der UV
Modellgleichung:
o Y = 0 + 1 X 1 + … + kXk + e
o Fehlerterme e sind normalverteilt mit Erwartungswert Null & gleicher Varianz
(Varianz hat festen Wert, der geschätzt werden muss) (Varianzhomogenität) ->
Zufallsvariable
o K = Anzahl der Prädiktoren
o Y = AV/Kriterium -> normalverteilte Zufallsvariable für jede feste
Wertekombination von x
o X = UV/Prädiktor
Y & X sind linear zueinander
o 0
= Regressionskoeffizient/Intercept
o 1,2,3,4,… = Regressionsgewichte
Modellvoraussetzung:
o AV & UVs sind metrisch
o Jede Beziehung zwischen der AV & einer UV ist linear
o Die Residuen sind unabhängig voneinander, normalverteilt & haben die
gleiche Varianz (Homoskedastizität)
Vorgehen:
o Modellparameter schätzen
o Inferenzstatistik, um Aussagen auf Populationsebene zu treffen
Konfidenzintervalle für die Schätzer
Hypothesentests
o Effektstärke R
2 berechnen, um herauszufinden, wie gut das Modell für die
Vorhersage geeignet ist
o Inhaltliche Interpretation
Varianzaufklärung:
o Menschen haben auf bestimmten Merkmalen unterschiedliche Ausprägungen
o Varianz = Veränderung; Variablen = Unterschiede
o Man variiert die UV, um Varianz in einer AV herzustellen (man variiert die
Therapiegruppe, um Varianz beim Therapieerfolg herzustellen)
o Im schlimmsten Fall nimmt man Prädiktoren auf, die keine Vorhersagekraft
für Y haben, d.h. Prädiktor & Kriterium korrelieren nicht miteinander, das
Regressionsgewicht dieses Prädiktors wäre dann 0
o Varianz bzw.
2
ist sehr spannend, gibt an wie sehr die Punkte um die Ebene
streuen bzw. wie groß der Abstand zwischen den Datenpunkten & den
vorhergesagten Werten ist
Je geringer die Streuung, desto mehr Varianz kann durch das Modell
aufgeklärt werden
Jedes Regressionsgewicht 1,2,3,4,.. beschreibt, wie stark der Prädiktor mit dem
Kriterium zusammenhängt, d.h. wie groß der Einfluss des Prädiktors auf die AV ist
o Wenn i
= 0 ist, dann hat die UV keinen Einfluss auf die AV
o Wenn i 0, dann ist die Größe interessant; je größer, desto stärker der
Einfluss, jedoch abhängig von der Einheit, daher z-standardisieren
Die Vorhersagekraft eines Prädiktors wird abhängig von allen anderen Prädiktoren
beurteilt (alle möglichen Prädiktoren erklären zusammen 100%, daher
Regressionsgewicht relativ)
1. Fall:
o Wenn die Prädiktoren unkorreliert sind, dann ergeben sich die Schätzer
analog zur einfachen linearen Regression
2. Fall: Im Normalfall korrelieren die Prädiktoren untereinander, z.B. Schulerfolg als
AV soll durch den IQ und die Sozialkompetenz vorhergesagt werden, IQ und
Sozialkompetenz korrelieren aber untereinander auch
Y=b+AIQXIQ+ASKXSK
Zuerst schauen wir uns den Einfluss von IQ auf die AV an
Dann schauen wir uns den Einfluss von SK auf die AV an
Wenn aber IQ & SK korrelieren, dann ist die Vorhersagekraft von SK schon bereits
im IQ teilweise erhalten (die beiden Prädiktoren haben einen gemeinsamen
Varianzanteil/ die beiden Prädiktoren teilen sich Varianz) & wir können den Einfluss
nicht isoliert betrachten
Die Regressionsgewichte beschreiben nicht mehr nur die Korrelation zwischen der
AV & einer UV
Venn-Diagramm:
o zeigt, dass IQ einen Großteil der AV vorhersagen kann (Schnittpunkt IQ-
Kriterium
o Je größer R
2
, desto besser das Modell, d.h. desto mehr Varianz der AV kann
aufgeklärt werden & desto kleiner sind die Fehlerterme
Varianzaufklärung: Gesamtvarianz = erklärte Varianz + Fehlervarianz
o Gütemaß R
2
o Adjustiertes R
2 :
2
unterliegt Zufallsschwankungen
Kleine Stichprobe n & viele Prädiktoren k -> R
2 wird zu groß, d.h. das
Modell wird als besser eingeschätzt als es tatsächlich ist
Korrektur nach Wherry
Signifikanztest:
o Verallgemeinerung des Modells auf die Population (Inferenzstatistik)
o Prüfen, ob der gefundene Zusammenhang nur für unsere Stichprobe gilt oder
auf die Population verallgemeinert werden kann
Variablen müssen mind. Intervallskaliert sein
Nominalskalierte müssen entsprechend kodiert werden -> Dummy-Kodierung, dann
liegt auch hier Intervallskalenniveau vor
Somit können alle Arten von Fragestellungen als Zusammenhänge aufgefasst werden,
da alle Variablen mit der Regressionsberechnung behandelt werden können
o Wir betrachten den Mittelwertsunterschied zwischen zwei Gruppen A und B
o Entweder kann man fragen, ob der Unterschied der beiden Mittelwerte
signifikant ist
o
o Oder man zeichnet eine Regressionsgerade durch die beiden Mittelwerte ein
& schaut, ob die Steigung der Regressionsgeraden signifikant ist
o
o Unterschiede und Zusammenhänge äquivalent
o Jedoch Dummy-Kodierung & Regressionsrechnung rechenaufwändige
Verfahren
o Für Fragestellungen wie Mittelwertunterschiede ist es nicht nötig, eine
Regression zu rechnen
o Varianzanalyse einfacher für nicht intervallskalierte Variablen; mehrere
Mittelwerte auf signifikante Unterschiede prüfen
o Trotzdem bauen alle weiteren Verfahren auf dem ALM auf / sind vom ALM
abgeleitet & sind Spezialfälle dessen
Beispiel:
o 200 Absolventen
o Berufliche Motivation = UV/Prädiktor 1
o IQ = UV/Prädiktor 2
o Beruflicher Erfolg = AV/Kriterium
o Zusammenhang von Motivation & Erfolg ist linear, d.h. je größer die
Motivation, desto größer der Erfolg
o Zusammenhang von IQ & Erfolg ist linear, d.h. je größer der IQ, desto größer
der Erfolg
o IQ & Motivation sind unkorreliert/hängen nicht zusammen
o Erfolg = 0 + 1 *Motivation + 2 * IQ
Ebenengleichung, beschreibt die exakte Ebene, nicht jedoch die
Punktwolke, denn in Realität streuen Punkte um Ebene
Der Fehlerterm fehlt!
o Erfolg = 0 + 1 *Motivation + 2 * IQ + e
Beschreibt unsere Daten optimal
Residuen e beschreiben wie weit die Punkte von der Ebene entfernt
liegen
Der Erwartungswert der Residuen ist Null
Nicht lineare Prädiktorterme:
o Man darf auch X2, X3, ln(X), exp(X), 1/X etc. einsetzen
o Z.B. Y = β 0 + β 1 *X 1 + β 2 *ln(X 2 ) + ε
o Y = β 0
f 1
) + β 2
f 2
) + ... + β k
f k
k
) + ε
Allgemeine Darstellung, wobei f( ) eine Transformation des jeweiligen
Prädiktors ist
o Sind erlaubt, da man aufgrund der Transformation, die Gleichung in die
allgemeine Modellgleichung überführen könnte
o Abhängig von theoretischen Vorüberlegungen; macht es Sinn nicht lineare
Prädiktorterme in die Modellgleichung aufzunehmen?!
o Streudiagramm betrachten; werden die Daten z.B. durch eine Kurve
beschrieben?! -> X
2