Multiple lineare Regression, Grafiken und Mindmaps von Statistik

Alle Informationen zur multiplen Regression mit Beispielen

Art: Grafiken und Mindmaps

2022/2023

Zum Verkauf seit 22.07.2023

lynn.schmidt
lynn.schmidt 🇩🇪

13 dokumente

1 / 6

Toggle sidebar

Diese Seite wird in der Vorschau nicht angezeigt

Lass dir nichts Wichtiges entgehen!

bg1
Multiple Regressionsanalyse
Multiple lineare Regression
Mehrere Einflussfaktoren auf die AV
Schätzen des Wertes Y einer Person anhand mehrerer Prädiktoren
Fehlerterm e ist nicht bekannt, also kann Y nur geschätzt werden
Die Schätzung verbessert sich, je mehr relevante Prädiktoren gefunden werden
können, die Y/AV vorhersagen können
Ungenaue Schätzungen, wenn der geschätzte Wert nicht mit dem tatsächlichen Wert
übereinstimmt -> Differenz/Abstand ist das Residuum
Beispiel: Der IQ und der Fleiß haben Einfluss auf die Abiturnote
Semipartialkorrelation: Korrelation eines Residuums mit einer Variable
oVarianzanteil, den ein Prädiktor allein am Kriterium erklärt
oZ.B. erklärt der IQ 60% der Varianz, der Fleiß 40% der Varianz
Verzerrung entsteht, da nicht nur Zusammenhang zwischen Prädiktoren & Kriterium
berücksichtig wird, sondern auch die Zusammenhänge zwischen den Prädiktoren
(Multikollinearität)
Multiple Regressionsanalyse mit wenig Probanden, aber vielen hoch miteinander
korrelierenden Prädiktoren, ist kritisch
Es soll mit möglichst wenigen & signifikanten Prädiktoren der größtmögliche Anteil
der Varianz des Kriteriums erklärt werden
Residuen ergeben addiert Null & sind unkorreliert mit der UV
Modellgleichung :
oY = 0 + 1*X1 + … + k*Xk + e
oFehlerterme e sind normalverteilt mit Erwartungswert Null & gleicher Varianz
(Varianz hat festen Wert, der geschätzt werden muss) (Varianzhomogenität) ->
Zufallsvariable
oK = Anzahl der Prädiktoren
oY = AV/Kriterium -> normalverteilte Zufallsvariable für jede feste
Wertekombination von x
oX = UV/Prädiktor
Y & X sind linear zueinander
o0 = Regressionskoeffizient/Intercept
o1,2,3,4,… = Regressionsgewichte
Modellvoraussetzung :
oAV & UVs sind metrisch
oJede Beziehung zwischen der AV & einer UV ist linear
oDie Residuen sind unabhängig voneinander, normalverteilt & haben die
gleiche Varianz (Homoskedastizität)
Vorgehen :
oModellparameter schätzen
oInferenzstatistik, um Aussagen auf Populationsebene zu treffen
Konfidenzintervalle für die Schätzer
Hypothesentests
oEffektstärke R2 berechnen, um herauszufinden, wie gut das Modell für die
Vorhersage geeignet ist
oInhaltliche Interpretation
pf3
pf4
pf5

Unvollständige Textvorschau

Nur auf Docsity: Lade Multiple lineare Regression und mehr Grafiken und Mindmaps als PDF für Statistik herunter!

Multiple Regressionsanalyse

Multiple lineare Regression

 Mehrere Einflussfaktoren auf die AV

 Schätzen des Wertes Y einer Person anhand mehrerer Prädiktoren

 Fehlerterm e ist nicht bekannt, also kann Y nur geschätzt werden

 Die Schätzung verbessert sich, je mehr relevante Prädiktoren gefunden werden

können, die Y/AV vorhersagen können

 Ungenaue Schätzungen, wenn der geschätzte Wert nicht mit dem tatsächlichen Wert

übereinstimmt -> Differenz/Abstand ist das Residuum

 Beispiel: Der IQ und der Fleiß haben Einfluss auf die Abiturnote

 Semipartialkorrelation: Korrelation eines Residuums mit einer Variable

o Varianzanteil, den ein Prädiktor allein am Kriterium erklärt

o Z.B. erklärt der IQ 60% der Varianz, der Fleiß 40% der Varianz

 Verzerrung entsteht, da nicht nur Zusammenhang zwischen Prädiktoren & Kriterium

berücksichtig wird, sondern auch die Zusammenhänge zwischen den Prädiktoren

(Multikollinearität)

 Multiple Regressionsanalyse mit wenig Probanden, aber vielen hoch miteinander

korrelierenden Prädiktoren, ist kritisch

 Es soll mit möglichst wenigen & signifikanten Prädiktoren der größtmögliche Anteil

der Varianz des Kriteriums erklärt werden

 Residuen ergeben addiert Null & sind unkorreliert mit der UV

 Modellgleichung:

o Y =  0 +  1 X 1 + … + kXk + e

o Fehlerterme e sind normalverteilt mit Erwartungswert Null & gleicher Varianz

(Varianz hat festen Wert, der geschätzt werden muss) (Varianzhomogenität) ->

Zufallsvariable

o K = Anzahl der Prädiktoren

o Y = AV/Kriterium -> normalverteilte Zufallsvariable für jede feste

Wertekombination von x

o X = UV/Prädiktor

 Y & X sind linear zueinander

o  0

= Regressionskoeffizient/Intercept

o 1,2,3,4,… = Regressionsgewichte

 Modellvoraussetzung:

o AV & UVs sind metrisch

o Jede Beziehung zwischen der AV & einer UV ist linear

o Die Residuen sind unabhängig voneinander, normalverteilt & haben die

gleiche Varianz (Homoskedastizität)

 Vorgehen:

o Modellparameter schätzen

o Inferenzstatistik, um Aussagen auf Populationsebene zu treffen

 Konfidenzintervalle für die Schätzer

 Hypothesentests

o Effektstärke R

2 berechnen, um herauszufinden, wie gut das Modell für die

Vorhersage geeignet ist

o Inhaltliche Interpretation

 Varianzaufklärung:

o Menschen haben auf bestimmten Merkmalen unterschiedliche Ausprägungen

o Varianz = Veränderung; Variablen = Unterschiede

o Man variiert die UV, um Varianz in einer AV herzustellen (man variiert die

Therapiegruppe, um Varianz beim Therapieerfolg herzustellen)

o Im schlimmsten Fall nimmt man Prädiktoren auf, die keine Vorhersagekraft

für Y haben, d.h. Prädiktor & Kriterium korrelieren nicht miteinander, das

Regressionsgewicht dieses Prädiktors wäre dann 0

o Varianz bzw. 

2

ist sehr spannend, gibt an wie sehr die Punkte um die Ebene

streuen bzw. wie groß der Abstand zwischen den Datenpunkten & den

vorhergesagten Werten ist

 Je geringer die Streuung, desto mehr Varianz kann durch das Modell

aufgeklärt werden

 Jedes Regressionsgewicht 1,2,3,4,.. beschreibt, wie stark der Prädiktor mit dem

Kriterium zusammenhängt, d.h. wie groß der Einfluss des Prädiktors auf die AV ist

o Wenn  i

= 0 ist, dann hat die UV keinen Einfluss auf die AV

o Wenn i  0, dann ist die Größe interessant; je größer, desto stärker der

Einfluss, jedoch abhängig von der Einheit, daher z-standardisieren

 Die Vorhersagekraft eines Prädiktors wird abhängig von allen anderen Prädiktoren

beurteilt (alle möglichen Prädiktoren erklären zusammen 100%, daher

Regressionsgewicht relativ)

 1. Fall:

o Wenn die Prädiktoren unkorreliert sind, dann ergeben sich die Schätzer

analog zur einfachen linearen Regression

 2. Fall: Im Normalfall korrelieren die Prädiktoren untereinander, z.B. Schulerfolg als

AV soll durch den IQ und die Sozialkompetenz vorhergesagt werden, IQ und

Sozialkompetenz korrelieren aber untereinander auch

 Y=b+AIQXIQ+ASKXSK

 Zuerst schauen wir uns den Einfluss von IQ auf die AV an

 Dann schauen wir uns den Einfluss von SK auf die AV an

Wenn aber IQ & SK korrelieren, dann ist die Vorhersagekraft von SK schon bereits

im IQ teilweise erhalten (die beiden Prädiktoren haben einen gemeinsamen

Varianzanteil/ die beiden Prädiktoren teilen sich Varianz) & wir können den Einfluss

nicht isoliert betrachten

Die Regressionsgewichte beschreiben nicht mehr nur die Korrelation zwischen der

AV & einer UV

 Venn-Diagramm:

o zeigt, dass IQ einen Großteil der AV vorhersagen kann (Schnittpunkt IQ-

Kriterium

o Je größer R

2

, desto besser das Modell, d.h. desto mehr Varianz der AV kann

aufgeklärt werden & desto kleiner sind die Fehlerterme

 Varianzaufklärung: Gesamtvarianz = erklärte Varianz + Fehlervarianz

o Gütemaß R

2

o Adjustiertes R

2 :

 R

2

unterliegt Zufallsschwankungen

 Kleine Stichprobe n & viele Prädiktoren k -> R

2 wird zu groß, d.h. das

Modell wird als besser eingeschätzt als es tatsächlich ist

 Korrektur nach Wherry

 Signifikanztest:

o Verallgemeinerung des Modells auf die Population (Inferenzstatistik)

o Prüfen, ob der gefundene Zusammenhang nur für unsere Stichprobe gilt oder

auf die Population verallgemeinert werden kann

 Variablen müssen mind. Intervallskaliert sein

 Nominalskalierte müssen entsprechend kodiert werden -> Dummy-Kodierung, dann

liegt auch hier Intervallskalenniveau vor

 Somit können alle Arten von Fragestellungen als Zusammenhänge aufgefasst werden,

da alle Variablen mit der Regressionsberechnung behandelt werden können

o Wir betrachten den Mittelwertsunterschied zwischen zwei Gruppen A und B

o Entweder kann man fragen, ob der Unterschied der beiden Mittelwerte

signifikant ist

o

o Oder man zeichnet eine Regressionsgerade durch die beiden Mittelwerte ein

& schaut, ob die Steigung der Regressionsgeraden signifikant ist

o

o Unterschiede und Zusammenhänge äquivalent

o Jedoch Dummy-Kodierung & Regressionsrechnung rechenaufwändige

Verfahren

o Für Fragestellungen wie Mittelwertunterschiede ist es nicht nötig, eine

Regression zu rechnen

o Varianzanalyse einfacher für nicht intervallskalierte Variablen; mehrere

Mittelwerte auf signifikante Unterschiede prüfen

o Trotzdem bauen alle weiteren Verfahren auf dem ALM auf / sind vom ALM

abgeleitet & sind Spezialfälle dessen

 Beispiel:

o 200 Absolventen

o Berufliche Motivation = UV/Prädiktor 1

o IQ = UV/Prädiktor 2

o Beruflicher Erfolg = AV/Kriterium

o Zusammenhang von Motivation & Erfolg ist linear, d.h. je größer die

Motivation, desto größer der Erfolg

o Zusammenhang von IQ & Erfolg ist linear, d.h. je größer der IQ, desto größer

der Erfolg

o IQ & Motivation sind unkorreliert/hängen nicht zusammen

o Erfolg =0 +1 *Motivation +2 * IQ

 Ebenengleichung, beschreibt die exakte Ebene, nicht jedoch die

Punktwolke, denn in Realität streuen Punkte um Ebene

 Der Fehlerterm fehlt!

o Erfolg =0 +1 *Motivation +2 * IQ + e

 Beschreibt unsere Daten optimal

 Residuen e beschreiben wie weit die Punkte von der Ebene entfernt

liegen

 Der Erwartungswert der Residuen ist Null

 Nicht lineare Prädiktorterme:

o Man darf auch X2, X3, ln(X), exp(X), 1/X etc. einsetzen

o Z.B. Y = β 0 + β 1 *X 1 + β 2 *ln(X 2 ) + ε

o Y = β 0

  • β 1

f 1

(X

) + β 2

f 2

(X

) + ... + β k

f k

(X

k

) + ε

 Allgemeine Darstellung, wobei f( ) eine Transformation des jeweiligen

Prädiktors ist

o Sind erlaubt, da man aufgrund der Transformation, die Gleichung in die

allgemeine Modellgleichung überführen könnte

o Abhängig von theoretischen Vorüberlegungen; macht es Sinn nicht lineare

Prädiktorterme in die Modellgleichung aufzunehmen?!

o Streudiagramm betrachten; werden die Daten z.B. durch eine Kurve

beschrieben?! -> X

2