









Besser lernen dank der zahlreichen Ressourcen auf Docsity
Heimse Punkte ein, indem du anderen Studierenden hilfst oder erwirb Punkte mit einem Premium-Abo
Prüfungen vorbereiten
Besser lernen dank der zahlreichen Ressourcen auf Docsity
Download-Punkte bekommen.
Heimse Punkte ein, indem du anderen Studierenden hilfst oder erwirb Punkte mit einem Premium-Abo
Community
Finde heraus, welche laut den Docsity-Nutzern die besten Unis deines Landes sind
Kostenlose Leitfäden
Lade unsere Leitfäden mit Lernmethoden, Hilfen zur Angstbewältigung und von Docsity-Tutoren erstellte Tipps zum Verfassen von Haus- und Abschlussarbeiten kostenlos herunter
Klausur Datenanalyse und Statistik
Art: Prüfungen
1 / 16
Diese Seite wird in der Vorschau nicht angezeigt
Lass dir nichts Wichtiges entgehen!
Matrikelnummer: Studiengang:
Aufgabe 1 2 3 4 5
Punkte m¨oglich 10 9 8 16 21 64 Punkte erreicht
Unter der Nummer
werden wir ihre Ergebnisse bereitstellen. Schreiben Sie sich diese Nummer bitte jetzt auf!
Diese Klausur wird nur dann als Pr¨ufung gewertet, wenn Sie im Pr¨ufungsamt ange- meldet sind. Ansonsten werden die Ergebnisse nur f¨ur einen Schein gewertet. Lesen Sie die Aufgaben genau durch. Nehmen Sie f¨ur diese Klausur grunds¨atzlich ein α-Niveau von 5% an.
Aufgabe 1: Daten Wir schreiben das Jahr 2022. Der Klimawandel hat sich durch die extremen Wald- br¨ande der letzten vier Jahre stark beschleunigt. Die Verschiebung der Klimazonen destabilisiert weltweit die Wald¨okosysteme und reduziert die CO 2 -Speicherf¨ahigkeit der Ozeane. Das Abschmelzen der antarktischen und nordischen Eisschilde erh¨oht den Meeresspiegel j¨ahrlich um ca. 4 cm. K¨ustenst¨adte wie New York, Hong Kong, Sydney und Hamburg werden trotz eifriger Dammbaumaßnahmen nur zu halten sein, wenn der CO 2 -Ausstoß der Menschheit bis 2030 auf Netto 0 reduziert wird.
Sie haben aufgrund Ihrer hervorragenden Studienleistungen eine gut bezahlte Stelle am Europ¨aischen Institut f¨ur Energieforschung (EIE) erhalten. Im Rahmen des 1 Billion Euro Sofortprogramms der EU arbeiten Sie an der Massenproduktion von Biokraftstoffen, da f¨ur eine Umstellung der Fahrzeugflotte auf E-Mobilit¨at wegen der weltweiten Abschaltung aller mit fossilen Energietr¨agern betriebenen Kraftwerke einfach nicht genug Strom bereitsteht.
Es wurden 10 verschiedene Anbauregime untersucht. Dazu wurden aus den land- wirtschaftlichen Nutzfl¨achen Nord- und Mitteleuropas 100 Parzellen von jeweils 10 mal 10 Meter zuf¨allig ausgesucht. F¨ur jede der Parzellen wurde ein zuf¨alliges Saatgut (Saat) S0-S9 einer Energiepflanze (z.B. Sizilianischer Raps) ausgew¨ahlt.
Außerdem wurde f¨ur jede Parzelle die folgenden Parameter erhoben:
Das Ziel ist es – basierend auf genauen Klimavorhersagen – das jeweils richtige Saatgut f¨ur jedes Jahr an jedem Standort vorhersagen zu k¨onnen. Dazu soll die Ab- h¨angigkeit der Energieausbeute von allen anderen Einflussgr¨oßen untersucht werden.
Biofuel[1:25,]
Saat Ertrag QT Boden Season Sonne VegTemp 1 S0 186.06089 195.69008 B15 0.5863014 294.9896 24. 2 S3 2037.21700 2015.03621 B15 0.5917808 270.1011 23. 3 S9 2915.69393 2924.70595 B7 0.5808219 304.3406 27. 4 S0 175.27924 147.65022 B6 0.5808219 282.0890 24. 5 S4 9663.72216 9654.44024 B2 0.5917808 431.2796 25. 6 S0 250.40347 220.19403 B5 0.5917808 224.8966 23. 7 S5 1284.23322 1247.46685 B8 0.5808219 348.1301 26. 8 S3 2331.99608 2306.64107 B12 0.5972603 231.5519 24. 9 S3 2294.41033 2301.91295 B8 0.6082192 238.4848 24. 10 S5 528.07164 523.21843 B9 0.5863014 318.2036 25. 11 S6 53.48699 37.85617 B15 0.5917808 305.6510 24. 12 S3 1848.06231 1846.44304 B6 0.5808219 328.6425 26. 13 S7 1824.62510 1880.43344 B14 0.6082192 279.4001 22. 14 S8 2765.38646 2770.35888 B4 0.5972603 244.2337 25. 15 S3 2083.00960 2107.09051 B5 0.5863014 255.4093 25. 16 S8 7204.05199 7183.17783 B10 0.5972603 208.6217 25. 17 S1 3009.92596 2983.69239 B2 0.5917808 179.1553 24. 18 S9 3471.18731 3466.10147 B9 0.5808219 372.2437 25. 19 S5 445.98918 460.68942 B6 0.6027397 367.1993 23. 20 S2 1346.02017 1303.03375 B3 0.5917808 194.1603 25. 21 S1 2963.56289 2961.92954 B4 0.5917808 362.4976 24. 22 S0 221.85170 205.38580 B13 0.5753425 292.6997 24. 23 S9 1930.11730 1939.75629 B13 0.5917808 318.2792 23. 24 S3 1905.60738 1885.48588 B15 0.5753425 323.7297 27. 25 S7 834.29481 829.10999 B12 0.5753425 306.2635 24.
Aufgabe 2: Methoden ausw¨ahlen Welche statistische Methodik sollte man w¨ahlen,...
(1)... um die Variable Boden grafisch darzustellen? (2)
(2)... um die Variablen Saat und Boden gemeinsam darzustellen? (1)
(3)... um zu widerlegen, dass der Ertrag normalverteilt ist? (1)
(4)... um nachzuweisen, dass der Ertrag von der Temperatur (VegTemp) abh¨angt, wenn wir davon ausgehen, dass dieser Zusammenhang nichtlinear ist? (1)
(5)... um Ausreißer zu erkennen? (1)
(6)... um die Abh¨angigkeit des Ertrages (Ertrag) vom gew¨ahlten Saatgut (Saat) gra- fisch darzustellen? (1)
(7)... um die Repr¨asentativit¨at der Daten sicherzustellen? (1)
(8)... um die Abh¨angigkeit des Ertrages von allen anderen Gr¨oßen gleichzeitig zu un- tersuchen? (1)
−
−
20
Ertrag−QT
l
l
l
l
l
l
l
ll
ll
ll
l l
l
l l
l
l
l
l
ll l
l
l l
l l l
l l l
ll
l
l
ll
l
l
ll
l l l
l
ll
l
l l
l
l ll
l l
l
l l
l l
l
ll ll
l
l
l l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l lllll
l ll
l
l
l
l
0 2000 6000 10000
0
4000
8000
Ertrag
QT
l
l
l
l
l
l
l
ll
l l
ll
l l
l
ll
l
l
l
l
ll l
l
l l
l l l
ll l
l l
l
l
l l
l
l
ll
l l l
l
l l
l
l l l
l l l
l l
l
l l
l l
l
ll l l
l
l
l l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l lllll
l ll
l
l
l
l
−2 −1 0 1 2
0
4000
8000
Ertrag
Theoretical Quantiles
Sample Quantiles
S0 S2 S4 S6 S
0
2
4
6
8
12
Abbildung 1: Grafiken zum Datensatz.
Aufgabe 4: Misst die schnelle Ertragsmessung im Mittel richtig? Im Rahmen der weiteren Untersuchungen wurde festgestellt, dass die Abh¨angigkei- ten relativ kompliziert sind und f¨ur eine genaue Auswahl des richtigen Saatguts mehr Daten ben¨otigt werden. Um Kosten zu sparen, soll dabei die schnellen Er- tragsmessung mittels der sogenannten QuickTechnology verwendet werden. Daher soll ¨uberpr¨ufen werden, ob die schnelle Ertragsmessung im Mittel die gleichen Er- gebnisse liefert wie die genaue Untersuchtung mittels der aufwendigen vollst¨andigen Aufarbeitung des Materials.
(1) Hier finden Sie ein paar Tests zum Datensatz:
shapiro.test(Ertrag) Shapiro-Wilk normality test
data: Ertrag W = 0.89826, p-value = 1.172e-
shapiro.test(QT) Shapiro-Wilk normality test
data: QT W = 0.89916, p-value = 1.292e-
shapiro.test(Ertrag-QT) Shapiro-Wilk normality test
data: Ertrag - QT W = 0.97633, p-value = 0.
t.test(Ertrag,QT) Welch Two Sample t-test
data: Ertrag and QT t = 0.0073994, df = 198, p-value = 0. alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -510.5577 514. sample estimates: mean of x mean of y 2169.716 2167.
t.test(Ertrag,QT,paired=TRUE)
Paired t-test
data: Ertrag and QT t = 0.79055, df = 99, p-value = 0. alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.903462 6. sample estimates: mean of the differences
t.test(Ertrag,QT,var.equal=TRUE)
Two Sample t-test
data: Ertrag and QT t = 0.0073994, df = 198, p-value = 0. alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -510.5577 514. sample estimates: mean of x mean of y 2169.716 2167.
wilcox.test(Ertrag,QT)
Wilcoxon rank sum test with continuity correction
data: Ertrag and QT W = 5006, p-value = 0. alternative hypothesis: true location shift is not equal to 0
wilcox.test(Ertrag,QT,paired=TRUE)
Wilcoxon signed rank test with continuity correction
data: Ertrag and QT V = 2838, p-value = 0. alternative hypothesis: true location shift is not equal to 0
fligner.test(list(Ertrag,QT))
Fligner-Killeen test of homogeneity of variances
data: list(Ertrag, QT) Fligner-Killeen:med chi-squared = 0.0010688, df = 1, p-value = 0.
(3) Welchen der folgenden Tests sollten wir f¨ur diese Frage einsetzen? (2)
O a) shapiro.test(Ertrag) O b) shapiro.test(QT) O c) shapiro.test(Ertrag-QT) O d) t.test(Ertrag,QT) O e) t.test(Ertrag,QT,paired=TRUE) O f) t.test(Ertrag,QT,var.equal=TRUE) O g) wilcox.test(Ertrag,QT) O h) wilcox.test(Ertrag,QT,paired=TRUE) O i) fligner.test(list(Ertrag,QT))
(4) Welche Hypothese wurde bei diesem Test angenommen? (1)
(5) Wurde damit ein statistischer Nachweis gef¨uhrt? (1)
(6) Mit welchem Wert haben Sie dabei den p-Wert verglichen? Begr¨unden Sie unter Bezugnahme auf die Bonferroni-Korrektur. (1)
(7) Kann die schnelle Ertragsmessung mittels der sogenannten QuickTechnology als Al- ternative zur aufwendigen Ertragsmessung eingesetzt werden? (1)
Aufgabe 5: Lineare Modelle In dieser Aufgabe wollen wir nun eine Methode entwickeln, um den Ertrag aus Saat- gut, Boden und Klimaverh¨altnissen vorhersagen zu k¨onnen. Diagnostische Grafiken zu einem der Modelle finden Sie in den Abbildung 2 auf der letzten Seite.
xanova <- function(mod) {
logErtrag <- log(Ertrag)
M01 <- xanova(lm(logErtrag~Boden))
Analysis of Variance Table
Response: logErtrag Df Sum Sq Mean Sq F value Pr(>F) Boden 14 22.598 1.6141 1.1311 0. Residuals 85 121.297 1. R^2= 0.
M02 <- xanova(lm(logErtrag~Saat))
Analysis of Variance Table
Response: logErtrag Df Sum Sq Mean Sq F value Pr(>F) Saat 9 121.241 13.4712 53.517 < 2.2e- Residuals 90 22.655 0. R^2= 0.
M03 <- xanova(lm(logErtrag~Sonne))
Analysis of Variance Table
Response: logErtrag Df Sum Sq Mean Sq F value Pr(>F) Sonne 1 4.321 4.3209 3.0338 0. Residuals 98 139.574 1. R^2= 0.
M04 <- xanova(lm(logErtrag~VegTemp))
Analysis of Variance Table
Response: logErtrag Df Sum Sq Mean Sq F value Pr(>F) VegTemp 1 3.688 3.6879 2.5777 0. Residuals 98 140.207 1. R^2= 0.
M05 <- xanova(lm(logErtrag~Saat+Boden))
Analysis of Variance Table
Response: logErtrag Df Sum Sq Mean Sq F value Pr(>F) Saat 9 121.241 13.4712 107.679 < 2.2e- Boden 14 13.147 0.9390 7.506 1.42e- Residuals 76 9.508 0. R^2= 0.
M10 <- xanova(lm(logErtrag~Saat+Boden+Sonne+VegTemp))
Analysis of Variance Table
Response: logErtrag Df Sum Sq Mean Sq F value Pr(>F) Saat 9 121.241 13.4712 144.282 < 2.2e- Boden 14 13.147 0.9390 10.058 3.957e- Sonne 1 2.597 2.5973 27.818 1.275e- VegTemp 1 0.002 0.0016 0.017 0. Residuals 74 6.909 0. R^2= 0.
M11 <- xanova(lm(logErtrag~Boden+Sonne+Saat))
Analysis of Variance Table
Response: logErtrag Df Sum Sq Mean Sq F value Pr(>F) Boden 14 22.598 1.6141 17.518 < 2.2e- Sonne 1 5.202 5.2025 56.461 9.982e- Saat 9 109.184 12.1316 131.660 < 2.2e- Residuals 75 6.911 0. R^2= 0.
M12 <- xanova(lm(logErtrag~Saat+Sonne+Boden))
Analysis of Variance Table
Response: logErtrag Df Sum Sq Mean Sq F value Pr(>F) Saat 9 121.241 13.4712 146.199 < 2.2e- Sonne 1 2.363 2.3635 25.650 2.844e- Boden 14 13.380 0.9557 10.372 1.683e- Residuals 75 6.911 0. R^2= 0.
M13 <- xanova(lm(logErtrag~Saat*Boden+Sonne))
Analysis of Variance Table
Response: logErtrag Df Sum Sq Mean Sq F value Pr(>F) Saat 9 121.241 13.4712 167.8535 < 2.2e- Boden 14 13.147 0.9390 11.7007 3.988e- Sonne 1 2.597 2.5973 32.3627 1.012e- Saat:Boden 53 5.145 0.0971 1.2096 0. Residuals 22 1.766 0. R^2= 0.
coef(M12)
(Intercept) SaatS1 SaatS2 SaatS3 SaatS4 SaatS 5.021357327 1.930235660 1.817875681 2.232145779 2.548882064 1. SaatS6 SaatS7 SaatS8 SaatS9 Sonne BodenB -1.182335329 0.899792381 2.660440928 2.241850395 0.002973387 0. BodenB11 BodenB12 BodenB13 BodenB14 BodenB15 BodenB -0.155385090 0.076306791 -0.508731843 0.633925322 -0.668208499 0. BodenB3 BodenB4 BodenB5 BodenB6 BodenB7 BodenB -0.205213062 -0.092275471 -0.131321823 -0.773898376 -0.325752618 0. BodenB -0.
(1) Bei den Modellen in dieser Aufgabe wird an Stelle des Ertrags der logarithmierte Ertrag als Zielgr¨oße verwendet. Warum ist das sinnvoll? (1)
(2) Betrachten Sie Abbildung 2. Gibt es Probleme bei der Anwendung dieses Modells? Welche Probleme liegen vor? (3)
(3) Welches der Modelle M01-M13 sollte aus statistischer Sicht f¨ur die Beschreibung des Sachverhalts gew¨ahlt werden? (2)
Warum? (3)
(4) Warum w¨are es trotz des h¨oheren R^2 nicht besser M13 einzusetzen? (2)
mod <- M par(mfrow=c(2,2)) plot(predict(mod),resid(mod)) plot(predict(mod),influence(mod)$hat) plot(predict(mod),cooks.distance(mod)) qqnorm(resid(mod))
l
l l l l
l (^) l l l l
l
ll
l
l
l
ll
l
l l l l
l l
l (^) l l
l
l
l
l
l l l
l
l (^) l
l
l
l
l
l
l
l
l l
l
l
l l
l l
l (^) l ll l l l
l l l l l
ll
l (^) l
l
l l l
l l l l l
l (^) l
l
l
l
l
l
l
l
l l
l
ll
l
l
l
l l
l
l
l
4 5 6 7 8 9
−0.
−0.
predict(mod)
resid(mod) l l
l l
l
l l ll
l l l
l l
l l
l
l l
l l l l l
l
l
l
l l
l (^) l ll l
l l (^) l
l l l
l l
l
l
ll
l l l^ l l
ll l
l
l l l l l l
l l l
l
l
l l
l
ll l
l
l
l ll
l
l
l
l
l l
l
l l
l ll
l
l l
l
l
l
l
l
l ll
4 5 6 7 8 9
predict(mod)
influence(mod)$hat
l l l^ l
l l l l
l
l
l ll
l l
l
l ll^ l^ l llllll
l
l
l
l l
l l l
l l
l l l
l l
ll
l l l
l
l
l l
l l ll llll (^) lll llll
l l (^) l
l l l l
l
l l (^) l (^) l ll
l
l
l
l
l ll (^) l l
l
lll^ l^ ll l
l l
l
4 5 6 7 8 9
predict(mod)
cooks.distance(mod)
l
l ll l ll l ll
l
ll
l
l
l
ll
l
ll l l
l l
ll l
l
l
l
l
l ll
l
ll
l
l
l
l
l
l
l
l l
l
l
l l
ll
ll ll lll
l l l ll
ll
ll l
l l l
l l l l l
ll
l
l
l
l
l
l
l
l l
l
l l
l
l
l
l l
l
l
l
−2 −1 0 1 2
−0.
−0.
Normal Q−Q Plot
Theoretical Quantiles
Sample Quantiles
Abbildung 2: Diagnostische Grafiken zum Modell M12.