Konvexe Optimierung, Übungen von Optimierung

In der konvexen Optimierung geht es um die Minimierung konvexer Funktionen unter konve- xen Nebenbedingungen. Die lineare Optimierung ist ein Spezialfall ...

Art: Übungen

2021/2022

Hochgeladen am 28.06.2022

Laura_Hälker
Laura_Hälker 🇩🇪

4.1

(23)

45 dokumente

1 / 101

Toggle sidebar

Diese Seite wird in der Vorschau nicht angezeigt

Lass dir nichts Wichtiges entgehen!

bg1
Konvexe Optimierung
Prof. Dr. Sven Rahmann
LS 11, Fakult¨
at f¨
ur Informatik, TU Dortmund
2009–2010
Entwurf vom 17. Mai 2010
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Unvollständige Textvorschau

Nur auf Docsity: Lade Konvexe Optimierung und mehr Übungen als PDF für Optimierung herunter!

Konvexe Optimierung

Prof. Dr. Sven Rahmann

LS 11, Fakult¨at f¨ur Informatik, TU Dortmund

Entwurf vom 17. Mai 2010

ii

Inhaltsverzeichnis

KAPITEL 1

Einleitung

In der konvexen Optimierung geht es um die Minimierung konvexer Funktionen unter konve- xen Nebenbedingungen. Die lineare Optimierung ist ein Spezialfall davon. Ein anderer wich- tiger Spezialfall ist die Optimierung quadratischer Funktionen unter quadratischen und/oder linearen Nebenbedingungen. Viele Anwendungsprobleme lassen sich konvex formulieren. Wir geben hier einen Vorgeschmack und wiederholen dabei und danach grundlegende Begriffe, vor allem aus der linearen Algebra.

1.1 Ein geometrisches Problem

Wir betrachten examplarisch folgendes geometrisches Problem. Gegeben seien n Punkte im R^2 , n¨amlich (xi, yi) mit i = 1,... , n. Wir suchen den kleinsten Kreis, also Mittelpunkt (x, y) und Radius r ≥ 0, der alle Punkte enth¨alt. Offensichtlich l¨asst sich dieses Problem mit q = r^2 wie folgt formulieren.

Minimiere q so dass (xi − x)^2 + (yi − y)^2 ≤ q f¨ur i = 1,... , n.

Mit den Variablen z = (x, y, q) l¨asst sich dies schreiben als

Minimiere f (z) so dass fi(z) ≤ 0 f¨ur i = 1,... , n,

mit der linearen (und damit konvexen) Funktion f (z) = q und den konvexen (nichtlinearen) Funktionen fi(z) = (xi − x)^2 + (yi − y)^2 − q f¨ur i = 1,... , n.

1 Einleitung

In diesem Skript geht es darum, wie man aus gegebenen Problemstellungen (aus verschie- denen Anwendungen) ein solches abstraktes konvexes Optimierungsproblem formuliert, und wie man solche Probleme algorithmisch l¨ost.

Man beachte, dass wir schon einiges an Arbeit geleistet haben, um das geometrische Pro- blem in der obigen Form zu formulieren: Wir haben Variablen (x, y) f¨ur den Mittelpunkt eingef¨uhrt, sowie eine Variable q f¨ur das Quadrat des gesuchten Radius r. Eigentlich sollten die Nebenbedingungen ja d(x,y)(xi, yi) ≤ r lauten mit dx,y(u, v) =

(x − u)^2 + (y − v)^2 , aber die obige Formulierung scheint auf den ersten Blick nat¨urlicher. Die (im Grunde) ¨aquivalente Formulierung mit den Variablen (x, y, r) mit (x − xi)^2 + (y − yi)^2 − r^2 ≤ 0 ist kein konvexes Problem (warum nicht?).

Hier wird schon deutlich, dass man sich bei der Formulierung eines (angewandten) Problems als konvexes Optimierungsproblem M¨uhe geben muss. Ist diese Arbeit geschafft, greifen eine Reihe von Formalismen und Algorithmen, die in diesem Skript vorgestellt werden.

1.2 Ein Beispiel aus dem Maschinellen Lernen: SVMs

Gegeben seien n Datenpunkte in einem d-dimensionalen Raum, die aus zwei verschiedenen Klassen stammen. Die Klassen bezeichnen wir oBdA mit +1 und −1. Beispielsweise kennen wir zu n = 100 Patienten die Genexpressionswerte von d = 20000 Genen und wissen, ob diese an einer bestimmten Krankheit leiden (Klasse +1) oder nicht (Klasse −1). Gegeben sind also n Vektoren (xi, yi) ∈ Rd^ × { ± 1 } f¨ur i = 1,... , n.

Gesucht ist nun eine Hyperebene h in Rd, die die beiden Klassen trennt, d.h., eine Punkt- menge h = { y ∈ Rd^ | 〈w|y〉 = b } mit w ∈ Rd^ und b ∈ R, so dass im Halbraum H−^ := { y ∈ Rd^ | 〈w|y〉 ≤ b } die Punkte der Klasse −1 liegen und im Halbraum H+^ := { y ∈ Rd^ | 〈w|y〉 ≥ b } die Punkte der Klasse +1. Sofern solche Hyperebenen f¨ur die gegebenen Punkte ¨uberhaupt existieren (die Punkte also linear trennbar sind), suchen wir idealerweise eine Hyperebene, die den Abstand zu den n¨achstgelegenen Punkten aus jeder Klasse maximiert (eine sog. maximum margin hyperplane).

Ist in der Darstellung von h der Vektor w ∈ Rd^ ein normierter Vektor (‖w‖ 2 = 1), dann ist der Abstand eines Punktes x zu h genau 〈w|x〉−b. Die Forderung, der kleinste Abstand eines Punkte xi von h mindestens c betr¨agt, ist ¨aquivalent dazu, dass alle Punkte xi mindestens den Abstand c von h haben sollen, also | 〈w|xi〉 − b| ≥ c. Ber¨ucksichtigt man die Klassenlabel yi l¨asst sich dies als yi · (〈w|xi〉 − b) − c ≥ 0 f¨ur i = 1,... , n

schreiben. Um die Anzahl der Variablen zu reduzieren (und die Beschr¨ankung von w auf normierte Vektoren aufzuheben), dividieren wir durch c und setzen w′^ := w/c und b′^ := b/c. Dies f¨uhrt auf die Bedingungen

yi · (〈w′|xi〉 − b′) − 1 ≥ 0 f¨ur i = 1,... , n

Der geforderte Mindestabstand eines Punktes xi von h ist damit entsprechend 1/‖w′‖ 2. Also gilt es, diesen zu maximieren, oder ¨aquivalent ‖w′‖^22 zu minimieren.

1 Einleitung

xT^ Ay = 〈x|A|y〉, wenn x und y Spaltenvektoren sind und A eine passende Matrix ist. Es ist xT^ x = 〈x|x〉 = ‖x‖^22 ∈ R; andererseits ist xxT^ = |x〉 〈x| eine n × n-Matrix mit Rang 1. Ein Vorteil der bra-ket-Notation liegt darin, dass man sich nicht merken muss, ob x als Spalten- oder Zeilenvektor gegeben ist. Stets ist 〈x| ein Zeilenvektor und |x〉 ein Spaltenvektor, wenn x ∈ Rn.

Ein endlich-dimensionaler Vektorraum mit Skalarprodukt wird auch Euklidischer Raum ge- nannt. In ihm gilt die Cauchy-Schwarz’sche Ungleichung 〈x|y〉^2 ≤ 〈x|x〉 〈y|y〉 oder nach Wurzelziehen 〈x|y〉 ≤ ‖x‖‖y‖, wobei die Norm die aus dem Skalarprodukt gewonnenene Norm ist.

Symmetrische Matrizen. Es sei Sn^ die Menge der symmetrischen n × n-Matrizen, ein Vektorraum der Dimension

(n+ 2

. Weiter sei S+ die Menge der positiv semidefiniten Matrizen in Sn, also die Menge derjenigen X ∈ Sn, f¨ur die 〈z|X|z〉 ≥ 0 f¨ur alle Vektoren z ∈ Rn^ ist. Analog sei S++ die Menge der positiv definiten Matrizen in Sn, also die Menge derjenigen X ∈ Sn, f¨ur die 〈z|X|z〉 > 0 f¨ur alle Vektoren z 6 = 0 ist.

Auf Sn^ ist ebenfalls ein Skalarprodukt definiert, f¨ur das wir ebenso die bra-ket-Notation benutzen(!), n¨amlich 〈X|Y 〉 := tr(XT^ Y ). Damit wird Sn^ ebenfalls zu einem Euklidischen Raum. Bei dieser Definition ist tr(A) =

∑n i=1 Aii^ die Spur (engl.^ trace) von^ A, also die Summe der Diagonalelemente, die gleich der Summe der Eigenwerte von A ist. Daher ist 〈X|Y 〉 =

∑n i=

∑n j=1 Xij^ Yij^ ; das entspricht dem Euklidischen Skalarprodukt, wenn man eine Matrix als Vektor im Rn 2 auffasst. Die zugeh¨orige Norm ist die Frobenius-Norm mit ‖X‖^2 F = 〈X|X〉 = tr(XT^ X) =

∑n i,j=1 X 2 ij.

Neben der Spur einer Matrix X ist auch ihre Determinante det X definiert; sie l¨asst sich beispielsweise als Produkt ihrer Eigenwerte schreiben. Bei einer Diagonal- oder (nicht sym- metrischen) Dreiecksmatrix ist die Determinante gleich dem Produkt der Diagonalelemente.

Orthogonalit¨at. Ein Euklidischer Raum induziert den Begriff der Orthogonalit¨at. Zwei Vektoren x, y heißen orthogonal, wenn 〈x|y〉 = 0. Ist U ein Untervektorraum von V , so heißt die Menge aller Vektoren, die orthogonal zu jedem Element von U ist, orthogonales Komplement von U. Es wird als U ⊥^ := { x | 〈x|y〉 = 0 f¨ur alle y ∈ U } geschrieben. Ist 0 6 = a ∈ V ein einzelner Vektor und U der von a aufgespannte eindimensionale Unterraum von V , dann ist a⊥^ := U ⊥^ = { x | 〈x|a〉 = 0 }.

KAPITEL 2

Konvexe Mengen

2.1 Lineare R¨aume, affine Mengen, Kegel und konvexe Mengen

2.1 Definition. Seien x 1 ,... , xk Punkte in einem reellen Vektorraum V.

  1. Eine Linearkombination der x 1 ,... , xk ist eine Summe der Form

∑k i=1 θi^ xi^ mit^ θi^ ∈^ R f¨ur alle i = 1,... , k.

  1. Eine affine Kombination der x 1 ,... , xk ist eine Summe der Form

∑k i=1 θi^ xi^ mit^ θi^ ∈^ R f¨ur alle i = 1,... , k und

∑k i=1 θi^ = 1.

  1. Eine konische Kombination der x 1 ,... , xk ist eine Summe der Form

∑k i=1 θi^ xi^ mit θi ∈ R und θi ≥ 0 f¨ur alle i = 1,... , k.

  1. Eine Konvexkombination der x 1 ,... , xk ist eine Summe der Form

∑k i=1 θi^ xi^ mit^ θi^ ∈^ R und θi ≥ 0 f¨ur alle i = 1,... , k und

∑k i=1 θi^ = 1.

2.2 Beispiel (Ein Punkt). Wir betrachten den Spezialfall eines einzelnen Punktes x 6 = 0.

  1. Die Menge der Linearkombinationen aus x ist die Gerade durch den Nullpunkt und x.
  2. Die Menge der affinen Kombinationen ist {x}.
  3. Die Menge der konischen Kombinationen ist r(x) := {θ · x : θ ≥ 0 }; eine solche Menge nennt man den (vom Nullpunkt ausgehenden) Strahl (engl. ray) durch x.
  4. Die Menge der Konvexkombinationen ist wieder {x}.

2.3 Beispiel (Zwei Punkte). Wir betrachten den Spezialfall von k = 2 Punkten x 1 , x 2. Wie sehen die Mengen aus, die man aus zwei Punkten kombinieren kann?

2.1 Lineare R¨aume, affine Mengen, Kegel und konvexe Mengen

Ist eine Eigenschaft abgeschlossen unter Schnitten (z.B. linear, affin, konvexer Kegel, konvex) und ist eine endliche Menge X gegeben, dann kann man nach dem Schnitt U aller Mengen fragen, die X enthalten und die genannte Eigenschaft haben. Ein solches U nennt man dann H¨ulle. Man spricht in dem Zusammenhang dann von der kleinsten Menge mit der genannten Eigenschaft, die X enth¨alt.

2.7 Definition (H¨ullen). Gegeben sei eine beliebige Teilmenge X eines Vektorraums V.

  1. Die lineare H¨ulle von X, auch span (X), ist der kleinste Untervektorraum von V , der X enth¨alt, also der Schnitt aller Untervektorr¨aume, die X enthalten.
  2. Die affine H¨ulle von X, auch aff (X), ist die kleinste affine Menge in V , die X enth¨alt, also der Schnitt aller affinen Mengen, die X enthalten.
  3. Die konische H¨ulle von X, auch cone (X), ist der kleinste konvexe Kegel in V , der X enth¨alt, also der Schnitt aller konvexen Kegel, die X enthalten.
  4. Die konvexe H¨ulle von X, auch conv (X), ist die kleinste konvexe Menge in V , die X enth¨alt, also der Schnitt aller konvexen Mengen, die X enthalten.

Ist X endlich, kann man h¨aufig eine konkretere Charakterisierung geben: In den genannten F¨allen kann man nachweisen, dass die H¨ulle gleich der Menge aus den entsprechenden Kombi- nationen von Punkten aus X ist. Die ¨Aquivalenz f¨ur unendliche Mengen nachzuweisen, kann subtiler sein. Wir zeigen dies nur am Beispiel der konvexen H¨ulle und Konvexkombinationen endlich vieler Punkte.

2.8 Satz. Sei X ⊂ V eine endliche Teilmenge eines reellen Vektorraums V. Dann ist conv (X) gleich der Menge K aller Konvexkombinationen von Punkten aus X. Entspre- chendes gilt f¨ur span (X), aff (X) und cone (X).

Beweis. Zuerst zeigen wir conv (X) ⊂ K; dazu gen¨ugt es zu zeigen, dass K konvex ist und X enth¨alt. Dass X ⊂ K gilt, ist klar (triviale Konvexkombinationen). Die Konvexit¨at von K weist man elementar anhand der Definition nach.

Jetzt zeigen wir K ⊂ conv (X); dazu nehmen wir ein beliebiges konvexes Y , das X enth¨alt, und zeigen K ⊂ Y durch vollst¨andige Induktion ¨uber die M¨achtigkeit von X = {x 0 ,... , xm}. Ist m = 0, dann ist K = {x 0 } = X = conv (X) und nichts weiter zu zeigen. Sei also m > 0 und y :=

∑m i=0 θixi^ eine beliebige Konvexkombination aus^ X, also^ y^ ∈^ K. Sei oBdA θ 0 6 = 1 (ansonsten ist y = x 0 ∈ X ⊂ Y klar). Dann ist nach Induktionsvoraussetzung die kleinere Konvexkombination y′^ =

∑m i=

θi 1 −θ 0 xi^ ∈^ Y^. Da^ Y^ konvex ist, ist auch die Konvexkombination θ 0 x 0 + (1 − θ 0 )y′^ = y in Y. Damit ist K ⊂ Y gezeigt. Da conv (X) der Schnitt aller konvexen Y ist, die X enthalten und Y sobeben beliebig mit dieser Eigenschaft war, haben wir nun auch K ⊂ conv (X) gezeigt.

2.9 Definition (affine Dimension, affine Unabh¨angigkeit). Die affine Dimension einer Men- ge X ⊂ Rn^ ist die Dimension ihrer affinen H¨ulle. Wir nennen k + 1 Punkte x 0 ,... , xk affin unabh¨angig, wenn ihre affine H¨ulle die Dimension k hat. Dies ist genau dann der Fall, wenn x 1 − x 0 ,... , xk − x 0 linear unabh¨angig sind.

2 Konvexe Mengen

2.2 Einfache Beispiele f¨ur konvexe Mengen

Wir betrachten einige Beispiele f¨ur konvexe Mengen. Beweise werden, solange sie elementar sind, nicht aufgef¨uhrt: Man rechnet einfach die Konvexit¨atseigenschaft laut Definition nach.

Aufgabe 2.1. Beweise folgende Aussagen: Unterr¨aume, affine Mengen und konvexe Kegel sind konvex. Unterr¨aume sind affine Mengen und konvexe Kegel.

2.10 Definition (Positiv (semi)definite Matrizen). Eine symmetrische Matrix S ∈ Rn×n heißt positiv semidefinit, wenn 〈x|S|x〉 ≥ 0 f¨ur alle x ∈ Rn. Sie heißt positiv definit, wenn 〈x|S|x〉 > 0 f¨ur alle x 6 = 0. Wir schreiben S D 0, wenn S positiv semidefinit ist und S B 0, wenn S positiv definit ist. Weiter sei Sn^ die Menge aller symmetrischen n × n-Matrizen, Sn + die Menge aller positiv semidefiniten Matrizen in Sn^ und Sn ++ die Menge aller positiv definiten Matrizen in Sn.

2.11 Beispiel (Kegel der positiv semidefiniten Matrizen). Die Menge aller positiv semidefi- niten Matrizen bildet einen konvexen Kegel und ist damit konvex: Seien S 1 , S 2 positiv semi- definit. Dann ist mit θ 1 ≥ 0 und θ 2 ≥ 0 auch 〈x|θ 1 S 1 + θ 2 S 2 |x〉 = θ 1 〈x|S 1 |x〉+θ 2 〈x|S 2 |x〉 ≥ 0 f¨ur alle x ∈ Rn, also die konische Kombination θ 1 S 1 + θ 2 S 2 positiv semidefinit. ♥

Aufgabe 2.2. Welche Bedingungen muss eine symmetrische 2×2-Matrix erf¨ullen, um positiv semidefinit zu sein?

Aufgabe 2.3. Bilden die positiv definiten Matrizen einen konvexen Kegel? eine konvexe Menge?

2.12 Definition (Hyperebenen und Halbr¨aume). Eine Hyperebene im Rn^ ist eine Men- ge der Form H := { x | 〈a|x〉 = b } mit 0 6 = a ∈ Rn^ und b ∈ R. Alternativ kann H = { x | 〈a|x − x 0 〉 = 0 } mit einem x 0 mit 〈a|x 0 〉 = b geschrieben werden. Eine weitere Schreib- weise ist daher x 0 + a⊥.

Eine Hyperebene H teilt Rn^ in zwei (abgeschlossene) Halbr¨aume { x | 〈a|x〉 ≤ b } und { x | 〈a|x〉 ≥ b }, die sich in H schneiden.

Aufgabe 2.4. Beweise: Hyperebenen sind affine Mengen und daher konvex. Ein Halbraum ist konvex, aber nicht affin.

2.13 Beispiel (Euklidische Kugeln und Ellipsoide). Eine (Euklidische) Kugel im Rn^ hat die Form B(xc, r) := { x | ‖x − xc‖ 2 ≤ r } = { x | 〈x − xc|x − xc〉 ≤ r^2 }

mit xc ∈ Rn^ und r ≥ 0. Dabei heißt xc Mittelpunkt oder Zentrum der Kugel und r Ra- dius. Die Kugel beinhaltet alle Punkt mit Abstand h¨ochstens r vom Zentrum. Eine andere Schreibweise ist B(xc, r) = { xc + ru | ‖u‖ 2 ≤ 1 }.

Verzerrt man die Koordinaten mit einer positiv definiten symmetrischen Matrix A, so erh¨alt man ein Ellipsoid B(xc, A) := { xc + Au | ‖u‖ 2 ≤ 1 }.

Eine andere Darstellung davon ist

B(xc, A) = { x | 〈x − xc| A−^2 |x − xc〉 ≤ 1 }.

2 Konvexe Mengen

2.19 Lemma (Bilder und Urbilder unter Funktionen, die Strecken auf Strecken abbilden). Sei f : Rn^ → Rm^ eine Funktion, die Strecken auf Strecken abbildet. Seien C ⊂ Rn^ und D ⊂ Rm^ konvex. Dann sind auch das Bild f (C) ⊂ Rm^ und das Urbild f −^1 (D) ⊂ Rn^ konvex.

Beweis. Die Aussage f¨ur das Bild ist unmittelbar klar. Wir beweisen die Aussage f¨ur das Urbild. Seien also x, y ∈ f −^1 (D) und sei z = θx + (1 − θ)y; zu zeigen ist also z ∈ f −^1 (D) oder f (z) ∈ D. Nun sind nach Voraussetzung f (x) ∈ D und f (y) ∈ D, und z liegt auf der Strecke zwischen x und y, die nach Voraussetzung auf die Strecke zwischen f (x) und f (y) abgebildet wird. Also liegt f (z) auf dieser Strecke, und da D konvex ist, liegt f (z) in D, was zu zeigen war.

2.20 Lemma (Bilder und Urbilder affiner Funktionen). Sei f : Rn^ → Rm^ eine affine Funktion, d.h. f (x) = Ax+b mit einer m×n-Matrix A und einem m-Vektor b. Seien C ⊂ Rn und D ⊂ Rm^ konvex. Dann sind auch das Bild f (C) ⊂ Rm^ und das Urbild f −^1 (D) ⊂ Rn konvex.

Beweis. Affine Funktionen bilden Strecken auf Strecken ab; wir wenden das vorige Lemma an.

2.21 Beispiel (Spezielle affine Abbildungen). Einfache Beispiele f¨ur affine Abbildungen sind Skalierungen, Verschiebungen, Projektionen auf ein Teil der Koordinaten, sowie Permutatio- nen der Koordinaten. ♥

2.22 Beispiel (Summe zweier Mengen). Als Anwendung der Lemmas 2.18 und 2.20 sehen wir: Sind C 1 , C 2 ⊂ Rn^ konvex, so auch ihre Summe C 1 + C 2 = { y + z | y ∈ C 1 , z ∈ C 2 }. Denn: C = C 1 × C 2 ⊂ R^2 n^ ist konvex, darauf wenden wir die affine (sogar lineare) Funktion f : R^2 n^ → Rn^ : (y, z) 7 → y + z an. ♥

2.23 Beispiel (Polyeder). Die Menge Rm + × { 0 } ist offensichtlich konvex. Ihr Urbild unter der Abbildung f : x 7 → (b − Ax, d − Cx) mit geeignet dimensionierten Matrizen A, C und Vektoren b, d ist das Polyeder aus Definition 2.17. ♥

Aufgabe 2.7. Zeige, dass ein Ellipsoid konvex ist, ausgehend von der Konvexit¨at der Ein- heitskugel, mit Hilfe einer geeigneten affinen Abbildung.

Wir betrachten nun linear-fraktionale Funktionen; diese erhalten, wie wir sehen werden, ebenfalls die Konvexit¨at. Ein einfacher Spezialfall ist die Perspekiv-Funktion.

2.24 Definition (Perspektiv-Funktion). Die Perspektiv-Funktion oder Perspektive ist die Funktion P : Rn+1^ → Rn, definiert auf Rn^ × R++ als P : (z, t) 7 → z/t.

Die Perspektiv-Funktion kann man sich anhand einer Lochkamera vorstellen. Die letzte (po- sitive) Komponente wird auf 1 normalisiert und dann abgeschnitten.

2.25 Lemma (Bilder und Urbilder unter der Perspektiv-Funktion). Bilder und Urbilder konvexer Mengen unter der Perspektiv-Funktion sind konvex.

2.4 Eigenschaften konvexer Mengen

Beweis. Wir weisen nach, dass P Strecken auf Strecken abbildet, genauer: sind x = (x′, x′′) und y = (y′, y′′) die Endpunkte der Strecke [x, y], dann wird z = θx + (1 − θ)y auf μP (x) + (1 − μ)P (y) abgebildet, mit μ = θ · x′′/(θ · x′′^ + (1 − θ) · y′′) ∈ [0, 1], und dieser Zusammenhang θ 7 → μ ist monoton auf [0, 1]. Daher ist P ([x, y]) = [P (x), P (y)]. Damit liegt mit je zwei Punkten auch die Strecke zwischen ihnen im Bild von P. Die Aussage des Lemmas folgt nun aus Lemma 2.19.

2.26 Definition (Linear-fraktionale Funktion). Eine linear-fraktionale Funktion oder pro- jektive Funktion ist eine Funktion der Form f : Rn^ → Rm, x 7 → f (x) := (^) 〈cAx|x〉++bd , definiert wo immer 〈c|x〉 + d > 0.

2.27 Lemma (Bilder und Urbilder linear-fraktionaler Funktionen). Bilder und Urbilder konvexer Mengen unter linear-fraktionalen Funktionen sind konvex.

Beweis. Eine linear-Fraktionale Funktion ist die Komposition f = P ◦ g mit der affinen

Funktion g : x 7 →

A

c

x +

b d

mit A ∈ Rm×n, b ∈ Rm, c ∈ R^1 ×n^ und d ∈ R.

2.4 Eigenschaften konvexer Mengen

2.28 Definition (Extremalpunkt). Ein Punkt x einer konvexen Menge C heißt Extremal- punkt oder Ecke, wenn er sich nicht als Konvexkombination anderer Punkte darstellen l¨asst. Ist also x =

i θixi^ eine Darstellung mit paarweise verschiedenen^ xi, dann ist f¨ur genau ein i gerade x = xi und θi = 1, entsprechend θj = 0 f¨ur j 6 = i.

2.29 Satz (Satz von Carath´eodory). Sei S eine Menge von affiner Dimension k. Sei C = conv S die konvexe H¨ulle. Dann l¨asst sich jeder Punkt x ∈ C als Konvexkombination von h¨ochstens k + 1 Punkten aus S schreiben. (Die ben¨otigten Punkte sind im allgemeinen von x abh¨angig.)

Beweis. [Skizze] Wir nutzen die affine Abh¨angigkeit von k + 2 Punkten in einer entspre- chenden Konvexkombination und konstruieren daraus eine kleinere Konvexkombination.

2.5 Polyeder, Polytope und Simplexe

Jedes Simplex ist ein Polytop und l¨asst sich in die Form (2.1) bringen. TODO: Beweis? Aber nicht jedes Polytop ist ein Simplex.

2.30 Satz (Satz von Minkowski). Ist P ⊂ Rn^ ein Polytop, so besteht P genau aus den Konvexkombinationen seiner endlich vielen Extremalpunkte.

2.31 Beispiel (W¨urfel). Der W¨urfel { x ∈ Rn^ | |xi| ≤ 1 f¨ur i = 1,... , n } ist ein Polytop mit den 2n^ Extremalpunkten mit den Komponenten ±1. ♥

2.32 Satz (Satz von Carath´eodory). Ist P ⊂ Rn^ ein Polytop mit affiner Dimension k, dann l¨asst sich jeder Punkt in P als Konvexkombination von k + 1 seiner Extremalpunkte schreiben. (F¨ur jeden Punkt muss man ggf. verschiedene Extremalpunkte heranziehen.)

KAPITEL 3

Konvexe Funktionen

3.1 Definitionen

F¨ur eine Funktion, die auf einer Menge C ⊂ Rn^ definiert ist und Werte in R hat, schreiben wir f : Rn^ → R, dom f = C. Die Menge vor dem Pfeil (→) gibt also nicht den Definitionsbereich, sondern den (eventuell gr¨oßeren) Vektorraum an, der den Definitionsbereich enth¨alt.

3.1 Definition (konvexe Funktion). Eine Funktion f : Rn^ → R heißt konvex, wenn

  • ihr Definitionsbereich dom f eine konvexe Menge C ⊂ Rn^ ist, und
  • f¨ur je zwei Punkte x, y ∈ C und alle λ ∈ [0, 1] gilt

f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y),

wenn also der Funktionswert an der Konvexkombination zweier Punkte unterhalb der Konvexkombination der Funktionswerte an den beiden Punkten liegt.

3.2 Definition (strikt konvexe Funktion). Eine konvexe Funktion f heißt strikt konvex, wenn sogar f¨ur je zwei Punkte x 6 = y ∈ C und alle λ ∈ (0, 1) gilt

f (λx + (1 − λ)y) < λf (x) + (1 − λ)f (y).

Strikte Konvexit¨at ist eine etwas st¨arkere Aussage als Konvexit¨at alleine. Wenn sich die Differenz in der obigen Ungleichung noch sinnvoll beschr¨anken l¨asst (was zum Beispiel auf kompakten Mengen immer der Fall ist), erh¨alt man den Begriff der starken Konvexit¨at.

3 Konvexe Funktionen

3.3 Definition (stark konvexe Funktion). Eine konvexe Funktion f heißt stark konvex oder auch gleichm¨aßig konvex mit Konstante c > 0, f¨ur je zwei Punkte x 6 = y ∈ C und alle λ ∈ (0, 1) gilt

λf (x) + (1 − λ)f (y) − f (λx + (1 − λ)y) ≥

c 2 λ(1 − λ)‖x − y‖^22.

F¨ur c = 0 erh¨alt man offensichtlich wieder einfache Konvexit¨at.

3.4 Lemma (Beziehung zwischen konvexen und stark konvexen Funktionen). Es ist f genau dann stark konvex mit Konstante c > 0 , wenn f − c 2 ‖x‖^22 konvex ist.

Beweis. Sei f − 2 c ‖x‖^22 konvex. Dann ist

λ

[

f (x) − c 2

‖x‖^22

]

  • (1 − λ)

[

f (y) − c 2

‖y‖^22

]

− f (λx + (1 − λ)y) + c 2

‖λx + (1 − λ)y‖^22 ≥ 0

oder ¨aquivalent

λf (x) + (1 − λ)f (y) − f (λx + (1 − λ)y) ≥

c 2

[

λ‖x‖^22 + (1 − λ)‖y‖^22 − ‖λx + (1 − λ)y‖^22

]

c 2

λ(1 − λ)‖x − y‖^22

durch bilineares Ausrechnen der Normterme. Umgekehrt funktioniert die Rechnung genauso.

3.5 Definition (Konkavit¨at). Eine Funktion f : Rn^ → R heißt konkav bzw. strikt konkav bzw. stark konkav mit Konstante c > 0, wenn −f konvex bzw. strikt konvex bzw. stark konvex mit Konstante c ist.

3.6 Lemma. Eine Funktion ist genau dann konvex (konkav), wenn sie auf jeder Strecke innerhalb ihres Definitionsbereichs konvex (konkav) ist.

Beweis. Die Definition der Konvexit¨at beruht nur auf zwei beliebigen Punkten des Defin- tionsbereichs und der Strecke dazwischen.

3.7 Beispiel (affine und lineare Funktionen). Bekanntermaßen heißt eine Funktion affine Funktion, wenn in Definition 3.1 sogar Gleichheit f¨ur alle λ ∈ R statt der Ungleichung f¨ur 0 ≤ λ ≤ 1 gilt. Affine Funktionen, insbesondere lineare Funktionen, sind also gleichzeitig konvex und konkav. Affine Funktionen sind die einzigen Funktionen, die gleichzeitig konvex und konkav sind. ♥

3.8 Beispiel (quadratische Funktionen). Die Funktion f : R → R; x 7 → ax^2 ist konvex genau dann wenn a ≥ 0. Im Fall a = 0 ist die Funktion konstant und daher konvex. Ist a > 0, dann ist f − ax^2 die konvexe Nullfunktion; wegen Lemma 3.4 ist f daher stark konvex mit Konstante 2a. ♥

3.9 Beispiel (Maximum). Die Funktion f : Rn^ → R; (x 1 ,... , xn) 7 → maxi=1,...,n xi ist konvex: Es ist maxi (λxi + (1 − λ)yi) = λxj + (1 − λ)yj f¨ur ein geeignetes j; dies ist ≤ λ maxi xi + (1 − λ) maxi yi. ♥