3.6. Die schwache und die Frechet-Ableitung für Funktionen zwischen endlichdimensionalen Räumen

Wir wollen nun die zuvor eingeführten Begriffe in der konkreten Situation, dass eine Funktion zwischen endlichdimensionalen Räumen, also z.B. zwischen n und m, abbildet anschauen. Dazu sei U n offen und f : U m. Eine solche Funktion besteht aus m verschiedenen Komponenten

f(x) = f1(x1,,xn) fm(x1,,xn) ,

mit Argumenten, welche n verschiedene Komponenten haben:

x = x1 x n .

Physikalische Anwendungen solcher Funktionen sind z.B. Kraftfelder im 3, welche einem gegebenem Raumpunkt x = (x1,x2,x3) eine Kraft mit den Komponenten (f1(x),f2(x),f3(x)) zuordnen.

DEfiNITION 3.6.1. Die Funktion f heißt im Punkt x0 int(U) differenzierbar genau dann, wenn f in x0 Frechet-differenzierbar ist.

Unter der Differenzierbarkeit einer solchen Funtion verstehen wir also stets Frechet-Differenzierbarkeit. Ist f also differenzierbar, so existiert J(x0) L(n, m) mit

f(x0 + h) = f(x0) + J(x0)h + o(h)

wobei h 0. Bezeichnen wir mit

ej = (0,, 0, 1 j-te Stelle, 0,, 0) n

bzw.

ek = (0,, 0, 1 k-te Stelle, 0,, 0) m

die Vektoren der kanonischen Basen des n bzw. m, so lässt sich der stetige, lineare Operator J(x0) als eine Matrix darstellen:

J(x0) jk = J(x0)ek,ej m.

DEfiNITION 3.6.2. Unter der partiellen Ableitung verstehen wir den Grenzwert

f xj = lim t0f(x + tej) f(x) t = Df(x)ej.

D.h. wir differenzieren nur in der j-ten Koordinate, alle übrigen Koordinten werden festgehalten. Bei der partiellen Ableitung handelt sich sich also nur um die Richtungsableitung entlang der j-ten Koordinatenachse. Diese existieren alle wegen der Voraussetzung der Frechet-differenzierbarkeit. Nocheinmal ausgeschrieben lautet dieser Grenzwert wie folgt:

f xj = lim t0f(x1,,xj + t,xj+1,,xn) f(x1,,xj,,xn) t

Da f selbst vektorwertig ist, werden auf der rechten Seite dabei die Differenzen zweier Vektoren gebildet und

f xj = f1 xj fm xj

ist ebenfalls ein Vektor.
Beachte: Betrachten wir die Projektion von fs(x 0)ej auf die k-te Koordiantenachse, so erhalten wir

fs(x 0)ej,ek = π k f xj x=x0 = πk Df(x0)ej = D πkf(x0)ej = Dfk(x0)ej = fk xj x=x0.

Wobei πk mit dem Grenzwert im m vertauscht wurde.

SATZ 3.6.3. Ist f : U m im Punkt x0 U Frechet-differenzierbar, so existieren alle partiellen Ableitungen fkxj x=x0, j = 1,,n, k = 1,,m und die Ableitung f(x 0) lässt sich in den gewählten Basen durch die Jakobi-Matrix

f1 x1 x=x0 f1 xn x=x0 fm x1 x=x0 fm xn x=x0

darstellen.

Beweis
Es sei fs(xast) L(Kn, Km) . Basen seien ek und ej . Dann ist

fs(x) jk = < f s(x)e k,ej > Km = πj Df(x)e k = Dfj(x)e k = fj xk|x=x


Die partiellen Ableitungen lassen sich häufig einfach berechnen. Wir haben aber gesehen, dass aus der alleinigen Existenz der partiellen Ableitungen noch nicht folgt, dass die Funktion f auch Frechet-differenzierbar ist. In diesem Fall lässt sich die Jakobi-Matrix zwar ausrechnen, sie spielt dann aber nicht die Rolle der Frechet-Ableitung.
Stellen wir uns den Graphen einer Funktion als eine gewölbte Oberfläche vor, so bedeutet Frechet-Differenzierbarkeit in einem Punkt x0, dass diese Oberfläche lokal in einer kleinen Umgebung von x0 wie eine Ebene aussieht, bzw. sich durch eine Ebene (bis auf einen kontrollierbaren Fehler) approximieren lässt. Kennt man aber nur die partiellen Ableitungen in z.B. zwei Richtungen so lässt sich i.A. nicht auf das Verhalten von f in eine dritte Richtung schließen. Solche Schlüsse erfordern weitere Regularitätsbedingungen an f:

SATZ 3.6.4. Angenommen, alle partiellen Ableitungen fjxk existieren in allen x U und sind im Punkt x0 U stetig. Dann ist f in x0 schwach differenzierbar und es ist fs(x 0) = J(x0).

Wir wissen, dass alle Richtungsableitungen entlang der Koordinatenachsen existieren und wir haben Dfk(x)[ej] = fkxj. Diese sind aber nur die Richtungsableitungen in spezielle vorgegebene Richtungen. Aus diesen Vorausetzungen zeigen wir, dass auch Dfk(x)[h] für beliebige Richtungen h E existiert und gleichzeitig Linearität in h gilt, d.h.

Df(x0)[αh + αh] = αDf(x 0)[h] + αDf(x 0)[h]

für alle h,h E und α,α erfüllt ist. Es genügt dabei nur skalarwertige Funktionen f : U n (d.h. m = 1) zu betrachten, da wir den Beweis für höhere m dann komponentenweise führen können.

Schritt 1: Angenommen es existieren Df(x)[h] für gewisse Richtungen h n, x U. Dann haben wir Homogenität bzgl. der Richtung, d.h. es gilt Df(x)[αh] = αDf(x)[h] für alle α . Für die Linearität der Richtungsableitung bzgl. h bleibt also nur die Additivität zu zeigen.

Schritt 2: Angenommen es existieren Df(x)[h] und Df(x)[h] für alle x U, dann zeigen wir im Folgenden, dass

Df(x0)[h + h] = Df(x 0)[h] + Df(x 0)[h],

für alle x0 U in denen Df(x)[h] und Df(x)[h] stetig sind, erfüllt ist.
Dazu setzen wir g(t) = f(x + t h), t [0, 1], falls Df(x)[h] existiert. Dann ist

f(x + h) f(x) = g(1) g(0) = dg dtt=t0[0,1] 1 = d dtf(x0 + t h) t=t0 = d dτf(x0 + t0 h + τ h) τ=0

wobei wir im 2. Schritt den Mittelwertsatz der Differentialrechnung verwendet haben. Hierfür ist es wiederum wichtg, dass f (und damit g) eine skalarwertige Funktion ist. Damit ist

f(x + h) f(x) = Df(x + t0 h)[h].

Dies ist der Mittelwertsatz für eine skalarwertige Funktion mehrerer Variablen in eine vorgegebene Richtung. t0 ist dabei eine Funktion von x0 und h.
Angenommen es existieren Df(x)[h] und Df(x)[h] für alle x U in zwei gegebene Richtungen h und h. Desweiteren seien Df(x)h und Df(x)h stetig in x0 U. Um nun die Additivität zu zeigen setzen wir h + h = h für gewisse h,h n und schreiben

f(x0 + h) f(x0) = f(x0 + h + h) f(x 0) = f(x0 + h + h) f(x 0 + h) + f(x 0 + h) f(x 0).

Nun wenden wir den Mittelwertsatz aus Schritt 2 jeweils auf die beiden vorderen Summanden für x = x0 + h und auf die beiden hinteren Summanden für x = x0 an. Dies dürfen wir, da wir vorausgesetzt haben, dass die beiden Ableitungen für alle x U in die Richtungen h und h existieren. Damit erhalten wir

f(x0 + h) f(x0) = Df(x0 + h + t 0h)[h] + Df(x 0 + t0h)[h].

Nun ersetzen wir h durch s h und h durch s h mit einem s und erhalten

f(x0 + s h) f(x0) = s Df(x0 + s(h + t 0h))[h] + s Df(x 0 + st0h)[h]

mit t0 = t 0(x 0,h,h,s) [0, 1] und t0 = t 0(x 0,h,h,s) [0, 1]. Betrachten wir nun den Differenzenquotienten

1 s(f(x0 + sh) f(x0)) = Df(x0 + s(h + t0h))[h] + Df(x 0 + st0h)[h],

so konvergieren für s 0 auch x0 + s(h + t 0h) x 0 und x0 + st0h x 0 und es folgt

Df(x0)[h + h] = Df(x 0)[h] + Df(x 0)[h].

Schritt 3: Sei h = h1e1 + + hnen eine beliebige Richtung. Dann nutzen wir die eben bewiesene Linearität und es folgt aus der Existenz der partiellen Ableitungen Df(x)[ej] und deren Stetigkeit in x0, dass

Df(x0)[h] = j=1nh jDf(x)[ej] = h1 f x1 x=x0 + + hn f xn x=x0.

Der Ausdruck auf der rechten Seite ist wieder linear in h und ist daher, als lineare Abbildungen zwischen endlichdimensionalen Räumen, stetig.

Aus der schachen Ableitung alleine können wir im Allgemeinen noch nichts über die Frechet-Ableitung aussagen. Man kann jedoch die im letzten Satz formulierten Voraussetzungen noch etwas verschärfen, sodass eine Aussage über die Frechet-Differenzierbarkeit möglich ist:

SATZ 3.6.5. Angenommen, alle partiellen Ableitungen fjxk existieren in allen x U und sind in einer ε-Umgebung von x0 U stetig. Dann ist f in x0 differenzierbar.


Da alle partiellen Ableitungen existieren und in einer Umgebung Uε(x0) von x0 U stetig sind, folgt nach Satz 3.6.4, dass die schwache Ableitung fs(x) für alle x Uε(x) existiert und

fs(x) = J(x) = fj xk .

gilt. Alle Einträge in J(x) sind in Uε(x) stetig und es folgt, dass die Abbildung

J() = fs() : U ε(x0) L(n, m)

ebenfalls stetig ist (Übung!). Also ist f nach Satz 3.4.6 Frechet-differenzierbar.

Zusammenfassung:
Sei eine Abbildung f : U n m gegeben.

  1. Ist f in einem Punkt x0 U differenziebar, d.h. es existiert die Frechet-Ableitung f(x 0), dann existiert auch die schwache Ableitung fs(x 0),diese ist gleich der Jacobi-Matrix J(x0).
  2. Existieren alle partiellen Ableitungen fjxk und sind in x0 stetig, dann existiert auch fs(x 0).
  3. Existieren alle partiellen Ableitungen fjxk und sind in einer Umgebung von x0 stetig, dann existiert auch f(x 0).

Spezialfall:
Sei f : U n . Dann besteht die Jacobi-Matrix nur aus einer Zeile

f(x 0) = J(x0) = f x1,, f xn = (f)t.

Hierbei bezeichnet

f = grad f = f x1,, f xn t

den Gradienten von f. Ist h = (h1,,hn)t n, so ist

f(x 0)h = fs(x 0)h = Df(x0)[h] = (f)t(h 1,,hn)t = f,hn = h,f = h1 f x1 + + hn f xn = h1 x1 + + hn xn f

(hier wurden nur die verschiedenen üblichen Schreibweisen aufgeführt). Mit Hilfe dieser neu eigeführten Symbole lässt sich die Definition der Frechet-Ableitung wie folgt ausdrücken:

f(x0 + h) f(x0) = f,h + o(h)),h 0.

Der Summand f,h beschreibt dabei den linearen Anteil des Anstiegs von f. Wann ist dieser Anstieg jedoch am größten? Im 3 lässt sich das Skalarprodukt durch

f,h = fh cos (f,h)

ausdrücken. Offensichtlich wird dies maximal, falls h parallel zu f ist, d.h. der größte lineare Anstieg verläuft in Richtung des Gradienten von f. Mit anderen Worten zeigt also der Gradient von f in diejenige Richtung mit größter Steigung nach oben.

Gleichung für die Tangentialebene
Anschaulich beschreibt die Frechet-Ableitung die Aproximation einer Funktion durch eine affine Abbildung, entsprechend approximiert man eine Funktion durch eine Ebene, wenn man in der Definition der Frechet-Ableitung den Fehlerterm weglässt. Bezeichnet f̃ also die Funktion für die Tangentialebene, so erfüllt diese die Bedingung

f̃(x0 + h) f̃(x0) = f(x0),h

mit h = x x0.

BEISPIEL 3.6.6. Gegeben ist f : 2 mit f(x1,x2) = x12 + x 24. Gesucht sind

  1. Die Tangentialebenen zugehörig zu x1(1) = x 2(1) = 1, x1(2) = 0, x2(2) = 1.
  2. Die Schnittmenge der Tangentialebenen.
  3. Der Winkel zwischen den Tangentialebenen.

Lösung

  1. f(x) x1 = 2x1, f(x) x2 = 4x23. Es existiert die Frechet-Ableitung. f(x + h) = f(x) + f(x)h + o(h)

    f = f(x) x1 f(x) x2 = 2x1 4x23

    f|(1,1) = 24 f|(0,1) = 04
    Somit sind T(1,1):

    y f(x(1)) = < f,x x(1) > y 2 = 2(x1 1) + 4(x2 1)

    und T(0,1):

    y 1 = 0(x1 0) + 4(x2 1) .

  2. Durch von T(1,1) und T(0,1) erhält man folgendes LGS 2x1 + 4x2 y = 4 4x2 y = 3

    dessen Lösung

    T(0,1) T(1,1) = x1 = 1 2,y = 4x2 3

    ergibt.

  3. Bei y y0 =< A,x x0 > mit A n handelt es sich um eine n-dimensionale Ebene im n+1. Bestimme den Normalenvektor im n+1.
    y,x n+1 wobei y und x n. < 1,A, y y0,x x0 >= 0

    n = 1,A 1 + A2 = 1,f 1 + f2

    In unserem Fall ergibt sich n(1,1) = 1,2,4 21 , n(0,1) = 1,0,4 17 .

    cos n(1,1),n(0,1) = < n(0,1),n(1,1) > n(0,1)n(1,1) = (1)(1) + 0 2 + 4 4 2117 = 17 21