3.7. Höhere Ableitungen

Seien E und F normierte Räume und U eine offene Teilmenge von E. Sei ferner f : U E F auf U Frechet-differenzierbar. D.h. es gibt eine Abbildung f() : E L(E,F). Der Raum der stetigen linearen Abbildungen L(E,F) =: F1 ist aber selbst ein normierter Raum und wir können untersuchen, ob die Abbildung f() wieder differenzierbar ist. Falls f() in einem Punkt x0 U differenzierbar ist, so bezeichnen wir mit der Ableitung von f() die zweite Frechet-Abeitung

f(x0) = (f()) x=x0

von f. Diese ist dann eine stetige lineare Abbildung von E nach F1, liegt also in L(E,F1) = L(E,L(E,F)).

SATZ 3.7.1. Angenommen es gibt f(x0), dann ist

[f(x0)h]k = D[Df(x0)k]h

mit h,k E.

Es ist f(x0) L(E,F1). Ist h E, so ist also f(x0)h F1 = L(E,F). Angewendet auf ein k E liefert dies also [f(x0)h]k F. Überprüfen wir diese Eigenschaft mit den Richtungsableitungen, so bemerken wir, dass Df(x)[] L(E,F) ist. Ist k also in E, so ist Df(x)[k] F, bzw.

D[Df(x)[k]][]x=x0 L(E,F),oderD[Df(x)[k]][h]x=x0 F

für h E. Die Ausdrücke [f(x0)h]k und D[Df(x0)k]h liegen also beide im gleichen Raum F.


Vorüberlegung:
Eine Operatorfunktion ψ(t) konvergiert für t 0 in L(E,F) gegen ein ψ0 genau dann, wenn ||ψ(t) ψ0||L(E,F) 0 konvergiert. Daraus erhalten wir direkt, dass

ψ(t)k ψ0kF = (ψ(t) ψ0)kF ψ(t) ψ0L(E,F) kE 0,

d.h. für alle Elemente k E konvergiert ψ(t)k für t 0 in F gegen ψ0k.

Bilden wir die zweite Ableitung und lassen sie auf ein h E wirken, so erhalten wir nach Definition der Frechet-Ableitung

f(x)h = Df(x) x=x0[h] = lim t0f(x 0 + t h) f(x0) t .

Daraus folgt nun mit Hilfe unserer Vorüberlegung, dass

[f(x0)h]k = lim t0f(x 0 + th) f(x 0) t k = lim t0f(x 0 + th)k f(x 0)k t = lim t0φ(x0 + th) φ(x0) t = Dφ(x0)[h] = D(f(x 0)k)[h] = D(Df(x0)[k])[h],

wobei wir zwischenzeitig f(x)k durch φ(x) ersetzt haben.

Es sind also

[f(x0)h]k = D(Df(x0)[k])[h], [f(x0)k]h = D(Df(x0)[h])[k].

Beide Ausdrücke sind dabei in jedem der Argumente h und k linear. f(x 0) ist also eine Bilinearform und wir interessieren uns dafür, ob diese Bilinearform zusätzlich symmetrisch ist.

SATZ 3.7.2. Sei f : U E F in U zweifach Frechet-differenzierbar und f : U L(E,L(E,f)) stetig. Dann ist

[f(x0)h][k] = [f(x0)k][h]

für alle h,k E, d.h. f(x0) ist bilinear und symmetrisch.

Betrachten wir zwei normierte Räume E1 und E2 und einen bilinearen Operator T : E1 × E2 F, so können wir auch für diesen eine Norm definieren:

TL(E1,E2,F) = sup x1E1 x2E2 x1,x20 T(x1,x2)F x1E1x2E2

Im Spezialfall E1 = E2 = E schreiben wir L(E,E,F) = L2(E,F). Betrachten wir nun f(x0), so erhalten wir

[f(x0)h]kF f(x0)hL(E,F)kE f(x0)L(E,F1)hEkE.

D.h. f(x0) L2(E,F) ist bilinear, stetig und unter obigen Vorausetzungen auch symmetrisch.

Spezialfall:
Wir betrachten nocheinmal den bereits oben diskutierten Spezialfall einer Abbildung f : U n . Dann ist

D(Df(x)[ej])[ek] = D f xj [ek] = xk f xj = 2f xkxj, D(Df(x)[ek])[ej] = D f xk [ej] = xj f xk = 2f xjxk.

Im Allgemeinen sind dies verschiedene Objekte, unter den Bedingungen aus Satz 3.7.2 folgt jedoch die Gleichheit beider Ausdrücke.

SATZ 3.7.3. Sei F : U n m. Angenommen es existieren alle partiellen Ableitungen auf U und sind stetig. Dann folgt

2f xjxk = 2f xkxj.

Anmerkung 1:
Wir betrachten

f(x,y) = x y x2y2 x2+y2,fallsx2 + y20 0, fallsx2 + y2 = 0

Berechnet man hierfür die zweiten Ableitungen

y f x, x f y

im Punkt (0, 0), so sind diese verschieden. Die Voraussetzung der Stetigkeit der partiellen Ableitungen aus Satz 3.7.3 ist also notwendig.

Anmerkung 2:
Sei f : U n m, dann haben wir gesehen, dass sich die Wirkung der ersten Ableitung mit Hilfe einer Matrix darstellen lässt. Für die zweite Ableitung suchen wir nun eine analoge Darstellung. Hiefür betrachten wir die l-te Komponente von [f(x)h]k und erhalten

πl [f(x)h]k = πl D f(x)hk = πl D r=1n f xrhr k = D r=1n fl xrhr k = s=1n xs r=1n fl xrhr ks = r,s=1n 2f l xsxrhrks.

Im Spezialfall m = 1 erhalten wir also

[f(x0)h][k] = f(x0)[h,k] = H(x0)h,kn,

wobei

H(x0) = 2f(x) x1x1 2f(x) x1xn 2f(x) xnx1 2f(x) xnxn

die Hesse-Matrix bezeichnet. f(x0) ist also genau dann symmetrisch, wenn die Hesse-Matrix symmetrisch, sich also die Reihenfolge der partiellen Ableitungen vertauschen lässt.

Satz 3.7.2 wollen wir hier nicht beweisen. Statt dessen zeigen wir Satz 3.7.3 unabhängig von Satz 3.7.2.

Wir wollen den Beweis wieder mit Hilfe des Mittelwertsatzes führen. Hierfür ist es aber notwendig, dass die Funktion f nach abbildet. D.h. wir führen den Beweis für jede Komponente einzeln, wodurch es genügt den Fall m = 1 zu betrachten. Desweiteren genügt es nur den Fall n = 2 zu betrachten, da beim Bilden das Ableitungen alle übrigen Variablen festgehalten werden.
Sei nun (h,k) 2. Anders als sonst üblich, bezeichnen h und k hier die Komponenten eines Vektors im 2. Sind nun h und k so klein gewählt, dass für ein (x,y) U auch (x + h,y + k), (x + h,y), (x,y + k) U, so können wir

w := f(x + h,y + k) f(x + h,y) f(x,y + k) + f(x,y)

betrachten. Zusätzlich setzen wir

φ(y) := f(x + h,y) f(x,y)

für ein festgehaltenes x. Wegen den Voraussetzungen an f ist auch φ zweifach differenzierbar und die zweite Ableitung von φ stetig. Damit erhalten wir nach dem Mittelwertsatz von Lagrange

w = φ(y + k) φ(y) = φy(y + θk)k

für ein geeignetes θ [0, 1]. Berechnet man nun die Ableitung von φ, so entspricht dies gerade der partiellen Ableitung von f bzgl. der Variablen y und es folgt

w = k f y(x + h,y + θk) f y(x,y + θk) .

Nun wählen wir

φ̃(x) = f y(x,y + θk)

mit festgehaltenem y + θk, sodass wir genau wie oben

w = k(φ̃(x + h) φ̃(x)) = khφ̃x(x + νh) = kh x f y(x+νh,y+θk)

für geeignete ν,θ [0, 1] erhalten.
Jetzt wiederholen wir dieses Argument und vertauschen die Rollen von x und y. Setzen wir ψ(x) = f(x,y + k) f(x,y), so können wir den Mittelwertsatz auf

w = ψ(x + h) ψ(x)

anwenden und erhalten letztendlich, dass

w = hk y f xx+ν̃h,y+θ̃k

mit neuen ν̃,θ̃ [0, 1]. Aus beiden Gleichungen für w erhalten wir

x f y(x+νh,y+θk) = y f x(x+ν̃h,y+θ̃k).

Gehen wir in nun zum Grenzwert h,k 0 über so konvergieren, da ν,θ,ν̃,θ̃ [0, 1], auch (x + νh,y + θk), (x + ν̃h,y + θ̃k) (x,y) und wir erhalten aufgrund der Stetigkeit der zweiten Ableitungen, dass

x f y(x,y) = y f x(x,y).


Die zweite Ableitung ist eine Abbildung

f() : U E F2

mit F2 = L2(E,F) = L(E,L(E,F)). Falls diese Abbildung wieder Frechet-differenzierbar ist, so können wir die dritte Ableitung von f definieren:

f(3)(x) = (f(x)) : U E L 3(E,F) = L(E,L(E,L(E,F))) = L(E,E,E; F).

Diese wirkt dann auf drei Argumente und hat die Form f(3)(x 0)[h,k,l] für h,k,l E. Dies lässt sich, falls f hinreichend oft differenzierbar ist, bis zur n-ten Ableitung fortsetzen welche dann durch

f(n)(x) = f(n1)(x) L n(E,F)

mit Ln(E,F) = L(E,LE,F ) iterativ definiert ist.
Zusammenfassend sind höhere Frechet-Ableitungen Multilinearformen, welche stetig, bzw. beschränkt sind. Hängt die entsprechende Ableitung zudem stetig von x ab, so sind sie zusätzlich symmetrisch. Entsprechend muss eine n-te Frechet-Ableitung auf n Argumente h(1),,h(n) E wirken. Sind nun alle Argumente gleich so könnenwir auch

f(n)(x)[h(1),,h(n)] = f(n)(x)[h,,h] = f(n)(x)hn

schreiben. Achtung hier ist hn nur als Abkürzung für [h,,h] zu verstehen, ein Vektor lässt sich nicht n-mal mit sich selbst multiplizieren.