Mehrdimensionale Kettenregel

Die mehrdimensionale Kettenregel oder verallgemeinerte Kettenregel ist in der mehrdimensionalen Analysis eine Verallgemeinerung der Kettenregel von Funktionen einer Variablen auf Funktionen und Abbildungen mehrerer Variablen. Sie besagt, dass die Verkettung von (total) differenzierbaren Abbildungen bzw. Funktionen differenzierbar ist und gibt an, wie sich die Ableitung dieser Abbildung berechnet.

Mehrdimensionale Ableitungen

Ist f : R n R m {\displaystyle f\colon \mathbb {R} ^{n}\to \mathbb {R} ^{m}} eine differenzierbare Abbildung, so ist die Ableitung von f {\displaystyle f} im Punkt p R n {\displaystyle p\in \mathbb {R} ^{n}} , geschrieben f ( p ) {\displaystyle f'(p)\,} , D f ( p ) {\displaystyle Df(p)} oder D f p {\displaystyle Df_{p}} , eine lineare Abbildung, die Vektoren im Punkt p R n {\displaystyle p\in \mathbb {R} ^{n}} auf Vektoren im Bildpunkt f ( p ) R m {\displaystyle f(p)\in \mathbb {R} ^{m}} abbildet. Man kann sie durch die Jacobi-Matrix darstellen, die mit J f ( p ) {\displaystyle J_{f}(p)} , f x ( p ) {\displaystyle {\frac {\partial f}{\partial x}}(p)} oder auch mit D f ( p ) {\displaystyle Df(p)} bezeichnet wird, und deren Einträge die partiellen Ableitungen sind:

J f ( p ) = ( f i x j ( p ) ) i j = ( f 1 x 1 ( p ) f 1 x n ( p ) f m x 1 ( p ) f m x n ( p ) ) {\displaystyle J_{f}(p)=\left({\frac {\partial f_{i}}{\partial x_{j}}}(p)\right)_{ij}={\begin{pmatrix}{\frac {\partial f_{1}}{\partial x_{1}}}(p)&\ldots &{\frac {\partial f_{1}}{\partial x_{n}}}(p)\\\vdots &&\vdots \\{\frac {\partial f_{m}}{\partial x_{1}}}(p)&\ldots &{\frac {\partial f_{m}}{\partial x_{n}}}(p)\end{pmatrix}}}

Die Kettenregel besagt nun, dass die Ableitung der Verkettung zweier Abbildungen gerade die Verkettung der Ableitungen ist, bzw. dass die Jacobi-Matrix der Verkettung das Matrizenprodukt der Jacobi-Matrix der äußeren Funktion mit der Jacobi-Matrix der inneren Funktion ist.

Satz

Sind f : R n R l {\displaystyle f\colon \mathbb {R} ^{n}\to \mathbb {R} ^{l}} und g : R l R m {\displaystyle g\colon \mathbb {R} ^{l}\to \mathbb {R} ^{m}} differenzierbare Abbildungen, so ist auch die Verkettung h = g f : R n R m {\displaystyle h=g\circ f\colon \mathbb {R} ^{n}\to \mathbb {R} ^{m}} differenzierbar. Ihre Ableitung im Punkt p R n {\displaystyle p\in \mathbb {R} ^{n}} ist die Hintereinanderausführung der Ableitung von f {\displaystyle f} im Punkt p {\displaystyle p} und der Ableitung von g {\displaystyle g} im Punkt f ( p ) {\displaystyle f(p)} :

D ( g f ) p = D g f ( p ) D f p {\displaystyle D(g\circ f)_{p}=Dg_{f(p)}\circ Df_{p}}

bzw.

( g f ) ( p ) = g ( f ( p ) ) f ( p ) . {\displaystyle (g\circ f)'(p)=g'(f(p))\circ f'(p).}

Für die Jacobi-Matrizen gilt entsprechend:

J g f ( p ) = J g ( f ( p ) ) J f ( p ) {\displaystyle J_{g\circ f}(p)=J_{g}(f(p))\cdot J_{f}(p)} ,

bzw.

( g f ) x ( p ) = g y ( f ( p ) ) f x ( p ) {\displaystyle {\frac {\partial (g\circ f)}{\partial x}}(p)={\frac {\partial g}{\partial y}}(f(p))\cdot {\frac {\partial f}{\partial x}}(p)}

wobei der Punkt die Matrizenmultiplikation bezeichnet. Hier werden die Koordinaten im Definitionsbereich R n {\displaystyle \mathbb {R} ^{n}} von f {\displaystyle f} mit x = ( x 1 , , x n ) {\displaystyle x=(x_{1},\dots ,x_{n})} bezeichnet, die Koordinaten im Bildraum R l {\displaystyle \mathbb {R} ^{l}} von f {\displaystyle f} und damit dem Definitionsbereich von g {\displaystyle g} mit y = ( y 1 , , y l ) {\displaystyle y=(y_{1},\dots ,y_{l})} . Ausgeschrieben mit den Komponenten der Abbildungen und den partiellen Ableitungen:

h i x j ( p ) = k = 1 l g i y k ( f ( p ) ) f k x j ( p ) {\displaystyle {\frac {\partial h_{i}}{\partial x_{j}}}(p)=\sum _{k=1}^{l}{\frac {\partial g_{i}}{\partial y_{k}}}(f(p))\cdot {\frac {\partial f_{k}}{\partial x_{j}}}(p)}

Höhere Differenzierbarkeit

Sind, für ein k N {\displaystyle k\in \mathbb {N} } , die Abbildungen f {\displaystyle f} und g {\displaystyle g} von der Klasse C k {\displaystyle C^{k}} , das heißt k {\displaystyle k} -mal stetig differenzierbar, so ist auch g f {\displaystyle g\circ f} von der Klasse C k {\displaystyle C^{k}} . Dies ergibt sich durch wiederholtes Anwenden der Kettenregel und der Produktregel auf die partiellen Ableitungen der Komponentenfunktionen.

Spezialfall n = m = 1

Häufig möchte man die Ableitung einer gewöhnlichen reellen Funktion h : R R {\displaystyle h\colon \mathbb {R} \to \mathbb {R} } bestimmen, die aber über einen mehrdimensionalen "Umweg" definiert ist:

h = g f {\displaystyle h=g\circ f} mit f : R R l {\displaystyle f\colon \mathbb {R} \to \mathbb {R} ^{l}} und g : R l R {\displaystyle g\colon \mathbb {R} ^{l}\to \mathbb {R} } .

In diesem Fall lässt sich die Kettenregel wie folgt schreiben:

h ( x ) = g y 1 ( f ( x ) ) f 1 ( x ) + + g y l ( f ( x ) ) f l ( x ) = grad   g ( f ( x ) ) f ( x ) {\displaystyle h'(x)={\frac {\partial g}{\partial y_{1}}}(f(x))\cdot f_{1}'(x)+\dots +{\frac {\partial g}{\partial y_{l}}}(f(x))\cdot f_{l}'(x)=\operatorname {grad} \ g(f(x))\cdot f'(x)}

Der letzte Malpunkt bezeichnet dabei das Skalarprodukt zwischen zwei Vektoren, dem Gradienten

grad   g = g = ( g y 1 , , g y l ) {\displaystyle \operatorname {grad} \ g=\nabla g=\left({\frac {\partial g}{\partial y_{1}}},\ldots ,{\frac {\partial g}{\partial y_{l}}}\right)^{\top }}

der Funktion g {\displaystyle g} , ausgewertet an der Stelle f ( x ) {\displaystyle f(x)} , und der vektorwertigen Ableitung

f ( x ) = ( f 1 ( x ) , , f l ( x ) ) {\displaystyle f'(x)=\left(f_{1}'(x),\ldots ,f_{l}'(x)\right)} der Abbildung f {\displaystyle f} .[1]

Kettenregel und Richtungsableitung

Für den Spezialfall f : R R l {\displaystyle f\colon \mathbb {R} \to \mathbb {R} ^{l}} , f ( t ) = a + t v {\displaystyle f(t)=a+tv} , mit a , v R l {\displaystyle a,v\in \mathbb {R} ^{l}} , ist

( g f ) ( 0 ) = d d t | t = 0 g ( a + t v ) = D v g ( a ) {\displaystyle (g\circ f)'(0)=\left.{\frac {d}{dt}}\right|_{t=0}g(a+tv)=D_{v}g(a)}

die Richtungsableitung von g {\displaystyle g} im Punkt a {\displaystyle a} in Richtung des Vektors v {\displaystyle v} . Aus der Kettenregel folgt dann

( g f ) ( 0 ) = grad   g ( f ( 0 ) ) f ( 0 ) = grad   g ( a ) v . {\displaystyle (g\circ f)'(0)=\operatorname {grad} \ g(f(0))\cdot f'(0)=\operatorname {grad} \ g(a)\cdot v.}

Es ergibt sich also die übliche Formel für die Berechnung der Richtungsableitung:

D v g ( a ) = grad   g ( a ) v {\displaystyle D_{v}g(a)=\operatorname {grad} \ g(a)\cdot v} [1]

Beispiel

h ( x ) = g ( cos x , sin x ) {\displaystyle h(x)=g(\cos x,\sin x)}

In diesem Beispiel bildet g {\displaystyle g} die äußere Funktion, abhängig von y = ( y 1 , y 2 ) {\displaystyle y=(y_{1},y_{2})} . Somit ist

g ( y ) = ( g y 1 g y 2 ) {\displaystyle g'(y)={\begin{pmatrix}{\frac {\partial g}{\partial y_{1}}}&{\frac {\partial g}{\partial y_{2}}}\end{pmatrix}}}

Als innere Funktion setzen wir f ( x ) = ( f 1 ( x ) , f 2 ( x ) ) = ( cos x , sin x ) {\displaystyle f(x)=(f_{1}(x),f_{2}(x))=(\cos x,\sin x)} , abhängig von der reellen Variablen x {\displaystyle x} . Ableiten ergibt

f ( x ) = ( f 1 ( x ) f 2 ( x ) ) = ( sin x cos x ) {\displaystyle f'(x)={\begin{pmatrix}f_{1}'(x)\\f_{2}'(x)\end{pmatrix}}={\begin{pmatrix}-\sin x\\\cos x\end{pmatrix}}}

Nach der allgemeinen Kettenregel gilt daher:

h ( x ) = g ( f ( x ) ) f ( x ) = ( g y 1 g y 2 ) | y = f ( x ) ( sin x cos x ) = sin x g y 1 ( cos x , sin x ) + cos x g y 2 ( cos x , sin x ) {\displaystyle {\begin{aligned}h'(x)&=g'(f(x))\cdot f'(x)=\left.{\begin{pmatrix}{\frac {\partial g}{\partial y_{1}}}&{\frac {\partial g}{\partial y_{2}}}\end{pmatrix}}\right|_{y=f(x)}\cdot {\begin{pmatrix}-\sin x\\\cos x\end{pmatrix}}\\&=-\sin {x}\cdot {\frac {\partial g}{\partial y_{1}}}(\cos {x},\sin {x})+\cos {x}\cdot {\frac {\partial g}{\partial y_{2}}}(\cos {x},\sin {x})\end{aligned}}}

Ein additives Beispiel mittels Substitution

Um die Ableitung von f ( x ) = x x {\displaystyle \displaystyle f(x)=x^{x}} zu ermitteln, kann man die Funktion zum Beispiel x x = e x ln x {\displaystyle x^{x}=e^{x\ln x}} schreiben und dann die Ketten- und Produktregel anwenden, was zu der Ableitung

f ( x ) = e x ln x ( x 1 x + 1 ln x ) = x x + x x ln x {\displaystyle f'(x)=e^{x\ln x}\left(x\cdot {\frac {1}{x}}+1\cdot \ln x\right)=x^{x}+x^{x}\ln x}

führt. Eine alternative Möglichkeit der Ableitung dagegen bestünde in der Anwendung der mehrdimensionalen Kettenregel:

Sei die Funktion g ( u , v ) = u v {\displaystyle \displaystyle g(u,v)={u}^{v}} , lauten ihre beiden 1. partiellen Ableitungen g u = v u v 1 {\displaystyle {\frac {\partial g}{\partial u}}=v\,u{}^{v-1}} und – aufgrund der Umformung u v = e v ln u {\displaystyle \displaystyle u{}^{v}=e^{v\ln u}} leicht einzusehen – g v = u v ln u {\displaystyle {\frac {\partial g}{\partial v}}=u{}^{v}\ln u} . Ersetzt man nun u {\displaystyle u} und v {\displaystyle v} durch die beiden Hilfsfunktionen h 1 ( x ) = x {\displaystyle \displaystyle h_{1}(x)=x} und h 2 ( x ) = x {\displaystyle h_{2}(x)=x} , ergibt sich mit f ( x ) = g ( h 1 ( x ) , h 2 ( x ) ) {\displaystyle \displaystyle f(x)=g(h_{1}(x),h_{2}(x))} und og. mehrdimensionaler Kettenregel:

f ( x ) = g u ( x , x ) h 1 ( x ) + g v ( x , x ) h 2 ( x ) = x x x 1 1 + x x ln x 1 = x x + x x ln x {\displaystyle f'(x)={\frac {\partial g}{\partial u}}(x,x)\,h_{1}'(x)+{\frac {\partial g}{\partial v}}(x,x)\,h_{2}'(x)=x\,x^{x-1}\cdot 1+x^{x}\ln x\cdot 1=x^{x}+x^{x}\ln x}

Diese Vorgehensweise kann man etwa so beschreiben:

  1. Man leitet x x {\displaystyle x^{x}} nach dem x {\displaystyle x} in der Basis ab, wobei man das x {\displaystyle x} im Exponenten als eine Konstante betrachtet,
  2. man leitet x x {\displaystyle x^{x}} nach dem x {\displaystyle x} im Exponenten ab, wobei man das x {\displaystyle x} in der Basis als eine Konstante betrachtet,
  3. man addiert die Ergebnisse.

Der „Trick“ hierbei ist, dass man x {\displaystyle x} in der Basis und x {\displaystyle x} im Exponenten, obwohl sie gleichlauten, unterscheidet.

Diese Herleitung ist allgemein anwendbar, z. B. liefert sie ganz einfach auch die Leibnizregel für Parameterintegrale.

Verallgemeinerung auf differenzierbare Mannigfaltigkeiten

Sind M {\displaystyle M} und N {\displaystyle N} differenzierbare Mannigfaltigkeiten und f : M N {\displaystyle f\colon M\to N} eine differenzierbare Abbildung, so ist die Ableitung f ( p ) {\displaystyle \,f'(p)} oder D f p {\displaystyle Df_{p}} von f {\displaystyle f} im Punkt p M {\displaystyle p\in M} eine lineare Abbildung vom Tangentialraum von M {\displaystyle M} im Punkt p {\displaystyle p} in den Tangentialraum von N {\displaystyle N} im Bildpunkt f ( p ) {\displaystyle f(p)} :

D f p : T p M T f ( p ) N {\displaystyle Df_{p}\colon T_{p}M\to T_{f(p)}N}

Andere Bezeichnungen dafür sind: Differential (dann oft d f p {\displaystyle df_{p}} geschrieben), Pushforward ( f p {\displaystyle f_{\ast p}} ) und Tangentialabbildung ( T p f {\displaystyle T_{p}f} ).

Die Kettenregel besagt dann: Sind M {\displaystyle M} , N {\displaystyle N} und P {\displaystyle P} differenzierbare Mannigfaltigkeiten und ist h = g f : M P {\displaystyle h=g\circ f\colon M\to P} die Verkettung der differenzierbaren Abbildungen f : M N {\displaystyle f\colon M\to N} und g : N P {\displaystyle g\colon N\to P} , so ist auch h {\displaystyle h} differenzierbar und für die Ableitung im Punkt p M {\displaystyle p\in M} gilt:

D h p = D g f ( p ) D f p {\displaystyle Dh_{p}=Dg_{f(p)}\circ Df_{p}}

Kettenregel für Fréchet-Ableitungen

Die Kettenregel gilt ganz entsprechend für Fréchet-Ableitungen.

Gegeben seien Banach-Räume X {\displaystyle X} , Y {\displaystyle Y} und Z {\displaystyle Z} , offene Teilmengen U X {\displaystyle U\subset X} und V Y {\displaystyle V\subset Y} und Abbildungen B : U Y {\displaystyle B\colon U\to Y} und A : V Z {\displaystyle A\colon V\to Z} .

Ist B {\displaystyle B} an der Stelle φ U {\displaystyle \varphi \in U} und A {\displaystyle A} an der Stelle B ( φ ) V {\displaystyle B(\varphi )\in V} differenzierbar, so ist auch die Verkettung A B : U Z {\displaystyle A\circ B\colon U\to Z} an der Stelle φ {\displaystyle \varphi } differenzierbar und es gilt

( A B ) ( φ ) = A ( B ( φ ) ) B ( φ ) {\displaystyle (A\circ B)'(\varphi )=A'(B(\varphi ))\circ B'(\varphi )}

Literatur

  • Otto Forster: Analysis 2. Differentialrechnung im Rn. Gewöhnliche Differentialgleichungen. 9. Auflage. Vieweg + Teubner, Wiesbaden 2011, ISBN 978-3-8348-1231-5.
  • Konrad Königsberger: Analysis 2. 5. Auflage. Springer, Berlin 2004, ISBN 3-540-20389-3.
  • Geiger, Kanzow: Theorie und Numerik restringierter Optimierungsaufgaben. Springer, Berlin / Heidelberg 2002, ISBN 978-3-540-42790-2.

Einzelnachweise und Anmerkungen

  1. a b Physiker schreiben hier die Vektoren, f ( x ) {\displaystyle \,f'(x)} bzw. v {\displaystyle v} , mit Vektorpfeilen ( f ( x ) {\displaystyle {\vec {f}}'(x)} , v {\displaystyle {\vec {v}}} ) oder mit Fettdruck ( f ( x ) {\displaystyle \mathbf {f'} (x)} bzw. v {\displaystyle \mathbf {v} } ). Das hat u. a. den Vorteil, dass man sofort erkennt, dass x {\displaystyle x} im Gegensatz zu v {\displaystyle \mathbf {v} } eine eindimensionale Variable ist.