复习一下我的数学知识T_T
1. 回顾高等数学:多元数量函数的梯度
回想高等数学中常见的多元数量函数f:Rn→R1,我们可以把他的输入当作一个向量 x∈Rn,输出y=f(x)∈R1是一个数字。那么由高数的知识我们知道f的梯度定义为
∇fxdef=[∂f∂x1,∂f∂x2,⋯,∂f∂xn]=∂f∂x
有了上式,我们还可以写出全微分的向量化表示
df=∂f∂x1dx1+∂f∂x2dx2+⋯+∂f∂xndxn=[∂f∂x1,∂f∂x2,⋯,∂f∂xn][dx1,dx2,⋯,dxn]T=∂f∂xdx接下来我们将其推广到向量函数。向量函数的“梯度”其实就是雅可比矩阵。
2. 向量函数求导:雅可比矩阵
设f:Rn→Rm是一个从映射到的函数,它的输入是一个向量 x∈Rn,输出是向量y=f(x)∈Rm。
如果我们将输出向量y的每个分量yi看作一个独立的多元数量函数,那么我们可以写出每个yi对每个xj的偏导数(也就是梯度)
[∂yi∂x1,∂yi∂x2,⋯,∂yi∂xn]
将每个yi的梯度组合起来就得到了雅可比矩阵
J=(∂y1∂x1⋯∂y1∂xn⋮⋱⋮∂ym∂x1⋯∂ym∂xn)也常写作:
J=∂(y1,…,ym)∂(x1,…,xn)
雅可比矩阵表示了函数 f 在每一处可导点的导数。具体地说,设 Δx 为一在 x 处的位移向量(假设为列向量),则 J(x)⋅Δx 就是函数值的位移向量(类似一元数值函数里 Δy=y′(x)∗Δx),该函数值的位移向量即为 x 处的f(x)增量的最佳线性逼近(更熟悉点的词叫全微分)。类似于导数,雅可比矩阵是函数局部的线性化,使用矩阵形式来表示微分(线性逼近)这个线性变换。
提一点雅可比行列式有关的:当上述m=n时,f是一个从Rn到Rn的映射,因此雅可比矩阵是一个方阵,我们可以求出来这个方阵的行列式,常称雅可比行列式。对高等数学(下)有印象的人应该可以记得起这个名字,雅可比行列式常用在多元微积分中,尤其是在在换元积分时,需要用它作为乘子。为什么要作为乘子出现?感性的理解,这还是因为在积分中空间转换带来的面积/体积变化,而
众所周知行列式就是体积/面积,雅可比矩阵作为导数就表现了局部的线性变化比例。
3. 向量函数求导:链式法则
一般来说我们最常见的是标量函数的链式法则,类似这样:
设f和g为两个关于x可导函数,则复合函数(f∘g)(x)的导数(f∘g)′(x)为:(f∘g)′(x)=f′(g(x))g′(x).
那么向量函数的链式法则又是什么样的?
考虑可微函数 f:Rm→Rk 和 g:Rn→Rm,以及Rn上一点 x。令 Dxg 表示g在x处的全微分,Dg(x)f 表示f在g(x)处的全微分,则复合函数(f∘g)(x)的全微分可表示为:
Dx(f∘g)(x)=Dg(x)f∘Dxg
相应的,用雅可比矩阵表示的形式为:
Jf∘g=(Jf∘g)Jg
或者用变量名表示的话写成
∂(y1,…,yk)∂(x1,…,xn)=∂(y1,…,yk)∂(u1,…,um)∂(u1,…,um)∂(x1,…,xn)
上式中右边意为两个矩阵相乘。
严谨的数学证明是比较技术性的,本文不予讨论(wobuhui)。我们来从直观上理解一下这个等式。首先,我们知道雅可比矩阵的“成因”是用矩阵来表示一阶微分的,也就是把一阶微分的算子当成一个线性变换,而复合函数等于是一个嵌套,也就是函数的函数,对应到线性变换里,也就是线性变换的线性变换,而我们又知道用矩阵表示线性变换时这种“线性变换的线性变换”,就是相当于两个矩阵的乘积。到这里。我们把微积分和线性代数两种工具结合到了一起,就得到了这个结果。
4. 例子
举一个具体的算例来说明今天所讲的内容吧。
设有函数 g:R→R3为
g(t)=(t t2 t3)
和 f:R3→R为
f(x y z)=x2+xyz+5y
现在要求求出(f∘g)′(t)
首先我们使用暴力算的方法,全部带入之后计算一下看看
(f∘g)′(t)=f(g(t))=f(t,t2,t3)=t2+t6+5t2=6t2+t6
这个函数就很简单了,我们可以直接求导得到
(f∘g)′(t)=12t+6t5(1)
然后我们再用雅可比矩阵和链式法则来求一下
由上可知,
Jf(x,y,z)=[2x+yz,xz+5,xy]
代入g(t)可得
Jf(g(t))=[2t+t5,t4+5,t3]
对于g,有
Jg(t)=[1 2t 3t2]
运用链式法则我们可以得到
(f∘g)′(t)=Jf(g(t))⋅Jg(t)=[2t+t5,t4+5,t3][12t3t2]=2t+t5+2t5+10t+3t5=12t+6t2(2)
这与(1)的结果一致,说明我们使用链式法则
计算的正确性是有保证的。
赞