# why
- [[Backpropagation 反向传播算法]]的核心:通过链式法则求偏[[导数]],避免做冗余的重复运算。
# what
- 链式法则(Chain Rule)是微积分中的一个基本法则,用于计算**复合函数的[[导数]]**。通俗点说,就是当一个函数套着另一个函数的时候,我们求导数的方法。
- **在深度学习中的应用:**
- 链式法则在深度学习领域尤为重要,它是反向传播算法的核心工具。当神经网络计算输出的误差后,我们需要对网络中每个权重和偏置进行调整,而这些调整的梯度恰好需要通过链式法则来逐层计算。这也是为什么深度学习中经常强调“链式法则”的原因。
- **简单来说,链式法则就是告诉你:要算复合函数的导数,就得依次求导,再依次相乘。**
# how
形式上,链式法则可以表示为:
$\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}$
其中:
- $y$ 是 $u$ 的函数,即 $y=f(u)$。
- $u$ 又是 $x$ 的函数,即 $u=g(x)$。
更一般地,当存在多层函数嵌套时,如 $y=f(g(h(x)))$,链式法则的表达式扩展为:
$\frac{dy}{dx} = \frac{dy}{dg} \cdot \frac{dg}{dh} \cdot \frac{dh}{dx}$
## 举个直观例子:
假设你有一个函数:
$y = (3x^2 + 2)^4$
这里 $y$ 是一个“**复合函数**”,因为它包含了一个外层函数(四次方函数)和一个内层函数$(3x^2 +2)$。
用链式法则求导时:
1. 外层函数对内层函数求导:
$4(3x^2 + 2)^3$
2. 内层函数对 xxx 求导:
$6x$
3. 把二者乘起来:
$\frac{dy}{dx} = 4(3x^2 + 2)^3 \cdot 6x = 24x(3x^2 + 2)^3$
# how good
# Ref.