1. 梯度消失问题的直观理解
在深度学习中,激活函数的作用是为神经网络引入非线性特性。Sigmoid函数是一种经典的激活函数,其输出值范围在(0, 1)之间。然而,当Sigmoid函数的输出接近0或1时,其导数会变得非常小。这会导致反向传播过程中梯度逐渐缩小,最终可能趋近于零。
Sigmoid函数的数学表达式为:
f(x) = 1 / (1 + e^(-x))
其导数公式为:
f'(x) = f(x) * (1 - f(x))
从公式可以看出,当f(x)接近0或1时,f'(x)会接近0。这种现象正是梯度消失问题的核心原因。
1.1 梯度消失的影响
在训练深层神经网络时,误差通过链式法则逐层传递。假设每层的梯度乘以一个接近0的值(如Sigmoid导数),经过多层累积后,最终的梯度会变得极其微小。这使得权重更新几乎停滞,模型难以进一步优化。