1. 背景:优化问题

在机器学习和统计建模中,我们常常需要找到一个模型的参数,使得 损失函数 (Loss Function) 最小。

比如线性回归的损失函数(均方误差 MSE):

\[J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2

\]

其中:

\(\theta\):参数(如权重 \(w\)、偏置 \(b\))

\(h_\theta(x^{(i)})\):预测值 \(\hat{y}^{(i)}\)

\(y^{(i)}\):真实值

\(m\):样本数量

目标:

\[\min_\theta J(\theta)

\]

2. 梯度的含义

在多元函数中,梯度(gradient) 是偏导数组成的向量:

\[\nabla J(\theta) = \left( \frac{\partial J}{\partial \theta_1}, \frac{\partial J}{\partial \theta_2}, \cdots, \frac{\partial J}{\partial \theta_n} \right)

\]

直观理解:

梯度的方向 = 函数上升最快的方向。

负梯度的方向 = 函数下降最快的方向。

所以,我们要最小化函数,就朝 负梯度 方向走。

3. 梯度下降的迭代公式

基本更新规则:

\[\theta := \theta - \alpha \nabla J(\theta)

\]

其中:

\(\theta\):参数向量

\(\alpha\):学习率(step size),控制每一步走多远

\(\nabla J(\theta)\):损失函数对参数的梯度

4. 一维情况直观理解

假设函数只有一个参数 \(\theta\),更新公式就是:

\[\theta := \theta - \alpha \frac{dJ}{d\theta}

\]

如果 \(\frac{dJ}{d\theta} > 0\),说明函数在该点是上升趋势,要往左走(减小 \(\theta\))。

如果 \(\frac{dJ}{d\theta} < 0\),说明函数在该点是下降趋势,要往右走(增大 \(\theta\))。

这样逐步迭代,就会逼近函数的最小值。

5. 梯度下降的几种形式

批量梯度下降 (Batch GD)

每次使用所有样本来计算梯度。稳定但计算量大。

随机梯度下降 (SGD)

每次只用一个样本来更新参数。速度快,但震荡大。

小批量梯度下降 (Mini-batch GD)

每次使用一小批样本更新。结合了批量和随机的优点,是最常用的方法。

6. 学习率 \(\alpha\) 的影响

\(\alpha\) 太小:收敛慢。

\(\alpha\) 太大:可能震荡甚至发散。

现代优化常用 自适应学习率算法(如 Adam、RMSProp)来调节。

7. 收敛与局部极小值

在凸函数(如线性回归的 MSE)中,梯度下降一定会收敛到全局最小值。

在非凸函数(如深度神经网络)中,可能收敛到局部最小值或鞍点,但实践中仍然效果很好。

✅ 总结

梯度下降法的核心思想:

计算目标函数对参数的梯度;

沿着负梯度方向更新参数;

不断迭代,直到损失函数收敛或达到迭代上限。

公式核心:

\[\theta := \theta - \alpha \nabla J(\theta)

\]