进阶篇

正则化对线性回归的改进

在我们之前介绍过的优化算法中,目标函数自变量的每一个元素在相同时间步都使用同一个学习率来自我迭代。举个例子,假设目标函数为\(f​\),自变量为一个二维向量\([x_1, x_2]^\top​\),该向量中每一个元素在迭代时都使用相同的学习率。例如在学习率为\(\eta​\)的梯度下降中,元素\(x_1​\)\(x_2​\)都使用相同的学习率\(\eta​\)来自我迭代:

在我们之前介绍过的优化算法中,目标函数自变量的每一个元素在相同时间步都使用同一个学习率来自我迭代。举个例子,假设目标函数为\(f\),自变量为一个二维向量\([x_1, x_2]^\top\),该向量中每一个元素在迭代时都使用相同的学习率。例如在学习率为\(\eta\)的梯度下降中,元素\(x_1\)\(x_2\)都使用相同的学习率\(\eta\)来自我迭代: