基础篇

虽然机器学习中千姿百态的模型让人眼花缭乱,它但究其本原,它们都来源于最原始的线性回归(linear regression)。

在一个线性回归模型中,通常将需要关注或预测的变量叫做输出变量(或因变量),而用来解释因变量变化的变量叫做输入变量(或自变量)。线性回归研究的输入变量与输出变量的关系,一般假设输出变量是若干输入变量的线性组合,再根据这一关系求解线性组合中的最优系数,就能运用所求得的模型进行预测或估计。

为了方便读者理解,我们先从最简单的一元线性回归模型讲起。

一元线性回归模型

我们先来了解一下接下来将要用到的概念:

  • \(\bf x\)表示第输入变量,也称作输入特征(feature),即输入数据;

  • \(\bf y\)表示输出变量,也称作输入特征(feature),即输入数据;

  • \(x_i\)表示输入变量的第\(i\)个标签,即\(\bf{x}\)\(=(x_1,x_2,...,x_n)^T\)

我们以一个简单的例子来解释线性回归的基本要素。这个应用的目标是预测宝可梦进化后的能力值。我们知道这个能力值取决于很多因素,例如宝可梦进化前的能力值、HP值、MP值的等。为了简单起见,这里我们假设价格只取决于宝可梦进化前的能力,接下来我们探索宝可梦进化后的能力值与进化前的能力值的关系。

设进化前的能力值为\(x\),进化后的能力值为\(y\)。我们需要建立基于输入\(x\)来计算输出\(y\)的表达式,也就是模型(model)。顾名思义,线性回归假设输出与各个输入之间是线性关系:

\[f(x) = x w + b\]

其中\(w\)是权重(weight),\(b\)是偏差(bias),统称为模型的参数(parameter)。模型输出\(f(x)\)是线性回归对真实能力值\(y\)的预测或估计。通常允许它们之间有一定误差。

多元线性回归模型