Aaron's Blog

@(Aaron)[机器学习 | 线性回归]

主要内容包括：

线性回归的基本要素
线性回归模型从零开始的实现
线性回归模型使用pytorch的简洁实现

[TOC]

线性回归的基本要素

线性回归，就是能够用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候，就能够预测出一个简单的值。

模型

为了简单起见，这里我们假设价格只取决于房屋状况的两个因素，即面积（平方米）和房龄（年）。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:

price =w_{\text {area }} \cdot area +w_{\text {age }} \cdot age +b

数据集

监督学习一般靠数据驱动。我们通常收集一系列的真实数据，例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实价格的误差最小。在机器学习术语里，该数据集被称为训练数据集（training data set）或训练集（training set），通常还应该有一个交叉验证集用于防止过拟合。一栋房屋被称为一个样本（sample），其真实售出价格叫作标签（label），用来预测标签的两个因素叫作特征（feature）。特征用来表征样本的特点。

损失函数

如果把线性回归看作是一个优化问题，那么我们要优化的目标就是损失函数。损失函数是用来衡量样本误差的函数，我们的优化目标是要求得在误差最小的情况下模型参数的值。这里强调一下损失函数和代价函数的区别：

注意：
**Loss Function(损失函数)：**the error for single training example;
**Cost Function(代价函数)：**the average of the loss functions of the entire training set;

线性回归常用的损失函数是均方误差，它在评估索引为的样本误差的表达式为：

l^{(i)}(\mathbf{w}, b)=\frac{1}{2}\left(\hat{y}^{(i)}-y^{(i)}\right)^{2}

L(\mathbf{w}, b)=\frac{1}{n} \sum_{i=1}^{n} l^{(i)}(\mathbf{w}, b)=\frac{1}{n} \sum_{i=1}^{n} \frac{1}{2}\left(\mathbf{w}^{\top} \mathbf{x}^{(i)}+b-y^{(i)}\right)^{2}

优化函数 - 随机梯度下降

当模型和损失函数形式较为简单时，上面的误差最小化问题的解可以直接用公式表达出来。这类解叫作解析解（analytical solution）。本节使用的线性回归和平方误差刚好属于这个范畴。然而，大多数深度学习模型并没有解析解，只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。这类解叫作数值解（numerical solution）。

在求数值解的优化算法中，小批量随机梯度下降（mini-batch stochastic gradient descent）在深度学习中被广泛使用。它的算法很简单：先选取一组模型参数的初始值，如随机选取；接下来对参数进行多次迭代，使每次迭代都可能降低损失函数的值。在每次迭代中，先随机均匀采样一个由固定数目训练数据样本所组成的小批量（mini-batch），然后求小批量中数据样本的平均损失有关模型参数的导数（梯度），最后用此结果与预先设定的一个正数的乘积作为模型参数在本次迭代的减小量。

(\mathbf{w}, b) \leftarrow(\mathbf{w}, b)-\frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{(\mathbf{w}, b)} l^{(i)}(\mathbf{w}, b)

学习率: 代表在每次优化中，能够学习的步长的大小
批量大小: 是小批量计算中的批量大小batch size

总结一下，优化函数的有以下两个步骤：

- 初始化模型参数，一般来说使用随机初始化；
- 我们在数据上迭代多次，通过在负梯度方向移动参数来更新每个参数。

线性回归模型从零开始的实现

参考：https://github.com/Sandy1230/Dive-into-DL-PyTorch-master

To do list:

线性回归笔记
代码实践

Aaron's Blog

线性回归

线性回归的基本要素

模型

数据集

损失函数

优化函数 - 随机梯度下降

线性回归模型从零开始的实现

逻辑回归——softmax和分类模型