pytorch

回归 vs 分类

回归估计一个连续值，单连续数值输出，自然区间R

分类估计一个离散值，通常为多输出，输出i为第i类的置信度 \[ \hat{y}_{i}=\frac{\exp \left(o_{i}\right)}{\sum_{k} \exp \left(o_{k}\right)} \]

softmax回归

softmax回归的输出层是一个全连接层。

softmax运算符

softmax解决了输出层的输出值的范围不确定的问题；由于真实标签是离散值，这些离散值与不确定范围的输出值之间的误差难以衡量。

softmax将输出值变换成值为正且和为1的概率分布： \[ {\hat y}_1,{\hat y}_2,{\hat y}_3 = sfotmax(o_1,o_2,o_3) \] 其中 \[ \hat{y}_{1}=\frac{\exp (o_1)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)},\hat{y}_{1}=\frac{\exp (o_2)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)},\hat{y}_{1}=\frac{\exp (o_3)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)} \] 容易看出${\hat y}_1+{\hat y}_2+{\hat y}_3=1$且$0 {1}, {2}, _{3} $.

softmax并不改变预测类别的输出结果。

小批量样本分类的矢量计算表达式

为了进一步提升计算效率，通常对小批量数据进行矢量计算。

对于给定的一个小批量样本，其批量大小为n，输入个数（特征数）为d，输出个数（类别数）为q。设批量特征为$\boldsymbol{X} \in \mathbb{R}^{n \times d}$。假设softmax回归的回归权重和偏差参数分别为$\boldsymbol{W} \in \mathbb{R}^{d \times q}$和$\boldsymbol{b} \in \mathbb{R}^{1 \times q}$。softmax回归的矢量计算表达式为 \[ \begin{array}{l} \boldsymbol{O}=\boldsymbol{X} \boldsymbol{W}+\boldsymbol{b} \\ \hat{\boldsymbol{Y}}=\operatorname{softmax}(\boldsymbol{O}) \end{array} \]

交叉熵损失函数

交叉熵损失函数思路：想要预测分类结果正确并不需要预测概率完全等于标签概率。而只需要正确的标签概率比其他的预测值都大就行。

改善的方法是使用更适合衡量两个概率分布差异的测试函数。其中，交叉熵（cross entropy）是一个常用的方法： \[ H\left(\boldsymbol{y}^{(i)}, \hat{\boldsymbol{y}}^{(i)}\right)=-\sum_{j=1}^{q} y_{j}^{(i)} \log \hat{y}_{j}^{(i)} \] 其中带下标的$y^{(i)}_j$是向量$\boldsymbol y^{(i)}$中非0即1的元素，即是元素值。

交叉熵只关心对正确类别的预测概率，因为只要其值足够大，就可以确保分类结果正确。

假设训练数据集的样本数为n，交叉熵损失函数定义为 \[ \ell(\boldsymbol{\Theta})=\frac{1}{n} \sum_{i=1}^{n} H\left(\boldsymbol{y}^{(i)}, \hat{\boldsymbol{y}}^{(i)}\right) \] 其中$\boldsymbol{\Theta}$代表模型参数。