机器学习深度学习——softmax回归（上）

👨‍🎓作者简介：一位即将上大四，正专攻机器学习的保研er
🌌上期文章：机器学习&&深度学习——线性回归的简洁实现
📚订阅专栏：机器学习&&深度学习
希望文章对你们有所帮助

softmax回归

分类问题
网络架构
全连接层的参数开销
softmax运算
小批量样本的矢量化

回归可以用来预测多少的问题，比如房屋被售出价格。而除了预测，我们也对分类问题感兴趣，不是问“多少”，而是问“哪一个”。如：“某个邮件是否是垃圾邮件？图像描绘的是什么动物？某人接下来最可能看哪部电影？”

分类问题

以图像分类为例，每次输入一个2×2的灰度图像，可以用一个标量表示每个像素值，每个图像对应四个特征x1、x2、x3、x4。假设每个图像属于类别“猫”“鸡”和“狗”中的一个。
接下来要选择如何表示标签，最直接的想法是选择y∈{1,2,3}分别代表{狗，猫，鸡}。
如果类别间有一些自然顺序，比如我们要试图预测{婴儿,儿童,青少年,青年人,中年人,老年人}，那么该问题就会转变为回归问题。但一般的分类问题和类别之间的自然顺序是无关的。
独热编码
独热编码是一个向量，它的分量与类别是一样多的。类别对应的分量设置为1，其它所有分量设置为0，如：
y∈{(1,0,0),(0,1,0),(0,0,1)}分别代表三类动物。

网络架构

要解决线性模型的分类问题，需要设置和输出一样多的仿射函数，在上面的问题中，我们有4个特征和3个可能的输出类别，所以我们需要用12个标量来表示权重，3个标量来表示偏置（带下标的b）：
$o_1=x_1w_{11}+x_2w_{12}+x_3w_{13}+x_4w_{14}+b_1\\ o_2=x_2w_{21}+x_2w_{22}+x_3w_{23}+x_4w_{24}+b_2\\ o_1=x_1w_{31}+x_2w_{32}+x_3w_{33}+x_4w_{34}+b_3$
其中o表示未规范化的预测。
我们可以用神经网络图来描述这个计算过程，显然softmax回归也是个单层神经网络。由于输出取决于所有的输入，所以softmax回归的输出层也是全连接层
在这里插入图片描述
可以用o=Wx+b来表示模型。

全连接层的参数开销

全连接层无处不在，对于任何具有d个输入和q个输出的全连接层，参数开销为：
$O (d q)$
这个数字还是太大了，但将d个输入转换为q个输出的成本可以减少到：
$O(\frac{dq}{n})$
超参数n可以由我们灵活指定。

softmax运算

现在我们将优化参数以最大化观测数据的概率。为了得到预测结果，我们设置一个阈值，如选择具有最大概率的标签。
我们希望模型输出三个类的概率，然后选用最大输出值来作为我们的预测。
但我们不能将未规范化的预测o直接视作我们感兴趣的输出。因为将线性层的输出直接视为概率时会存在一些问题：
1、我们没有限制这些输出数字的总和为1。
2、根据输入的不同，它们可以为负值，违背了概率基本公理。
要将输出视为概率，必须保证在任何数据上的输出都是非负的且总和为1。此外，需要训练一个目标函数，来激励模型精准的估计概率。例如，在分类器输出0.5的所有样本中，我们希望这些样本是刚好有一半实际上属于预测的类别。这个属性叫做校准。
而softmax函数能够将未规范化的预测变换为非负数并且总和为1，同时让模型保持可导的性质。为了完成这一目标，我们首先对每个未规范化的预测求幂，这样可以确保输出非负。为了确保最终输出的概率值总和为1，我们让每个求幂后的结果除以它们的总和：
$\hat{y}=softmax(o)，其中\hat{y}_j=\frac{exp(o_j)}{\sum_kexp(o_k)}$
这里，对于所有的j，总有：
$0≤\hat{y}_j≤1$
因此，y hat可以视为一个正确的概率分布。
softmax运算不会改变未规范化的预测o之间的大小次序，只会确定分配给每个类别的概率。因此，在预测过程中，我们可以用下式来选择最有可能的类别：
$argmax_j\hat{y}_j=argmax_jo_j$
尽管softmax是一个非线性函数，但softmax回归的输出仍然由输入特征的仿射变换决定。因此，softmax回归是一个线性模型。

小批量样本的矢量化

为了提高计算效率并且充分利用GPU，我们通常会对小批量样本的数据执行矢量计算。假设我们读取了一个批量的样本X，其中特征维度（输入数量）为d，批量大小为n。此外，假设我们在输出中有q个类别。那么：
$小批量样本的特征为X∈R^{n×d}\\ 权重为W∈R^{d×q}\\ 偏置为b∈R^{1×q}$
softmax回归的矢量计算表达式为：
$O=XW+b\\ \hat{Y}=softmax(O)$
小批量样本的矢量化加快了X和W的矩阵-向量乘法。
由于X中的每一行代表一个数据样本，那么softmax运算可以按行执行：对于O的每一行，我们先对所有项进行幂运算，然后通过求和来对他们进行标准化。（XW+b的求和会使用广播机制，小批量的未规范化预测和输出概率都是n×q的矩阵）。