1. 多标签分类
- 多标签分类:对于单个输入特征,输出多个不同的标签y
- 多类分类:对于单个输入特征,输出单个标签y,但y的可能结果有多个
2. 为多标签分类构建神经网络模型
- 我们可以构建三个不同的神经网络模型来分别预测三个不同的标签y,但这种方法很低效。
- 另一种方法,可以构建一个神经网络模型来同时预测三个不同的标签y。
- 这种情况下,输出层有三个神经元,且每个神经元的激活函数设为sigmoid,因为每个神经元的判断都是独立的,而softmax输出层的所有神经元的概率之和为1
3. Adam算法
- 在梯度下降中,学习率α控制着每一步的大小,如果α太小,可能会导致每一步走的太小,从而使梯度下降执行的太慢;相反,如果α太大,可能会导致每一步走的太大,从而使梯度下降来回振荡。
- Adam算法可以自动调整α的大小,来保证可以用最短、最平滑的路径到达成本函数的最小值,通常它比梯度下降算法的速度要更快
- adam算法并没有对模型中的所有α都采用同一个值。相反,它使模型中每一个w、b都对应一个α
- 在w、b参数每次改变都朝着大致相同的方向移动时,adam算法会加大学习率α
- 在w、b参数每次改变都不断来回振荡时,adam算法会减小学习率α
- 使用adam算法时,需要在compile()函数中,添加一个参数,指定使用adam优化器
- adam优化算法需要设定默认的初始学习率α,在实际实践中,可以多试几个默认α值,看看哪个α的速度最快
4. 卷积层
- 对于密集层(dense layer)来说,该层每个神经元的输入都是上一层的所有神经元的激活值
- 对于卷积层中,该层的每个神经元都只能查看前一层的部分神经元的激活值
- 卷积层的优势:提高了计算速度,需要更少的训练数据,也不容易出现过拟合
- 在判断病人是否患有心脏病的模型中,前两层采用卷积层,该层的每个神经元都只查看前一层的部分输出,第三层采用sigmoid层,该层查看前一层的所有输出
- 卷积层的每个神经元之间查看的上一层的输出可以有重复