深度网络现代实践 - 深度前馈网络历史总结篇

序言

深度前馈网络（Deep Feedforward Networks），作为现代人工智能领域的基石之一，其发展历程充满了探索与挑战。自20世纪中叶以来，随着计算机技术的快速发展和计算能力的提升，神经网络的研究逐渐从简单的线性模型向复杂的非线性模型转变。深度前馈网络，作为这一转变的重要成果，以其强大的非线性逼近能力和逐层抽象的特征学习能力，在多个领域取得了突破性进展。这一发展历程，不仅见证了人工智能技术的飞速进步，也深刻改变了我们的生活和工作方式。

反向传播算法的历史总结

前馈网络可以被视为一种高效的非线性函数逼近器，它以使用梯度下降来最小化函数近似误差为基础。从这个角度来看，现代前馈网络是一般函数近似任务的几个世纪进步的结晶。
处于反向传播算法底层的链式法则是 17 世纪发明的 (Leibniz, 1676; L’Hôpital, 1696)。微积分和代数长期以来被用于求解优化问题的封闭形式，但梯度下降直到 19世纪才作为优化问题的一种迭代近似的求解方法被引入 (Cauchy, 1847)。
从20世纪40年代开始，这些函数近似技术被用于导出诸如感知机的机器学习模型。然而，最早的模型都是基于线性模型。来自包括马文·明斯基（Marvin Minsky，“人工智能之父”和框架理论的创立者）的批评指出了线性模型族的几个缺陷，例如它无法学习 $\text{XOR}$ 函数，这导致了对整个神经网络方法的抵制。
学习非线性函数需要多层感知机的发展和计算该模型梯度的方法。基于动态规划的链式法则的高效应用开始出现在20世纪60年代和70年代。
- 主要用于控制领域 (Kelley, 1960; Bryson and Denham, 1961; Dreyfus, 1962; Bryson and Ho, 1969;Dreyfus, 1973)，也用于灵敏度分析 (Linnainmaa, 1976)。
- Werbos (1981) 提出应用这些技术来训练人工神经网络。
- 这个想法以不同的方式被独立地重新发现后 (LeCun,1985; Parker, 1985; Rumelhart et al., 1986a)，最终在实践中得以发展。
并行分布式处理 (Parallel Distributed Processing) 一书在其中一章提供了第一次成功使用反向传播的一些实验的结果 (Rumelhart et al., 1986b)，这对反向传播的普及做出了巨大的贡献，并且开启了一个研究多层神经网络非常活跃的时期。然而，该书作者提出的想法，特别是 Rumelhart 和 Hinton 提出的想法远远超过了反向传播。它们包括一些关键思想，关于可能通过计算实现认知和学习的几个核心方面，后来被冠以“联结主义”的名称，因为它强调了神经元之间的连接作为学习和记忆的轨迹的重要性。特别地，这些想法包括分布式表示的概念 (Hinton et al., 1986)。
在反向传播的成功之后，神经网络研究获得了普及，并在20世纪90年代初达到高峰。随后，其他机器学习技术变得更受欢迎，直到2006年开始的现代深度学习复兴。
现代前馈网络的核心思想自20世纪80年代以来没有发生重大变化。仍然使用相同的反向传播算法和相同的梯度下降方法。
1986年至2015年神经网络性能的大部分改进可归因于两个因素。
- 首先，较大的数据集减少了统计泛化对神经网络的挑战的程度。
- 第二，神经网络由于更强大的计算机和更好的软件基础设施已经变得更大。然而，少量算法上的变化也显著改善了神经网络的性能。
其中一个算法上的变化是用损失函数的交叉熵族替代均方误差。
- 均方误差在20世纪80年代和90年代流行，但逐渐被交叉熵损失替代，并且最大似然原理的想法在统计学界和机器学习界之间广泛传播。
- 使用交叉熵损失大大提高了具有 $\text{sigmoid}$ 和 $\text{softmax}$ 输出的模型的性能，而当使用均方误差损失时会存在饱和和学习缓慢的问题。
另一个显著改善前馈网络性能的算法上的主要变化是使用分段线性隐藏单元来替代 $\text{sigmoid}$ 隐藏单元，例如用整流线性单元。
- 使用 $max\{0,z\}$ 函数的整流在早期神经网络中已经被引入，并且至少可以追溯到认知机（Cognitron）和神经认知机（Neocognitron）(Fukushima, 1975, 1980)。这些早期的模型没有使用整流线性单元，而是将整流用于非线性函数。
- 尽管整流在早期很普及，在20世纪 80年代，整流很大程度上被 $\text{sigmoid}$ 所取代，也许是因为当神经网络非常小时， $\text{sigmoid}$ 表现更好。
- 到21世纪初，由于有些迷信的观念，相信必须避免具有不可导点的激活函数，所以避免了整流线性单元。
- 这在2009年开始发生改变。Jarrett et al. (2009b)观察到，在神经网络结构设计的几个不同因素中“使用整流非线性是提高识别系统性能的最重要的唯一因素”。
- 对于小的数据集，Jarrett et al. (2009b) 观察到，使用整流非线性甚至比学习隐藏层的权重值更加重要。随机的权重足以通过整流网络传播有用的信息，允许在顶部的分类器层学习如何将不同的特征向量映射到类标识。
- 当有更多数据可用时，学习开始提取足够的有用知识来超越随机选择参数的性能。Glorot et al. (2011a) 说明，在深度整流网络中的学习比在激活函数具有曲率或两侧饱和的深度网络中的学习更容易。
整流线性单元还具有历史意义，因为它们表明神经科学继续对深度学习算法的发展产生影响。 Glorot et al. (2011a) 从生物学考虑整流线性单元的导出。
半整流非线性旨在描述生物神经元的这些性质：
- (1) 对于某些输入，生物神经元是完全不活跃的。
- (2) 对于某些输入，生物神经元的输出和它的输入成比例。
- (3) 大多数时间，生物神经元是在它们不活跃的状态下进行操作（即它们应该具有稀疏激活 (sparse activation)）。
当2006年深度学习开始现代复兴时，前馈网络仍然有不良的声誉。
- 从2006年至2012年，人们普遍认为，前馈网络不会表现良好，除非它们得到其他模型的辅助，例如概率模型。
- 现在已经知道，具备适当的资源和工程实践，前馈网络表现非常好。今天，前馈网络中基于梯度的学习被用作发展概率模型的工具，例如第二十章中描述的变分自编码器和生成式对抗网络。并不是被视为必须由其他技术支持的不可靠技术，前馈网络中基于梯度的学习自2012年以来一直被视为一种强大的技术，可应用于许多其他机器学习任务。
- 在2006年，业内使用无监督学习来支持监督学习，现在更讽刺的是，更常见的是使用监督学习来支持无监督学习。
前馈网络还有许多未实现的潜力。未来，我们期望它们用于更多的任务，优化算法和模型设计的进步将进一步提高它们的性能。本章主要描述了神经网络族模型。在接下来的篇章中，我们将讨论如何使用这些模型——如何对它们进行正则化和训练。

总结

回顾深度前馈网络的历史，我们不难发现，其每一步发展都凝聚了无数科研人员的智慧和汗水。从最初的感知机模型，到多层感知机的出现，再到反向传播算法的普及和深度学习技术的兴起，深度前馈网络逐渐从理论走向实践，从实验室走向市场。如今，深度前馈网络已经成为图像识别、自然语言处理、推荐系统等多个领域不可或缺的工具。展望未来，随着大数据和计算技术的进一步发展，我们有理由相信，深度前馈网络将在更多领域发挥重要作用，推动人工智能技术的不断前进。

往期重要内容回顾

深度网络现代实践 - 深度前馈网络介绍篇
深度网络现代实践 - 前馈网络入门之学习XOR实例篇
深度网络现代实践 - 深度前馈网络之基于梯度的学习篇
深度网络现代实践 - 深度前馈网络之隐藏单元篇
深度网络现代实践 - 深度前馈网络之结构设计篇
深度网络现代实践 - 深度前馈网络之反向传播和其他的微分算法篇
深度网络现代实践 - 深度前馈网络之反向传播和其他的微分算法篇-续