AGI的基石：什么是机器学习

什么是机器学习：机器学习是人工智能的子集，深度学习是其重要的组成部分，包括不限于：deep neural networks 、deep belief networks和recurrent neural networks。在深度学习中，有三种基本的神经网络架构：FFNN、RNN和CNN。主要区别是在不同类型数据上的表现差异。

深度神经网络：

Deep Neural Networks（DNNs）通常是前馈网络（Feed Forward Networks - FFNN）类型，其中数据从输入层流向输出层，不会反向流动，层与层之间是单向的，永远不会再次回到触发节点。

输出是通过基于“我们想要的信息”的监督学习和具有某些信息的数据集通过反向传播获得的。就像你去餐馆，厨师给你介绍你餐点的配料。FFNNs（前馈神经网络）的工作方式与此相同，你会在吃饭时尝到那些特定配料的味道，但吃完饭后你会忘记你吃了什么。如果厨师再次给你同样的配料做的餐点，你无法识别配料，你必须从头开始，因为你没有任何记忆。但人脑并不是这样工作的。

循环神经网络：

Recurrent Neural Network（RNN）解决DNNs的无状态问题，它是一种具有时间维度的FFNN。具有跨传递的连接和跨时间的连接。其中节点之间的连接形成了一个沿着序列的定向图，如从一层到前一层的特点链接，允许信息流回网络的先前部分，因此每个层中的模型都依赖于过去的事件，使信息得以持续。使用它们的内部状态（记忆）来处理输入序列，使得它们适用于诸如无分割、连续手写识别或语音识别等任务，不但可以处理现在给出的信息，还可以处理过去的相关信息。

但是记忆的信息会随着时间的推移而丢失。为了解决这个问题，出现了 LSTM （Long Short Term Memory）。LSTM 是一种特殊的循环神经网络（RNN），能够学习长期依赖关系，这使得 RNN 擅长记住过去发生的事情，并找到时间上的模式，使其下一次猜测更有意义。LSTM 在改进机器翻译、语言建模和多语言语言处理方面打破了记录。

卷积神经网络：

Convolutional Neural Network（CNN）最常用来分析视觉图像。它们的其它应用包括视频理解、语音识别和自然语言处理。此外，长短期记忆网络（LSTM）与卷积神经网络（CNNs）结合，改进了如图像自动标题生成等在 Facebook 上所见到的功能。因此，你可以看到 RNN 更像是帮助我们进行数据处理和预测下一步，而 CNN 则帮助我们进行视觉分析。

RNN or CNN：

通常情况下CNN比RNN更强大，主要是因为RNN存在梯度消失和爆炸问题（超过3层，性能可能会下降），即使有LSTM。而 CNN 可以被堆叠成非常深的模型，这已被证明是非常有效的方式。

然而CNN也有比较大的问题。典型的 CNN 可以识别物体的类型，但不能指定它们的位置。这是因为 CNN 一次只能回归一个物体，因此当多个物体位于同一视觉场时，由于干扰，CNN 的边界框回归无法很好地工作。例如，CNN 可以检测到下面模型中显示的鸟，但如果同一视觉场内有两只不同种类的鸟，它就无法检测到。