第五章 深度学习
一、基本理论
1. 深度学习概述
1.1 引入
1.1.1 人工智能划时代事件
2016 年 3 月,Google 公司研发的 AlphaGo 以 4:1 击败世界围棋顶级选手李世石。次年,AlphaGo2.0 对战世界最年轻的围棋四冠王柯洁,以 3:0 击败对方。背后支撑 AlphaGo 具备如此强大能力的,就是“深度学习”(Deep Learning)。
一时间,“深度学习”这个本专属于计算机学科的术语,成为包括学术界、工业界、风险投资界等众多领域的热词。
1.1.2 人工智能第三次高潮
实际上,自 2006 年起,人工智能进入第三次高潮期,研究成果井喷式爆发。ChatGPT发布,是 AI 发展史上又一里程碑,它标志着自然语言处理技术成熟,人工智能进入 2.0时代。
1.1.3 深度学习巨大影响
除了博弈,深度学习在计算机视觉(computer vision)、语音识别、自动驾驶等领域,表现与人类一样好,甚至有些地方超过了人类。2013 年,深度学习就被麻省理工学院的《MIT 科技评论》评为世界 10 大突破性技术之一。
深度学习不仅是一种算法升级,还是一种全新的思维方式,它的颠覆性在于,将人类过去痴迷的算法问题,演变成数据和计算问题,以前“算法为核心竞争力”正在转换为“数据为核心竞争力”。
1.1.4 深度学习惊艳表现:图像生成
1.1.5 深度学习惊艳表现:虚拟数字人
1.1.6 深度学习惊艳表现:还原历史人物
1.1.7 深度学习惊艳表现:ChatGPT
1.2 深度学习的定义
1.2.1 什么是深度学习
深度学习就是以深度神经网络为基本结构,用以学习数据中抽象特征的人工智能模型,从而做出预测的方法。总结为两个深:
- 模型深度:采用深度神经网络
- 深层特征:提取深层次特征
1.2.2 深度神经网络
深度神经网络(及其变种)是深度学习中心模型。结构如下:
深度神经网络结构特点:
- 输入是一维向量
- 每个神经元和上一层、下一层每个神经元相连接(所以又称全连接模型),同一层神经元不相互连接
- 有向无环图
- 输出层有几个神经元,输出几个值
1.2.3 深度学习在 AI 学科中的地位
1.2.4 AI、深度学习与机器学习的关系
机器学习、深度学习是人工智能的子学科,可以认为深度学习是机器学习的“高级阶段”。
1.3 深度学习的特点
1.3.1 深度学习的特点
优点
- 性能更好
- 不需要特征工程
- 在大数据样本下有更好的性能
- 能解决某些传统机器学习无法解决的问题
缺点
- 小数据样本下性能不如机器学习
- 模型复杂
- 可解释性弱
1.3.2 深度学习的优点
性能更好
不需要特征工程
- 传统机器学习需要人进行特征提取(特征工程),机器性能高度依赖于特征工程的质量。在特征很复杂的情况下,人就显得无能为力。而深度学习不需要这样的特征工程,只需将数据直接传递给深度学习网络,由机器完成特征提取。
深度学习在大样本数据下有更好的性能和扩展性
深度学习能解决传统机器学习无法解决的问题(如人脸识别,需要根据深层次特征来判断)
1.3.3 深度学习的缺点
深度学习在小数据上性能不如传统机器学习
深度学习网络结构复杂、构建成本高
相比传统机器学习,深度学习可解释性较差
1.3.4 深度学习与传统机器学习相同点
深度学习、机器学习是同一问题不同的解决方法
- 目的相同:都是利用机器自我学习能力,解决软件系统的难题
- 基本问题相同:回归问题、分类问题、聚类问题
- 基本流程相同:数据准备 → 模型选择 → 模型构建/训练 → 评估优化 → 预测
- 问题领域相同:监督学习、非监督学习、半监督学习
- 应用领域相同:推荐、计算机视觉、自然语言处理、语音处理、强化学习
- 评价标准相同
- 回归问题:均方误差;R2 值
- 分类问题:交叉熵;查准率、召回率、F1 综合系数
- 模型泛化能力:过拟合、欠拟合
1.3.5 深度学习与传统机器学习不同点
1.3.6 为什么要学习深度学习
深度学习是人工智能时代核心技术
深度学习具有更强的解决问题能力
掌握深度学习具有更强的职业竞争力
深度学习在行业中应用更广泛
1.4 深度学习的应用
1.5 深度学习发展史
1.5.1 深度学习发展简史
从1940年起,首先提出了MP 模型(McCulloch 和 Pitts 提出的人工神经元的简易数学模型)Hebb(海布)学习规则,这是神经网络的起源,奠定了神经网络的基础模型。
1960 年,提出了感知机模型,感知机模型可以对简单的数据节点进行分类,这个发现引起了第一波的 AI 浪潮,因为人们认为简单的感知机可以实现分类功能,那通过组合可以实现更复杂的功能,但后面发现感知机无法模拟异或运算,无法处理非线性的问题,第一波浪潮就这样沉入了低谷。
1980 年 Hopfiled 网络,Boltzmann 机和 BP 算法的提出,人们发现可以增加网络的深度来实现非线性的功能,所以开始了第二次浪潮。但是在 80 年代,计算机的计算能力十分有限,很难训练出一个有效的模型来使用,所以导致了这种方式始终处于鸡肋的状态。再加上同一时期浅层方法的成功,如 SVM(1995), 使得人们转为研究浅层的方法。
1998 年 CNN 被提出,也应用到了邮政局的邮政编码识别,但是因为当时并不重视这种深度网络,导致并没有火起来。
2006 年,Hinton提出了 DBN(深度信念网络),解决了更深层次的网络是可以通过一些策略更好的训练和实现,所以就引起了现在深度学习的第三次浪潮。
相比而言,区别于传统的浅层学习,深度学习强调模型结构的深度,隐含层远远不止一层。通常来说,层数更多的网络,通常具有更强的抽象能力(即数据表征能力),也就能够产生更好的分类识别的结果。
在自然语言处理领域,模型规模越大,对人类语言理解能力越强(大模型存在“涌现”和“顿悟”现象)。以下展示了最近几年 NLP 预训练模型参数量变化(参数单位:亿)
1.5.2 神经网络进化过程
1.5.3 小结
时至今日,深度学习网络越来越深,应用越来越广,解决的问题越来越难,扮演的角色越来越重要。