文章目录
- 1. 人工智能(AI)
- 1.1 弱人工智能
- 1.2 强人工智能
- 2. 人工智能的发展历程
- 3. 人工智能关键技术
- 31. 自然语言处理 (Natural Language Processing)
- 3.2 计算机视觉 (Computer Vision)
- 3.3 知识图谱 (Knowledge Graph)
- 3.4 人机交互 (Human-Computer Interaction)
- 3.5 虚拟现实或增强现实 (Virtual Reality /Augmented Reality)
- 3.6 机器学习
- 3.6.1 机器学习概述
- 3.6.2 机器学习的分类
- 3.6.3 机器学习综合应用
- 3.6.4 未来的挑战
- 4. 机器学习分类
- 4.1 按学习模式分类
- 1)监督学习
- 2)无监督学习
- 3)半监督学习
- 4)强化学习
- 4.2 按学习方法分
- 1)传统机器学习
- 2)深度学习
- 4.3 按算法分
- 1)迁移学习
- 2)主动学习
- 3)演化学习
1. 人工智能(AI)
-
概念
- Artificial Intelligence
- 运用数字计算机或受其控制的机器来模拟、延伸和拓展人类智能,实现对环境的感知、知识的获取,并利用知识达成最佳结果的理论、方法、技术及应用系统。
-
目标:
- 是了解智能的实质
- 生产出一种新的智能机器,它能以与人类相似的方式做出反应
-
该领域的研究:机器人、自然语言处理、计算机视觉、专家系统等
根据人工智能是否能真正实现推理、思考和解决问题,可以将人工智能分为弱人工智能和强人工智能。
1.1 弱人工智能
- 概念:不能真正实现推理和解决问题的智能机器
迄今为止的人工智能系统都还是实现特定功能的专用智能,因此都还是弱人工智能
1.2 强人工智能
- 概念:真正能思维的智能机器
- 类人:机器的思考和推理类似人的思维
- 非类人:机器产生了和人完全不一样的知觉和意识,使用和人完全不一样的推理方式
2. 人工智能的发展历程
-
1950年,提出了著名的图灵测试
艾伦·图灵 (AlanTuring) 在《计算机与智能》中就阐述了对人工智能的思考,提出了著名的图灵测试:如果一台机器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身份,那么称这台机器具有智能。同时图灵还预言了存在真正具备智能机器的可行性。
-
1956年,人工智能研究领域诞生
马文·明斯基 (Marvin Lee Minsky) 与约翰·麦卡锡 (John MeCarthy) 等人在一个人工智能夏季研讨会,会上正式使用了“人工智能”这一术语,标志着人工智能研究领域的诞生。
-
1959年,阿瑟·塞缪尔 (ArthurSamuel) 提出了机器学习
-
1968年,提出专家系统,对知识库给出定义
爱德华·费根鲍姆 (Edward Feigenbaum) 提出首个专家系统, 并对知识库给出了初步的定义
-
20世纪70年代,人工智能的发展进入“寒冬”。
计算机的运算能力难以解决任何实际的A I 问题
-
20世纪80年代中期,是人工智能的又一次繁荣期
美国、日本立项支持人工智能研究
知识工程为主导的机器学习方法的发展
出现了具有更强可视化效果的决策树模型和突破早期感知局限的多层人工神经网络 -
1987年,人工智能又进入了萧瑟期
由于 LISP机市场崩塌,美国取消了人工智能预算
日本第五代计算机项目失败并退出市场
专家系统进展缓慢 -
20世纪90年代末,人工智能技术开始进入平稳发展时期
1997年, IBM 深蓝 (DeepBlue) 战胜国际象棋世界冠军, 这是一次具有里程碑意义的成功,代表了基于规则的人工智能的胜利
-
从2010年开始,人工智能进入爆炸式发展阶段
- 2011年, IBM的问答系统Waston在综艺节目《危险边缘》中战胜了最高奖金得主和连胜纪录保持者
- 2012年, Google Brain通过模仿人类大脑在没有人类指导的情况下,利用非监督深度学习方法从大量视频中成功学习到识别出一只猫的能力
- 2014年, Microsoft公司推出了一款实时口译系统,可以模仿说话者的声音并保留其口音
- 2014年, Microsoft公司发布全球第一款个人智能助理Microsoft Cortana;2014年,Amazon发布智能音箱产品Echo 和个人助手Alexa;
- 2016年, Google Alpha Go机器人在围棋比赛中击败了世界冠军李世石。
3. 人工智能关键技术
31. 自然语言处理 (Natural Language Processing)
- 概念:是计算机科学与语言学的交叉学科,也是人工智能的重要方向,研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
- 涉及的领域:
- 机器翻译:利用计算机实现从一种自然语言到另外一种自然语言的翻译
- 语义理解:利用计算机理解文本内容,并回答相关问题)
- 问答系统:让计算机像人类一样用自然语言与人交流
3.2 计算机视觉 (Computer Vision)
- 概念:
- 使用计算机模仿人类视觉系统的科学
- 让计算机拥有类似人类提取、处理、理解、分析图像以及图像序列的能力
- 应用领域:自动驾驶、机器人、智能医疗等
3.3 知识图谱 (Knowledge Graph)
- 概念:
- 是结构化的语义知识库
- 是一种由节点和边组成的图数据结构
- 以符号形式描述物理世界中的概念及其相互关系
- 作用:提供了从“关系”的角度去分析问题的能力
- 应用:
- 反欺诈、不一致性验证等领域
- 用到的技术:异常分析、静态分析、动态分析等数据挖掘方法
- 搜索引擎、可视化展示、精准营销
- 反欺诈、不一致性验证等领域
3.4 人机交互 (Human-Computer Interaction)
- 概述:
- 主要研究人和计算机之间的信息交换
- 是人工智能领域的重要的外围技术
- 交互技术包括:
- 传统的基本交互和图形交互
- 语音交互、情感交互、体感交互、脑机交互等技术
3.5 虚拟现实或增强现实 (Virtual Reality /Augmented Reality)
- 概述
- 是以计算机为核心的新型视听技术
- 在一定范围内生成与真实环境在视觉、听觉等方面高度近似的数字化环境
3.6 机器学习
3.6.1 机器学习概述
- 概念:
- Machine Learning
- 研究计算机如何模拟或实现人类的学习行为以获取新知识或新技能的学科
- 作用:使计算机重新组织已有的组织结构,并不断改善自身的性能
教材其他处对机器学习的诠释:
- 以数据为基础,通过研究样本数据寻找规律,并根据所得规律对未来数据进行预测
- 过程:
- 从经验数据 E 中对任务T 进行学习
- 它在任务 T上的性能度量P ,会随着对于经验数据E的学习而变得更好
- 涉及学科:统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等(仅了解)
3.6.2 机器学习的分类
由于内容较多,单独拿到第四部分讲
3.6.3 机器学习综合应用
- 应用领域:数据挖掘、计算机视觉、自然语言处理、语音和手写识别、生物特征识别、搜索引擎、医学诊断、信用卡欺诈检测、证券市场分析、汽车自动驾驶、军事决等。
3.6.4 未来的挑战
未来机器学习领域的挑战:
- 需要让机器学习具有可解释性、可干预性
- 现状:主流的机器学习技术是黑箱技术,因此就无法预知暗藏的危机,
- 目前主流的机器学习的计算成本很高,有待发明轻量级的机器学习算法
- 机器学习领域也试图能追求到简单而完美的规律
4. 机器学习分类
4.1 按学习模式分类
1)监督学习
- 概念:
- 利用
已标记
的有限训练数据集 - 通过某种学习策略建立一个模型
- 从而实现对新数据/实例的标记/映射
- 利用
- 要求条件:训练样本的分类标签已知
其分类标签的精确度越高,样本越具有代表性,学习模型的准确度越高
- 应用领域:自然语言处理、信息检索、文本挖掘、手写体辨识、垃圾邮件侦测等
2)无监督学习
- 概念:利用无标记的有限数据,描述隐藏在数据中的结构和规律
- 优点: 训练样本无需人工标记
- 便于压缩数据存储、减少计算量、提升算法速度
- 避免正负样本偏移引起的分类错误
- 应用领域:经济预测、异常检测、数据挖掘、图像处理、模式识别等
如:组织大型计算机集群、社交网络分析、市场分割、天文数据分析等
- 常见算法:Apriori算法、 KMeans 算法、随机森林、主成分分析等
- Apriori 算法:这是一种用于挖掘频繁项集的算法。它常用于关联规则挖掘,找出数据集中经常一起出现的项目组合。
- KMeans 算法:也叫 K 均值算法,它是一种聚类算法。通过将数据点分配到不同的簇中,使得同一簇内的点具有较高的相似性。
- 随机森林:这是一种集成学习算法,通过构建多个决策树来进行预测。它具有较高的准确性并且不容易过拟合。
- 主成分分析:用于数据降维和特征提取。它可以将高维数据转换为低维表示,同时保留主要信息。
3)半监督学习
- 概念:
- 介于监督学习与无监督学习之间
- 利用少量的标注样本和大量的未标识样本进行训练和分类
- 应用场景:分类和回归
- 算法:
- 包括:一些监督学习算法的延伸
如,图论推理算法、拉普拉斯支持向量机等
- 过程:
- 首先试图对未标识数据进行建模
- 在此基础上再对标识的数据进行预测。
4)强化学习
- 概念:
- 通过尝试不同的动作并接收环境的反馈(奖励或惩罚)来学习
- 目标是找到一种策略,使智能体在长期内获得最大的回报。
教材中的定义:可以学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境的最大奖赏,最终目标是使外部环境对学习系统在某种意义下的评价最佳
- 应用领域:机器人控制、无人驾驶、工业控制等
- 常见算法:Q-Leamning、 时间差学习等
4.2 按学习方法分
- 可分为:传统机器学习、深度学习
- 区别
- 传统机器学习:领域特征需要手动完成,且需要大量领域专业知识
- 深度学习:不需要人工特征提取,但需要大量的训练数据集以及强大的 GPU服务器来提供算力
1)传统机器学习
- 概述:
- 从一些观测(训练)样本出发
- 试图发现不能通过原理分析获得的规律
- 以实现对未来数据行为或趋势的准确预测
- 相关算法:逻辑回归、隐马尔科夫方法、支持向量机方法、 K 近邻方法、三层人工神经网络方法、 Adaboost算法、贝叶斯方法、决策树方法等
- 应用领域:自然语言处理、语音识别、图像识别、信息检索等
传统机器学习平衡了学习结果的有效性与学习模型的可解释性,为解决有限样本的学习问题提供了一种框架
2)深度学习
- 概念:
- 基于多层神经网络
- 以海量数据作为输入规则
- 的自学习方法
- 行为:依靠提供给它的大量实际行为数据(训练数据集),进行参数和规则调整
- 特点:
- 网络的隐藏层数量多,算法复杂
- (相比传统机器学习)更注重特征学习
- 典型算法:卷积神经网络 (CNN)、 循环神经网络 (RNN)
4.3 按算法分
1)迁移学习
- 概念:指当在某些领域无法取得足够多的数据进行模型训练时,利用另一领域数据获得的关系进行的学习。
- 作用:把已训练好的模型参数迁移到新的模型指导新模型训练,更有效的学习底层规则、减少数据量
- 应用领域:
- 目前:较少领域
- 如基于传感器网络的定位、文字分类、图像分类等
- 未来:将广泛应用,如视频分类、社交网络分析、逻辑推理等
- 目前:较少领域
2)主动学习
- 过程:
- 通过一定的算法查询最有用的未标记样本
- 并交由专家进行标记
- 然后用查询到的样本训练分类模型来提高模型的精度
- 优点:
- 能够选择性地获取知识,通过较少的训练样本获得高性能的模型
- 最常用的策略是通过不确定性准则和差异性准则选取有效的样本。
3)演化学习
- 概念:利用演化算法求解机器学习中的复杂优化问题
- 应用:应用于分类、聚类、规则发现、特征选择等机器学习与数据挖掘的问题
- 过程:
- 维护一个解的集合
- 并通过启发式算子来从现有的解产生新解
- 通过挑选更好的解进入下一次循环
- 不断提高解的质量
- 算法包括:粒子群优化算法、多目标演化算法