文章目录
- 一、说明
- 二、强化学习是什么?
- 2.1 与现代神经网络的相异
- 2.2 强化学习属于行为学派
- 2.3 强化学习数学支持
- 三、强化学习有什么好处?
- 3.1 在复杂环境中表现出色
- 3.2 需要较少的人际互动
- 3.3 针对长期目标进行优化
- 四、强化学习有哪些用例?
- 4.1 营销个性化
- 4.2 优化挑战
- 4.3 财务预测
- 五、强化学习如何工作的?
- 5.1 关键概念
- 5.2 算法基础知识
- 六、强化学习算法有哪些类型?
- 6.1 基于模型的强化学习
- 6.2 无模型强化学习
- 七、强化学习与监督学习
- 八、强化学习面临哪些挑战?
- 8.1 实用性
- 8.2 可解释性
关键词:Reinforcement Learning
一、说明
强化学习是一种强大的方法,可以帮助人工智能 (AI) 系统在看不见的环境中实现最佳结果。他们从每个行动的反馈中学习,并自我发现实现最终结果的最佳处理路径。该算法还能够延迟满足。最好的整体策略可能需要短期的牺牲,因此他们发现的最佳方法可能包括一些惩罚或一路回溯。
二、强化学习是什么?
2.1 与现代神经网络的相异
强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益[1]。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡[2],强化学习中的“探索-利用”的交换,在多臂老虎机问题和有限MDP中研究得最多。
2.2 强化学习属于行为学派
其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化、多智能体系统、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在最优控制理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在经济学和博弈论中,强化学习被用来解释在有限理性的条件下如何出现平衡。
2.3 强化学习数学支持
在机器学习问题中,环境通常被抽象为马尔可夫决策过程(Markov decision processes,MDP),因为很多强化学习算法在这种假设下才能使用动态规划的方法[3]。传统的动态规划方法和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP。[4]
三、强化学习有什么好处?
使用强化学习 (RL) 有很多好处。然而,这三个特点往往脱颖而出。
- 在复杂环境中表现出色
- 需要较少的人际互动
- 针对长期目标进行优化
总之,是小数据、大结论、总体优化的优秀模型,是人工智能高效率的模型。
3.1 在复杂环境中表现出色
强化学习算法可用于具有许多规则和依赖性的复杂环境。在相同的环境中,即使人类对环境有更深入的了解,也可能无法确定最佳路径。相反,无模型强化学习算法可以快速适应不断变化的环境,并找到新的策略来优化结果。
3.2 需要较少的人际互动
在传统的机器学习算法中,人类必须标记数据对来指导算法。当您使用 RL 算法时,这不是必需的。它自己学习。同时,它提供了整合人类反馈的机制,允许系统适应人类的偏好、专业知识和纠正。
3.3 针对长期目标进行优化
强化学习本质上关注长期奖励最大化,这使得它适用于行动产生长期后果的场景。它特别适合现实世界中每一步都无法立即获得反馈的情况,因为它可以从延迟的奖励中学习。
例如,有关能源消耗或存储的决策可能会产生长期后果。 RL 可用于优化长期能源效率和成本。通过适当的架构,强化学习代理还可以在相似但不相同的任务中推广他们学到的策略。
四、强化学习有哪些用例?
强化学习(RL)可以应用于广泛的现实世界用例。接下来我们举一些例子。
4.1 营销个性化
在推荐系统等应用中,强化学习可以根据个人用户的交互定制建议。这会带来更加个性化的体验。例如,应用程序可以根据某些人口统计信息向用户显示广告。通过每次广告交互,应用程序都会了解向用户显示哪些广告以优化产品销售。
4.2 优化挑战
传统的优化方法通过基于特定标准评估和比较可能的解决方案来解决问题。相比之下,强化学习引入了从交互中学习的方法,以随着时间的推移找到最佳或接近最佳的解决方案。
例如,云支出优化系统使用 RL 来适应不断变化的资源需求并选择最佳实例类型、数量和配置。它根据当前和可用的云基础设施、支出和利用率等因素做出决策。
4.3 财务预测
金融市场的动态非常复杂,其统计特性会随着时间的推移而变化。强化学习算法可以通过考虑交易成本和适应市场变化来优化长期回报。
例如,算法可以在测试操作并记录相关奖励之前观察股票市场的规则和模式。它动态地创建价值函数并制定利润最大化的策略。
五、强化学习如何工作的?
强化学习(RL)算法的学习过程类似于行为心理学领域的动物和人类强化学习。例如,孩子可能会发现,当他们帮助兄弟姐妹或打扫卫生时,他们会得到父母的表扬,但当他们扔玩具或大喊大叫时,他们会收到负面反应。很快,孩子就会知道哪种活动组合会产生最终奖励。
强化学习算法模仿类似的学习过程。它尝试不同的活动来学习相关的消极和积极价值观,以实现最终的奖励结果。
5.1 关键概念
在强化学习中,有几个关键概念需要熟悉:
- 代理(agent):是 ML 算法,或自治系统( autonomous system)
- 环境(environment):是具有变量、边界值、规则和有效动作等属性的自适应问题空间。
- 行动(action):是 RL 代理(agent)在环境中导航所采取的步骤
- 状态( state):是给定时间点的环境( 变量、边界值、规则和有效动作)
- 奖励(reward ):是采取行动的正值、负值或零值,换句话说,是奖励或惩罚。
- 累积奖励cumulative reward:是所有奖励的总和或最终值
5.2 算法基础知识
强化学习基于马尔可夫决策过程,这是一种使用离散时间步骤的决策数学模型。在每一步中,代理都会采取新的行动,从而产生新的环境状态。同样,当前状态归因于先前的一系列动作。
通过在环境中移动时不断试错,代理会构建一组“如果-那么”规则或策略。这些策略可帮助代理决定下一步要采取什么行动以获得最佳累积奖励。代理还必须在进一步探索环境以了解新的状态行动奖励与从给定状态中选择已知的高奖励行动之间做出选择。这称为探索-利用权衡。
六、强化学习算法有哪些类型?
强化学习 (RL) 中使用了多种算法,例如 Q 学习、策略梯度方法、蒙特卡洛方法和时间差分学习。深度强化学习是深度神经网络在强化学习中的应用。深度强化学习算法的一个例子是信任区域策略优化 (TRPO)。
所有这些算法可以分为两大类。
6.1 基于模型的强化学习
基于模型的强化学习通常用于环境定义明确且不变且现实环境测试困难的情况。
代理首先构建环境的内部表示(模型)。它使用此过程来构建此模型:
它在环境中采取行动并记录新的状态和奖励值,它将动作-状态转换与奖励值关联起来。
模型完成后,代理会根据最佳累积奖励的概率来模拟动作序列。然后,它进一步为动作序列本身分配值。因此,代理在环境中制定不同的策略以实现所需的最终目标。
例子
考虑一个机器人学习如何导航新建筑物以到达特定房间。最初,机器人自由探索并构建建筑物的内部模型(或地图)。例如,它可能会得知从主入口向前移动 10 米后遇到了电梯。一旦构建了地图,它就可以在建筑物中经常访问的不同位置之间构建一系列最短路径序列。
6.2 无模型强化学习
当环境规模庞大、复杂且难以描述时,无模型强化学习是最佳选择。当环境未知且不断变化,且基于环境的测试不会带来重大不利影响时,无模型强化学习也是理想选择。
代理不会构建环境及其动态的内部模型。相反,它会在环境中使用反复试验的方法。它会对状态-动作对以及状态-动作对的序列进行评分和记录,以制定策略。
例子
考虑一辆需要在城市交通中行驶的自动驾驶汽车。道路、交通模式、行人行为以及无数其他因素都会使环境变得高度动态和复杂。人工智能团队在初始阶段在模拟环境中训练车辆。车辆根据其当前状态采取行动并获得奖励或惩罚。
随着时间的推移,通过在不同的虚拟场景中行驶数百万英里,车辆可以了解哪些行为最适合每个州,而无需明确对整个交通动态进行建模。当引入现实世界时,车辆会使用学习到的策略,但会继续使用新数据对其进行完善。
强化机器学习、监督机器学习和无监督机器学习有什么区别?
虽然监督学习、无监督学习和强化学习(RL)都是人工智能领域的机器学习算法,但三者之间还是有区别的。
了解监督学习和无监督学习 »
七、强化学习与监督学习
在监督学习中,您定义输入和预期的相关输出。例如,您可以提供一组标记为狗或猫的图像,然后算法预计会将新的动物图像识别为狗或猫。
监督学习算法学习输入和输出对之间的模式和关系。然后,它们根据新的输入数据预测结果。它需要监督者(通常是人类)用输出标记训练数据集中的每个数据记录。
相比之下,强化学习有一个明确的最终目标,即期望结果,但没有监督者提前标记相关数据。在训练期间,它不会尝试将输入与已知输出进行映射,而是将输入与可能的结果进行映射。通过奖励期望的行为,您可以衡量最佳结果。
强化学习与无监督学习比较:
无监督学习算法在训练过程中接收没有指定输出的输入。他们使用统计手段发现数据中隐藏的模式和关系。例如,您可以提供一组文档,算法可以将它们分组到根据文本中的单词识别的类别中。您不会得到任何具体结果;它们落在一个范围内。
相反,强化学习有一个预定的最终目标。虽然它采用探索性方法,但探索会不断得到验证和改进,以增加实现最终目标的可能性。它可以自学达到非常具体的结果。
八、强化学习面临哪些挑战?
虽然强化学习 (RL) 应用程序有可能改变世界,但部署这些算法可能并不容易。
8.1 实用性
尝试现实世界的奖励和惩罚系统可能不切实际。例如,在现实世界中测试无人机而不首先在模拟器中进行测试将导致大量飞机损坏。现实世界的环境经常发生显着变化,且警告有限。它会使算法在实践中更难发挥作用。
8.2 可解释性
与任何科学领域一样,数据科学也着眼于结论性的研究和发现来建立标准和程序。数据科学家更喜欢知道如何得出具体结论以实现可证明性和可复制性。
对于复杂的强化学习算法,采取特定步骤序列的原因可能很难确定。序列中的哪些操作会带来最佳的最终结果?这可能很难推断,从而导致实施方面的挑战。