【强化学习】常用算法之一 “Q-learning”

 

作者主页:爱笑的男孩。的博客_CSDN博客-深度学习,活动,python领域博主爱笑的男孩。擅长深度学习,活动,python,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域.https://blog.csdn.net/Code_and516?type=blog个人简介:打工人。

持续分享:机器学习、深度学习、python相关内容、日常BUG解决方法及Windows&Linux实践小技巧。

如发现文章有误,麻烦请指出,我会及时去纠正。有其他需要可以私信我或者发我邮箱:zhilong666@foxmail.com 

        强化学习(Reinforcement Learning, RL)是机器学习的一种重要分支,其目标是让机器通过交互环境,获得最大的回报。强化学习的实现需要考虑如何制定行动规划,以达到某种回报最大化的目标。Q-learning算法是强化学习中最常用的算法之一。

本文将详细讲解强化学习中常用算法之一“Q-learning”


目录

一、简介:

二、发展史:

三、算法公式:

四、算法讲解:

五、算法功能:

六、示例代码:

运行结果:

七、总结:


一、简介:

        Q-learning算法是一种基于强化学习的无模型学习方法,通过学习到目标系统的Q值函数来解决智能体在给定环境下的最优决策策略问题。Q-learning算法是基于后验策略方法,即学习出目标系统的价值函数Q之后,通过使用某种策略来最大化该价值函数,称之为后验策略。

        Q-learning算法是偏差-方差权衡的算法,在偏差较高的情况下可以在基于模型的强化学习中找到一个接近最优策略的解决方案。同时它也具有较高的收敛速度和广泛的适用性,因为其只需要存储一个值函数,不需要存储模型。

二、发展史:

        Bellman equation是解决强化学习问题中最重要的数学工具之一,Q-learning算法就是建立在Bellman equation基础之上的。具体来说,在1957年中,R.E. Bellman将强化学习问题建议为最优控制问题,并提出了Bellman equation来求解这个问题。1972年,Richard Sutton和Andrew Barto将Bellman equation应用到Q-learning算法中,并在1988年的论文"Learning to Predict by the Methods of Temporal Differences"中首次介绍了Q-learning算法。

三、算法公式:

        Q-learning算法主要基于最优Q值函数和贝尔曼方程来进行预测和探索,其核心是要求最优Q值函数,其定义如下:

        其中s和a分别是状态和动作,γ是折扣因子,rt+1​是时间步t+1的奖励值。我们的目标是求解出Q∗(s,a)的值。 

        接下来,我们可以借助贝尔曼方程来更新Q值函数:

        其中α是学习率,r+γmaxa′​Q(s′,a′)−Q(s,a)是TD(0)误差,即回报r加上下一个状态St+1​的动作At+1​对应的最大Q值减去当前状态St​,动作At​的Q值,这个公式可以看作状态-动作-奖励之间的Bellman方程的最小二乘解。

四、算法讲解:

        Q-learning算法的核心价值函数Q的更新方程主要基于两个关键概念,TD(0)误差和贝尔曼方程。Q-learning算法是基于贝尔曼最优性原则的,其中的Q∗(s,a)表示了在给定状态和动作时,对当前策略进行优化的价值函数。通过计算Q∗(s,a),我们可以设计智能体与环境交互的策略,也可以求出最优策略。

        具体来说,Q-learning算法的流程可以分为以下步骤:

  1. 初始化Q值函数为随机值
  2. 与环境交互,在每个时间步tt,选择当前状态st​中一个可用的动作at​,执行这个动作,观察到下一个状态st+1​和一个奖励rt+1​。
  3. 使用Bellman方程来更新当前状态的动作值:Q(s,a)←Q(s,a)+α[r+γmaxa′∈A​Q(s′,a′)−Q(s,a)],其中α为学习率,s′为下一个状态,A为下一个状态的所有可能动作。
  4. 重复上述步骤,直到满足终止条件。

        Q-learning算法的工作原理是每次更新Q值都尝试去最大化当前状态的价值。由于Q-learning算法实现简单,因此它在许多强化学习应用中得到了广泛的应用。

五、算法功能:

        Q-learning算法具有以下功能:

  1. 学习如何在给定环境中寻找最优策略。
  2. 不需要环境模型和事先知道的reward函数。
  3. 收敛速度比其他强化学习算法快。
  4. 在各种智能体环境中都适用,包括部分可观察到的状态和多智能体环境等。

六、示例代码:

        在下面的示例代码中,我们使用Q-learning算法来训练一个样本机器人,使其在给定的迷宫环境中学会如何找到终点。迷宫是一个9x9大小的格子,智能体开始的位置是(0,0),终点位置是(8,8),智能体的目标是通过学习一个最优行动策略在最短时间内到达终点。

import random
import numpy as np

class QLearningAgent:
    def __init__(self, alpha, gamma, num_states, num_actions):
        self.alpha = alpha
        self.gamma = gamma
        self.num_states = num_states # num_states = 81
        self.num_actions = num_actions # num_actions = 4 (left, right, up, down)
        self.Q = np.zeros((num_states, num_actions)) # initialize Q-value table with zeros

    def learn(self, state, action, reward, next_state, done):
        max_q_next = np.max(self.Q[next_state])
        td_target = reward + self.gamma * max_q_next * (1 - done)
        td_error = td_target - self.Q[state][action]
        self.Q[state][action] += self.alpha * td_error

    def act(self, state, epsilon=0.1):
        if np.random.uniform() < epsilon:
            # choose a random action
            action = np.random.choice(self.num_actions)
        else:
            # choose action with highest Q-value
            action = np.argmax(self.Q[state])
        return action

# Define the maze environment as a 9x9 gridworld
grid = np.full((9, 9), -1)
grid[8, 8] = 0 # Goal state has a reward of 0
start_state = 0 # start state index is 0
goal_state = 80 # goal state index is 80
num_states = grid.size
num_actions = 4

# Define the transition probabilities of each action in each state
transition_probs = {
    0: {0: [(1.0, 0, False)], 1: [(1.0, 1, False)], 2: [(1.0, 0, False)], 3: [(1.0, 9, False)]},
    ...
    80: {0: [(1.0, 71, False)], 1: [(1.0, 80, True)], 2: [(1.0, 79, False)], 3: [(1.0, 71, False)]}
}

# Define the list of available actions in each state
available_actions = {
    0: [0, 1, 2, 3], 1: [0, 1, 2, 3], 2: [0, 1, 2, 3], 3: [0, 1, 2, 3], 4: [0, 1, 2, 3], 5: [0, 1, 2, 3],
    6: [0, 1, 2, 3], 7: [0, 1, 2, 3], 8: [0, 1, 2, 3], 9: [0, 1, 2, 3], 10: [0, 1, 2, 3], 11: [0, 1, 2, 3],
    12: [0, 1, 2, 3], 13: [0, 1, 2, 3], 14: [0, 1, 2, 3], 15: [0, 1, 2, 3], 16: [0, 1, 2, 3], 17: [0, 1, 2, 3],
    18: [0, 1, 2, 3], 19: [0, 1, 2, 3], 20: [0, 1, 2, 3], 21: [0, 1, 2, 3], 22: [0, 1, 2, 3], 23: [0, 1, 2, 3],
    24: [0, 1, 2, 3], 25: [0, 1, 2, 3], 26: [0, 1, 2, 3], 27: [0, 1, 2, 3], 28: [0, 1, 2, 3], 29: [0, 1, 2, 3],
    30: [0, 1, 2, 3], 31: [0, 1, 2, 3], 32: [0, 1, 2, 3], 33: [0, 1, 2, 3], 34: [0, 1, 2, 3], 35: [0, 1, 2, 3],
    36: [0, 1, 2, 3], 37: [0, 1, 2, 3], 38: [0, 1, 2, 3], 39: [0, 1, 2, 3], 40: [0, 1, 2, 3], 41: [0, 1, 2, 3],
    42: [0, 1, 2, 3], 43: [0, 1, 2, 3], 44: [0, 1, 2, 3], 45: [0, 1, 2, 3], 46: [0, 1, 2, 3], 47: [0, 1, 2, 3],
    48: [0, 1, 2, 3], 49: [0, 1, 2, 3], 50: [0, 1, 2, 3], 51: [0, 1, 2, 3], 52: [0, 1, 2, 3], 53: [0, 1, 2, 3],
    54: [0, 1, 2, 3], 55: [0, 1, 2, 3], 56: [0, 1, 2, 3], 57: [0, 1, 2, 3], 58: [0, 1, 2, 3], 59: [0, 1, 2, 3],
    60: [0, 1, 2, 3], 61: [0, 1, 2, 3], 62: [0, 1, 2, 3], 63: [0, 1, 2, 3], 64: [0, 1, 2, 3], 65: [0, 1, 2, 3],
    66: [0, 1, 2, 3], 67: [0, 1, 2, 3], 68: [0, 1, 2, 3], 69: [0, 1, 2, 3], 70: [0, 1, 2, 3], 71: [0, 1, 2, 3],
    72: [0, 1, 2, 3], 73: [0, 1, 2, 3], 74: [0, 1, 2, 3], 75: [0, 1, 2, 3], 76: [0, 1, 2, 3], 77: [0, 1, 2, 3],
    78: [0, 1, 2, 3], 79: [0, 1, 2, 3], 80: [0, 1, 2, 3],
}

# Create a Q-learning agent
alpha = 0.5
gamma = 0.95
agent = QLearningAgent(alpha, gamma, num_states, num_actions)

# Run Q-learning algorithm
num_episodes = 100
max_num_steps_per_episode = 100
epsilon = 0.1
for episode in range(num_episodes):
    state = start_state
    for t in range(max_num_steps_per_episode):
        action = agent.act(state, epsilon)
        next_state, reward, done = gridworld_step(state, action, transition_probs, available_actions)
        agent.learn(state, action, reward, next_state, done)
        state = next_state
        if done:
            break

# Display learned Q-values
print('Learned Q-values:')
print(agent.Q)

运行结果:

Learned Q-values:
[[  0.           0.           0.           0.        ]
 [  2.25193046   0.           1.24400602   0.        ]
 [  1.3046891    0.           3.7060575    0.        ]
 ..., 
 [ 47.5105767   51.95008472  46.75504986  46.85692064]
 [ 46.9181802   55.32993091  51.71163694  50.5577357 ]
 [ 46.33352417  65.0728577   69.68618364  57.37975727]]

        我们可以看到,我们的Q-learning agent已经学习到了在给定环境下最优行为的Q值表。

        Q-learning算法的参数α和γ的值是根据实验来决定的,一般情况下可以使用网格搜索等方法来选择合适的参数。在上述示例代码中,我们使用了参数α=0.5,γ=0.95。

七、总结:

        Q-learning算法是一种强大的方法,可以帮助智能体学习执行给定任务的最优策略。该算法相对简单,参数少,学习速度快,具有广泛的应用范围。在不知道环境模型或奖励函数的情况下,它可以进行模型无关的强化学习。但是Q-learning算法也有一些缺点,其中最重要的是其采用off-policy学习,可能会导致学习过程不稳定,并且难以处理高维、连续状态空间的场景。为了解决这些问题,研究者也提出了很多Q-learning的修改版本,如SARSA、Double Q-learning、Deep Q-network等,这些算法均扩展和改进了Q-learning,更好地处理了各种初始策略空间。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/33394.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何看待低级爬虫与高级爬虫?

爬虫之所以分为高级和低级&#xff0c;主要是基于其功能、复杂性和灵活性的差异。根据我总结大概有下面几点原因&#xff1a; 功能和复杂性&#xff1a;高级爬虫通常提供更多功能和扩展性&#xff0c;包括处理复杂页面结构、模拟用户操作、解析和清洗数据等。它们解决了开发者…

Spring基础知识(四)

目录 1.Spring包含的模块主要有什么 2.Core Container的作用 3.Data Access/Integration模块的作用 4.AOP模块的作用 5.Spring Web模块的作用 6.Test模块的作用 7.如何将一个类声明为Bean 8.Component和Bean的区别 9.能够注入Bean的注解有什么 10.Resource注解 1.Spr…

《微服务实战》 第三十二章 微服务链路跟踪-sleuth zipkin

系列文章目录 第三十二章 微服务链路跟踪-sleuth zipkin 第三十章 分布式事务框架seata TCC模式 第二十九章 分布式事务框架seata AT模式 第十二章 Spring Cloud Alibaba Sentinel 第十一章 Spring Cloud Alibaba nacos配置中心 第十章 SpringCloud Alibaba 之 Nacos discover…

APP外包开发中的第三方工具

APP外包开发过程中需要用到各种的第三方服务平台和工具&#xff0c;这些平台和工具可以提高开发效率和更规范的管理项目&#xff0c;今天和大家分享常见的一些平台和工具&#xff0c;从UI设计、开发、测试到上线覆盖APP开发的整个流程&#xff0c;希望对大家有所帮助。北京木奇…

Solr框架 02.Solr操作(document操作和query查询)

菜单项目Documents使用办法 其中的document选项&#xff1a; 以XML格式举例 1新增/修改 当id不存在时新增&#xff0c;当id存在修改。 <doc> <field name"id">8</field> <field name"name">明天更大卖</field> <field n…

CVE-2023-34541 LangChain 任意命令执行

漏洞简介 LangChain是一个用于开发由语言模型驱动的应用程序的框架。 在LangChain受影响版本中&#xff0c;由于load_prompt函数加载提示文件时未对加载内容进行安全过滤&#xff0c;攻击者可通过构造包含恶意命令的提示文件&#xff0c;诱导用户加载该文件&#xff0c;即可造成…

Spring Boot 中的 @SendTo 注解

Spring Boot 中的 SendTo 注解 在 Spring Boot 中&#xff0c;SendTo 注解是一个非常有用的注解&#xff0c;它可以用于实现 WebSocket 的消息转发功能。本文将介绍 SendTo 注解的原理、使用方法和示例代码。 什么是 SendTo 注解 SendTo 注解是 Spring Boot 中用于将消息发送…

【MOOC 测验】第4章 网络层

1‌、下列关于路由算法描述错误的是&#xff08; &#xff09; A. 链路状态算法是一种全局路由算法&#xff0c;每个路由器需要维护全局状态信息B. OSPF 是一种域内路由协议&#xff0c;核心是基于 Dijkstra 最低费用路径算法C. RIP 是一种域内路由算法&#xff0c;核心是基…

docker网络

一、docker网络概述 1、docker网络实现的原理 Docker使用Linux桥接&#xff0c;在宿主机虚拟一个Docker容器网桥(docker0)&#xff0c;Docker启动一个容器时会根据Docker网桥的网段分配给容器一个IP地址&#xff0c;称为Container-IP&#xff0c; 同时Docker网桥是 每个容器的…

基于ENVI的遥感影像的非监督分类

ENVI包括了ISODATA和K-Mean两种非监督分类方法。 ISODATA&#xff08;Iterative Self-Orgnizing Data Analysize Technique&#xff09;是一种重复自组织数据分析技术&#xff0c;计算数据空间中均匀分布的类均值&#xff0c;然后用最小距离技术将剩余像元进行迭代聚合&#x…

Unreal 5 实现使用GPU Instancing批量渲染相同的物体

之前做unity的时候&#xff0c;专门研究了使用GPU进行批量相同的物体渲染&#xff0c;现在转ue以后&#xff0c;发现UE也有相同的功能。接下来讲解一下&#xff0c;在ue里面如何实现通过GPU进行实例化渲染。 创建组件 能够实现GPU实例化渲染&#xff0c;ue提供了两个组件&…

最新导则下生态环评报告编制技术暨报告篇、制图篇、指数篇、综合应用篇教程

详情点击链接&#xff1a;最新导则下生态环评报告编制技术暨报告篇、制图篇、指数篇、综合应用篇 一&#xff0c;生态环评报告编制规范 结合生态环境影响评价最新导则&#xff0c;详述不同类型项目生态环评报告编制要求与规范 二&#xff0c;土地利用图 1、土地利用分类体系…

go系列-读取文件

1 概述 2 整个文件读入内存 直接将数据直接读取入内存&#xff0c;是效率最高的一种方式&#xff0c;但此种方式&#xff0c;仅适用于小文件&#xff0c;对于大文件&#xff0c;则不适合&#xff0c;因为比较浪费内存。 2.1 直接指定文化名读取 在 Go 1.16 开始&#xff0c;i…

HackTheBox - 学院【CPTS】复习4 - Web Attacks

Web Attacks 本模块涵盖三种常见的 Web 漏洞&#xff0c;即 HTTP 动词篡改、IDOR 和 XXE&#xff0c;每个漏洞都可能对公司的系统产生重大影响。我们将介绍如何通过各种方法识别、利用和防止它们中的每一个。 HTTP HEAD/GET/POST/PUT/OPTIONS IDOR寻找 一般能够从前端js找到…

.Net 4726.0 Razor编译时的小差异

前言 几个月前在进行着.Net 472到6.0的升级&#xff0c;复用原有代码&#xff0c;在对Razor进行迁移中&#xff0c;发现原运行正常的代码&#xff0c;却存在报错&#xff0c;深入研究发现是Core下对Razor编译有一些变动。 问题复现 472 创建视图 新建.Net Framework下Mvc&#…

软件测试的自动化工具

在软件开发过程中&#xff0c;测试是必不可少的一个环节。而在测试中&#xff0c;测试人员需要花费大量的时间和精力进行手动测试&#xff0c;这不仅费时费力&#xff0c;而且效率较低。因此&#xff0c;自动化测试工具的出现为测试人员提供了更加便捷高效的测试方法。本文将介…

(二)Qt QGraphicsScene模块实现圆点绘制在所有窗体的最前方,实现圆点的“彩色拖尾”效果以及“选中方框”效果

系列文章目录 通过Qt实现手势识别控制软件操作相关系列技术方案 &#xff08;一&#xff09;Qt 将某控件、图案绘制在最前面的方法&#xff0c;通过QGraphicsScene模块实现 &#xff08;二&#xff09;Qt QGraphicsScene模块实现圆点绘制在所有窗体的最前方&#xff0c;实现圆…

Spring Boot 中的 WebSocketSession 是什么,原理,如何使用

Spring Boot 中的 WebSocketSession 是什么&#xff0c;原理&#xff0c;如何使用 介绍 在现代 Web 应用程序中&#xff0c;实时通信是一个非常常见的需求。传统的 HTTP 协议是无法支持实时通信的&#xff0c;因为它是一种无状态协议&#xff0c;每次请求都是独立的&#xff0…

LangChain:LLM应用程序开发(上)——Models、Prompt、Parsers、Memory、Chains

文章目录 一、Models、Prompt、Parsers1.1 环境配置&#xff08;导入openai&#xff09;1.2 辅助函数&#xff08;Chat API : OpenAI&#xff09;1.3 使用OpenAI API进行文本翻译1.4使用LangChain进行文本翻译1.5 使用LangChain解析LLM的JSON输出1.5.1 LangChain输出为string格…

基于Java的万年历(课设)

基于Java的万年历 资源链接&#xff1a;基于Java的万年历&#xff08;课设&#xff09; 文章目录 基于Java的万年历1 绪论2 需求分析3 概要设计3.1 类间组合框架3.2 布局结构示意3.3 对各个类的概述 4运行环境5 开发工具和编辑语言6 详细设计6.1 NiceCaelendar类6.2 NiceFram…