强化学习编程实战-1-一个及其简单的强化学习实例(多臂赌博机)

1.1 多臂赌博机

        一台拥有K个臂的机器,玩家每次可以摇动K个臂中的一个,摇动后,会吐出数量不等的金币,吐出金币的数量服从一定的概率分布,而且不同臂的概率分布不同。

        多臂赌博机的问题是:假设玩家共有N次摇地摇臂的机会,每次如何选择摇动才能使N轮之后得到的金币最多?

        对于这个问题,如果提前知道哪个臂吐的金币最多,那么可以每次都摇动那个臂。但是,问题使并不知道那个臂能获得最多金币?该采取什么策略?

 

1.1.1 eq?%5Cvarepsilon-greedy策略

        一个很直观的想法:既然不知道哪个臂吐的金币最多,那么可以先对每个臂都尝试几次(如都10次),找出那个臂吐出的金币最多,然后一直摇动它。

        其实这个最简单、最朴素的想法已经蕴含了算法学习最基本的两个过程:采集数据和学习。首先,对每个臂进行尝试就是采集数据,其次,学习就是利用这些数据知道哪个臂回吐出最多的金币。一个最简单的方法就是计算每个臂的平均吐钱数量,然后,一直摇那个臂。

        我们可以将这个算法用形式化的代数来表示。用s表示当前赌博机,用A表示可以选择的动作,即A={1,2,3}。其中a=1表示摇动第一个臂,依次类推。用回报eq?%5Cgamma表示摇动赌博机的摇臂后获得的金币的数目。用Q(a)表示摇动动作a获得的金币的平均回报,则eq?Q%28a%29%3D%5Cfrac%7B1%7D%7Bn%7D%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cgamma%20_%7Bi%7D,其中n为摇动动作的总次数。R(a)为摇动动作a的总回报。

        算法的伪代码

00b3aa0e16254d5eb84a42592496d306.png

1-3行:初始化每个动作的总回报R(a),以及摇动该动作的次数N(a)。

4-6行:每个臂都尝试eq?n_%7Ba%7D次,计算每个摇臂总的金币数。

7-9行:算出使得总回报最大的那个臂,然后一直摇动它。

这是一个简单、朴素的想法,但并不是一个好的算法。原因如下:缺点
(1)不应该以总回报最大为目的来选择当前哪个臂,而是应该选择当前平均回报最大的臂

(2)不应该只摇动当前平均回报最大的臂,因为它不一定使最好的那个臂。所以,我们除了关注当前平均回报最大的臂,还要保留一定的概率去摇动其他的臂,以便发现更好的臂。

以上两点对应着强化学习算法中最重要的概念:利用策略和探索策略平衡。

利用:exploitation,是利用当前的数据总结得到的最好的策略,采用该策略,我们可以得到较高的回报。

探索:exploration,该策略可以帮我们找到更好的臂,甚至找到最优的臂。

        强化学习算法在训练的过程中所用到的策略是平衡了利用和探索的策略,最常见的是eq?%5Cvarepsilon-greedy策略,公式表示:

0d853fb12db340eba68275ffa943a53f.png

        该策略,在每次选择摇动哪个臂时,应该以1-eq?%5Cvarepsilon的概率去摇动当前平均值最大的臂,以eq?%5Cvarepsilon的概率在所有动作中均匀随机地选择动作。这样可以在有限的次数中得到尽可能多的回报,同时不失去找到最好的臂的机会。

1d5a821d6895478c9aa3d02b25bef4a2.png

第1-4行:初始化总回报R(a),初始化每个动作的平均回报Q(a),每个动作的次数N(a).

第6行:在每次摇臂之前,采用eq?%5Cvarepsilon-greedy策略,选择要摇动的臂a。

第7行:动作a的次数N(a)+1.

第8行:根据动作a和环境返回的回报eq?%5Cgamma_%7B%7D(a),更新动作a的平均回报。

第9行:计算总的收益。

第10行:玩家尝试N次之后,返回总的收益。

在多臂赌博机中,平衡利用和探索的策略还有玻尔兹曼策略和UCB策略。

 

1.1.2 玻尔兹曼策略

        e-greedy策略给对应值函数最大的那个动作一个比较大的概率,而其他动作,不管值函数的大小如何,被采样的概率都是相等。

        但这中概率的分配策略不太合理。按理说,非贪婪的动作也有好坏之分,那些对应值函数大的动作应该比那些对应值函数小的动作采样的概率大。于是玻尔兹曼策略根据值函数对动作的采样的概率进行了软处理,表示下式1-2为

d60a9ffda8cf42cbb36781d92faeb299.png

其中eq?%5Ctau为温度调节参数,可以用来调节探索和利用和比例。eq?%5Ctaueq?%5Ctau越小,玻尔兹曼越接近贪婪策略,利用所占的比例越大,探索越少。反之,探索越多。伪代码只需替换图1-3中的e-greedy策略为公式1-2.

 

1.1.3 UCB策略

UCB(Upper Confidence Boundn)置信上限。在统计学中常常用置信区间来表示不确定性。在这里,我们用置信区间来表示探索。

UCB策略公式

4edfe00e78e8460b9e819fbd557c3fd3.png

其中t为当前摇臂动作的总次数,N(a)为动作a的总次数。

下图为3种策略,总回报和摇动次数之后的关系。e-greedy策略回报最低,但却是形式最简单、最通用,可广泛用于各种任务的学习和探索训练中。

74bc4083f35b46ab9a875f9c7654e892.png

 

1.2 多臂赌博机代码实现

基于上文提到的三种学习策略。

①首先,我们先创建一个KB_Game类

②在类KB_Game中定义方法step(),用于模拟多臂赌博机如何给出回报。该方法的输入为动作,输出为回报。用正态分布来模拟玩家在每次摇动摇臂后得到的回报。step()方法实际上提供了多臂赌博机的模拟器。

③接下来,实现3种选择动作的策略方法choose_action().该方法的输入参数为测量类别policy,有3种,对应上文的三种策略e_greedy,ucb和boltzmann.另外还有一个参数字典**kwargs,对应传递相应的策略的所对应超参数,如e-greedy策略中的epsilon,UCB策略中的超参数c_ratio,以及玻尔兹曼中的温度‘temperature'.UCB算法的每一步是依次摇动每个臂,因此在程序中对应的代码为判断每个动作的次数,如果有等于零的,那么选择该动作。

④有了模拟器和动作选择策略,下面就可以通过交互进行学习训练。定义方法train().该方法的输入参数有play_total(表示训练的总次数),policy(训练的策略),**kwargs(相应策略的超参数字典).

⑤智能体通过学习的策略选择动作,然后将动作传给step()方法,相当于跟多臂赌博机进行了一次交互,从多臂赌博机中获得回报r,智能体根据立即回报更新每个动作的平均回报q,计算当前的累计回报并作相应的保存。

⑥在每次训练新的策略的时候,我们需要将类KB_Game中的成员变量进行重置,定义reset()方法进行重置,重置的变量有平均回报q,各动作的次数action_counts,当前的累积回报current_cumulative_reward,玩家尝试的次数counts,玩家尝试的历史counts_history、玩家累积回报的历史cumulative_rewards_history、动作a、回报reward。

 ⑦为了更直观比较3种不同策略的学习性能,需要画图展示,我们用方法plot()来实现。得到如下的结果。显然ucb比其他两个策略要好。

23a19cf0d2894248855a1a19c7c2c415.png

代码如下

import numpy as np
import matplotlib.pyplot as plt
class KB_Game:
    def __init__(self,*args,**kwargs):
        self.q=np.array([0.0,0.0,0.0])          #每个臂的平均回报
        self.action_counts=np.array([0,0,0])    #摇动每个臂的次数
        self.current_cumulative_rewards=0.0     #当前累积回报总和
        self.actions=[1,2,3]                    #3个不同的摇臂
        self.counts=0                           #玩家玩游戏的次数
        self.counts_history=[]                  #玩家而玩游戏的次数记录
        self.cumulative_rewards_history=[] #累积回报的记录
        self.a=1                  #玩家当前动作,初始化为1,摇第一个摇臂
        self.reward=0             #当前回报,初始值为0

    def step(self,a):#模拟器
        r=0
        if a==1:
            r=np.random.normal(1,1)     #正态分布,均值为1,方差为1
        if a==2:
            r=np.random.normal(2,1)
        if a==3:
            r=np.random.normal(1.5,1)
        return r
    
    def choose_action(self,policy,**kwargs):  #动作策略
        action=0
        if policy=='e_greedy':
            if np.random.random()<kwargs['epsilon']:
                action=np.random.randint(1,4)
            else:
                action=np.argmax(self.q)+1
        if policy=='ucb':
            c_ratio=kwargs['c_ratio']
            if 0 in self.action_counts:
                action=np.where(self.action_counts==0)[0][0]+1
            else:
                value=self.q+c_ratio*np.sqrt(np.log(self.counts)/self.action_counts)
                action=np.argmax(value)+1
        if policy=='boltzmann':
            tau=kwargs['temperature']
            p=np.exp(self.q/tau)/(np.sum(np.exp(self.q/tau)))
            action=np.random.choice([1,2,3],p=p.ravel())
        return action
    
    def train(self,play_total,policy,**kwargs):
        reward_1=[]
        reward_2=[]
        reward_3=[]
        for i in range(play_total):
            action=0
            if policy=='e_greedy':
                action=self.choose_action(policy,epsilon=kwargs['epsilon'])
            if policy=='ucb':
                action=self.choose_action(policy,c_ratio=kwargs['c_ratio'])
            if policy=='boltzmann':
                action=self.choose_action(policy,temperature=kwargs['temperature'])
            self.a=action
            #print(self.a)
            #与环境交互一次
            self.r=self.step(self.a)
            self.counts+=1
            #更新值函数
            self.q[self.a-1]=(self.q[self.a-1]*self.action_counts[self.a-1]+self.r)/(self.action_counts[self.a-1]+1)
            self.action_counts[self.a-1]+=1
            reward_1.append([self.q[0]])
            reward_2.append([self.q[1]])
            reward_3.append([self.q[2]])
            self.current_cumulative_rewards+=self.r
            self.cumulative_rewards_history.append(self.current_cumulative_rewards)
            self.counts_history.append(i)
            
    def reset(self):
        self.q=np.array([0.0,0.0,0.0])          #每个臂的平均回报
        self.action_counts=np.array([0,0,0])    #摇动每个臂的次数
        self.current_cumulative_rewards=0.0     #当前累积回报总和
        self.counts=0                           #玩家玩游戏的次数
        self.counts_history=[]                  #玩家而玩游戏的次数记录
        self.cumulative_rewards_history=[] #累积回报的记录
        self.a=1                  #玩家当前动作,初始化为1,摇第一个摇臂
        self.reward=0             #当前回报,初始值为0
    
    def plot(self,colors,policy,style):
        plt.figure(1)       #创建画布
        plt.plot(self.counts_history,self.cumulative_rewards_history,colors,label=policy)
        plt.legend() #加上图列
        plt.xlabel('n',fontsize=18)
        plt.ylabel('total rewards',fontsize=18)
        

if __name__=='__main__':
    np.random.seed(0)
    k_gamble=KB_Game()
    total=2000
    k_gamble.train(play_total=total,policy='e_greedy',epsilon=0.05)
    k_gamble.plot(colors='r',policy='e_greedy',style='-.')
    k_gamble.reset()
    k_gamble.train(play_total=total,policy='boltzmann',temperature=1)
    k_gamble.plot(colors='b',policy='boltzmann',style='--')
    k_gamble.reset()
    k_gamble.train(play_total=total,policy='ucb',c_ratio=0.5)
    k_gamble.plot(colors='g',policy='ucb',style='-')
    plt.show()



 

 

 

 

 

 

 

 

 

        

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/778764.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CSS 【详解】样式选择器(含ID、类、标签、通配、属性、伪类、伪元素、Content属性、子代、后代、兄弟、相邻兄弟、交集、并集等选择器)

CSS 样式选择器&#xff0c;用于选中页面中的 html 元素&#xff0c;以便添加 CSS 样式。 按渲染性能由高到低 依次是&#xff1a; ID 选择器 #id 通过元素的 id 属性选中元素&#xff0c;区分大小写 <p id"p1" >第一段</p>#p1{color: red; }但不推荐使…

eclipse ide中文件编码的修改,解决中文乱码的问题。

1、先上一张图&#xff1a; 记得之前设置过&#xff0c;但是稍微一变&#xff0c;环境编码又到了ISO-8859-1了&#xff0c;然后就出现了乱码。 2、设置eclipse的编码&#xff1a; Preferences--General -- Content Types -- Text -- Java Properties File -- Default encoding…

要想贵人相助,首先自己得先成为贵人!

点击上方△腾阳 关注 转载请联系授权 在金庸江湖里&#xff0c;有两位大侠&#xff0c;一个是萧峰&#xff0c;一个是郭靖。 郭靖在《射雕英雄传》里是绝对的主角&#xff0c;在《神雕侠侣》当中也是重要的配角&#xff0c;甚至可以说是第二主角。 谈起郭靖&#xff0c;很多…

策略为王股票软件源代码-----如何修改为自己软件61----资讯菜单修改-----举例---------调用同花顺网页------

http://stock.sina.com.cn 将原来的新浪行情,修改为同花顺, 搜索 stock.sina.com.cn... StkUI\View\InfoView.cpp(58):char

20K Stars!一个轻量级的 JS 库

大家好,我是CodeQi! 一位热衷于技术分享的码仔。 Driver.js 是一个轻量级的 JavaScript 库,旨在帮助开发人员创建网站或应用程序的引导和教程。通过 Driver.js,您可以引导用户了解网站的各个功能和使用方式。 Driver.js 提供了高度可定制的功能,使其能够适应各种需求和…

【Python学习笔记】菜鸟教程Scrapy案例 + B站amazon案例视频

背景前摇&#xff08;省流可以跳过这部分&#xff09; 实习的时候厚脸皮请教了一位办公室负责做爬虫这块的老师&#xff0c;给我推荐了Scrapy框架。 我之前学过一些爬虫基础&#xff0c;但是用的是比较常见的BeautifulSoup和Request&#xff0c;于是得到Scrapy这个关键词后&am…

在AvaotaA1全志T527开发板上使用AvaotaOS 部署 LNMP 服务

准备工作 在这之前&#xff0c;确保设备已经联网&#xff0c;可以用 ifconfig 命令查看联网状态。这里使用的是 WIFI 联网&#xff0c;可以看到已经获取了IP地址。 由于安装需要较长时间&#xff0c;建议使用 screen 后台登录&#xff0c;这里看到系统默认已经安装了 screen …

6800和8080单片机读写时序和液晶屏接口

前言&#xff1a; 随着单片机发展&#xff0c;集成度越来越高&#xff0c;因此目前单片机较少使用RD和WR信号操作外设&#xff0c;因此很多时候&#xff0c;变成了6800和8080单片机读写液晶屏了。早期的读写本质上是对一个地址进行即时的操作&#xff0c;现在可能是等数据送到…

vue中自定义设置多语言(包括使用vue-i18n),并且运行js脚本自动生成多语言文件

在项目中需要进行多个国家语言的切换时&#xff0c;可以用到下面方法其中一个 一、自定义设置多语言 方法一: 可以自己编写一个设置多语言文件 在项目新建js文件&#xff0c;命名为&#xff1a;language.js&#xff0c;代码如下 // language.js 文档 let languagePage {CN…

baomidou多数据源切换注解@DS没有效果

baomidou多数据源切换注解DS没有效果 <dependency><groupId>com.baomidou</groupId><artifactId>dynamic-datasource-spring-boot-starter</artifactId><version>3.1.1</version> </dependency> ##原因 方法上有Transaction…

2024年AI技术深入研究

2024年AI技术持续快速发展,应用领域广泛,产业发展迅速,市场趋势积极,学术研究深入。 AI技术进展大模型发展 2024年,智谱AI正在研发对标OpenAI Sora的高质量文生视频模型,预计最快年内发布。智谱AI的进展显示了国内AI大模型领域的快速发展,以及与国际领先技术的竞争态势…

全网最详细的Appium自动化测试框架(一)环境搭建

一、环境搭建 1、安装python3 2、安装appium-destop 3 、安装python虚拟环境 ,安装依赖库 : pip install Appium-Python-Client pip install pytest 4、安装java brew install java 配置好环境变量 5、安装 android-platform-tools &#xff08;也可以用android sdk 工…

关于多人开发下git pull报错代码冲突问题的解决方案

关于多人开发下git pull报错代码冲突问题的解决方案 问题描述 最近多人开发项目习惯性先 git pull 来更新代码的时候&#xff0c;遇到了下面的问题&#xff1a;error: Your local changes to the following files would be overwritten by merge: Please, commit your change…

Zabbix触发器

目录 触发器基础概念 创建和管理触发器 示例 定义一个触发器 在 Zabbix 中&#xff0c;触发器&#xff08;Trigger&#xff09;用于定义在监控数据满足特定条件时触发警报或动作。触发器是实现监控告警和自动响应的核心组件之一。以下是关于 Zabbix 触发器的详细解释和用法…

Windows 11 安装 安卓子系统 (WSA)

How to Install Windows Subsystem for Android (WSA) on Windows 11 新手教程&#xff1a;如何安装Windows 11 安卓子系统 说明 Windows Subsystem for Android 或 WSA 是由 Hyper-V 提供支持的虚拟机&#xff0c;可在 Windows 11 操作系统上运行 Android 应用程序。虽然它需…

解决问题:使用PageHelper.startPage和PageInfo实现分页,但是得到的total和传入的页面大小pageSize一样

我们需要的是total得到的数值是数据库里所有数据的条数。 1、包别引错 <!--PageHelper开始--><dependency><groupId>com.github.pagehelper</groupId><artifactId>pagehelper-spring-boot-starter</artifactId><version>1.4.6</…

c++:struct和class的区别

C和C中struct的区别 (1)C中不支持成员函数&#xff08;只能通过函数指针成员变量间接支持&#xff09;&#xff0c;而C源生支持。 (2)C中不支持static成员&#xff0c;而C中支持。后面会详细讲&#xff0c;C static class是一个大知识点 (3)访问权限&#xff0c;C中默认public…

2024年【金属非金属矿山(地下矿山)安全管理人员】考试报名及金属非金属矿山(地下矿山)安全管理人员模拟考试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年金属非金属矿山&#xff08;地下矿山&#xff09;安全管理人员考试报名为正在备考金属非金属矿山&#xff08;地下矿山&#xff09;安全管理人员操作证的学员准备的理论考试专题&#xff0c;每个月更新的金属非…

Ratf协议图解、Nacos CP集群源码分析

文章目录 Nacos CP集群说明Raft协议leader选举重新选举leader多个Candidate情况更新操作&#xff0c;日志复制网络分区 源码实现服务注册leader选举leader心跳包 Nacos CP集群 说明 CAP原则 C 一致性 ConsistencyA 可用性 Availability分区容错性 Partition tolerance 分区…

SR-IOV学习笔记

参考&#xff1a;《深入浅出DPDK》&前人的各种博客 SR-IOV全称Single Root IO Virtualization&#xff0c;单根虚拟化(多么高大上的名字>.<)&#xff0c;是 Intel 在 2007年提出的一种基于硬件的虚拟化解决方案。 虚拟化背景 那什么又是虚拟化呢&#xff1f;抽象来…