蒙特卡洛树搜索

蒙特卡洛树搜索入门---强化学习 - 知乎蒙特卡洛树搜索(Monte Carlo tree search)简称MCTS,和一般的蒙特卡洛方法不是一个概念。通俗的理解,蒙特卡洛方法是随机现象中用频率来近似概率,模拟次数越多,结果越准确。而蒙特卡洛树搜索,是减少某些决策…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/657911872蒙特卡洛树搜索Alphago火了,深蓝也已经家喻户晓,它们同时都运用了一项关键的搜索技术——蒙特卡洛树搜索,本文旨在对蒙特卡洛树搜索作简要介绍。icon-default.png?t=N7T8https://mp.weixin.qq.com/s?__biz=MzA4OTYwNzk0NA==&mid=402083679&idx=1&sn=2d3c4d05595ba50824857cf7dd711d78&chksm=021bb538356c3c2e51d809f2cd3ac27c39c7f2d29c459f48c74841dfb12a42016b35cf147b4f&scene=27【详细原理】蒙特卡洛树搜索入门教程!_考虑如下所示的零和博弈树。指向上的三角形,如顶部节点(根),代表最大化玩家的选择-CSDN博客文章浏览阅读4.1k次,点赞4次,收藏34次。我的微信公众号名称:AI研究订阅号微信公众号ID:MultiAgent1024公众号介绍:主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容,分享学习过程中的学习笔记和心得!期待您的关注,欢迎一起学习交流进步!  本文是对Monte Carlo Tree Search – beginners guide这篇文章的文章翻译,以及对其代码的解释:1 引言  蒙特卡洛树搜索在200..._考虑如下所示的零和博弈树。指向上的三角形,如顶部节点(根),代表最大化玩家的选择https://blog.csdn.net/weixin_39059031/article/details/103985855       搜索树是一种计算机领域的常用的数据结构。这里面的搜索树表示的是博弈树,树的每个节点表示在当前状态下博弈方可能执行的的一种动作,每次执行一个动作后己方状态会更新,环境也会更新,状态会更新。树的根节点代表博弈方的起始状态。博弈树表示了博弈方所有可选的路径。博弈算法的目标就是找到一条最容易获得胜利的路径。

        蒙特卡洛是一个城市名,该城市是个有名的赌城,这种博弈方法脱胎于赌博技术。该方法就是在不断去采样,看看选择哪种动作,最后获得胜利的成功的次数更多。就是一种用频率估计概率的方法。

       蒙特卡洛树搜索就是在博弈树上进行大量模拟,然后选择最有利路径的方法。

        蒙特卡洛树算法包含几个步骤,选择、扩展、模拟、反向传播。

        选择就是在当前局面下选择下一步要走的动作。这个选择不能随机选择,要确保有一定的广度,防止陷入局部最优的境地。同时要有目标,尽量选择目前效益较好的动作,提高搜索效率。利用节点在前面搜索过程中的效益评估结果,淘汰掉一些效益很低的无效的动作,相当于剪枝了,避免和minmax搜索一样陷入完全搜索。可以按照UCB公式来计算。

图片

        其中vi是节点估计的预期收益,ni是此节点被访问的次数,而 N 则是其父节点已经被访问的总次数。C 是可调整参数。

        扩展就是选择到一个叶子节点的时候,下一步无法选择了,就在叶子节点上增加一个子节点。当选择到叶子节点是未完全展开叶子节点时,有限扩展,每次扩展添加一个子节点,优先选择扩展的子节点。

        当选择的节点确定后,在该节点上进行rollout模拟,rollout模拟目的是为了评估当前选择的节点的价值。最简单的方法是rollout到游戏结束,得到游戏结果。这个过程只为了评估当前节点的赢面,所以模拟过程的策略可以简单一点,关键是要快,所以可以采用随机策略来快速模拟。

        反向传播,就是将rollout的结果,反馈到rollout路径上的所有的节点。每个节点的访问次数需要加1,如果博弈成功,成功次数也加一。或者其他方法更新该节点的价值信息。

        蒙特卡洛树搜索的优点,不需要像minmax算法那样完全遍历,速度可控。缺点是也需要足够多的模拟才能得到较为准确的估计。

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/742413.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

从 Hadoop 迁移,无需淘汰和替换

我们仍然惊讶于有如此多的客户来找我们,希望从HDFS迁移到现代对象存储,如MinIO。我们现在以为每个人都已经完成了过渡,但每周,我们都会与一个决定进行过渡的主要、高技术性组织交谈。 很多时候,在这些讨论中&#xff…

项目实训-vue(十一)

项目实训-vue&#xff08;十一&#xff09; 文章目录 项目实训-vue&#xff08;十一&#xff09;1.概述2.页顶导航栏3.导航信息4.总结 1.概述 本篇博客将记录我在图片上传页面中的工作。 2.页顶导航栏 <divstyle"display: flex;justify-content: space-between;alig…

打造智能家居:用ESP32轻松实现无线控制与环境监测

ESP32是一款集成了Wi-Fi和蓝牙功能的微控制器&#xff0c;广泛应用于物联网项目。它由Espressif Systems公司开发&#xff0c;具有强大的处理能力和丰富的外设接口。下面我们将详细介绍ESP32的基础功能和引脚功能&#xff0c;并通过具体的实例项目展示其应用。 主要功能 双核处…

网络安全协议

1. 概述 1.1 网络安全需求 五种需求&#xff1a; 机密性&#xff1a;防止数据未授权公开&#xff0c;让消息对无关听众保密 完整性&#xff1a;防止数据被篡改 可控性&#xff1a;限制对网络资源&#xff08;硬件和软件&#xff09;和数据&#xff08;存储和通信&#xff0…

「2024中国数据要素产业图谱1.0版」重磅发布,景联文科技凭借高质量数据采集服务入选!

近日&#xff0c;景联文科技入选数据猿和上海大数据联盟发布的《2024中国数据要素产业图谱1.0版》数据采集服务板块。 景联文科技是专业数据服务公司&#xff0c;提供从数据采集、清洗、标注的全流程数据解决方案&#xff0c;协助人工智能企业解决整个AI链条中数据采集和数据标…

Kendryte K210 固件烧录

本章将为读者介绍 Kendryte K210 的固件烧录&#xff0c;以及 Kendryte K210 外部 NOR Flash 的空间 分布。 本章分为如下几个小节&#xff1a; 6.1 外部 NOR Flash 的空间分布 6.2 Ubuntu 下的固件烧录 6.3 Windows 下的固件烧录 外部 NOR Flash 的空间分布 Kendryte K210 的…

如何以管理员身份运行CMD?

好久没更新博客了&#xff0c;今天在日常使用中遇到了一个问题&#xff0c;顺便记录下来。 据说国内的谷歌浏览器 Chrome 可以自动升级了&#xff0c;终于不用每次都自己跑去官网下载最新版本&#xff0c;然后安装迁移&#xff0c;重复劳动。下一篇讲如何讲迁移 Chrome&#x…

【Python】已解决:Python读取字典查询键报错“KeyError: ‘d‘”

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决&#xff1a;Python读取字典查询键报错“KeyError: ‘d’” 一、分析问题背景 在Python编程中&#xff0c;字典&#xff08;dictionary&#xff09;是一种非常重要的数据结构…

源码分析过滤器与拦截器的区别

博主最近刚拿到一个微服务的新项目&#xff0c;边研究边分析从框架基础开始慢慢带领大家研究微服务的一些东西&#xff0c;这次给大家分析下Springboot中的过滤器和拦截器的区别。虽然上次分析过过滤器&#xff0c;但是主要是分析的cas流程&#xff0c;所以就没太深入&#xff…

[创业之路-129] :制造业企业的必备管理神器-ERP-生产制造

目录 一、ERP生产制造的总体架构 1.1 主要功能模块 1.2 主要流程 二、关键功能详解 2.1 生产管理计划 2.2 物料需求计划MRP 2.3 能力需求计划 2.4 物料与库房管理 一、ERP生产制造的总体架构 1.1 主要功能模块 ERP&#xff08;企业资源计划&#xff09;生产制造系统主…

微信小程序修改应用名称

1、修改名称&#xff08;10分钟即可生效&#xff09; 账号管理员 2、修改icon&#xff08;如果logo带有名称则需要修改&#xff09;

零基础STM32单片机编程入门(二)GPIO详解及驱动LED灯实战含源码视频

文章目录 一.概要二.STM32F103C8T6单片机GPIO口特点二.STM32单片机GPIO内部结构图三.单片机GPIO推挽输出信号流向四.单片机GPIO浮空输入信号流向四.单片机GPIO引脚的复用以及重映射五.CubeMX配置一个GPIO输出驱动LED灯例程六.CubeMX工程源代码下载七.讲解视频链接地址八.小结 一…

MATLAB基础应用精讲-【数模应用】协方差分析 (ANCOVA)

目录 几个高频面试题目 协方差分析和多因素方差分析区别 因子方差分析和协方差分析对比 情景1 因子方差分析的主要内容 SPSS实现因子方差分析 情景2 协方差分析的主要内容 SPSS中进行协方差分析 几个相关概念 算法原理 什么是协方差分析 算法特点 ANCOVA 的步骤 …

如何处理消息积压问题

什么是MQ消息积压&#xff1f; MQ消息积压是指消息队列中的消息无法及时处理和消费&#xff0c;导致队列中消息累积过多的情况。 消息积压后果&#xff1a; ①&#xff1a;消息不能及时消费&#xff0c;导致任务不能及时处理 ②&#xff1a;下游消费者处理大量的消息任务&#…

制造业ERP五大生产模式详解!

制造业面临着从成本控制、生产效率到供应链管理的挑战&#xff0c;每一个环节都需要精细化的管理和高效的协同。而ERP系统&#xff0c;作为一种集信息技术与管理思想于一体的管理工具&#xff0c;正逐渐成为制造业转型升级的关键。那么&#xff0c;通过本文你将会了解到&#x…

压电风扇的显著特点及其在电子系统中的应用

压电已经存在了一个多世纪&#xff0c;人们发现某些晶体结构在受到机械应力时产生表面电荷。 这种形式的压电传感器是压电传感器的工作方式。与压电传感器&#xff08;或发电机&#xff09;类似&#xff0c;压电致动器&#xff08;或电机&#xff09;使用补丁[1,3]形式的压电陶…

软件质量保证与测试

目录 一、测试流程 二、测试用例 2.1概念 2.2用例编写格式 三、设计测试点 3.1等价类 3.1.1概念 3.1.2案例 3.1.3适用场景 3.1.4执行用例 3.2边界值 3.2.1概念 3.2.2案例 3.2.3使用场景 3.3判定表 3.3.1判定表使用原因 3.3.2概念 3.3.3案例 3.3.4使用场景 …

【Linux】Ubuntu 部署 Zabbix 7.0

实验环境&#xff1a;Ubuntu-22.04 官方下载地址&#xff1a; 下载Zabbix 7.0 LTS for Ubuntu 22.04 (Jammy), MySQL, Apache 1、下载 Zabbix 官方安装包以及环境配置 下载 zabbix 安装包 wget https://repo.zabbix.com/zabbix/7.0/ubuntu/pool/main/z/zabbix-release/zabb…

Go语言之数据类型

网站&#xff1a;http://hardyfish.top/ 免费书籍分享&#xff1a; 资料链接&#xff1a;https://url81.ctfile.com/d/57345181-61545511-81795b?p3899 访问密码&#xff1a;3899 免费专栏分享&#xff1a; 资料链接&#xff1a;https://url81.ctfile.com/d/57345181-6161623…

篮球联盟管理系统的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;管理员管理&#xff0c;球员管理&#xff0c;用户管理&#xff0c;球队管理&#xff0c;论坛管理&#xff0c;篮球资讯管理&#xff0c;基础数据管理 前台账户功能包括&#xff1a;系统首页&#xff0…