论文解析-基于 Unity3D 游戏人工智能的研究与应用

1.重写 AgentAction 方法

1.1 重写 AgentAction 方法

这段代码是一个重写了 AgentAction 方法的方法。以下是对每行代码解释:

①public override void AgentAction(float[] vectorAction)

这行代码声明了一个公共的、重写了父类的 AgentAction 方法的方法。它接受一个 float 类型的数组作为参数。

float newAction0 = Mathf.Clamp(vectorAction[0], -1, 1);

这行代码将 vectorAction 数组的第一个元素限制在 -1 到 1 的范围内,并将结果赋值给 newAction0 变量。

newAction0 = (newAction0 + 1) / 2;

这行代码将 newAction0 的值加1后除以2,相当于将其从范围 -1 到 1 映射到范围 0 到 1

float newForce = Mathf.Lerp(MinForce, MaxForce, newAction0);

这行代码使用线性插值函数 Mathf.Lerp,根据 newAction0 的值在最小力量值 MinForce 和最大力量值 MaxForce 之间插值,将插值结果赋值给 newForce 变量。

ShootBall(newForce);这行代码调用名为 ShootBall 的方法,并将 newForce 作为参数传递给它。它的作用是使用指定的力量值来发射一个球。

1.2 重写了 AgentAction 方法 是什么意思?

重写(override)是面向对象编程中的一个概念,它指的是在子类中重新实现(覆盖)父类中已存在的方法。

在这段代码中,AgentAction 方法是一个父类中的方法,通过使用 override 关键字,该方法在当前类中进行了重新实现。也就是说,当前类是一个子类,继承了某个父类,而 AgentAction 方法是在父类中定义的。通过重写该方法,子类可以根据自己的需求对方法的行为进行修改或扩展

在代码中的第一行,public override void AgentAction(float[] vectorAction) 表示当前类重写了父类中的 AgentAction 方法,而不是使用父类中原有的实现。重写方法可以提供自定义的功能或行为,以满足子类的特定需求。

2.重写 CollectObservations 方法

2.1 重写 CollectObservations 方法

这段代码也是重写了一个方法,具体来说是重写了 CollectObservations 方法

以下是对每行代码的解释:

public override void CollectObservations()这行代码声明了一个公共的、重写了父类的 CollectObservations 方法的方法。

float distance = Vector2.Distance(mBallVector2, mNetVector2);这行代码计算了一个向量 mBallVector2mNetVector2 之间的距离,并将结果赋值给 distance 变量。

distance = (distance - MinDis) / (MaxDis - MinDis);这行代码将 distance 的值从范围 MinDisMaxDis 映射到范围 0 到 1。它通过减去 MinDis,然后除以 MaxDis - MinDis 来进行映射。

AddVectorObs(distance);这行代码将 distance 添加到观察向量中。这个观察向量用于提供给机器学习模型关于环境状态的信息。

float height = NetTrans.position.y - HeightBaseTrans.position.y;

这行代码计算了一个高度值,即 NetTrans 对象的 y 坐标减去 HeightBaseTrans 对象的 y 坐标,并将结果赋值给 height 变量。

height = (height - MinHeight) / (MaxHeight - MinHeight);这行代码将 height 的值从范围 MinHeightMaxHeight 映射到范围 0 到 1。它通过减去 MinHeight,然后除以 MaxHeight - MinHeight 来进行映射。

AddVectorObs(height);这行代码将 height 添加到观察向量中,用于提供给机器学习模型关于环境状态的更多信息。

这段代码重写了 CollectObservations 方法,以生成两个观察向量:一个是关于机器人与目标的距离,另一个是关于目标距离地面的高度。这些观察向量会在机器学习过程中提供环境状态的信息,以辅助决策和学习。

3.重写 CollectObservations 方法

以下是对提供的代码的逐行解释:

public override void CollectObservations()这行代码声明了一个公共的、重写了父类的 CollectObservations 方法的方法。

AddVectorObs(HasMedicineState);这行代码将名为 HasMedicineState 的变量添加到观察向量中。HasMedicineState 可能是一个布尔值,用于表示是否持有药物。观察向量在机器学习过程中用于提供环境状态的信息。

AddVectorObs(transform.InverseTransformDirection(mAgentRig.velocity));这行代码将 mAgentRig 物体(代理体)的速度转换为局部坐标系中的方向,并将其添加到观察向量中。transform.InverseTransformDirection 用于将世界坐标系中的方向转换为相对于物体的局部坐标系中的方向。

通过以上代码,CollectObservations 方法重写了父类中的方法,生成了两个观察向量。第一个观察向量包含了一个代表是否持有药物的状态信息。第二个观察向量包含了物体运动的速度信息,该速度信息已转换为局部坐标系中的方向。这些观察向量将为机器学习模型提供有关环境状态的信息。

3.1 我们常用的 PPO 算法,其输出动作向量值域在-1 到 1 之间 ?

常用的 PPO(Proximal Policy Optimization)算法的输出动作向量通常被限制在-1到1的值域范围内。这种限制是为了确保输出的动作在合理的范围内,以避免过大或过小的动作值。将输出动作值域限制在-1到1之间有助于稳定训练过程,并使得学习到的策略更容易在实际环境中执行。

在代码中,你可能会看到一些对输出动作向量进行范围映射的操作,例如使用 Mathf.Clamp 函数将动作向量的元素限制在-1到1之间。这样的映射操作可以确保输出动作在合理范围内,并符合使用 PPO 算法的通常约定。

注意:从官方的使用说明文档中可以了解到,不适合过度设计奖励方式,代理可能会在训练过程中找到奖励的“漏洞”,最终导致训练失败。

参考文献:

[1]朱杰. 基于Unity3D游戏人工智能的研究与应用[D].广东工业大学,2020.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/20419.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java版本工程管理系统源码企业工程项目管理系统简介

一、立项管理 1、招标立项申请 功能点:招标类项目立项申请入口,用户可以保存为草稿,提交。 2、非招标立项申请 功能点:非招标立项申请入口、用户可以保存为草稿、提交。 3、采购立项列表 功能点:对草稿进行编辑&#x…

Vue收集表单数据和过滤器

目录 收集表单数据 收集表单数据总结 过滤器 过滤器小结 收集表单数据 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><!--vue--><script src"https://cdn.sta…

C++ ---- 类和对象(下)

目录 初始化列表 初始化列表的语法 初始化列表的特性 explicit关键字 构造函数的隐式转换 explicit的作用 static修饰成员变量和成员函数 static修饰成员变量 static修饰成员函数 友元 友元函数 友元类 内部类 匿名对象 拷贝对象时的一些编译器优化 初始化列表 …

Kibana 的安装

1. 简介 Kibana 是一个开源的分析与可视化平台&#xff0c;可以用 Kibana 搜索、查看存放在 Elasticsearch 中的数据&#xff0c;就跟谷歌的 elasticsearch head 插件类似&#xff0c;但 Kibana 与 Elasticsearch 的交互方式是各种不同的图表、表格、地图等&#xff0c;直观的…

超稳定ChatGPT镜像网站,小白适用,赶紧收藏【持续更新中】

&#x1f482;作者简介&#xff1a; THUNDER王&#xff0c;一名热爱财税和SAP ABAP编程以及热爱分享的博主。目前于江西师范大学会计学专业大二本科在读&#xff0c;同时任汉硕云&#xff08;广东&#xff09;科技有限公司ABAP开发顾问。在学习工作中&#xff0c;我通常使用偏后…

Redis修炼 (15. redis的持久化-RDB)

RDB 就是 redis database backup file 数据备份文件 就是把内存中的所有数据都保存在磁盘中。 save 注意这个保存过程是主进程在做 因为redis 是单线程 所有其他所有请求都会被卡死。 bgsave 这个稍微友好一点 是子进程 执行&#xff0c;避免主进程收到影响。 redis在服务停机…

母亲节快到了,祝所有母亲节日快乐!Happy Mother‘s Day

《游子吟》唐孟郊 慈母手中线&#xff0c;游子身上衣。 临行密密缝&#xff0c;意恐迟迟归。 谁言寸草心&#xff0c;报得三春晖。 My kind mother has a needle and thread in her hand,Making new clothes for her son who is to travel far away. She is busy sewing c…

【Pandas与SQL系列】Pandas实现分布函数percent_rank、cume_dist

目录 1&#xff0c;分布函数,1.1&#xff0c;percent_rank()1.2&#xff0c;cume_dist()1.3 SQL例子 2&#xff0c;Pandas 实现3&#xff0c;补充Pandas实现排序 1&#xff0c;分布函数, 应用场景&#xff1a;快速查看某个记录所归属的组内的比例 分布函数分类及基础语法&…

Kali-linux系统指纹识别

现在一些便携式计算机操作系统使用指纹识别来验证密码进行登录。指纹识别是识别系统的一个典型模式&#xff0c;包括指纹图像获取、处理、特征提取和对等模块。如果要做渗透测试&#xff0c;需要了解要渗透测试的操作系统的类型才可以。本节将介绍使用Nmap工具测试正在运行的主…

图像处理:高斯滤波算法

目录 前言 概念介绍 基本原理 卷积核的大小 卷积核的形状和权重比 卷积核的归一化 结论 Opencv实现高斯滤波 Python手写实现高斯滤波 参考文章 前言 在此之前&#xff0c;我曾在此篇中推导过图像处理&#xff1a;推导五种滤波算法&#xff08;均值、中值、高斯、双边…

springboot+jsp乡村中小学校园网站建设

随着科学技术的飞速发展&#xff0c;社会的方方面面、各行各业都在努力与现代的先进技术接轨&#xff0c;通过科技手段来提高自身的优势&#xff0c;乡村小学校园网当然也不能排除在外&#xff0c;从校园概况、学校风采、招生信息的统计和分析&#xff0c;在过程中会产生大量的…

三十二、自定义镜像

1 、Docker镜像的原理 Docker镜像本质是什么? Docker中一个centos镜像为什么只有200MB&#xff0c;而一个centos操作系统的iso文件要几个G? Docker中一个tomcat镜像为什么有500MB&#xff0c;而一个tomcat安装包只有10多MB? 操作系统组成部分: 计算机组成原理 进程调度子…

华为许超:伙伴成功,才有华为企业业务成功

伙伴&#xff0c;可以说是今年ICT行业最为重要的词。各大厂商都在强调伙伴优先&#xff0c;发力伙伴体系构建。然而行业内更多是厂商单维度的信息释放&#xff0c;重视强调厂商面向伙伴的支持与赋能。这个过程中&#xff0c;似乎普遍缺少一个视角&#xff1a;那就是伙伴究竟需要…

STM32开发(十九)STM32F103 数据手册 —— 低功耗模式解析

文章目录 低功耗介绍stm32 供电框图低功耗模式睡眠模式停止模式待机模式低功耗模式汇总低功耗介绍 系统复位或上电复位后,微控制器进入运行模式。在运行模式下,CPU通过HCLK提供时钟,并执行程序代码。 系统提供多种低功耗模式,可以在CPU不需要运行时进入低功耗模式节省功耗…

开心档之Java 抽象类

Java 抽象类 目录 Java 抽象类 抽象类 Employee.java 文件代码&#xff1a; AbstractDemo.java 文件代码&#xff1a; 继承抽象类 Salary.java 文件代码&#xff1a; AbstractDemo.java 文件代码&#xff1a; 抽象方法 Salary.java 文件代码&#xff1a; 抽象类总结…

虚拟化技术介绍-VMware和Docker的区别

都说今天是一个云时代&#xff0c;其实云的本质就是由基础架构提供商提供基础架构&#xff0c;应用开发商不再关心基础架构。我们可以类比人类刚刚发明电的时候&#xff0c;工厂需要自己建电站&#xff0c;而现在只需要电线和插座就可以使用电。云时代让我们可以在分钟、甚至秒…

【企业信息化】第6集 免费开源ERP: Odoo 16 MRP + 维护+ PLM +质量全面生产制造管理

文章目录 一、MRP 物料需求计划1.一款软件&#xff0c;满足您的所有需要2.工作中心控制面板3.优化您的库存等级4.条形码&#xff0c;即开即用5.出色报告关键绩效指标6.与其他Odoo应用程序完全集成 二、PLM 产品生命周期管理1.管理工程变更2.集成文件管理3.智能版本管理4.与其他…

【软件测试】未来软件测试必备的八大技能!你缺少哪个?

软件测试工程师是个神奇的职业&#xff0c;他是开发人员与老板之间的传话筒&#xff08;三夹板&#xff09;&#xff0c;也是开发人员与老板的好帮手&#xff1b; 他不仅需要有销售的沟通能力&#xff0c;也需要具备编辑人员的文档撰写技巧。如此一个面面俱到的岗位&#xff0…

ChatGPT 实现云原生转型

云原生转型 在相对专业的细分领域&#xff0c;chatGPT 能起到什么作用呢&#xff1f;能给出什么回答&#xff0c;怎么问才能得到好的回答呢&#xff1f;本节内容&#xff0c;将尝试从一个业界其实也还没有定论的话题&#xff0c;开始问答。这就是&#xff1a;云原生转型。 &q…

网站域名历史记录批量查询-老域名建站历史快照数据查询

域名建站历史查询软件 域名建站历史查询软件是一种用于查询一个域名被使用的网站的历史记录的工具。它可以提供许多有用的信息&#xff0c;包括该网站的创建和修改日期、使用的网站建设平台、使用的CMS系统、网站的历史页面内容和页面结构等。 域名建站历史查询软件的作用是帮…