生成人工智能体:人类行为的交互式模拟论文与源码架构解析(5)——可控评估端到端评估

最后完结篇,文末有测试中发现的有趣现象,并附上了相关资料链接~

5.可控评估

分两个阶段评估生成代理。我们从一个更加严格控制的评估开始,单独评估代理的响应,以了解它们是否在狭义上定义的上下文中产生可信的行为。然后,在我们对代理社区进行为期两天的端到端分析中,我们调查它们作为整体的新兴行为以及出现的错误和边界条件。

5.1.评估过程

为了评估Smallville中的生成NPC,我们利用生成NPC将响应自然语言问题的事实。因此,我们“采访”NPC来探究它们记住过去经历、基于经验规划未来行动、适当地应对意外事件、反思表现以改进未来行动的能力。为了正确回答这些问题,NPC必须成功检索和综合信息。我们的依赖变量是行为的可信度,这是以前关于NPC的工作中的一个中心依赖变量。

该采访包括五个问题类别,每个类别旨在评估五个关键领域之一:维护自我认识、检索记忆、生成计划、反应和反思。对于每一个问题类别,我们提出了五个问题,以挑战NPC在该领域表现出他们的能力:

  • 自我认识:我们提出要求NPC维护其核心特征理解的问题,例如“介绍一下你自己”或“概述你的典型工作日时间表”。

  • 记忆:我们提出问题,提示NPC从记忆中检索特定事件或对话以正确回答,例如“[姓名]是谁?”或“谁在竞选市长?”

  • 计划:我们提出需要NPC检索其长期计划的问题,例如“明天上午10点你要做什么?”

  • 反应:作为可信行为的基线,我们提出假设情况,NPC需要正确回答:“你的早餐正在烧!你会做什么?”

  • 反思:我们提出问题,要求NPC利用通过更高级别推断获得的更深刻的对他人和自己的理解,例如“如果你和你最近认识的一个人一起度过时间

5.2.条件

所有条件都用于独立回答每个采访问题。我们将生成NPC体系结构与禁用NPC在其记忆流中的某些或全部三种类型的记忆(观察、反思和规划)的抽象进行比较,并将其与人工生成条件进行比较。有三种抽象架构:

  • 没有观察、没有反思、没有规划架构,没有任何在记忆流中的观察、计划和反思等任何信息;

  • 没有反思、没有规划架构,在记忆流中具有观察信息,但没有访问计划或反思;

  • 没有反思架构,具有观察和计划的访问权限,但没有反思的访问权限。

没有观察、没有反思、没有规划的情况有效地表示通过大型语言模型创建NPC的先前技术水平。架构被给予等效的访问访问NPC在采访时刻之前获得的所有记忆,所以这里观察到的差异很可能代表真实差异的保守估计:事实上,抽象架构不会像全架构那样通过两天的模拟时走同一条路线。我们选择以这种方式设计实验,因为为每个体系结构重新模拟将使模拟分散为不同的状态,使比较具有挑战性。

除了抽象条件之外,我们还添加了一个人类众包角色扮演条件,旨在提供人类基线。我们并不打算将此基线捕捉为最大的人类专家表现:相反,我们的目标是使用此条件来确定体系结构是否通过基本的行为胜任水平,这样我们就不仅仅是将抽象相互比较而没有行为基础。我们为每个NPC招募了一位独特的工作者,并让他们观看NPC的模拟生活重播并检查其记忆流。然后,我们要求工人在所观看的NPC的声音中担任角色扮演和作者,回答采访问题。为确保人工撰写的答案至少符合基本质量要求,第一作者手动检查了工人对问题“概述你的典型工作日时间表”所写的回答,以确认回答是连贯的句子,并且是NPC的声音。有四组人工生成的回答不符合这些标准,并由其他工作者重新生成。

5.3.人类评估员

我们要求我们的评估者在美国境内,精通英语且年满18岁以上。他们以每小时15.00美元的价格支付,通过同意我们机构的IRB批准的同意书同意参与。我们从Prolific招募了100名评估者,这是一个用于招募研究参与者的在线平台,他们的参与时间约为30分钟。他们参与者的平均年龄分数为4.86(标准偏差=1.11;3=“18-24岁”,4=“25-34岁”),其中25人自认为女性,73人自认为男性,2人自认为非二元性别。42位参与者拥有学士学位,5位拥有更高学位,13位拥有副学士学位,其余的拥有高中学历或一些高中水平的教育。73.0%的参与者自认为是白人,7.0%的参与者自认为是西班牙裔,6.0%的参与者自认为是亚洲人,10.0%的参与者自认为是非裔美国人,4.0%的参与者则自认为是其他族裔。

5.4.分析

我们的实验产生了100组排名数据,每个参与者对五种条件进行了可信度排名。为了将这些排名数据转换为可解释的区间数据进行比较,我们使用排名计算了每种条件的TrueSkill评分。TrueSkill是Elo棋类评级系统在多人环境中的一种泛化,被XBox Live用于根据竞争性游戏表现的玩家排名。给定一组排名结果,TrueSkill会输出每个条件的平均评级值μ和方差σ。具有相同评级的条件应该大致是平局,每一个条件在两个条件之间获胜的比例为一半;更高的评分表示击败排名较低的条件。此外,为了研究这一结果的统计学意义,我们对原始排名数据应用了Kruskal-Wallis测试,这是一种一元ANOVA的非参数替代方法。然后,我们执行Dunn事后检验来确定条件之间的任何两两差异。最后,我们使用Holm-Bonferroni方法对Dunn检验中的多个比较的p值进行了调整。

此外,第一作者进行了归纳分析,以研究在每种条件下产生的回答之间的质性差异。我们采用了两个阶段的定性开放编码。在第一阶段,我们生成了贴近句子层面的生成式回答的代码。在第二阶段,我们综合了第一阶段得出的代码,提取出更高层次的主题。我们利用这些主题来比较我们研究中产生的响应类型。

5.5.结果

我们的研究结果表明,生成NPC的完整架构在所有研究条件中产生了最可信的行为。我们下面对全架构的响应与其他条件进行了对比。然而,我们也报告了全架构并不是没有缺陷的,并阐明了其失效模式。

5.5.1.完整的架构优于其他条件

完整的生成代理架构产生了最可信的行为(𝜇 = 29.89; 𝜎 = 0.72)。随着每个部分在消融条件下的去除,性能逐渐退化:没有反思能力的消融架构是第二好的(𝜇 = 26.88; 𝜎 = 0.69)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/556319.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

初始C++

1. C关键字(C98) C总计63个关键字, C语言32个关键字 ps:下面我们只是看一下C有多少关键字,不对关键字进行具体的讲解。后面我们学到以后再 细讲。 2. 命名空间 在C/C中,变量、函数和后面要学到的类都是大量存在的,…

llama-factory SFT系列教程 (三),chatglm3-6B 大模型命名实体识别实战

文章列表: llama-factory SFT系列教程 (一),大模型 API 部署与使用llama-factory SFT系列教程 (二),大模型在自定义数据集 lora 训练与部署 llama-factory SFT系列教程 (三),chatglm3-6B 命名实体识别实战 简介 利用 llama-fa…

opencv | 编译缺失ippicv相关文件解决方案

1.执行cmake后,查看控制台输出信息 ~/VM_data/opencv-4.9.0$ cd buile_temp ~/VM_data/opencv-4.9.0/buile_temp$ cmake ..2.去浏览器打开链接,下载对应的压缩包,解压到 路径:/3rdparty/ippicv/

Ubuntu 安装 wine

本文所使用的 Ubuntu 系统版本是 Ubuntu 22.04 ! 如果你使用 Ubuntu 系统,而有些软件只在 Windows 上运行,例如:PotPlayer,那么该如何在 Ubuntu 系统中使用到这些 Windows 的软件呢?答案是安装 wine。 简单的安装步骤如…

在Windows安装R语言

直接安装R语言软件 下载网址:R: The R Project for Statistical Computing 下载点击install R for the first time 通过Anaconda下载RStudio 提前下载好Anaconda 点击Anaconda Navigate 点击RStudio的Install下载就好了

Python:可迭代对象与迭代器

相关阅读 Pythonhttps://blog.csdn.net/weixin_45791458/category_12403403.html?spm1001.2014.3001.5482 根据Python官方文档,可迭代对象(iterable)是“一种能够逐个返回其成员项的对象”。具体来说,这种对象要么定义了一个返回迭代器(iterator)的魔术…

如何实现Windows RDP 远程桌面异地跨网连接

Windows RDP远程桌面的应用非常广泛。远程桌面协议(RDP)是一个多通道(multi-channel)的协议,让使用者(所在计算机称为用户端或本地计算机)连上提供微软终端机服务的计算机(称为服务端或远程计算机)。大部分的Windows版本都有用户端所需软件,有些其他操作…

太阳能路灯光伏板的朝向设计问题

题目:太阳能路灯光伏板的朝向设计问题 难度对标几乎每一年的国赛A题。 QQ群:592697532 公众号:川川菜鸟 文章目录 背景问题问题一问题二问题三 题目解读相关公式(必备)太阳辐射的计算光伏板接收的辐射光学效率大 气透…

数据结构(顺序栈

目录 1. 讲解:2. C代码实现:小结: 1. 讲解: 用顺序的物理结构(数组)存储栈这个数据结构,实现栈的创建、销毁、增删查、判空。 top指针的指向位置有两种实现方法:一个是指向栈顶元素…

云服务器部署Springboot项目

前端项目打包 修改ip地址 在控制台输入npm run build:prod 会产生dist文件 将dist文件中的内容移动至/usr/local/nginx/html目录下 后端项目打包 修改ip地址 执行clean操作 执行install操作 将生成的target文件中的jar包移动至/usr/local/src目录下 启动 注意⚠️&#xff…

前沿论文 | LLM推理性能优化最佳实践

原文:安全验证 - 知乎​ 来源 题目:LLM Inference Performance Engineering: Best Practices 地址:https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices 在这篇博文中,MosaicML工程团队分析了…

AI讲师人工智能讲师大模型培训讲师叶梓:突破大型语言模型推理效率的创新方法

大型语言模型(LLM)在自然语言处理(NLP)任务中展现出了前所未有的能力,但它们对计算资源的巨大需求限制了其在资源受限环境中的应用。SparQ Attention算法提出了一种创新的方法,通过减少注意力机制中的内存带…

HBuilder真机调试检测不到荣耀Magic UI系列(包括手机和电脑)解决办法

HBuilder真机调试检测不到荣耀Magic UI系列(包括手机和电脑)解决办法解决方法: 1.在开发人员选项中开启USB调试 如何进入开发者选项? 设置->关于->版本号,点击版本号直至出现您已处于开发者模式 2.选择USB配置…

Github 2024-04-19Java开源项目日报 Top9

根据Github Trendings的统计,今日(2024-04-19统计)共有9个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Java项目9HTML项目1Android开发者实用工具集 创建周期:2820 天开发语言:Java协议类型:Apache License 2.0Star数量:32909 个Fork数量:10631…

北大字节联合发布视觉自动回归建模(VAR):通过下一代预测生成可扩展的图像

北大和字节发布一个新的图像生成框架VAR。首次使GPT风格的AR模型在图像生成上超越了Diffusion transformer。 同时展现出了与大语言模型观察到的类似Scaling laws的规律。在ImageNet 256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。 相…

设计模式——策略模式20

策略模式是一种行为设计模式, 它能让你定义多种算法或行为方式, 并将具体实现放入独立的类中, 以使算法的对象能够相互替换。使用场景例如活动中多种打折策略。 策略抽象 /*** author ggbond* date 2024年04月18日 08:02*/ public interfa…

Linux 系统下的进程间通信 IPC 入门 「中」

以下内容为本人的学习笔记,如需要转载,请声明原文链接 微信公众号「ENG八戒」https://mp.weixin.qq.com/s/39XQUQtGC3Ow-0s0JKWnog 信号量 信号量一般用于配合共享内存的数据传输,共享内存被多个进程之间共享访问,各个进程对共享…

Arcade 用户界面textarea

# 导入所需库 import arcade import arcade.gui# 创建窗口类 class MyWindow(arcade.Window):# 初始化方法def __init__(self):super().__init__(800, 600, "GUI Widgets Example", resizableTrue)# 创建UI管理器,用于处理UI元素self.manager arcade.gui…

2024Mathorcup数学应用挑战赛C题|图神经网络的预测模型+ARIMA时间序列预测模型+人员排班混合整数规划模型|完整代码和论文全解全析

2024Mathorcup数学应用挑战赛C题|图神经网络的预测模型ARIMA时间序列预测模型人员排班混合整数规划模型|完整代码和论文全解全析 我们已经完成了2024Mathorcup数学建模挑战赛C题的40页完整论文和代码,相关内容可见文末,部分图片如下: 问题分…

N元语言模型

第1关:预测句子概率 任务描述 本关任务:利用二元语言模型计算句子的概率 相关知识 为了完成本关任务,你需要掌握:1.条件概率计算方式。 2.二元语言模型相关知识。 条件概率计算公式 条件概率是指事件A在事件B发生的条件下发…