计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13


目录

文章目录

  • 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13
    • 目录
    • 1. The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks
    • 2. WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents
    • 3. Agent S: An Open Agentic Framework that Uses Computers Like a Human
    • 4. Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines
    • 5. Towards Assurance of LLM Adversarial Robustness using Ontology-Driven Argumentation
    • 后记


1. The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks

Authors: Isaac R. Galatzer-Levy, David Munday, Jed McGiffin, Xin Liu, Danny
Karmon, Ilia Labzovsky, Rivka Moroshko, Amir Zait, Daniel McDuff
https://arxiv.org/abs/2410.07391
生成式人工智能的认知能力:与人类基准的比较分析

摘要
本研究对领先的大型语言模型和视觉语言模型在韦氏成人智力量表(WAIS-IV)上的表现进行了基准测试,该量表是评估人类认知和智力能力的全面、基于人群标准化的评估工具。研究重点关注了言语理解(VCI)、工作记忆(WMI)和知觉推理(PRI)三个领域。大多数模型在存储、检索和操纵符号(如任意字母和数字序列)方面表现出色,工作记忆指数(WMI)的表现达到或超过人类99.5百分位。然而,多模态模型在知觉推理指数(PRI)上的表现普遍较差,显示出对视觉信息的解释和推理能力存在显著缺陷。

研究背景
随着生成式人工智能(GenAI)的发展,人们越来越关注其在模仿人类认知功能方面的潜力。GenAI模型通过学习大量数据集中的潜在模式和结构,生成新颖的输出,这些输出常常模仿人类的创造力。然而,人类认知包括一系列专门能力,涉及信息的处理、存储、解释和生成,这些能力在听觉和视觉通道上都有所体现。
在这里插入图片描述

算法模型
研究中使用了多种大型语言模型(LLMs)和视觉语言模型(VLMs),包括OpenAI的GPT-3.5 Turbo、Google的Gemini系列等。这些模型通过转换传统的语言和视觉刺激为基于文本的提示,并解释模型生成的文本输出作为测试项的响应。

核心创新点

  • 提出了一种新的方法,通过WAIS-IV对GenAI模型进行评估,以直接与人类能力进行比较。
  • 实现了一系列方法论适应,以适应这些模型独特的输入和输出方式。
  • 通过比较GenAI模型在不同认知领域的性能,揭示了它们在工作记忆和言语理解方面的相对优势,以及在知觉推理方面的显著弱点。

实验效果

  • 在言语理解指数(VCI)上,大多数模型表现在99.5百分位以上。
  • 在工作记忆指数(WMI)上,除了Gemini Nano外,大多数模型表现在99.5百分位以上。
  • 在知觉推理指数(PRI)上,所有多模态模型的表现都在极低水平,表明在视觉信息处理方面存在显著缺陷。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

后续潜在研究方向

  • 探索如何通过架构改进或训练方法提升GenAI模型在知觉推理方面的能力。
  • 研究如何更好地模拟人类的多模态认知能力,包括视觉和听觉信息的处理。
  • 进一步研究GenAI模型在特定领域的应用,如艺术、设计、研究和通信等。

推荐阅读指数:4.5

2. WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

Authors: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing
Jiang, Chengqi Zhang
https://arxiv.org/abs/2410.07484
WALL-E:通过规则学习实现世界对齐,提升基于世界模型的LLM代理

摘要
本研究提出了一种新的方法,通过规则学习来对齐大型语言模型(LLMs)与特定环境的动态,从而提高LLM代理在开放世界任务中的成功率和效率。研究者们开发了一个神经符号方法,通过LLMs的归纳推理和代码生成能力来学习规则,而无需梯度更新。这种方法通过比较代理探索的轨迹和世界模型预测来学习新规则或更新现有规则,从而提高预测和实际轨迹之间的一致性。

研究背景
LLMs在复杂推理、生成和规划任务中表现出色,但在特定开放世界环境中作为代理部署时,其可靠性不足。主要原因是LLMs的常识推理与预训练知识与特定环境的动态之间存在差距,导致对未来状态的预测错误或违反基本规则。
在这里插入图片描述

算法模型
研究者们提出了一个名为WALL-E的神经符号世界模型,该模型结合了预训练的LLM和从与环境的交互轨迹中学习到的一组新规则。这种方法结合了LLMs的丰富先验知识和规则的硬约束和严格保证。
在这里插入图片描述
在这里插入图片描述

核心创新点

  • 提出了一种无需梯度更新的神经符号方法,通过LLMs的归纳推理和代码生成能力来学习规则。
  • 通过比较代理探索的轨迹和世界模型预测来学习新规则或更新现有规则,从而提高预测和实际轨迹之间的一致性。
  • 通过模型预测控制(MPC)框架,优化了基于精确世界模型的LLM代理的探索和学习效率。

实验效果

  • 在Minecraft和ALFWorld环境中,WALL-E在成功率、重规划时间和推理所用的令牌数量上均优于现有方法。
  • 在Minecraft中,WALL-E的成功率比基线高出15-30%,同时重规划轮数减少8-20轮,令牌使用量为60-80%。
  • 在ALFWorld中,WALL-E在6次迭代后成功率达到95%,创下新高。
    在这里插入图片描述

后续潜在研究方向

  • 探索如何将WALL-E方法应用于更广泛的环境和任务,以及如何进一步提高规则学习的效果和效率。
  • 研究如何结合更多的环境反馈和动态调整规则,以适应环境的快速变化。
  • 进一步研究如何减少规则学习过程中的人工干预,提高自动化程度。

推荐阅读指数:4

3. Agent S: An Open Agentic Framework that Uses Computers Like a Human

Authors: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric
Wang
https://arxiv.org/abs/2410.08164
代码: https://github.com/simular-ai/Agent-S.

Agent S:一个像人类一样使用计算机的开放智能框架

摘要
本文介绍了Agent S,这是一个能够通过图形用户界面(GUI)与计算机进行自主交互的开放智能框架,旨在通过自动化复杂、多步骤的任务来改变人机交互。Agent S 旨在解决在自动化计算机任务中面临的三个关键挑战:获取特定领域的知识、在长期任务规划中进行规划以及处理动态、不统一的界面。为此,Agent S 引入了经验增强的分层规划,通过外部知识搜索和内部经验检索在多个层面上进行学习,从而促进高效的任务规划和子任务执行。此外,它采用了一种特定的Agent-Computer Interface(ACI),以更好地激发基于多模态大型语言模型(MLLMs)的GUI代理的推理和控制能力。在OSWorld基准测试中的评估显示,Agent S 的成功率比基线高出9.37%(相对提高了83.6%),达到了新的最高水平。全面的分析突出了各个组成部分的有效性,并为未来的改进提供了见解。此外,Agent S 在新发布的WindowsAgentArena基准测试中展示了广泛的通用性,适用于不同的操作系统。代码可在GitHub上获得。
在这里插入图片描述

研究背景
自从鼠标被发明以来,它一直由人类控制以与计算机进行交互。但是,这种交互是否必须如此?自主图形用户界面(GUI)代理提供了解决非常具体和高度多样化的用户查询的希望——例如,为个人用户进行数据输入、调度和文档创建,以及在商业环境中简化操作——以最通用的方式:通过直接UI交互使用鼠标和键盘。此外,通过消除对持续手动交互的需求,这些代理不仅提高了效率,还提高了可访问性,使残疾人能够以新的、变革性的方式与技术进行交互。最近在多模态大型语言模型(MLLMs)方面的进展,例如GPT-4o和Claude,为开发以人为中心的交互系统(如桌面操作系统)的GUI代理奠定了基础。

算法模型
Agent S框架通过经验增强的分层规划、自我监督的持续记忆更新和精确的GUI感知和行动的Agent-Computer Interface(ACI),整合了三个主要策略来解决复杂的基于GUI的操作系统控制任务。这种分层规划方法利用在线Web知识和存储在叙事记忆中的过去经验,将复杂和长期的桌面任务分解成可管理的子任务。叙事记忆包含来自过去交互的高级、抽象的任务经验,为有效的任务规划提供了上下文理解。代理在每个子任务执行过程中监控任务完成进度,并检索详细的、逐步的子任务经验,以动态完善其行动并不断提高其规划能力。
在这里插入图片描述

核心创新点

  1. 经验增强的分层规划:Agent S利用在线Web知识和存储在叙事记忆中的过去经验,将复杂和长期的桌面任务分解成可管理的子任务。
  2. 叙事记忆和情景记忆:叙事记忆包含成功和失败轨迹的摘要,而情景记忆包含完整的计划,具有特定的基础行动。
  3. Agent-Computer Interface(ACI):ACI定义了一种交互范式,使用视觉输入和图像增强的可访问性树进行精确的元素定位,并使用语言基础的原语来生成环境转换。

实验效果
在OSWorld基准测试中,Agent S在成功率上比基线模型高出9.37%,相对提高了83.6%,达到了新的最高水平。在WindowsAgentArena基准测试中,Agent S在没有任何明确适应的情况下,性能从13.3%提高到18.2%,展示了对不同操作系统的广泛通用性。
在这里插入图片描述

后续潜在研究方向

  1. 考虑任务完成所需的代理步骤和墙钟时间,未来的工作可以考虑GUI控制的最短路径导航公式,并在时间和准确性的维度上评估各种代理的帕累托最优性。
  2. 将经验增强和Agent Computer Interface的思想扩展到更小的、开源的MLLMs,这些MLLMs可以被微调以弥补差距。

推荐阅读指数:4

4. Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines

Authors: Junyu Lai, Jiahe Xu, Yao Yang, Yunpeng Huang, Chun Cao, Jingwei Xu
https://arxiv.org/abs/2410.07896
执行算术:将大型语言模型微调为图灵机

摘要
本文提出了一个可组合的算术执行框架(CAEF),使大型语言模型(LLMs)能够通过模拟图灵机来学习逐步执行计算,从而真正理解计算逻辑。此外,该框架具有高度的可扩展性,允许通过组合学习到的运算符来显著降低学习复杂运算符的难度。在评估中,CAEF在七个常见的数学运算上实现了近100%的准确率,有效地支持了涉及多达100位操作数的计算,这是GPT-4o在某些设置中明显不足的。

研究背景
尽管LLMs在自然语言处理和推理任务中表现出色,但在算术领域的性能仍然不尽人意。LLMs在处理算术任务时,往往通过记忆特定的例子而不是学习底层的计算逻辑,限制了它们对新问题的泛化能力。
在这里插入图片描述

算法模型
CAEF框架包括执行器(executor)和对齐器(aligner)两个独立组件。执行器负责执行实际的计算,通过模拟相应算术图灵机的转移函数来学习底层的计算逻辑。对齐器作为接口,将原始算术表达式(例如89×2=)转换为执行器可以直接处理的格式。执行器完成后,对齐器将执行器的输出转换回最终结果。
在这里插入图片描述
在这里插入图片描述

核心创新点

  • 提出了一个三步流程,每个算术运算符都由执行器和对齐器支持。
  • 设计了一个执行器作曲器,负责复杂运算符的高级执行程序,并允许函数调用来调用其他预学习的算术运算符。
  • 实现了七个运算符:+、−、×、÷、>、<和==,以及两个辅助运算符。

实验效果

  • CAEF在所有七个运算符上都实现了高准确率,即使在操作数长达100位的情况下。
  • 与GPT-4o相比,配备CAEF的LLM在操作数长度变化时的影响最小,有效支持了长达100位的操作数计算。

后续潜在研究方向

  • 探索如何将CAEF框架应用于更复杂的数学问题和计算任务。
  • 研究如何进一步优化执行器和对齐器的性能,以提高计算效率。
  • 考虑如何将CAEF框架与其他类型的计算模型和算法相结合,以扩展其应用范围。

推荐阅读指数:4.5

5. Towards Assurance of LLM Adversarial Robustness using Ontology-Driven Argumentation

Authors: Tomas Bueno Momcilovic, Beat Buesser, Giulio Zizzo, Mark Purcell,
Tomas Bueno Momcilovic
https://arxiv.org/abs/2410.07962
使用本体驱动论证确保LLM对抗性鲁棒性

摘要
尽管大型语言模型(LLMs)在各种自然和领域特定语言任务中显示出了适应性,但在确保它们的安全性、透明度和可解释性方面仍存在挑战。鉴于LLMs对对抗性攻击的敏感性,需要通过不断演变的对抗性训练和防护措施来防御LLMs。然而,管理

隐含和异构知识以持续确保鲁棒性是困难的。我们引入了一种新的方法,基于形式化论证来确保LLMs的对抗性鲁棒性。使用本体论进行形式化,我们结构化了最先进的攻击和防御,促进了人类可读的保证案例的创建,以及机器可读的表示。我们通过英语语言和代码翻译任务中的示例展示了其应用,并针对工程师、数据科学家、用户和审计员提供了理论和实践上的影响。

研究背景
LLMs在自然和编程语言任务中展现出了预测、翻译和生成文本的能力。然而,它们对对抗性攻击的脆弱性,如通过恶意提示绕过防护措施或模型对齐以获得有害输出,使得它们的安全性和鲁棒性成为研究的重点。
在这里插入图片描述在这里插入图片描述

算法模型
文章提出了一种基于本体论驱动论证的方法,通过形式化攻击和防御的关系,以及变量(如攻击成功率、字符类型)的值,来构建人类可读的保证案例和机器可读的语义网络。

核心创新点

  • 提出了一种新的方法,使用本体论来形式化LLMs的攻击和防御知识,并构建保证案例。
  • 通过本体论模型,允许基于人类可读的保证案例进行形式化论证,从而创建共享的关于训练、防护措施和实施的理解。
  • 展示了如何在自然语言任务和代码翻译任务中应用这种方法,以及如何通过查询中心仓库中的参数值来进行持续推理。
    在这里插入图片描述
    在这里插入图片描述

实验效果
文章没有提供具体的实验数据,但通过示例展示了该方法在不同任务中的应用潜力。

后续潜在研究方向

  • 探索如何将这种方法应用于更广泛的LLM应用领域和任务。
  • 研究如何进一步优化本体论模型和保证案例的结构,以提高其可扩展性和自动化程度。
  • 考虑如何将这种方法与其他类型的AI技术和方法相结合,以提高整体系统的安全性和鲁棒性。

推荐阅读指数:3.5


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/890507.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

动态规划的优化与高级应用

姊妹篇&#xff1a; 动态规划基础与经典问题-CSDN博客 贪心算法&#xff1a;原理、应用与优化_最优解-CSDN博客​​​​​​贪心算法&#xff1a;原理、应用与优化_最优解-CSDN博客 一、动态规划的优化策 动态规划在提高时间效率的同时&#xff0c;往往会占用较多的空间。因…

Unity3d折叠Inspector中的变量

InspectorFoldoutGroup插件 [Pixeye.Unity.Foldout("【曲线图】")] public BrokenLineUpDownGraph aimStabilityGraph;[Pixeye.Unity.Foldout("【曲线图】")] public BrokenLineUpGraph aimDensityGraph;[Pixeye.Unity.Foldout("【曲线图】")] p…

Xilinx远程固件升级(二)——STARTUPE2原语的使用

通过&#xff08;一&#xff09;可以看出&#xff0c;对于远程固件升级实际上是通过调用flash不同区域的bit实现&#xff0c;通过golden image和update image共同保障了系统的稳定性。在项目中如果将flash的时钟直接绑定FPGA后进行约束&#xff0c;在综合编译时是无法通过的。这…

优先算法1--双指针

“一念既出&#xff0c;万山无阻。”加油陌生人&#xff01; 目录 1.双指针--移动零 2.双指针-复写零 ok&#xff0c;首先在学习之前&#xff0c;为了方便大家后面的学习&#xff0c;我们这里需要补充一个知识点&#xff0c;我这里所谓的指针&#xff0c;不是之前学习的带有…

【原创】Android Studio 中安装大模型辅助编码插件:通义灵码

在 Android Studio 中内置了 Ginimi 预览版&#xff0c;但需要“加速器”才可使用。 在国内有平替的软件同样可以使用&#xff0c;比如 阿里的通义灵码&#xff0c;智谱的CodeGeeX等&#xff0c;从功能和使用上来说都是大同小异。 这里我们以通义灵码为例来讲解其安装和使用 通…

《机器学习与数据挖掘综合实践》实训课程教学解决方案

一、引言 随着信息技术的飞速发展&#xff0c;人工智能已成为推动社会进步的重要力量。作为人工智能的核心技术之一&#xff0c;机器学习与数据挖掘在各行各业的应用日益广泛。本方案旨在通过系统的理论教学、丰富的实践案例和先进的实训平台&#xff0c;帮助学生掌握机器学习…

selenium-Alert类用于操作提示框/确认弹框(4)

之前文章我们提到&#xff0c;在webdriver.WebDriver类有一个switch_to方法&#xff0c;通过switch_to.alert()可以返回Alert对象&#xff0c;而Alert对象主要用于网页中弹出的提示框/确认框/文本输入框的确认或者取消等动作。 Alert介绍 当在页面定位到提示框/确认框/文本录入…

Vulnhub靶场案例渗透[7]- DC7

文章目录 1. 靶场搭建2. 信息收集2.1 确定靶机ip2.2 服务信息收集2.3 社工信息收集 3. 提权 1. 靶场搭建 靶场源地址 检验下载文件的检验码&#xff0c;对比没问题使用vmware打开 # windwos 命令 Get-FileHash <filePath> -Algorithm MD5 # linux md5sum filepath2. 信…

计算机网络(以Linux讲解)

计算机网络 网络协议初识协议分层OSI七层模型TCP/IP五层模型--初识 网络中的地址管理IP地址MAC地址 网络传输基本流程网络编程套接字预备知识网络字节序socket编程UDP socketTCP socket地址转换函数Jsoncpp 进程间关系与守护进程进程组会话控制终端作业控制守护进程 网络命令TC…

线性代数 行列式

一、行列式 1、定义 一个数学概念&#xff0c;主要用于 线性代数中&#xff0c;它是一个可以从方阵&#xff08;即行数和列数相等的矩阵&#xff09;形成的一个标量&#xff08;即一个单一的数值&#xff09; 2、二阶行列式 &#xff0c;像这样将一个式子收缩称为一个 2*2 的…

Node.js入门——fs、path模块、URL端口号、模块化导入导出、包、npm软件包管理器

Node.js入门 1.介绍 定义&#xff1a;跨平台的JS运行环境&#xff0c;使开发者可以搭建服务器端的JS应用程序作用&#xff1a;使用Node.Js编写服务器端代码Node.js是基于Chrome V8引擎进行封装&#xff0c;Node中没有BOM和DOM 2.fs模块-读写文件 定义&#xff1a;封装了与…

Python异常处理详解:try, except, else, finally的使用方法与示例

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐&#xff1a;「storm…

【Iceberg分析】Spark集成Iceberg采集输出

Spark集成Iceberg采集输出 文章目录 Spark集成Iceberg采集输出Iceberg提供了两类指标和提供了两类指标输出器ScanReportCommitReport LoggingMetricsReporterRESTMetricsReporter验证示例相关环境配置结果说明 Iceberg提供了两类指标和提供了两类指标输出器 ScanReport 包含在…

论文笔记:Prompt-Based Meta-Learning For Few-shot Text Classification

论文来源&#xff1a;EMNLP 2022 论文地址&#xff1a;2022.emnlp-main.87.pdf (aclanthology.org) 代码地址&#xff1a;GitHub - MGHZHANG/PBML GB/T 7714 Zhang H, Zhang X, Huang H, et al. Prompt-Based Meta-Learning For Few-shot Text Classification[C]//Proceedi…

一维数组的引用

#define SIZE 5 int main(void) { int i 0; int arr[SIZE] { 86,85,85,896,45 };//同理五个数据只是偶然&#xff0c;可能会更多 //输入 for (i 0;i < SIZE;i) { printf("请输入你的第%d个值&#xff1a;",i1); scanf_s(&…

设计模式之适配器模式(通俗易懂--代码辅助理解【Java版】)

文章目录 设计模式概述1、适配器模式2、适配器模式的使用场景3、优点4、缺点5、主要角色6、代码示例1&#xff09;UML图2&#xff09;源代码&#xff08;1&#xff09;定义一部手机&#xff0c;它有个typec口。&#xff08;2&#xff09;定义一个vga接口。&#xff08;3&#x…

拆解学习【无线充,EMMC,锂电池电量计,OTA】(二)

主要学习到了&#xff1a;无线充&#xff0c;EMMC&#xff0c;手表CPU方案&#xff0c;锂电池电量计&#xff0c;OTA。 无线充电功能是产品的核心卖点之一&#xff0c;充电头网通过拆解发现&#xff0c;手表内部使用恒玄BES2500BP智能手表单芯片解决方案&#xff0c;内置四核C…

图书馆自习室座位预约管理微信小程序+ssm(lw+演示+源码+运行)

摘 要 随着电子商务快速发展世界各地区,各个高校对图书馆也起来越重视.图书馆代表着一间学校或者地区的文化标志&#xff0c;因为图书馆丰富的图书资源能够带给我们重要的信息资源&#xff0c;图书馆管理系统是学校管理机制重要的一环&#xff0c;,面对这一世界性的新动向和新…

linux线程 | 线程的控制(二)

前言&#xff1a; 本节内容是线程的控制部分的第二个小节。 主要是列出我们的线程控制部分的几个细节性问题以及我们的线程分离。这些都是需要大量的代码去进行实验的。所以&#xff0c; 准备好接受新知识的友友们请耐心观看。 现在开始我们的学习吧。 ps:本节内容适合了解线程…

如何用AI两小时上线自己的小程序

ChatGPT这个轰动全球的产品自问世以来&#xff0c;已经过了将近2年的时间&#xff0c;各行各业的精英们如火如荼的将AI能力应用到自己生产的产品中来。 为分担人类的部分工作&#xff0c;AI还具有非常大的想象空间&#xff0c;例如对于一个程序员来说&#xff0c;使用AI生成快…