大型语言模型自我进化综述

24年4月来自北大的论文“A Survey on Self-Evolution of Large Language Models”。

大语言模型(LLM)在各个领域和智体应用中取得了显着的进步。 然而,目前从人类或外部模型监督中学习的LLM成本高昂,并且随着任务复杂性和多样性的增加可能面临性能的天花板。 为了解决这个问题,使LLM能够自主获取、完善模型本身生成的经验并从中学习的自我进化方法,正在迅速发展。 这种受人类体验式学习过程启发的新训练范式提供了将LLM扩展到超级智能的潜力。 这项工作对LLM的自我进化方法进行了全面的调查。 首先提出了自我进化的概念框架,并将进化过程概述为由四个阶段组成的迭代循环:经验获取、经验细化、更新和评估。 其次,对 LLM 和基于 LLM 智体的演化目标进行了分类; 然后总结文献并为每个模块提供分类和见解。 最后,指出现有的挑战并提出了改进自我进化框架的未来方向。

人工智能的自我进化。 人工智能代表了智体的一种高级形式,具有与人类相似的认知能力和行为。 人工智能开发人员的愿望在于使人工智能能够利用自我进化能力,与人类发展的体验式学习过程平行进行。 人工智能中自我进化的概念源于更广泛的机器学习和进化算法领域(Bäck & Schwefel,1993)。 最初受到自然进化原理(例如选择、突变和繁殖)的影响,研究人员开发了模拟这些过程的算法,优化复杂问题的解决方案。 Holland(1992)引入了遗传算法,标志着人工智能自我进化能力历史上的一个基础性时刻。 神经网络和深度学习的后续发展进一步增强了这种能力,允许人工智能系统在无需人工干预的情况下修改自己的架构并提高性能(Liu et al., 2021)。

在自我进化的概念框架中,一个动态的、迭代的过程,反映了人类获取和完善技能和知识的能力。 该框架如图所示,强调学习和改进的循环性质。 该过程的每次迭代都专注于特定的演化目标,允许模型参与相关任务、优化其体验、更新其架构并在进入下一个周期之前评估其进度。
在这里插入图片描述
该概念框架概述了LLM的自我进化,类似于人类的获取、完善和自主学习过程,其类别如图所示:
请添加图片描述
如图是LLM训练范式的变化史:
请添加图片描述
自我进化LLM的进化目标是预定义的目标,可以自主指导其发展和完善。 就像人类根据需求和愿望设定个人目标一样,这些目标至关重要,因为它们决定了模型如何迭代地自我更新。 它们使LLM能够自主地从新数据中学习、优化算法并适应不断变化的环境,通过反馈或自我评估有效地“感受”其需求,并设定自己的目标来增强功能,而无需人工干预。

进化目标定义为进化能力和进化方向的结合。 不断发展的能力代表着与生俱来的、细致的技能。 进化方向是进化目标旨在改进的方面。
下表是自我进化方法概述,详细介绍了各个进化阶段的方法。 其中:Pos(积极)、Neg(消极)、R(基于基本原理)、I(互动)、S(自我搏击)、G(落地)、C(对比)、P(扰动)、Env(环境) 、In-W(权重内)、In-C(上下文中)、IF(指令跟随)。 对于进化目标,“反馈的适配”为绿色,“知识库扩展”为蓝色,“安全、道德和减少偏见”为棕色。 “提高性能”采用默认的黑色。
请添加图片描述
请添加图片描述
表中目标进化能力分为两类:LLM和LLM智体

LLM的基本能力包括:遵循指令(Xu 等人,2023a)、推理(Cui & Wang,2023)、数学(Ahn,2024)、编码(Singh ,2023;Zelikman,2023)、角色扮演(Lu et al., 2024a)和其他NLP 任务(Stammer et al., 2023; Koa et al., 2024; Gulcehre et al., 2023; Zhang et al. ., 2024b,c)。

基于LLM的智体能力是用于在数字或物理世界中解决任务或模拟的高级人类特征。 这些功能反映了人类的认知功能,使这些智体能够执行复杂的任务并在动态环境中有效地交互。 包括:规划(Qiao et al., 2024)、工具使用(Zhu et al., 2024)、具身控制(Bousmalis,2023)和沟通(Ulmer et al., 2024)。

探索和利用(Gupta et al., 2006)是人类和LLM学习的基本策略。 其中,探索涉及寻求新的经验以实现目标,类似于LLM自我进化的初始阶段,即经验获取。 这个过程对于自我进化至关重要,使模型能够自主应对核心挑战,例如适应新任务、克服知识限制和增强解决方案的有效性。 此外,经验是一个整体的建构,不仅包括所遇到的任务(Dewey,1938),还包括为解决这些任务而开发的解决方案(Schön,2017)以及作为任务执行的结果而收到的反馈(Boud et al.,2013)。

受此启发,经验获取分为三个部分:任务进化、解决方案进化和获取反馈。 在任务进化中,LLM根据进化目标策划和进化新的任务。 对于解决方案的进化,LLM制定并实施策略来完成这些任务。 最后,LLM可以选择收集与环境交互的反馈,以进一步改进。

如图所示任务进化示意图:基于知识、无知识和选择方法;前两种是生成方法,根据各自对知识的使用而有所不同;相比之下,第三种方法采用判别性方法来选择要学习的内容。
请添加图片描述
获得进化任务后,LLM解决任务以获得相应的解决方案。 最常见的策略是直接根据任务公式生成解决方案(Zelikman et al., 2022; Gulcehre et al., 2023; Singh et al., 2023; Cheng et al., 2024b; Yuan et al., 2024 )。 然而,这种简单的方法可能会得到与进化目标无关的解决方案,从而导致次优进化(Hare,2019)。 因此,解决方案的进化使用不同的策略来解决任务并通过确保解决方案不仅生成而且具有相关性和信息性来增强LLM能力。 如图所示:
请添加图片描述
根据解决方案的正确性将这些方法分为积极方法和消极方法。 积极方法引入了各种方法来获得正确且理想的解决方案。 相反,消极方法会引出并收集不需要的解决方案,包括不忠实或不一致的模型行为,然后将其用于偏好对齐。

当人类学习技能时,反馈在证明解决方案的正确性方面发挥着至关重要的作用。 这些关键信息使人类能够反思并更新他们的技能。 与此过程类似,LLM应该在自我进化周期中的任务解决期间或之后获得反馈。

存在两种类型的反馈:模型反馈是指收集LLM自己评价的批评或评分;此外,环境反馈表示直接从外部环境收到的反馈。 如图所示这些概念:
请添加图片描述
在获得经验之后和自我进化更新之前,LLM可以通过经验细化来提高其输出的质量和可靠性。 它帮助LLM适应新的信息和环境,而无需依赖外部资源,从而在动态环境中获得更可靠、更有效的帮助。这些方法分为两类:过滤和修正。如图所示:
请添加图片描述
自我进化的经验细化涉及两种主要的滤波策略:基于度量和无度量。 前者使用外部指标来评估和过滤输出,而后者不依赖这些指标。 这确保了只有最可靠和高质量的数据才能用于进一步更新。

自我进化的最新进展凸显了迭代自我修正的重要性,它使模型能够完善其经验。 把方法分为两类:基于批评的纠正和无批评的纠正。 批评通常作为强烈的暗示,包括感知错误或次优输出背后的基本原理,指导模型改进迭代。

经验细化后,进入关键的更新阶段,利用细化的经验来提高模型性能。这些方法分为权重学习(涉及模型权重的更新)和上下文学习(涉及外部或工作记忆的更新)。如图所示:
请添加图片描述
更新LLM权重的经典训练范式包括连续预训练(Brown et al., 2020; Roziere et al., 2023)、有监督微调(Longpre et al., 2023)和偏好对齐(Ouyang et al., 2022;Touvron,2023a)。 然而,在自我进化的迭代训练过程中,核心挑战在于实现整体改进并防止灾难性遗忘,这需要在保留原有技能的同时提炼或获取新的能力。 这一挑战的解决方案可以分为三种主要策略:**基于重放、基于正则化和基于合并(架构)**的方法。

除了直接更新模型参数之外,另一种方法是利用LLM的上下文能力从经验中学习,从而无需昂贵的培训成本即可实现快速自适应更新。 这些方法可分为更新外部记忆和更新工作记忆

就像人类的学习过程一样,必须通过评估来确定当前的能力水平是否足够,是否满足应用要求。此外,正是从这些评估中,人们可以确定未来学习的方向。然而,如何准确评估进化模型的性能并为未来的改进提供方向是一个至关重要但尚未充分探索的研究领域。其方法分成定量和定性两种。

自我进化方法存在的开放问题:

分级和多样。
自动化级别:低、中、高。
经验获取和细化:从经验到理论。
更新方法:稳定性-可塑性困境。
评估:系统和进化。
安全和超对齐。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/623870.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

嵌入式学习第三十三天!(二叉树)

1. 树的概念: 1. 树:由n个结点组成的有限集,有且只有一个根结点(由根结点可以访问后继结点),其他结点只有一个前驱结点,但可以有多个后继结点(一对多)。当n 0时&#xf…

unordered_map 和 unordered_set

unordered —— 无序的,从表面上来看,与 map 和 set 不同之处就在于,unordered_map 和 unordered_set 无法保证插入数据是有序的; 尽管如此,由于这两种容器内部封装了“哈希桶”,可以实现快速查找数据 ——…

EE trade:投资贵金属的技巧

投资贵金属,特别是流行的黄金和白银,需要一个明智的策略和一些重要的技巧。以下是一些有用的投资技巧: 进行市场研究:在投资前了解市场运行机制、价格波动因素以及可能影响市场的宏观经济指标。 理解供需关系:贵金属…

历史影像的下载办法总结

最近想要下黄河口的历史影像,试验了几个办法: 1)参考文献1中的办法,用Global Mapper下载World Imagery Wayback网站的历史数据,能下载从2014年至现在的; 2)参考文献1中的办法,用SA…

2024淘宝天猫618凑单跨店满300减多少及618红包领取口令是什么?

2024年天猫618购物狂欢节全攻略 随着夏日的脚步临近,一年一度的天猫618年中大促也即将拉开帷幕。作为年中最大的购物狂欢节,天猫618不仅汇聚了众多优质商品,还准备了丰富的优惠活动和红包福利,让消费者在享受购物乐趣的同时&…

LeetCode1657确定两个字符串是否接近

题目描述 如果可以使用以下操作从一个字符串得到另一个字符串,则认为两个字符串 接近 : 操作 1:交换任意两个 现有 字符。例如,abcde -> aecdb操作 2:将一个 现有 字符的每次出现转换为另一个 现有 字符&#xff0…

如何做好图纸加密

在工业设计领域,图纸无疑是企业最宝贵的资产之一,其中包含了大量的创新思想、独特设计和商业秘密。然而,随着信息技术的发展和应用的普及,图纸防泄密工作面临着前所未有的挑战。因此,如何有效地防止图纸泄密&#xff0…

QCC---Aptx Lossless验证

因为aptx Lossless属于高通骁龙声音的一部分,一般支持高通骁龙声音的设备会支持到,比如说手机,而且还要支持最新的aptx adaptive协议R2.2版本。但是如果手上没有这样的手机的话,有source芯片也可以去做测试验证。在最新的784.1版本…

【class2】人工智能初步(自然语言处理)

要实现从评价中提取高频关键词,并判别其正负面性,其实是通过人工智能领域中的一个分支:自然语言处理。 在了解自然语言处理之前,我们先来说说,什么是自然语言(Natural Language)?自…

品牌出海新趋势:掌握“微创新”策略,快速适应海外市场

在全球化的今天,品牌出海已成为众多企业拓展业务、实现国际化发展的重要途径。然而,海外市场与本土市场在文化、消费习惯、法律法规等方面均存在显著差异,这要求品牌在海外市场中必须灵活应变,通过微小的、有针对性的创新来快速适…

idea配置MySQL提示

点击sql语句,然后再选择show context actions 然后再选择Inject language or reference 然后再选择MySQL 然后我们会发现sql语句变颜色了 如果表是红色 那么需要我们连接mysql的对于的数据库

478.8-480W 宽电压输入 AC/DC 导轨式开关电源——TPR/SDR-480-XS 系列

TPR/SDR-480-XS 系列导轨式开关电源,额定输出功率为478.8-480W,产品输入范围:85-264VAC。提供24V、36V、48V输出,具有短路保护,过载保护等功能,并具备高效率,高可靠性、高寿命、更安全、更稳定等…

BGP—边界网关协议

BGP 动态路由协议可以按照工作范围分为IGP以及EGP。IGP工作在同一个AS内,主要用来发现和计算路由,为AS内提供路由信息的交换;而EGP工作在AS与AS之间,在AS间提供无环路的路由信息交换,BGP则是EGP的一种。 BGP是一…

前端铺子-NodeJS后端:基于Node.js构建高效后端服务的探索与实践

一、引言 随着前端技术的快速发展,越来越多的开发者开始关注前后端分离的开发模式。前端铺子作为一个旨在服务前端开发者的开源项目,近期推出了基于Node.js的后端系统。该系统通过整合Node.js、Nodemon和MySQL等技术,为前端开发者提供了一个…

Python-VBA函数之旅-tuple函数

目录 一、tuple函数的常见应用场景 二、tuple函数使用注意事项 三、如何用好tuple函数? 1、tuple函数: 1-1、Python: 1-2、VBA: 2、推荐阅读: 个人主页: https://myelsa1024.blog.csdn.net/ 一、tu…

钡铼技术BL205模块分布式IO集成应用风电场状态监测

在风力发电这一绿色能源领域,高效、精确的状态监测对于提升风电场运维效率、保障设备安全运行至关重要。随着工业4.0和数字化转型浪潮的推进,传统的监测方式已难以满足日益增长的数据处理与分析需求。钡铼技术BL205模块的出现,为风电场状态监…

[图解]实现领域驱动设计译文暴露的问题04

0 00:00:00,960 --> 00:00:03,020 今天我们继续说一下 1 00:00:03,460 --> 00:00:05,350 实现领域驱动设计 2 00:00:05,630 --> 00:00:08,120 译文里面暴露的问题 3 00:00:10,630 --> 00:00:14,740 前面三个视频,我们提到了第①句 4 00:00:15,550 -…

【算法提升之赛事推荐】蓝桥杯没拿奖?你还有这个比赛的羊毛可以薅

目录 蓝桥算法双周赛-赛事介绍([官方连接](https://www.lanqiao.cn/oj-contest/))赛事奖励赛事概览快速上手划重点!1. 赛题解析及答疑2. 排行榜3. 基础体验 注意事项 蓝桥算法双周赛-赛事介绍(官方连接) 为了激励同学们…

Django自定义封装Response

Django自定义封装Response 目录 Django自定义封装Response定义Response类视图层示例 定义Response类 # utils/common_response.py from rest_framework.response import Response# 继承DRF的Response并重写__init__ class APIResponse(Response):def __init__(self, code100, …

排序-计数排序(Counting Sort)

计数排序(Counting Sort)是一种非比较排序算法,特别适用于一定范围内的整数排序。它的核心思想是统计每个值的出现次数,然后根据这些计数将每个元素放到其正确的位置上。计数排序的时间复杂度为O(nk),其中n是数组长度&…