LLM Drift(漂移), Prompt Drift Cascading(级联)

原文地址:LLM Drift, Prompt Drift & Cascading

提示链接可以手动或自动执行;手动需要通过 GUI 链构建工具手工制作链。自治代理在执行时利用可用的工具动态创建链。这两种方法都容易受到级联、LLM 和即时漂移的影响。

2024 年 2 月 23 日

在讨论大型语言模型(LLM)时,术语“LLM漂移”、“提示漂移”和“级联漂移”通常指的是模型性能随时间或条件变化的情况。这些术语涉及不同的概念,但都与模型的稳定性和可靠性有关。
1. **LLM漂移**:
   这指的是大型语言模型的性能随着时间的推移而逐渐变化的现象。这种漂移可能是由于模型的训练数据随时间而变化、模型的权重调整、外部信息的影响或其他因素造成的。LLM漂移可能会导致模型的行为和输出发生变化,有时这些变化可能是不希望发生的。
2. **提示漂移**:
   提示漂移是指在给定相同提示的情况下,模型输出随时间变化的现象。这可能是由于模型的内部变化或提示本身的微小变化导致的。提示漂移可能会影响模型的可靠性和一致性。
3. **级联漂移**:
   级联漂移是指在多阶段或层次的任务中,一个阶段的输出影响下一个阶段的输入,从而导致整个任务链的性能下降。例如,在一个级联的问答系统中,如果第一个阶段(问题生成)的输出存在漂移,那么第二个阶段(答案生成)的性能可能会受到影响。
为了解决这些问题,研究人员和开发者可能会采取一系列措施,如定期评估模型的性能、使用更稳定的训练数据、改进模型架构或实施更严格的质量控制措施。通过这些方法,可以减少漂移现象,提高模型的稳定性和可靠性。

LLMs漂移

LLM 漂移是指 LLM 反应在相对较短的时间内发生的明确变化。这与LLMs本质上是不确定的或与轻微的即时工程措辞变化无关;而是对LLMs的根本性改变。

最近的一项研究发现,在四个月的时间里,GPT-4 和 GPT-3.5 的反应准确性在积极方面波动很大,但更令人担忧的是……消极方面

研究发现,GPT-3.5 和 GPT-4 差异显着,并且在某些任务上存在性能下降。

我们的研究结果强调了持续监控LLMs行为的必要性。-来源

下图显示了四个月内模型准确性的波动。在某些情况下,弃用是相当明显的,准确率损失超过 60%。

来源

迅速漂移

LLMs的输出是不确定的,这意味着同一LLMs在不同时间的精确输入很可能会随着时间的推移产生不同的响应。

从本质上讲,这不是问题,措辞可以不同,但​​基本事实保持不变。

然而,在某些情况下,LLMs的反应会出现偏差。例如,LLMs已被弃用,并且通常需要迁移,正如我们最近在 OpenAI 中看到的,弃用了许多模型。因此,提示保持不变,但底层模型引用发生了变化。

推理时注入提示的数据有时也可能不同。可以说,所有这些因素都会导致一种称为即时漂移的现象。

提示漂移是指由于模型更改、模型迁移或推理时提示注入数据的变化,提示随着时间的推移会产生不同响应的现象。

引起快速漂移的原因

  • 受模型启发的切线
  • 问题提取不正确
  • LLM 的随机性和创造性的惊喜

出现了提示管理和测试接口,例如ChainForge,最近 LangChain 推出了LangSmith ,以及Vellum等商业产品。

确保在大型语言模型迁移/弃用之前可以测试生成应用程序(Gen-Apps)有明确的市场需求。

如果一个模型在很大程度上与底层的LLMs无关,那就更好了。实现这一目标的一个途径是利用大型语言模型的上下文学习 (ICL) 功能。

级联

级联是指链中的一个节点引入异常或偏差,并且这种意外异常被转移到下一个节点,在下一个节点,异常很可能会加剧。

每个节点的输出都越来越偏离预期结果。

这种现象通常称为级联。

考虑下图:

  1. 在链式应用程序中,用户输入可能是意外的或未计划的,因此从节点产生不可预见的输出。
  2. 前一个节点的输出可能不准确或产生一定程度的偏差,这种偏差在当前节点中会加剧。
  3. 由于 LLM 具有不确定性,因此 LLM 响应也可能是意外的。第三点是可以引入即时漂移或 LLM 漂移的地方。
  4. 然后节点2的输出被结转并导致偏差的级联。

结束语

不应孤立地看待即时链接,而应将即时工程视为由多个分支组成的学科。

提示 LLM 时遵循的措辞或技术也很重要,并且对输出的质量有明显的影响。

即时工程是链接的基础,即时工程的学科非常简单且易于理解。

然而,随着 LLM 领域的发展,提示正在变得可编程(通过 RAG 进行模板和上下文注入),并纳入日益复杂的结构中。

因此,链接受到代理、管道、思想链推理等元素的支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/444518.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32_3-1点亮LED灯与蜂鸣器发声

STM32之GPIO GPIO在输出模式时可以控制端口输出高低电平,用以驱动Led蜂鸣器等外设,以及模拟通信协议输出时序等。 输入模式时可以读取端口的高低电平或电压,用于读取按键输入,外接模块电平信号输入,ADC电压采集灯 GP…

记一次项目所学(中间件等)-动态提醒功能(RocketMQ)

记一次项目所学(中间件等)–动态提醒功能(RocketMQ) 订阅发布模式与观察者模式 RocketMQ:纯java编写的开源消息中间件 高性能低延迟分布式事务 Redis : 高性能缓存工具,数据存储在内存中,读写速度非常快 …

读算法的陷阱:超级平台、算法垄断与场景欺骗笔记05_共谋(中)

1. 默许共谋 1.1. 又称寡头价格协调(Oligopolistic Price Coordination)或有意识的平行行为(Conscious Parallelism) 1.1.1. 在条件允许的情况下,它会发生在市场集中度较高的行业当中 1.1.…

AI智能应用百科立即落地实操课

该课程旨在教授学员如何将AI智能应用于实际场景。通过深入的案例研究和实操练习,学员将学会应用机器学习、自然语言处理等技术,快速解决现实问题。课程强调实际操作,帮助学员快速运用AI技术解决工作中的挑战。 课程大小:3.3G 课…

(关键点检测)YOLOv8实现多类人体姿态估计的输出格式分析

(关键点检测)YOLOv8实现多类人体姿态估计的输出格式分析 任务分析 所使用的数据配置文件 网络结构 导出模型 用 netron 可视化 输出格式分析 参考链接 1. 任务分析 判断人体关键点时一并给出关键点所属的类别,比如男人,女…

Vue3 状态管理 - Pinia

Vue3 状态管理 - Pinia 1. 什么是Pinia Pinia 是 Vue 的专属的最新状态管理库 ,是 Vuex 状态管理工具的替代品 2. 手动添加Pinia到Vue项目 后面在实际开发项目的时候,Pinia可以在项目创建时自动添加,现在我们初次学习,从零开…

EasyPoi 教程

文章目录 EasyPoi教程文档1. 前传1.1 前言 这个服务即将关闭,文档迁移到 http://www.wupaas.com/ 请大家访问最新网站1.2 Easypoi介绍1.3 使用1.4 测试项目1.5 可能存在的小坑 2. Excel 注解版2.1 Excel导入导出2.2 注解注解介绍ExcelTargetExcelEntityExcelCollectionExcelIgn…

[LeetCode][LCR151]彩灯装饰记录 III——队列

题目 LCR 151. 彩灯装饰记录 III 一棵圣诞树记作根节点为 root 的二叉树,节点值为该位置装饰彩灯的颜色编号。请按照如下规则记录彩灯装饰结果: 第一层按照从左到右的顺序记录除第一层外每一层的记录顺序均与上一层相反。即第一层为从左到右&#xff0c…

transformer--使用transformer构建语言模型

什么是语言模型? 以一个符合语言规律的序列为输入,模型将利用序列间关系等特征,输出一个在所有词汇上的概率分布.这样的模型称为语言模型. # 语言模型的训练语料一般来自于文章,对应的源文本和目标文本形如: src1"Ican do",tgt1…

KEIL 5.38的ARM-CM3/4 ARM汇编设计学习笔记10 - STM32的SDIO学习2

KEIL 5.38的ARM-CM3/4 ARM汇编设计学习笔记10 - STM32的SDIO学习2 一、问题回顾二、本次的任务三、 需要注意的问题3.1 Card Identification Mode时的时钟频率3.2 CMD0指令的疑似问题3.3 发送带参数的ACMD41时要注意时间时序和时效3.4 CPSM的指令发送问题3.5 调试过程中的SD卡的…

分布式解决方案

目录 1. 分布式ID1-1. 传统方案1-2. 分布式ID特点1-3. 实现方案1-4. 开源组件 1. 分布式ID 1-1. 传统方案 时间戳UUID 1-2. 分布式ID特点 全局唯一高并发高可用 1-3. 实现方案 方案总结: 号段模式 有两台服务器,给第一台服务器分配0-100&#xff0…

嵌入式Linux串口和 poll() 函数的使用

一、poll() 函数的介绍 poll() 函数用于监控多个文件描述符的变化的函数。它可以用来检查一个或多个文件描述符的状态是否改变,比如是否可读、可写或有错误发生。它常用于处理 I/O 多路复用,这在需要同时处理多个网络连接或文件操作时非常有用。 头文件…

Linux高级IO之select

(。・∀・)ノ゙嗨!你好这里是ky233的主页:这里是ky233的主页,欢迎光临~https://blog.csdn.net/ky233?typeblog 点个关注不迷路⌯▾⌯ 目录 一、五种IO模型 1.IO效率的问题 2.阻塞IO是…

蓝桥杯C/C++实用知识总结

蓝桥杯C/C 文章目录 蓝桥杯C/C头文件实用函数及运算符求幂次移位运算符STL排序sort()函数依次读取数据STL全排列函数next_permutation()求数组最大/最小值初始化函数memset()GCD(最大公约数)和LCM(最小公倍数)C字符串函数 实用数据结构模板vector链表lis…

未来城市:探索数字孪生在智慧城市中的实际应用与价值

目录 一、引言 二、数字孪生与智慧城市的融合 三、数字孪生在智慧城市中的实际应用 1、智慧交通管理 2、智慧能源管理 3、智慧建筑管理 4、智慧城市管理 四、数字孪生在智慧城市中的价值 五、挑战与展望 六、结论 一、引言 随着科技的飞速发展,智慧城市已…

鸿蒙OpenHarmony HDF 驱动开发

目录 序一、概述二、HDF驱动框架三、驱动程序四、驱动配置坚持就有收获 序 最近忙于适配OpenHarmonyOS LiteOS-M 平台,已经成功实践适配平台GD32F407、STM32F407、STM32G474板卡,LiteOS适配已经算是有实际经验了。 但是,鸿蒙代码学习进度慢下…

超网、IP 聚合、IP 汇总分别是什么?三者有啥区别和联系?

一、超网 超网(Supernet)是一种网络地址聚合技术,它可以将多个连续的网络地址合并成一个更大的网络地址,从而减少路由表的数量和大小。超网技术可以将多个相邻的网络地址归并成一个更大的网络地址,这个更大的网络地址…

Lesson 6 Convolutional Neural Network(CNN)

听课(李宏毅老师的)笔记,方便梳理框架,以作复习之用。本节课主要讲了CNN的适用范围,整体架构与工作流程,CNN的应用,CNN的缺点以及解决方法。 1. CNN的输入与输出 CNN是专门为了图像而设计的一…

2.4_3 死锁的处理策略——避免死锁

文章目录 2.4_3 死锁的处理策略——避免死锁(一)什么是安全序列(二)安全序列、不安全状态、死锁的联系(三)银行家算法 总结 2.4_3 死锁的处理策略——避免死锁 银行家算法是“避免死锁”策略的最著名的一个…

【sgExcelGrid】自定义组件:简单模拟Excel表格拖拽、选中单元格、横行、纵列、拖拽圈选等操作

特性&#xff1a; 可以自定义拖拽过表格可以点击某个表格&#xff0c;拖拽右下角小正方形进行任意方向选取单元格支持选中某一行、列支持监听selectedGrids、selectedDatas事件获取选中项的DOM对象和数据数组支持props自定义显示label字段别名 sgExcelGrid源码 <template&g…