私有开源LLM实例的三个考虑因素

原文地址:three-considerations-for-private-open-source-llm-instances

2024 年 4 月 29 日

在生产应用中使用商业 LLM APIs 会带来明确且经过充分研究的风险。因此,企业越来越多地转向利用开源的私有托管LLM实例,并通过RAG技术进行增强。

介绍

最近发表了三篇论文,所有论文都讨论了有关大型语言模型(LLM)的非常相似的观察结果。

这一观察围绕着模型不仅经历模型漂移而且随着时间的推移性能下降的问题。

因此,依赖于商业 LLM APIs 的生成式应用程序 (Gen-Apps) 和基于 LLM 的会话式 UI 发现自己很容易受到模型行为波动的影响。

虽然人们很容易将这些变化归因于LLMs的不确定性,但最近的研究提供了相反的证据。

这些研究表明,模型确实会随着时间的推移而发生变化,并且这些变化并不表示改进;相反,它们会导致性能下降。

LLMs的背景下,非确定性是指模型针对相同输入生成不同输出的现象。

灾难性遗忘

最近的一项研究中引入了“灾难性遗忘”一词,描述了LLMs在接受新数据训练或针对特定任务进行微调时丢失或忽略先前获得的信息的倾向。

这种现象源于训练过程的固有局限性,训练过程通常会优先考虑最近的数据或任务而不是早期的数据或任务。

因此,模型对某些概念或知识的表示可能会恶化或被新信息覆盖,从而导致整体性能或准确性下降,特别是在需要广泛理解不同主题的任务中。

在需要持续学习或适应的场景中,此类挑战会被放大,因为随着时间的推移,模​​型可能很难维持平衡和全面的理解。

对LLM在持续微调过程中的灾难性遗忘(CF)的研究发现,CF普遍存在于不同LLM的持续微调中。

并且随着尺度的增加,模型在领域知识推理阅读理解方面的遗忘程度会更强。

该研究还指出,指令调整可能有助于缓解CF问题。

LLM 漂移

GPT-3.5 和 GPT-4 是两种广泛使用的大型语言模型 (LLM) 服务,随着时间的推移,这些模型的更新并不透明。

这项评估于2023 年 3 月2023 年 6 月进行,涵盖了两种模型在不同任务中的版本。

GPT-3.5 和 GPT-4 的性能和行为随时间变化显着。

  • GPT-4(2023 年 3 月)在识别质数与合数方面表现良好(准确率 84%),但 GPT-4(2023 年 6 月)表现不佳(准确率 51%),部分原因是跟随思路下降提示。
  • 与 3 月份相比,GPT-3.5 6 月份在某些任务上有所改进。
  • 与 3 月份相比,GPT-4 6 月份不太愿意回答敏感问题和民意调查问题。
  • 6 月份,GPT-4 在多跳问题上表现更好,而 GPT-3.5 的表现有所下降。
  • 与 3 月份相比,这两种模型在 6 月份的代码生成中都出现了更多的格式错误。
  • 该研究强调了对法学硕士进行持续监控的必要性,因为他们的行为随着时间的推移而变化。

有证据表明,GPT-4 遵循用户指令的能力随着时间的推移而下降,从而导致行为漂移。

下表显示了主要测试的思想链 (CoT) 有效性随时间的变化。

来源

如果没有 CoT 提示,GPT-4 和 GPT-3.5 的准确率都相对较低。

在 CoT 的推动下,GPT-4 在 3 月份实现了24.4% 的准确率提升,6 月份则下降了-0.1%。 GPT-4 似乎确实失去了优化 CoT 提示技术的能力。

考虑到 GPT-3.5,CoT 提升从 3 月份的 6.3% 增加到 6 月份的 15.8%。

下图显示了四个月内模型准确性的波动。在某些情况下,弃用非常明显,准确率损失超过 60%。

来源

Prompt 漂移

Chaining,或也称为Prompt Chaining,是利用编程工具(在某些情况下是可视化的)来促进将大型语言模型提示链接或排序到应用程序中的过程;它主要创建一个会话式用户界面。

提示链的核心功能是将任务从一个链级联到另一个链。这种任务级联很可能会持续整个用户对话期间。

提示漂移是错误逐渐累积的过程,其原因可能是:

  • 模型引发的偏离
  • 问题提取不正确
  • LLMs的随机性和创造性的惊喜

Chaining 可以作为模型引发偏离的保障,因为链接的每一步都定义了一个明确的目标。 ~来源

下图展示了作为更大链中一部分的单个节点或提示是如何受到影响而产生提示漂移的。

  1. 用户输入可能是意外的或无计划的,从而从节点产生不可预见的输出。
  2. 前一个节点的输出可能不准确或产生漂移,这种漂移在当前节点中会加剧。
  3. 由于 LLM 具有不确定性,因此 LLM 响应也可能是意外的。

应对提示漂移(错误级联)的方法之一是确保所使用的提示模板是全面的,并提供足够的上下文信息来消除 LLM 幻觉。

结束语

托管您自己的大型语言模型 (LLM) 实例可以让您对数字命运拥有无与伦比的控制权……组织可以实现高度的自主性、安全性和灵活性。

当您托管自己的 LLM 实例时,自主权占主导地位。

通过管理您的基础设施,您可以制定规则,确保您的模型根据您的特定需求和目标运行。这种自主权扩展到数据隐私和安全性,使您能够保护敏感信息并减轻与第三方依赖项相关的风险。

此外,托管您的LLMs使您能够对模型更新和优化进行精细控制。您可以定制训练数据集、微调参数并实施适合您领域的自定义算法,从而最大限度地提高性能和与应用程序的相关性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/590230.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Qt 信号槽中信号重名解决办法

1、类似与Qt4中的写法&#xff1a; 2、函数指针 3、泛型 connect(ui->combox, QOverload<int>::of(&QCombox::currentIndexChanged), this ,&mainwindow::onindexchange);

如何使用免费软件从Mac恢复音频文件?

要从Mac中删除任何文件&#xff0c;背后是有原因的。大多数Mac用户都希望增加Mac中的空间&#xff0c;这就是为什么他们更喜欢从驱动器中删除文件以便出现一些空间的原因。一些Mac用户错误地删除了该文件&#xff0c;无法识别这是一个重要文件。例如&#xff0c;他们错误地从Ma…

【 书生·浦语大模型实战营】作业(七):大模型实战评测

【 书生浦语大模型实战营】作业&#xff08;七&#xff09;&#xff1a;大模型实战评测 &#x1f389;AI学习星球推荐&#xff1a; GoAI的学习社区 知识星球是一个致力于提供《机器学习 | 深度学习 | CV | NLP | 大模型 | 多模态 | AIGC 》各个最新AI方向综述、论文等成体系的学…

远程链接linux

远程连接 ssh 远程登录操作&#xff0c;ssh会对用用户进行身份信息的验证&#xff0c;会对两台主机之间发通信数据进行加密 安装 ssh 远程登录的服务端 yum install -y openssh-server启动 ssh 服务 systemctl start ssh.service 关闭 ssh 服务 systemctl stop ssh.service …

基于Flask的岗位就业可视化系统(一)

前言 本项目综合了基本数据分析的流程&#xff0c;包括数据采集&#xff08;爬虫&#xff09;、数据清洗、数据存储、数据前后端可视化等 推荐阅读顺序为&#xff1a;数据采集——>数据清洗——>数据库存储——>基于Flask的前后端交互&#xff0c;有问题的话可以留言…

数据库(MySQL) —— DDL语句

MySQL—— DDL语句 什么是MySQL的DDL语句查看所有的所有数据库查看当前使用的数据库库操作创建库使用数据库删除库 表操作创建表查询当前库中所有的表查询表结构查询指定表的建表语句删除表 表修改删除字段修改数据类型修改字段名和字段类型重命名表删除指定表并重新创建该表 我…

【C++】命名冲突了怎么办?命名空间来解决你的烦恼!!!C++不同于C的命名方式——带你认识C++的命名空间

命名空间 导读一、什么是C?二、C的发展三、命名空间3.1 C语言中的重名冲突3.2 什么是命名空间&#xff1f;3.3 命名空间的定义3.4 命名空间的使用环境3.5 ::——作用域限定符3.6 命名空间的使用方法3.6.1 通过作用域限定符来指定作用域3.6.2 通过关键字using和关键字namespace…

【书生·浦语大模型实战营第二期】OpenCompass 大模型评测实战——学习笔记7

文章目录 使用OpenCompass评测llm的步骤实践操作 参考资料 为什么要做大模型的评测 为了了解llm的优势和限制指导和改进人类与llm的交互规划llm未来的发展根据llm的评测报告&#xff0c;针对不同的问题&#xff0c;选择最合适的模型 评测对象 基座模型和chat模型 使用OpenCo…

ArcGIS+ChatGPT双剑合璧:从数据读取到空间分析,一站式掌握GIS与AI融合的前沿科技!

目录 专题一 AI大模型应用 专题二 ArcGIS工作流程及功能 专题三 prompt的使用技巧 专题四 AI助力工作流程 专题五 AI助力数据读取 专题六 AI助力数据编辑与处理 专题七 AI助力空间分析 专题八 AI助力遥感分析 专题九 AI助力二次开发 专题十 AI助力科研绘图 专题十一…

基于php+mysql+html超市商品管理系统(含论文)

博主介绍&#xff1a; 大家好&#xff0c;本人精通Java、Python、Php、C#、C、C编程语言&#xff0c;同时也熟练掌握微信小程序、Android等技术&#xff0c;能够为大家提供全方位的技术支持和交流。 我有丰富的成品Java、Python、C#毕设项目经验&#xff0c;能够为学生提供各类…

IntelliJ IDEA - Auto filling Java call arguments 插件教程

首先&#xff0c;安装该插件&#xff0c;下载完毕后重启 IDEA 当 userService 中方法需要参数的时候&#xff0c;我们一般都是自己手动写这些参数&#xff0c;是很费劲的。因此就出现了一个插件解决这类问题 Auto filling Java call arguments 光标点击需要填写参数的位置 Alt …

蓝桥杯备战国赛1

开心的金明 火烧赤壁 南蛮图腾 #include<iostream> #include<algorithm> #include<cmath> using namespace std; int n, m; int v[30], k[30]; int arr[30010][30]; int main() {cin >> n >> m;for (int i 1;i < m;i){cin >> v[i] &g…

2024年企业邮箱系统排行榜:五款企业邮箱对比

2024年企业邮箱怎么选择&#xff1f;在企业邮箱市场中&#xff0c;Zoho Mail企业邮箱、腾讯企业邮箱、Gmail、阿里企业邮箱以及网易企业邮箱位于排名的前五。本篇文章就详细对比下这五款企业邮箱的发展历程、产品功能和适用的场景。 一、Zoho Mail企业邮箱 1、发展历程 Zoho M…

im即时通讯源码/仿微信app源码+php即时通讯源码带红包+客服+禁言等系统php+uniapp开发

即时通讯(IM)系统是现代互联网应用中不可或缺的一部分&#xff0c;它允许用户进行实时的文本、语音、视频交流。随着技术的发展&#xff0c;IM系统的功能越来越丰富&#xff0c;如红包、客服、禁言等。本文将探讨如何使用PHP语言开发一个功能完备的即时通讯系统&#xff0c;包括…

截图时,VSCode屏幕泛白

问题如图所示&#xff1a; 放弃前摇&#xff0c;直接给出解决方案&#xff1a;换个主题即可。 实测&#xff0c;Light Modern 的色域正常&#xff0c;其他的没有经过测试。 出现这个问题的原因&#xff0c;大概率就是色彩空间不匹配。 HDR 内容是为了在支持 HDR 的显示设备上展…

【Linux学习】(2)OS的简单了解|Linux的基本指令操作

前言 本文将先简单了解什么是操作系统&#xff0c;再讲解一些Linux的基本指令。 一、操作系统的简单了解 1、什么是操作系统&#xff08;Operating System&#xff0c;简称OS&#xff09;&#xff1f; OS是一款做软硬件管理的软件。软硬件的体系结构图&#xff1a; 硬件&…

RabbitMQ入门教学(浅入浅出)

进程间通信 互联网的通讯时网络的基础&#xff0c;一般情况下互联网的资源数据对储存在中心服务器上&#xff0c;一般情况下个体对个体的访问仅限于局域网下&#xff0c;在公网即可完成资源的访问&#xff0c;如各种网站资源&#xff0c;下载资源&#xff0c;种子等。网络通讯…

php使用Canal监听msyql

canal需要java8 去官网下载java8 安装JAVA #创建目录 mkdir -p /usr/local/java/ #解压到目录 tar zxvf jdk-8u411-linux-x64.tar.gz -C /usr/local/java/配置环境变量在 /etc/profile 最后加入 export JAVA_HOME/usr/local/java/jdk1.8.0_411 export CLASSPATH.:$JAVA_HOM…

代码随想录算法训练营DAY50|C++动态规划Part11|300.最长递增子序列、674.最长连续递增序列、718.最长重复子数组

文章目录 300.最长递增子序列思路CPP代码 674.最长连续递增序列思路CPP代码 718.最长重复子数组思路CPP代码 300.最长递增子序列 力扣题目链接 文章讲解&#xff1a;300.最长递增子序列 视频链接&#xff1a;动态规划之子序列问题&#xff0c;元素不连续&#xff01;| LeetCode…

蓝牙连接手机播放音乐的同时传输少量数据,那些蓝牙芯片可以实现呢

简介 蓝牙连接手机播放音乐的同时连接另一蓝牙芯片传输少量数据&#xff0c;那些蓝牙芯片可以实现呢&#xff1f; 这个需求&#xff0c;其实就是双模的需求 简单描述就是:播放音乐的同时&#xff0c;还可以连接ble&#xff0c;进行数据的传输。二者同时进行&#xff0c;互不…