企业级大模型的护城河:RAG + 微调

围绕LLM的炒作是前所未有的,但这是有道理的,生成式 AI 有潜力改变我们所知道的社会。

在很多方面,LLM将使数据工程师变得更有价值——这令人兴奋!

不过,向老板展示数据发现工具或文本到 SQL 生成器的炫酷演示是一回事,而将其与公司的专有数据(甚至更重要的客户数据)一起使用则是另一回事。

很多时候,公司急于构建人工智能应用程序,却对其实验的财务和组织影响缺乏远见。 这不是他们的错——高管和董事会应该为围绕这项(以及大多数)新技术的“快点走”心态承担责任。 (还记得 NFT 吗?)。

为了让人工智能(尤其是生成式人工智能)取得成功,我们需要退后一步,记住任何软件如何为企业做好准备。 为了实现这一目标,我们可以从其他行业获取线索,了解企业的准备情况,并将这些原则应用于生成式人工智能。

在我看来,企业就绪的生成式AI必须:

  • 安全和私密:你的AI应用程序必须确保数据安全、私密且合规,并具有适当的访问控制。 思考:AI的 SecOps。
  • 可扩展:你的AI应用程序必须易于部署、使用和升级,并且具有成本效益。 如果一个数据应用程序需要几个月的时间来部署、使用起来很乏味,并且在不引入一百万个其他问题的情况下不可能升级,那么您就不会购买或构建该数据应用程序。 我们不应该以任何不同的方式对待人工智能应用。
  • 值得信赖:你的AI应用程序应该足够可靠和一致。 我很难找到一位 CTO 愿意将自己的职业生涯押在购买或构建一款生成不可靠代码或生成随意且具有误导性的见解的产品上。

考虑到这些护栏,我们是时候开始给予生成式人工智能应有的努力了。 但这并不那么容易……

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包

1、企业AI为何难以实现?

简而言之,用于扩展、保护和操作 LLM 应用程序的底层基础设施尚不存在。

与大多数应用程序不同,人工智能在很大程度上是一个黑匣子。 我们“知道”我们要输入什么(原始的,通常是非结构化数据),我们“知道”我们要输出什么,但我们不知道它是如何到达那里的。 这很难扩展、安全和操作。

以 GPT-4 为例。 虽然 GPT-4 在某些任务(例如参加 SAT 和 AP 微积分 AB 考试)方面击败了 GPT 3.5,但它的一些输出充满了幻觉或缺乏充分完成这些任务所需的背景。 幻觉是由多种因素引起的,从嵌入不良到知识切断,并且经常影响公开或开放的LLM根据从互联网上抓取的信息进行培训而生成的响应质量,这些信息占大多数模型的比例。

为了减少幻觉,更重要的是,为了回答有意义的业务问题,公司需要用自己的专有数据来增强LLM,其中包括必要的业务背景。 例如,如果客户要求航空公司聊天机器人取消机票,该模型将需要访问有关客户的信息、有关他们过去的交易、有关取消政策和潜在的其他信息。 所有这些目前都存在于数据库和数据仓库中。

如果没有这种背景,人工智能只能根据公共信息进行推理,这些公共信息通常发布在互联网上,并且最初是在这些公共信息上进行训练的。 难题就在这里——公开专有的企业数据并将其整合到业务工作流程或客户体验中几乎总是需要坚实的安全性、可扩展性和可靠性。

2、实现企业级 AI 的两条途径:RAG 和微调

当谈到让人工智能企业做好准备时,最关键的部分出现在LLM开发过程的最后:检索增强生成(RAG)和微调。

RAG 将实时数据库集成到LLM的回复生成过程中,确保输出最新且真实。 另一方面,微调在目标数据集上训练模型以改善特定领域的响应。

然而,值得注意的是,RAG 和微调并不是相互排斥的方法,应该根据您的特定需求和用例来利用(通常是同时使用)。

3、何时使用 RAG

RAG 是一个框架,它通过让模型在尝试回答提示时访问数据库来提高 LLM 输出的质量。 该数据库是一个经过精心策划且值得信赖的潜在专有数据主体,允许模型将最新且可靠的信息纳入其响应和推理中。 这种方法最适合需要额外上下文信息的人工智能应用程序,例如客户支持响应(如我们的航班取消示例)或公司企业通信平台中的语义搜索。

RAG 应用程序旨在在生成响应之前从知识源检索相关信息,这使得它们非常适合查询结构化和非结构化数据源,例如矢量数据库和特征存储。 通过检索信息以提高法学硕士在输出生成时的准确性和可靠性,RAG 在减少幻觉和降低培训成本方面也非常有效。 RAG 还为团队提供了一定程度的透明度,因为您知道输入模型以生成新响应的数据来源。

关于 RAG 架构需要注意的一件事是,它们的性能在很大程度上取决于您构建有效数据管道的能力,使企业数据可用于 AI 模型。

4、何时使用微调

微调是在较小的、特定于任务和标记的数据集上训练现有LLM,并根据新数据调整模型参数和嵌入的过程。 微调依赖于预先策划的数据集,这些数据集不仅告知信息检索,还告知您要为其生成输出的领域的细微差别和术语。

根据我们的经验,微调最适合特定领域的情况,例如以利基语气或风格响应详细提示,即法律简报或客户支持票。 它还非常适合克服信息偏见和其他限制,例如语言重复或不一致。 过去一年的多项研究表明,经过微调的模型的性能显着优于 GPT-3 的现成版本和其他公开可用的模型。 事实证明,对于许多用例来说,经过微调的小型模型可以胜过大型通用模型,这使得微调在某些情况下成为提高成本效率的可行途径。

与 RAG 不同,微调通常需要更少的数据,但代价是更多的时间和计算资源。 此外,微调的操作就像一个黑匣子; 由于模型内化了新的数据集,因此确定新反应背后的推理变得具有挑战性,而幻觉仍然是一个有意义的问题。

微调 - 与 RAG 架构一样 - 需要构建有效的数据管道,使(标记的!)企业数据可用于微调过程。 这绝非易事。

5、为什么 RAG 可能对您的团队有意义

重要的是要记住,RAG 和微调不是相互排斥的方法,具有不同的优点和缺点,并且可以一起使用。 然而,对于绝大多数用例,RAG 在交付企业生成式 AI 应用程序时可能最有意义。

原因如下:

  • RAG 安全和隐私更易于管理:与 AI 模型不同,数据库具有内置角色和安全性,并且由于标准访问控制,谁看到什么是很容易理解的。 此外,通过访问安全且私密的专有数据语料库,您可以更好地控制使用哪些数据。 通过微调,训练集中包含的任何数据都会向应用程序的所有用户公开,而没有明显的方法来管理谁看到什么。 在许多实际场景中,尤其是在涉及客户数据时,没有这种控制是不行的。
  • RAG 更具可扩展性:RAG 比微调更便宜,因为后者涉及更新大型模型的所有参数,需要大量的计算能力。 此外,RAG 不需要标记和制作训练集,这是一个人力密集型的过程,可能需要数周甚至数月的时间才能完善每个模型。
  • RAG 可带来更值得信赖的结果。 简而言之,RAG 可以更好地处理动态数据,从最新数据的精选数据集中生成确定性结果。 由于微调在很大程度上就像一个黑匣子,因此很难查明模型如何生成特定结果,从而降低了信任和透明度。 通过微调,幻觉和不准确是可能的,甚至很可能,因为您依赖模型的权重以有损方式对业务信息进行编码。

在我看来,企业级人工智能将主要依赖于 RAG,并在更细致或特定领域的用例中进行微调。 对于绝大多数应用程序来说,微调对于利基场景来说是一个不错的选择,一旦行业能够降低大规模运行人工智能所需的成本和资源,微调就会更频繁地发挥作用。

然而,无论您使用哪一种,您的人工智能应用程序开发都需要通过某些数据存储(无论是 Snowflake、Databricks、像 Pinecone 这样的独立矢量数据库还是其他完全不同的东西)为这些模型提供公司数据的管道。 归根结底,如果在内部流程中使用生成式人工智能从非结构化数据中提取分析和洞察,它将被用于数据管道。

6、RAG 需要数据的可观察性

在 2010 年代初,机器学习被吹捧为一种神奇的算法,如果你给它的特征赋予完美的权重,它就会在命令下创造奇迹。 然而,通常提高机器学习性能的是对高质量功能的投资,特别是数据质量。

同样,为了让企业人工智能发挥作用,您需要关注生成模型所依赖的数据的质量和可靠性——可能是通过 RAG 架构。

由于 RAG 依赖于动态的、有时是最新的数据,因此需要数据可观察性来满足其企业就绪的期望。 数据可能因多种原因而损坏,例如格式错误的第三方数据、错误的转换代码或失败的 Airflow 作业。 事实总是如此。

数据可观察性使团队能够在整个数据生态系统中大规模监控、警报、分类和解决数据或管道问题。 多年来,它一直是现代数据堆栈的必备层。 随着 RAG 重要性的提高和人工智能的成熟,可观察性将成为LLM发展的关键合作伙伴。

RAG 和企业人工智能发挥作用的唯一方法是您可以信任数据。 为了实现这一目标,团队需要一种可扩展的自动化方法来确保数据的可靠性,以及一种企业级方法来识别根本原因并快速解决问题——在问题影响到他们所服务的LLM之前。

7、那么,事实上的LLM栈是什么?

就在我们说话的时候,人工智能工具的基础设施和技术路线图正在开发中,每天都有新的初创公司涌现来解决各种问题,行业巨头也声称他们也在应对这些挑战。 当谈到将企业数据整合到人工智能中时,我看到了这场竞赛中的三匹马。

第一匹马:矢量数据库。 Pinecone、Weaviate 和其他公司正在作为支持 RAG 架构的必备数据库平台而闻名。 虽然这些技术显示出很大的前景,但它们确实需要启动堆栈的新部分并创建工作流程以从安全性、可扩展性和可靠性的角度支持它。

第二匹马:由 OpenAI 或 Anthropic 等第三方 LLM 开发人员构建的模型的托管版本。 目前,由于易于使用,大多数团队通过 API 与这些崭露头角的人工智能领导者一起获得生成式人工智能修复。 插入 OpenAI API 并在几分钟内利用尖端模型? 如果您需要模型生成代码或根据公共信息解决众所周知的非特定提示,那么这种方法开箱即用,效果很好。 如果您确实希望将专有信息合并到这些模型中,则可以使用这些平台提供的内置微调或 RAG 功能。

最后,第三匹马:现代数据栈。 Snowflake 和 Databricks 已经宣布,他们正在将矢量数据库嵌入到他们的平台以及其他工具中,以帮助将这些平台上已经存储和处理的数据合并到法学硕士中。 这对许多人来说很有意义,并且允许负责人工智能计划的数据团队利用他们已经使用的工具。 既然基础已经到位,为什么还要重新发明轮子呢? 更不用说能够轻松地将传统关系数据与矢量数据连接起来的可能性……与另外两匹马一样,这种方法也有一些缺点:Snowflake Cortex、Lakehouse AI 和其他 MDS + AI 产品才刚刚起步,需要一些前期准备 投资将矢量搜索和模型训练纳入您现有的工作流程。 为了更深入地了解这种方法,我鼓励您查看 Meltano 的相关文章,了解为什么最好的法学硕士堆栈可能就在您面前。

无论我们选择什么马,有价值的业务问题都无法通过基于互联网数据训练的模型来回答。 它需要有公司内部的背景。 通过以安全、可扩展和可信的方式提供此上下文,我们可以实现企业级人工智能。

8、企业AI的未来就在您的管道中

为了让人工智能发挥这种潜力,数据和人工智能团队需要以应有的勤奋对待LLM增强,并将安全性、可扩展性和可靠性作为首要考虑因素。 无论您的用例需要 RAG 还是微调(或两者兼而有之),您都需要确保数据栈基础到位,以保持低成本、性能一致和高可靠性。

数据需要安全且私密; LLM部署需要具有可扩展性; 并且您的结果需要值得信赖。 通过可观察性保持数据质量的稳定脉动对于这些需求至关重要。

从孤立的 X 演示到企业级人工智能的演变中最好的部分是什么? 在拥有和推动生成式 AI 投资的投资回报率方面,RAG 为数据工程师提供了最佳席位。

我已准备好迎接企业级人工智能。 你呢?


原文链接:企业级LLM的护城河 - BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/359922.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

flutter+go构建的即时通讯app,ChatCraft

前言 Hi👋all.好久不见,已经两个多月没有发文章了,这段时间一直在反思过去的一年,有好有坏。对博客文章这块我对自己是不满意的,文章的质量参差不齐,有时候在没有好的题材时,我会选择写一些泛泛…

正则表达式与文本三剑客

目录 一、正则表达式 1. 定义 2. 字符匹配 3. 重复限定符 4. 位置锚点 5. 分组和引用 6. 扩展正则表达式 二、文本三剑客 1. grep 1.1 定义 1.2 语法 1.3 选项 1.4 示例 2. sed 2.1 定义 2.2 通式 2.3 选项 2.4 脚本格式(脚本语法) 2.…

【VS Code+Verilog+Vivado使用】(2)基本设置

文章目录 2 基本设置2.1 字体大小2.2 Tab大小2.3 选中高亮2.4 文件编码 2 基本设置 2.1 字体大小 方法1:VS Code左下角 > 管理 > 设置,搜索"font size",点击左侧"字体",根据需要设置"editor.fon…

【乳腺肿瘤诊断分类及预测】基于LVQNN学习向量量化神经网络

课题名称:基于LVQ神经网络的乳腺肿瘤诊断(类型分类) 版本日期:2023-03-10 运行方式: 直接运行0501_LVQ0501.m 文件即可 代码获取方式:私信博主或QQ:491052175 模型描述: 威斯康辛大学医学院…

[AG32VF407]国产MCU+FPGA Verilog编写控制2路gpio输出不同频率方波实验

视频讲解 [AG32VF407]国产MCUFPGA Verilog编写控制2路gpio输出不同频率方波实验 实验过程 根据原理图,选择两个pin脚作为输出 修改VE文件,clk选择PIN_OSC,使用内部晶振8Mhz,gpio使用PIN_51和52,pinout是数组 添加pll…

Linux下qemu的安装并搭建虚拟arm环境(带helloworld测试)【超详细】

qemu的安装并搭建虚拟arm环境 1、准备工作1.1 安装交叉汇编工具1.2 编译内核kernel1.3 u-boot编译1.4 制作根文件系统-busybox 2、启动qemu(arm)3、helloworld测试 1、准备工作 1.1 安装交叉汇编工具 交叉编译器的作用就不需要详细解释了,因…

2024/1/28CSS学习:基础认知;选择器;文本样式

一、基础认知 1.1层叠样式表 作用:样式美观,给Html美化 1.2语法规则 写在style标签里面 选择器——找标签使用 属性名:属性值; 2.1CSS引入方式 1.内嵌式 CSS 写在style标签中 提示:style标签虽然可以写在页面任意位置&#…

交叉注意力融合时域、频域特征的FFT + CNN-Transformer-CrossAttention轴承故障识别模型

目录 往期精彩内容: 前言 1 快速傅里叶变换FFT原理介绍 第一步,导入部分数据 第二步,故障信号可视化 第三步,故障信号经过FFT可视化 2 轴承故障数据的预处理 2.1 导入数据 2.2 制作数据集和对应标签 3 交叉注意力机制 …

C++初阶:入门泛型编程(函数模板和类模板)

大致介绍了一下C/C内存管理、new与delete后:C初阶:C/C内存管理、new与delete详解 我们接下来终于进入了模版的学习了,今天就先来入门泛型编程 文章目录 1.泛型编程2.函数模版2.1概念2.2格式2.3函数模版的原理2.4函数模版的实例化2.4.1隐式实例…

新书速览|Python数据科学应用从入门到精通

系统教授数据科学与Python实战,涵盖线性回归、逻辑回归、决策树、随机森林、神经网 本书内容 随着数据存储、数据处理等大数据技术的快速发展,数据科学在各行各业得到广泛的应用。数据清洗、特征工程、数据可视化、数据挖掘与建模等已成为高校师生和职场…

教你如何轻松浏览OSGB倾斜摄影三维模型

倾斜摄影测量技术发展至今,已经属于一项成熟度很高的技术。但对于倾斜摄影三维模型数据如何展示,如何与业务进行结合一直是行业比较苦恼的事情。下面我会教大家通过四维轻云实现倾斜摄影三维模型数据的编辑、展示及分享。 一、平台登录 在四维轻云官网…

鸿蒙系统扫盲(七):勘误补充总结,收个尾

这是笔者鸿蒙扫盲系列的最后一篇了,准备对过去的六篇扫盲系列文章,错误的地方做一些勘误,并且补充更新一些朋友们感兴趣的知识,最后收个尾。 1.勘误,编译型语言和解释型语言 在鸿蒙系统扫盲(五&#xff0…

32GPIO输入LED闪烁蜂鸣器

一.GPIO简介 所有的GPIO都挂载到APB2上,每个GPIO有16个引脚 内核可以通过APB2对寄存器进行读写,寄存器都是32位的,但每个引脚端口只有16位 驱动器用于增加信号的驱动能力 二.具体…

如何将数据转化为可操作的业务洞察_光点科技

在数字化的商业环境中,企业被海量的数据所包围。从社交媒体互动、销售交易记录到客户反馈,每一项数据都蕴含着潜在的业务价值。然而,数据本身并不能直接为企业带来改变,它需要被转化为可行的业务洞察,才能指导实际的决…

来聊聊SSL证书申请流程

第一步:选择合适的SSL证书类型 在申请SSL证书之前,您需要选择适合您网站需求的SSL证书类型。一般分为单域名证书、多域名证书和通配符证书等。根据您的网站结构和需求选择合适的证书类型。 第二步:准备必要的证书申请材料 在申请SSL证书时&…

用Python库pillow处理图像

入门知识 颜色。如果你有使用颜料画画的经历,那么一定知道混合红、黄、蓝三种颜料可以得到其他的颜色,事实上这三种颜色就是美术中的三原色,它们是不能再分解的基本颜色。在计算机中,我们可以将红、绿、蓝三种色光以不同的比例叠加…

类和对象 第六部分 继承 第一部分:继承的语法

一.继承的概念 继承是面向对象的三大特性之一 有些类与类之间存在特殊的关系,例如下图: 我们可以发现,下级别的成员除了拥有上一级的共性,还有自己的特性,这个时候,我们可以讨论利用继承的技术,…

LeetCode.2670. 找出不同元素数目差数组

题目 题目链接 分析 一种暴力的方法,枚举数组所有数字,分别计算当前元素前面不同的元素和后面不同的元素,然后相减即可。这样的话太暴力,前缀和后缀也需要分别遍历:O(N*2)了。 我们来优化一下: 根据这种…

【HarmonyOS应用开发】UIAbility实践第一部分(五)

一、UIAbility概述 1、UIAbility是一种包含用户界面的应用组件,主要用于和用户进行交互。UIAbility也是系统调度的单元,为应用提供窗口在其中绘制界面。 2、每一个UIAbility实例,都对应于一个最近任务列表中的任务。 3、一个应用可以有一个UI…

阿里云服务器租用价格 2024年新版活动报价及租用收费标准参考

阿里云服务器租用价格是多少?阿里云服务器价格由云服务器配置、实例规格、带宽等组成,进入2024年,阿里云继续推出各种云服务器优惠政策。轻量应用服务器2核2G 61元1年,每天只需0.16元,2核4G 165元1年,每天不…