精打细算用好 LLMs :LLM 落地应用成本及响应延迟优化

前言

高成本和延迟是将大语言模型应用于生产环境中的主要障碍之一,二者均与提示词信息的体量(prompt size)紧密相连。

鉴于大语言模型(LLM)展现出极强的广泛适用性,不少人视其为解决各类问题的灵丹妙药。通过与诸如检索增强生成技术(RAG)及 API 调用等在内的工具整合,并配以精细的指导性提示词,LLM 时常能展现出逼近人类水平的工作能力。

然而,这种无所不包的应用策略,其潜在隐患在于可能会导致提示词的信息量迅速膨胀,直接引发高昂的使用成本以及较大的响应延迟,令 LLMs 在生产环境的实际部署面临重重困难。

针对高价值任务(如代码优化任务)使用 LLMs 时,成本这方面的考量或许会退居其次 —— 一段平常半小时才能编写完成的代码现在等待半分钟即完成,花费一定的成本尚可接受。但转至 To C 领域,面对成千上万次的即时对话需求,成本控制与响应速度便成为决定项目成败的关键。

本文将分享为 Resider.pl 构建由 LLM 支持的房地产搜索助手 “Mieszko” 这一过程的心得。本文的重点是:如何跨越从吸引眼球的概念验证(impressive POC)在实操中有效运用 LLMs 的鸿沟。

01 Prompt is all you have

在构建 “Mieszko” 时,我非常倚重 LangChain 这一个出色的框架。该框架以一种有序且清晰的方式,将复杂的逻辑或组件抽象化,并配备了高效易用的提示词模板,仅需寥寥数行代码即可实现调用。

LangChain 的易用性或许会让我们不经意间忘却一个核心要点:不论我们的解决方案有多么繁琐,实质上所有组件都会汇总成一条长长的文本信息——“指令性提示词”——传递给LLM。接下来将要展示的内容是一个概括性的示例说明,用于展示 LLM Agent 在接收指令性提示词或执行任务前,其输入提示词的基本结构和主要组成部分。

img

使用 LLM Agent 中的指令性提示词模板时所采用的基本结构

02 是什么影响了使用成本和响应延迟?

LLMs(大语言模型)是有史以来构建的最复杂的人工智能模型之一,但其响应延迟和使用成本主要取决于输入和输出处理的 tokens 数量,而非任务本身的难度。

撰写本文时,OpenAI 旗舰模型 GPT-4 Turbo 的定价公式大致如下:

img

响应延迟的相关计算方法则并不那么直接,但根据 “Mieszko” 的应用场景,可简单归结为以下这个公式:

img

从成本角度看,input tokens 通常是 LLMs 使用成本的“大头”,其价格仅为 output tokens 的三分之一,但对于更复杂的任务,提示词长度会远超面向用户的 output tokens 长度。

然而,延迟主要受 output tokens 影响,处理 output tokens 的时间大约是 input tokens 的 200 倍。

在使用 LLM Agents 时,约 80% 的 tokens 来自 input tokens ,主要是初始的提示词和 Agents 推理过程中的消耗。这些 input tokens 是使用成本的关键组成部分,但对响应时间的影响有限。

03 监控和管理 tokens 的消耗

在构建任何 LLMs 应用程序时,除了初始提示词模板之外,至少还需要以下组件:

  • 记忆库(每次与 LLMs 的交互(每次调用)中,都需要包含之前所有的对话消息或历史上下文。)
  • 工具箱(如供 LLMs 调用的API),及其详细的指导性提示词
  • 检索增强生成(RAG)系统及其产生的上下文

从技术上讲,我们可以添加任意数量的工具,但如果依赖最简单的 Agent&Tools 架构,可能系统的扩展性就会很差。对于每一种可用的工具,都需要在每次调用 Agents 时发送诸如 API 文档之类的详细说明。

在准备新系统组件时,需要考虑每次调用增加多少个 tokens 是值得的。 如果使用的是 OpenAI 的模型,可以快速评估新工具或额外的指导性提示词的“tokens 消耗”情况,方法如下:

  • 直接访问网站:platform.openai.com/tokenizer
  • 如果你更喜欢使用 Python,可以使用 tiktoken 库,通过以下简单函数实现:
python复制代码 import tiktoken
def num_tokens_from_string(string: str, model_name: str) -> int:
 try:
        encoding = tiktoken.encoding_for_model(model_name)
 except KeyError as e:
 raise KeyError(f"Error: No encoding available for the model '{model_name}'. Please check the model name and try again.")

    num_tokens = len(encoding.encode(string))
 return num_tokens

04 如何在保持提示词精简的同时不牺牲准确性

初次接触时,大语言模型(LLMs)可能令人感到无所适从,但归根结底,重要的是要记住我们打交道的仍是软件。这意味着我们应当事先预料到会出现错误,管理和控制软件系统设计中的抽象层次和模块化程度,并寻找更高效的解决方案来处理子任务。

在开发 Mieszko 的过程中,我发现以下一些通用技巧特别有用。我将在未来几周内撰写后续文章讲解其中的大多数通用技巧,因此,如果你想不错过这些内容,欢迎您在此(medium.com/@janekmajew… 订阅我的个人主页,以便在文章发布时接收到通知。

4.1 将大段提示词拆分成多层然后再调用

软件工程的关键原则之一是模块化和抽象化。试图用单个提示词来处理更复杂的问题,就如同编写难以维护的“意大利面条式”代码(Spaghetti code)(译者注:这个比喻来源于意大利面(spaghetti)缠绕不清、难分难解的形象。当一段代码缺乏清晰的结构、正确的模块划分和合理的逻辑顺序,而是充斥着大量的嵌套条件语句、无序的跳转、重复的代码块时,就被视为“意大利面式代码”。)一样低效。

在构建 Mieszko 时,性能显著提升的一个关键点是将提示词拆分为两个部分:

  • 用于决策的 Agent (Decision Agent):对下一步可以采取的措施以及如何处理提示词输出的一般指导原则。
  • 用于执行任务的 Agent / 对话型 LLMs 系统:含有针对具体步骤(如房源搜索、数据比较或房地产知识查询)的详细指导性提示词。

分层决策与执行架构图

img

分层决策和执行调用架构图,图片由原文作者提供

这种架构使得我们能够在每次调用时,首先选取需要使用的特定任务提示词,而无需随附沉重的、消耗大量 tokens 的执行指令(execution instructions),从而平均减少了超过 60% 的 tokens 使用量。

4.2 务必监控每次调用时的最终提示词

LLM 接收到的最终提示词(final prompt)可能与最初的提示词模板相去甚远。通过工具(tools)、记忆库(memory)、上下文(context)及 Agent 的内部推理来丰富提示词模板这一过程,可能会使提示词的规模激增数千个 tokens 。

此外,LLMs 有时会展现出如洛奇·巴尔博亚(Rocky Balboa)(译者注:洛奇·巴尔博亚(Rocky Balboa),美国电影《洛奇》系列的主角,业余拳击手出身,凭借自身的努力,登上拳坛最高峰。)般的韧性,即使面对存在错误和矛盾的提示词,也能“站起来”给出合理的答案。

通过仔细审查数十次 LLMs 的调用,并深入了解大语言模型(LLM)实际上接收到了什么信息,能为关键突破(key breakthroughs)和消除漏洞(bug elimination)提供宝贵洞见。我强烈推荐使用 LangSmith 来进行深入分析。

如果想要寻求最简便的方案,也可以启用 LangChain 中的调试功能,它将为我们提供每次调用时确切发送的提示词,以及大量有用信息,帮助我们更好地监控和优化提示词内容。

ini复制代码import langchain
langchain.debug=True

4.3 如只需几行代码即可处理的事,向 LLMs 提交前请三思

在使用 LLMs 时,最大的误区是忘记你仍然可以利用编程来解决问题。 以我为例,一些最大的性能提升,就是通过使用 Python 函数在 LLMs 调用的上下游处理一些极为简单的任务。

在使用 LangChain 时,这一点尤为有效,我们可以轻松地将 LLMs 的调用与传统的 Python 函数进行链式处理。下面是一个简化的示例,我曾用它来解决一个难题:即便指示 LLMs 保持回答与用户发送的消息相同的语言,LLMs 仍默认回复英文。

我们无需借助 LLMs 来检测目前的对话使用的是什么语言,利用 Google Translate API 或甚至是一个简单的 Python 库(如 langdetect ),可以更快、更准确地完成这项任务。一旦我们确定了输入语言,就可以明确地将其传入指导性提示词中,从而减少在 LLMs 的调用过程中需要处理的工作量。

python复制代码from langdetect import detect

prompt = """
Summarize the following message in  {language}:
Message: {input} 
"""

prompt = ChatPromptTemplate.from_template(prompt)

def detect_language(input_message):
    input_message["language"] = detect(input_message["input"])
 return input_message

detect_language_step= RunnablePassthrough.assign(input_message=detect_language)

chain_summarize_in_message_language = (
    detect_language_step
 | RunnablePassthrough.assign(
            language=lambda x: x["input_message"]["language"]
 ) 
 | prompt 
 | llm )

4.4 在设计 Agent 的提示词时要精打细算,因为它们通常至少会被调用两次

集成了工具的 Agent 能够将 LLMs 的能力提升到新的层次,但同时它们也非常消耗 tokens(计算资源)。 下面的图表展示了 LLM Agent 针对 query 提供答案的一般逻辑流程。

img

AI Agent 两次调用 LLM,图片由原文作者提供

如上图所示,Agent 通常至少需要调用 LLM 两次:第一次是为了规划如何使用工具,第二次则是解析这些工具的输出以便给出最终答案。这一特点意味着,我们在设计提示词时节省的每一个 token,实际上都会带来双倍的效益。

对于某些较为简单的任务,采用 Agent 的方式可能是“用牛刀杀鸡”,而直接使用带有 Completion 的简单指导性提示词(译者注:模型接收到 instruction prompt 后的内容生成过程。)可能就能够达到相似的结果,且速度甚至还能快上一倍。以 Mieszko 项目为例,我们决定将大部分任务从 Multi-Agent 架构转变为基于特定任务的 Agent+Completion 模式。

4.5 将大语言模型和传统编程工具结合使用,发挥各自的优势(Use LLMs for reasoning but calculate and aggregate with SQL or Python)

相较于早期的 GPT-3.5,最新顶尖大语言模型已经有了很大的进步,那时它们在处理基础数学公式时都还会出错。现在,在诸如计算 segment averages (译者注:在一组数据中,将数据分成若干个段或区间,然后计算每个段内数据的平均值。)任务上,LLMs 已经能够轻松处理数百个数字。

但它们更擅长编写 Python 或 SQL,无需数以万亿计的模型参数,就能以 100% 的准确率执行复杂的数学运算。然而,向 LLMs 传递大量数字会消耗大量 tokens ,在最好的情况下,每 3 位数字都会转换为一个 token ;若数值庞大,单个数字就可能占用多个 tokens 。

想要更低成本、更高效率地分析数学运算,获得运算结果,窍门在于如何运用 LLMs 理解问题及手头数据,继而将之转译为 SQL 或 Python 这类更适合进行数学分析的编程语言。

实践中,可将编写的代码嵌入一个函数内执行,此函数负责连接数据源并仅将最终分析结果呈现给 LLM,供其直接理解、分析。

05 Summary

希望本文介绍的这些通用技巧,能够帮助各位读者更好地了解 LLMs 应用中使用成本和响应延迟的主要影响因素,以及如何优化它们。我希望尽可能多地分享我在开发基于 LLM 的生产级应用中学到的关键经验教训。在本系列接下来的文章中,我将从更具体、实践性更强的实践案例着手:

  • 使用 Python guardrails (译者注:使用 Python 编写基于规则的验证函数。)提升 LLM 输出内容的可靠性
  • 通过模块化和抽象化(Modularity and Abstraction)增强 LLM Agents
  • 利用 LangSmith 了解、监控基于 LLMs 的应用(预计六月中旬发布)

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

资源分享

图片

大模型AGI学习包

图片

图片

资料目录

  1. 成长路线图&学习规划
  2. 配套视频教程
  3. 实战LLM
  4. 人工智能比赛资料
  5. AI人工智能必读书单
  6. 面试题合集

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

1.成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

图片

2.视频教程

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,其中一共有21个章节,每个章节都是当前板块的精华浓缩

图片

3.LLM

大家最喜欢也是最关心的LLM(大语言模型)

图片

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/745733.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络 交换机的基本配置

一、理论知识 1.三种模式: ①用户模式:当登录路由器后,系统自动进入用户EXEC命令模式。 例如: Router> 在用户模式状态下,用户只能查看路由器的连接状态和基本信息,访问其他网络和主机&#xff0c…

模拟面试之外卖点单系统(高频面试题目mark)

今天跟大家分享一个大家简历中常见的项目-《外卖点单系统》,这是一个很经典的项目,有很多可以考察的知识点和技能点,但大多数同学都是学期项目,没有实际落地,对面试问题准备不充分,回答时抓不到重点&#x…

ChatGPT只是开胃菜,AIGC风口真的来了!

去年OpenAI发布的ChatGPT在全球疯狂刷屏成为一款现象级产品,并成功出圈受到IT、新闻媒体、学术研究、教育等领域的广泛好评和应用。甚至有一位美国学生用ChatGPT 写论文拿下全班最高分,受到了全球媒体的热议。 比尔盖茨曾在今年“Reddit AMA大会”表示&…

计算机毕业设计Thinkphp/Laravel智能道路交通管理系统4ir8r

Laravel非常的简洁并且是开源的,Laravel 是一个具有表现力、优雅语法的 Web 应用程序框架. Laravel 是构建现代全栈 Web 应用程序的最佳选择. 它的语法更富有表现力,拥有高质量的文档和丰富的扩展包,技术上它有Bundle扩展包、Eloquent ORM、反…

红酒献爱心:品味活动的醇香,传递爱心的力量

在繁华的都市背后,总有一些默默付出的力量,它们如涓涓细流,汇聚成爱的海洋。红酒,这一优雅的饮品,在追求品质与品味的同时,也踏上了活动之路,以它不同的方式传递着爱心的味道。今天,…

基于高度的纹理混合shader

基于高度的纹理混合shader 原文:基于高度的纹理混合shader - 知乎 (zhihu.com) 最近支持一个使用unity2021的项目,发现urp自带的Terrain/Lit shader已经自带高度混合了,看了下和我当初写的那个基本差不多,感觉稍微要比我的严谨一…

BOOT0 和BOOT1 直接接地还是经过电阻接地

STM32F103 配置BOOT0 和BOOT1 直接接地还是经过电阻接地? 问:我的STM32F103RET6 挂了,原因是BOOT0 和BOOT1 直接接地导致的,很是奇怪,大家有没有遇到啊? 答:STM32 的硬件设计指导也是建议BOOT0、…

Vue2中的render函数

Vue 推荐在绝大多数情况下使用模板来创建你的 HTML。然而在一些场景中,你真的需要 JavaScript 的完全编程的能力。这时你可以用render渲染函数,它比模板更接近编译器 。 在Vue2中,render函数是一个可选的、用于生成虚拟DOM的特殊函数。它是Vu…

Leetcdoe-Day19-代码随想录-栈与队列-1047-150

1047. 删除字符串中的所有相邻重复项 题目链接 题解&#xff1a;简单题&#xff0c;最后需要注意反转字符串即可。 class Solution { public:string removeDuplicates(string s) {stack<char> z;for(int i0;i<s.size();i){if(!z.empty()){int topz.top();if(tops[i]…

VTable导出当前页和导出所有页数据

表格导出的是当前显示的表格&#xff0c;如果是分页表格想导出全部的数据话。有两种方法可以实现 表格先显示的全量数据&#xff0c;导出后再恢复当前页。新建一个隐藏的表格实例显示全量数据导出这个隐藏的表格实例。 下面是全量代码&#xff1a; <template><div&…

使用North自部署图床服务

图床 图床可以把图片转为链接&#xff0c;从而方便我们书写、分享博客&#xff0c;目前图床主要分为以下几类: 利用 Git 仓库存储对象存储&#xff08;OSS、COS、七牛云等&#xff09;免费公共图床&#xff08;SM.MS、聚合图床、ImgTP、Postimage等&#xff09; 但上述图床都…

2024软件设计师笔记之考点版(一考就过):11-25

软件设计师之一考就过:成绩版 考点11:防火墙、入侵检测 真题1:(专家系统、模型检测、简单匹配)属于入侵检测;而漏洞扫描不属于。 真题2:防火墙特性包括(控制进出网络的数据包和数据流向、提供流量信息的日志和审计、隐藏内部IP以及网络结构细节),但不包括提供漏洞扫…

恋爱脑?No,爱情保镖还得靠AI!

本文由 ChatMoney团队出品 你是否曾经想过&#xff0c;为什么我们会在恋爱中变得如此“上头”&#xff0c;仿佛整个世界都围绕着那个TA旋转? 恋爱脑&#xff0c;通常是指一个人在恋爱中过度投入、过度依赖对方&#xff0c;甚至无法自拔的心理状态。 你会发现自己时时刻刻都在…

屏幕翻译下载哪个软件好?好用的屏幕翻译推荐

想象一下&#xff0c;当我们在阅读外文文档或是观看外语电影时&#xff0c;如果能有一款翻译工具同步提供译文&#xff0c;那将是多么令人愉悦的体验&#xff01; 如果这种翻译服务能够在不影响其他应用的情况下进行&#xff0c;那就是double快乐了。 其实&#xff0c;现在要…

分享一套基于SSM的美食推荐管理系统(源码+文档+部署)

大家好&#xff0c;今天给大家分享一套基于SSM的美食推荐管理系统 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SpringSpringMvcMyBatis 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 博主介绍&#xff1a; 一名Java全栈工程师&#xff0c;专注于Jav…

各大广告商竞相厮杀下,诞生了一个偏门的副业方式

前段时间&#xff0c;想买摩托车&#xff0c;但是媳妇不让买&#xff0c;所以我打算偷偷买&#xff0c;然后萌生了去摆摊赚钱的想法&#xff0c;但是还没有实施就在网上接触到了“某赚”APP&#xff0c;于是一发不可收拾&#xff0c;用我的话来说&#xff0c;我做的不是副业&am…

腾讯云 轻量应用服务器 部署私有化大模型

1. 进入控制台后,找到我们购买的服务器,然后点击登录 服务器 - 轻量云 - 控制台 (tencent.com) 2. 安装系统 面板输入 curl -sSL https://resource.fit2cloud.com/1panel/package/quick_start.sh -o quick_start.sh && sudo bash quick_start.sh 命令解释: 从F…

解密城市酷选为何异军突起!打造消费新潮流的排队免单模式

一、城市酷选平台简介 在数字化浪潮席卷全球的今天&#xff0c;城市酷选作为一个前沿的消费平台&#xff0c;凭借其独特的排队免单模式&#xff0c;成功吸引了众多消费者和商家的目光。该平台不仅整合了线上线下的资源&#xff0c;更通过数字化手段&#xff0c;为消费者提供了…

一文读懂RSTP流媒体传输原理

什么是流&#xff1f; 流&#xff08;Streaming&#xff09;&#xff1a;近年在Internet上出现的新概念&#xff0c;定义非常广泛&#xff0c;主要是指通过网络传输多媒体数据的技术总称。 流式传输分为两种&#xff1a;顺序流式传输 (Progressive Streaming)和实时流式传输 (R…

408数据结构-图的应用1-最小生成树 自学知识点整理

前置知识&#xff1a;图的遍历 图的应用是408初试历年考查的重点。不过一般而言&#xff0c;这部分内容直接以算法设计题形式考查的可能性极小&#xff0c;更多的是结合图的实例来考查算法的具体操作过程&#xff0c;要求掌握的是手推模拟给定图的各个算法执行过程。此外&#…