RAG的输出准确率
RAG的输出准确率 = 向量信息保留率 * 语义搜索准确率 * LLM准确率
RAG的输出准确率由三个因素共同决定:向量信息保留率、语义搜索准确率以及LLM准确率。这三个因素是依次作用的,因此准确率实际上是它们的乘积。这意味着,任何一个环节的不完美都会影响到整体的准确率。
目前,针对RAG的优化工作主要集中在以下三个方面:
- 通过COT等方法提高LLM对问题的理解程度。
- 使用sentence window retrive、rerank等技术来提高语义搜索的准确率。
- 通过精心选择和优化embedding算法,以最大程度保留原始数据的信息。
然而,由于最终准确率是这三个因素准确率的乘积,即使我们将每个环节的准确率都优化到90%,最终的准确率也只能达到72%。因此,提高RAG的输出准确率需要我们在每一个环节都进行深入优化,以实现整体的提升。
RAG高级检索策略
依赖于嵌入的余弦相似性进行检索的方法效果有限。许多人在LangChain中实现了更高级的检索策略,这些策略在LangChain中被广泛采用和记录。
然而,我们发现最常用的检索策略并非LangChain内置的,而是用户自定义的策略。这反映出在LangChain中实现自定义检索策略是相对简单的,同时也说明为了达到最优性能,往往需要开发特定的逻辑。
此外,我们还注意到了一些熟悉的策略名称:
- Self Query:从用户的问题中提取元数据过滤器。
- Hybrid Search:主要通过Supabase和Pinecone等提供商的集成来实现。
- Contextual Compression:对基本检索结果进行后处理。
- Multi Query:将单个查询拆分为多个查询,并检索所有查询的结果。
- TimeWeighted VectorStore:为最近的文档赋予更高的优先级。
这些策略的出现表明,为了提高检索效果,人们正在不断地探索和实施创新的解决方案。
LangGraph协作
主要控制状态转换的因素是「路由器」,但它是一个基于规则的路由器,因此相当简单。基本上,在每次LLM调用之后,它会查看输出。如果调用了工具,则调用该工具。如果没有调用工具且LLM响应“最终答案”,则返回给用户。否则(如果没有调用工具且LLM未响应“最终答案”),则转到另一个LLM。
在LangGraph协作中,控制状态转换的关键组件是「路由器」,它基于规则进行操作,因此设计相对简单。其工作流程大致如下:每次语言模型(LLM)被调用后,路由器会检查其输出内容。如果LLM指示需要调用某个工具,那么路由器就会执行这一工具调用。如果LLM的输出是一个“最终答案”且没有指示调用工具,那么这个答案就会被返回给用户。如果LLM的输出既没有指示调用工具,也没有提供“最终答案”,那么路由器会将任务转发给另一个LLM进行进一步处理。
Neo4j-图数据库AI助手
在业界,利用语言模型(LLMs)生成Cypher查询语句已经变得非常普遍。这种方法显著增加了数据提取的灵活性。然而,经验表明,直接依赖LLMs生成Cypher语句可能会遇到稳定性和准确性方面的问题。
为了解决这些挑战,我们探索了一种新的策略,旨在确保操作的稳定性和高度一致性。我们提出的方法是让LLM不再直接创建Cypher语句,而是根据用户的指令,从提供的信息中识别和提取参数。接着,这些参数被用来填充预定义的函数或现有的Cypher模板,以生成准确的查询。
Agents自省
基础自省
在Agents自省的场景中,我们采用了基础自省的方法,涉及到两个语言模型的互动:一个是生成器,另一个是自省者。生成器的角色是直接回答用户的查询,而自省者则承担起指导者的责任,对生成器的初步回答提供有益的评估和指导。
这一互动过程会经历几个循环,直至最终提供一个经过优化的答案。
Reflexion
在Agents自省的领域,Shinn等人开发的Reflexion框架通过口头反馈和自我反思来促进学习。该框架中,执行者负责对每次生成的响应进行深入分析,并利用外部数据提供支持。执行者被要求提供引文作为证据,并明确指出响应中的重复内容和缺失信息,这样的自省过程不仅具有建设性,还能指导生成器根据反馈进行相应的改进。
在我们的示例中,我们在达到一定步骤后停止了自省过程。然而,你也可以选择让自省语言模型自行决定何时结束这一过程。
代理循环的概述如下:
执行者概述
在每一步的执行过程中,回答者的任务是提供答案,并执行一系列的搜索查询作为补充操作。紧接着,审稿者需要对当前的情况进行反思和评估。这一逻辑可以通过LangGraph框架来定义。
语言代理树搜索
在Agents自省的领域,Zhou等人研发的语言代理树搜索(LATS)是一种创新算法,它整合了自省评估和搜索架构,尤其是蒙特卡洛树搜索。该算法基于标准的强化学习(RL)任务框架,并采用语言模型来替代传统RL代理、价值函数和优化器,这样做显著提升了处理复杂任务的能力,并有效避免了陷入重复的行为模式。
搜索过程分为以下四个主要步骤:
- 选择:基于后续步骤产生的综合奖励,挑选出最佳行动方案。当找到解决方案或达到最大搜索深度时,会直接给出响应;若没有,则继续搜寻。
- 扩展和模拟:预设生成 N 个可能采取的行动(本例中为 5 个),并同时执行这些行动。
- 反思和评价:观察这些行动产生的结果,并依据反思(也可能包含外部反馈)对其做出评价。
- 反向传播:根据行动结果更新初始轨迹的评分。
如果智能体拥有一个有效的反馈环,基于环境奖励或可靠的自省得分,那么它就可以确切区分不同的行动轨迹,并选择更佳路径。最终选定的路径可以保存在外部记忆中,或者用于模型的微调,提升未来的性能表现。
“选择”步骤会选择具有最高上限置信区间(UCT)的节点,该步骤平衡了预期奖励与探索新途径的动机。
通过查阅代码,可以了解具体实现方式。在 LangGraph 的实现中,我们将生成和自省步骤归于同一节点,并且每一次循环时都会检查任务状态,以判断任务是否已被成功解决。
LATS 将诸如 Reflexion、思想树和计划执行等其他代理架构中的推理、规划、自省组件结合起来。通过对自省和环境反馈的逆向传播,LATS 优化了搜索流程。尽管它对奖励分数可能较为敏感,但总体来说,这个算法可以灵活地应用于多种任务。
与其他代理架构的对比图
RAG数据抽取服务
明确抽取需求
为了确保语言模型(LLM)有效地抽取信息,我们需要清楚地指导它我们想要什么。明确需求包括三个核心部分:
- 描述你希望抽取的数据结构的模式(Schema)。
- 提供包含抽取背景和指示的命令(Prompt)。
- 展示文本信息抽取的实例样本(Reference examples)。
实现过程
理解了这些组成部分后,我们需要了解如何使它们协同工作。我们将分享两个简单但有效的方法。
- 首先,确保LLM以正确的格式回应至关重要。仅仅在命令中指示LLM输出JSON格式可能不足以确保一致性。因此,采用函数调用已经成为一种新的、相对可靠的方法来确保LLM严格按照特定格式输出。我们建议使用这种方法来提高性能。
可以查阅结构化输出文档,其中LangChain API的高级视图展示了不同LLM如何调用工具和函数。
- 另一个提高性能的方法是使用参考样本。尽管可以不使用样本来设置抽取问题,但我们发现,在实际应用中,提供输入和相应输出的样本通常非常有帮助。有时,这些样本比指令本身更能有效地指导LLM处理特定情况。
LangChain 数据抽取文档:https://python.langchain.com/docs/use_cases/extraction
信息检索的能力边界
随着人工智能模型处理能力的提升,它们能够有效处理的上下文信息量也在不断增加,现在已能处理达到百万级别的词汇量。这种能力使得大型语言模型(LLMs)对长上下文文本的研究兴趣日益浓厚。在这类模型的研究中,一种广泛采用的方法是将一个事实(被称为“针”)嵌入到大量的上下文信息(被称为“干草堆”)中,随后测试模型是否能够在这些上下文中定位并回答与该事实相关的问题。这种测试方法使我们能够评估并洞察模型在处理长文本和信息检索方面的能力极限。