从Naive RAG到Agentic RAG:基于Milvus构建Agentic RAG

78918befa51d30bf37a1f3ec3ede020b.png

3544b4b972c9bf99969f8ec649aac375.png

检索增强生成(Retrieval-Augmented Generation, RAG)作为应用大模型落地的方案之一,通过让 LLM 获取上下文最新数据来解决 LLM 的局限性。典型的应用案例是基于公司特定的文档和知识库开发的聊天机器人,为公司内部人员快速检索内部文档提供便利。另外,也适用于特定领域的GenAI应用,如医疗保健、金融和法律服务。尽管Naive RAG在处理简单问题时表现良好,但在面对复杂任务时却显得力不从心。本文将探讨Naive RAG的局限性,并介绍如何通过引入代理(Agentic)方法来提升RAG系统的智能性和实用性。

01.

Naive RAG的局限性

Naive RAG方法在处理简单问题时表现良好,例如:

  • “特斯拉的主要风险因素是什么?”(基于特斯拉2021年10K报告)

  • “Milvus 2.4有哪些功能?”(基于Milvus 2.4 release note)

然而,当面对更复杂的问题时,Naive RAG的局限性就显现出来了。

  • 总结性问题:例如,“给我一个公司10K年度报告的总结”,Naive RAG难以在不丢失重要信息的情况下生成全面的总结。

  • 比较性问题:例如,“Milvus 2.4 与Milvus 2.3 区别有哪些”,Naive RAG难以有效地进行多文档比较。

  • 结构化分析和语义搜索:例如,“告诉我美国表现最好的网约车公司的风险因素”,Naive RAG难以在复杂的语义搜索和结构化分析中表现出色。

  • 一般性多部分问题:例如,“告诉我文章A中的支持X的论点,再告诉我文章B中支持Y的论点,按照我们的内部风格指南制作一个表格,然后基于这些事实生成你自己的结论”,Naive RAG难以处理多步骤、多部分的复杂任务。

02.

Naive RAG上述痛点的原因
  • 单次处理:Naive RAG通常是一次性处理查询,缺乏多步骤的推理能力。

  • 缺乏查询理解和规划:Naive RAG无法深入理解查询的复杂性,也无法进行任务规划。

  • 缺乏工具使用能力:Naive RAG无法调用外部工具或API来辅助完成任务。

  • 缺乏反思和错误纠正:Naive RAG无法根据反馈进行自我改进。

  • 无记忆(无状态):Naive RAG无法记住对话历史,无法在多轮对话中保持上下文一致性。

03.

从RAG到Agentic RAG

为了克服Naive RAG的局限性,我们可以引入代理方法(Agentic),使RAG系统更加智能和灵活。

  • 路由

    • 路由是最简单的代理推理形式。给定用户查询和一组选择,系统可以输出一个子集,将查询路由到合适的处理模块。

  • 工具

    • 调用外部工具或API来辅助完成任务。比如,使用查询天气接口来获取最新的天气信息。

  • 查询/任务规划

    • 将查询分解为可并行处理的子查询。每个子查询可以针对任何一组RAG管道执行,从而提高处理效率和准确性。

  • 反思

    • 使用反馈来改进代理的执行并减少错误,反馈可以来自LLM自身。

  • 记忆

    • 除了当前查询外,还可以将对话历史作为输入,纳入RAG管道中,从而在多轮对话中保持上下文一致性。

04.

实践

我们基于Milvus,LlamaIndex构建一个Agentic RAG案例。

首先,我们把Milvus 2.3 和 2.4 release note文档,通过LlamaIndex SentenceWindowNodeParser分段之后,导入到Milvus。

node_parser = SentenceWindowNodeParser.from_defaults(
    window_size=3,
    window_metadata_key="window",
    original_text_metadata_key="original_text",
)

# Extract nodes from documents
nodes = node_parser.get_nodes_from_documents(documents)

vector_store = MilvusVectorStore(dim=1536, 
                                 uri="http://localhost:19530",
                                 collection_name='agentic_rag',
                                 overwrite=True,
                                 enable_sparse=False,
                                 hybrid_ranker="RRFRanker",
                                 hybrid_ranker_params={"k": 60})

storage_context = StorageContext.from_defaults(vector_store=vector_store)

index = VectorStoreIndex(
    nodes, 
    storage_context=storage_context
)

然后,我们定义两个agent tool,他们分别是vector query tool 和summary tool。vector query tool利用了Milvus Hybrid search能力。summary tool采用了 LlamaIndex的 SummaryIndex 对于文档块提取summary。

def vector_query(
    query: str,
    page_numbers: Optional[List[int]] = None
) -> str:
    # The target key defaults to `window` to match the node_parser's default
    postproc = MetadataReplacementPostProcessor(
                target_metadata_key="window"
            )
    # BAAI/bge-reranker-base is a cross-encoder model
    # link: https://huggingface.co/BAAI/bge-reranker-base
    rerank = BGERerankFunction(
                top_n = 3, 
                model_name = "BAAI/bge-reranker-base",
                device="cpu"
                )

    # The QueryEngine class is equipped with the generator and facilitates the retrieval and generation steps
    query_engine = vector_index.as_query_engine(
                        similarity_top_k = 3, 
                        vector_store_query_mode="hybrid",  # Milvus starts supporting from version 2.4, use 'Default' for versions before 2.4
                        node_postprocessors = [postproc, rerank],
                    )

    response = query_engine.query(query)
    return response


vector_query_tool = FunctionTool.from_defaults(
    name=f"vector_tool_{name}",
    fn=vector_query
)
summary_index = SummaryIndex(nodes)
summary_query_engine = summary_index.as_query_engine(
    response_mode="tree_summarize",
    use_async=True,
)
summary_tool = QueryEngineTool.from_defaults(
    name=f"summary_tool_{name}",
    query_engine=summary_query_engine,
    description=(
        f"Useful for summarization questions related to {name}"
    ),
)

最后,通过LlamaIndex的ReActAgentWorker整合vector query tool 和summary tool,以及React的特性,反思,路由以及使用工具能力,实现Agentic RAG。

response = agent.query(
    "Tell me about the difference between milvus 2.3 and milvus 2.4?"
)

这是对于上述问题的思考过程,包括React的观察,思考,行动具体步骤。

Thought: The user is asking about the differences between Milvus 2.3 and Milvus 2.4. I need to gather information about both versions to provide a comprehensive comparison.
Action: vector_tool_milvus_2_3
Action Input: {'query': "What's new in Milvus 2.3?"}
Thought: It appears there is a persistent issue with the tool input. I will try using a different tool to gather the necessary information.
Action: summary_tool_milvus_2_3
Action Input: {'input': "What's new in Milvus 2.3?"}
Observation: Milvus 2.3 introduces several new features and enhancements, including GPU support, Arm64 support, a refactored QueryNode, and a merged IndexCoord and DataCoord for simplified deployment. It also includes a new NATS-based message queue, upsert API, range search, count statement, cosine metrics, raw vectors in search returns, ScaNN index support, iterator functionality, JSON_CONTAINS expressions, and CDC support. Additionally, there are performance improvements such as MMap for capacity increase, optimized data filtering, growing index, and increased resource usage in multi-core environments. The release also features a new load balancer, dynamic configuration support, tracing support, reorganized error codes, and upgraded tools like Birdwatcher and Attu.
Thought: I have gathered information about the new features and enhancements in Milvus 2.3. Now, I need to gather similar information for Milvus 2.4 to compare the two versions.
Action: summary_tool_milvus_2_4
Action Input: {'input': "What's new in Milvus 2.4?"}
Observation: Milvus 2.4 introduces several new features and improvements. Key highlights include:
...
These updates aim to enhance system performance, improve observability, and streamline the codebase for increased simplicity.
Thought: I now have detailed information about the new features and enhancements in both Milvus 2.3 and Milvus 2.4. I can compare the two versions based on these details.

输出的答案,从答案来看,不仅详细列举了Milvus 2.3 和Milvus 2.4各种功能特性,还有功能总结与对比。

Answer: Milvus 2.3 and Milvus 2.4 both introduce significant new features and improvements, but they focus on different aspects of the system. Here are the key differences:

### Milvus 2.3:
1. **GPU and Arm64 Support**: Introduces GPU support and Arm64 support.
2. **Refactored QueryNode**: Simplifies deployment by merging IndexCoord and DataCoord.
3. **New Message Queue**: Implements a NATS-based message queue.
4. **New APIs and Features**: Includes upsert API, range search, count statement, cosine metrics, raw vectors in search returns, ScaNN index support, iterator functionality, JSON_CONTAINS expressions, and CDC support.
5. **Performance Improvements**: Features MMap for capacity increase, optimized data filtering, growing index, and increased resource usage in multi-core environments.
6. **Load Balancer and Dynamic Configuration**: Introduces a new load balancer and dynamic configuration support.
7. **Tool Upgrades**: Upgrades tools like Birdwatcher and Attu.

### Milvus 2.4:
1. **New GPU Index - CAGRA**: Introduces a state-of-the-art GPU-based graph index for significant performance boosts.
2. **Multi-vector and Hybrid Search**: Supports storing vector embeddings from multiple models and conducting hybrid searches.
3. **Sparse Vectors**: Supports efficient approximate semantic nearest neighbor search for keyword interpretation and analysis.
4. **Grouping Search**: Allows aggregation of search results by specific scalar fields.
5. **Inverted Index and Fuzzy Match**: Improves scalar query performance and supports fuzzy matches.
6. **New Data Types**: Supports Float16 and BFloat16 vector data types.
7. **L0 Segment**: Enhances performance of delete and upsert operations by recording deleted data.
8. **Refactored BulkInsert**: Improves logic for importing multiple files in a single request.
9. **Memory-mapped Storage**: Optimizes memory usage by mapping file content into memory.
10. **Milvus-CDC**: Improves stability for capturing and synchronizing incremental data.

### Summary:
- **Milvus 2.3** focuses on broadening hardware support, enhancing deployment simplicity, and introducing various new APIs and performance improvements.
- **Milvus 2.4** emphasizes advanced search capabilities, new data types, improved memory management, and further performance optimizations.

Both versions aim to enhance system performance and usability, but Milvus 2.4 introduces more advanced search features and optimizations compared to Milvus 2.3.

05.

结论

从Naive RAG到Agentic RAG的转变,标志着检索增强生成技术的一个重要进步。通过引入代理(Agentic)方法,我们可以显著提升RAG系统在处理复杂任务时的能力。这不仅使得RAG系统更加智能和灵活,也为其在实际应用中提供了更广阔的前景。未来,我们可以期待更多基于Agentic RAG的创新应用,推动大模型技术的发展。

Ref: https://docs.google.com/presentation/d/1IWjo8bhoatWccCfGLYw_QhUI4zfF-MujN3ORIDCBIbc/edit#slide=id.g2c00d03c26e_0_64

作者介绍

fe89bb0ac80a3e2a30c531bcbeaf162e.jpeg

Milvus 北辰使者:臧伟

推荐阅读

a0a226cbffd16c41d254c6a78aff9ddc.png

456622b259ee5979c1748886af539c40.png

f53039d62b2027b7468b75f44fd4bdb9.png

879c143ce16de31a8e62a2ccaa6a93be.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/894829.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

萤石云服务支持云端视频AI自动剪辑生成

萤石视频云存储及媒体处理服务是围绕IoT设备云端存储场景下的音视频采集、媒体管理、视频剪辑和分发能力的一站式、专业云服务,并可面向广大开发者提供复杂设备存储场景下的完整技术方案。目前该服务新增了视频剪辑功能,支持将视频片段在云端进行裁剪并拼…

nacos的使用

nacos的使用 本专栏的上一篇文章已经部署好了nacos,我们就可以使用nacos做配置中心和注册中心了。 一、配置中心 有了nacos,我们在微服务项目的配置文件里只需要做一些简单的配置就行了:服务名、服务端口、nacos的地址。其余的配置都可以用…

python 作业1

任务1: python为主的工作是很少的 学习的python的优势在于制作工具,制作合适的工具可以提高我们在工作中的工作效率的工具 提高我们的竞争优势。 任务2: 不换行 换行 任务3: 安装pycharm 进入相应网站Download PyCharm: The Python IDE for data science and we…

基于springboot的4S店车辆管理系统

作者:计算机学长阿伟 开发技术:SpringBoot、SSM、Vue、MySQL、ElementUI等,“文末源码”。 系统展示 【2024最新】基于JavaSpringBootVueMySQL的,前后端分离。 开发语言:Java数据库:MySQL技术:…

基于springboot+微信小程序校园自助打印管理系统(打印1)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 基于springboot微信小程序校园自助打印管理系统实现了管理员、店长和用户。管理员实现了用户管理、店长管理、打印店管理、打印服务管理、服务类型管理、预约打印管理和系统管理。店长实现…

【哈工大_操作系统实验】Lab6 信号量的实现和应用

本节将更新哈工大《操作系统》课程第六个 Lab 实验 信号量的实现和应用。按照实验书要求,介绍了非常详细的实验操作流程,并提供了超级无敌详细的代码注释。 实验目的: 加深对进程同步与互斥概念的认识;综掌握信号量的使用&#x…

uniapp x 样式 uvue css 样式节选

uniapp的下一版本uniapp x已经发布,uniapp x支持的样式为uvue css。 1、css模块 模块App支持情况备注背景与边框√不支持背景图盒子模型√Flex 布局√Inline 布局Inline-Block 布局Block 布局字体√详见Positioned 布局√CSS AnimationxCSS Transition√CSS Varia…

汇编实现逆序复制数据

一.实验目的 使其可以将10000H ~ 1000FH中的8个字,逆序复制到20000H ~ 2000FH中。 二.实验过程表示 三.部分汇编实现代码 mov ax,1000H ;将1000H放入AX寄存器中 mov ds,ax ;将AX寄存器中的内容放入DS寄存器中,这时候DS中存…

Ubuntu里彻底卸载UHD

查看已经安装的UHD版本uhd_find_devices,展示的是当前安装的 UHD 库版本所支持的设备信息,下载了多个版本的uhd但是又记不住安装的位置,想要把所有的uhd相关环境全都删掉,用下边这个命令看一下所有的uhd信息: apt lis…

如何设计开发RTSP直播播放器?

技术背景 我们在对接RTSP直播播放器相关技术诉求的时候,好多开发者,除了选用成熟的RTSP播放器外,还想知其然知其所以然,对RTSP播放器的整体开发有个基础的了解,方便方案之作和技术延伸。本文抛砖引玉,做个…

万户ezEIP企业管理系统 productlist.aspx SQL注入漏洞复现

0x01 产品简介 万户ezEIP是一种企业资源规划软件,旨在帮助企业管理其各个方面的业务流程。它提供了一套集成的解决方案,涵盖了财务、供应链管理、销售和市场营销、人力资源等各个领域。 0x02 漏洞概述 万户ezEIP企业管理系统 productlist.aspx 接口存在SQL注入漏洞,未经身…

【学术会议-6】激发灵感-计算机科学与技术学术会议邀您参与,共享学术盛宴,塑造明天的科技梦想!

【学术会议-6】激发灵感-计算机科学与技术学术会议邀您参与,共享学术盛宴,塑造明天的科技梦想! 【学术会议-6】激发灵感-计算机科学与技术学术会议邀您参与,共享学术盛宴,塑造明天的科技梦想! 文章目录 【…

【Linux】进程ID和线程ID在日志中的体现

在分析内核打印日志流程的时候,发现有时候同一个进程函数调用关系比较混乱(因为只打印了进程号),现象就是一个函数走着走着不知道走哪里去了。 另一个现象是,在Linux启动Firefox的时候,启了大概80个进程&…

Rocky linux 修改ip地址, rocky服务器修改静态地址, rocky虚拟机修改ip

1. 更新yum yum update 2. 安装ifconfig yum install net-tools 3. 修改配置 vi /etc/NetworkManager/system-connections/ens33.nmconnection 将ipv4内容修改如下: # 自动改为手动 methodmanual # 网关为vm ware 查看网关地址 address你想改为的ip/24,网关 #dns不…

Linux基础-shell的简单实现

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 Linux基础-shell的简单实现 收录于专栏[Linux学习] 本专栏旨在分享学习Linux的一点学习笔记,欢迎大家在评论区交流讨论💌 目录 1, 全局变…

MatLab Desired port was :31515解决方案

前言:使用的MatLabR2022b今天突然出现了错误,在程序中打不开文件。后尝试了下面的方法,可以解决。 解决方法一: 搜索栏输入:firewall.cpl 找到相关项,右键属性,设置为允许。 之后就可以了…

超声波清洗机双十一值得买吗?2024四款顶级超声波清洗机推荐!

许多朋友们可能还在犹豫不决,思考着在双十一这个购物狂欢节里,究竟应该选择哪一款品牌的超声波清洗机来购买呢?不用担心,今天我将为大家详细解读2024年四款备受瞩目的顶级超声波清洗机,让你在双十一的购物狂欢中不再感…

地理空间与交通流量数据集:TaxiNYC、TaxiBJ、BikeDC和BikeNYC

目录 TaxiNYC数据集TaxiBJ数据集BikeDC数据集1. **数据来源与时间范围**2. **数据内容**3. **区域划分与站点处理**4. **图结构构建**5. **人群流动计算**6. **数据集的应用场景**7. **预测任务设置**8. **图的构建** BikeNYC数据集1. **数据来源与时间范围**2. **数据内容**3.…

单位评职称需要在指定媒体上投稿发表文章看我如何轻松应对

在职场中,晋升与评职称是一项不可或缺的任务,而在这个过程中,完成相关的投稿更是至关重要。作为单位的一名员工,当我得知自己需要在指定的媒体上发表文章以满足职称评审要求时,心中既期待又忐忑。起初,我选择了传统的邮箱投稿方式,然而却没想到,这条路竟让我倍感挫折。 刚开始,…

FlexMatch: Boosting Semi-Supervised Learning with Curriculum Pseudo Labeling

FlexMatch: Boosting Semi-Supervised Learning with Curriculum Pseudo Labeling 摘要:引言:背景3 flexMatch3.1 Curriculum Pseudo Labeling3.2 阈值预热3.3非线性映射函数实验4.1 主要结果4.2 ImageNet上的结果4.3收敛速度加速4.4 消融研究5 相关工作摘要: 最近提出的Fi…