dify实现原理分析-rag-数据检索的实现

数据检索的总体执行步骤

数据检索总体步骤如下:

输入验证
模型初始化
策略选择: 1.单线程检索 2.多线程检索
数据集筛选: 选择符合条件的数据集
执行检索: 使用单线程或多线程检索来查询数据
结果处理: 结果选择和格式化处理
返回格式化内容: 最终返回一个结果字符串

数据检索是在DatasetRetrieval.retrieve函数中实现的,主要实现逻辑分为以下几步:

  1. 检查输入的模型、数据集id列表等是否为空;

  2. 获取模型实例,并把它转换成LargeLanguageModel对象;

  3. 获取模型实例,并获取模型的元数据,主要是模型的各种参数,以及认证参数等。若模型的元数据为空,直接返回None。

  4. 默认情况下,规划路由策略被设置为 REACT_ROUTER。如果模型支持工具调用(TOOL_CALL)或多重工具调用(MULTI_TOOL_CALL),则将规划策略更改为 ROUTER;

  5. 筛选可用的数据集:若数据集为空,或数据集不可用则过滤掉数据集;后续的数据检索,会从这些可用数据集中来进行检索。

  6. 根据配置选择单线程(RetrieveStrategy.SINGLE)或多线程检索(RetrieveStrategy.MULTIPLE),获取检索到的document列表;这里只是设置检索的参数,而这两种检索方式都会调用检索服务的RetrievalService.retrieve(…)函数来检索符合条件的数据集。

  7. 处理dify提供者的document:使用回调函数返回检索结果,根据分数对检索结果进行排序,并返回格式化后的字符串。

    1)获取每个文档的分数(score)的值

    2)查询状态为completed,且可用,doc_id在检索出来的文档列表中的DocumentSegment列表

    3)若segment(文档块)不为空。

    ​ 3.1) 获取segment的id和位置(确定文档内容的读取位置)

    ​ 3.2) 按id所在的position(位置)排序,若id不在字典中排到最后(无穷大inf)

    ​ 3.3) 遍历排好序的segment:根据条件构建新的列表,然后进行一下操作:

    ​ a) 检查每个segment是否包含answer

    ​ b) 包含:构建一个包含问题和答案的字符串

    ​ c) 不包含:则只构建一个问题的字符串

    ​ 3.4) 对已排好序的segment进行遍历

    ​ 3.5) 获取segment对应的dataset_id对应的dataset

    ​ 3.6) 获取segment.document_id对应的document

  8. 使用回调函数返回检索结果,根据分数对检索结果进行排序,并返回格式化后的字符串。

检索的详细执行流程

数据检索的函数声明如下:

class DatasetRetrieval:
    def __init__(self, application_generate_entity=None):
        self.application_generate_entity = application_generate_entity

    def retrieve(
        self,
        app_id: str,
        user_id: str,
        tenant_id: str,
        model_config: ModelConfigWithCredentialsEntity,
        config: DatasetEntity,
        query: str,
        invoke_from: InvokeFrom,
        show_retrieve_source: bool,
        hit_callback: DatasetIndexToolCallbackHandler,
        message_id: str,
        memory: Optional[TokenBufferMemory] = None,
    ) -> Optional[str]:
        """
        Retrieve dataset.
        :param app_id: app_id
        :param user_id: user_id
        :param tenant_id: tenant id
        :param model_config: model config
        :param config: dataset config
        :param query: query
        :param invoke_from: invoke from
        :param show_retrieve_source: show retrieve source
        :param hit_callback: hit callback
        :param message_id: message id
        :param memory: memory
        :return:
        """

该函数的详细实现逻辑如下:

  1. 检查数据集id列表,若数据集id列表为空,则直接返回None;
        # 检查输入的模型、数据集等是否有效。
        dataset_ids = config.dataset_ids
        if len(dataset_ids) == 0:
            return None
  1. 根据模型配置来获取和构建模型实例对象,并获取模型的元数据(各种参数)
        model_type_instance = model_config.provider_model_bundle.model_type_instance
        model_type_instance = cast(LargeLanguageModel, model_type_instance)

        # 获取模型实例
        model_manager = ModelManager()
        model_instance = model_manager.get_model_instance(
            tenant_id=tenant_id, model_type=ModelType.LLM, provider=model_config.provider, model=model_config.model
        )
  1. 设置计划策略,默认情况下计划策略是:PlanningStrategy.REACT_ROUTER,若模型特征支持工具调用:ModelFeature.TOOL_CALL或MULTI_TOOL_CALL,则把计划策略设置成:ROUTER,即:planning_strategy = PlanningStrategy.ROUTER
        # 默认情况下,规划策略被设置为 REACT_ROUTER。
        planning_strategy = PlanningStrategy.REACT_ROUTER
        # 检查模型的特性(features)。
        # 如果模型支持工具调用(TOOL_CALL)或多重工具调用(MULTI_TOOL_CALL),则将规划策略更改为 ROUTER。
        features = model_schema.features
        # 检查模型是否支持工具调用,若支持计划策略设置为ROUTER
        if features:
            if ModelFeature.TOOL_CALL in features or ModelFeature.MULTI_TOOL_CALL in features:
                planning_strategy = PlanningStrategy.ROUTER
        available_datasets = []
  1. 筛选可用数据集:遍历参数中的dataset_ids列表,从数据库中查询对应id的数据集,过滤掉数据集可用文档为0的和数据集的provide为external的数据集。
        # 筛选可用的数据集。
        for dataset_id in dataset_ids:
            # 查询对应id列表的数据集
            dataset = db.session.query(Dataset).filter(Dataset.tenant_id == tenant_id, Dataset.id == dataset_id).first()
            # 数据集为空,pass掉
            if not dataset:
                continue
            # 数据集不可用,pass掉
            if dataset and dataset.available_document_count == 0 and dataset.provider != "external":
                continue
            # 把数据集添加到可用数据集列表中
            available_datasets.append(dataset)
  1. 根据配置选择单线程(single_retrieve)或多线程(multiple_retrieve)检索来检索document,得到结果document列表:all_documents。
        if retrieve_config.retrieve_strategy == DatasetRetrieveConfigEntity.RetrieveStrategy.SINGLE:
            all_documents = self.single_retrieve(...)
        elif retrieve_config.retrieve_strategy == DatasetRetrieveConfigEntity.RetrieveStrategy.MULTIPLE:
            all_documents = self.multiple_retrieve(...)
  1. 从all_documents中抽取出:dify_documents(provider == “dify”)和external_documents(provider == “external”)的结果。处理外部和Dify提供者的document,生成相应的上下文和资源信息。
        # 得到不同提供者的document
        dify_documents = [item for item in all_documents if item.provider == "dify"]
        external_documents = [item for item in all_documents if item.provider == "external"]
  1. 处理结果队列dify_documents,步骤如下:

(1)收集评分信息(document_score_list):通过检查 dify_documents 列表中每个文档片段的 score 元数据,构建一个字典 document_score_list,其中键是文档 ID,值是对应的评分。

            # 获取每个文档的分数(score)的值
            for item in dify_documents:
                if item.metadata.get("score"):
                    document_score_list[item.metadata["doc_id"]] = item.metadata["score"]

(2)过滤和排序文档片段:根据给定的 dataset_ids 和一些状态条件(如 status=completed, enabled=True),从数据库中查询相关的文档片段(DocumentSegment)。然后将这些文档片段按其在原始列表中的索引顺序进行排序。

(3)构建文档上下文(document_context_list):对于每个排序后的文档片段,创建一个 DocumentContext 实例,并将其添加到 document_context_list 中。如果文档片段包含答案(answer),则将答案与问题一起作为一个字符串存储在内容字段中;否则,只存储问题。

             # 获取segment的id和位置(确定文档内容的读取位置)
                index_node_id_to_position = {id: position for position, id in enumerate(index_node_ids)}
                # 按id所在的position(位置)排序,若id不在字典中排到最后(无穷大inf)
                sorted_segments = sorted(
                    segments, key=lambda segment: index_node_id_to_position.get(segment.index_node_id, float("inf"))
                )
                # 遍历排好序的segment:根据条件构建新的列表
                for segment in sorted_segments:
                    # 检查每个segment是否包含answer
                    if segment.answer: # 包含:构建一个包含问题和答案的字符串
                        document_context_list.append(
                            DocumentContext(
                                content=f"question:{segment.get_sign_content()} answer:{segment.answer}",
                                score=document_score_list.get(segment.index_node_id, None),
                            )
                        )
                    else: # 不包含:则只构建一个问题的字符串
                        document_context_list.append(
                            DocumentContext(
                                content=segment.get_sign_content(),
                                score=document_score_list.get(segment.index_node_id, None),
                            )
                        )

(4)构建检索资源(retrieval_resource_list):如果设置了 show_retrieve_source 标志为真,对于每个排序后的文档片段,查询相关的数据集(dataset)和文档(document)信息。创建一个 source 字典,其中包含数据集、文档的详细信息以及文档片段的相关属性(如评分、命中次数、词数等)。将包含详细信息的 source 字典添加到 retrieval_resource_list 中。

 	          if show_retrieve_source: # 设置了展示检索源的标识			
    			  for segment in sorted_segments: # 遍历排序segment
                        # 获取segment对应的dataset_id对应的dataset
                        dataset = Dataset.query.filter_by(id=segment.dataset_id).first()
                        # 获取segment.document_id对应的document
                        document = DatasetDocument.query.filter(
                            DatasetDocument.id == segment.document_id,
                            ...
                        ).first()
                        # 若2者同时存在
                        if dataset and document:
                            # 构建source字典,包含各种信息
                            source = {
                                "dataset_id": dataset.id,
                                "dataset_name": dataset.name,
                                "document_id": document.id,
                                "document_name": document.name,
                                "data_source_type": document.data_source_type,
                                "segment_id": segment.id,
                                "retriever_from": invoke_from.to_source(),
                                "score": document_score_list.get(segment.index_node_id, 0.0),
                            }
							...
                            # 若segment的回答不为空,则获取:question与answer
                            if segment.answer:
                                source["content"] = f"question:{segment.content} \nanswer:{segment.answer}"
                            else: # 仅获取question
                                source["content"] = segment.content
                            # 将源字典添加到retrieval源列表中
                            retrieval_resource_list.append(source)
  1. 使用回调函数返回检索结果,根据分数对检索结果进行排序,并返回格式化后的字符串。
        # 使用回调函数返回检索结果,根据分数对检索结果进行排序,并返回格式化后的字符串。                   
        if hit_callback and retrieval_resource_list:
            # 根据segment所在doc_id的分数进行排序
            retrieval_resource_list = sorted(retrieval_resource_list, key=lambda x: x.get("score") or 0.0, reverse=True)
            # 获取检索列表中的位置参数
            for position, item in enumerate(retrieval_resource_list, start=1):
                item["position"] = position
            hit_callback.return_retriever_resource_info(retrieval_resource_list)
  1. 按分数进行排序,并把文档内容合并在一个字符串中返回
if document_context_list:
    # 按分数进行排序,并把文档内容合并在一个字符串中返回
    document_context_list = sorted(document_context_list, key=lambda x: x.score or 0.0, reverse=True)
    return str("\n".join([document_context.content for document_context in document_context_list]))

总结

总结一下数据检索的主要步骤:(1)参数验证和模型选择;(2)检索策略选择:单线程或多线程检索(3)结果筛选和处理(4)结果合并和格式化处理,然后返回。

不管是单线程检索还是多线程检索,都会调用检索服务的retrieve函数来实现检索功能,检索服务的检索具体实现会在后面的文章中进行分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/962077.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Blazor-@bind

数据绑定 带有 value属性的标记都可以使用bind 绑定&#xff0c;<div>、<span>等非输入标记&#xff0c;无法使用bind 指令的&#xff0c;默认绑定了 onchange 事件&#xff0c;onchange 事件是指在输入框中输入内容之后&#xff0c;当失去焦点时执行。 page &qu…

H264原始码流格式分析

1.H264码流结构组成 H.264裸码流&#xff08;Raw Bitstream&#xff09;数据主要由一系列的NALU&#xff08;网络抽象层单元&#xff09;组成。每个NALU包含一个NAL头和一个RBSP&#xff08;原始字节序列载荷&#xff09;。 1.1 H.264码流层次 H.264码流的结构可以分为两个层…

Qt中QVariant的使用

1.使用QVariant实现不同类型数据的相加 方法&#xff1a;通过type函数返回数值的类型&#xff0c;然后通过setValue来构造一个QVariant类型的返回值。 函数&#xff1a; QVariant mainPage::dataPlus(QVariant a, QVariant b) {QVariant ret;if ((a.type() QVariant::Int) &a…

C++,STL 简介:历史、组成、优势

文章目录 引言一、STL 的历史STL 的核心组成三、STL 的核心优势四、结语进一步学习资源&#xff1a; 引言 C 是一门强大且灵活的编程语言&#xff0c;但其真正的魅力之一在于其标准库——尤其是标准模板库&#xff08;Standard Template Library, STL&#xff09;。STL 提供了…

每日一题——序列化二叉树

序列化二叉树 BM39 序列化二叉树题目描述序列化反序列化 示例示例1示例2 解题思路序列化过程反序列化过程 代码实现代码说明复杂度分析总结 BM39 序列化二叉树 题目描述 请实现两个函数&#xff0c;分别用来序列化和反序列化二叉树。二叉树的序列化是将二叉树按照某种遍历方式…

关于安卓greendao打包时报错问题修复

背景 项目在使用greendao的时候&#xff0c;debug安装没有问题&#xff0c;一到打包签名就报了。 环境 win10 jdk17 gradle8 项目依赖情况 博主的greendao是一个独立的module项目&#xff0c;项目目前只适配了java&#xff0c;不支持Kotlin。然后被外部集成。greendao版本…

Java实现.env文件读取敏感数据

文章目录 1.common-env-starter模块1.目录结构2.DotenvEnvironmentPostProcessor.java 在${xxx}解析之前执行&#xff0c;提前读取配置3.EnvProperties.java 这里的path只是为了代码提示4.EnvAutoConfiguration.java Env模块自动配置类5.spring.factories 自动配置和注册Enviro…

【AutoSar】汽车诊断标准协议UDS详解

目录 一、基本概念二、UDS诊断协议2.1 诊断服务的概念2.2常用的诊断服务2.2.1 诊断会话控制服务&#xff08;10服务&#xff09;2.2.2 会话访问0x27服务2.2.3 用于读写的DID的0x22/0x2E服务 一、基本概念 车辆的诊断需要有Tester端和ECU段通过应答的方式进行通信&#xff0c;他…

Java线程认识和Object的一些方法

本文目标&#xff1a; 要对Java线程有整体了解&#xff0c;深入认识到里面的一些方法和Object对象方法的区别。认识到Java对象的ObjectMonitor&#xff0c;这有助于后面的Synchronized和锁的认识。利用Synchronized wait/notify 完成一道经典的多线程题目&#xff1a;实现ABC…

【漫话机器学习系列】067.希腊字母(greek letters)-写法、名称、读法和常见用途

希腊字母&#xff08;Greek Letters&#xff09; 希腊字母在数学、科学、工程学和编程中广泛使用&#xff0c;常用于表示变量、常量、参数、角度等。以下是希腊字母的完整列表及其常见用途。 大写与小写希腊字母表 大写小写名称&#xff08;英文&#xff09;名称&#xff08;…

【Block总结】OutlookAttention注意力,捕捉细节和局部特征|即插即用

论文信息 标题: VOLO: Vision Outlooker for Visual Recognition作者: Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan代码链接: https://github.com/sail-sg/volo论文链接: https://arxiv.org/pdf/2106.13112 创新点 前景注意力机制: VOLO引入了一种称为“…

Linux Samba 低版本漏洞(远程控制)复现与剖析

目录 前言 漏洞介绍 漏洞原理 产生条件 漏洞影响 防御措施 复现过程 结语 前言 在网络安全的复杂生态中&#xff0c;系统漏洞的探索与防范始终是保障数字世界安全稳定运行的关键所在。Linux Samba 作为一款在网络共享服务领域应用极为广泛的软件&#xff0c;其低版本中…

hive:基本数据类型,关于表和列语法

基本数据类型 Hive 的数据类型分为基本数据类型和复杂数据类型 加粗的是常用数据类型 BOOLEAN出现ture和false外的其他值会变成NULL值 没有number,decimal类似number 如果输入的数据不符合数据类型, 映射时会变成NULL, 但是数据本身并没有被修改 创建表 创建表的本质其实就是在…

Elasticsearch的开发工具(Dev Tools)

目录 说明1. **Console**2. **Search Profiler**3. **Grok Debugger**4. **Painless Lab**总结 说明 Elasticsearch的开发工具&#xff08;Dev Tools&#xff09;在Kibana中提供了多种功能强大的工具&#xff0c;用于调试、优化和测试Elasticsearch查询和脚本。以下是关于Cons…

Qt中Widget及其子类的相对位置移动

Qt中Widget及其子类的相对位置移动 最后更新日期&#xff1a;2025.01.25 下面让我们开始今天的主题… 一、开启篇 提出问题&#xff1a;请看上图&#xff0c;我们想要实现的效果是控件黄色的Widge&#xff08;m_infobarWidget&#xff09;t随着可视化窗口&#xff08;m_glWidge…

【Unity3D】实现横版2D游戏——攀爬绳索(简易版)

目录 GeneRope.cs 场景绳索生成类 HeroColliderController.cs 控制角色与单向平台是否忽略碰撞 HeroClampController.cs 控制角色攀爬 OnTriggerEnter2D方法 OnTriggerStay2D方法 OnTriggerExit2D方法 Update方法 开始攀爬 结束攀爬 Sensor_HeroKnight.cs 角色触发器…

docker搭建redis集群(三主三从)

本篇文章不包含理论解释&#xff0c;直接开始集群&#xff08;三主三从&#xff09;搭建 环境 centos7 docker 26.1.4 redis latest &#xff08;7.4.2&#xff09; 服务器搭建以及环境配置 请查看本系列前几篇博客 默认已搭建好三个虚拟机并安装配置好docker 相关博客&#xf…

物联网智能项目之——智能家居项目的实现!

成长路上不孤单&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a; 【14后&#x1f60a;///计算机爱好者&#x1f60a;///持续分享所学&#x1f60a;///如有需要欢迎收藏转发///&#x1f60a;】 今日分享关于物联网智能项目之——智能家居项目…

Deep Seek R1本地化部署

目录 说明 一、下载ollama 二、在ollama官网下载模型 三、使用 后记 说明 操作系统&#xff1a;win10 使用工具&#xff1a;ollama 一、下载ollama 从官网下载ollama&#xff1a; ollama默认安装在C盘&#xff0c;具体位置为C:\Users\用户名\AppData\Local\Programs\O…

跟李沐学AI:视频生成类论文精读(Movie Gen、HunyuanVideo)

Movie Gen&#xff1a;A Cast of Media Foundation Models 简介 Movie Gen是Meta公司提出的一系列内容生成模型&#xff0c;包含了 3.2.1 预训练数据 Movie Gen采用大约 100M 的视频-文本对和 1B 的图片-文本对进行预训练。 图片-文本对的预训练流程与Meta提出的 Emu: Enh…