【DeepSeek-R1背后的技术】系列十一:RAG原理介绍和本地部署(DeepSeekR1+RAGFlow构建个人知识库)

【DeepSeek-R1背后的技术】系列博文:
第1篇:混合专家模型(MoE)
第2篇:大模型知识蒸馏(Knowledge Distillation)
第3篇:强化学习(Reinforcement Learning, RL)
第4篇:本地部署DeepSeek,断网也能畅聊!
第5篇:DeepSeek-R1微调指南
第6篇:思维链(CoT)
第7篇:冷启动
第8篇:位置编码介绍(绝对位置编码、RoPE、ALiBi、YaRN)
第9篇:MLA(Multi-Head Latent Attention,多头潜在注意力)
第10篇:PEFT(参数高效微调——Adapter、Prefix Tuning、LoRA)
第11篇:RAG原理介绍和本地部署(DeepSeek+RAGFlow构建个人知识库)

目录

  • 1 前言
  • 2 方法
  • 3 RAG和SFT的区别
    • 3.1 核心目标不同
    • 3.2 数据使用方式
    • 3.3 实时性对比
    • 3.4 资源消耗
    • 3.5 可解释性
    • 3.6 典型应用场景
    • 3.7 协同使用策略
    • 3.8 选择建议
  • 4 本地部署(DeepSeek+RAGFlow构建个人知识库)
    • 4.1 Embedding模型
    • 4.2 Ollama部署DeepSeek-R1模型
      • 4.2.1 安装和部署
      • 4.2.2 配置环境变量
    • 4.3 部署RAGFlow
      • 4.3.1 安装Docker
      • 4.3.2 安装RAGFlow
      • 4.3.3 注册登录
    • 4.4 构建个人知识库并实现对话问答
      • 4.4.1 配置模型
      • 4.4.2 创建知识库
      • 4.4.3 创建聊天助理
  • 5 本地部署RAGFlow+调用API

1 前言

RAG(Retrieval-Augmented Generation,检索增强生成) 是一种结合了信息检索技术与语言生成模型的人工智能技术,该技术通过从外部知识库中检索相关信息,并将其作为提示(Prompt)输入给大型语言模型(LLMs),以增强模型处理知识密集型任务的能力,如问答、文本摘要、内容生成等。

RAG模型由Facebook AI Research(FAIR)团队于2020年首次提出,并迅速成为大模型应用中的热门方案。

大型语言模型(LLM)通常面临两个问题:

  • 知识截止:每个基础模型都有知识截止,这意味着其知识仅限于训练时可用的数据。

  • 幻觉:当模型自信地做出错误反应时,就会发生幻觉。

RAG)摆脱了知识限制,整合了外部数据,从外部知识库中检索相关信息,增强模型的生成能力。

顾名思义,RAG的主要包括检索、增强和生成这三个步骤:

  • 检索:检索是RAG流程的第一步,从预先建立的知识库中检索与问题相关的信息。这一步的目的是为后续的生成过程提供有用的上下文信息和知识支撑。

  • 增强:RAG中增强是将检索到的信息用作生成模型(即大语言模型)的上下文输入,以增强模型对特定问题的理解和回答能力。这一步的目的是将外部知识融入生成过程中,使生成的文本内容更加丰富、准确和符合用户需求。通过增强步骤,LLM模型能够充分利用外部知识库中的信息。

  • 生成:生成是RAG流程的最后一步,这一步的目的是结合LLM生成符合用户需求的回答。生成器会利用检索到的信息作为上下文输入,并结合大语言模型来生成文本内容。

简而言之,就是从知识库中检索到的问答对,增强了LLM的提示词(prompt),LLM拿着增强后的Prompt生成了问题答案。

2 方法

用RAG搭建知识库的流程如下:

  1. 数据准备与知识库构建
  • 收集数据: 首先,需要收集与问答系统相关的各种数据,这些数据可以来自文档、网页、数据库等多种来源。

  • 数据清洗: 对收集到的数据进行清洗,去除噪声、重复项和无关信息,确保数据的质量和准确性。

  • 知识库构建: 将清洗后的数据构建成知识库。这通常包括将文本分割成较小的片段(chunks),使用文本嵌入模型(如GLM)将这些片段转换成向量,并将这些向量存储在向量数据库(如FAISS、Milvus等)中。

  1. 检索模块设计
  • 问题向量化: 当用户输入查询问题时,使用相同的文本嵌入模型将问题转换成向量。

  • 相似度检索: 在向量数据库中检索与问题向量最相似的知识库片段(chunks)。这通常通过计算向量之间的相似度(如余弦相似度)来实现。

  • 结果排序: 根据相似度得分对检索到的结果进行排序,选择最相关的片段作为后续生成的输入。

  1. 生成模块设计
  • 上下文融合:将检索到的相关片段与原始问题合并,形成更丰富的上下文信息。

  • 大语言模型生成:使用大语言模型(如DeepSeek-R1)基于上述上下文信息生成回答。大语言模型会学习如何根据检索到的信息来生成准确、有用的回答。

3 RAG和SFT的区别

检索增强生成(RAG)和监督微调(SFT)是两种提升大模型性能的主流技术,但核心思路和应用场景存在显著差异。

3.1 核心目标不同

  • RAG
    通过动态检索外部知识库增强生成能力,解决模型「知识固化」问题。适用于需要实时性、事实性准确或超出训练数据范围的场景(如最新事件、私有数据查询)。
    示例:用企业内部文档实时回答业务问题。

  • SFT
    通过调整模型参数使其适配特定任务格式或领域知识。旨在提升模型对特定任务(如法律文书生成、医疗问答)的指令遵循能力和专业性,但无法突破训练数据的时间或知识范围。
    示例:微调模型生成符合法律规范的合同文本。

3.2 数据使用方式

  • RAG

    • 推理阶段动态检索:每次生成时从外部数据库/文档中实时检索相关内容。
    • 知识可更新:仅需更新检索库即可扩展模型知识,无需重新训练模型。
  • SFT

    • 训练阶段静态学习:使用标注数据调整模型权重,学习固定知识或任务模式。
    • 知识固化:模型学到的知识截止于训练数据时间点,更新需重新微调。

3.3 实时性对比

  • RAG
    优势在于零延迟知识更新。例如接入新闻API后,可立即回答当天事件。
  • SFT
    依赖训练数据时效性。若数据过时(如用2022年数据微调),模型无法感知新信息。

3.4 资源消耗

  • RAG

    • 推理成本较高:需维护检索系统(如向量数据库),且每次生成需检索+生成两步计算。
    • 训练成本低:通常直接使用预训练模型,无需额外训练。
  • SFT

    • 训练成本高:需准备标注数据并进行微调(GPU资源消耗大)。
    • 推理成本低:微调后模型可直接生成结果,无需额外系统。

3.5 可解释性

  • RAG
    生成结果可追溯检索到的文档,方便验证信息来源(如显示引用文献)。
  • SFT
    生成过程为黑箱,难以直接追踪知识来源。

3.6 典型应用场景

技术适用场景典型案例
RAG实时问答、私有数据查询、事实核查客服系统接入产品手册回答用户问题
SFT垂直领域深度适配、复杂指令遵循微调模型生成符合金融规范的财报分析

3.7 协同使用策略

实际应用中常将二者结合:

  1. SFT微调模型:使其掌握领域术语和任务格式(如生成结构化报告)。
  2. RAG增强知识:动态补充最新或私有数据,提升回答准确性。

示例:医疗问答系统中,先微调模型理解医学术语,再通过RAG接入最新医学论文库。

3.8 选择建议

  • RAG 若:需处理动态知识、响应实时查询、或无法获取足够微调数据。
  • SFT 若:任务高度专业化(如代码生成)、或需严格遵循特定输出格式。
  • 最佳实践:RAG+SFT联合使用,兼顾知识更新与任务适配性。

4 本地部署(DeepSeek+RAGFlow构建个人知识库)

接下来我们本地化部署DeepSeek-R1和RAGFlow,搭建个人知识库。

4.1 Embedding模型

什么是Embedding?为什么需要Embedding模型?

我们准备好外部知识库(可能来自本地的文件、搜索引擎结果、API等等)之后,需要通过Embedding(嵌入)模型,对知识库文件进行解析:Embedding的主要作用是将自然语言转化为机器可以理解的高维向量,并且通过这一过程捕获到文本背后的语义信息(例如不同文本之间的相似度关系等)。

此外,我们也需要通过Embedding模型,对用户的提问进行处理:用户的输入同样会经过Embedding处理,生成一个高维向量。

然后,拿用户的提问去匹配本地知识库:使用用户输入生成的高维向量,去查询知识库中相关的文档片段,在这个过程中,系统会利用某些相似度度量(如余弦相似度)去判断相似度。

简而言之,Embedding模型是用来对你上传的附件进行解析的。

在Ollama网站上,我们可以在Models页面看到不同的Chat模型和Embedding模型。

Ollama

接下来我们开始本地部署。

4.2 Ollama部署DeepSeek-R1模型

首先,我们需要通过Ollama将DeepSeek-R1模型部署到本地运行。

4.2.1 安装和部署

详细的部署步骤请参考这篇博文:【DeepSeek-R1背后的技术】系列四:本地部署DeepSeek-R1,断网也能畅聊!

操作起来还是很方便的。

4.2.2 配置环境变量

  1. OLLAMA_HOST - 0.0.0.0:11434
  • 作用:让虚拟机里的RAGFlow能够访问本机上的Ollama;
  • 如果配置后虚拟机无法访问,可能是本机防火墙拦截了端口11434;
  • 不想直接暴露11434端口的话,可以通过SSH端口转发来实现;
  • 更新完两个环境变量后记得重启电脑。

环境变量配置方法:系统→系统信息→高级系统设置→环境变量

设置

配置系统变量:
环境变量

  1. OLLAMA_MODELS - 自定义模型存放位置
  • 作用:Ollama会默认把模型下载到C盘,如果希望下载到其他盘需要进行配置。

重启电脑。

运行DeepSeek-R1 1.5B模型:(有时候会对话失败,退出对话,重新运行模型之后就正常了)

部署成功

4.3 部署RAGFlow

接着,我们需要下载RAGFlow源代码和Docker镜像,通过Docker来本地部署RAGFlow。

硬件要求:

  • CPU >= 4 cores
  • RAM >= 16 GB
  • Disk >= 50 GB
  • Docker >= 24.0.0 & Docker Compose >= v2.26.1

4.3.1 安装Docker

对于Windows系统,我们需要先安装Docker。通过Docker页面 下载安装包安装即可。

安装Docker

双击后,点击确认安装即可,安装后需要重启电脑。

首次打开Docker Desktop时,需要登录账号,配置时可能会报以下错误

wsl

需要在终端输入以下命令更新wsl。

wsl --update

打开Docker

4.3.2 安装RAGFlow

  1. 将RAGFlow clone到本地
git clone https://github.com/infiniflow/ragflow.git
  1. 启动Docker服务器

Docker镜像是一个封装好的环境,包含了所有运行RAGFlow所需的依赖、库和配置。

我们需要先进入./docker文件夹,修改.env文件,因为默认的配置是轻量版的,没有Embedding模型。

注释掉84行,取消注释87行,修改后记得保存文件:

env

运行:

cd ragflow/docker
docker compose -f docker-compose.yml up -d

会帮我们自动下载RAGFlow镜像并启动服务。

注意:在下载镜像的时候,其中的minio和ragflow可能会下载很慢或者失败,需要配置Docker镜像源,打开配置文件:C:\Program Files\Docker\Docker\resources\windows-daemon-options.json,修改镜像源如下:

"registry-mirrors": [
        "registry|redacted",
        "https://docker.hpcloud.cloud",
        "https://docker.m.daocloud.io",
        "https://docker.unsee.tech",
        "https://docker.1panel.live",
        "http://mirrors.ustc.edu.cn",
        "https://docker.chenby.cn",
        "http://mirror.azure.cn",
        "https://dockerpull.org",
        "https://dockerhub.icu",
        "https://hub.rat.dev",
        "https://docker.registry.cyou",
        "https://docker-cf.registry.cyou",
        "https://dockercf.jsdelivr.fyi",
        "https://docker.jsdelivr.fyi",
        "https://dockertest.jsdelivr.fyi",
        "https://mirror.aliyuncs.com",
        "https://dockerproxy.com",
        "https://mirror.baidubce.com",
        "https://docker.m.daocloud.io",
        "https://docker.nju.edu.cn",
        "https://docker.mirrors.sjtug.sjtu.edu.cn",
        "https://docker.mirrors.ustc.edu.cn",
        "https://mirror.iscas.ac.cn"
    ],
    "insecure-registries" : [
        "registry.docker-cn.com",
        "docker.mirrors.ustc.edu.cn"
        ],

保存后再运行“docker compose -f docker-compose.yml up -d”命令即可。需要等待较长时间。

安装成功

可以在终端输入以下命令查看服务是否已经启动

docker logs -f ragflow-server

显示下面的内容即已经成功启动:

启动

4.3.3 注册登录

在浏览器中输入

http://localhost:80

会自动跳转到登录页面:

登录页面

注册登录后:

登录

4.4 构建个人知识库并实现对话问答

最后,我们在RAGFlow中构建个人知识库并实现基于个人知识库的对话问答。

Docker成功启动之后,浏览器输入 localhost:80 来访问RAGFlow。

4.4.1 配置模型

可以设置页面语言,点击右上角图像后,再点击左侧的“模型供应商”,添加我们本地部署的 deepseek-r1:1.5b模型。

1.5B

填入参数如下:

配置

其中,在cmd终端输入 ollama list查看本地模型名称,把完整的模型名称粘贴进去:

模型名

再在cmd终端输入 ipconfig 查看IPv4地址,输入到 基础Url 框中,格式是:http://IPv4:11434,11434是前面我们提到的端口。

ip

配置好之后,点击确定即可。

接下来配置系统模型,点击右边 系统模型设置,把Chat模型和Embedding模型配置好:

配置模型

4.4.2 创建知识库

点击上方的 知识库,再点击右侧创建知识库,输入知识库名称:

知识库

语言选择中文,可以选择不同的嵌入模型,解析方法包括了通用、简历、表格等,此处我们选择General,其他配置不用修改,使用默认值。保存配置。

然后上传本地文件,将知识库所需的所有文件都上传上来。注意:上传后一定要点击“解析”按钮!

上传文件

4.4.3 创建聊天助理

点击上方 聊天,创建助理,选择刚才创建的知识库,其他配置可以使用默认:
创建助理

新建聊天:

聊天

大功告成!

5 本地部署RAGFlow+调用API

当然,我们可以只搭建个人知识库,而不本地部署模型,通过调用企业大模型的API来对话。

我们可以按照第4章节,不安装Ollama,也不下载运行DeepSeek-R1 1.5B模型,只执行本地部署RAGFlow相关的流程。

还是回到模型供应商这里,例如我们选择通义千问模型,点击右侧 API-Key,在通义千问网站上申请API调用,将Key输入进去,就能直接调用企业模型服务了。
API key

其他的企业模型的添加方式也是一样的,只不过是调用API可能需要收费,但是可以避免本地部署硬件带来的限制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/976224.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

力扣LeetCode:1656 设计有序流

题目: 有 n 个 (id, value) 对,其中 id 是 1 到 n 之间的一个整数,value 是一个字符串。不存在 id 相同的两个 (id, value) 对。 设计一个流,以 任意 顺序获取 n 个 (id, value) 对,并在多次调用时 按 id 递增的顺序…

MATLAB在数据分析和绘图中的应用:从基础到实践

引言 股票数据分析是金融领域中的重要研究方向,通过对历史价格、成交量等数据的分析,可以帮助投资者更好地理解市场趋势和做出决策。MATLAB作为一种强大的科学计算工具,提供了丰富的数据处理和可视化功能,非常适合用于股票数据的…

2025年02月17日Github流行趋势

项目名称:OmniParser 项目地址url:https://github.com/microsoft/OmniParser 项目语言:Jupyter Notebook 历史star数:8971 今日star数:969 项目维护者:yadong-lu, ThomasDh-C, aliencaocao, nmstoker, kris…

Keepalive基础

一。简介和功能 vrrp协议的软件实现,原生设计目的是为了高可用ipvs服务 功能: 1.基于vrrp协议完成地址流动 2.为vip地址所在的节点生成ipvs规则(在配置文件中预先定义) 3.为ipvs集群的各RS做健康状况检测 4.基于脚本调用接口…

vue3: directive自定义指令防止重复点击

第一章 前言 相信很多小伙伴会在各个渠道上搜如何防止重复点击,之后会推荐什么防抖、节流来避免这一操作,该方法小编就不继续往下说了。接下来说说小编的场景,项目已经完成的差不多了,但是由于之前大家都是直接点击事件调用方法的…

第4章 4.3 EF Core 的实体类配置 Data Annatation Fluent API

4.3.1 约定大于配置 主要的约定规则: 规则 1: 数据库表名采用上下文类中对应的 DbSet 的属性名。 规则 2:数据库表列的名字采用实体类属性的名字,列的数据类型采用和实体类属性类型 兼容的类型。比如在 SQLServer 中,string 类型对应 nvarc…

【Redis 原理】通信协议 内存回收

文章目录 通信协议--RESP内存回收内存过期策略惰性删除周期删除 内存淘汰策略 通信协议–RESP Redis是一个CS架构的软件,通信一般分两步(不包括pipeline和PubSub): 客户端(client)向服务端(se…

【GreenHills】GHS合并库文件

1、 文档目标 解决Green Hills对于多个库文件合并问题 2、 问题场景 客户具有多个工程库文件。但是,客户想要在项目最终交付的时候,通过将多个库文件打包成一个库文件,进行交付。 3、软硬件环境 1)、软件版本:MULTI…

山东大学软件学院nosql实验四

实验题目: 使用Java做简单数据插入 实验内容 用API方式,做数据插入。 使用Java语言实现数据插入界面,为实验一建立的学生、教师、课程表插入数据,可以在前端界面中录入数据之后保存,也可以导入Excel中的数据。 实…

nodejs npm install、npm run dev运行的坎坷之路

1、前面的种种都不说了,好不容易运行起来oap-portal项目,运行idm-ui项目死活运行不起来,各种报错,各种安装,各种卸载nodejs,卸载nvm,重装,都不好使。 2、甚至后来运行npm install会…

20250223下载并制作RTX2080Ti显卡的显存的测试工具mats

20250223下载并制作RTX2080Ti显卡的显存的测试工具mats 2025/2/23 23:23 缘起:我使用X99的主板,使用二手的RTX2080Ti显卡【显存22GB版本,准备学习AI的】 但是半年后发现看大码率的视频容易花屏,最初以为是WIN10经常更换显卡/来回更…

计算机毕业设计Hadoop+Spark+DeepSeek-R1大模型民宿推荐系统 hive民宿可视化 民宿爬虫 大数据毕业设计(源码+文档+PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

centos 7 安装python3 及pycharm远程连接方法

安装openssl 使用pip3安装 virtualenv的时候会提示WARNING: pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available. 这是因为缺少openssl 2.0以上版本 解决办法: 一、先确认版本 openssl version 二、安…

DeepSeek 助力 Vue 开发:打造丝滑的文本输入框(Text Input)

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 Deep…

Bybit最大资金盗窃事件技术分析 by CertiK

事件概述 2025年2月21日UTC时间下午02:16:11,Bybit的以太坊冷钱包(0x1db92e2eebc8e0c075a02bea49a2935bcd2dfcf4[1])因恶意合约升级遭到资金盗取。根据Bybit CEO Ben Zhou的声明[2],攻击者通过钓鱼攻击诱骗冷钱包签名者错误签署恶意交易。他提到,该交易被伪装为合法操作:…

欧拉筛法寻找素数与计算欧拉函数求和

欧拉筛法寻找素数与计算欧拉函数求和 一、欧拉函数1.1定义1.2性质1.3唯一分解定理(算术基本定理) 二、Eratosthenes筛法寻找素数三、欧拉筛法寻找素数3.1算法代码3.2算法分析3.2.1时间复杂度分析(对合数进行不重复筛选)3.2.2算法正…

VScode 开发

目录 安装 VS Code 创建一个 Python 代码文件 安装 VS Code VSCode(全称:Visual Studio Code)是一款由微软开发且跨平台的免费源代码编辑器,VSCode 开发环境非常简单易用。 VSCode 安装也很简单,打开官网 Visual S…

政安晨【零基础玩转各类开源AI项目】DeepSeek 多模态大模型Janus-Pro-7B,本地部署!支持图像识别和图像生成

政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正! 目录 下载项目 创建虚拟环境 安装项目依赖 安装 Gradio(UI) 运…

开发 picgo-plugin-huawei 插件,解决华为云社区外链限制问题

开发 picgo-plugin-huawei 插件,解决华为云社区外链限制问题 在技术博客平台中,外链的使用常常受到限制,这给我们的写作和内容展示带来了一定的不便。为了应对这一问题,我开发了 picgo-plugin-huawei 插件,它能够有效…

QT 基础知识点

1.基础窗口类QMainWindow qDialog Qwidget 随项目一起创建的窗口基类有三个可选QMainWindow qDialog Qwidget 1.1 Qwidget 是所有窗口的基类,只要是他的子类,或子类的子类,都具有他的属性。 右键项目 Add New -> Qt qt设计师界面类&am…