使用主动检索增强生成FLARE来实现更好的RAG

文章链接:https://arxiv.org/abs/2305.06983

项目代码:https://github.com/jzbjyb/FLARE

原文地址:Better RAG with Active Retrieval Augmented Generation FLARE

2023 年 11 月 18 日 

欢迎深入探讨前瞻性主动检索增强生成 (FLARE),这是一种提高大语言模型 (LLM) 准确性和可靠性的创新方法。我们将探讨 FLARE 如何应对LLMs中的幻觉挑战,特别是在复杂的长篇内容生成任务中。

LLMs中的幻觉是指生成不正确或毫无根据的内容。这个问题在涉及大量输出的任务中变得更加明显,例如长篇问答、开放域摘要和思维链推理。FLARE 旨在通过在生成过程中集成外部经过验证的信息来减少这些不准确性。

什么是 FLARE

FLARE 是前瞻性主动检索增强生成(Forward-Looking Active Retrieval Augmented Generation)的缩写。这是一种补充 LLM 的方法,在模型生成内容的过程中主动纳入外部信息。这一过程大大降低了产生幻觉的风险,确保内容不断得到外部数据的检查和支持。

传统的检索-增强生成 在传统的检索-增强生成模型中,通常的方法是在生成过程开始时执行一次检索。该方法涉及使用初始查询,例如“总结 Narendra Modi 的维基百科页面”,并根据此查询检索相关文档。然后,模型使用这些文档来生成内容。然而,这种方法有其局限性,特别是在处理长篇和复杂的文本时。

传统方法的局限性

  • 单一检索:一旦检索到初始文档,模型就会继续仅根据这组初始信息生成内容。
  • 缺乏动态性:随着生成的进行,模型不会更新或检索新信息,以适应正在生成的内容的演变上下文。
  • 过时或不完整信息的可能性:如果随着文本的生成,新信息变得相关,模型可能无法捕捉到这些信息,因为它依赖于最初检索到的文档。
  • 多次检索:利用过去的上下文在固定的间隔内检索附加信息,即每 10 个单词或 1 个句子。它们将在固定的间隔内检索,无论你是否想要检索。 

FLARE 方法

多次检索:FLARE不使用固定的检索,而是在不同的间隔内进行多次检索,它知道何时进行检索以及应该检索什么。

何时检索:当 LLM 缺乏所需的知识时, LLM 生成的概率较低的标记。

检索什么:将考虑LLM未来打算生成的内容。

了解 FLARE 的迭代生成过程:

FLARE的操作方式是通过迭代生成临时的下一句,将其用作查询以检索相关文档,如果这些文档包含概率较低的标记,就会重新生成下一句,直到达到整体生成的结束。

FLARE 有两种类型:FLARE instruct 和 FLARE Direct。

FLARE instruct:这种模式提示模型生成用于信息检索的具体查询。模型暂停生成,检索必要的数据,然后恢复,整合新的信息。我们在下图中来理解这一点。

试想一下,AI 模型的任务是根据用户的输入查询,生成一份关于 Joe Biden 的摘要。流程如下:

  • 用户查询:任务以用户的请求开始:"生成一份关于 Joe Biden 的摘要"。
  • 初始句生成:模型开始构建内容,生成开头语,如 "Joe Biden attended."
  • 集中搜索启动:此时,模型会激活一个搜索查询,例如"[Search(Joe Biden University)]."
  • 暂停和搜索:内容生成暂时停止。然后,模型深入搜索 "Joe Biden University."。
  • 检索与整合:接下来,模型与检索器通信,检索有关 "Joe Biden University." 的相关数据。它有效地检索并整合了诸如 "the University of Pennsylvania, where he earned." 的信息。
  • 继续搜索和更新:搜索过程并未在此停止。模型再次启动搜索,这次使用 "[Search(Joe Biden degree)]." 按照相同的协议,它将检索并整合新的数据,例如有关他的法学学位的信息。

这种生成和检索相结合的迭代过程确保 AI 模型能够生成信息充分、准确的摘要,并动态地纳入相关的最新信息。这就是 FLARE instruct 的工作原理。

FLARE Direct:在这种情况下,模型在遇到置信度较低的标记时,会将生成的内容作为直接查询进行检索。让我们通过一个例子来深入探讨:

  • 初始查询:我们开始一个语 言模型输入:"Generate a summary about Joe Biden."
  • 模型生成响应。

  • 如果生成的句子准确且置信度高,则被视为正确句子。

  • 假设 模型生成了一个句子,但其中的 "the University of Pennsylvania" 和 "a law degree." 的置信度较低(元素高亮显示)。模型对这两句话的置信度很低。

现在有两种方法可以解决这个问题。

处理低置信度信息:为纠正或核实低置信度信息,FLARE Direct 采用了两种方法:

  • 通过屏蔽进行隐含查询(橙色突出显示):这包括识别句子中的关键词或短语,如 "Joe Biden attended" 和 "where he earned." 然后,模型会在其数据库(vectorDB)中搜索这些关键词,以检索相关的准确信息。
  • 问题生成明确查询(绿色高亮显示):在这里,会提示模型提出与输入查询相关的具体问题。示例可能包括 "What university did Joe Biden attend?" 和 "What degree did Joe Biden earn?" 然后利用这些问题从数据库中提取相关数据,确保信息的准确性和相关性。

通过采用这些方法,FLARE Direct 可以有效地完善和验证内容,提高所生成摘要的准确性和可靠性。为了建立这个链条,我们需要三样东西:

  • 生成答案的 LLM
  • 生成假设问题供检索使用的 LLM
  • 用于查找答案的检索器

我们用来生成答案的 LLM 需要返回 logprobs,这样我们才能识别不确定的标记。因此,我们强烈建议您使用 OpenAI 封装器(注意:不是 ChatOpenAI 封装器,因为它不返回 logprobs)。我们用来生成假设问题以用于检索的 LLM 可以是任何东西。在本笔记本中,我们将使用 ChatOpenAI,因为它既快又便宜。让我们一起动手编码吧。

以下是 gradio 代码,您可以在本地系统上运行它。我们使用 arvixloader,因此您可以直接向论文提出问题。这里有一个 https://arxiv.org/pdf/2305.06983.pdf 的示例。您需要将此号码传给查询 2305.06983,然后您就可以根据论文提出任何问题。

需要了解的其他重要参数

  • max_generation_len: 在停止检查是否有不确定标记之前生成标记的最大数量。
  • min_prob:任何生成的标记概率低于此值,都将被视为不确定标记。
from langchain import PromptTemplate, LLMChain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import RetrievalQA
from langchain.embeddings import HuggingFaceBgeEmbeddings
from langchain.document_loaders import PyPDFLoader
from langchain.vectorstores import LanceDB
from langchain.document_loaders import ArxivLoader
from langchain.chains import FlareChain
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
import os
import gradio as gr
import lancedb
from io import BytesIO
from langchain.llms import OpenAI
import getpass

# pass your api key
os.environ["OPENAI_API_KEY"] = "sk-yourapikeyforopenai"

llm = OpenAI()

os.environ["OPENAI_API_KEY"] = "sk-yourapikeyforopenai"
llm = OpenAI()
model_name = "BAAI/bge-large-en"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': False}
embeddings = HuggingFaceBgeEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)
# here is example https://arxiv.org/pdf/2305.06983.pdf
# you need to pass this number to query 2305.06983
# fetch docs from arxiv, in this case it's the FLARE paper
docs = ArxivLoader(query="2305.06983", load_max_docs=2).load()
# instantiate text splitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=150)
# split the document into chunks
doc_chunks = text_splitter.split_documents(docs)
# lancedb vectordb
db = lancedb.connect('/tmp/lancedb')
table = db.create_table("documentsai", data=[
    {"vector": embeddings.embed_query("Hello World"), "text": "Hello World", "id": "1"}
], mode="overwrite")
vector_store = LanceDB.from_documents(doc_chunks, embeddings, connection=table)
vector_store_retriever = vector_store.as_retriever()
flare = FlareChain.from_llm(
    llm=llm,
    retriever=vector_store_retriever,
    max_generation_len=300,
    min_prob=0.45
)
# Define a function to generate FLARE output based on user input
def generate_flare_output(input_text):
    output = flare.run(input_text)
    return output
input = gr.Text(
                label="Prompt",
                show_label=False,
                max_lines=1,
                placeholder="Enter your prompt",
                container=False,
            )
iface = gr.Interface(fn=generate_flare_output, 
             inputs=input, 
             outputs="text",
             title="My AI bot",
             description="FLARE implementation with lancedb & bge embedding.",
             allow_screenshot=False,
             allow_flagging=False
             )
iface.launch(debug=True)

概括

FLARE:前瞻性主动检索增强生成(FLARE)通过主动整合外部信息来减少内容生成过程中的幻觉,从而增强大型语言模型(LLM)。它超越了传统模型,具有动态、多重检索功能,能适应不断变化的语境。FLARE Instruct 和 FLARE Direct 展示了其生成更准确、更可靠内容的能力。博客还介绍了使用 LanceDB 和矢量数据库的实施要点和实际应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/336634.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

对于随机生成图片接口浏览器走缓存的问题

前提场景 目前有一个api 他可以随机生成一张图片&#xff0c;我通过v-for循环一个Array渲染出来几个img 并且都调用了该接口&#xff0c;但是每个img都是一样的图片 具体代码如下 <div class"icon-group-box" v-for"item in groupList" :key"item…

22k+star一款自托管的开源的的好用的碎片化笔记软件 Memos超级详细部署教程

目录 1.拉取镜像 2.启动 3.体验 4.源码地址 1.拉取镜像 docker pull neosmemo/memos:stable 2.启动 创建目录 mkdir -p /opt/memos/ 启动 docker run -d --name memos -p 10006:5230 -v /opt/memos/:/var/opt/memos neosmemo/memos:stable 3.体验 浏览器输入下面地址…

linux perf工具使用

参考文章Linux性能调优之perf使用方法_perf交叉编译-CSDN博客 perf是一款Linux性能分析工具。比如打流性能优化的时候&#xff0c;就能够看到是哪些函数消耗的cpu高 那么linux如何编译perf工具呢&#xff1f; perf工具编译 进入perf目录下linux-3.16/tools/perf make ARCH…

class_12:析构函数

#include <iostream>using namespace std;class Myclass{ private:int* datas; public:Myclass(int size){datas new int[size];}~Myclass(){cout<<"析构函数被调用"<<endl;delete [] datas;} };int main() {cout << "Hello World!&qu…

Docker(八)高级网络配置

作者主页&#xff1a; 正函数的个人主页 文章收录专栏&#xff1a; Docker 欢迎大家点赞 &#x1f44d; 收藏 ⭐ 加关注哦&#xff01; 高级网络配置 注意&#xff1a;本章属于 Docker 高级配置&#xff0c;如果您是初学者&#xff0c;您可以暂时跳过本章节&#xff0c;直接学习…

PyTorch 内 LibTorch/TorchScript 的使用

PyTorch 内 LibTorch/TorchScript 的使用 1. .pt .pth .bin .onnx 格式1.1 模型的保存与加载到底在做什么&#xff1f;1.2 为什么要约定格式&#xff1f;1.3 格式汇总1.3.1 .pt .pth 格式1.3.2 .bin 格式1.3.3 直接保存完整模型1.3.4 .onnx 格式1.3.5 jit.trace1.3.6 jit.scrip…

小程序宿主环境-组件button

button <button>普通按钮</button> <button type"primary">主色调按钮</button> <button type"warn">警告按钮</button><button size"mini">普通按钮</button> <button type"primary&q…

OpenCV-Python(49):图像去噪

目标 学习使用非局部平均值去噪算法去除图像中的噪音学习函数cv2.fastNlMeansDenoising()、cv2.fastNlMeansDenoisingColored等 原理 在前面的章节中我们已经学习了很多图像平滑技术&#xff0c;比如高斯平滑、中值平滑等。当噪声比较小时&#xff0c;这些技术的效果都是很好…

钡铼 楼宇暖通网关之 BACnet网关在空气源热泵智能控制系统中的应用介绍

前言 在刚刚过去的2023年&#xff0c;空气源热泵市场依然火爆&#xff0c;全线市场销量递增&#xff0c;各种新品层出不穷&#xff0c;市场认可度持续攀升&#xff0c;在整个采暖市场&#xff0c;空气源热泵已然成为当红明星。 热泵组管道比较复杂&#xff0c;传感器分布比较分…

JUC-Java内存模型JMM

JMM概述 Java Meory Model java内存模型。在不同的硬件和不同的操作系统上&#xff0c;对内存的访问方式是不一样的。这就造成了同一套java代码运行在不同的操作系统上会出问题。JMM就屏蔽掉硬件和操作系统的差异&#xff0c;增加java代码的可移植性。这是一方面。 另一方面JM…

Java项目:11 Springboot的垃圾回收管理系统

作者主页&#xff1a;舒克日记 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 功能介绍 本系统通过利用系统的垃圾回收流程&#xff0c;提高垃圾回收效率&#xff0c;通过垃圾回收的申请&#xff0c;增删改查&#xff0c;垃圾运输申…

TCP服务器最多支持多少客户端连接

目录 一、理论数值 二、实际部署 参考 一、理论数值 首先知道一个基础概念&#xff0c;对于一个 TCP 连接可以使用四元组&#xff08;src_ip, src_port, dst_ip, dst_port&#xff09;进行唯一标识。因为服务端 IP 和 Port 是固定的&#xff08;如下图中的bind阶段&#xff0…

Mysql运维篇(一) 日志类型

一路走来&#xff0c;所有遇到的人&#xff0c;帮助过我的、伤害过我的都是朋友&#xff0c;没有一个是敌人&#xff0c;如有侵权请留言&#xff0c;我及时删除。 一、mysql相关日志 首先&#xff0c;我们能接触到的&#xff0c;一般我们排查慢查询时&#xff0c;会去看慢查询…

关于java的方法重写

关于java的方法重写 我们之前在学习方法的时候&#xff0c;了解到了方法的重载&#xff0c;但是本篇文章我们要了解的是方法的重写&#xff0c;是不一样的&#xff0c;千万不能混淆在一起&#x1f600; 一、初识重写 1、首先我们建立一个新的包&#xff0c;然后新建一个A类&…

快速幂 算法

暴力算法 我们可以采用暴力算法 #include<bits/stdc.h> using namespace std; #define ll long long int main() {ll a, b, c;cin >> a >> b >> c;ll ans 1;for (ll i 1; i < b; i) {ans * a;}ans % c;cout << ans; } 不过这样肯定会超时…

torchtext安装及常见问题

Pytorch 、 torchtext和Python之间有严格的对应关系&#xff1a; 在命令窗中安装torchtext pip install torchtext 注意这种安装方式&#xff0c;在pytorch版本与python版本不兼容时动会自动更新并安装pytorchcpu版本&#xff0c;安装的新版本pytorch可能会不兼容。慎用。 …

Qt QCustomPlot 绘制子轴

抄大神杰作&#xff1a;QCustomplot&#xff08;五&#xff09;QCPAxisRect进行子绘图-CSDN博客 需求来源&#xff1a;试验数据需要多轴对比。 实现多Y轴、单X轴、X轴是时间轴、X轴range联动、rect之间的间距是0&#xff0c;每个图上有legend(这里有个疑问&#xff0c;每添加…

【⭐AI工具⭐】实用工具推荐

目录 壹 实用工具工具合集TinyWowHiPDF 公式处理SimpleTex公式中常用的希腊字母符号公式在论文中的格式 图像处理BgRemoverPix Fix像素蒸发Photopea 音频处理啦啦爱 笔记整理飞书妙记 素材整理Eagle 其它一次性临时电子邮件近邻词汇检索据意查句诗三百能不能好好说话&#xff1…

2023 年值得一读的技术文章 | NebulaGraph 技术社区

在之前的产品篇&#xff0c;我们了解到了 NebulaGraph 内核及周边工具在 2023 年经历了什么样的变化。伴随着这些特性的变更和上线&#xff0c;在【文章】博客分类中&#xff0c;一篇篇的博文记录下了这些功能背后的设计思考和研发实践。当中&#xff0c;既有对内存管理 Memory…

Python爬虫IP池

目录 一、介绍 1.1 为什么需要IP池&#xff1f; 1.2 IP池与代理池的区别 二、构建一个简单的IP池 三、注意事项 一、介绍 在网络爬虫的世界中&#xff0c;IP池是一个关键的概念。它允许爬虫程序在请求网页时使用多个IP地址&#xff0c;从而降低被封禁的风险&#xff0c;提高…