使用 LlamaIndex 部署本地 Mistral-7b 大模型实现 RAG

原理

LlamaIndex的文档链接：Using LLMs - LlamaIndex 🦙 0.9.33

LlamaIndex 的一般使用模式如下：

加载文档（手动或通过数据加载器)
将文档解析为节点
构建索引（来自节点或文档)
（可选，高级）在其他索引之上构建索引
查询索引

默认情况下，LlamaIndex 使用 OpenAI 的text-davinci-003模型，然而由于 OpenAI 的网站在国内无法访问，故使用本地下载好的 🐋 Mistral-7B-OpenOrca 🐋 模型代替之。
模型的链接如下：
Open-Orca/Mistral-7B-OpenOrca · Hugging Face

示例

HuggingFaceLLM 的参数如下：

HuggingFaceLLM - LlamaIndex 🦙 0.9.33

generate_kwargs 就是在生成时传递给模型的参数，具体可以看：

Generation 说明

首先准备一段文字，任意内容皆可，我准备的是关于【科学指南针】服务机构的介绍，摘自下面的网站：

科学指南针科研推出论文阅读，管理神器，强大AI赋能，轻松科研_服务_工作台_用户

科学指南针，一家始终致力于为科研工作者提供专业、快捷、全方位的检测及科研服务的大型科研服务机构，近日重磅推出全新产品「科研工作台」——一款集论文阅读、管理、分析于一体的AI赋能神器。这款产品的推出，将AI技术与科研工作深度融合，为科研工作者提供前所未有的便利。
「科研工作台」不仅具备自动解读论文研究目的、主要内容、实验过程等强大功能，还支持一键定位原文精读。更重要的是，它配备的AI阅读助手可以基于论文内容，快速回答用户提出的任何问题，帮助科研人员快速获取所需信息。这一创新性的设计，无疑将极大地提升科研工作的效率。
此外，「科研工作台」还支持分组/标签双体系管理文献。用户可以根据自己的需求，自定义建立分组和子分组进行文献管理。同时，系统会自动根据关键信息为文献打标签，并允许用户自定义新增或删除标签。通过这一功能，用户可以快速筛选出自己需要的文献。
自2014年成立以来，科学指南针始终以全心全意服务科研，助力全球科技创新为使命。经过数年的努力，公司已建立起包括材料测试、环境检测、生物服务、行业解决方案、科研绘图、模拟计算、数据分析、论文服务、试剂耗材、指南针学院等在内的科研产品和服务矩阵。如今，「科研工作台」的推出，再次证明了科学指南针在推动创新方面的能力。
值得一提的是，科学指南针的生物实验室已经取得了实验动物许可证，环境实验室和南京材料实验室先后获得了中国计量认证证书（CMA）。此外，南京材料实验室还获得了ISO三体系认证。这些资质和认证，不仅证明了科学指南针在科研服务领域的专业性和可靠性，也为其未来的发展奠定了坚实的基础。
展望未来，科学指南针的愿景是成为世界级科研服务机构。他们坚信，只要有科研的地方，就应有科学指南针的存在。而「科研工作台」的推出，正是实现这一愿景的重要一步。这款产品将为全球科研工作者提供更为便捷、高效的服务，助力科研事业的发展。
在新的历史起点上，科学指南针将继续秉承全心全意服务科研的使命，不断创新、追求卓越。我们期待着他们在未来的发展中，继续为全球科技创新做出更大的贡献

代码如下，这里使用了 HuggingFaceLLM 包来加载本地的 LLM。使用 load_in_4bit 对模型进行量化。
embed_model 选用了 “local:BAAI/bge-large-zh-v1.5”

from llama_index import VectorStoreIndex, SimpleDirectoryReader
from llama_index import ServiceContext
from llama_index.llms import HuggingFaceLLM
import torch
from transformers import BitsAndBytesConfig, AutoModelForCausalLM, AutoTokenizer
from llama_index.prompts import PromptTemplate
from llama_index import set_global_service_context

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
)

model_name = "/root/autodl-tmp/kdy/models/Mistral-7B-OpenOrca"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
question = [
    {"role": "user", "content": "{query_str}"},
]
llm = HuggingFaceLLM(  
    model=model,
    tokenizer=tokenizer,
    query_wrapper_prompt=PromptTemplate(tokenizer.apply_chat_template(question, tokenize=False)),
    context_window=3900,
    max_new_tokens=500,
    model_kwargs={"quantization_config": quantization_config},
    generate_kwargs={"temperature": 0.2, "top_k": 5, "do_sample": True, "top_p": 0.95},
    device_map="auto",
)
service_context = ServiceContext.from_defaults(llm=llm, embed_model="local:BAAI/bge-large-zh-v1.5")
set_global_service_context(service_context)

documents = SimpleDirectoryReader("/root/autodl-tmp/kdy/RAG/data").load_data()
index = VectorStoreIndex.from_documents(documents)
index.storage_context.persist(persist_dir="./storage")

query_engine = index.as_query_engine(streaming=True, similarity_top_k=3)
response_stream = query_engine.query("科学指南针提供哪些服务？")
response_stream.print_response_stream()
print()