以下是几款表现优异的向量模型及其显存需求分析:
一、主流向量模型推荐
-
BGE 系列(智源研究院)
- BGE-EN-ICL:英文向量模型,支持少量示例学习,提升复杂任务处理能力。
- BGE-Multilingual-Gemma2:多语言模型,尤其在中英文场景表现突出,支持跨语言检索。
- BGE-Reranker-V2.5-Gemma2-Lightweight:轻量化重排序模型,节省计算资源,保持高性能。
- 特点:基于大模型训练,领域适应能力强,适用于信息检索、自然语言处理等任务。
-
jina-embeddings-v2(Jina AI)
- 特点:全球首款开源 8K 上下文长度向量模型,性能与 OpenAI 的
text-embedding-ada-002
相当,支持中英、英德双语,提供 768(base)和 512(small)两种输出维度。 - 优势:开源、低显存需求,适合长文本处理(如法律、医学文献分析)。
- 特点:全球首款开源 8K 上下文长度向量模型,性能与 OpenAI 的
-
诺谛 “支点” 向量模型
- 特点:在 C-MTEB 中文评测中排名第一,采用多样化困难样本采样和数据合成技术,支持多场景下游任务(分类、检索、排序等)。
- 优势:针对中文优化,性能全面,适合 RAG 系统和行业应用。
-
Sentence Transformers 系列
- 如
all-minilm-l6-v2
:轻量级模型,384 维向量,适合快速检索和聚类任务。 - 特点:开源、易于部署,适合资源受限环境。
- 如
二、显存需求分析
向量模型的显存占用主要取决于模型参数规模、输入长度、量化方式及部署环境。以下是典型场景的估算:
-
BGE 系列
- 基础模型(如 Gemma2):参数规模约 2B-10B,FP16 精度下单卡显存需求约 4-20GB。
- 轻量化版本(如 BGE-Reranker-Lightweight):显存需求可降低至 2-4GB。
-
jina-embeddings-v2
- Base 版(768 维):单卡 FP16 显存约 3-6GB(支持 8K 输入时,KV 缓存可能增加 1-2GB)。
- Small 版(512 维):显存需求约 2-4GB,适合移动端或低资源设备。
-
诺谛 “支点” 模型
- 参数规模:未公开具体参数,但作为行业模型,显存需求可能与 BGE 系列相近(5-15GB)。
- 优化后:通过量化(如 INT4)可降至 1-4GB。
-
Sentence Transformers
- 轻量级模型(如
all-minilm-l6-v2
):显存需求通常 < 1GB,适合本地部署。
- 轻量级模型(如
三、关键影响因素
- 输入长度:长文本(如 8K tokens)会显著增加 KV 缓存占用,可能使显存需求翻倍。
- 量化技术:FP16/INT8/INT4 量化可减少显存占用 30%-80%,但需平衡性能损失。
- 部署框架:使用
vLLM
、DeepSpeed
等优化框架可降低显存开销。
四、建议
- 资源有限场景:优先选择轻量级模型(如
jina-embeddings-v2-small
或all-minilm-l6-v2
)。 - 长文本需求:使用支持 8K 输入的模型(如 jina-embeddings-v2),并确保显存≥8GB。
- 行业应用:考虑诺谛 “支点” 或 BGE-Multilingual-Gemma2,结合量化技术优化部署成本。
实际显存需求需结合具体任务(如批处理大小、序列长度)和硬件配置进一步测试。