ds-主流向量引擎及显存需求

以下是几款表现优异的向量模型及其显存需求分析：

BGE 系列（智源研究院）
- BGE-EN-ICL：英文向量模型，支持少量示例学习，提升复杂任务处理能力。
- BGE-Multilingual-Gemma2：多语言模型，尤其在中英文场景表现突出，支持跨语言检索。
- BGE-Reranker-V2.5-Gemma2-Lightweight：轻量化重排序模型，节省计算资源，保持高性能。
- 特点：基于大模型训练，领域适应能力强，适用于信息检索、自然语言处理等任务。
jina-embeddings-v2（Jina AI）
- 特点：全球首款开源 8K 上下文长度向量模型，性能与 OpenAI 的text-embedding-ada-002相当，支持中英、英德双语，提供 768（base）和 512（small）两种输出维度。
- 优势：开源、低显存需求，适合长文本处理（如法律、医学文献分析）。
诺谛 “支点” 向量模型
- 特点：在 C-MTEB 中文评测中排名第一，采用多样化困难样本采样和数据合成技术，支持多场景下游任务（分类、检索、排序等）。
- 优势：针对中文优化，性能全面，适合 RAG 系统和行业应用。
Sentence Transformers 系列
- 如all-minilm-l6-v2：轻量级模型，384 维向量，适合快速检索和聚类任务。
- 特点：开源、易于部署，适合资源受限环境。

向量模型的显存占用主要取决于模型参数规模、输入长度、量化方式及部署环境。以下是典型场景的估算：

BGE 系列
- 基础模型（如 Gemma2）：参数规模约 2B-10B，FP16 精度下单卡显存需求约 4-20GB。
- 轻量化版本（如 BGE-Reranker-Lightweight）：显存需求可降低至 2-4GB。
jina-embeddings-v2
- Base 版（768 维）：单卡 FP16 显存约 3-6GB（支持 8K 输入时，KV 缓存可能增加 1-2GB）。
- Small 版（512 维）：显存需求约 2-4GB，适合移动端或低资源设备。
诺谛 “支点” 模型
- 参数规模：未公开具体参数，但作为行业模型，显存需求可能与 BGE 系列相近（5-15GB）。
- 优化后：通过量化（如 INT4）可降至 1-4GB。
Sentence Transformers
- 轻量级模型（如all-minilm-l6-v2）：显存需求通常 < 1GB，适合本地部署。