ds-主流向量引擎及显存需求

以下是几款表现优异的向量模型及其显存需求分析:


一、主流向量模型推荐

  1. BGE 系列(智源研究院)

    • BGE-EN-ICL:英文向量模型,支持少量示例学习,提升复杂任务处理能力。
    • BGE-Multilingual-Gemma2:多语言模型,尤其在中英文场景表现突出,支持跨语言检索。
    • BGE-Reranker-V2.5-Gemma2-Lightweight:轻量化重排序模型,节省计算资源,保持高性能。
    • 特点:基于大模型训练,领域适应能力强,适用于信息检索、自然语言处理等任务。
  2. jina-embeddings-v2(Jina AI)

    • 特点:全球首款开源 8K 上下文长度向量模型,性能与 OpenAI 的text-embedding-ada-002相当,支持中英、英德双语,提供 768(base)和 512(small)两种输出维度。
    • 优势:开源、低显存需求,适合长文本处理(如法律、医学文献分析)。
  3. 诺谛 “支点” 向量模型

    • 特点:在 C-MTEB 中文评测中排名第一,采用多样化困难样本采样和数据合成技术,支持多场景下游任务(分类、检索、排序等)。
    • 优势:针对中文优化,性能全面,适合 RAG 系统和行业应用。
  4. Sentence Transformers 系列

    • all-minilm-l6-v2:轻量级模型,384 维向量,适合快速检索和聚类任务。
    • 特点:开源、易于部署,适合资源受限环境。

二、显存需求分析

向量模型的显存占用主要取决于模型参数规模、输入长度、量化方式及部署环境。以下是典型场景的估算:

  1. BGE 系列

    • 基础模型(如 Gemma2):参数规模约 2B-10B,FP16 精度下单卡显存需求约 4-20GB。
    • 轻量化版本(如 BGE-Reranker-Lightweight):显存需求可降低至 2-4GB。
  2. jina-embeddings-v2

    • Base 版(768 维):单卡 FP16 显存约 3-6GB(支持 8K 输入时,KV 缓存可能增加 1-2GB)。
    • Small 版(512 维):显存需求约 2-4GB,适合移动端或低资源设备。
  3. 诺谛 “支点” 模型

    • 参数规模:未公开具体参数,但作为行业模型,显存需求可能与 BGE 系列相近(5-15GB)。
    • 优化后:通过量化(如 INT4)可降至 1-4GB。
  4. Sentence Transformers

    • 轻量级模型(如all-minilm-l6-v2:显存需求通常 < 1GB,适合本地部署。

三、关键影响因素

  1. 输入长度:长文本(如 8K tokens)会显著增加 KV 缓存占用,可能使显存需求翻倍。
  2. 量化技术:FP16/INT8/INT4 量化可减少显存占用 30%-80%,但需平衡性能损失。
  3. 部署框架:使用vLLMDeepSpeed等优化框架可降低显存开销。

四、建议

  • 资源有限场景:优先选择轻量级模型(如jina-embeddings-v2-smallall-minilm-l6-v2)。
  • 长文本需求:使用支持 8K 输入的模型(如 jina-embeddings-v2),并确保显存≥8GB。
  • 行业应用:考虑诺谛 “支点” 或 BGE-Multilingual-Gemma2,结合量化技术优化部署成本。

实际显存需求需结合具体任务(如批处理大小、序列长度)和硬件配置进一步测试。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/979258.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

LeapVAD:通过认知感知和 Dual-Process 思维实现自动驾驶的飞跃

25年1月来自浙江大学、上海AI实验室、慕尼黑工大、同济大学和中科大的论文“LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking”。 尽管自动驾驶技术取得长足进步&#xff0c;但由于推理能力有限&#xff0c;数据驱动方法仍然难以应…

R语言+AI提示词:贝叶斯广义线性混合效应模型GLMM生物学Meta分析

全文链接&#xff1a;https://tecdat.cn/?p40797 本文旨在帮助0基础或只有简单编程基础的研究学者&#xff0c;通过 AI 的提示词工程&#xff0c;使用 R 语言完成元分析&#xff0c;包括数据处理、模型构建、评估以及结果解读等步骤&#xff08;点击文末“阅读原文”获取完整代…

面试八股文--数据库基础知识总结(2) MySQL

本文介绍关于MySQL的相关面试知识 一、关系型数据库 1、定义 关系型数据库&#xff08;Relational Database&#xff09;是一种基于关系模型的数据库管理系统&#xff08;DBMS&#xff09;&#xff0c;它将数据存储在表格&#xff08;表&#xff09;中&#xff0c;并通过表格…

入门基础项目(SpringBoot+Vue)

文章目录 1. css布局相关2. JS3. Vue 脚手架搭建4. ElementUI4.1 引入ElementUI4.2 首页4.2.1 整体框架4.2.2 Aside-logo4.2.3 Aside-菜单4.2.4 Header-左侧4.2.5 Header-右侧4.2.6 iconfont 自定义图标4.2.7 完整代码 4.3 封装前后端交互工具 axios4.3.1 安装 axios4.3.2 /src…

手机放兜里,支付宝“碰一下”被盗刷?

大家好&#xff0c;我是小悟。 近期&#xff0c;网络上关于“支付宝‘碰一下’支付易被盗刷”的传言甚嚣尘上&#xff0c;不少用户对此心生疑虑。 首先&#xff0c;要明确一点&#xff1a;“碰一下”支付并不会像某些传言中所描述的那样容易被隔空盗刷。这一观点已经得到了支付…

【多模态】Magma多模态AI Agent

1. 前言 微软杨建伟团队&#xff0c;最近在AI Agent方面动作连连&#xff0c;前两天开源了OmniParser V2&#xff0c;2月26日又开源了Magma&#xff0c;OmniParser专注在对GUI的识别解析&#xff0c;而Magma则是基于多模态技术&#xff0c;能够同时应对GUI和物理世界的交互&…

解决yarn run dev报错: TypeError: Cannot create property ‘-registry-npmmirror-com‘

一、问题描述 在使用yarn run dev启动项目时&#xff0c;遇到以下错误&#xff1a; error TypeError: Cannot create property -registry-npmmirror-com on string {"-registry-npmmirror-com":true}二、解决方案 使用npm config get registry和yarn config get r…

HONOR荣耀MagicBook 15 2021款 独显(BOD-WXX9,BDR-WFH9HN)原厂Win10系统

适用型号&#xff1a;【BOD-WXX9】 MagicBook 15 2021款 i7 独显 MX450 16GB512GB (BDR-WFE9HN) MagicBook 15 2021款 i5 独显 MX450 16GB512GB (BDR-WFH9HN) MagicBook 15 2021款 i5 集显 16GB512GB (BDR-WFH9HN) 链接&#xff1a;https://pan.baidu.com/s/1S6L57ADS18fnJZ1…

车载电源管理新标杆NCV8460ADR2G 在汽车电子负载开关中的应用

NCV8460ADR2G是一款完全保护的高压侧驱动器&#xff0c;可用于开关各种负载&#xff0c;如灯泡、电磁阀和其他致动器。该器件可以通过有源电流限制和高温关断针对过载情况进行内部保护。 诊断状态输出引脚提供了高温以及开关状态开路负载情况的数字故障指示。 NCV8460ADR2G产品…

MYSQL数据库创建命令

1.创建数据库 2.查看数据库 3.切换数据库 4.删除数据库 5.查看数据库 6.练习 导出文件 可在文件里查看到

因子有效性的审判使者——回测分析【量化实践】

我叫补三补四&#xff0c;很高兴见到大家&#xff0c;欢迎一起学习交流和进步 今天来讲一讲alpha策略制定后的测试问题 因子回测的方法公说公有理&#xff0c;婆说婆有理&#xff0c;笔者在这里也不会盖棺定论&#xff0c;就像学模型的时候经常听到的老生常谈&#xff1a;从哥白…

SpringBoot 整合mongoDB并自定义连接池,实现多数据源配置

要想在同一个springboot项目中使用多个数据源&#xff0c;最主要是每个数据源都有自己的mongoTemplate和MongoDbFactory。mongoTemplate和MongoDbFactory是负责对数据源进行交互的并管理链接的。 spring提供了一个注解EnableMongoRepositories 用来注释在某些路径下的MongoRepo…

spark的一些指令

一&#xff0c;复制和移动 1、复制文件 格式&#xff1a;cp 源文件 目标文件 示例&#xff1a;把file1.txt 复制一份得到file2.txt 。那么对应的命令就是&#xff1a;cp file1.txt file2.txt 2、复制目录 格式&#xff1a;cp -r 源文件 目标文件夹 示例&#xff1a;把目…

linux之crosstool-NG(1)生成toolchain

Linux之crosstool-NG(1)生成交叉编译Toolchain Author: Once Day Date: 2025年2月25日 一位热衷于Linux学习和开发的菜鸟&#xff0c;试图谱写一场冒险之旅&#xff0c;也许终点只是一场白日梦… 本文相关内容翻译自crosstool-NG官方文档。 漫漫长路&#xff0c;有人对你微笑…

Vue 项目中配置代理的必要性与实现指南

Vue 项目中配置代理的必要性与实现指南 在 Vue 前端项目的开发过程中&#xff0c;前端与后端地址通常不同&#xff0c;可能引发跨域问题。为了在开发环境下顺畅地请求后端接口&#xff0c;常常会通过配置**代理&#xff08;proxy&#xff09;**来解决问题。这篇文章将详细解析…

【AI论文】MoM: 使用混合记忆(Mixture-of-Memories)的线性序列建模

摘要&#xff1a;线性序列建模方法&#xff0c;如线性注意力、状态空间建模和线性循环神经网络&#xff08;RNNs&#xff09;&#xff0c;通过降低训练和推理的复杂性&#xff0c;显著提高了效率。然而&#xff0c;这些方法通常将整个输入序列压缩成一个固定大小的单一记忆状态…

鸿蒙app 开发中的 横线 竖线 line

实现下面中线 可以使用 line 而不用前端 类似的 盒子的边框来实现 这种实现 方式 更加的灵活 参考的官方文档

腿足机器人之十四-强化学习SAC算法

腿足机器人之十四-强化学习SAC算法 核心原理关键结构输入输出规范&#xff08;以 Humanoid-v5 为例&#xff09; Soft Actor-Critic&#xff08;SAC&#xff09;是一种基于属于 Actor-Critic 框架的算法&#xff0c;属于最大熵的强化学习算法&#xff0c;最大熵的特点就是不仅考…

DBGPT安装部署使用

简介 DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents)。 目的是构建大模型领域的基础设施&#xff0c;通过开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Mul…

【江科大STM32】TIM输出比较-PWM功能(学习笔记)

一、PWM驱动LED呼吸灯 接线图&#xff1a; PWM的初始化: 具体步骤&#xff1a; ①RCC开启时钟&#xff08;把要用的TIM外设和GPIO外设时钟都打开&#xff09; ② 配置时基单元&#xff0c;包括前面的时钟源选择 ③配置输出比较单元&#xff0c;里面包括CCR的值&#xff…