三大知名向量化模型比较分析——m3e,bge,bce

先聊聊出处。

M3E 是 Moka Massive Mixed Embedding 的缩写

  • Moka,此模型由 MokaAI 训练,开源和评测,训练脚本使用 uniem ,评测 BenchMark 使用 MTEB-zh
  • Massive,此模型通过千万级 (2200w+) 的中文句对数据集进行训练
  • Mixed,此模型支持中英双语的同质文本相似度计算,异质文本检索等功能,未来还会支持代码检索Embedding,此模型是文本嵌入模型,可以将自然语言转换成稠密的向量。HuggingFace地址:https://huggingface.co/moka-ai
    在这里插入图片描述

BGE是由北京智源人工智能研究院提出的新的embedding模型。 源码地址:https://github.com/FlagOpen/FlagEmbedding在这里插入图片描述

BCE来源网易有道,BCEmbedding模型的GitHub官网 https://github.com/netease-youdao/BCEmbedding,
在这里插入图片描述

在比较m3e、bge和bce向量化模型时,我们需要从多个方面进行分析,包括模型的多语言支持能力、文本处理能力、检索精度以及资源使用情况等。

1. 多语言支持能力

BGE

  • BGE-M3支持超过100种语言,并且能够高效实现不同粒度的检索任务。
  • BGE系列模型包括中英文模型和多语言模型,其跨语言能力全面领先。

M3E

  • M3E主要针对中文文本进行向量化处理,但也有一定的双语处理能力。

BCE

  • BCE的具体多语言支持能力未明确提及,但其被用于RAG应用中,表明其可能具有一定的多语言处理能力。

2. 文本处理能力

BGE

  • BGE可以将任意文本映射到低维的稠密向量,在文本向量化任务中得到了广泛的应用。
  • BGE系列模型在C-MTEB中文排行榜中名列前茅,显示了其强大的文本处理和语义表征能力。

M3E

  • M3E采用大规模混合嵌入技术,旨在提高词向量的表达能力和泛化能力。
  • M3E在训练过程中使用千万级的中文句对数据集进行训练,表现出色的向量编码能力。

BCE

  • BCE模型主要用于提升RAG应用的准确度,具体细节较少,但其作为开源大模型的一部分,应具备较强的文本处理能力。

3. 检索精度与整体语义表征能力

BGE

  • BGE在中英文语义检索精度与整体语义表征能力方面均超越了社区所有同类模型,如OpenAI的text embedding 002等。
  • 其保持了同等参数量级模型中的最小向量维度,使用成本更低。

M3E

  • M3E在私有部署和大规模文本处理方面表现出色,适用于需要私有化和资源节约的场景。
  • 它通过大规模混合嵌入技术提高了词向量的表达能力和泛化能力,适用于各种文本处理任务。

BCE

  • BCE的具体检索精度和语义表征能力未详细说明,但其在RAG应用中的表现表明其具有较高的准确性。

4. 资源使用情况

BGE

  • BGE系列模型在全球下载量超过1500万,位居国内开源AI模型首位,表明其资源使用高效且受欢迎。

M3E

  • M3E属于小模型,资源使用不高,CPU也可以运行,适合私有化部署和资源受限的环境。

BCE

  • BCE的具体资源使用情况未明确提及,但作为开源大模型的一部分,其资源使用可能相对较高。

总结

  • BGE:在多语言支持、文本处理能力和检索精度方面表现优异,尤其适合需要高精度和高效率的场景。同时,其资源使用较为经济。
  • M3E:专注于中文文本处理,具有强大的文本处理能力和灵活的部署选项,适合资源受限或需要私有化的应用场景。
  • BCE:虽然具体细节较少,但其在RAG应用中的表现表明其具备一定的优势,可能适合特定的高精度需求场景。

根据不同的应用需求和资源条件选择合适的模型会更加有效。

BGE模型列表

BAAI/bge-large-en-v1.5
BAAI/bge-base-en-v1.5
BAAI/bge-small-en-v1.5
BAAI/bge-large-zh-v1.5
BAAI/bge-base-zh-v1.5
BAAI/bge-small-zh-v1.5
BAAI/bge-large-en
BAAI/bge-base-en
BAAI/bge-small-en
BAAI/bge-large-zh
BAAI/bge-base-zh
BAAI/bge-small-zh

M3E模型列表

m3e-small
m3e-base
m3e-large

BCE模型列表

bce-embedding-base_v1
bce-reranker-base_v1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/800945.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C++】——类和对象(中)

文章目录 类的默认成员函数构造函数析构函数拷贝构造函数赋值运算符重载运算符重载 const成员函数 类的默认成员函数 在C中,类(class)可以拥有多种成员函数,其中一些成员函数在类定义中没有显式声明时,编译器会隐式地…

微软最新AI:GraphRAG+Chainlit实现跨文档智能检索分析打造私人AI助手

文章目录 前言一、GraphRAG安装二、Chainlit安装学习资料 前言 本月初,微软发布最强 RAG 知识库开源方案 GraphRAG,项目上线即爆火,现在星标量已经达到 10.9 k。 https://github.com/microsoft/graphrag 一、GraphRAG安装 1.创建一个新项目…

电脑使用干货 · 阻止更换主题时改变鼠标指针样式

大家在使用主题的时候会发现,可能更改主题时会自动变换鼠标指针。 本教程将向您展示如何在Windows 10和Windows 11中允许或阻止主题更改您的鼠标指针。 防止主题更改鼠标指针 下载 防止主题更改鼠标指针.reg 运行 > 确定,即可 REG文件内容供参考 …

Bean的作用域配置

ApplicationContext在初始化的时候, 就实例化所有单列的Bean什么意思呢? ApplicationContext context new ClassPathXmlApplicationContext("applicationContext.xml"); 这种实例化模式是可以修改的,也就是可以改变Spring框架在底…

基于Faster R-CNN的安全帽目标检测

基于Faster R-CNN的安全帽目标检测项目通常旨在解决工作场所,特别是建筑工地的安全监管问题。这类项目使用计算机视觉技术,特别是深度学习中的Faster R-CNN算法,来自动检测工人是否正确佩戴了安全帽,从而确保遵守安全规定并减少事…

深入Python网络编程:基础、工具和实践

深入Python网络编程:基础、工具和实践 网络编程是Python应用领域中的一个强大且核心的部分,它为开发者提供了与互联网或其他网络设备进行交互的能力。无论是构建Web服务、APIs,还是创建网络客户端,Python都提供了丰富的库来简化这…

Java基础知识——继承

目录 一、什么是继承 二、类的继承格式 三、继承的特点 四、继承的类型 五、继承的关键字 六、为什么使用继承 一、什么是继承 继承是面向对象编程(OOP)的四大基本原则之一,它允许我们创建一个新类,继承并扩展现有类的属性和…

[MySQL][表的增删查改][二][Retrieve][SELECT][WHERE]详细讲解

目录 1.Retrieve1.基本语法2.SELECT列1.全列查询2.查询字段为表达式3.为查询结果指定别名4.结果去重 3.WHERE条件1.比较运算符2.逻辑运算符3.示例 4.结果排序1.基本语法2.示例 5.筛选分页结果 1.Retrieve 1.基本语法 SELECT [DISTINCT] * | {column [, column] ...} [FROM ta…

【笔记-MyBatis】StatementHandler

Author:赵志乾 Date:2024-07-15 Declaration:All Right Reserved!!! 1. 简介 StatementHandler封装了对JDBC各类Statement的操作,如设置fetchSize属性、设置查询超时时间、与数据库进行交互等&…

MySQL中,如何定位慢查询

MySQL慢查询的表象:页面加载过慢、接口压测响应时间过长(超过1s) 我们当时做压测的时候有的接口非常的慢,接口的响应时间超过了2秒以上,因为我们当时的系统部署了运维的监控系统Skywalking,在展示的报表中…

Quectel EM05-CE 模块测试

作者简介: 一个平凡而乐于分享的小比特,中南民族大学通信工程专业研究生在读,研究方向无线联邦学习 擅长领域:驱动开发,嵌入式软件开发,BSP开发 作者主页:一个平凡而乐于分享的小比特的个人主页…

【ACM出版】第七届计算机信息科学与人工智能国际学术会议(CISAI 2024)

第七届计算机信息科学与人工智能国际学术会议(CISAI 2024) 2024 7th International Conference on Computer Information Science and Artificial Intelligence 2024年9月13-15日 | 地点:浙江-绍兴 欢迎 www.iccisai.org 第七届计算机信息科学与人工智能国际…

服务器数据恢复—RAID5阵列重建重建导致数据丢失的数据恢复案例

服务器数据恢复环境&故障: 一台服务器,有一组由5块硬盘组建的raid5磁盘阵列。 服务器在运行过程中一块有磁盘掉线,由于raid5阵列支持一块磁盘掉线的特性,服务器还在正常工作。不久之后服务器出现故障,管理员在不了…

字节抖音电商 后端开发岗位 一面

笔者整理答案,以供参考 自我介绍 项目(20分钟) RocketMQ延时消息的底层实现 回答: 延时消息的实现主要依赖于RocketMQ中的定时任务机制。消息被发送到Broker时,会先存储在一个特定的延时消息队列中。Broker会定时扫…

外贸行业汽车销售配件展示企业网站源码系统 带完整的源代码包以及搭建教程

系统概述 随着全球贸易的不断深化,外贸行业对于高效、专业的网站需求日益凸显。特别是对于汽车销售配件企业而言,一个功能全面、展示效果出色的网站源码系统,无疑是企业开拓海外市场、提升品牌形象的关键。本文将详细介绍一款专为外贸行业汽…

MySQL运维实战之ProxySQL(9.10)proxysql监控

作者:俊达 stats数据库 从stats数据库中可以查到proxysql一些内部组件的状态,如内存使用情况、连接池信息、会话信息、SQL执行状态等。 mysql> show tables from stats; --------------------------------------- | tables …

前端a-tree遇到的问题

在使用a-tree时候,给虚拟滚动的高度,然后展开a-tree滑动一段距离 比如这样 随后你切换页面,在返回这个页面的时候 就会出现这样的bug 解决方法: onBeforeRouteLeave((to, from, next) > {// 可以在路由参数变化时执行的逻辑ke…

ASP.NET Core----基础学习06----将所有数据在页面中显示 布局页面的使用

文章目录 1. 将数据以list的形式展示在页面中2. 布局页面的使用3. 自定义设置视图文件是否需要加载的JS 1. 将数据以list的形式展示在页面中 step1:在接口文件中添加新的方法GetAllStudents() step2:在mock的数据中添加方法GetAllStudents(&a…

多核并行加速 tokenizer

import multiprocessingdef tokenize_text(text):return tokenizer(text, truncationTrue, paddingTrue, max_length256)def parallel_tokenize(texts, num_processesNone):"""使用多核并行处理文本分词"""with multiprocessing.Pool(processesn…

FPGA上板项目(二)——PLL测试

目录 实验内容实验原理实验步骤实验结果 实验内容 将差分时钟信号转化为 192MHz 时钟信号作为输出。 实验原理 PLL,即锁相环,一种反馈控制电路,具有时钟倍频、分频、相位偏移和可编程占空比的功能。 实验步骤 添加 clocking wizard IP核&…