智能时代 | 合合信息Embedding模型荣获C-MTEB榜单第一

目录

前言

1. MTEB与C-MTEB 

2. acge模型的优势

3. Embedding模型应用

4. 大模型发展的关键技术

结语


前言

        随着人工智能的不断发展,大语言模型吸引着社会各界的广泛关注,支撑模型应用落地的Embedding模型成为业内的焦点,大模型的发展给我们的生活、工作、学术等领域带来了很多的便利。

        自从OpenAI正式发布了人工智能聊天机器人ChatGPT,大模型的火热程度直增,它是能基于语言的交互来完成各类人工智能任务的技术,更好的实现人机交互。但目前在商业落地应用,还没有取得非常理想的效果。近期,上海合合信息科技股份有限公司发布了文本向量化模型acge_text_embedding(“acge”模型)荣获MTEB(Massive Text Embedding Benchmark)中文榜单(C-MTEB)第一的成绩,这一成果将推动大模型更快速地在行业中的领域应用。

1. MTEB与C-MTEB 

MTEB(Massive Text Embedding Benchmark)是衡量文本嵌入模型(Embedding模型)的评估指标的合集,是目前业内评测文本向量模型性能的重要参考。主要包括涵盖112种语言的58个数据集,针对如下任务:Clustering、Bitext minin、Retrieval、STS、Summarization、Classificationg、Pair classification、Reranking。

对应的C-MTEB则是专门针对中文文本向量的评测基准,C-MTEB被公认为是目前业界最全面、最权威的中文语义向量评测基准之一,涵盖了分类、聚类、检索、排序、文本相似度、STS等6个经典任务,共计35个数据集,为深度测试中文语义向量的全面性和可靠性提供了可靠的实验平台。目前一些知名的大企业如:阿里、腾讯、商汤等都在C-MTEB榜单测评发布模型。目前acge模型能够很好地处理一些需求:如文本分类、语义相似度计算、情感分析等。

文本分类:使用已经预训练好的Embedding模型来提取文本特征,并通过分类器(如SVM、LR等)对文本进行分类。例如,对于新闻文本,我们可以使用Embedding技术将文本转换为向量,然后利用分类器判断新闻的类别(如体育、科技、娱乐等)。

语义相似度计算:通过计算两个文本的Embedding向量之间的余弦相似度来判断它们之间的语义相似度。例如,在搜索引擎中,当用户输入一个查询词时,我们可以使用Embedding技术计算查询词与库中各个文档的语义相似度,从而返回最相关的文档。

情感分析:利用Embedding技术将文本转换为向量,然后利用机器学习算法(如SVM、神经网络等)对文本进行情感分析,判断文本的情感倾向(如正面、负面、中性)。

2. acge模型的优势

合合信息的acge模型在设计上充分考虑了实际应用的需求。与目前C-MTEB榜单上排名前五的开源模型相比,acge模型在保持高性能的同时,具有更小的模型体积和更低的资源占用,且模型输入文本长度为1024,使其更适用于实际生产环境。此外,模型支持的可变输出维度功能,使得企业可以根据具体场景灵活调整资源分配,进一步优化应用效果。

值得一提的是,acge模型不仅在传统文本处理任务中表现出色,还能在不同场景下构建通用分类模型,提升长文档信息抽取精度,为大模型在多个行业中的快速应用提供了有力支持。这一特性使得acge模型在帮助企业实现数字化转型、提升业务效率等方面具有广阔的应用前景。

合合信息发布的acge模型聚类分数比较高在企业管理、市场营销、医疗、电商、金融、教育、社交网络、旅游等领域都有广泛的应用。聚类分析可以帮助企业提高营销效果;帮助医生提高诊断效果;帮助金融机构了解客户理财需求,提供更好的金融服务;还可以帮助学校评估教学质量和教师表现。

3. Embedding模型应用

在这个大数据的互联网时代,我们每天都会面对大量的数据,这些数据可能包含着很多无用的干扰信息,如何快速抓住“关键信息”,过滤掉“不相干的无用数据”至关重要!Embedding模型凭借对查询深层含义和上下文的深入解析,极大地提升了搜索与问答的品质、速度和精准度,使得搜索和问答引擎不再局限于文字的简单匹配,而是能够深刻洞察并理解用户的真实意图。以贴近生活的学习为例:

如果我们想要在家中学习自制咖啡,可能会在搜索引擎中输入“家庭咖啡制作方法”。对于传统的搜索引擎只会根据关键字引导,简单的匹配一些文章,这些内容可能只是一些与“咖啡”相关的内容而非实用的教学指南,需要用户自己花时间去筛选!借助Embedding模型,引擎便能更准确地理解用户意图,从而提供包括但不限于“选择咖啡豆”、“磨豆技巧”、“不同的冲泡方法”等更专业且细致的内容。

上图是Embedding模型原理示意图,当我们掌握了这些向量嵌入技术之后,它可以帮我们完成一些更加广泛的任务,如:相似性搜索、聚类与分类、信息检索推荐系统。

相似性搜索:通过比较嵌入之间的相似度,我们可以在自然语言处理(NLP)领域找出内容相近的文档或是互有关联的单词。

聚类与分类:将嵌入作为机器学习模型中的输入特征,帮助算法学会如何将相似的事物归为一组,并对各种对象进行分类。

信息检索:运用向量嵌入,我们可以打造出强大的搜索引擎,快速地根据用户的搜索需求找到他们想要的文档或多媒体内容。

推荐系统:基于用户以往的喜好和行为数据,通过向量嵌入技术为用户个性化推荐商品、文章或其他媒体内容。

4. 大模型发展的关键技术

在大语言模型的应用场景中,定制化的嵌入模型的训练变得尤为重要,其中一个重要的应用是结合大语言模型进行检索增强生成(RAG)。在RAG中,嵌入帮助寻找和获取与用户输入相关的文档片段,这些文档片段的内容被并入用户输入中,并指导大语言模型基于这些文档片段生成回应。RAG允许大语言模型避免生成不相关或错误信息,并解决需要超出其训练数据集范围信息的任务,RAG的质量极度依赖于嵌入模型的优劣。如果嵌入未能正确抓取文档特征与用户输入相匹配,那么RAG系统就无法获取到相关文档片段内容。根据上述的问题,合合信息ACG算法团队在数据集训练策略两个方面专门针对Embedding模型进行优化。

①在数据集方面,技术人员收集构造了大量的数据集,保证训练的质量与场景覆盖面。

②在模型训练方面,引入多种有效的模型调优技术,比如Matryoshka训练方式,能够实现一次训练,获取不同维度的表征提取;为了不同任务针对性学习,使用策略学习训练方式,显著提升了检索、聚类、排序等任务上的性能;引入持续学习训练方式,克服了神经网络存在灾难性遗忘的问题,使模型训练迭代能够达到最优收敛空间。

结语

上海合合信息科技股份有限公司基于自主研发的领先的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。未来,随着大语言模型和Embedding技术的进一步发展,合合信息将继续在人工智能领域取得更多的创新和突破。更多其它的产品和应用可以到官网去自行了解:合合TextIn - 合合信息旗下OCR云服务产品

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/567295.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Electron 30.0.0 发布,升级 Node 和 V8 引擎

近日,Electron 30.0.0 正式发布!你可以通过 npm install electronlatest 进行安装,或者从 Electron 的发布网站下载,继续阅读了解此版本的详细信息。 🔥 主要更新 Windows 上支持 ASAR 完整性融合。如果未正确配置&am…

【后端】python与django的开发环境搭建指南

安装Git 双击Git 客户端安装文件,在安装页面,单击“Next” 在安装路径选择页面,保持默认,单击“Next” 在功能组件选择页面,保持默认,单击“Next” 在开始菜单文件夹设置页面,保持默认&am…

AI交互数字人对教育领域有何优势?

AI交互数字人不仅能够跨越物理距离的限制,以数字人形象为学生提供“面对面”教学互动体验,还能根据学生的具体需求提供个性化的知识解答。如天津大学推出了数字人老师,以刘艳丽教授形象1:1仿真打造的2.5D数字人,能够应…

png图片如何缩小体积?这个方法效果不错

图片压缩是我们生活中经常都会遇到的问题。在日常工作中图片体积过大的话,在使用过程中就会收到影响,比如加载过慢等。那么,当我们想要对png图片进行压缩处理的时候,要怎么操作呢?很简单,使用图片在线压缩&…

单链表逆置(头插法,递归,数据结构栈的应用)

链表逆置就是把最后一个数据提到最前面,倒数第二个放到第二个……依次类推,直到第一个到最后一个。 由于链表没有下标,所以不能借助下标来实行数据的逆置,要靠空间的转移来完成链表的逆置,这里采用没有头节点的链表来实…

Ansible安装基本原理及操作(初识)

作者主页:点击! Ansible专栏:点击! 创作时间:2024年4月23日15点18分 Ansible 是一款功能强大且易于使用的IT自动化工具,可用于配置管理、应用程序部署和云端管理。它使用无代理模式(agentles…

学习笔记:Vue2高级篇

Vue2 学习笔记:Vue2基础篇_ljtxy.love的博客-CSDN博客学习笔记:Vue2中级篇_ljtxy.love的博客-CSDN博客学习笔记:Vue2高级篇_ljtxy.love的博客-CSDN博客 Vue3 学习笔记:Vue3_ljtxy.love的博客)-CSDN博客 文章目录 7.…

STM32 HAL库F103系列之DAC实验(一)

DAC输出实验 原理图 DAC数据格式 DAC输出电压 DORX - 数据输出寄存器 Vref 3.3V 实验简要 1,功能描述 通过DAC1通道1(PA4)输出预设电压, 然后由ADC1通道1 (PA1) 采集,最后显示ADC转换的数字量及换算后的电压值 2,关闭通道1…

【已解决】三菱PLC与电脑通信步骤

前言 现场弄了一下一台三菱FX5U的PLC结果试了半天都没有连接上,后来琢磨了一下终于算是连接上了。报错的截图如下图所示: 解决步骤 第一步:先将自己电脑的IP地址设置到与PLC的IP地址在同一个网段下(前三个是一样,最…

OpenWrt One/AP-24.XY 开源路由器发布,OpenWRT与Banana Pi社区合作

OpenWrt One/AP-24.XY 开源路由器 2024 年,OpenWrt 项目将迎来20 周年!OpenWrt 开源社区官方通过推出社区自己的第一个完全上游支持的硬件设计来庆祝这一周年纪念日。并与联发科,Banana Pi开源社区紧密合作,共同完成硬件的设计与…

C++友元类

友元类 友元类的使用 友元不仅仅适合于友元函数,还可以将类作为友元,在这种情况下,友元类的所有方法都可以访问原始类的私有方法和保护成员,什么时候去使用友元类呢? 两个类之间不存在包含和所属关系,但…

HTML中的文档声明

前言 什么是<!DOCTYPE>&#xff1f;是否需要在 HTML5 中使用&#xff1f;什么是严格模式与混杂模式&#xff1f; 文档声明概念 HTML 文档通常以文档声明开始&#xff0c;该声明的作用是帮助浏览器确定其尝试解析和显示的 HTML 文档类型。 <!DOCTYPE html>文档声…

科技渔业,智慧守护:4G+北斗太阳能定位终端准确定位,防拆卸报警,夯实渔业管理水平

如何高效地管理渔船&#xff0c;有效监控禁渔区域&#xff0c;4G北斗太阳能定位终端应运而生&#xff0c;成为渔业管理的重要应用工具。 我国作为全球渔业的重要国家&#xff0c;渔业一直是沿海地区传统的支柱产业&#xff0c;对经济的繁荣和民生的稳定起着至关重要的作用。因…

STC15L2K60S2-28I-LQFP44 单片机芯片 STC宏晶

STC15L2K60S2-28I-LQFP44 规格信息&#xff1a; 产品类型STC(宏晶) UART/USART2 额定特性- SPI1 USB Device0 USB Host/OTG0 PWM3 I2C&#xff08;SMBUS/PMBUS&#xff09;0 LCD0 工作电压2.4V ~ 3.6V EEPROM 尺度1KB Ethernet0 A/D8x10bit CAN0 D/A3x10bit CPU…

微服架构基础设施环境平台搭建 -(六)Kubesphere 部署Redis服务 设置访问Redis密码

微服架构基础设施环境平台搭建 -&#xff08;六&#xff09;Kubesphere 部署Redis服务 & 设置访问Redis密码 微服架构基础设施环境平台搭建 系列文章 微服架构基础设施环境平台搭建 -&#xff08;一&#xff09;基础环境准备 微服架构基础设施环境平台搭建 -&#xff08;二…

苍穹外卖学习笔记(4.套餐管理,店铺营业状态设置)

目录 一、Redis1、redis在java中的运用 二、店铺营业状态设置1、需求分析设计2、代码设计3、测试 三、套餐管理1、需求设计分析2、代码设计3、测试 一、Redis 具体的redis基本操作就不多再介绍&#xff0c;本节主要学习redis在java中的运用。 1、redis在java中的运用 具体…

Linux之安装Nginx

目录 传送门前言一、快速安装二、反向代理语法1、基本语法2、location语法1. 基本语法2. 匹配规则3. 修饰符4. 权重5. 嵌套location6. 其他指令7.案例 三、配置反向代理 传送门 SpringMVC的源码解析&#xff08;精品&#xff09; Spring6的源码解析&#xff08;精品&#xff0…

【数据结构】AVL树(万字超详细 附动图)

一、前言 二、AVL树的性质 三、AVL树节点的定义 四、AVL树的插入 五、AVL树的平衡调整 六、AVL树的验证 6.1 验证有序 6.2 验证平衡 七、AVL树的删除 八、AVL树的性能和代码 一、前言 还没有学习过二叉搜索树的同学可以移步 【数据结构】二叉搜索树-CSDN博客https:/…

《LINUX运维从入门到精通 》:运维入门者的自学用书

作者简介&#xff1a;一名云计算网络运维人员、每天分享网络与运维的技术与干货。 公众号&#xff1a;网络豆云计算学堂 座右铭&#xff1a;低头赶路&#xff0c;敬事如仪 个人主页&#xff1a; 网络豆的主页​​​​​ 写在前面 《Linux运维从入门到精通》从初学者角度…

免费GPU Google Colab保姆级使用攻略,实现数据集快速下载

Colab&#xff08;Colaboratory&#xff09;是一个基于云的交互式开发环境&#xff0c;专为数据科学、机器学习和人工智能任务设计。Colab 由 Google 提供&#xff0c;允许用户在浏览器中直接编写、运行、共享和协作处理 Python代码&#xff0c;特别是那些涉及大数据处理、计算…