知道智源开源最强语义向量模型BGE是什么吗?

Embedding模型作为大语言模型(Large Language Model,LLM)的一个重要辅助,是很多LLM应用必不可少的部分。但是,现实中开源的Emebdding模型却很少。北京智源人工智能研究院(BAAI)开源了BGE系列Embedding模型,不仅在MTEB排行榜中登顶冠军,还是免费商用授权的大模型,支持中文,可以满足大多数大模型应用场景的需求。同时它还支持商用许可,真是太棒了!官网:GitHub - FlagOpen/FlagEmbedding: Retrieval and Retrieval-augmented LLMs

知道BGE模型是在OpenDevin软件里第一次见到它,在配置embedding向量化的时候看到提示"Enter your LLM Embedding Model\nChoices are openai, azureopenai, llama2 or leave blank to default to 'BAAI/bge-small-en-v1.5' via huggingface”,后来查资料才发现它那么优秀,怪不得在OpenDevin里配置的四个向量模型里竟然占据了一个位置,而且还是默认模型。OpenDevin默认使用BAAI/bge-small-en-v1.5模型,地址:bge-small-en-v1.5: Mirror of https://huggingface.co/BAAI/bge-small-en-v1.5

中文的话可以使用这个模型:bge-small-zh-v1.5: Mirror of https://huggingface.co/BAAI/bge-small-zh-v1.5

当然BGE也有较大的模型,比如bge-large-zh

bge-large-zh: Mirror of https://huggingface.co/BAAI/bge-large-zh

设置好之后,都可以在huggingface里面自动下载下来。当然,如果官网不通,可以使用镜像站:HF-Mirror - Huggingface 镜像站

使用export设置环境变量:

export HF_ENDPOINT=https://hf-mirror.com

当前最新的bge-m3模型介绍

Hugging Face 模型镜像/bge-m3

BGE-M3(Paper, Code)

在这个项目中,我们发布了BGE-M3,它是第一个具有多功能、多语言和多粒度特性的文本检索模型。

  • 多功能:可以同时执行三种检索功能:单向量检索、多向量检索和稀疏检索。
  • 多语言:支持100多种工作语言。
  • 多粒度:它能够处理不同粒度的输入,从短句子到长达8192个词汇的长文档。

在本项目中,为了提高单一检索模式的性能,提出了一种新的自知识蒸馏方法。 我们优化了批处理策略,支持大批处理大小,这可以在对长文本或大型语言模型进行向量微调时简单使用。 我们还构建了一个用于文档检索的数据集,并提出了一个简单的策略来提高长文本的建模能力。 训练代码和微调数据将在不久的将来开源。
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/541388.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Proxmox VE qm 方式恢复虚拟机

前言 使用qm 恢复Proxmox VE虚拟机,高效便捷。 登录Proxmox VE shell 执行恢复操作 假设备份好的文件在其它主机存储,我们可以下载到Proxmox VE本地目录下,如何执行虚拟化恢复操作--storage local-lvm(恢复后存储到的位置&…

【linux】TCP编程{三次握手/四次挥手/API注意点/代码}

文章目录 1.API介绍1.1wc -l dirName1.2inet_pton1.3inet_aton1.4inet_ntop 2.三次握手与四次挥手1.三次握手2.四次挥手3.应用程序和TCP协议层如何交互总结 3.TCP 和 UDP 对比1.宏观2.详细 4.地址转换函数inet_ntoa 5.TCP编程代码Makefiletcp_client.cctcp_server.cctcp_server…

TypeScript学习--day1

一、介绍 TypeScript是JS的超集,为JS添加了类型支持。 1.1 为什么添加类型支持 JS代码的错误大部分是类型错误,增加改Bug时间,影响开发效率。 静态类型:编译期做类型检查 动态类型:执行期做类型检查 TS--静态类型编…

前端保留两位小数

一、保留两位小数(四舍五入) 解决方案:使用 toFixed(x) 方法可以对小数进行指定位数保留,其中x是要保留的位数用法:num.toFixed(x),其中num为需要操作的数据,x为要保留的位数示例:1…

力扣LeetCode138. 复制带随机指针的链表 两种解法(C语言实现)

目录 题目链接 题目分析 题目定位: 解题思路 解题思路1(粗暴但是复杂度高) 解题思路2(巧妙并且复杂度低) 题目链接 138. 复制带随机指针的链表https://leetcode-cn.com/problems/copy-list-with-random-pointer/ …

双写一致性问题

双写一致性问题:同一份数据,需要写数据库、写缓存。数据库中的数据和缓存中的数据要一致 解决办法:延迟双删 当我们要进行更新操作时,先删除缓存,再更新数据库,延迟几百ms再删除一次redis的缓存数据。 示…

2023年蓝桥杯——日期统计

目录 题目链接:1.日期统计 - 蓝桥云课 (lanqiao.cn) 题目描述 思路 代码思路 定义数据结构: 处理每一个月: 检查日期序列在num100中是否存在: 计数匹配的日期数: 输出结果: 代码实现 总结 题目链…

【Python习题】某景区门票的优惠措施为:购买5张以内门票不打折,5到20张打九折,20张以上打八折。编写程序,根据购买的门票数量,输出总票价。

题干 某景区门票的优惠措施为:购买5张以内门票不打折,5到20张打九折,20张以上打八折。编写程序,根据购买的门票数量,输出总票价。 代码

介绍几个好用的电商(淘宝京东1688)API接口,可测试

以下是几个好用的电商(淘宝、京东、1688)API接口,这些接口都可以进行测试以确保其稳定性和可用性: taobao.item_get-获取淘宝商品数据接口返回值说明 1.请求方式:HTTP POST GET (复制薇:Anzex…

2024.4.13 Python 爬虫复习day01

目录 day01_HTTP协议HTML页面web服务器 各类名词解释 URL统一资源定位符 HTTP协议 HTML页面 知识点: 第一个页面 标题标签和图片标签 注册页面 登录页面 WEB服务器 安装fastapi和uvicorn 原始命令方式 镜像源命令方式 工具方式 快速搭建web服务器 知识点: 示例…

CH254X 8051芯片手册介绍

1 8051CPU 8051是一种8位元的单芯片微控制器,属于MCS-51单芯片的一种,由英特尔(Intel)公司于1981年制造。Intel公司将MCS51的核心技术授权给了很多其它公司,所以有很多公司在做以8051为核心的单片机,如Atmel、飞利浦、深联华等公…

ARMv8-A架构下的外部debug模型之外部调试事件(external debug events)概述

外部调试器与处理器之间的握手与external debug events 一,External Debug的使能二,外部调试器和CPU之间的握手三,外部调试事件 External debug events1. External debug request event2. Halt instruction debug event3. Halting step debug…

是的,本科毕业八年,我考研了

今天,是一篇纯分享文。 是的,本科毕业八年,我考研了。 停更10个月,历时296天,我考研上岸了。 小伙伴们,好久不见。 一 发今年第一篇文章的时候刚处理完后续事宜,就简单说了句,后台…

Vue3 ts环境下的PropType

简介 在Typscript中,我们可以使用PropType进行类型的推断与验证。在日常的开发中我们常常会遇到下面这样的场景: 我们通过request请求从服务端获取了一条数据,数据是个Array的格式,Array中的每个元素又是一个对象,像下…

【神经网络与深度学习】循环神经网络基础

tokenization tokenization:分词 每一个词语都是token 分词方法:转为单个词、转为多个词语 N-gram表示法 准备词语特征的方法 (把连续的N个词作为特征) 如 ”我爱你“——>[我,爱,你] 2-gram——[[我…

java项目之校园兼职系统(ssm框架+mysql数据库+文档)

项目简介 校园兼职系统的主要使用者分为:管理员:首页、个人中心、专业管理、商家管理、热门兼职管理、学生管理、兼职接单管理、学生咨询管理、兼职任务管理、完成评价管理、管理员管理、系统管理等模块信息的查看及相应操作;学生&#xff1…

在vue中配置样式 max-width:100px时,发现和width:100px一样没有对应的递增到最大宽度的效果?怎么回事?怎么解决?

原因: 可能时vue的样式大部分和display相关,有很多的联系,导致不生效 解决: 对设置max-width样式的元素设置display:inline-block;属性,即可生效,实现随着子元素的扩展而扩展并增加固定到最大的宽度

使用 ASE 拼接分子

在部分应用场景下,我们需要对两个分子片段进行拼接,例如锂电电解液数据库 LiBE 然而,当前并没有合适的拼接方法。下面是一些已有方法的调研结果: 在 LiBE 论文的附录里,作者使用 pymatgen 进行分子拼接。 其思路是&…

分享2024高校专业建设思路及建设效果

广东泰迪智能科技股份有限公司成立于2013年,是一家专业从事大数据、人工智能等数据智能技术研发、咨询和培训的高科技企业,公司基于十余年的数据智能产业实践经验,构建“产、岗、课、赛、证、文”融通的特色应用型人才培养模式,助…

MQ:延迟队列

6.1场景: 1.定时发布文章 2.秒杀之后,给30分钟时间进行支付,如果30分钟后,没有支付,订单取消。 3.预约餐厅,提前半个小时发短信通知用户。 A -> 13:00 17:00 16:30 延迟时间: 7*30 * 60 *…