LLM资料:中文embedding库

Highlight(重点提示)

理解LLM,就要理解Transformer,但其实最基础的还是要从词的embedding讲起。

毕竟计算机能处理的只有数字,所以万事开头的第一步就是将要处理的任务转换为数字。

面向中文的开源embedding库在自然语言处理领域中扮演着重要的角色,它们能够将文本数据转换为数值向量,进而用于各种机器学习任务。以下是一些常见的面向中文的开源embedding库:

1. Tencent AI Lab Embedding Dataset

  • 简介:由腾讯AI实验室提供的中文和英文词嵌入数据集,包含超过1200万中文词汇和650万英文词汇的预训练词向量。
  • 特点:该数据集提供了100维和200维的词向量表示,能够广泛应用于命名实体识别、文本分类等下游任务。
  • 优势:覆盖面广、新颖性强、准确度高,包含了大量领域特定词汇和新兴词汇。
  • 资源:可通过Tencent AI Lab Embedding Dataset页面下载。

2. M3E

  • 简介:Moka(北京希瑞亚斯科技)开源的中文文本嵌入模型,特别针对中文处理进行了优化。
  • 特点:使用大规模中文句对数据集进行训练,支持同质文本相似度计算和异质文本检索。
  • 优势:在文本分类和文本检索任务上表现优异,超越了openai-ada-002模型(ChatGPT官方模型)。
  • 资源:模型地址在M3E GitHub页面。

3. Chinese-Word-Vectors

  • 简介:一个收集了多种预训练中文词向量的资源库。
  • 特点:包含了多种不同来源和训练方法的中文词向量,如使用Word2Vec、GloVe等技术训练的词向量。
  • 优势:提供了丰富的中文词向量资源,方便研究者和开发者根据需求选择合适的词向量模型。
  • 资源:可通过Chinese-Word-Vectors GitHub页面获取。

4. FastNLP

  • 简介:一款轻量级的NLP处理套件,支持中文文本处理。
  • 特点:提供了文本分类、命名实体识别等多种NLP任务的处理流程和模型。
  • 优势:易于使用,快速上手,支持自定义流程和模型训练。
  • 资源:可通过FastNLP GitHub页面下载。

5. HanLP

  • 简介:一款高性能、高可用的中文语言处理包。
  • 特点:提供了分词、词性标注、命名实体识别、情感分析等多种中文处理功能。
  • 优势:性能优异,支持多种中文处理任务,社区活跃,持续更新。
  • 资源:可通过HanLP GitHub页面获取。

6. SnowNLP

  • 简介:一个用于处理中文文本的Python库。
  • 特点:提供了分词、词性标注、情感分析等中文文本处理功能。
  • 优势:简单易用,适合初学者快速实现中文文本处理。
  • 资源:可通过SnowNLP GitHub页面下载。

这些库和资源为中文自然语言处理提供了强大的支持,无论是学术研究还是商业应用,都可以根据具体需求选择合适的embedding库进行开发和研究。随着AI技术的发展,未来还会有更多高效、实用的embedding库出现,为中文NLP领域带来新的突破。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/497201.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MQ集合了

消息队列,FIFO :异步 解耦 削峰 复杂度上升 幂等 重复消费 消息丢失 / 可用性降低 mq故障 / 一致性要求 mq对比: activeMQ:jms规范,支持事务 xa协议 rabbitMQ:erlang 性能👌 高并发 多语…

react-router v6的Link组件relative属性解释

Link组件有一个名为relative的属性,值为route或path,默认为route 当Link的to为两个点时,配置relativeroute|path会有不同的效果, 之前由于路径嵌套不够深,看不出区别,于是尝试加深路径,一眼就看出了区别 官方解释 | React Router6 中文文档 下方代码请看根路径/cd及其二级路…

C++优先队列——priority_queue,函数对象,labmda表达式,pair等

头文件&#xff1a;#include<queue> 内部使用堆来实现&#xff0c;在需要或得最大的几个值或最小的几个值而不关心整个数组的顺序时非常好用。 用法&#xff1a; priority_queue<int, vector<int>, greater<int>>q; 第一个参数为堆中存储的元素。 …

vue 借助vue-amap插件对高德地图的简单使用

需求&#xff1a;实现点击获取经纬度、定位、对特殊位置标点及自定义信息窗体功能。 高德地图的官网API&#xff1a;概述-地图 JS API 1.4 | 高德地图API vue-amap的中文文档&#xff1a;组件 | vue-amap 实现&#xff1a; 1、安装vue-amap插件 npm install vue-amap --save…

AI预测福彩3D第20弹【2024年3月28日预测--第4套算法重新开始计算第6次测试】

今天继续对第4套算法进行测试&#xff0c;测试的目的主要是为了记录统计两套方案的稳定性和命中率&#xff0c;昨天的第二套方案已命中。今天是第5次测试&#xff0c;同样测试两个方案。废话不多说&#xff0c;直接上结果。 2024年3月28日福彩3D的七码预测结果如下 …

武忠祥《660题》高效刷题包+资料分享

660题的难度书虽然比较难&#xff0c;对于基础的考察比较深入&#xff0c;所以&#xff0c;有没有一种可能&#xff0c;做题太慢&#xff0c;是因为基础不好导致的&#xff01; 所以再继续做下去&#xff0c;就没有什么意义了&#xff0c;因为这就像是用一把钝刀去砍树&#x…

mybatis搭建开发环境

1.创建maven工程 2.配置pom.xml <!--数据库驱动--> <dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>5.1.47</version> </dependency> <!--Mybatis--> <depend…

vscode使用sftp上传

1.用vscode打开项目 2.安装一下这个sftp 3.使用快捷键 ctrlshiftP 打开指令窗口&#xff0c;输入 sftp:config&#xff0c;选中回车&#xff0c;在当前目录中会自动生成 .vscode 文件夹及 sftp.json 4.修改sftp.json文件配置&#xff0c;改成以下&#xff08;默认的参数可能上传…

八种顺序读写函数的介绍(fput/getc;fput/gets;fscanf,fprintf;fwrite,fread)

一&#xff1a;读写的含义的解释&#xff1a; 读&#xff08;读出&#xff09;&#xff1a;即从文件里面读出数据----------->和scanf从键盘里面读出数据类似 写&#xff08;写入&#xff09;&#xff1a;即把数据写入文件里面----------->和printf把数据写入到屏幕上类…

【leetcode】双“指针”

标题&#xff1a;【leetcode】双指针 水墨不写bug 我认为 讲清楚为什么要用双指针 比讲怎么用双指针更重要&#xff01; &#xff08;一&#xff09;快乐数 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为&#xff1a; 对于一个正整数&#xff0c;每一次将该数…

Unity 窗口化设置

在Unity中要实现窗口化&#xff0c;具体设置如下&#xff1a; 在编辑器中&#xff0c;选择File -> Build Settings。在Player Settings中&#xff0c;找到Resolution and Presentation部分。取消勾选"Fullscreen Mode"&#xff0c;并选择"Windowed"。设…

Linux:Jenkins:参数化版本回滚(6)

上几章我讲到了自动集成和部署 Linux&#xff1a;Jenkins全自动持续集成持续部署&#xff08;4&#xff09;-CSDN博客https://blog.csdn.net/w14768855/article/details/136977106 当我们觉得这个页面不行的时候&#xff0c;需要进行版本回滚&#xff0c;回滚方法我这里准备了…

Linux 反引号、单引号以及双引号的区别

1.单引号—— 单引号中所有的字符包括特殊字符&#xff08;$,,和\&#xff09;都将解释成字符本身而成为普通字符。它不会解析任何变量&#xff0c;元字符&#xff0c;通配符&#xff0c;转义符&#xff0c;只被当作字符串处理。 2.双引号——" 双引号&#xff0c;除了$,…

LangSAM项目优化,将SAM修改为MoblieSAM,提速5~6倍

Language Segment-Anything 是一个开源项目&#xff0c;它结合了实例分割和文本提示的强大功能&#xff0c;为图像中的特定对象生成蒙版。它建立在最近发布的 Meta 模型、segment-anything 和 GroundingDINO 检测模型之上&#xff0c;是一款易于使用且有效的对象检测和图像分割…

定时任务 之 cron 表达式

Cron 表达式产生的背景&#xff1a;在Unix系统中&#xff0c;用户经常需要设置一些周期性被执行的任务&#xff0c;如定期备份文件、发送邮件等。为了满足这种需求&#xff0c;Unix系统提供了crontab命令&#xff0c;允许用户定义任务的时间表&#xff0c;并在指定的时间点自动…

实现实时查询并带有查询结果列表的输入框

这个功能主要是实现了一个可以实时查询结果的搜索框&#xff0c;并具备点击外部关闭搜索结果框体的功能&#xff0c;除了v-show和transition依托于vue实现以外其余功能都基于原生JS实现。 效果图&#xff1a; 该功能的实现主要是很久之前面试被问到过&#xff0c;当时没有做出…

Linux:进程控制

进程创建 进程&#xff1a;内核的相关管理数据结构&#xff08;task_structmm_struct页表&#xff09;代码&#xff08;<-共享&#xff09;和数据(<-写时拷贝) fork函数初识 在 linux 中 fork 函数时非常重要的函数&#xff0c;它从已存在进程中创建一个新进程。新进程…

1992-2022年经过矫正的夜间灯光数据

DMSP/OLS夜间灯光的年份是1992-2013年&#xff0c;NPP/VIIRS夜间灯光的年份是2012-2021&#xff0c;且由于光谱分辨率、空间分辨率、辐射分辨率、产品更新周期等方面的差异&#xff0c;DMSP-OLS和SNPP-VIIRS数据不兼容&#xff0c;也就是说我们无法直接对比分析DMSP-OLS和SNPP-…

Linux常用命令-文件操作

文章目录 ls基本用法常用选项组合选项示例注意事项 cd基本用法示例注意事项 pwd基本用法示例选项总结 cp基本用法常见选项示例注意事项 rm基本用法常见选项示例删除单个文件&#xff1a;交互式删除文件&#xff1a;强制删除文件&#xff1a;递归删除目录&#xff1a;交互式递归…

实验02-1 C#和ASP.NET控件:在Web窗体中输出九九乘法表

【实验内容及要求】 1. 在Web窗体中输出九九乘法表 浏览效果如图2-1所示。 图2-1 在Default.aspx.cs中编写C#代码 using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Web.UI; using System.Web.UI.WebControls;public par…