景联文科技高质量大模型训练数据汇总!

3月25日,2024年中国发展高层论坛年会上,国家数据局局长刘烈宏在“释放数据要素价值,助力可持续发展”的演讲中表示,中国10亿参数规模以上的大模型数量已超100个。

当前,国内AI大模型发展仍面临诸多困境。其中,较为突出的就是高质量数据集的匮乏,这极大阻碍了大模型效果提升。特别是专业的行业应用数据集,其获取难度更大,这导致大模型可使用的数据量受到限制,进而对大模型效果形成阻碍。

景联文科技是大语言模型数据供应商,致力于为不同阶段的模型算法匹配高质量数据资源。

世界知识类书籍、期刊、论文及高价值社区文本数据:

  1. 中文书籍 250万本
  2. 高质量外文文献期刊 8500万篇
  3. 英文高质量电子书 200万本

教育题库:

  1. 千12教育题库 1800万
  2. 大学题库 1.1亿,800万带解析
  3. 英文题库 500万

专业知识类期刊、专利、代码:

  1. 中文数字专利 4000万
  2. 程序代码(代码注释) 20万

多轮对话:

  1. 文本多轮对话 1500万
  2. 中英文剧本(电影、电视剧、剧本杀) 6万

音频数据:

  1. 普通话 65万小时

图片生成及隐式/显示推理多模态数据:

  1. 图文复杂描述 600万
  2. 图文推理问答对 600万

生物数据

  1. 核酸库 4000万
  2. 蛋白库 50万
  3. 蛋白结构库 19万
  4. 通路库 1000万
  5. 生信工具

药学数据:

  1. 药物研发数据库 1300万
  2. 全球上市数据库 80万
  3. 一致性评价数据库 25万
  4. 生产检验数据库 40万
  5. 合理用药 300万
  6. 多维文献 1亿
  7. 原料药数据库 1100万

化学数据:

  1. 化合物数据库 1.6亿
  2. 反应信息数据库 4100万
  3. 物化性质数据库 1.6亿
  4. 谱图数据库 20万
  5. 晶体信息数据库 100万
  6. 安全信息数据库 180万
  7. 商品信息数据库 740万

材料数据:

  1. 金属材料数据 20万
  2. 纳米材料数据 30万
  3. 相图数据 6万
  4. 材料性能数据 20万
  5. 材料腐蚀数据
  6. 表面处理数据
  7. 焊接材料数据

专利数据:

  1. 全球专利基础著录数据 1.3亿
  2. 全球专利原文数据 1亿
  3. 全球专利附图数据
  4. 全球专利法律状态数据
  5. 全球专利法律状态数据
  6. 全球专利引文数据
  7. 全球专利分类索引数据
  8. 全球专利重点申请人工商关联数据
  9. 全球生化医药专利深加工数据
  10. 全球专利全文数据

医疗器械数据:

  1. 国内政策法规数据 3千
  2. 行业标准数据
  3. 中国医疗器械审评数据 20万
  4. 中国医械临床试验数据 5千
  5. 全球医械临床试验数据 7万
  6. 医用耗材中标数据 1400万
  7. 医用耗材带量采购数据 400万
  8. 医用设备招投标数据38万

同时景联文科技提供大模型训练数据的标注服务,致力于为全球数千家人工智能从业公司和高校科研机构交付海量、高质量的多模态大模型训练数据。

景联文科技|数据采集|数据标注|大语言模型训练数据

助力人工智能技术,赋能传统产业智能转型升级

文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/498981.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ctf-36C3解析

一、环境 unbentu 这道题给了docker环境,gethub上面自己找 一个好用的linux全局切换梯子proxychains 二、开始解析 2.1初始 2.2编译 docker build . 2.3代理设置完毕 我试了一下代理还是不行,我们换源尝试一下 RUN sed -i s/deb.debian.org/mirro…

MYSQL数字函数实操宝典:场景化SQL语句一网打尽

​🌈 个人主页:danci_ 🔥 系列专栏:《设计模式》《MYSQL应用》 💪🏻 制定明确可量化的目标,坚持默默的做事。 MYSQL数字函数:不可不知的数据处理利器 文章目录 Part 1: 准备 &#x…

基于STM32C8T6的智能蓝牙小车控制设计

**单片机设计介绍,基于STM32C8T6的智能蓝牙小车控制设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于STM32C8T6的智能蓝牙小车控制设计是一个综合了硬件与软件设计的项目,旨在实现小车的智能控制、…

如何使用固定公网地址远程连接Python编译器并将运行结果返回到Pycharm

文章目录 一、前期准备1. 检查IDE版本是否支持2. 服务器需要开通SSH服务 二、Pycharm本地链接服务器测试1. 配置服务器python解释器 三、使用内网穿透实现异地链接服务器开发1. 服务器安装Cpolar2. 创建远程连接公网地址 四、使用固定TCP地址远程开发 本文主要介绍如何使用Pych…

K8S Pod状态为“被驱逐(evicted)”的解决方法

文章目录 驱逐原因问题复现解决方案 在Kubernetes中,pod是最小的调度单元。当Pod无法在所分配的节点上正常运行时,它可能会被驱逐(evicted)。这种情况可能是由多种原因引起,比如节点资源不足、Pod超出了所分配的资源限制、镜像拉取失败等。 …

哈希表(hash_table) 哈希存储 算法相关知识 稳定性 时间复杂度

哈希存储(散列存储) 为了快速定位数据 哈希表 哈希冲突 / 哈希矛盾 关键字不一样,但是映射之后结果一样 如何避免 哈希矛盾? 1、重新设计哈希函数,尽可能均匀散列分布在哈希表 2、开放定址法:向下寻找未存储的位置进行存放数…

《Invariant Feature Learning for Generalized Long-Tailed Classification》阅读笔记

论文标题 《Invariant Feature Learning for Generalized Long-Tailed Classification》 广义长尾分类的不变特征学习 作者 Kaihua Tang、Mingyuan Tao、Jiaxin Qi、Zhenguang Liu 和 Hanwang Zhang 来自南洋理工大学、阿里达摩院和浙江大学 初读 摘要 属性不平衡&#…

基于 FFmpeg 和 SDL 的音视频同步播放器

基于 FFmpeg 和 SDL 的音视频同步播放器 基于 FFmpeg 和 SDL 的音视频同步播放器前置知识音视频同步简介复习DTS、PTS和时间基 程序框架主线程解复用线程音频解码播放线程视频解码播放线程 音视频同步逻辑源程序结果工程文件下载参考链接 基于 FFmpeg 和 SDL 的音视频同步播放器…

vue 元素拖动,复制,已复制元素可移动,快捷方便,已解决

注意:使用当前组件时,请先了解组件代码逻辑 下方组件根据自己的需求来更改响应的元素id,调整代码实现逻辑,这里不过多解释 import Vue from "vue";/*** 拖拽*/ Vue.directive("Drag", (el) > {const move…

MySQL---函数

目录 一、概述 二、字符串函数 三、数值函数 四、日期函数 五、流程函数 一、概述 函数 是指一段可以直接被另一段程序调用的程序或代码。 也就意味着,这一段程序或代码在MySQL 中 已经给我们提供了,我们要做的就是在合适的业务场景调用对应的函数完…

课堂练习:环境体验——Linux 文件操作命令

任务描述 第二个任务就是了解Linxu的文件查看命令,文件编辑基本命令。 相关知识 为了完成本关任务,你需要掌握: 1.文件查看命令。 2.文件编辑基本命令。 文件查看命令 我们要查看一些文本文件的内容时,要使用文本编辑器来查看…

vue3+ts白屏问题解决

文章目录 打开白屏解决方法可能出现问题使用base导致的使用baseUrl导致的 注意点vue3ts白屏问题知识分享 打开白屏 解决方法 在vue.config.js页面 添加publicPath:./, const { defineConfig } require(vue/cli-service)module.exports defineConfig({ transpileDependenci…

MATLAB:优化与规划问题

一、线性规划 % 线性规划(Linear programming, 简称LP) fcoff -[75 120 90 105]; % 目标函数系数向量 A [9 4 7 54 5 6 105 10 8 53 8 9 77 6 4 8]; % 约束不等式系数矩阵 b [3600 2900 3000 2800 2200]; % 约束不等式右端向量 Aeq []; % 约束等式系…

搭建本地局域网域名并配置本地的mqtt服务器

1. 第一步: 首先准备一台windows电脑,安装 Technitium DNS Server 链接如下: Technitium DNS Server | An Open Source DNS Server For Privacy & Security 启动 start 然后进入 http://localhost:5380/ 下载完成之后,需要…

数字三角形 Number Triangles

题目描述 观察下面的数字金字塔。 写一个程序来查找从最高点到底部任意处结束的路径,使路径经过数字的和最大。每一步可以走到左下方的点也可以到达右下方的点。 在上面的样例中,从 7 → 3 → 8 → 7 → 5 7 \to 3 \to 8 \to 7 \to 5 7→3→8→7→5 的…

【JAVAEE学习】探究Java中多线程的使用和重点及考点

˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN 如…

vue 内嵌第三方网页

需要将另一个系统嵌套到当前网页中 一、frame 方法一就是通过html的标签 iframe 实现网页中嵌入其他网站 标签属性 属性含义src嵌套的网页地址width设置嵌套网页的宽度,单位为像素height设置嵌套网页的高度,单位为像素frameborder控制嵌套的网页是否…

【CC工具箱1.2.5】更新_免费无套路,70+个工具

CC工具箱目前已经更新到1.2.5版本,完全免费无套路。 适用版本ArcGIS Pro 3.0及以上。 欢迎大家使用,反馈bug,以及提出需求和意见,时间和能力允许的话我会尽量满足要求。 如有关于工具的使用问题和需求建议,可以加下…

使用unplugin-auto-import页面不引入api飘红

解决方案:. tsconfig.json文件夹加上 {"compilerOptions": {"target": "ES2020","useDefineForClassFields": true,"module": "ESNext","lib": ["ES2020", "DOM", &q…

使用Python进行微服务架构的设计与实现【第159篇—微服务架构】

👽发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 使用Python进行微服务架构的设计与实现 在当今软件开发领域中,微服务架构已经成…