大模型知识大全2-资源【大模型】

文章目录

  • 可用的模型
  • 部分模型的训练规模和数据
  • 常用数据集
    • 外文
    • 中文
    • 书籍和论文
    • 百科数据
    • 代码
    • 混合数据集
    • 微调数据集
    • 对齐数据集

可用的模型

  • 仅记录中文可用的表现较优的模型
  • LLaMA、LLaMA2、LLaMA3(规模在7,13,30,65左右,需要搭配ChineseLLaMA的LoRA权重使用)(多语言表现不错,中文也挺好)
  • ChatGLM3-6b,4-9b(中文微调表现不错)
  • Baichuan-2-7b(预训练数据规模达到了1.2T 词元。)
  • InternLM-2-1.8b,7b,20b(支持工具使用,框架有点非主流)
  • Qwen-2-(0.5–70b) (打榜怪兽,3T预训练)
  • Mistral-7b、Instruct(分组查询注意力 + 滑动窗口注意力)(处理长文能力较强)
  • Mixtral-8x7b(经典混合专家模型,MoE)
    下图为LLaMA发展脉络
    在这里插入图片描述

部分模型的训练规模和数据

在这里插入图片描述

常用数据集

在这里插入图片描述

外文

  • Common Crawl:规模庞大的、非结构化的、多语言、时间跨度长(2008-)包含原始网页数据、元数据和提取的文本数据等,总数据量达到 PB 级别。由于这个数据集规模过于庞大,现有的研究工作主要提取其特定时间段或者符合特殊要求的子集进行使用,该数据集内部充斥着大量的噪声和低质量数据,在使用前必须进行有效的数据清洗,以确保数据质量和准确性,常用的自动清洗工具有 CCNet 等。

  • C4(Colossal Clean Crawled Corpus):大型网页数据集,源自超过 365M 个互联网域,包含超过 156B 词元,数据量约 800GB。该数据集基于 2019 年 4 月的 Common Crawl 语料构建,已经被公开发布,使用该数据集的典型模型有 UL2 和 LLaMA。该数据集针对不同需求,发布了多个子版本:en(英文数据,806G),en.noclean(未清洗的原始数据,6T),realnewslike(仅包含 RealNews 涉及的领域的内容,36G),webtextlike(仅包含来自 OpenWebText 中URLs 的内容,17G)和 multilingual (多语言数据,38T)。

  • CC-Stories:专为常识推理和语言建模构建的故事风格数据集,数据来源是 Common Crawl 中与常识推理任务问题有高度重叠的文档,总共包含约 5.3B 个词元,数据量约 31GB。CC-Stories 的原始来源现在无法访问,只有复现版本 CC-Stories-R 可供使用。使用该数据集训练的代表性模型包括 MegatronTuring NLG 等。

  • CC-News:一个新闻文章数据集,数据量约 76GB,包含了从 2016 年 9 月到 2019 年 2 月期间抓取的 63M 篇英文新闻文章,并以网页存档(WARC)文件形式提供,在 Hugging Face 上可以进行下载。

  • REALNEWs:从 Common Crawl 中抓取的大型新闻语料库,覆盖了谷歌新闻索引的 5,000 个新闻领域,数据量约为 120GB,可从OpenDataLab 上进行下载。该数据集按照时间顺序进行了训练集和测试集的划分,其中2016 年 12 月至2019 年 3 月的新闻划分为训练数据,2019 年 4 月的新闻划分为测试数据。

  • RedPajama-Data:公开的综合网页数据集,包含了来自Common Crawl 的 100B 份文档,其使用了 CCNet 工具进行清洗,在经过过滤和去重得到约 30T 词元,在 Hugging Face 上提供了公开下载。该数据集是一个多语言数据集,包含 5 种语言:英语、法语、西班牙语、德语和意大利语。此外,还提供了 40 余种预先标注好的数据注释,使下游模型开发者能够根据自己的标准对数据集进行筛选或重新加权。该数据集仍在不断更新维护,所有的数据处理脚本均在GitHub 开源。

  • RefinedWeb:该数据集是一个在 Common Crawl 数据的基础上通过严格筛选和去重得到的网络数据集,使用的源数据是从 2008 年到 2023 年 6 月的所有Common Crawl 网页记录,共约 5T 词元。其中,开源部分有 600B 词元,数据量约500GB,解压后需要 2.8TB 的本地存储空间,可从 Hugging Face 上下载。该数据集是开源大语言模型 Falcon 的主要训练数据集。

  • WanJuan-CC(万卷 CC):该数据集是一个从 Common Crawl 数据中抽取并清洗的高质量英文数据集。首批开源的语料覆盖了过去十年内互联网上的公开内容,包含 100B 词元,构成约 400GB 的高质量数据。在数据清洗过程中,发布人员搭建了高性能分布式数据处理系统,通过启发式规则过滤、多层级数据去重、内容安全过滤、数据质量过滤等四个步骤,最终从约 130B 份原始数据文档中萃取出约 1.38% 的高质量内容。上海人工智能实验室发布的 InternLM2 就是以 WanJuan-CC 作为关键数据进行训练。

  • WebText:该数据集是由 OpenAI 构建的一个专注于文档质量的网络文本语料库,它通过抓取 Reddit 上获得至少 3 个赞的外链得到。该语料库旨在捕捉用户认为有趣、有教育价值或幽默的内容,使用的数据是 2017 年 12 月之前的数据,包括了来自 45M 个链接的文本内容,共计超过 8M 份文档,文本总量达到 40GB。OpenAI 在一系列模型的训练过程中,都是使用了该数据集,包括 GPT-2、GPT-3和 InstructGPT 等。遗憾的是,WebText 并未开源。

  • OpenWebText:该数据集是 WebText 的一个复现开源版本,与 WebText 的构建方法相似,其首先从 Reddit 上提取网页链接,经过去重、过滤等处理,最终保留了来自约 8M 份文档的 38GB 文本数据。该数据集可在 Hugging Face 上进行下载。

中文

  • ChineseWebText:从 Common Crawl 庞大的网页数据中精心筛选的中文数据集。该数据集汇集了 2021 年至 2023 年间的网页快照,总计 1.42TB数据量。同时,ChineseWebText 的每篇文本都附有一个定量的质量评分,为研究人员提供了可用于筛选与使用的参考标准。此外,为满足不同研究场景的需求,ChineseWebText 还特别发布了一个 600GB 大小的中文数据子集,并配套推出了一款名为 EvalWeb 的数据清洗工具,方便研究人员根据需求清洗数据。
  • WanJuan 1.0 Text:该数据集是上海人工智能实验室发布的万卷 1.0 多模态语料库的一部分(除文本数据集外,还有图文数据集和视频数据集)。该文本数据集由多种不同来源的数据组成,包括网页、书籍等,数据总量约 500M 个文档,数据大小超过 1 TB。在数据处理过程中,该语料将多种格式的数据进行了统一,并进行了细粒度的清洗、去重,提升了语料的纯净度。该数据集被用于 Intern Multimodal 和 Intern Puyu 的训练,完整数据集可在 Opendatalab 上进行下载。
  • WuDaoCorpora Text:该数据集是北京智源研究院构建的“悟道”项目数据集的一部分(除文本数据集外,还有多模态图文数据集和中文对话数据集)。该文本数据集来源于 100TB 高质量原始网页数据,其中还包含教育、科技等超过 50 个行业数据标签,经过清洗、隐私数据信息去除后剩余 5TB,而开源部分有 200GB。
  • SkyPile-150B:该数据集是一个大规模的综合中文数据集,数据来源于公开可获取的中文网页,其公开部分包含大约 233M 个网页,总共包含约 150B 个词元,620GB 的纯文本内容。为了确保数据质量,该数据集进行了严格的过滤、去重以及隐私数据的清除。此外,还使用了 fastText 等工具进一步筛除低质量数据。该数据集被用于训练 Skywork 模型。

书籍和论文

  • BookCorpus:该数据集是一个免费小说书籍集合,包含了 11,038 本未出版书籍(大约有 74M 句子和 1B 个单词),涵盖了 16 种不同的主题类型(如浪漫、历史、冒险等),本地存储大概需要 5GB 左右。该数据集常被用于训练小规模的模型,如 GPT 和 GPT-2。同时,BooksCorpus 也被 MT-NLG 和 LLaMA等模型所使用。该数据集原始数据集不再公开,但多伦多大学创建了一个镜像版本 BookCorpusOpen,可在 Hugging Face 上进行下载,该版本包含了共计 17,868 本书籍,本地存储大概需要 9GB 左右。至于在 GPT-3 中使用的 Books1 和Books2 数据集合,比 BookCorpus 规模更大,但目前也尚未对外公开。

  • arXiv Dataset:是一个收录了众多领域预印本论文的网站,总数据量约为 1.1TB,并在 Kaggle 上提供了公开下载。为了更好地方便研究工作的使用,arXiv 官方在其网站上发布了一个机器可读的 arXiv 论文数据集,广泛涵盖了物理、数学和计算机科学等领域的论文文献,共包含约1.7M 篇预印本文章,每篇预印本都包含文本、图表、作者、引文、分类以及其他元数据等信息,总数据量约为 1.1TB,并在 Kaggle 上提供了公开下载。

  • S2ORC:该数据集源于学术搜索引擎 Semantic Scholar 上的学术论文,这些论文经过了清洗、过滤并被处理成适合预训练的格式。

百科数据

  • 维基百科

代码

  • BigQuery:是一个谷歌发布的企业数据仓库,包含了众多领域的公共数据集,如社交、经济、医疗、代码等。其中的代码类数据覆盖各种编程语言。
  • The Stack:该数据集由 Hugging Face 收集并发布,是一个涵盖了 30 种编程语言的代码数据集,其数据来源于 GHArchive 项目中 2015 年 1 月 1 日至 2022年 3 月 31 日期间的 GitHub 活跃仓库。The Stack 最初的版本经过数据筛选、过滤以及许可证检测等处理后,最终数据量约为 3TB。同时,该数据集还在不断更新中,v1.2 版本的编程语言已扩展到了 358 种,可以在 Hugging Face 上进行下载。
  • StarCoder:该数据集是 BigCode 围绕 The Stack v1.2 进一步处理得到的代码数据集,是同名模型 StarCoder 的预训练数据。在数据处理上,其根据数据量、流行度排名等因素,从 The Stack v1.2 的 358 种编程语言中筛选出了 86 种语言,同时,为了确保数据质量,该项目还对数据进行了人工抽样审核,以确认数据为人类编写的正常代码,而不是文本或自动生成的代码。此外,数据处理过程还进行了对多种文件类型的过滤,以去除低质量数据。最终数据总量约为 783GB,可以通过 Hugging Face 进行下载。

混合数据集

微调数据集

对齐数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/785760.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Mybatis操作和动态SQL

Mybatis操作 准备 准备数据库表 emp 创建一个新的 springboot 工程,选择引入对应的起步依赖( mybatis 、 mysql 驱动、 lombok ) application.properties 中引入数据库连接信息 spring.datasource.driver-class-namecom.mysql.cj.jdbc.Driv…

关于Linux的操作作业!24道题

🏆本文收录于「Bug调优」专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&…

文章SameStr(四):图4代码

“Publication Figure 4” 百度云盘链接: https://pan.baidu.com/s/15g7caZp354zIWktpnWzWhQ 提取码: 4sh7 Libraries Standard Import library(tidyverse) library(cowplot) library(scales) library(ggpubr)Special library(caret) library(plotROC) library(tidymodel…

To美术-渲染管线及优化方向(CPU方向)

一、CPU与GPU 1、CPU与GPU的区别 橙黄色:控制单元   橙红色:存储单元  绿色:计算单元 CPU:结构组成复杂、控制逻辑丰富,计算量小,适合复杂运算 GPU:结构组成简单,核心数量多,计…

jmeter-beanshell学习5-beanshell加减乘除运算

我用到的场景是计算金额,所以主要以金额为主,感觉这部分有点麻烦,直接写遇到的几个坑,就不演示解决的过程了。 1.最早写了个两数相减,但是小数精度容易出现问题。比如1-0.010.989999997这种情况,随便写的几…

Windows 电脑查看 WiFi 密码的方法都有哪些?

从设置面板中查看 当你使用的是笔记本电脑并且连接 WiFi 之后可以在设置面板中查看 WiFi 密码,首先打开设置界面,然后点击网络和 Internet,找到 WiFi 之后点击进入,然后点击管理已知网络。 然后点击已经连接好的无线网络。 进入之…

前端Din字体和造字工房力黑字体文件

Din 字体是一种经典的、简洁的无衬线字体,它源自1930年代的德国交通标志设计。 造字工房力黑字体适用于数字,驾驶舱标题等统计界面 DIN-Medium.otf 案例 造字工房力黑.TTF 案例

最新综述:多模态引导的基于文生图大模型的图像编辑算法

文章目录 综述亮点1. 图像编辑任务的范围2. 一般性编辑算法的统一框架3. 统一框架在多模态编辑任务中的应用4. 不同组合在文本引导编辑场景下的比较5. 未来研究方向 近期,复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图(Text-t…

nvidia driver和cuda版本较低,ubuntu系统更新nvidia驱动的方法(对于小白最快最最保险的方法)

问题描述: 系统:ubuntu22.04LTS 这两天安装另一个低版本的pytorch环境,提示我的cuda版本很旧,然后运行程序时候甚至直接报错,如下所示: .local/lib/python3.10/site-packages/torch/cuda/__init__.py&quo…

DBA 数据库管理 部署Mysql 服务,基础查询

数据库:存储数据的仓库 数据库服务软件: 关系型数据库: 存在硬盘 ,制作表格的 数据库的参数 [rootmysql50 ~]# cat /etc/my.cnf.d/mysql-server.cnf 主配置文件 [mysqld] datadir/var/lib/mysql 存放数据库目录…

渲染引擎实践 - OSG引擎窗口创建过程分析(未完待续)

一:概述 一个3D应用程序,要想显示渲染结果,首先要创建一个窗口,本节就分析下OSG源码中窗口创建的过程。 二: OSG中的窗口类介绍 以GraphicsWindowX11为例,在Linux上用这个窗口类,Windows上用GraphicsWindo…

新版Android Studio中设置gradle的JDK版本

旧版android studio 在旧版(具体哪个版本号之前搞不清了)中设置JDK版本在>File——>Project Structure——>SDK location——>Gradle Setting——>Gradle SDK 新版android studio 某次更新后发现SDK location下找不到Gradle Setting选项…

SpringBoot源码阅读(5)——AnnotationAwareOrderComparator排序

SpringBoot中工厂类加载器加载的实现类通常有多个,这些类通常会排序后放入集合 AnnotationAwareOrderComparator是常用的比较器 AnnotationAwareOrderComparator 父类:OrderComparator 接口:Comparator 相关方法 public static void sort(…

智能汽车网络安全笔记

汽车五大域 动力底盘、车身控制、智能座舱、智能网联和高级辅助驾驶五大域 国外汽车安全法规标准 汽车网络安全管理体系(CSMS) CSMS指的是管理汽车的网络威胁和风险,并保护车辆免受网络攻击的组织过程和管理系统 安全验证和安全测试 8…

[RL4CO实践]checkpoint早知道

最近写深度学习需要感觉到了checkpoint的重要性,他可以让你在上一次实验的基础上进行优化 我写的是在rl4co的基础上进行的,pytorch的可能不一样 我的save_last 取的Fasle,我本来觉得不需要用last,对于平局reward,我去…

Kudu分区策略

Kudu表的分区策略主要有三种:范围分区(Partition By Range)、哈希分区(Partition By Hash)和高级分区(Partition By Hash And Range)。这些策略都要求分区字段必须包含在主键中。 范围分区&…

Android面试题之Activity的启动模式和flag

本文首发于公众号“AntDream”,欢迎微信搜索“AntDream”或扫描文章底部二维码关注,和我一起每天进步一点点 Activity中的几种启动模式 activity的几种启动模式是android中常考的知识点,一般会考察有哪几种启动模式,以及每种启动…

花朵短视频:四川江兴川丰科技有限公司

花朵短视频:绽放于屏幕间的自然诗篇 在快节奏的现代生活中,我们常常渴望一抹清新与宁静,以慰藉心灵的疲惫。而花朵短视频,就像是大自然精心编织的一首首无声诗篇,四川江兴川丰科技有限公司通过手机屏幕的方寸之间&…

如何提升美国Facebook直播的整体体验?

Facebook作为全球最大的社交媒体平台之一,提供了直播功能,用户可以实时分享生活、见解和创意。许多商家通过美国Facebook直播来获取更多客户,但直播时可能会遇到网络卡顿的问题,导致观看体验不佳。本文将探讨如何解决这个问题&…

jvm 05JVM - 对象的创建 ,oop模型,字符串常量池

01.JVM - 对象的创建 1、对象的创建的方式 Java语言中,对象创建的方式有六种: new关键字:最常见的形式、Xxx的静态方法、XxxBuilder、XxxFactory的静态方法。 Class类的newInstance()方法:通过反射的方式创建对象,调…