LLMBook 中 数据集下载地址整理收集

本文针对《LLMBook》大语言模型 | LLMBook-zh 中的42个数据集进行完整下载地址整理收集。

具体整理部分关于第三章 大型语言模型资源

1、常用预训练24个数据集下载地址整理收集

2、指令微调18个数据集下载地址整理收集

3、人类对齐8个数据集下载地址整理收集

《大语言模型》由作者赵鑫,李军毅,周昆,唐天一,文继荣 等作者编写,全面介绍了大型语言模型的技术背景、发展过程、关键技术、资源、预训练方法、微调与对齐技术、使用方法、评测以及应用等多个方面。

本书主要面向希望系统学习大语言模型技术的读者,将重点突出核心概念与 算法,并且配以示例与代码(伪代码)帮助读者理解特定算法的实现逻辑。添加图片注释,不超过 140 字(可选)

第一部分:背景与基础知识

第一章:引言

1.1 语言模型发展历程
  • 统计语言模型(SLM):20世纪90年代兴起,基于统计学习方法,使用马尔可夫假设建立语言序列预测模型,通常根据若干个连续的上下文单词预测下一个词的出现概率。高阶模型面临“维数灾难”,需要设计平滑策略。

  • 神经语言模型(NLM):使用神经网络建模文本序列,如循环神经网络(RNN)。Yoshua Bengio引入分布式词表示,构建基于聚合上下文特征的目标词预测函数,克服了数据稀疏问题。代表性模型word2vec学习分布式词表示,用于自然语言处理任务。

  • 预训练语言模型(PLM):在训练架构和数据上进行改进,ELMo使用大量无标注数据训练双向LSTM网络,学习上下文感知的单词表示。Transformer模型通过自注意力机制建模长程序列关系,BERT和GPT-1分别采用编码器和解码器架构进行预训练。

  • 大语言模型(LLM):通过规模扩展(参数规模、数据规模)提升模型性能,展现出小型模型不具备的能力,如上下文学习和思维链能力。GPT-3等模型通过大规模预训练数据学习丰富世界知识,具备通用任务求解能力。添加图片注释,不超过 140 字(可选)

1.2 大语言模型的能力特点
  • 丰富世界知识:通过大规模文本数据预训练学习。

  • 通用任务解决能力:通过预测下一个词元的预训练任务建立,能够解决多种下游任务。

  • 复杂任务推理能力:展现出比传统模型更强的综合推理能力。

  • 人类指令遵循能力:通过预训练与微调学习,能够直接通过自然语言描述下达任务指令。

  • 人类对齐能力:通过基于人类反馈的强化学习技术建立,确保模型输出符合人类价值观。

  • 工具使用能力:通过微调、上下文学习等方式掌握外部工具的使用,扩展模型的能力范围。

1.3 大语言模型关键技术概览
  • 规模扩展:参数、数据、算力的扩展对模型性能有显著影响,OpenAI的GPT-3和谷歌的PaLM模型通过大规模参数和数据训练,展现出优越性能。

  • 数据工程:数据采集、清洗、配比与课程设计对模型性能至关重要,高质量数据是大语言模型的关键基础。

  • 高效预训练:使用大规模分布式训练算法优化大语言模型的神经网络参数,需要联合使用各种并行策略和效率优化方法。

  • 能力激发:通过指令微调和提示策略提升模型的任务求解能力,设计合适的提示策略诱导模型生成正确答案。

  • 人类对齐:确保模型输出符合人类价值观,使用基于人类反馈的强化学习算法进行对齐。

  • 工具使用:让模型学会使用各种工具的调用方式,扩展模型的能力范围,如利用搜索引擎和计算器。

1.4 大语言模型对科技发展的影响
  • 自然语言处理:大语言模型作为一种通用的语言任务解决技术,能够通过特定提示解决不同类型的任务,研究范式转向提升大语言模型的综合能力。

  • 信息检索:传统搜索引擎受到人工智能信息助手的冲击,微软推出基于大语言模型增强的搜索引擎New Bing,未来研究方向包括检索增强的大语言模型和大语言模型增强的搜索系统。

  • 计算机视觉:研究人员研发类ChatGPT的视觉-语言联合对话模型,GPT-4支持图文多模态信息输入,简化多模态模型的实现难度。

  • 人工智能赋能的科学研究(AI4Science):大语言模型技术广泛应用于数学、化学、物理、生物等多个领域,赋能科学研究,如辅助提供解题灵感、论文撰写、新材料发现、生物制药等。

第二章:基础介绍

2.1 大语言模型的构建过程

大语言模型的构建分为两个主要阶段:大规模预训练和指令微调与人类对齐。

  • 大规模预训练:使用与下游任务无关的大规模数据进行模型参数的初始训练,目的是为模型参数找到一个较好的“初值点”。预训练数据需要进行严格清洗,去除有毒有害内容,并进行词元化处理。这一过程对算力需求极高,训练百亿模型至少需要百卡规模的算力集群联合训练数月时间,而训练千亿模型则需要千卡甚至万卡规模的算力集群。

  • 指令微调与人类对齐:预训练后的模型需要进行微调与对齐,以更好地用于任务求解和为人类服务。常用的微调技术是“指令微调”(Supervised Fine-tuning, SFT),通过使用任务输入与输出的配对数据进行模型训练,增强模型的通用任务求解能力。此外,还需要将大语言模型与人类的期望、需求以及价值观对齐,主要采用基于人类反馈的强化学习对齐方法(Reinforcement Learning from Human Feedback, RLHF)。

2.2 扩展法则

大语言模型的成功关键在于对“规模扩展”的充分探索与利用。扩展法则(Scaling Law)是研究规模扩展对模型性能提升的定量建模方法。

  • KM 扩展法则:由OpenAI团队提出,建立了模型规模、数据规模和计算算力与模型性能之间的幂律关系。公式表明模型性能与这三个因素之间存在较强的依赖关系,可以近似刻画为指数关系。

  • Chinchilla 扩展法则:由DeepMind团队提出,针对更大范围的模型规模和数据规模进行实验,拟合得到了另一种关于模型性能的幂律关系,并提出了算力资源固定情况下模型规模与数据规模的最优分配方案。

2.3 涌现能力

涌现能力是指在小型模型中不存在但在大模型中出现的能力,具体是指当模型扩展到一定规模时,模型的特定任务性能突然出现显著跃升的趋势。

  • 代表性涌现能力:包括上下文学习(In-context Learning, ICL)、指令遵循(Instruction Following)和逐步推理(Step-by-step Reasoning)。这些能力在大型语言模型中表现得更为显著,且通常需要模型达到一定的规模才能显现。

  • 涌现能力与扩展法则的关系:扩展法则使用语言建模损失来衡量语言模型的整体性能,展现出了较为平滑的性能提升趋势,而涌现能力通常使用任务性能来衡量模型性能,展现出随规模扩展的骤然跃升趋势。

2.4 GPT 系列模型的技术演变

GPT系列模型的发展历程可分为四个阶段:早期探索阶段、路线确立阶段、能力增强阶段以及能力跃升阶段。

  • 早期探索:OpenAI最初使用循环神经网络研发语言模型,后转向Transformer架构,推出了GPT-1和GPT-2,奠定了后续模型的研究基础。

  • 规模扩展:GPT-3将模型参数扩展到了175B的规模,初步展现出了一定的通用性,通过上下文学习技术适配下游任务。

  • 能力增强:OpenAI通过代码数据训练和人类偏好对齐两种主要途径改进GPT-3模型,推出了Codex和InstructGPT等模型,增强了模型的代码能力和人类对齐能力。

  • 性能跃升:OpenAI发布了ChatGPT、GPT-4以及GPT-4V/GPT-4 Turbo等模型,极大提高了现有人工智能系统的能力水平,展现了通用人工智能的曙光。

第三章:大语言模型资源

3.1 公开可用的模型检查点或 API

本节介绍了多种公开可用的大语言模型检查点和API,这些资源允许用户无需从头开始训练模型,即可利用预训练模型进行研究或开发。

  • 公开可用的通用大语言模型检查点:包括LLaMA、ChatGLM、Falcon、Baichuan、InternLM、Qwen、Mistral、DeepSeek LLM、Mixtral、Gemma、MiniCPM和YuLan-Chat等模型,这些模型在参数规模、训练数据和性能上各有特点,适用于不同的应用场景。

  • LLaMA变体系列:基于LLaMA模型的多种变体,通过指令微调或继续预训练等方法扩展了LLaMA的功能和应用范围,如Stanford Alpaca、Vicuna等。

  • 大语言模型的公共API:主要介绍了OpenAI提供的GPT系列模型API,包括GPT-3.5 Turbo、GPT-4和GPT-4 Turbo,以及文本表征API,如text-embedding-ada-002等。

3.2 常用的预训练数据集

预训练数据集是大语言模型训练的基础,本节介绍了多种常用的预训练数据集,涵盖了网页、书籍、维基百科、代码和混合型数据集。

语料库类型大小机构最近更新时间数据集地址
Common Crawl通用网页-Common Crawl-Common Crawl
C4通用网页800GBGoogle2019年04月C4 (Colossal Clean Crawled Corpus)|自然语言处理数据集|机器学习数据集
CC-Stories-R通用网页31GB-2019年09月spacemanidol/cc-stories|自然语言处理数据集|文本分析数据集
CC-NEWS通用网页78GBFacebook2019年02月CC-News (CommonCrawl News dataset)|新闻文本数据集|内容挖掘数据集
REALNEWs通用网页120GBUniversity of Washington2019年04月RealNews|新闻分析数据集|自然语言处理数据集
RedPajama-Data通用网页100TBTogether Al2023年10月togethercomputer/RedPajama-Data-1T
RefinedWeb通用网页1.68TBTII2023年01月tiiuae/falcon-refinedweb|网络数据数据集|文本挖掘数据集
WanJuan-CC通用网页400GB上海人工智能实验室2024年02月WanJuan2.0 (WanJuan-CC)|自然语言处理数据集|预训练数据集数据集
OpenWebText通用网页38GB-2023年03月OpenWebText|网络文本分析数据集|社交媒体数据数据集
ChineseWebText中文网页1.42TB中科院自动化所2023年11月CASIA-LM/ChineseWebText|自然语言处理数据集|预训练数据集数据集
WanJuan 1.0 Text中文网页1TB上海人工智能实验室2023年08月WanJuan1.0|多模态学习数据集|预训练数据集数据集
WuDaoCorpora Text中文网页5TB北京智源研究院2021年06月WuDaoCorpora Text文本预训练数据集|自然语言处理数据集|文本预训练数据集
SkyPile-150B中文网页620GB昆仑万维2023年10月Skywork/SkyPile-150B|自然语言处理数据集|语言模型预训练数据集
BookCorpus书籍5GBUniversity of Toronto & MIT2015年12月BookCorpus|文本分析数据集|自然语言处理数据集
Project Gutenberg书籍-University of North Carolina2021年12月Project-Gutenberg|自然语言处理数据集|文本分析数据集
arXiv dataset论文1.1TBCornell University2019年04月arXiv Dataset|学术研究数据集|STEM数据集
S2ORC论文-Allen Institute for Al2023年01月S2ORC|学术研究数据集|文本挖掘数据集
peS2o论文-Allen Institute for Al2023年06月allenai/peS2o|学术文本预训练数据集|多学科领域数据集
BigQuery代码-Google-BigQuery Public Datasets|公共数据集数据集|数据分析数据集
The Stack代码6.4TBBigCode2022年11月The-Stack|编程语言数据集|人工智能数据集
StarCoder代码783GBBigCode2023年05月starcoderdata|编程语言分析数据集|代码数据处理数据集
The Pile混合800GBEleutherAI2020年12月EleutherAI/pile
ROOTS混合1.6TBBigScience2022年06月ROOTS Corpus|多语言数据集数据集|语言模型训练数据集
Dolma混合6TBAllen Institute for Al2024年01月allenai/dolma|自然语言处理数据集|机器学习数据集

3.3 常用微调数据集

微调数据集用于增强模型的任务解决能力,本节介绍了指令微调数据集和人类对齐数据集。

类别集合时间# 样本数量来源数据集地址
任务Nat. Inst.2021年04月193KAllen Institute for Al 
FLAN2021年09月4.4MGoogleSirNeural/flan_v2
P32021年10月12.1MBigSciencebigscience/P3|自然语言处理数据集|数据模板数据集
Super Nat. Inst.2022年04月5MAllen Institute for Al 
MVPCorpus2022年06月41MRenmin University of China 
xP32022年11月81MBigSciencebigscience/xP3
OIG2023年03月43MLAION-AI 
UnifedSKG2022年03月812KThe University of Hong Kong 
对话HH-RLHF2022年04月160KAnthropicAnthropic/hh-rlhf
HC32023年01月87KSimpleAIHello-SimpleAI/HC3|自然语言处理数据集|人工智能对话系统数据集
ShareGPT2023年03月90KTechCrunchshareAI/ShareGPT-Chinese-English-90k|自然语言处理数据集|指令微调数据集
Dolly2023卒04月15KDatabricksdatabricks/databricks-dolly-15k|自然语言处理数据集|文本生成数据集
OpenAssistant2023年04月161KLAION-AIOpenAssistant/oasst1|自然语言处理数据集|数据科学数据集
InstructWild v22023年04月111KNational University of SingaporeInstructWild|自然语言处理数据集|机器学习数据集
LIMA2023年06月1KMeta Allima
合成Self-Instruct2022年12月82KUniversity of WashingtonSelf-Instruct
Alpaca2023年03月52KStandfordalpaca
Guanaco2023年03月535K-GuanacoDataset
Baize2023年04月158KUniversity of California, San Diegolinkanjarad/baize-chat-data|聊天机器人数据集|文本生成数据集
Belle2023年04月1.5MLianjiaTechBelle 数据集|自然语言处理数据集|对话系统数据集
Alpaca-GPT42023年04月52KMicrosoftAlpaca-GPT4|自然语言处理数据集|机器学习数据集
Evol-Instruct2023年06月52KMicrosoftSurgeGlobal/Evol-Instruct|指令进化数据集|文本生成数据集
UltraChat2023年06月675KTsinghua UniversityCommon Crawl

数据集时间# 样本数量来源对齐目标数据集地址
Summarize from Feedback2020年09月193KOpenAI有用性Summarize from Feedback
SHP2021年10月385KStandfordnlp有用性stanfordnlp/SHP|机器学习数据集|数据集难度评估数据集
WebGPT Comparisons2021年12月19KOpenAI有用性openai/webgpt_comparisons|自然语言处理数据集|问答系统数据集
Stack Exchange Preferences2021年12月10MHuggingFaceH4有用性HuggingFaceH4/stack-exchange-preferences|用户偏好分析数据集|自然语言处理数据集
HH-RLHF2022年4月169KAnthropic有用性、无害性Anthropic/hh-rlhf
Sandbox Alignment Data2023年5月169KGoogle有用性、诚实性、无害性Sandbox Alignment Data
CValues2023年7月145KAlibaba无害性CValues-Comparison|价值观评估数据集|人工智能文本生成数据集
PKU-SafeRLHF2023年10月330KPKU-Alignment有用性、无害性PKU-Alignment/PKU-SafeRLHF|人工智能伦理数据集|模型安全数据集

3.4 代码库资源

代码库资源为开发大语言模型提供了技术支持,本节介绍了几个重要的代码库。

  • Hugging Face开源社区:提供了Transformers、Datasets和Accelerate等代码库,这些工具简化了模型的训练、数据处理和分布式训练过程。

  • DeepSpeed:微软开发的高性能库,提供了内存优化、数据并行、混合精度训练等优化技术支持,适用于大语言模型的分布式训练。

  • Megatron-LM:NVIDIA开发的代码库,专门用于训练大语言模型,支持数据并行、模型并行和混合精度训练,提高了训练效率和速度。

第二部分 预训练

第四章 数据准备

4.1 数据来源

通用文本数据:网页数据、书籍 和对话文本

  • 网页数据:作为预训练数据的主要来源,网页数据规模庞大、内容丰富多样,但需筛选以去除低质量内容。

  • 书籍数据:文本正式详实,有助于模型积累语言知识和加强长程语义关系建模。

  • 对话文本:提供自然语言交流的实例,增强模型的对话能力。

专用文本数据:多语文本、科学文本、代码数据、

  • 多语文本:提升模型的多语理解与生成能力,如BLOOM和PaLM模型。

  • 科学文本:增强模型对科学知识的理解,提升在科学问答等任务上的表现。

  • 代码数据:提高模型的代码理解和生成能力,如在编程问答社区和开源项目仓库中获取代码

4.2 数据预处理
  • 质量过滤:去除低质量数据,如机器自动生成的广告网页,使用启发式规则和分类器方法。

  • 敏感内容过滤:过滤有毒内容和隐私信息,采用基于分类器的过滤方法和启发式方法。

  • 数据去重:防止模型对重复模式的过度学习,采用精确匹配和近似匹配算法。

  • 数据对预训练效果的影响:数据数量和质量直接影响模型性能,重复数据和有偏、有毒、隐私内容会对模型造成不良影响。添加图片注释,不超过 140 字(可选)

4.3 词元化(分词)
  • BPE分词:从基本符号开始,迭代合并相邻词元,直到达到预定义的词表大小。

  • WordPiece分词:与BPE类似,但选择词元对的标准不同,使用语言模型评分。

  • Unigram分词:从足够大的字符串或词元初始集合开始,迭代删除词元,基于一元语言模型进行选择。

4.4 数据调度
  • 数据混合:根据经验确定不同数据源的混合比例,增加数据源异质性可提升模型综合表现。

  • 数据课程:按照特定顺序安排预训练数据,从简单/通用数据到更具挑战性/专业化数据。

  • 预训练数据准备概述:以YuLan模型为例,介绍了数据收集、清洗、词元化和数据调度的具体流程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/953268.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

http和https有哪些不同

http和https有哪些不同 1.数据传输的安全性:http非加密,https加密 2.端口号:http默认80端口,https默认443端口 3.性能:http基于tcp三次握手建立连接,https在tcp三次握手后还有TLS协议的四次握手确认加密…

LabVIEW滤波器功能

程序通过LabVIEW生成一个带噪声的正弦波信号,并利用滤波器对其进行信号提取。具体来说,它生成一个正弦波信号,叠加高频噪声后形成带噪信号,再通过低通滤波器滤除噪声,提取原始正弦波信号。整个过程展示了信号生成、噪声…

基于华为atlas的重车(满载)空车(空载)识别

该教程主要是想摸索出华为atlas的基于ACL的推理模式。最终实现通过煤矿磅道上方的摄像头,识别出车辆的重车(满载)、空车(空载)情况。本质上是一个简单的检测问题。 但是整体探索过程比较坎坷,Tianxiaomo的…

pytest+allure 入门

使用allure如何生成自动化测试报​​​​​​告 ?一文详解allure的使用 。_allure测试报告-CSDN博客 例子: import allure import pytest import osallure.epic("闹钟") allure.feature("闹钟增删") class TestSchedule():def setu…

excel VBA 基础教程

这里写目录标题 快捷键选择所有有内容的地方 调试VBA录制宏,打开VBA开发工具录制宏,相当于excel自动写代码(两个表格内容完全一致才可以) 查看宏代码保持含有宏程序的文件xlsm后缀(注意很容易有病毒)宏文件安全设置 使…

Excel数据叠加生成新DataFrame:操作指南与案例

目录 一、准备工作 二、读取Excel文件 三、数据叠加 四、处理重复数据(可选) 五、保存新DataFrame到Excel文件 六、案例演示 七、注意事项 八、总结 在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFra…

Django创建数据表、模型、ORM操作

1、创建项目 django-admin startproject PersonInfosProject 2、创建项目应用,进入PersonInfosProject文件夹,新建index应用,使用命令 cd PersonInfosProject python manage.py startapp 新建完成之后的目录结构 3、新建数据模型&#xf…

ZYNQ初识10(zynq_7010)UART通信实验

基于bi站正点原子讲解视频: 系统框图(基于串口的数据回环)如下: 以下,是串口接收端的波形图,系统时钟和波特率时钟不同,为异步时钟,,需要先延时两拍,将时钟同…

【ORACLE战报】2025.1月OCP | MySQL考试

2025.1月【最新考试成绩出炉】 OCP战报 MySQL 战报 部分学员成绩及证书

力扣经典练习题之198.打家劫舍

今天继续给大家分享一道力扣的做题心得今天这道题目是198.打家劫舍,这是一道非常经典的问题,在动态规划中经常考到这类问题,题目如下: 题目链接:198.打家劫舍 1,题目分析 首先此题就是给我们了一个数组,代表可以偷的房屋中的对应的金额,我们是一个小偷,一次可以偷很多…

【数据库】一、数据库系统概述

文章目录 一、数据库系统概述1 基本概念2 现实世界的信息化过程3 数据库系统内部体系结构4 数据库系统外部体系结构5 数据管理方式 一、数据库系统概述 1 基本概念 数据:描述事物的符号记录 数据库(DB):长期存储在计算机内的、…

Redis有哪些常用应用场景?

大家好,我是锋哥。今天分享关于【Redis有哪些常用应用场景?】面试题。希望对大家有帮助; Redis有哪些常用应用场景? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 Redis 是一个高性能的开源键值对(Key-Va…

[uniapp] 实现扫码功能,含APP、h5、小程序

🚀 个人简介:某大型国企资深软件开发工程师,信息系统项目管理师、CSDN优质创作者、阿里云专家博主,华为云云享专家,分享前端后端相关技术与工作常见问题~ 💟 作 者:码喽的自我修养&#x1f9…

《异步编程之美》— 全栈修仙《Java 8 CompletableFuture 对比 ES6 Promise 以及Spring @Async》

哈喽,大家好!在平常开发过程中会遇到许多意想不到的坑,本篇文章就记录在开发过程中遇到一些常见的问题,看了许多博主的异步编程,我只能说一言难尽。本文详细的讲解了异步编程之美,是不可多得的好文&#xf…

day07_Spark SQL

文章目录 day07_Spark SQL课程笔记一、今日课程内容二、Spark SQL函数定义(掌握)1、窗口函数2、自定义函数背景2.1 回顾函数分类标准:SQL最开始是_内置函数&自定义函数_两种 2.2 自定义函数背景 3、Spark原生自定义UDF函数3.1 自定义函数流程&#x…

presto不支持concat_ws

在sparksql/hive中,将一个数据集合已指定的分隔符拼接可以用concat_ws,但是在presto中没有这个函数,不过presto提供了一个集合方法array_join,来达到相同的目的 同样的对数据集去重可以用array_distinct 如果你不需要去重就直接…

【日常小记】Ubuntu启动后无图形界面且网络配置消失

【日常小记】Ubuntu启动后无图形界面且网络配置消失 解决方法: 1. 输入后恢复网络: #sudo dhclient 2. 重新安装ubuntu-desktop #sudo apt-get install ubuntu-desktop!!!请关注是否能ping通某网站(例如百度&…

01、kafka知识点综合

kafka是一个优秀大吞吐消息队列,下面我就从实用的角度来讲讲kafka中,“kafka为何有大吞吐的机制”,“数据不丢失问题”,“精准一次消费问题” 01、kafka的架构组织和运行原理 kafka集群各个节点的名称叫broker,因为kaf…

【ArcGIS微课1000例】0137:色彩映射表转为RGB全彩模式

本文讲述ArcGIS中,将tif格式的影像数据从色彩映射表转为RGB全彩模式。 参考阅读:【GlobalMapper精品教程】093:将tif影像色彩映射表(调色板)转为RGB全彩模式 文章目录 一、色彩映射表预览二、色彩映射表转为RGB全彩模式一、色彩映射表预览 加载配套数据包中的0137.rar中的…

Python教程丨Python环境搭建 (含IDE安装)——保姆级教程!

工欲善其事,必先利其器。 学习Python的第一步不要再加收藏夹了!提高执行力,先给自己装好Python。 1. Python 下载 1.1. 下载安装包 既然要下载Python,我们直接进入python官网下载即可 Python 官网:Welcome to Pyt…