LLMBook 中数据集下载地址整理收集

本文针对《LLMBook》大语言模型 | LLMBook-zh 中的42个数据集进行完整下载地址整理收集。

具体整理部分关于第三章大型语言模型资源

1、常用预训练24个数据集下载地址整理收集

2、指令微调18个数据集下载地址整理收集

3、人类对齐8个数据集下载地址整理收集

《大语言模型》由作者赵鑫，李军毅，周昆，唐天一，文继荣等作者编写，全面介绍了大型语言模型的技术背景、发展过程、关键技术、资源、预训练方法、微调与对齐技术、使用方法、评测以及应用等多个方面。

本书主要面向希望系统学习大语言模型技术的读者，将重点突出核心概念与算法，并且配以示例与代码(伪代码)帮助读者理解特定算法的实现逻辑。添加图片注释，不超过 140 字（可选）

第一部分：背景与基础知识

第一章：引言

1.1 语言模型发展历程

统计语言模型（SLM）：20世纪90年代兴起，基于统计学习方法，使用马尔可夫假设建立语言序列预测模型，通常根据若干个连续的上下文单词预测下一个词的出现概率。高阶模型面临“维数灾难”，需要设计平滑策略。
神经语言模型（NLM）：使用神经网络建模文本序列，如循环神经网络（RNN）。Yoshua Bengio引入分布式词表示，构建基于聚合上下文特征的目标词预测函数，克服了数据稀疏问题。代表性模型word2vec学习分布式词表示，用于自然语言处理任务。
预训练语言模型（PLM）：在训练架构和数据上进行改进，ELMo使用大量无标注数据训练双向LSTM网络，学习上下文感知的单词表示。Transformer模型通过自注意力机制建模长程序列关系，BERT和GPT-1分别采用编码器和解码器架构进行预训练。
大语言模型（LLM）：通过规模扩展（参数规模、数据规模）提升模型性能，展现出小型模型不具备的能力，如上下文学习和思维链能力。GPT-3等模型通过大规模预训练数据学习丰富世界知识，具备通用任务求解能力。添加图片注释，不超过 140 字（可选）

1.2 大语言模型的能力特点

丰富世界知识：通过大规模文本数据预训练学习。
通用任务解决能力：通过预测下一个词元的预训练任务建立，能够解决多种下游任务。
复杂任务推理能力：展现出比传统模型更强的综合推理能力。
人类指令遵循能力：通过预训练与微调学习，能够直接通过自然语言描述下达任务指令。
人类对齐能力：通过基于人类反馈的强化学习技术建立，确保模型输出符合人类价值观。
工具使用能力：通过微调、上下文学习等方式掌握外部工具的使用，扩展模型的能力范围。

1.3 大语言模型关键技术概览

规模扩展：参数、数据、算力的扩展对模型性能有显著影响，OpenAI的GPT-3和谷歌的PaLM模型通过大规模参数和数据训练，展现出优越性能。
数据工程：数据采集、清洗、配比与课程设计对模型性能至关重要，高质量数据是大语言模型的关键基础。
高效预训练：使用大规模分布式训练算法优化大语言模型的神经网络参数，需要联合使用各种并行策略和效率优化方法。
能力激发：通过指令微调和提示策略提升模型的任务求解能力，设计合适的提示策略诱导模型生成正确答案。
人类对齐：确保模型输出符合人类价值观，使用基于人类反馈的强化学习算法进行对齐。
工具使用：让模型学会使用各种工具的调用方式，扩展模型的能力范围，如利用搜索引擎和计算器。

1.4 大语言模型对科技发展的影响

自然语言处理：大语言模型作为一种通用的语言任务解决技术，能够通过特定提示解决不同类型的任务，研究范式转向提升大语言模型的综合能力。
信息检索：传统搜索引擎受到人工智能信息助手的冲击，微软推出基于大语言模型增强的搜索引擎New Bing，未来研究方向包括检索增强的大语言模型和大语言模型增强的搜索系统。
计算机视觉：研究人员研发类ChatGPT的视觉-语言联合对话模型，GPT-4支持图文多模态信息输入，简化多模态模型的实现难度。
人工智能赋能的科学研究（AI4Science）：大语言模型技术广泛应用于数学、化学、物理、生物等多个领域，赋能科学研究，如辅助提供解题灵感、论文撰写、新材料发现、生物制药等。

第二章：基础介绍

2.1 大语言模型的构建过程

大语言模型的构建分为两个主要阶段：大规模预训练和指令微调与人类对齐。

大规模预训练：使用与下游任务无关的大规模数据进行模型参数的初始训练，目的是为模型参数找到一个较好的“初值点”。预训练数据需要进行严格清洗，去除有毒有害内容，并进行词元化处理。这一过程对算力需求极高，训练百亿模型至少需要百卡规模的算力集群联合训练数月时间，而训练千亿模型则需要千卡甚至万卡规模的算力集群。
指令微调与人类对齐：预训练后的模型需要进行微调与对齐，以更好地用于任务求解和为人类服务。常用的微调技术是“指令微调”（Supervised Fine-tuning, SFT），通过使用任务输入与输出的配对数据进行模型训练，增强模型的通用任务求解能力。此外，还需要将大语言模型与人类的期望、需求以及价值观对齐，主要采用基于人类反馈的强化学习对齐方法（Reinforcement Learning from Human Feedback, RLHF）。

2.2 扩展法则

大语言模型的成功关键在于对“规模扩展”的充分探索与利用。扩展法则（Scaling Law）是研究规模扩展对模型性能提升的定量建模方法。

KM 扩展法则：由OpenAI团队提出，建立了模型规模、数据规模和计算算力与模型性能之间的幂律关系。公式表明模型性能与这三个因素之间存在较强的依赖关系，可以近似刻画为指数关系。
Chinchilla 扩展法则：由DeepMind团队提出，针对更大范围的模型规模和数据规模进行实验，拟合得到了另一种关于模型性能的幂律关系，并提出了算力资源固定情况下模型规模与数据规模的最优分配方案。

2.3 涌现能力

涌现能力是指在小型模型中不存在但在大模型中出现的能力，具体是指当模型扩展到一定规模时，模型的特定任务性能突然出现显著跃升的趋势。

代表性涌现能力：包括上下文学习（In-context Learning, ICL）、指令遵循（Instruction Following）和逐步推理（Step-by-step Reasoning）。这些能力在大型语言模型中表现得更为显著，且通常需要模型达到一定的规模才能显现。
涌现能力与扩展法则的关系：扩展法则使用语言建模损失来衡量语言模型的整体性能，展现出了较为平滑的性能提升趋势，而涌现能力通常使用任务性能来衡量模型性能，展现出随规模扩展的骤然跃升趋势。

2.4 GPT 系列模型的技术演变

GPT系列模型的发展历程可分为四个阶段：早期探索阶段、路线确立阶段、能力增强阶段以及能力跃升阶段。

早期探索：OpenAI最初使用循环神经网络研发语言模型，后转向Transformer架构，推出了GPT-1和GPT-2，奠定了后续模型的研究基础。
规模扩展：GPT-3将模型参数扩展到了175B的规模，初步展现出了一定的通用性，通过上下文学习技术适配下游任务。
能力增强：OpenAI通过代码数据训练和人类偏好对齐两种主要途径改进GPT-3模型，推出了Codex和InstructGPT等模型，增强了模型的代码能力和人类对齐能力。
性能跃升：OpenAI发布了ChatGPT、GPT-4以及GPT-4V/GPT-4 Turbo等模型，极大提高了现有人工智能系统的能力水平，展现了通用人工智能的曙光。

第三章：大语言模型资源

3.1 公开可用的模型检查点或 API

本节介绍了多种公开可用的大语言模型检查点和API，这些资源允许用户无需从头开始训练模型，即可利用预训练模型进行研究或开发。

公开可用的通用大语言模型检查点：包括LLaMA、ChatGLM、Falcon、Baichuan、InternLM、Qwen、Mistral、DeepSeek LLM、Mixtral、Gemma、MiniCPM和YuLan-Chat等模型，这些模型在参数规模、训练数据和性能上各有特点，适用于不同的应用场景。
LLaMA变体系列：基于LLaMA模型的多种变体，通过指令微调或继续预训练等方法扩展了LLaMA的功能和应用范围，如Stanford Alpaca、Vicuna等。
大语言模型的公共API：主要介绍了OpenAI提供的GPT系列模型API，包括GPT-3.5 Turbo、GPT-4和GPT-4 Turbo，以及文本表征API，如text-embedding-ada-002等。

3.2 常用的预训练数据集

预训练数据集是大语言模型训练的基础，本节介绍了多种常用的预训练数据集，涵盖了网页、书籍、维基百科、代码和混合型数据集。

语料库	类型	大小	机构	最近更新时间	数据集地址
Common Crawl	通用网页	-	Common Crawl	-	Common Crawl
C4	通用网页	800GB	Google	2019年04月	C4 (Colossal Clean Crawled Corpus)\|自然语言处理数据集\|机器学习数据集
CC-Stories-R	通用网页	31GB	-	2019年09月	spacemanidol/cc-stories\|自然语言处理数据集\|文本分析数据集
CC-NEWS	通用网页	78GB	Facebook	2019年02月	CC-News (CommonCrawl News dataset)\|新闻文本数据集\|内容挖掘数据集
REALNEWs	通用网页	120GB	University of Washington	2019年04月	RealNews\|新闻分析数据集\|自然语言处理数据集
RedPajama-Data	通用网页	100TB	Together Al	2023年10月	togethercomputer/RedPajama-Data-1T
RefinedWeb	通用网页	1.68TB	TII	2023年01月	tiiuae/falcon-refinedweb\|网络数据数据集\|文本挖掘数据集
WanJuan-CC	通用网页	400GB	上海人工智能实验室	2024年02月	WanJuan2.0 (WanJuan-CC)\|自然语言处理数据集\|预训练数据集数据集
OpenWebText	通用网页	38GB	-	2023年03月	OpenWebText\|网络文本分析数据集\|社交媒体数据数据集
ChineseWebText	中文网页	1.42TB	中科院自动化所	2023年11月	CASIA-LM/ChineseWebText\|自然语言处理数据集\|预训练数据集数据集
WanJuan 1.0 Text	中文网页	1TB	上海人工智能实验室	2023年08月	WanJuan1.0\|多模态学习数据集\|预训练数据集数据集
WuDaoCorpora Text	中文网页	5TB	北京智源研究院	2021年06月	WuDaoCorpora Text文本预训练数据集\|自然语言处理数据集\|文本预训练数据集
SkyPile-150B	中文网页	620GB	昆仑万维	2023年10月	Skywork/SkyPile-150B\|自然语言处理数据集\|语言模型预训练数据集
BookCorpus	书籍	5GB	University of Toronto & MIT	2015年12月	BookCorpus\|文本分析数据集\|自然语言处理数据集
Project Gutenberg	书籍	-	University of North Carolina	2021年12月	Project-Gutenberg\|自然语言处理数据集\|文本分析数据集
arXiv dataset	论文	1.1TB	Cornell University	2019年04月	arXiv Dataset\|学术研究数据集\|STEM数据集
S2ORC	论文	-	Allen Institute for Al	2023年01月	S2ORC\|学术研究数据集\|文本挖掘数据集
peS2o	论文	-	Allen Institute for Al	2023年06月	allenai/peS2o\|学术文本预训练数据集\|多学科领域数据集
BigQuery	代码	-	Google	-	BigQuery Public Datasets\|公共数据集数据集\|数据分析数据集
The Stack	代码	6.4TB	BigCode	2022年11月	The-Stack\|编程语言数据集\|人工智能数据集
StarCoder	代码	783GB	BigCode	2023年05月	starcoderdata\|编程语言分析数据集\|代码数据处理数据集
The Pile	混合	800GB	EleutherAI	2020年12月	EleutherAI/pile
ROOTS	混合	1.6TB	BigScience	2022年06月	ROOTS Corpus\|多语言数据集数据集\|语言模型训练数据集
Dolma	混合	6TB	Allen Institute for Al	2024年01月	allenai/dolma\|自然语言处理数据集\|机器学习数据集

3.3 常用微调数据集

微调数据集用于增强模型的任务解决能力，本节介绍了指令微调数据集和人类对齐数据集。

类别	集合	时间	# 样本数量	来源	数据集地址
任务	Nat. Inst.	2021年04月	193K	Allen Institute for Al
	FLAN	2021年09月	4.4M	Google	SirNeural/flan_v2
	P3	2021年10月	12.1M	BigScience	bigscience/P3\|自然语言处理数据集\|数据模板数据集
	Super Nat. Inst.	2022年04月	5M	Allen Institute for Al
	MVPCorpus	2022年06月	41M	Renmin University of China
	xP3	2022年11月	81M	BigScience	bigscience/xP3
	OIG	2023年03月	43M	LAION-AI
	UnifedSKG	2022年03月	812K	The University of Hong Kong
对话	HH-RLHF	2022年04月	160K	Anthropic	Anthropic/hh-rlhf
	HC3	2023年01月	87K	SimpleAI	Hello-SimpleAI/HC3\|自然语言处理数据集\|人工智能对话系统数据集
	ShareGPT	2023年03月	90K	TechCrunch	shareAI/ShareGPT-Chinese-English-90k\|自然语言处理数据集\|指令微调数据集
	Dolly	2023卒04月	15K	Databricks	databricks/databricks-dolly-15k\|自然语言处理数据集\|文本生成数据集
	OpenAssistant	2023年04月	161K	LAION-AI	OpenAssistant/oasst1\|自然语言处理数据集\|数据科学数据集
	InstructWild v2	2023年04月	111K	National University of Singapore	InstructWild\|自然语言处理数据集\|机器学习数据集
	LIMA	2023年06月	1K	Meta Al	lima
合成	Self-Instruct	2022年12月	82K	University of Washington	Self-Instruct
	Alpaca	2023年03月	52K	Standford	alpaca
	Guanaco	2023年03月	535K	-	GuanacoDataset
	Baize	2023年04月	158K	University of California, San Diego	linkanjarad/baize-chat-data\|聊天机器人数据集\|文本生成数据集
	Belle	2023年04月	1.5M	LianjiaTech	Belle 数据集\|自然语言处理数据集\|对话系统数据集
	Alpaca-GPT4	2023年04月	52K	Microsoft	Alpaca-GPT4\|自然语言处理数据集\|机器学习数据集
	Evol-Instruct	2023年06月	52K	Microsoft	SurgeGlobal/Evol-Instruct\|指令进化数据集\|文本生成数据集
	UltraChat	2023年06月	675K	Tsinghua University	Common Crawl

数据集	时间	# 样本数量	来源	对齐目标	数据集地址
Summarize from Feedback	2020年09月	193K	OpenAI	有用性	Summarize from Feedback
SHP	2021年10月	385K	Standfordnlp	有用性	stanfordnlp/SHP\|机器学习数据集\|数据集难度评估数据集
WebGPT Comparisons	2021年12月	19K	OpenAI	有用性	openai/webgpt_comparisons\|自然语言处理数据集\|问答系统数据集
Stack Exchange Preferences	2021年12月	10M	HuggingFaceH4	有用性	HuggingFaceH4/stack-exchange-preferences\|用户偏好分析数据集\|自然语言处理数据集
HH-RLHF	2022年4月	169K	Anthropic	有用性、无害性	Anthropic/hh-rlhf
Sandbox Alignment Data	2023年5月	169K	Google	有用性、诚实性、无害性	Sandbox Alignment Data
CValues	2023年7月	145K	Alibaba	无害性	CValues-Comparison\|价值观评估数据集\|人工智能文本生成数据集
PKU-SafeRLHF	2023年10月	330K	PKU-Alignment	有用性、无害性	PKU-Alignment/PKU-SafeRLHF\|人工智能伦理数据集\|模型安全数据集

3.4 代码库资源

代码库资源为开发大语言模型提供了技术支持，本节介绍了几个重要的代码库。

Hugging Face开源社区：提供了Transformers、Datasets和Accelerate等代码库，这些工具简化了模型的训练、数据处理和分布式训练过程。
DeepSpeed：微软开发的高性能库，提供了内存优化、数据并行、混合精度训练等优化技术支持，适用于大语言模型的分布式训练。
Megatron-LM：NVIDIA开发的代码库，专门用于训练大语言模型，支持数据并行、模型并行和混合精度训练，提高了训练效率和速度。