自己一直在做企业内部的垂类大模型,但随着运营深入,发现光有企业内部的领域数据还不足以微调出一个健壮的领域大模型,因为泛化能力比较弱。
在领域数据中融入公共数据进行训练是公认的提升领域大模型泛化能力的方法,下面是我整理的面向大模型的六大类高质量语料集,共涉及20多个网上公开数据集(附有网址),希望对你有所帮助。
一、文本数据集
1、维基百科
简介:
免费的多语言协作在线百科全书,内容覆盖广泛,由志愿者社区编写和维护。
用途:
用于训练语言模型的基础知识库。
链接:
https://dumps.wikimedia.org/backup-index.html
范例:
Title: Machine Learning
Content:Machine learning (ML) is the study of computer algorithms that improve automatically through experience. It is seen as a part of artificial intelligence. Machine learning algorithms build a model based on sample data, known as "training data", in order to make predictions or decisions without being explicitly programmed to do so.
2、BooksCorpus
简介:
包含大量书籍文本,主要用于训练语言模型的故事讲述和反应能力。
用途:
语言模型训练。
链接:
https://paperswithcode.com/dataset/bookcorpus
范例:
Title: The Adventures of Sherlock Holmes
Content: To Sherlock Holmes she is always the woman. I have seldom heard him mention her under any other name. In his eyes she eclipses and predominates the whole of her sex.
3、Common Crawl
简介:
包含从2008年至今抓取的大量网页数据。
用途:
通用语言模型训练。
链接:
https://commoncrawl.org/
范例:
URL: http://example.com/article
Content: The global economy is facing a period of uncertainty. Various factors including geopolitical tensions and market volatility are contributing to this instability.
4、arXiv
简介:
ArXiv 是一个免费的分发服务和开放获取的网站,包含物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学以及经济学等领域的2,235,447篇学术文章。美国国家卫生研究院有各种生物医学和行为研究领域的论文。
用途:
学术论文数据集,用于训练语言模型。
链接:
https://www.kaggle.com/Cornell-University/arxiv
范例:
Title: A Survey on Machine Learning
Abstract: This paper provides a comprehensive survey of the current state of machine learning research. We cover various algorithms and their applications in different domains.
5、百度百科
简介:
中文在线百科全书,内容覆盖广泛。
用途:
中文语言模型训练。
链接:
https://baike.baidu.com/
范例:
Title: 机器学习
Content: 机器学习是一种通过数据和算法来改进性能和预测结果的人工智能方法。它包括监督学习、无监督学习和强化学习等类型。
6、RealNews
简介:
一个英文新闻文章数据集,包含大约130GB的文本数据。
用途:
通用语言模型训练。
链接:
https://paperswithcode.com/dataset/realnews
范例:
{"title":"Reynolds High School tragedy: more laws are not the answer","text":"by In the news\nby Dan Lucas\nOn Tuesday morning a 15-year-old killer murdered fellow student Emilio Hoffman, age 14, and wounded a teacher at Reynolds High School in Troutdale, Oregon. The killer brought an AR-15 type rifle, a semi-automatic pistol and enough ammunition to do far more harm......","summary":null,"authors":["In The News"],"publish_date":"06-13-2014","status":"success","domain":"oregoncatalyst.com","warc_date":"2016-12-11T13:48:31Z","split":"train"}
二、代码数据集
1、GitHub
简介:
一个大型的开源代码库,包含来自 GitHub 上的开源项目的代码和相关文档。
用途:
训练代码生成和理解模型。
链接:
https://www.kaggle.com/github/github-repo-dataset
范例:
Repository: example-repo
File: main.py
Content:
def greet(name):
print(f"Hello, {name}!")
if name == "main":
greet("World")
2、CodeSearchNet
简介:
一个大规模的代码搜索和理解数据集,其中包含从 GitHub 上的开源项目中提取的代码。
用途:
代码搜索和生成模型训练。
链接:
https://github.com/github/CodeSearchNet
范例:
Function: add_numbers
Description: Adds two numbers and returns the result.
Code:
def add_numbers(a, b):
return a + b
3、StaQC
简介:
StaQC(Stack Overflow问题-代码对)是一个大型数据集,包含大约148K个Python和120K个SQL领域的问题-代码对,是通过使用双视图层级神经网络从Stack Overflow自动挖掘得到的。StaQC从三个来源收集而来:多代码答案帖子,单代码答案帖子以及对多代码答案帖子的手动注释。
用途:
代码理解和生成。
链接:
https://paperswithcode.com/dataset/staqc
范例:
{'question_id': 35349290, 'question': 'Python: Generating YYMM string between two dates', 'snippet': ['start_year = 2005\nend_year = 2007\nstart_month = 3\nend_month = 2\nyymm = [(yy, mm) for yy in range(start_year, end_year + 1) for mm in range(1, 13)\n if (start_year, start_month) <= (yy, mm) <= (end_year, end_month)]\n', "formatted_yymm = ['{:>02}{:>02}.mat'.format(yy % 100, mm) for yy, mm in yymm]\n"]}
4、CodeExp
简介:
提供了一个python代码-docstring语料库CodeExp,其中包含 (1) 2.3的大分区 百万原始代码-docstring对,(2) 一个介质 158,000对的分区从 使用学习的过滤器的原始语料库,以及 (3) 具有严格的人类13,000对的分区 注释。我们的数据收集过程利用了从人类那里学到的注释模型 自动过滤高质量的注释 来自原始GitHub数据集的代码-docstring对
用途:
代码理解和生成。
链接:
https://opendatalab.com/OpenDataLab/CodeExp
范例:
docstring: Pulls all flashed messages from the session and returns them. Further calls in the same request to the function will return the same messages. By default just the messages are returned, but when code:def get_flashed_messages(with_categories=False, category_filter=[]): flashes = _request_ctx_stack.top.flashes if (flashes is None): _request_ctx_stack.top.flashes = flashes = (session.pop('_flashes') if ('_flashes' in session)
三、论坛数据集
1、StackExchange
简介:
包含来自 StackExchange 平台的问题和答案。
用途:
训练问答系统和对话模型。
链接:
https://archive.org/details/stackexchange
范例:
Question: What is the best way to learn Python?
Answer: There are many great resources available, including online courses, books, and tutorials.
2、Federated Stack Overflow
简介:
来源于由 kaggle.com 托管的 Stack Overflow 数据。
用途:
适用于问答和对话系统训练。
链接:
https://paperswithcode.com/dataset/federated-stack-overflow
范例:
Question: How do I concatenate strings in Java?
Answer: You can use the '+' operator or the StringBuilder class for concatenation.
四、视频字幕数据集
1、OpenSubtitles
简介:
OpenSubtitles 是一个多语言平行语料库的集合。该数据集由大量电影和电视字幕数据库编译而成,包括总共1689个双语文本,覆盖了60种语言,共计26亿句子。
用途:
语言模型训练、翻译模型训练。
链接:
https://paperswithcode.com/dataset/opensubtitles
2、GIF Reply Dataset
简介:
包含 Twitter 上 1,562,701 条真实的文本-GIF 对话。在这些对话中,使用了 115,586 个不同的 GIF。对于数据集中的一些 GIF,还提供了包括 OCR 提取的文本、注释标签和对象名称在内的元数据。
用途:
训练对话和多模态模型。
链接:
https://paperswithcode.com/dataset/gif-reply-dataset
范例:
3、TVC (TV show Captions)
简介:
包含261,490个字幕描述和108,965个短视频片段。
用途:
视频理解和描述生成。
链接:
https://tvr.cs.unc.edu/tvc.html
范例:
{"vid_name": "friends_s01e03_seg02_clip_19", "duration": 61.46, "ts": [16.48, 33.87], "clip_id": 86603, "descs": [{"desc": "Monica is talking to the others about breaking up with her boyfriend and they're all upset about it.", "type": "vt", "from_retrieval": false, "desc_id": 196140}, {"desc": "Monica is in the center of the living room talking to others who are seated.", "type": "v", "from_retrieval": false, "desc_id": 196141}, {"desc": "Monica is letting the rest of the friends know that shes going to be dumping her boyfriend.", "type": "t", "from_retrieval": false, "desc_id": 196142}, {"desc": "The friends talk to Monica about her relationship with Alan.", "type": "t", "from_retrieval": false, "desc_id": 196143}]}
五、多模态数据集
1、COCO(Common Objects in Context)
简介:
一个大规模图像数据集,包含丰富的标注信息。
用途:
图像识别、目标检测和图像描述生成。
链接:
https://cocodataset.org/
范例:
Image: [link to image file]
Annotations: { "objects": [ { "name": "person", "bbox": [100, 150, 300, 700] }, { "name": "dog", "bbox": [600, 500, 800, 800] } ] }
2、ImageNet
简介:
一个大规模图像数据库,广泛用于视觉识别研究。
用途:
图像分类和对象检测。
链接:
http://www.image-net.org/
范例:
Image: [link to image file]
Label: "Golden Retriever"
3、Open Images
简介:
一个大规模的图像数据集,提供了900万张图片标注和600个对象类别。
用途:
图片分类和理解。
链接:
https://github.com/openimages/dataset
范例:
4、LibriSpeech
简介:
包含了1000小时的16kHz有声书录音,并且经过切割和整理成每条10秒左右的、经过文本标注的音频文件,非常适合入门使用。
用途:
语音识别和理解。
链接:
https://paperswithcode.com/dataset/librispeech
5、VoxCeleb
简介:
一个大规模的说话人识别数据集,包含了170万条语音片段。
用途:
语音识别和理解。
链接:
https://www.robots.ox.ac.uk/\~vgg/data/voxceleb/
6、TED-LIUM
简介:
TED-LIUM 语料库由英语 TED 演讲组成,包括这些演讲的转录文本。音频采样率为 16kHz。该数据集包含从 118 小时到 452 小时的转录语音数据。
用途:
语音识别、语音转录。
链接:
https://paperswithcode.com/dataset/ted-lium-3
范例:
音频文件:ted_001.wav
文本内容:
0:00:00.000 - 0:00:02.500 Thank you so much. Thank you so much. 0:00:02.500 - 0:00:05.000 It's a huge honor to be here at TED.
7、YouTube-8M
简介:
一个大规模的视频分类数据集,包含了800万个YouTube视频URL及其标签。
用途:
视频分类和理解。
链接:
https://research.google.com/youtube8m/
范例:
Video ID: 1234567890
Labels: ["sports", "soccer"]
8、Kinetics
简介:
一个大规模的视频动作识别数据集,包含了70万个视频片段和700个人类动作类别。
用途:
视频分类和理解。
链接:
https://paperswithcode.com/dataset/kinetics
范例:
六、开源数据集(预训练和微调)
1、The Pile
简介:
The Pile 是一个 825 GiB 的多样化开源语言建模数据集,由 22 个较小的高质量数据集组合而成,最近的研究表明,特别是对于大型模型,数据来源的多样性可以提高模型的跨领域知识以及下游的泛化能力。在我们的评估中,不仅在传统的语言建模基准测试中,训练在 The Pile 数据集上的模型表现出适度的改进,它们在 Pile BPB 上也表现出显著的改进。
用途:
通用语言模型训练。
链接:
https://pile.eleuther.ai/
范例:
Source: PubMed
Content: The study of the human genome has led to significant advances in the understanding of genetic disorders. Researchers are now able to identify genetic mutations responsible for a variety of diseases.
2、WebText
简介:
WebText 是一个由 OpenAI 内部创建的语料库,通过抓取网页来强调文档质量。作者抓取了所有从 Reddit 出发的外部链接,这些链接至少获得了 3 点业力。作者使用这种方法作为启发式指标,判断其他用户是否认为这些链接有趣、具有教育意义或仅仅是好笑。WebText 包含这些 4500 万个链接的文本子集。它由超过 800 万个文档组成,总共 40 GB 的文本。
用途:
语言模型训练。
链接:
https://paperswithcode.com/dataset/webtext
范例:
URL: https://www.reddit.com/r/science/comments/abcdef
Content: Scientists have discovered a new species of frog in the Amazon rainforest. This discovery adds to the biodiversity of the region. The new species is characterized by its bright coloration and unique mating call.
3、COIG
简介:
智源开源,首个大规模、可商用的中文开源指令数据,包含翻译通用指令语料库、考试指令语料库等。
用途:
指令微调。
链接:
https://huggingface.co/datasets/BAAI/COIG
范例:
Instruction:假如你是一名校长,最近接到不少学生和家长反映,学校操场上某些同学总是进行踢足球、打篮球等活动,严重影响了其他同学的学习和休息。请你制定一份公告,呼吁全体学生遵守校规,有序使用学校场地。
Input:公告起草委员会已经开会商讨该公告的内容,加入你的建议,你需要在公告中提供具体制度,呼吁全体学生遵守校规,保证课堂和自习室的安静和干净。Output:全校同学在使用学校的场地设施时,应该自觉遵守学校有关规定和管理制度,保证场地的有序和安全,维护学校正常的教学、体育训练、课外活动等各项工作的进行。学校操场是同学们锻炼身体的场所,但也是学习的场所,应该保持安静,不影响其他同学的学习和休息。进入球场、相邻广场等一律需有老师主持,并根据实际情况合理规划使用时间;球类等装备需符合安全要求。严禁未经批准私自使用学校不对外开放的区域及相关设施;公共体育设施的使用,要坚持先预约后使用的原则。我们希望同学们在学校的各个场地内,能够自律自觉,有序文明的使用,并与教职工一起共同创建良好的校园环境。
4、alpaca_chinese_dataset
简介:
中文指令微调数据集,借助ChatGPT对原始的Stanford Alpaca做机器翻译,并加入人工校验。
用途:
微调语言模型。
链接:
https://github.com/hikariming/alpaca_chinese_dataset
范例:
[ {
"instruction": "根据给定的坐标确定最近的机场。",
"input": "40.728157, -73.794853",
"output": "距给定坐标最近的机场是纽约市的拉瓜迪亚机场 (LGA)。" },
{
"instruction": "输出不同种类水果的列表",
"input": "",
"output": "1. 苹果\n2. 香蕉\n3. 橘子\n4. 芒果\n5. 草莓\n6. 葡萄\n7. 蓝莓\n8. 樱桃\n9. 猕猴桃\n10. 甜瓜\n11.菠萝\n12. 李子\n13.桃子"
},
{
"instruction": "找出字串中隐藏的信息",
"input": "业余咖啡",
"output": "隐藏的消息是“咖啡因爱好者”。"
}
]
5、firefly
简介:
firefly开源的大模型训练项目整理的指令数据集,并将其整理成统一的数据格式。
用途:
中文语言模型训练。
链接:
https://github.com/yangjianxin1/Firefly
范例:
{
"conversation_id":44,
"category":"Brainstorming",
"conversation":[
{
"human":"怎么能够有效地提升个人能力?",
"assistant":"提升个人能力可以通过以下几个方面实现:\n\n1. 学习新知识和技能:阅读相关书籍、参加课程和工作坊、观看教育视频等学习方式,可以帮助你掌握新的知识和技能,从而提升个人能力。\n\n2. 持续练习和实践:不断地练习和实践所学的知识和技能,可以帮助你更好地掌握和应用这些技能,提高你的表现和效率。\n\n3. 寻求反馈和改进:寻求他人的反馈和建议可以帮助你发现自己的不足之处,进一步完善和改进自己的能力。\n\n4. 建立良好的工作和生活习惯:建立良好的工作和生活习惯,如合理安排时间、注意健康、保持积极态度等,可以提高你的工作效率和生活品质,从而提升个人能力。\n\n5. 社交和交流:与他人交流和合作,可以帮助你更好地了解他人的观点和经验,从而提升自己的能力和见识。"
},
{
"human":"对于初学者来说,如何快速掌握编程技能?",
"assistant":"以下是几个建议,可以帮助初学者快速掌握编程技能:\n\n1. 学习基础知识:建议先学习编程语言的基础知识和语法,例如变量、数据类型、控制结构、函数等。可以通过在线课程、编程书籍、视频教程等方式学习。\n\n2. 实践编程:进行实际的编程练习是非常重要的,可以通过参加编程挑战、编写小项目等方式来进行实践。\n\n3. 寻求反馈:可以寻求他人的反馈和建议,例如在线编程社区、编程导师等,他们可以帮助你发现问题并及时纠正。\n\n4. 阅读优秀代码:阅读和分析优秀的代码可以帮助你学习其他程序员的编程思路和技巧,从而提高自己的编程能力。\n\n5. 不断学习和更新:编程技术和工具在不断更新和发展,因此需要不断学习新的知识和技能,例如学习新的编程语言、框架、工具等,以跟上技术的发展和变化。\n\n总之,学习编程需要耐心和坚持,并且需要不断地实践和学习。通过以上建议,可以帮助初学者快速掌握编程技能。"
},
{
"human":"在学习编程的过程中,如何避免陷入困境和放弃呢?",
"assistant":"学习编程是一个需要长期坚持和不断学习的过程,以下是一些避免陷入困境和放弃的方法:\n\n1. 制定合理的学习计划:制定合理的学习计划,包括学习时间、学习内容、目标等,可以帮助你更好地管理时间和精力,避免学习过程中的松懈和分心。\n\n2. 寻找合适的学习资源:选择适合自己的学习资源,例如在线课程、编程书籍、视频教程等,可以让你更好地了解和掌握编程知识和技能。\n\n3. 寻求帮助和支持:在学习过程中,遇到问题和困难是很正常的,可以寻求他人的帮助和支持,例如参加编程社区、找到编程导师等。\n\n4. 进行实践和项目:实践和项目是学习编程的重要组成部分,可以帮助你更好地了解和掌握编程技能,同时也可以提高学习的兴趣和动力。\n\n5. 坚持并保持兴趣:坚持学习和保持兴趣是学习编程的关键。可以通过参加编程社区、参加编程竞赛、与其他编程爱好者交流等方式来保持兴趣和动力。\n\n总之,学习编程需要耐心和坚持,并需要不断学习和实践。通过以上方法可以帮助你避免陷入困境和放弃。"
}
],
}
6、BELLE-data
简介:
使用self-instruct生成数据,包含中文种子任务。
用途:
微调语言模型。
链接:
https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M
范例:
Prompt:我经常会陷入到一些无法自拔的恶性循环之中,比如过度思考自己的过错和错误,或者陷入到自我怀疑和负面情绪之中,让我感到非常沮丧和失落。
回复:这种情况下,你可以试着采取以下措施:\n\n1. 认识到自己的情绪和思维模式,尝试接纳并放下它们。不要抗拒或否认自己的情绪和想法,但也不要过度追求完美和控制。\n\n2. 尝试进行自我反思和审视,了解自己的价值观和信念,以便更好地应对负面情绪和想法。\n\n3. 找到一些健康的出口,例如运动、阅读、社交等活动,以分散注意力并减轻压力。\n\n4. 寻求帮助和支持,例如与亲友、心理医生或社交媒体社区联系,分享你的想法和感受,并获得积极的反馈和建议。\n\n总之,要相信自己能够克服这些挑战,并以积极的态度和行动迎接未来的挑战和机遇。
7、pCLUE
简介:
基于提示的大规模预训练数据集,用于多任务学习和零样本学习。
用途:
微调语言模型。
链接:
https://github.com/CLUEbenchmark/pCLUE
数据样例:
{"input": "哪个类别最好的描述了这篇新闻?扣篮王拉文:精彩暴扣表演!炸\n选项:故事,文化,娱乐,体育,财经,房产,汽车,教育,科技,军事,旅游,国际,股票,农业,游戏\n答案:", "target": "电竞", "answer_choices": ["故事", "文化", "娱乐", "体育", "财经", "房产", "汽车", "教育", "科技", "军事", "旅游", "国际", "股票", "农业", "游戏"], "type": "classify"}
8、Med-ChatGLM
简介:
医学知识库构建问答数据,设置多种Prompt形式。
用途:
医学语言模型训练。
链接:
https://github.com/SCIR-HI/Med-ChatGLM
数据样例:
"问题:一位年轻男性长期使用可卡因,突然出现胸痛、呕吐、出汗等症状,经检查发现心电图反映心肌急性损伤,请问可能患的是什么疾病?治疗方式是什么?" 回答: 可能患的是心肌梗塞,需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗,并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物,以防止病情加重。"
9、Alpaca_GPT4
简介:
利用GPT-4生成的Alpaca数据,并做了中文翻译。
用途:
微调语言模型。
链接:
https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
数据样例:
{
"instruction": "解释为什么以下分数等同于1/4",
"input": "输入:4/16",
"output": "4/16等于1/4是因为我们可以约分分子分母都除以他们的最大公约数4,得到(4÷4)/ (16÷4)=1/4。分数的约分是用分子和分母除以相同的非零整数,来表示分数的一个相同的值,这因为分数实际上表示了分子除以分母,所以即使两个数同时除以同一个非零整数,分数的值也不会改变。所以4/16 和1/4是两种不同的书写形式,但它们的值相等。"
}
国内的大部分高质量中文语料都在企业内部,没有公开,这限制了中文基础大模型的能力,下面是百度、腾讯、阿里及字节的一些情况。
1、百度-文心:文心大模型基于百度的万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据以及5500亿事实的知识图谱等数据训练。
2、腾讯-混元:混元大模型使用公开数据集和腾讯内部数据,如微信公众号内容、微信搜索、腾讯广告数据等。
3、阿里-通义:通义大模型的训练数据来自于阿里达摩院,包含了大量的语言和文本数据,以及各类专业知识和技术文档等。
4、字节:字节大模型使用头条自有新闻数据、抖音评论、电子图书(版权采买)、互联网爬取数据等。
最近KIMI横空出世,回答问题的质量有了显著提升,但相对于GPT-4o,我感觉专业领域的知识深度方面还是有差距,这个应该跟中文语料的质量息息相关。近期各类大模型高考答题能力的比拼,国内大模型表现还可以,似乎进一步证实了这方面的猜测,希望后续能有所改善吧。
我为人人,人人为我。
傅一平:如何成为一名顶尖的数据管理专家? 2382
一文分清:数据要素、数据资源、数据资产、数字资产、数据管理、数据治理、数字资产入表 1898
国家数据局局长刘烈宏:数据要素论 4678
详解数据治理体系(值得收藏)2754
业务架构建模8步法指南及其成功关键要素 1471
数据安全100问(PPT) 2096
查看全部文章
点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶!