大模型数据集全面整理:444个数据集下载地址

本文针对Datasets for Large Language Models: A Comprehensive Survey 中的 444 个数据集(涵盖8种语言类别和32个领域)进行完整下载地址整理收集。

2024-02-28,由杨刘、曹家欢、刘崇宇、丁凯、金连文等作者编写,深入探讨了大型语言模型数据集,这些数据集在大语言模型中取得的显著进步中发挥着至关重要的作用。

调查从五个方面对LLM的 444个 数据集进行了整理和分类:

一、预训练语料库(59个):

49个 通用预训练语料库

10个 领域特定预训练语料库

二、指令微调数据集(103个)

69个通用指令微调数据集

34个特定领域指令微调数据集

三、偏好数据集 (16个)

16个偏好数据集

四、评估数据集(112个)

112个评估数据集

五、传统自然语言处理(NLP)数据集(154个)

37个阅读理解数据集、 13个知识问答数据集、13个推理问答数据集

10个识别文本蕴含数据集、9个数学数据集、6个共指消解数据集

4个情感分析数据集、10个语义匹配数据集、4个文本生成数据集

3个文本翻译数据集、 14个文本摘要数据集、6个文本分类数据集

4个文本质量评估数据集、4个文本转代码数据集、10个命名实体识别数据集

4个关系抽取数据集、3个多任务数据集信息汇总

一、Pre-training Corpora (预训练语料库)

预训练语料库是在预训练过程中使用的文本数据的大型集合LLMs。在所有类型的数据集中,预训练语料库的规模通常是最大的。在预训练阶段,LLMs从大量未标记的文本数据中学习广泛的知识,然后将其存储在其模型参数中。它能够LLMs拥有一定程度的语言理解和生成能力。预训练语料库可以包含各种类型的文本数据,例如网页、学术材料、书籍,同时还可以容纳来自不同领域的相关文本,例如法律文件、年度财务报告、医学教科书和其他特定领域的数据

49个通用预训练语料库(General Pre-training Corpora)

通用预训练语料库由来自不同领域和主题的大量文本数据组成,例如网页(Webpages)、语言文本(Language Texts)、书籍(Books)、学术材料(Academic Materials)、代码(Code)、平行语料库(Parallel Corpus)、社交媒体(Social Media)、百科全书(Encyclopedia)等。这类语料库的目标是为 NLP 任务提供通用的语言知识和数据资源。

49个 通用预训练语料库:

语料库:ANC

数据集地址:ANC|语料库数据集|自然语言处理数据集

语料库:Anna’s Archive

数据集地址:Anna’s Archive|学术资源数据集|版权数据集

语料库:ArabicText 2022

数据集地址:ArabicText 2022|阿拉伯语数据集|语言模型训练数据集

语料库:arXiv

数据集地址:arXiv

语料库:Baidu baike

数据集地址:Baike2018qa|问答系统数据集|预训练数据集数据集

语料库:BIGQUERY

数据集地址:BigQuery Public Datasets|公共数据集数据集|数据分析数据集

语料库:BNC

数据集地址:British National Corpus (BNC)|语言学数据集|语料库数据集

语料库:BookCorpusOpen

数据集地址:defunct-datasets/bookcorpusopen|自然语言处理数据集|文本生成数据集

语料库:CC-Stories

数据集地址:spacemanidol/cc-stories|自然语言处理数据集|文本分析数据集

语料库:CC100

数据集地址:statmt/cc100|自然语言处理数据集|语言模型预训练数据集

语料库:CLUECorpus2020

数据集地址:statmt/cc100|自然语言处理数据集|语言模型预训练数据集

语料库:Common Crawl

数据集地址:Common Crawl|网络爬取数据集|文本挖掘数据集

语料库:CulturaX

数据集地址:CulturaX|多语言数据集数据集|语言模型训练数据集

语料库:C4

数据集地址:allenai/c4|网络爬取数据集|文本分析数据集

语料库:Dolma

数据集地址:allenai/dolma|自然语言处理数据集|机器学习数据集

语料库:Github

数据集地址:Github|代码托管数据集|开源项目数据集

语料库:mC4

数据集地址:legacy-datasets/mc4|多语言数据集数据集|语言模型预训练数据集

语料库:MNBVC

数据集地址:liwu/MNBVC

语料库:MTP

数据集地址:BAAI-MTP|机器翻译数据集|文本分析数据集

语料库:MultiUN

数据集地址:MultiUN|平行语料库数据集|语言技术数据集

语料库:News-crawl

数据集地址:News-crawl|多语言新闻数据集|机器翻译数据集

语料库:OpenWebText

数据集地址:Skylion007/openwebtext|自然语言处理数据集|语言模型训练数据集

语料库:OSCAR

数据集地址:OSCAR|自然语言处理数据集|机器学习数据集

语料库:ParaCrawl

数据集地址:ParaCrawl/para_crawl|多语言翻译数据集|机器翻译数据集

语料库:PG-19

数据集地址:deepmind/pg19|语言建模数据集|长范围序列建模数据集

语料库:phi-1

数据集地址: teleprint-me/phi-1|教育数据集|自然语言处理数据集

语料库:Project Gutenberg

数据集地址: Project Gutenberg|电子书数据集|公共领域数据集

语料库:Pushshift Reddit

数据集地址: Pushshift Reddit|社交媒体分析数据集|文本挖掘数据集

语料库:RealNews

数据 集地址:RealNews|新闻分析数据集|数据挖掘数据集

语料库:Reddit

数据集地址:Reddit|社交网络分析数据集|机器学习数据集

语料库:RedPajama-V1

数据集地址:togethercomputer/RedPajama-Data-1T

语料库:RedPajama-V2

数据集地址:togethercomputer/RedPajama-Data-V2|文本处理数据集|语言模型训练数据集

语料库:RefinedWeb

数据集地址:tiiuae/falcon-refinedweb|网络数据数据集|文本挖掘数据集

语料库:ROOTS

数据集地址:ROOTS Corpus|多语言数据集数据集|语言模型训练数据集

语料库:Smashwords

数据集地址:Smashwords|电子书出版数据集|语料库数据集

语料库:StackExchange

数据集地址:stackexchange_stats|在线社区数据集|用户交互数据集

语料库:S2ORC

数据集地址:S2ORC|学术研究数据集|文本挖掘数据集

语料库:The Pile

数据集地址:EleutherAI/pile

语料库:The Stack

数据集地址:The Stack v2|编程语言数据集|源代码分析数据集

语料库:TigerBot pretrain en

数据集地址:TigerResearch/pretrain_en|自然语言处理数据集|预训练模型数据集

语料库:TigerBot pretrain zh

数据集地址:TigerResearch/pretrain_zh|对话系统数据集|预训练数据集数据集

语料库:TigerBot-wiki

数据集地址:TigerResearch/tigerbot-cmu-wiki-en|问答系统数据集|自然语言处理数据集

语料库:Toronto Book Corpus

数据集地址:bookcorpus/bookcorpus|文本生成数据集|语言模型数据集

语料库:UNCorpus v1.0

数据集地址:联合国中英对照语料UNv1.0.en-zh.tar|语言资源数据集|联合国数据集

语料库:WanJuanText-1.0

数据集地址:WanJuan1.0(万卷多模态)|多模态学习数据集|预训练数据集数据集

语料库:WebText

数据集地址:WebText|文本挖掘数据集|网络分析数据集

语料库:Wikipedia

数据集地址:Wikipedia Dump|维基百科数据集|XML数据数据集

语料库:WuDaoCorpora-Text

数据集地址:WuDaoCorpora Text文本预训练数据集|自然语言处理数据集|文本预训练数据集

语料库:Zhihu

数据集地址:zhihu|社交媒体数据集|知识分享数据集

10个领域特定预训练语料库 (Domain-specific Pre-training Corpora)

特定领域的预训练语料库的领域类别

领域特定预训练语料库仅包含特定领域或主题的相关数据,例如金融领域(Financial Domain)、医疗领域(Medical Domain)、其他领域(Other Domains)等。这类语料库的目标是为 LLM 提供特定领域的专业知识。

      

语料库:BBT-FinCorpus

数据集地址:BBT-FinCorpus|金融NLP数据集|预训练数据集数据集

语料库:FinCorpus

数据集地址:Duxiaoman-DI/FinCorpus|金融资讯数据集|教育培训数据集

语料库:FinGLM

数据集地址:FinGLM|金融数据集|人工智能数据集

语料库:Medical-pt

数据集地址:shibing624/medical|医疗,偏好数据集数据集

语料库:Proof-Pile-2

数据集地址:EleutherAI/proof-pile-2|机器学习数据集|人工智能数据集

语料库:PubMed Central

数据集地址:Pile-PubMed_Central|自然语言处理数据集|生物医学文献数据集

语料库:TigerBot-earning

数据集地址:TigerResearch/tigerbot-earning-plugin|财务报告分析数据集|机器学习数据集

语料库:TigerBot-law

数据集地址:TigerResearch/tigerbot-law-plugin|法律知识管理数据集|自动化法律服务数据集

语料库:TigerBot-research

数据集地址:TigerResearch/tigerbot-research-plugin|机器学习数据集|研报数据数据集

语料库:TransGPT-pt

数据集地址:TransGPT-pt

预训练语料库的预处理 通常包括以下步骤:

      预训练语料库的预处理流程图

二、Instruction Fine-tuning Datasets(指令微调数据集)

指令类别

指令可以分为15种主要类别,包括:推理(Reasoning)、数学(Math)、头脑风暴 (Brainstorming)、闭卷问答 (Closed QA)、开放问答 (Open QA)、代码 (Code)、提取 (Extraction)、生成 (Generation)、改写 (Rewrite)、

摘要 (Summarization)、分类 (Classification)、翻译 (Translation)、角色扮演 (Role-playing)、社会规范 (Social Norms)、其他 (Others)。

指令类别摘要

数据集构建方法

Instruction Fine-tuning Datasets 可以通过以下四种方法构建:

人工生成 (HG): 由人类标注者手动创建指令,无需模型辅助。

模型构建 (MC): 利用 LLM 生成指令,例如使用 Self-Instruct 方法。

现有数据集收集和改进 (CI): 整合和改进现有开源数据集。

多种方法结合 (HG & CI & MC): 结合上述三种方法的优势。

通用指令微调数据集对应的构建方法

69个通用指令微调数据集如下:

数据集:Alpaca data

数据集地址:tatsu-lab/alpaca|自然语言处理数据集|指令学习数据集

数据集:Alpaca GPT4 data

数据集地址:vicgalle/alpaca-gpt4|自然语言处理数据集|机器学习数据集

数据集:Alpaca GPT4 data zh

数据集地址:shibing624/alpaca-zh|自然语言处理数据集|语言模型数据集

数据集:Aya Collection

数据集地址:CohereForAI/aya_collection|多语言处理数据集|自然语言处理数据集

数据集:Aya Dataset

数据集地址:CohereForAI/aya_dataset|多语言处理数据集|大型语言模型数据集

数据集:Bactrain-X

数据集地址:MBZUAI/Bactrian-X|多语言数据集|文本生成数据集

数据集:Baize

数据集地址:linkanjarad/baize-chat-data|聊天机器人数据集|文本生成数据集

数据集:BELLE Generated Chat

数据集地址:BelleGroup/generated_chat_0.4M|自然语言处理数据集|角色生成数据集

数据集:BELLE Multiturn Chat

数据集地址:BelleGroup/multiturn_chat_0.8M|对话系统数据集|自然语言处理数据集

数据集:BELLE train 0.5M CN

数据集地址:BelleGroup/train_0.5M_CN|自然语言处理数据集|中文语言模型数据集

数据集:BELLE train 1M CN

数据集地址:BelleGroup/train_1M_CN|自然语言处理数据集|文本生成数据集

数据集:BELLE train 2M CN

数据集地址:BelleGroup/train_2M_CN|自然语言处理数据集|中文语音识别数据集

数据集:BELLE train 3.5M CN

数据集地址:BelleGroup/train_3.5M_CN|自然语言处理数据集|文本生成数据集

数据集:CAMEL

数据集地址:CAMEL|多语言对话数据集|代码生成数据集

数据集:ChatGPT corpus

数据集地址:chatgpt-corpus|自然语言处理数据集|数据训练数据集

数据集:COIG

数据集地址:COIG-CQIA|自然语言处理数据集|指令微调数据集

数据集:CrossFit

数据集地址:CrossFit|自然语言处理数据集|少样本学习数据集

数据集:databricks-dolly-15K

数据集地址:databricks/databricks-dolly-15k|自然语言处理数据集|文本生成数据集

数据集:DialogStudio

数据集地址:DialogStudio|对话技术数据集|数据集资源数据集

数据集:Dynosaur

数据集地址:Dynosaur/dynosaur-full

数据集:Firefly

数据集地址:YeungNLP/firefly-train-1.1M|自然语言处理数据集|对话系统数据集

数据集:Flan-mini

数据集地址:declare-lab/flan-mini|自然语言处理数据集|编程语言理解数据集

数据集:Flan 2021

数据集地址:Flan 2021|自然语言处理数据集|机器学习数据集

数据集:Flan 2022

数据集地址:philschmid/flanv2

数据集:GPT4All

数据集地址:GPT4all|自然语言处理数据集|指令数据集数据集

数据集:GuanacoDataset

数据集地址:GuanacoDataset|自然语言处理数据集|跨语言任务数据集

数据集:HC3

数据集地址:Hello-SimpleAI/HC3|自然语言处理数据集|人工智能对话系统数据集

数据集:InstructDial

数据集地址:InstructDial|对话系统数据集|自然语言处理数据集

数据集:InstructGPT-sft

数据集地址:InstructGPT-sft

数据集:InstructionWild v1

数据集地址:InstructionWild v1|自然语言处理数据集|指令生成数据集

数据集:InstructionWild v2

数据集地址:InstructionWild v2|自然语言处理数据集|指令理解数据集

数据集:LaMini-LM

数据集地址:MBZUAI/LaMini-instruction|文本生成数据集|语言模型微调数据集

数据集:LCCC

数据集地址:thu-coai/lccc|中文对话数据集|数据清洗数据集

数据集:LIMA-sft

数据集地址:undefined|机器学习数据集|自然语言处理数据集

数据集:LMSYS-Chat-1M

数据集地址:LMSYS-Chat-1M|语言模型数据集|对话数据数据集

数据集:LogiCoT

数据集地址:LogiCoT|逻辑推理数据集|自然语言处理数据集

数据集:LongForm

数据集地址:LongForm|自然语言处理数据集|指令生成数据集

数据集:Luotuo-QA-B

数据集地址:遇见数据集-让每个数据集都被发现,让每一次遇见都有价值

数据集:MOSS 002 sft data

数据集地址:fnlp/moss-002-sft-data|对话系统数据集|文本生成数据集

数据集:MOSS 003 sft data

数据集地址:fnlp/moss-003-sft-data|对话系统数据集|自然语言处理数据集

数据集:MOSS 003 sft plugin data

数据集地址:moss-003-sft-plugin-data|多轮对话数据集|插件增强数据集

数据集:NATURAL INSTRUCTIONS

数据集地址:Natural Instructions|自然语言处理数据集|机器学习数据集

数据集:OASST1

数据集地址:OpenAssistant/oasst1|自然语言处理数据集|数据科学数据集

数据集:OIG

数据集地址:laion/OIG|自然语言处理数据集|机器学习数据集

数据集:OL-CC

数据集地址:lorinma/BAAI_OL-CC|中文问答数据集|对话系统数据集

数据集:OpenChat

数据集地址:openchat/openchat_sharegpt4_dataset|自然语言处理数据集|机器学习数据集

数据集:OpenOrca

数据集地址:Open-Orca/OpenOrca|自然语言处理数据集|机器学习模型训练数据集

数据集:Open-Platypus

数据集地址:garage-bAInd/Open-Platypus|自然语言处理数据集|机器学习数据集

数据集:OPT-IML Bench

数据集地址:OPT-IML Bench|自然语言处理数据集|指令微调数据集

数据集:Phoenix-sft-data-v1

数据集地址:Phoenix-sft-data-v1|多语言对话数据集|自然语言处理数据集

数据集:PromptSource

数据集地址:PromptSource|自然语言处理数据集|提示工程数据集

数据集:RedGPT-Dataset-V1-CN

数据集地址:RedGPT 通过参考信息增强的对话生成模型|对话生成数据集|自然语言处理数据集

数据集:Self-Instruct

数据集地址:Self-Instruct

数据集:ShareChat

数据集地址:ShareChat

数据集:ShareGPT-Chinese-English-90k

数据集地址:shareAI/ShareGPT-Chinese-English-90k|自然语言处理数据集|指令微调数据集

数据集:ShareGPT90K

数据集地址:ShareGPT90K

数据集:SUPER-NATURAL INSTRUCTIONS

数据集地址:andersonbcdefg/supernatural-instructions-2m

数据集:TigerBot sft en

数据集地址:TigerResearch/sft_en|自然语言处理数据集|模型微调数据集

数据集:TigerBot sft zh

数据集地址:TigerResearch/sft_zh|中文问答数据集|指令微调数据集

数据集:T0

数据集地址:bigscience/P3|自然语言处理数据集|数据模板数据集

数据集:UltraChat

数据集地址:HuggingFaceH4/ultrachat_200k|聊天机器人数据集|自然语言处理数据集

数据集:UnifiedSKG

数据集地址:UnifedSKG|知识接地数据集|多任务学习数据集

数据集:Unnatural Instructions

数据集地址:mrm8488/unnatural-instructions-core|自然语言处理数据集|指令遵循数据集

数据集:WebGLM-QA

数据集地址:THUDM/webglm-qa|机器学习数据集|自然语言处理数据集

数据集:Wizard evol instruct zh

数据集地址:silk-road/Wizard-LM-Chinese-instruct-evol|自然语言处理数据集|中文语言模型数据集

数据集:Wizard evol instruct 196K

数据集地址:WizardLMTeam/WizardLM_evol_instruct_V2_196k|数学模型数据集|数据集构建数据集

数据集:Wizard evol instruct 70K

数据集地址:WizardLMTeam/WizardLM_evol_instruct_70k|数学数据集|编程数据集

数据集:xP3

数据集地址:bigscience/xP3

数据集:Zhihu-KOL

数据集地址:wangrui6/Zhihu-KOL|社交媒体分析数据集|自然语言处理数据集

34个 特定领域指令微调数据集

数据集:BELLE_School_Math

数据集地址:BelleGroup/school_math_0.25M|数学教育数据集|自然语言处理数据集

数据集:ChatDoctor

数据集地址:ChatDoctor

数据集:ChatMed_Consult_Dataset

数据集地址:michaelwzhu/ChatMed_Consult_Dataset|医疗咨询数据集|自然语言处理数据集

数据集:Child_chat_data

数据集地址:Child_chat_data

数据集:CMtMedQA

数据集地址:CMtMedQA|医疗对话数据集|模型训练数据集

数据集:Code_Alpaca_20K

数据集地址:Code_Alpaca_20K

数据集:CodeContest

数据集地址:CodeContests|机器学习数据集|编程竞赛数据集

数据集:CommitPackFT

数据集地址:bigcode/commitpackft|代码提交数据集|数据分析数据集

数据集:DISC-Fin-SFT

数据集地址:DISC-Fin-SFT|金融数据集|指令处理数据集

数据集:DISC-Law-SFT

数据集地址:DISC-Law-SFT 高质量中文法律监督微调数据集|法律数据集|自然语言处理数据集

数据集:DISC-Med-SFT

数据集地址:Flmc/DISC-Med-SFT|医疗问答数据集|对话系统数据集

数据集:Educhat-sft-002-data-osm

数据集地址:ecnu-icalk/educhat-sft-002-data-osm|对话系统数据集|自然语言处理数据集

数据集:GeoSignal

数据集地址:daven3/geosignal|科学领域适应数据集|语言模型训练数据集

数据集:Goat

数据集地址:tiedong/goat|算术任务数据集|问答系统数据集

数据集:HanFei 1.0

数据集地址:HanFei数据集

数据集:HuatuoGPT-sft-data-v1

数据集地址:HuatuoGPT-sft-data-v1|医疗咨询数据集|自然语言处理数据集

数据集:Huatuo-26M

数据集地址:Huatuo-26M|医疗问答数据集|医疗知识数据集

数据集:LawGPT_zh

数据集地址:LawGPT_zh

数据集:Lawyer LLaMA_sft

数据集地址:Lawyer LLaMA_sft

数据集:MeChat

数据集地址:MeChat|心理健康数据集|对话生成数据集

数据集:MedDialog

数据集地址:UCSD26/medical_dialog|医疗对话数据集|问答系统数据集

数据集:Medical Meadow

数据集地址:Medical Meadow

数据集:Medical-sft

数据集地址:shibing624/medical|医疗,偏好数据集数据集

数据集:Mol-Instructions

数据集地址:zjunlp/Mol-Instructions|生物分子数据集|大型语言模型数据集

数据集:MWP

数据集地址:Medical Meadow

数据集:OpenMathInstruct-1

数据集地址:nvidia/OpenMathInstruct-1|数学教育数据集|机器学习数据集

数据集:Owl-Instruction

数据集地址:Owl-Instruction

数据集:PROSOCIALDIALOG

数据集地址:allenai/prosocial-dialog|对话系统数据集|人工智能伦理数据集

数据集:QiZhenGPT-sft-20k

数据集地址:QiZhenGPT-sft-20k

数据集:ShenNong_TCM_Dataset

数据集地址:TCMD|中医数据集|人工智能评估数据集

数据集:TaoLi_data

数据集地址:TaoLi_data

数据集:ToolAlpaca

数据集地址:ToolAlpaca

数据集:ToolBench

数据集地址:ToolBench

数据集:TransGPT-sft

数据集地址:TransGPT-sft

三、Preference Datasets (偏好数据集)

偏好评估方法:

投票 (Vote): 人类或模型对多个响应进行投票,选择其中最好的一个或几个。

排序 (Sort): 将多个响应按照预定义的标准进行排序,反映它们之间的相对偏好顺序。

评分 (Score): 给多个响应分配分数,提供更灵活的偏好强度表示。

其他: 一些偏好数据集采用其他评估方法,例如步骤对齐和源差异分析。

对应各种偏好评估方法的不同偏好数据集

16个偏好数据集

数据集:Alpaca comparison data

数据集地址:Alpaca comparison data|模型比较数据集|偏好反馈数据集

数据集:Chatbot arena conversations

数据集地址:undefined|聊天机器人数据集|自然语言处理数据集

数据集:CValues

数据集地址:CValues-Comparison|价值观评估数据集|人工智能文本生成数据集

数据集:hh-rlhf

数据集地址:Anthropic/hh-rlhf

数据集:Medical-rlhf

数据集地址:shibing624/medical|医疗,偏好数据集数据集

数据集:MT-Bench human judgments

数据集地址:lmsys/mt_bench_human_judgments|自然语言处理数据集|机器学习模型评估数据集

数据集:OASST1 pairwise rlhf reward

数据集地址:tasksource/oasst1_pairwise_rlhf_reward|奖励建模数据集|多语言数据数据集

数据集:PKU-SafeRLHF

数据集地址:PKU-SafeRLHF|大型语言模型数据集|安全对齐数据集

数据集:PRM800K

数据集地址:euclaise/prm800k_preferences|偏好学习数据集|数学推理数据集

数据集:SHP

数据集地址:stanfordnlp/SHP|机器学习数据集|数据集难度评估数据集

数据集:Stable Alignment

数据集地址:Stable Alignment|社交智能数据集|响应调整数据集

数据集:Stack-Exchange-Preferences

数据集地址:HuggingFaceH4/stack-exchange-preferences|用户偏好分析数据集|自然语言处理数据集

数据集:Summarize from Feedback

数据集地址:openai/summarize_from_feedback|自然语言处理数据集|机器学习数据集

数据集:UltraFeedback

数据集地址:openbmb/UltraFeedback|自然语言处理数据集|偏好数据集数据集

数据集:WebGPT

数据集地址:openai/webgpt_comparisons|自然语言处理数据集|问答系统数据集

数据集:Zhihu rlhf 3k

数据集地址:https://www.selectdataset.com/dataset/70607709831f83178eb08689ca7accc4

四、Evaluation Datasets (评估数据集)

评估数据集的评估类别

三种评价方法

112个评估数据集

数据集:AgentBench

数据集地址:AgentBench

数据集:AGIEval

数据集地址:AGIEval|教育评估数据集|人工智能测试数据集

数据集:ALCUNE

数据集地址:ALCUNE

数据集:AlpacaEval

数据集地址:AlpacaEval|自然语言处理数据集|模型评估数据集

数据集:API-Bank

数据集地址:API-Bank|人工智能数据集|API集成数据集

数据集:APIBench

数据集地址:gorilla-llm/APIBench

数据集:APPS

数据集地址:codeparrot/apps|自然语言处理数据集|编程语言生成数据集

数据集:ARB

数据集地址:ARB

数据集:BayLing-80

数据集地址:BayLing-80|语言模型数据集|跨语言评估数据集

数据集:BBF-CFLEB

数据集地址:BBF-CFLEB|金融数据集|自然语言处理数据集

数据集:BBH

数据集地址:BBH

数据集:BELLE eval

数据集地址:BELLE eval

数据集:BIG-Bench

数据集地址:google/bigbench

数据集:BIRD

数据集地址:BIRD

数据集:BOSS

数据集地址:BOSS|自然语言处理数据集|模型鲁棒性数据集

数据集:CBLUE

数据集地址:中文医疗信息处理评测基准CBLUE|医疗信息处理数据集|自然语言处理数据集

数据集:C-CLUE

数据集地址:C-CLUE

数据集:CELLO

数据集地址:CELLO

数据集:C-Eval

数据集地址:ceval/ceval-exam|自然语言处理数据集|机器学习评估数据集

数据集:CG-Eval

数据集地址:CG-Eval

数据集:Chain-of-Thought Hub

数据集地址:Chain-of-Thought Hub

数据集:Choice-75

数据集地址:Choice-75|脚本学习数据集|智能系统决策数据集

数据集:CLEVA

数据集地址:CLEVA

数据集:CLiB

数据集地址:CLiB

数据集:CLUE

数据集地址:CLUE 中文语言理解评测基准数据集|中文语言理解数据集|自然语言处理数据集

数据集:CMB

数据集地址:CMB|医学评估数据集|语言模型数据集

数据集:CMMLU

数据集地址:haonan-li/cmmlu|中文语言理解数据集|多任务评估数据集

数据集:CMMLU

数据集地址:haonan-li/cmmlu|中文语言理解数据集|多任务评估数据集

数据集:CrowS-Pairs

数据集地址:CrowS-Pairs|偏见识别数据集|自然语言处理数据集

数据集:CUGE

数据集地址:CUGE|自然语言处理数据集|中文语言理解与生成数据集

数据集:decaNLP

数据集地址:decaNLP (Natural Language Decathlon Benchmark)|自然语言处理数据集|多任务学习数据集

数据集:DS-1000

数据集地址:xlangai/DS-1000|代码生成数据集|文本生成数据集

数据集:EcomGPT eval

数据集地址:EcomGPT eval

数据集:EmotionBench

数据集地址:EmotionBench

数据集:FACTOR

数据集地址:Wiki-FACTOR, News-FACTOR, Expert-FACTOR|语言模型评估数据集|事实准确性数据集

数据集:FActScore

数据集地址:FActScore

数据集:FactualityPrompt

数据集地址:FactualityPrompt

数据集:FairEval

数据集地址:FairEval

数据集:FewCLUE

数据集地址:FewCLUE|小样本学习数据集|自然语言处理数据集

数据集:FinancelQ

数据集地址:FinancelQ

数据集:FinBen

数据集地址:FinBen|金融科技数据集|语言模型评估数据集

数据集:FinEval

数据集地址:SUFE-AIFLM-Lab/FinEval|金融知识评估数据集|大型语言模型数据集

数据集:FlagEval

数据集地址:FlagEval

数据集:FLUE

数据集地址:FLUE

数据集:FreshQA

数据集地址:FreshQA

数据集:GAOKAO-Bench

数据集地址:GAOKAO-Bench|中国高考数据集|测评数据集数据集

数据集:GeoBench

数据集地址:GeoBench

数据集:GLUE

数据集地址:GLUE

数据集:GLUE-X

数据集地址:GLUE-X

数据集:HalluQA

数据集地址:HalluQA 中文大模型幻觉评估数据集|中文语言处理数据集|机器学习评估数据集

数据集:HaluEval

数据集地址:HaluEval|语言模型评估数据集|幻觉检测数据集

数据集:HELM

数据集地址:HELM|自然语言处理数据集|语言模型评估数据集

数据集:HuaTuo26M-test

数据集地址:FreedomIntelligence/huatuo26M-testdatasets|自然语言生成数据集|医学数据集

数据集:HumanEval

数据集地址:openai/openai_humaneval|代码生成数据集|Python编程数据集

数据集:HumanEvalPack

数据集地址:bigcode/humanevalpack|代码生成数据集|多语言编程数据集

数据集:InfiniteBench

数据集地址:xinrongzhang2022/InfiniteBench|自然语言处理数据集|长上下文评估数据集

数据集:KoLA

数据集地址:KoLA|语言模型评估数据集|知识导向基准数据集

数据集:LAiW

数据集地址:LAiW|法律领域数据集|语言模型评估数据集

数据集:LawBench

数据集地址:LawBench|法律数据集|模型评估数据集

数据集:LegalBench

数据集地址:nguha/legalbench|法律推理数据集|自然语言处理数据集

数据集:L-Eval

数据集地址:L4NLP/LEval|自然语言处理数据集|长文本理解数据集

数据集:LexGLUE

数据集地址:LexGLUE|法律文本理解数据集|自然语言处理数据集

数据集:LEXTREME

数据集地址:joelniklaus/lextreme|自然语言处理数据集|法律文本分析数据集

数据集:LILA

数据集地址:allenai/lila

数据集:LLMEVAL-1

数据集地址:LLMEVAL-1

数据集:LLMEVAL-2

数据集地址:LLMEVAL-2

数据集:LLMEVAL-3

数据集地址:LLMEVAL-3

数据集:LLMEval2

数据集地址:LLMEval2

数据集:LMentry

数据集地址:LMentry|语言模型测试数据集|基准评估数据集

数据集:LMExamQA

数据集地址:LMExamQA

数据集:LongBench

数据集地址:THUDM/LongBench|长上下文理解数据集|多语言多任务数据集

数据集:LongEval

数据集地址:LongEval

数据集:LooGLE

数据集地址:bigai-nlco/LooGLE|大型语言模型数据集|长上下文理解数据集

数据集:MCTS

数据集地址:MCTS|文本简化数据集|语言处理数据集

数据集:miniF2F_v1

数据集地址:miniF2F_v1

数据集:MINT

数据集地址:MINT

数据集:MMCU

数据集地址:MMCU

数据集:MMLU

数据集地址:MMLU

数据集:MT-Bench

数据集地址:MT-Bench

数据集:MTPB

数据集地址:MTPB

数据集:MultiMedQA

数据集地址:katielink/healthsearchqa|医疗问答数据集|消费者健康数据集

数据集:M3Exam

数据集地址:M3Exam|多语言评估数据集|多模态评估数据集

数据集:M3KE

数据集地址:TJUNLP/M3KE|自然语言处理数据集|知识评估数据集

数据集:NeuLR

数据集地址:NeuLR

数据集:ODEX

数据集地址:ODEX

数据集:Owl-Bench

数据集地址:Owl-Bench

数据集:PandaLM_testset

数据集地址:PandaLM测试数据集|语言模型评估数据集|人工标注数据集

数据集:PromptBench

数据集地址:PromptBench

数据集:PromptCBLUE

数据集地址:PromptCBLUE|医学领域数据集|语言模型评估数据集

数据集:QiZhenGPT_eval

数据集地址:QiZhenGPT_eval

数据集:RAFT

数据集地址:ought/raft|自然语言处理数据集|机器学习数据集

数据集:SafetyBench

数据集地址:thu-coai/SafetyBench|大型语言模型数据集|安全评估数据集

数据集:Safety-Prompts

数据集地址:thu-coai/Safety-Prompts

数据集:SCALE

数据集地址:SCALE

数据集:SCIBENCH

数据集地址:SciBench|科学问题解决数据集|教育评估数据集

数据集:SentEval

数据集地址:SentEval|自然语言处理数据集|句子嵌入数据集

数据集:ScienceQA

数据集地址:ScienceQA

数据集:SocKET

数据集地址:SocKET|自然语言处理数据集|社会知识测试数据集

数据集:SuperCLUE

数据集地址:SuperCLUE|自然语言处理数据集|测评数据集数据集

数据集:SuperCLUE-Agent

数据集地址:SuperCLUE-Agent

数据集:SuperCLUE-Safety

数据集地址:SuperCLUE-Safety

数据集:SuperGLUE

数据集地址:SuperGLUE|语言理解数据集|机器学习数据集

数据集:TabMWP

数据集地址:TabMWP|自然语言处理数据集|数据推理数据集

数据集:TheoremQA

数据集地址:TheoremQA|定理问答数据集|AI评估数据集

数据集:ToolBench

数据集地址:ToolBench|API工具使用数据集|指令生成数据集

数据集:TRUSTGPT

数据集地址:TRUSTGPT

数据集:TruthfulQA

数据集地址:TruthfulQA|自然语言处理数据集|知识验证数据集

数据集:Vicuna Evaluation

数据集地址:Vicuna Evaluation

数据集:XiezhiBenchmark

数据集地址:XiezhiBenchmark

数据集:XNLI

数据集地址:XNLI (Cross-lingual NLI)|自然语言推理数据集|跨语言数据集

数据集:XTREME

数据集地址:google/xtreme

数据集:ZeroSCROLLS

数据集地址:tau/zero_scrolls|自然语言处理数据集|长文本理解数据集

五、Traditional NLP Datasets (传统NLP数据集)

传统NLP数据集(154个)

根据任务类型进行分类问答、文本蕴涵、数学、指代消解、情感分析、语义匹配、文本生成、文本翻译、文本摘要、文本分类、文本质量评估、文本到代码、命名实体识别、关系抽取、多任务等

传统NLP数据集的不同NLP任务类别

37个阅读理解数据集

阅读理解数据集

数据集:BoolQ

数据集地址:The BoolQ Dataset|自然语言推理数据集|问答系统数据集

数据集:CondaQA

数据集地址:lasha-nlp/CONDAQA|自然语言处理数据集|阅读理解数据集

数据集:CosmosQA

数据集地址:allenai/cosmos_qa|常识推理数据集|机器阅读理解数据集

数据集:C3

数据集地址:C3|机器阅读理解数据集|自然语言处理数据集

数据集:DREAM

数据集地址:DREAM|对话理解数据集|阅读理解数据集

数据集:DuReader Yes/No

数据集地址:DuReaderrobust|机器阅读理解数据集|数据集数据集

数据集:MCTest

数据集地址:sagnikrayc/mctest

数据集:MultiRC

数据集地址:CogComp/eraser_multi_rc|阅读理解数据集|多句问题处理数据集

数据集:PubMedQA

数据集地址:qiaojin/PubMedQA|医学信息检索数据集|自然语言处理数据集

数据集:QuAIL

数据集地址:QuAIL

数据集:RACE

数据集地址:ehovy/race|阅读理解数据集|自然语言处理数据集

数据集:ReClor

数据集地址:ReClor

数据集:ChID

数据集地址:thu-coai/chid|中文成语数据集|语言测试数据集

数据集:CLOTH

数据集地址:AndyChiang/cloth|语言学习数据集|完形填空数据集

数据集:CMRC2019

数据集地址:CMRC 2019|机器阅读理解数据集|自然语言处理数据集

数据集:LAMBADA

数据集地址:cimec/lambada|自然语言处理数据集|文本理解数据集

数据集:Adversarial QA

数据集地址:UCLNLP/adversarial_qa|自然语言处理数据集|机器学习数据集

数据集:CMRC2018

数据集地址:CMRC 2018|机器阅读理解数据集|中文文本处理数据集

数据集:CUAD

数据集地址:cuad-qa

数据集:Dureader Checklist

数据集地址:Dureader Checklist

数据集:DuReader Robust

数据集地址:DuReader Robust

数据集:HOTPOTQA

数据集地址:hotpotqa/hotpot_qa|问答系统数据集|自然语言处理数据集

数据集:MLQA

数据集地址:facebook/mlqa|跨语言问答数据集|多语言数据集数据集

数据集:MS MARCO

数据集地址:microsoft/ms_marco|机器阅读理解数据集|自然语言生成数据集

数据集:Natural Questions

数据集地址:google-research-datasets/natural_questions|问答系统数据集|自然语言处理数据集

数据集:QuAC

数据集地址:allenai/quac|问题回答数据集|自然语言处理数据集

数据集:Quoref

数据集地址:quoref

数据集:ReCoRD

数据集地址:ReCoRD

数据集:SQuAD

数据集地址:rajpurkar/squad|自然语言处理数据集|阅读理解数据集

数据集:SQuAD 2.0

数据集地址:SQuAD 2.0

数据集:TriviaQA

数据集地址:TriviaQA|自然语言处理数据集|机器学习数据集

数据集:TyDIQA

数据集地址:google-research-datasets/tydiqa|多语言问答数据集|自然语言处理数据集

数据集:CoQA

数据集地址:CoQA

数据集:DROP

数据集地址:DROP

数据集:DuoRC

数据集地址:ibm/duorc|文本理解数据集|文本生成数据集

数据集:DuReader 2.0

数据集地址:DuReader 2.0

数据集:QASPER

数据集地址:allenai/qasper|自然语言处理数据集|问答系统数据集

13个知识问答数据集

知识问答数据集

数据集:ARC

数据集地址:allenai/ai2_arc|自然语言处理数据集|机器学习数据集

数据集:CMD

数据集地址:CMD

数据集:cMedQA2

数据集地址:cMedQA2|医疗问答数据集|数据隐私数据集

数据集:CommonsenseQA

数据集地址:CommonsenseQA|常识推理数据集|自然语言处理数据集

数据集:OpenBookQA

数据集地址:allenai/openbookqa|问答系统数据集|语言理解数据集

数据集:PIQA

数据集地址:ybisk/piqa|问答系统数据集|物理常识推理数据集

数据集:SciQ

数据集地址:allenai/sciq|科学教育数据集|自然语言处理数据集

数据集:JEC-QA

数据集地址:JEC-QA|法律考试数据集|问答系统数据集

数据集:WebMedQA

数据集地址:webMedQA|医学问答数据集|自然语言处理数据集

数据集:PsyQA

数据集地址:PsyQA

数据集:HEAD-QA

数据集地址:dvilares/head_qa|医疗数据集|问答系统数据集

数据集:ECQA

数据集地址:ECQA

数据集:WikiQA

数据集地址:microsoft/wiki_qa|问答系统数据集|自然语言处理数据集

13个推理问答数据集

推理问答数据集

数据集:COPA

数据集地址:COPA

数据集:CREAK

数据集地址:CREAK

数据集:HellaSwag

数据集地址:HellaSwag|自然语言处理数据集|常识推理数据集

数据集:LogiQA

数据集地址:LogiQA|逻辑推理数据集|机器阅读理解数据集

数据集:PROST

数据集地址:corypaik/prost|物理推理数据集|自然语言处理数据集

数据集:QASC

数据集地址:allenai/qasc|自然语言处理数据集|教育数据集

数据集:QuaRel

数据集地址:QuaRel

数据集:QuaRTz

数据集地址:allenai/quartz|自然语言处理数据集|定性关系理解数据集

数据集:ROPES

数据集地址:allenai/ropes|自然语言处理数据集|推理能力数据集

数据集:Social IQa

数据集地址:allenai/social_i_qa|社交智能数据集|问答系统数据集

数据集:StoryCloze

数据集地址:LSDSem/story_cloze|故事理解数据集|常识推理数据集

数据集:STRATEGYQA

数据集地址:STRATEGYQA

数据集:WIQA

数据集地址:wiqa

10个识别文本蕴含数据集

识别文本蕴含数据集

数据集:ANLI

数据集地址:Adversarial NLI (ANLI)|自然语言处理数据集|对抗性训练数据集

数据集:CINLID

数据集地址:CINLID

数据集:CMNLI

数据集地址:CMNLI|自然语言处理数据集|文本对关系判断数据集

数据集:CommitmentBank

数据集地址:CommitmentBank (CB)|语言学数据集|语用学数据集

数据集:MedNLI

数据集地址:bigbio/mednli|医疗信息处理数据集|自然语言处理数据集

数据集:MultiNLI

数据集地址:nyu-mll/multi_nli|自然语言处理数据集|文本蕴含数据集

数据集:OCNLI

数据集地址:OCNLI|自然语言处理数据集|自然语言推理数据集

数据集:RTE

数据集地址:RTE|自然语言处理数据集|机器学习数据集

数据集:SNLI

数据集地址:stanfordnlp/snli|自然语言处理数据集|文本分类数据集

数据集:WANLI

数据集地址:alisawuffles/WANLI|自然语言推理数据集|人工智能数据集

9个数学数据集

数学数据集

数据集:Ape210K

数据集地址:Ape210K|自然语言处理数据集|数学问题解答数据集

数据集:AQUA-RAT

数据集地址:deepmind/aqua_rat|代数问题解答数据集|自然语言处理数据集

数据集:ASDiv

数据集地址:ASDiv|数学问题求解数据集|逻辑推理数据集

数据集:GSM8K

数据集地址:openai/gsm8k|数学应用题数据集|自然语言处理数据集

数据集:MATH

数据集地址:MATH

数据集:MathQA

数据集地址:allenai/math_qa|数学问题解答数据集|自然语言处理数据集

数据集:Math23K

数据集地址:Math23K (Math23K for Math Word Problem Solving)|自然语言处理数据集|数学问题解答数据集

数据集:NaturalProofs

数据集地址:NaturalProofs|数学证明数据集|自然语言处理数据集

数据集:SVAMP

数据集地址:SVAMP

6个共指消解数据集

共指消解数据集

数据集:CLUEWSC2020

数据集地址:CLUEWSC2020|自然语言处理数据集|中文文本分析数据集

数据集:DPR

数据集地址:community-datasets/definite_pronoun_resolution|词义消歧数据集|自然语言处理数据集

数据集:WiC

数据集地址:WiC|自然语言处理数据集|词义消歧数据集

数据集:WinoGrande

数据集地址:allenai/winogrande|常识推理数据集|文本理解数据集

数据集:WinoWhy

数据集地址:WinoWhy

数据集:WSC

数据集地址:ErnestSDavis/winograd_wsc|语言理解数据集|技术挑战数据集

4个情感分析数据集

情感分析数据集

数据集:EPRSTMT

数据集地址:FewCLUE|小样本学习数据集|自然语言处理数据集

数据集:IMDB

数据集地址:stanfordnlp/imdb|情感分析数据集|文本分类数据集

数据集:Sentiment140

数据集地址:stanfordnlp/sentiment140|情感分析数据集|文本分类数据集

数据集:SST-2

数据集地址:stanfordnlp/sst2|情感分析数据集|自然语言处理数据集

10个语义匹配数据集

语义匹配数据集

数据集:AFQMC

数据集地址:AFQMC(Ant Financial Question Matching Corpus)|自然语言处理数据集|金融文本分析数据集

数据集:BQ

数据集地址:shibing624/nli_zh|自然语言处理数据集|语义匹配数据集

数据集:BUSTM

数据集地址:BUSTM|智能助手数据集|语音识别数据集

数据集:DuQM

数据集地址:DuQM

数据集:LCQMC

数据集地址:C-MTEB/LCQMC|自然语言处理数据集|句子相似度数据集

数据集:MRPC

数据集地址:MRPC (Microsoft Research Paraphrase Corpus)|自然语言处理数据集|文本分析数据集

数据集:PAWS

数据集地址:google-research-datasets/paws|paraphrase识别数据集|文本分类数据集

数据集:PAWS-X

数据集地址:PAWS-X

数据集:QQP

数据集地址:QQP|自然语言处理数据集|文本匹配数据集

数据集:STSB

数据集地址:PhilipMay/stsb_multi_mt|自然语言处理数据集|机器翻译数据集

4个文本生成数据集

文本生成数据集

数据集:CommonGen

数据集地址:allenai/common_gen|文本生成数据集|常识推理数据集

数据集:DART

数据集地址:Yale-LILY/dart|文本生成数据集|数据转换数据集

数据集:E2E

数据集地址:tuetschek/e2e_nlg|自然语言生成数据集|文本生成数据集

数据集:WebNLG

数据集地址:webnlg-challenge/web_nlg|自然语言生成数据集|数据到文本转换数据集

3个文本翻译数据集

数据集:IWSLT 2017

数据集地址:IWSLT/iwslt2017|机器翻译数据集|多语种数据集

数据集:NLLB

数据集地址:NLLB

数据集:WMT

数据集地址:WMT

14个文本摘要数据集

文本摘要数据集

数据集:AESLC

数据集地址:Yale-LILY/aeslc|邮件主题生成数据集|电子邮件分析数据集

数据集:CNewSum

数据集地址:CNewSum|中文文本摘要数据集|自然语言处理数据集

数据集:CNN-DM

数据集地址:abisee/cnn_dailymail|新闻摘要数据集|文本生成数据集

数据集:Gigaword

数据集地址:GigaWord|自然语言处理数据集|文本摘要数据集

数据集:LCSTS

数据集地址:LCSTS|文本摘要数据集|自然语言处理数据集

数据集:MediaSum

数据集地址:ccdv/mediasum|对话摘要数据集|自然语言处理数据集

数据集:MultiNews

数据集地址:alexfabbri/multi_news|新闻摘要数据集|数据分析数据集

数据集:Newsroom

数据集地址:lil-lab/newsroom|新闻摘要数据集|文本生成数据集

数据集:Opinion Abstracts

数据集地址:Opinion Abstracts

数据集:SAMSum

数据集地址:Samsung/samsum|对话摘要数据集|自然语言处理数据集

数据集:WikiHow

数据集地址:WikiHow|文本挖掘数据集|自然语言处理数据集

数据集:WikiLingua

数据集地址:WikiLingua|跨语言摘要数据集|多语言数据集数据集

数据集:XL-Sum

数据集地址:csebuetnlp/xlsum|文本摘要数据集|多语言处理数据集

数据集:XSum

数据集地址:EdinburghNLP/xsum|自然语言处理数据集|文本摘要数据集

6个文本分类数据集

文本分类数据集

数据集:AGNEWS

数据集地址:fancyzhx/ag_news|文本分类数据集|新闻主题分类数据集

数据集:CSLDCP

数据集地址:FewCLUE|小样本学习数据集|自然语言处理数据集

数据集:IFLYTEK

数据集地址:IFLYTEK

数据集:MARC

数据集地址:defunct-datasets/amazon_reviews_multi|多语言文本处理数据集|情感分析数据集

数据集:THUCNews

数据集地址:THUCNews 新闻数据集|新闻分类数据集|文本分析数据集

数据集:TNEWS

数据集地址:TNews|文本分类数据集|机器学习数据集

4个文本质量评估数据集信息

文本质量评估数据集

数据集:CoLA

数据集地址:CoLA (Corpus of Linguistic Acceptability)|语言学数据集|自然语言处理数据集

数据集:CSCD-IME

数据集地址:CSCD-NS|中文拼写检查数据集|自然语言处理数据集

数据集:SIGHAN

数据集地址:SIGHAN

数据集:YACLC

数据集地址:汉语学习者文本多维标注数据集YACLC V1.0|自然语言处理数据集|汉语学习数据集

4个文本转代码数据集

文本转代码数据集

数据集:CSpider

数据集地址:CSpider

数据集:DuSQL

数据集地址:DuSQL

数据集:MBPP

数据集地址:MBPP

数据集:Spider

数据集地址:Spider|语义解析数据集|文本到SQL数据集

10个命名实体识别数据集

命名实体识别数据集

数据集:CLUENER

数据集地址:CLUENER2020|命名实体识别数据集|信息提取数据集

数据集:CoNLL2003

数据集地址:eriktks/conll2003|命名实体识别数据集|自然语言处理数据集

数据集:Few-NERD

数据集地址:Few-NERD|命名实体识别数据集|自然语言处理数据集

数据集:MSRA

数据集地址:levow/msra_ner|命名实体识别数据集|中文NLP数据集

数据集:OntoNotes 5.0

数据集地址:ontonotes/conll2012_ontonotesv5|自然语言处理数据集|多语言分析数据集

数据集:Resume

数据集地址:Resume

数据集:Taobao NER

数据集地址:E-Commercial NER Dataset / 电商NER数据集|自然语言处理数据集|电子商务数据集

数据集:Weibo NER

数据集地址:Weibo NER

数据集:WUNT2017

数据集地址:leondz/wnut_17|命名实体识别数据集|文本分类数据集

数据集:Youku NER

数据集地址:Youku NER Dataset / 文娱NER数据集|自然语言处理数据集|命名实体识别数据集

4个关系抽取数据集

关系抽取数据集

数据集:Dialogue RE

数据集地址:Dialogue RE

数据集:DocRED

数据集地址:DocRED|文档级关系抽取数据集|自然语言处理数据集

数据集:FewRel

数据集地址:FewRel|少样本学习数据集|关系分类数据集

数据集:TACRED

数据集地址:DFKI-SLT/tacred|关系抽取数据集|知识库构建数据集

3个多任务数据集信息汇总

多任务数据集

数据集:CSL

数据集地址:CSL-500|自然语言处理数据集|文本分析数据集

数据集:METS-CoV

数据集地址:METS-CoV|COVID-19数据集|社交媒体分析数据集

数据集:QED

数据集地址:QED|语言学数据集|问答系统数据集

新的一年,祝大家

眼里有光,兜里有款。

日有熹,月有光,富且昌,寿而康。

好风凭借力,送你上青云。

愿每个人都能在自己的江湖里执梦为剑,潇洒快意!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/968652.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【AI大模型】Ollama部署本地大模型DeepSeek-R1,交互界面Open-WebUI,RagFlow构建私有知识库

文章目录 DeepSeek介绍公司背景核心技术产品与服务应用场景优势与特点访问与体验各个DeepSeek-R系列模型的硬件需求和适用场景 Ollama主要特点优势应用场景安装和使用配置环境变量总结 安装open-webui下载和安装docker desktop配置镜像源安装open-webui运行和使用 RagFlow介绍主…

修改docker内容器中的某配置文件的命令

先找到配置文件config.php find / -name "config.php" 2>/dev/null 然后用vi编辑器修改配置文件 vi /var/www/config.php 最后就是vi的基本操作,根据具体需求使用: vi 有两种主要模式: 命令模式:进入 vi 后的默认…

23.[前端开发]Day23-移动端适配方案-考拉海购移动端项目

01-05 移动端适配rem方案 适配方案 – rem动态html的font-size rem的font-size尺寸 方式一&#xff1a;动态font-size-媒体查询 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Com…

数据中心网络监控

数据中心是全球协作的特定设备网络&#xff0c;用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。 对于任何利用IT基础设施的企业来说&#xff0c;数据中心都是运营的核心&#xff0c;它本质上为整个业务网络托管业务应用程序和存储空间。数据中心可以是任…

网络初识-

网络的相关概念 一、局域网和广域网 将各种计算机、外部设备等相互连接起来&#xff0c;实现在这个范围内数据通信和资源共享的计算机网络。它的覆盖范围通常在几百米到几公里之内。例如&#xff0c;一个小型企业的办公室&#xff0c;通过交换机将多台电脑连接在一起&#xf…

如何使用DHTMLX Scheduler的拖放功能,在 JS 日程安排日历中创建一组相同的事件

DHTMLX Scheduler 是一个全面的调度解决方案&#xff0c;涵盖了与规划事件相关的广泛需求。假设您在我们的 Scheduler 文档中找不到任何功能&#xff0c;并且希望在我们的 Scheduler 文档中看到您的项目。在这种情况下&#xff0c;很可能可以使用自定义解决方案来实现此类功能。…

haproxy+nginx负载均衡实验

准备三台虚拟机&#xff1a; HAProxy 服务器192.168.65.131Web 服务器 1192.168.65.132Web 服务器 2192.168.65.133 在 HAProxy 服务器&#xff08;192.168.65.131&#xff09;上操作&#xff1a; 安装 HAProxy&#xff1a; sudo yum install -y haproxy编辑 HAProxy 配置…

数据结构与算法之排序算法-插入排序

排序算法是数据结构与算法中最基本的算法之一&#xff0c;其作用就是将一些可以比较大小的数据进行有规律的排序&#xff0c;而想要实现这种排序就拥有很多种方法~ 那么我将通过几篇文章&#xff0c;将排序算法中各种算法细化的&#xff0c;详尽的为大家呈现出来&#xff1a; &…

cv2小练习

基础概念 帧率是指在单位时间内&#xff0c;显示的图像帧数的数量。它是衡量视频或动画流畅度的一个重要指标。帧率的单位通常是每秒帧数&#xff08;Frames Per Second&#xff0c;简称FPS&#xff09;。在数字视频和计算机图形领域&#xff0c;帧率是决定视频播放质量和流畅度…

在Mac arm架构终端中运行 corepack enable yarn 命令,安装yarn

文章目录 1. 什么是 Corepack&#xff1f;2. 运行 corepack enable yarn 的作用3. 如何运行 corepack enable yarn4. 可能遇到的问题及解决方法问题 1&#xff1a;corepack 命令未找到问题 2&#xff1a;Yarn 未正确安装问题 3&#xff1a;权限问题 5. 验证 Yarn 是否启用成功6…

Spring基于文心一言API使用的大模型

有时做项目我们可能会遇到要在项目中对接AI大模型 本篇文章是对使用文心一言大模型的使用总结 前置任务 在百度智能云开放平台中注册成为开发者 百度智能云开放平台 进入百度智能云官网进行登录&#xff0c;点击立即体验 点击千帆大模型平台 向下滑动&#xff0c;进入到模型…

【Vue中BUG解决】npm error path git

报错内容如下&#xff1a; 从错误信息可知&#xff0c;这是一个 ENOENT&#xff08;No Entry&#xff0c;即找不到文件或目录&#xff09;错误&#xff0c;并且与 git 相关。具体来说&#xff0c;npm 在尝试调用 git 时&#xff0c;无法找到 git 可执行文件&#xff0c;下面为…

(一)Axure制作移动端登录页面

你知道如何利用Axure制作移动端登录页面吗&#xff1f;Axure除了可以制作Web端页面&#xff0c;移动端也是可以的哦&#xff0c;下面我们就一起来看一下Axure制作移动端登录页面的过程吧。 第一步&#xff1a;从元件中拖入一个矩形框&#xff0c;并设置其尺寸为&#xff1a;37…

自动化遇到的问题记录(遇到问题就更)

总结回归下自己这边遇到的一些问题 “EOF错误”&#xff0c;获取不到csv里面的内容 跑多csv文件里的场景&#xff0c;部分场景的请求值为 1、检查csv文件里不能直接是[]开头的参数&#xff0c;把[]改到ms平台的请求参数里 2、有时可能是某个参数值缺了双引号的其中一边 met…

LabVIEW软件需求开发文档参考

在项目开发的工作历程中&#xff0c;精准把握项目需求无疑是成功打造整个项目的首要关键步骤&#xff0c;同时也是一个至关重要且不可忽视的核心环节。明确且详尽的项目需求就如同建筑的基石&#xff0c;为后续的设计、开发、测试等一系列工作提供了坚实的支撑和清晰的指引。倘…

【JVM详解五】JVM性能调优

示例&#xff1a; 配置JVM参数运行 #前台运行 java -XX:MetaspaceSize-128m -XX:MaxMetaspaceSize-128m -Xms1024m -Xmx1024m -Xmn256m -Xss256k -XX:SurvivorRatio8 - XX:UseConcMarkSweepGC -jar /jar包路径 #后台运行 nohup java -XX:MetaspaceSize-128m -XX:MaxMetaspaceS…

android studio下载安装汉化-Flutter安装

1、下载android studio官方地址&#xff1a;&#xff08;这个网址可能直接打不开&#xff0c;需要VPN&#xff09; https://developer.android.com/studio?hlzh-cn mac版本分为X86和arm版本&#xff0c;电脑显示芯片是Inter的就是x86的&#xff0c;显示m1和m2的就是arm的 …

(2025)深度分析DeepSeek-R1开源的6种蒸馏模型之间的逻辑处理和编写代码能力区别以及配置要求,并与ChatGPT进行对比(附本地部署教程)

(2025)通过Ollama光速部署本地DeepSeek-R1模型(支持Windows10/11)_deepseek猫娘咒语-CSDN博客文章浏览阅读1k次&#xff0c;点赞19次&#xff0c;收藏9次。通过Ollama光速部署本地DeepSeek-R1(支持Windows10/11)_deepseek猫娘咒语https://blog.csdn.net/m0_70478643/article/de…

【深度学习入门实战】基于Keras的手写数字识别实战(附完整可视化分析)

​ 本人主页:机器学习司猫白 ok,话不多说,我们进入正题吧 项目概述 本案例使用经典的MNIST手写数字数据集,通过Keras构建全连接神经网络,实现0-9数字的分类识别。文章将包含: 关键概念图解完整实现代码训练过程可视化模型效果深度分析环境准备 import numpy as np impo…

kafka生产端之架构及工作原理

文章目录 整体架构元数据更新 整体架构 消息在真正发往Kafka之前&#xff0c;有可能需要经历拦截器&#xff08;Interceptor&#xff09;、序列化器&#xff08;Serializer&#xff09;和分区器&#xff08;Partitioner&#xff09;等一系列的作用&#xff0c;那么在此之后又会…