近日,智源研究院与 Hugging Face 开发者社区合作,发布 Open Chinese LLM Leaderboard,旨在跟踪、排名和评估开放式中文大语言模型,通过开源社区共建、用户自主贡献的方式,持续推动和完善中文语言大模型的科学、客观排名榜。该评测从2月24日试上线至今,已经完成了78个模型的评测,当前正在评测的有7个,还有20个在队列中。
了解更多,请访问
https://huggingface.co/spaces/BAAI/open_cn_llm_leaderboard
在以往的Hugging Face社区上,始终缺乏一个开放共建更具客观性质的中文榜单,而Open-Chinese-LLM-leaderboard的建设填补了这一部分的空白。
Hugging Face Spaces页
共建共享,推动技术进步
任何技术的长远发展都离不开社区的广泛参与和贡献。而Open-Chinese-LLM-leaderboard的建设初衷,是期望依托Hugging Face这一开源社区平台,鼓励和吸引更多的中文大语言模型开发者加入,共同推动中文大语言模型的持续进步与完善,为中文大语言模型的发展提供强有力的支撑。
Open-Chinese-LLM-leaderboard主页图
公正、标准化的评估流程
为确保评估的公正性,所有的模型均通过FlagEval平台提供的底层能力进行评估,FlagEval平台为该榜单提供评测服务与社区共建的相关数据集,同时使用平台标准化的GPU和统一的评估环境进行测试,保障评估结果的可比性和可信度。
采用更全面的数据集
Open Chinese LLM Leaderboard基于Eleuther AI Language Model Evaluation Harness评测框架,对模型在七个关键基准上进行评估,所有采用的英文数据集均已完成中文的转换。
在数据集方面,针对中文大语言模型的评估,该Leaderboard 将相关的英文数据集,进行了中文的翻译与校验。为了更好的评估中文大语言模型的能力,该Leaderboard 提供了更加完善的基准数据集,覆盖学科教育、专业知识、推理、幻觉和常识。最终得分为每个评估数据集的平均得分,包含以下数据集:
ARC (25-shot)
包含7,787个科学考试问题,源自不同来源,要求模型在25个示例后进行推理,用于评估模型的多步推理能力,已翻译为中文。
HellaSwag (10-shot)
用于评估常识推理的挑战性数据集,它特别难以应对现有的先进模型,尽管问题对人类来说非常简单(准确率 >95%),已翻译为中文。
TruthfulQA (0-shot)
包含817个问题,覆盖38个类别,旨在衡量语言模型在生成答案时是否真实,以及它们是否倾向于复制人类的虚假信息,已翻译为中文。
Winogrande (5-shot)
是一个大规模对抗性高难度 Winograd 基准,用于常识推理,要求模型在5个示例后进行推理,已翻译为中文。
GSM8k (5-shot)
是一个包含8,000个问题的小学数学数据集,用于衡量模型解决多步骤数学推理问题的能力,它要求模型展示出对数学问题的深入理解,已翻译为中文。
C-SEM_v2 (5-shot)
针对中文模型的综合语义评估基准,侧重于通过多样化和具有挑战性的任务评估词汇和句子层面的语义理解。
CMMLU (5-shot)
专为中文模型设计的基准,用于评估文本模型在 67 个不同任务中的多任务准确性。这些任务涵盖数学、中国文学、计算机科学、法律等学科,突出了该基准对中文文本处理能力的关注。
这些数据集不仅全面,而且深入,能够全方位地评估语言模型的性能。
诚邀开发者与我们共建
我们十分重视不同开发者和用户的反馈与建议,也期望大家能够参与到Open Chinese LLM Leaderboard的建设中来,共同探讨评估体系的演化与提升,感兴趣的用户可以直接在Hugging Face的submit页面添加需要评估的模型,参与评测。我们期待与全球的开发者与研究人员共同推动中文大语言模型的发展。