Llama中文社区率先完成了国内首个真正意义上的中文版Llama2-13B大模型,从模型底层实现了Llama2中文能力的大幅优化和提升。毋庸置疑,中文版Llama2一经发布将开启国内大模型新时代。
作为AI领域最强大的开源大模型,Llama2基于2万亿token数据预训练,并在100万人类标记数据上微调得到对话模型。在包括推理、编程、对话和知识测试等许多基准测试中效果显著优于MPT、Falcon以及第一代LLaMA等开源大语言模型
Atom-7B是一个基于Llama2架构的预训练语言模型,我们将基于大规模中文语料,从预训练开始对Llama2模型进行中文能力的持续迭代升级。
我们希望能将模型能力进化的过程展示出来,同时欢迎社区提供优质的数据资源加入到预训练中。
社区将持续开放每一阶段训练出的最新模型,供所有社区伙伴免费下载使用
参考:
Llama Family