1. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism 发布时间: 2024 年 1 月 5 日 主要内容: 基于 Transformer 架构,采用分组查询注意力(GQA)优化推理成本。 支持多步学习率调度器,提升训练效率。 在预训练和对齐(监督微调与 DPO)方面进行了创新。 论文地址: 已打包上传,地址见文末 2. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models 发布时间: