大家好,今日必读的大模型论文来啦!
1.只需半天,训练一个15亿参数小模型
德州大学奥斯汀分校团队研究了一种基于现有大型基础语言模型开发小型基础语言模型的简单方法的有效性:首先从大型语言模型中继承几个 transformer 块,然后在大型模型的原始预训练数据的极小子集(0.1%)上训练这个较小的模型。
他们将这一简单方法称为 Inheritune,并首次演示了如何使用 1B token(以及具有 3B 参数的大型语言模型的起始几层)构建具有 1.5B 参数的小型基础语言模型;他们使用单张 A6000 GPU 完成了这一工作,耗时不到半天。
在 9 个不同的评估数据集以及 MMLU 基准测试中,所得到的模型与公开的 1B-2B 大小的基础模型相比性能相当,其中一些模型使用了 50-1000 倍的 token 进行训练。
他们在一个略有不同的环境中研究了 Inheritune,即利用较大的语言模型及其完整的预训练数据集来训练较小的语言模型。他们展示了利用 GPT2-medium(3.55 亿)和 GPT2-large(7.7 亿)的部分层训练的较小语言模型,在具有 9B token 的 OpenWebText 数据集上从头开始训练时,在相同的训练步骤数下,可以有效地与较大语言模型的估值损失相媲美。
论文链接:
https://arxiv.org/abs/2404.08634
GitHub 地址:
https://github.com/sanyalsunny111/LLM-Inheritune
2.探究视觉基础模型的 3D 意识
当前的视觉基础模型不仅可以泛化到任意图像从而完成训练任务,而且它们的中间表征对于检测和分割等其他视觉任务也很有用处。既然这些模型可以对物体进行 2D 分类、划分和定位,那么它们是否也能表示物体的 3D 结构?
在这项工作中,来自密歇根大学和 Google Research 的研究团队,分析了视觉基础模型的 3D 意识。他们认为,3D 意识意味着表征(1)编码场景的 3D 结构,(2)在不同视图中对表面进行一致的表示。他们使用特定任务探针和零样本推理程序对冻结特征进行了一系列实验,揭示了当前模型的几个局限性。
论文链接:
https://arxiv.org/abs/2404.08636
GitHub 链接:
https://github.com/Cornell-RL/drpo
3.针对 RLHF 的数据集重置策略优
基于人类反馈的强化学习(RLHF)是微调生成模型的一种流行范式,已经产生了 GPT-4 和 Claude3 Opus 等强大的模型。这种框架通常包括两个步骤:从离线偏好数据集学习奖励模型,然后运行在线 RL 来优化学习到的奖励模型。
在这项工作中,来自康奈尔大学、普林斯顿大学和 Microsoft Research 的研究团队,利用重置思想提出了一种具有可证明保证的新型 RLHF 算法。受离线偏好数据集提供信息性状态(即标注者偏好的数据)这一事实的启发,他们提出的新算法——数据集重置策略优化(DR-PO)——通过数据集重置将现有的离线偏好数据集集成到在线策略训练程序中:它直接将策略优化器重置为离线数据集中的状态,而不总是从初始状态分布开始。
从理论上讲,该研究证明 DR-PO 在有限样本复杂度的一般函数近似条件下,其学习性能至少与离线数据集所涵盖的任何策略一样好。在实验中,他们证明了在 TL;DR 总结和 Anthropic Helpful Harmful 数据集上,在 GPT4 胜率指标下,DR-PO 的生成效果优于近端策略优化(PPO)和方向偏好优化(DPO)。
论文链接:
https://arxiv.org/abs/2404.08495
GitHub 地址:
https://github.com/Cornell-RL/drpo