大家好,今日必读的大模型论文来啦!
1.清华、智谱AI 团队推出无限超分辨率模型 Inf-DiT
近年来,扩散模型在图像生成方面表现出了卓越的性能。然而,由于在生成超高分辨率图像(如 40964096)的过程中内存会二次增加,生成图像的分辨率往往被限制在 10241024。
在这项工作中,来自清华和智谱AI 的研究团队提出了一种单向块(unidirectional block)注意力机制,其可以在推理过程中自适应地调整内存开销,并处理全局依赖关系。在此模块的基础上,他们采用 DiT 结构进行上采样,并开发了一种无限超分辨率模型,能够对各种形状和分辨率的图像进行上采样。
综合实验表明,这一模型在生成超高分辨率图像方面达到了机器和人工评估的 SOTA 性能。与常用的 UNet 结构相比,这一模型在生成 4096*4096 图像时可以节省 5 倍以上的内存。
论文链接:
https://arxiv.org/abs/2405.04312
2.清华团队推出高性能“文生视频”模型 Vidu
来自清华大学的研究团队推出了一款高性能文本视频生成器 Vidu,其单次生成的 1080p 视频最长可达 16 秒。
据介绍,Vidu 是一种以 U-ViT 为骨干的扩散模型,具有可扩展性和处理长视频的能力。Vidu 不仅具有很强的连贯性和动态性,能够生成逼真和富有想象力的视频,还能理解一些专业摄影技术。
此外,他们也在其他可控视频生成方面进行了初步实验,包括 canny-to-video 生成、视频预测和主题驱动生成,并取得了可喜的成果。
论文链接:
https://arxiv.org/abs/2405.04233
3.IBM 推出开源代码大模型 Granite
经过代码训练的大型语言模型(LLM)正在彻底改变软件开发过程。为了提高人类程序员的工作效率,越来越多的代码 LLM 被集成到软件开发环境中,而基于 LLM 的智能体也开始显示出自主处理复杂任务的前景。要充分发挥代码 LLM 的潜力,需要具备广泛的能力,包括代码生成、修复错误、解释和维护资源库等。
在这项工作中,IBM 团队提出了用于代码生成任务的纯解码器 Granite 系列代码模型,这些模型是用 116 种编程语言编写的代码训练而成的,由大小从 30 亿到 340 亿个参数不等的模型组成,适用于从复杂的应用现代化任务到设备内存受限用例等各种应用。
对一整套任务的评估表明,在现有的开源代码 LLM 中,Granite 代码模型的性能始终处于领先水平。另外,Granite 代码模型系列针对企业软件开发工作流程进行了优化,在一系列编码任务(如代码生成、修正和解释)中表现出色。此外,团队已在 Apache 2.0 许可下发布了所有 Granite 代码模型,供研究和商业使用。
论文链接:
https://arxiv.org/abs/2405.04324
4.DeepSeek-AI 发布第二代 MoE 语言模型
DeepSeek-AI 推出了一个新的专家混合(MoE)语言模型 DeepSeek-V2,其训练经济、推理高效,具有 2360 亿个参数,其中 210 亿个参数用于激活每个 token,并支持 128K token 的上下文长度。
DeepSeek-V2 采用了创新架构,包括多头潜在注意力(MLA)和 DeepSeekMoE。其中,MLA 通过将关键值(KV)缓存大幅压缩为潜在向量来保证高效推理,而 DeepSeekMoE 则通过稀疏计算以经济的成本训练强大的模型。与 DeepSeek 67B 相比,DeepSeek-V2 的性能明显提高,同时节省了 42.5% 的训练成本,减少了 93.3% 的KV缓存,最大生成吞吐量提高到 5.76 倍。
他们在由 8.1T token 组成的高质量多源语料库上对 DeepSeek-V2 进行了预训练,并进一步执行了监督微调(SFT)和强化学习(RL),从而充分释放其潜力。评估结果表明,即使只有 210 亿激活参数,DeepSeek-V2 及其聊天版本仍能在开源模型中取得优秀性能。
论文链接:
https://arxiv.org/abs/2405.04434