大模型日报｜今日必读的 4 篇大模型论文

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.清华、智谱AI 团队推出无限超分辨率模型 Inf-DiT

近年来，扩散模型在图像生成方面表现出了卓越的性能。然而，由于在生成超高分辨率图像（如 40964096）的过程中内存会二次增加，生成图像的分辨率往往被限制在 10241024。

在这项工作中，来自清华和智谱AI 的研究团队提出了一种单向块（unidirectional block）注意力机制，其可以在推理过程中自适应地调整内存开销，并处理全局依赖关系。在此模块的基础上，他们采用 DiT 结构进行上采样，并开发了一种无限超分辨率模型，能够对各种形状和分辨率的图像进行上采样。

综合实验表明，这一模型在生成超高分辨率图像方面达到了机器和人工评估的 SOTA 性能。与常用的 UNet 结构相比，这一模型在生成 4096*4096 图像时可以节省 5 倍以上的内存。

论文链接：
https://arxiv.org/abs/2405.04312

2.清华团队推出高性能“文生视频”模型 Vidu

来自清华大学的研究团队推出了一款高性能文本视频生成器 Vidu，其单次生成的 1080p 视频最长可达 16 秒。

据介绍，Vidu 是一种以 U-ViT 为骨干的扩散模型，具有可扩展性和处理长视频的能力。Vidu 不仅具有很强的连贯性和动态性，能够生成逼真和富有想象力的视频，还能理解一些专业摄影技术。

此外，他们也在其他可控视频生成方面进行了初步实验，包括 canny-to-video 生成、视频预测和主题驱动生成，并取得了可喜的成果。

论文链接：
https://arxiv.org/abs/2405.04233

3.IBM 推出开源代码大模型 Granite

经过代码训练的大型语言模型（LLM）正在彻底改变软件开发过程。为了提高人类程序员的工作效率，越来越多的代码 LLM 被集成到软件开发环境中，而基于 LLM 的智能体也开始显示出自主处理复杂任务的前景。要充分发挥代码 LLM 的潜力，需要具备广泛的能力，包括代码生成、修复错误、解释和维护资源库等。

在这项工作中，IBM 团队提出了用于代码生成任务的纯解码器 Granite 系列代码模型，这些模型是用 116 种编程语言编写的代码训练而成的，由大小从 30 亿到 340 亿个参数不等的模型组成，适用于从复杂的应用现代化任务到设备内存受限用例等各种应用。

对一整套任务的评估表明，在现有的开源代码 LLM 中，Granite 代码模型的性能始终处于领先水平。另外，Granite 代码模型系列针对企业软件开发工作流程进行了优化，在一系列编码任务（如代码生成、修正和解释）中表现出色。此外，团队已在 Apache 2.0 许可下发布了所有 Granite 代码模型，供研究和商业使用。

论文链接：
https://arxiv.org/abs/2405.04324

4.DeepSeek-AI 发布第二代 MoE 语言模型

DeepSeek-AI 推出了一个新的专家混合（MoE）语言模型 DeepSeek-V2，其训练经济、推理高效，具有 2360 亿个参数，其中 210 亿个参数用于激活每个 token，并支持 128K token 的上下文长度。

DeepSeek-V2 采用了创新架构，包括多头潜在注意力（MLA）和 DeepSeekMoE。其中，MLA 通过将关键值（KV）缓存大幅压缩为潜在向量来保证高效推理，而 DeepSeekMoE 则通过稀疏计算以经济的成本训练强大的模型。与 DeepSeek 67B 相比，DeepSeek-V2 的性能明显提高，同时节省了 42.5% 的训练成本，减少了 93.3% 的KV缓存，最大生成吞吐量提高到 5.76 倍。

他们在由 8.1T token 组成的高质量多源语料库上对 DeepSeek-V2 进行了预训练，并进一步执行了监督微调（SFT）和强化学习（RL），从而充分释放其潜力。评估结果表明，即使只有 210 亿激活参数，DeepSeek-V2 及其聊天版本仍能在开源模型中取得优秀性能。

论文链接：
https://arxiv.org/abs/2405.04434

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/602633.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！