大模型日报|今日必读的 4 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.清华、智谱AI 团队推出无限超分辨率模型 Inf-DiT

近年来,扩散模型在图像生成方面表现出了卓越的性能。然而,由于在生成超高分辨率图像(如 40964096)的过程中内存会二次增加,生成图像的分辨率往往被限制在 10241024。

在这项工作中,来自清华和智谱AI 的研究团队提出了一种单向块(unidirectional block)注意力机制,其可以在推理过程中自适应地调整内存开销,并处理全局依赖关系。在此模块的基础上,他们采用 DiT 结构进行上采样,并开发了一种无限超分辨率模型,能够对各种形状和分辨率的图像进行上采样。

综合实验表明,这一模型在生成超高分辨率图像方面达到了机器和人工评估的 SOTA 性能。与常用的 UNet 结构相比,这一模型在生成 4096*4096 图像时可以节省 5 倍以上的内存。

论文链接:
https://arxiv.org/abs/2405.04312

2.清华团队推出高性能“文生视频”模型 Vidu

来自清华大学的研究团队推出了一款高性能文本视频生成器 Vidu,其单次生成的 1080p 视频最长可达 16 秒。

据介绍,Vidu 是一种以 U-ViT 为骨干的扩散模型,具有可扩展性和处理长视频的能力。Vidu 不仅具有很强的连贯性和动态性,能够生成逼真和富有想象力的视频,还能理解一些专业摄影技术。

此外,他们也在其他可控视频生成方面进行了初步实验,包括 canny-to-video 生成、视频预测和主题驱动生成,并取得了可喜的成果。

论文链接:
https://arxiv.org/abs/2405.04233

3.IBM 推出开源代码大模型 Granite

经过代码训练的大型语言模型(LLM)正在彻底改变软件开发过程。为了提高人类程序员的工作效率,越来越多的代码 LLM 被集成到软件开发环境中,而基于 LLM 的智能体也开始显示出自主处理复杂任务的前景。要充分发挥代码 LLM 的潜力,需要具备广泛的能力,包括代码生成、修复错误、解释和维护资源库等。

在这项工作中,IBM 团队提出了用于代码生成任务的纯解码器 Granite 系列代码模型,这些模型是用 116 种编程语言编写的代码训练而成的,由大小从 30 亿到 340 亿个参数不等的模型组成,适用于从复杂的应用现代化任务到设备内存受限用例等各种应用。

对一整套任务的评估表明,在现有的开源代码 LLM 中,Granite 代码模型的性能始终处于领先水平。另外,Granite 代码模型系列针对企业软件开发工作流程进行了优化,在一系列编码任务(如代码生成、修正和解释)中表现出色。此外,团队已在 Apache 2.0 许可下发布了所有 Granite 代码模型,供研究和商业使用。

论文链接:
https://arxiv.org/abs/2405.04324

4.DeepSeek-AI 发布第二代 MoE 语言模型

DeepSeek-AI 推出了一个新的专家混合(MoE)语言模型 DeepSeek-V2,其训练经济、推理高效,具有 2360 亿个参数,其中 210 亿个参数用于激活每个 token,并支持 128K token 的上下文长度。

DeepSeek-V2 采用了创新架构,包括多头潜在注意力(MLA)和 DeepSeekMoE。其中,MLA 通过将关键值(KV)缓存大幅压缩为潜在向量来保证高效推理,而 DeepSeekMoE 则通过稀疏计算以经济的成本训练强大的模型。与 DeepSeek 67B 相比,DeepSeek-V2 的性能明显提高,同时节省了 42.5% 的训练成本,减少了 93.3% 的KV缓存,最大生成吞吐量提高到 5.76 倍。

他们在由 8.1T token 组成的高质量多源语料库上对 DeepSeek-V2 进行了预训练,并进一步执行了监督微调(SFT)和强化学习(RL),从而充分释放其潜力。评估结果表明,即使只有 210 亿激活参数,DeepSeek-V2 及其聊天版本仍能在开源模型中取得优秀性能。

论文链接:
https://arxiv.org/abs/2405.04434

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/602633.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

银河麒麟QT项目打包详细教程

银河麒麟QT项目打包详细教程 一、QT项目打包 下载linuxdeployqt,下载地址:https://github.com/probonopd/linuxdeployqt/releases 安装Linuxdeployqt 2.1 为了安装方便,将下载下来的文件名称改短些 mv linuxdeployqt-6-x86_64.AppImage lin…

数据分析从入门到精通 1.numpy剑客修炼

会在某一瞬间突然明白,有些牢笼是自己给自己的 —— 24.5.5 一、数据分析秘笈介绍 1.什么是数据分析 是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律。使得数据的价值最大化 案例: 分析用户的消…

webpack5基础和配置

初步体验webpack打包 webpack是一个静态资源打包工具。 它会以一个或多个文件作为打包的入口,将我们整个项目所有文件编译组合成一个或多个文件输出出去。 输出的文件就是编译好的文件,就可以在浏览器段运行了。 1.初始化最简单的一个目录文件&#xff…

以steamDB的好评排名为引 - 详解wilson评分算法

写在前面 中文互联网上缺少关于二项分布估计的知识,而对二项分布参数如何准确且合理的估计的技巧,实际上在商业数据分析领域用处极多。尤其是在互联网企业,算法排名的依据很大程度要依赖这个统计量。我试图抛砖引玉,以steamDB的评…

语言模型测试系列【7】

语言模型 文心一言星火认知大模型通义千问豆包360智脑百川大模型腾讯混元助手Kimi Chat商量C知道 今天看CSDN文章,看到了斐波那契数列这个有趣的数列计算,然后就在文心一言中对答了一波,给的答案很完整,而且给出来python的实现代…

WDW-10B微机控制电子万能试验机技术方案

一.设备外观照片: 项目简介: 微机控制电子式万能试验机是专门针对高等院校、各种金属、非金属科研厂家及国家级质检单位而设计的高端微机控制电子式万能试验机、计算机系统通过全数字控制器,经调速系统控制伺服电机转动&#xff…

证照之星是什么软件 证照之星哪个版本好用?证照之星支持哪些相机 证照之星XE免费版

许多人都需要使用证件照,为了满足这一需求,人们会使用照相机、手机、电脑等工具进行拍摄。除此之外,市面上还存在专门的证件照拍摄软件,比如证照之星。那么,各位小伙伴是否了解证照之星哪个版本好用,证照之…

嵌入式RTOS面试题目

用过哪些嵌入式操作系统?使⽤RTOS和裸机代码开发有什么区别(优缺点)? 之前的⼀个项⽬是采⽤裸机代码开发的,写起来还⾏,通过状态机来管理业务逻辑和各种外设。 但是随着外设的增加,任务之间的…

【WEB前端2024】简单几步制作web3d《萌宠星球》智体节点模板(2)

【WEB前端2024】简单几步制作web3d《萌宠星球》智体节点模板(2) 使用dtns.network德塔世界(开源的智体世界引擎),策划和设计《乔布斯超大型的开源3D纪念馆》的系列教程。dtns.network是一款主要由JavaScript编写的智体…

【优选算法】——Leetcode——611. 有效三角形的个数

目录 ​编辑 1.题目 2 .补充知识 3.解法⼀(暴⼒求解)(可能会超时): 算法思路: 算法代码: 4.解法⼆(排序双指针): 算法思路: 以输入: nums …

2024年5月12日(星期天)骑行海囗

2024年5月12日 (星期天)骑行海口,早8:30到9:00大观公园门口集合,9:30准时出发【因迟到者,骑行速度快者,可自行追赶偶遇。】 偶遇地点:大观公园门口集合 ,家住东,西,南,北…

wangEditor富文本编辑器与layui图片上传

记录&#xff1a;js 显示默认的wangEditor富文本编辑器内容和图片 <style>body {background-color: #ffffff;}.layui-form-select dl{z-index:100000;} </style> <div class"layui-form layuimini-form"><div class"layui-form-item"…

MT3034 算术招亲

跟MT3033新的表达式类似&#xff0c;只多了一个括号合法性的判断 #include <bits/stdc.h> using namespace std; const int N 40; bool tag[N]; bool is_op(char c) {return c || c - || c * || c / || c ^; } int priority(char op) { // 优先级排序if (op ||…

数据结构-线性表-应用题-2.2-9

线性表&#xff08;a1,a2,a3,...,an&#xff09;中的元素递增有序且按顺序存储于计算机内。要求设计一个算法&#xff0c;用最少的时间在表中查找数值为x的元素&#xff0c;若找到&#xff0c;则将其与后继元素位置相交换&#xff0c;若找不到&#xff0c;则将其插入表中并使表…

钉钉开放平台创建企业内部H5微应用或者小程序

前言&#xff1a; 在当今企业数字化转型的浪潮中&#xff0c;创建企业内部H5微应用或小程序已成为提升工作效率和促进内部沟通的重要举措。发话不多说本文将介绍如何利用钉钉平台快速创建这些应用&#xff0c;让企业内部的工作更加便捷高效。 步骤 1.在浏览器打开链接…

618好物大放送:5大必买好物,抢购倒计时开始!

嘿&#xff0c;各位购物达人们&#xff0c;年度最燃购物盛宴618已经进入准备阶段&#xff0c;是不是已经开始摩拳擦掌&#xff0c;准备迎接这场消费的狂欢了呢&#xff1f;每年的这个时候&#xff0c;各大电商平台都会推出力度空前的优惠活动&#xff0c;从数码尖货到生活日用品…

Python运维-文本处理、系统和文件信息监控、外部命令

本节主要目录如下&#xff1a; 一、文本处理 1.1、Python编码解码 1.2、文件操作 1.3、读写配置文件 1.4、解析XML文件 二、系统信息监控 2.1、监控CPU信息 2.2、监控内存信息 2.3、监控磁盘信息 2.4、监控网络信息 2.5、获取进程信息 2.6、实例&#xff1a;常见的…

CentOS操作

1.如何修改主机名 方法一&#xff1a; 修改命令&#xff1a;hostnamectl set-hostname 主机名 查看命令&#xff1a;hostname 方法二和方法三都是永久改变主机名&#xff0c;需要密码验证 方法二 修改命令&#xff1a;nmcli general hostname 主机名 查看命令&#xff…

[图解]SysML和EA建模住宅安全系统-02

1 00:00:00,900 --> 00:00:02,690 这个就是一个块定义图了 2 00:00:03,790 --> 00:00:04,780 简称BDD 3 00:00:05,610 --> 00:00:08,070 实际上就是UML里面的类图 4 00:00:08,080 --> 00:00:09,950 和组件图的一个结合体 5 00:00:13,150 --> 00:00:14,690 我…

正点原子i.MX 93开发板,双核A55+M33+NPU,双路RS485FDCAN千兆网,异核/AI/工业开发!

正点原子i.MX 93开发板新品上市&#xff01;双核A55M33NPU&#xff0c;双路RS485&FDCAN&千兆网&#xff0c;异核/AI/工业开发&#xff01; NXP的i.MX系列是一系列面向多媒体和工业应用的ARM架构微处理器。从i.MX6U到i.MX93&#xff0c;这一系列经历了显著的发展&#x…