即插即用Transformer、扩散模型、机器人规划、长文本检索增强生成 | Big Model Weekly 第57期...

点击蓝字

e6262a40b53f071f3479fe279260e699.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

ProTransformer: Robustify Transformers via Plug-and-Play Paradigm

近年来,基于Transformer的架构在机器学习的各个领域占据了主导地位。本文介绍了一种新颖的鲁棒性注意力机制,旨在增强基于Transformer架构的韧性。关键在于,这种技术可以作为即插即用的层集成到现有的Transformer中,无需额外的训练或微调即可提升其鲁棒性。通过全面的实验和消融研究,本研究证明了ProTransformer在多种预测任务、攻击机制、骨干架构和数据领域中显著增强了Transformer模型的鲁棒性。值得注意的是,在经典TextFooler攻击下,ProTransformer无需进一步微调,分别将BERT、ALBERT、DistilBERT和RoBERTa的性能提升了19.5%、28.3%、16.1%和11.4%。此外,ProTransformer在面对基于提示的攻击时,在大型语言模型(LLMs)中展现出良好的韧性,分别将T5和LLaMA的性能提升了24.8%和17.8%,并将Vicuna在Jailbreaking攻击下的性能平均提升了10.4%。除了语言领域,ProTransformer在视觉和图领域也展现出卓越的鲁棒性。

6eb58e5bcdae7582ed98a2815acb2dce.png

ca0452b11bbdebccc70c014647b2f498.png

8460208635d8d1835756c6c351757007.png

1d1e3f85846adb20f81dc122ad94715a.png

文章链接:

https://arxiv.org/pdf/2410.23182

02

Prune and Repaint: Content-Aware Image Retargeting for any Ratio

图像重定向是调整图像宽高比以适应不同显示设备或展示环境的任务。然而,现有的重定向方法常常难以平衡关键语义的保留和图像质量,导致图像出现变形、重要对象丢失,或引入局部伪影,例如不连续的像素和不一致的再生内容。为了解决这些问题,本文提出了一种名为PruneRepaint的内容感知重定向方法。该方法引入了每个像素的语义重要性,以指导识别需要剪枝或保留的区域,从而维持关键语义。此外,本文还引入了一个自适应重绘模块,该模块根据剪枝像素的分布以及前景尺寸与目标宽高比之间的比例,选择图像区域进行重绘,从而在剪枝后实现局部平滑。通过专注于前景的内容和结构,PruneRepaint方法能够自适应地避免关键内容的丢失和变形,同时通过局部重绘有效减少伪影。作者在公共的RetargetMe基准测试集上进行了实验,并通过客观的实验结果和主观的用户研究证明,该方法在保留语义和美学方面优于以往的方法,并且在不同宽高比下的泛化能力更强。

c8269f3aa143186920eb50f22aed538d.png

e5efa2fe2017a4845cd27065eeba86b5.png

061def8f7b819caa21b53d7d8490a75d.png

文章链接:

https://arxiv.org/pdf/2410.22865

03

VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning

广泛智能的智能体应当形成特定任务的抽象表示,有选择性地暴露任务的关键要素,同时隐藏原始感知运动空间的复杂性。本文提出了一种名为“神经符号谓词(Neuro-Symbolic Predicates)”的一阶抽象语言,它结合了符号和神经知识表示的优势。作者详细描述了一种在线算法,用于发明此类谓词并学习抽象的世界模型。在五个模拟机器人领域的分布内和分布外任务中,本文的方法与层次强化学习、视觉语言模型规划以及符号谓词发明方法进行了比较。结果表明,本文的方法在样本复杂度、分布外泛化能力和可解释性方面均表现更优。

69be9cb19cc1239fe398271d5d2f54d4.png

d6e47338c8273ed9c6283098fbb627c6.png

6b90bad694172839773fdbda82b7146c.png

文章链接:

https://arxiv.org/pdf/2410.23156

04

FuseAnyPart: Diffusion-Driven Facial Parts Swapping via Multiple Reference Images

面部局部替换的目标是从源图像中选择性地将感兴趣的区域转移到目标图像上,同时保持目标图像的其余部分不变。大多数专门针对全脸替换的面部替换研究在进行单独面部局部替换时要么无法实现,要么受到显著限制,这阻碍了精细和定制化的角色设计。然而,专门针对面部局部替换设计这种方法面临着合理的多参考特征融合的挑战,这种融合需要既高效又有效。为克服这一挑战,提出了FuseAnyPart方法,以促进面部的无缝“任意局部融合”定制化。在FuseAnyPart中,不同人的面部局部在基于掩码的融合模块的潜在空间中被组装成一张完整的脸。随后,整合后的特征被发送到基于加法的注入模块,在扩散模型的UNet中进行融合,以创造新的角色。广泛的实验从定性和定量两个方面验证了FuseAnyPart的优越性和鲁棒性。

a2e43735f0d246bc5146d872f01cf3c0.png

170f0614cdec39c63716be3db81a4fc1.png

69db45731ba2878bfb9ddbcd65fde882.png

fde2e300997d71c5d1bddecf238e1eed.png

文章链接:

https://arxiv.org/pdf/2410.22771

05

A Monte Carlo Framework for Calibrated Uncertainty Estimation in Sequence Prediction

从图像和其他高维数据中对序列进行概率预测仍然是一个关键挑战,尤其是在安全关键领域。在这些场景中,通常需要量化与预测相关的不确定性(而不是像在语言建模中那样仅仅确定最可能的序列)。本文提出了一种蒙特卡洛框架,用于估计与序列相关的概率和置信区间。该框架使用蒙特卡洛模拟器(以自回归方式训练的神经网络)根据图像输入对序列进行采样,然后利用这些样本来估计概率和置信区间。在合成数据和真实数据上的实验表明,该框架能够产生准确的判别性预测,但可能会出现校准不足的问题。为解决这一不足,本文提出了一种时间依赖的正则化方法,能够生成校准良好的预测。

1555033af11371782ea3c3abfbac35bd.png

9d2fab9eb3b72172fd0ee70625a50515.png

113293cb863e04b5339403d8a5d6ca7f.png

7202f6a71079ab0fb4b6959761b4eb23.png

8c1b5388932c01bf5069fe43707aa55b.png

文章链接:

https://arxiv.org/pdf/2410.23272

06

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

现有的构建图形用户界面(GUI)智能体的研究工作高度依赖于强大的商业视觉-语言模型(VLMs),例如GPT-4o和GeminiPro Vision。由于开源VLMs在性能上与闭源模型存在显著差距,尤其是在GUI定位和分布外(Out-Of-Distribution, OOD)场景中,实践者往往不愿意使用开源VLMs。为了推动该领域的未来研究,作者开发了OS-Atlas——一个基础的GUI行为模型,通过在数据和建模方面的创新,在GUI定位和OOD任务中表现出色。作者投入了大量的工程努力,开发了一个开源工具包,用于在多个平台(包括Windows、Linux、MacOS、Android和Web)上合成GUI定位数据。利用该工具包,作者发布了迄今为止最大的开源跨平台GUI定位语料库,其中包含超过1300万个GUI元素。结合模型训练方面的创新,这一数据集为OS-Atlas理解GUI截图并泛化到未见界面提供了坚实基础。通过在六个跨越三种不同平台(移动、桌面和Web)的基准测试中的广泛评估,OS-Atlas相较于以往的最先进模型展现出显著的性能提升。此外,评估还揭示了关于持续改进和扩展开源VLMs代理能力的宝贵见解。

1e95f8eae2cdcb8a069dec84a911702d.png

34129ffd06aff49bc67f8b3f22025701.png

23b9840d0e83f491d78e96705acd61e2.png

902b12130edd92d995477d6e9a3d9ece.png

48e9ac47a37c6e1e66b92437001cbf17.png

文章链接:

https://arxiv.org/pdf/2410.23218

07

LONG^2RAG:Evaluating Long-Context & Long-Form Retrieval-Augmented Generation with Key Point Recall

检索增强生成(Retrieval-Augmented Generation, RAG)是一种有希望解决大型语言模型(LLMs)中固定知识局限性的方法。然而,当前用于评估RAG系统的基准测试存在两个关键缺陷:(1)由于缺乏能够反映检索文档特征的数据集,它们无法充分衡量LLMs处理长文本检索的能力;(2)它们缺乏一种全面的评估方法来衡量LLMs生成有效利用检索信息的长篇回答的能力。为解决这些不足,本文引入了LONG?RAG基准测试和关键点回忆(Key Point Recall, KPR)指标。LONG?RAG包含280个问题,涵盖10个领域和8个问题类别,每个问题都关联有5篇检索到的文档,平均长度为2444个单词。KPR指标评估LLMs在生成回答时将检索文档中提取的关键点纳入其中的程度,从而更细致地评估它们利用检索信息的能力。

55fc3c88e03c05308f8f1c4b9a1e2233.png

7c1bb69a7f615980b874cd1b0ec6a2d9.png

6e1bbc2724f8dedbde652a3ab6280e4b.png

55103e488e8747be0aaf0e1a3c689f83.png

117d56f1dbaf64710d3ecbf19846575e.png

文章链接:

https://arxiv.org/pdf/2410.23000

本期文章由陈研整理

往期精彩文章推荐

be7dc409cd4175918c1f67a787dea0df.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

2f27814b782cc95a312724e60fbb74ae.png

我知道你 

在看

提出观点,表达想法,欢迎 

留言

39f1763de8fd0d43449ac79dabb70ca6.gif

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/976105.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[ComfyUI] 【AI】如何获得一张人物图片的优质描述

在使用ComfyUI时,获取一张人物图片的优质英文描述非常重要,尤其是在涉及图像生成、自动化标签和多模态AI任务时。以下是一个简单的流程,可以帮助你快速从一张人物图片中提取出精确且高质量的英文描述。 1. 打开 Hugging Face 网站 首先,您需要访问 Hugging Face 提供的 J…

DeepSeek-R1:通过强化学习激励大语言模型的推理能力

摘要 本文介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是通过大规 模强化学习(RL)训练的模型,在没有使用监督微调(SFT)这个前置步骤的情况下,展示了卓越的推…

springboot004网页时装购物系统(源码+数据库+文档)

源码地址:网页时装购物系统 文章目录 1.项目简介2.部分数据库结构与测试用例3.系统功能结构4.包含的文件列表(含论文)前台运行截图后台运行截图 1.项目简介 ​ 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的…

C++ Primer 容器适配器

欢迎阅读我的 【CPrimer】专栏 专栏简介:本专栏主要面向C初学者,解释C的一些基本概念和基础语言特性,涉及C标准库的用法,面向对象特性,泛型特性高级用法。通过使用标准库中定义的抽象设施,使你更加适应高级…

git上传gitee仓库---简单方便

安装完git以后 在资源管理器中右键: 选择Open Git Bash here 接着gitclone,从gitee上面复制链接: https://gitee.com/hekai666/python-deeplearning.git 粘贴过来: 回车: 然后在本地就会多出来一个文件: 打开文件夹以…

C语言(13)------------>do-while循环

1.do-while循环的语法 我们知道C语言有三大结构,顺序、选择、循环。我们可以使用while循环、for循环、do-while循环实现循环结构。之前的博客中提及到了前两者的技术实现。可以参考: C语言(11)------------->while循…

浏览器JS打不上断点,一点就跳到其他文件里。浏览器控制台 js打断点,指定的位置打不上断点,一打就跳到其他地方了。

关闭JavaScript 源代码映射,F12开发者模式 设置->偏好设置->源代码/来源->JavaScript 源代码映射。 肯定不是这个原因导致的,但这个办法可以暂时解决问题,点完这个东西就隐藏了webpack,有懂的来讲讲。 又浪费一个小时…

C++ 编程语言简介

C 是一种通用编程语言,它是作为 C 语言的增强而开发的,以包含面向对象的范例。它是一种命令式和编译语言。 C 是一种高级的通用编程语言,专为系统和应用程序编程而设计。它由贝尔实验室的 Bjarne Stroustrup 于 1983 年开发,作为…

山东大学软件学院nosql实验三

实验题目: 用Java做简单查询(2学时) 实验内容 用API方式,做简单查询。 实验要求 在以下要求中选择至少2个,使用Java语言实现数据查询,最终把数据输出到前端界面。 (1)找出年龄小于20岁的所有学生 &…

【NLP 38、激活函数 ④ GELU激活函数】

别盲目,别着急,慢慢走,没事的 —— 25.2.24 一、定义与数学表达式 GELU(Gaussian Error Linear Unit,高斯误差线性单元)是一种结合概率分布的非线性激活函数,其核心思想是通过输入值服从标准正…

突破性能极限:DeepSeek开源FlashMLA解码内核技术解析

引言:大模型时代的推理加速革命 在生成式AI大行其道的今天,如何提升大语言模型的推理效率已成为行业焦点。DeepSeek团队最新开源的FlashMLA项目凭借其惊人的性能表现引发关注——在H800 GPU上实现580 TFLOPS计算性能,这正是大模型推理优化的…

touchgfx的工作机制

touchgfx的工作机制 一.MVP软件架构 MVP的全称为Model-View-Presenter Model: 就是数据部分,在整个touchgfx应用中,只有一个Model类实例对象,它为所有的Screen屏幕界面服务,可以理解成是一个全局变量区,同时它还负责和后端系统通信 View: 就是UI界面部分,对应于View类,在整…

网站搭建wp

前置准备工作 需要下载Git,note.js,在官网上可以搜索并安装 搭建过程 这里借助hexo工具 1. 本地博客搭建 首先创建本地文件夹,并在该文件夹里面创建一个叫做hexo的文件夹在该文件夹中选择Git Bash 进入hexo官网将五条指令用bash运行运行…

现场可以通过手机或者pad实时拍照上传到大屏幕的照片墙现场大屏电子照片墙功能

现场可以通过手机或者pad实时拍照上传到大屏幕的照片墙现场大屏电子照片墙功能,每个人都可以通过手机实时拍照上传到大屏幕上,同时还可以发布留言内容,屏幕上会同步滚动播放展示所有人的照片和留言。相比校传统的照片直播功能更加灵活方便,而…

MySQL 主从复制原理及其工作过程

一、MySQL主从复制原理 MySQL 主从复制是一种将数据从一个 MySQL 数据库服务器(主服务器,Master)复制到一个或多个 MySQL 数据库服务器(从服务器,Slave)的技术。以下简述其原理,主要包含三个核…

【蓝桥杯单片机】第十三届省赛第二场

一、真题 二、模块构建 1.编写初始化函数(init.c) void Cls_Peripheral(void); 关闭led led对应的锁存器由Y4C控制关闭蜂鸣器和继电器 2.编写LED函数(led.c) void Led_Disp(unsigned char ucLed); 将ucLed取反的值赋给P0 开启锁存器 关闭锁存…

Android Coil3缩略图、默认占位图placeholder、error加载错误显示,Kotlin(3)

Android Coil3缩略图、默认占位图placeholder、error加载错误显示,Kotlin(3) Android Coil3缩略图、默认占位图placeholder、error加载错误显示,Kotlin(1)-CSDN博客文章浏览阅读667次,点赞18次&…

MariaDB 历史版本下载地址 —— 筑梦之路

MariaDB 官方yum源里面只有目前在维护的版本,而有时候对于老项目来说还是需要老版本的rpm包,国内很多镜像站都是同步的官方仓库,因此下载老版本也不好找,这里主要记录下从哪里可以下载到历史版本的MariaDB rpm包。 1. 官方归档网…

RoCBert:具有多模态对比预训练的健壮中文BERT

摘要 大规模预训练语言模型在自然语言处理(NLP)任务上取得了最新的最优结果(SOTA)。然而,这些模型容易受到对抗攻击的影响,尤其是对于表意文字语言(如中文)。 在本研究中&#xff0…

20250212:https通信

1:防止DNS劫持:使用 https 进行通信。 因为是SDK授权开发,需要尽量压缩so库文件和三方依赖。所以第一想法是使用 head only 的 cpp-httplib 进行开发。 cpp-httplib 需要 SSL 版本是 3.0及以上。但本地已经在开发使用的是1.0.2a版本,不满足需求。 方案1:升级OpenSSL 将Op…