今日必读的9篇大模型论文

在这里插入图片描述

1.Customize-A-Video:文生视频,可以自由定制了

图像定制在文本到图像(T2I)扩散模型中已经得到了广泛的研究,并取得了令人印象深刻的成果和应用。随着文本到视频(T2V)扩散模型的兴起,其对应的时间模型、运动定制模型还没有得到很好地研究。

为了应对单次运动定制的挑战,来自马里兰大学、Adobe Research 和延世大学的研究团队提出了 Customize-A-Video 方法,从单个参考视频中建立运动模型,并将其适配到具有空间和时间变化的新主题和场景中。它利用时间注意层上的低秩适应(LoRA)来定制预训练 T2V 扩散模型,以便根据参考视频进行特定的运动建模。

为了在训练过程中分离空间和时间信息,研究团队提出了 appearance absorbers 的概念,在运动学习之前将原始外观从单个参考视频中分离出来。Customize-A-Video 可以以即插即用的方式轻松扩展到各种下游任务,包括定制视频生成和编辑、视频外观定制和多重运动组合。

论文链接:
https://arxiv.org/abs/2402.14780
项目地址:
https://anonymous-314.github.io/

2.微软提出Copilot评估工具包,涵盖各种编程场景和语言

将大型语言模型(LLMs)集成到开发环境(IDEs)中已成为现代软件开发的一个焦点。OpenAI GPT-3.5/4 和 Code Llama 等 LLMs 可作为智能的、聊天驱动的编程助手,大大提高开发人员的工作效率。不过,在任何特定场景下,开箱即用的 LLMs 都不可能达到最佳效果。相反,每个系统都需要根据自己的启发式方法对 LLM 进行磨合,以确保最佳性能。

来自微软公司的研究团队提出了 Copilot 评估工具包,用于评估 LLM 引导的 IDE交互的数据和工具,涵盖各种编程场景和语言。它与以前的评估系统相比更鲁棒、信息更密集。

研究团队设计并计算了涵盖广泛开发者任务场景的静态和基于执行的成功指标,包括从自然语言生成代码(generate)、从代码生成文档(doc)、测试用例生成(test)、错误修复(fix)以及工作区理解和查询解析(workspace)。这些成功指标旨在评估给定 IDE 及其相应参数空间内 LLMs 的性能。我们使用这些指标对三种常见的 LLMs 进行了评估,从中获得的经验可以为 LLM 引导 IDEs 未来应用场景的开发和验证提供参考。

论文链接:
https://arxiv.org/abs/2402.14261

3.Snap Video:基于Transformer的文生视频新模型

当前图像生成模型显示出极高的质量和多功能性,因此,研究界重新调整它们用于生成视频。由于视频内容冗余度很高,将图像模型的先进技术简单地引入视频生成领域会降低运动保真度、视觉质量和可扩展性。

为此,来自 Snap 的研究团队及其合作者建立了一个视频优先模型——Snap Video,来系统地应对这些挑战。研究团队首先扩展了 EDM 框架,用于考虑空间和时间上的冗余像素并自然地支持视频生成。其次,因为 U-Net(图像生成的主要工具)在生成视频时扩展性很差并且需要大量的计算开销,研究团队提出了一种基于 Transformer 的新架构,其训练速度是 U-Net 的 3.31 倍(推理速度约为 4.5 倍)。这使我们能够首次高效地训练具有数十亿个参数的文生视频模型,在许多基准测试中达到最先进的结果,并生成具有更高质量、时间一致性和运动复杂性的视频。

用户研究表明,与最近的方法相比,Snap Video 模型更受青睐。

论文链接:
https://arxiv.org/abs/2402.14797

4.MuLan:像画家一样逐步生成多对象图像

现有的文生图模型在生成多个对象的图像时仍然存在困难,尤其是在处理它们的空间位置、相对大小、重叠和属性绑定方面时。来自香港科技大学、加州大学洛杉矶分校、宾夕法尼亚州立大学和马里兰大学的研究团队,开发了一个无需训练的多模态大型语言模型(LLMs)智能体——MuLan,它能够像人类画家一样进行规划和反馈控制来逐步生成多个对象。

MuLan 利用 LLM 将提示分解为一系列子任务,每个子任务只生成一个对象,并以之前通过 Stable Diffusion 生成的对象为条件。与现有的基于 LLM 的方法不同,MuLan 只在开始时生成一个高级计划,而每个对象的确切大小和位置则由 LLM 和每个子任务的注意力引导决定。

此外,MuLan 还采用视觉语言模型(VLM)为每个子任务中生成的图像提供反馈,并在图像违反原始提示时控制扩散模型重新生成图像。因此,MuLan 每个步骤中的每个模型只需处理其擅长的简单子任务即可。

研究团队在不同的基准中收集了 200 个包含具有空间关系和属性绑定的多对象提示来评估 MuLan,结果表明 MuLan 在生成多对象方面优于基准。

论文链接:
https://arxiv.org/abs/2402.12741
项目地址:
https://github.com/measure-infinity/mulan-code

5.生成式人工智能安全:挑战与对策

生成式人工智能(Generative AI)在各行各业的应用范围不断扩大,这既让人兴奋,也增加了审查的难度。来自加州大学伯克利分校的研究团队深入探讨了生成式人工智能带来的独特安全挑战,并概述了管理这些风险的潜在研究方向。

论文链接:
https://arxiv.org/abs/2402.12617

6.玩转文生图,帮你自动优化 prompt

精心设计的 prompt 已经显示出具有引导文生图模型生成令人惊叹的图像的潜力,尽管现有的 prompt 工程方法可以提供高层次的指导,但由于新手用户输入的提示与模型偏好的 prompt 之间存在差异,新手用户通过手动输入 prompt 来达到预期效果仍然具有挑战性。

为了缩小用户输入行为与模型训练数据集之间的分布差距,来自复旦大学和同济大学的研究团队构建了一个 Coarse-Fine Granularity Prompts 数据集(CFP),并提出了一个 User-Friendly Fine-Grained Text Generation 框架(UF-FGTG),用于自动优化 prompt。对于 CFP,研究团队构建了一个结合了粗粒度和细粒度 prompt 的文本到图像任务的新数据集,从而促进自动提示生成方法的开发。对于 UF-FGTG,研究团队提出了一种可将用户输入的 prompt 自动转换为模型偏好 prompt 的框架。

具体来说,研究团队提出了一个 prompt 优化器,它可以不断改写 prompt 使用户能够选择符合其独特需求的结果。通过将文生图模型中与图像相关的损失函数整合到文本生成的训练过程中,使其生成模型首选 prompt。此外,研究团队还提出了一个自适应特征提取模块,以确保生成结果的多样性。实验证明,这一方法能够生成比以前最先进方法更具视觉吸引力和多样性的图像,在六个质量和美学指标上平均提高了 5%。

论文链接:
https://arxiv.org/abs/2402.12760
项目地址:
https://github.com/Naylenv/UF-FGTG

7.PANDA:无需微调即可增强大模型特定能力

虽然大型语言模型(LLMs)在各种自然语言任务中表现出了相当强的能力,但它们通常无法达到特定领域最先进模型的性能。通过使用相应的数据集对 LLMs 进行微调,可以增强其特定领域的能力。但这种方法既耗费资源又耗费时间,而且不适用于闭源商业 LLMs。

来自清华大学和阿里巴巴集团的研究团队提出了一种无需进行微调的方法—— Preference Adaptation for Enhancing Domain-specific Abilities of LLMs(PANDA),它利用专家模型响应偏好洞察来增强 LLMs 的特定领域能力。

实验结果表明,PANDA 显著增强了 LLMs 在文本分类和交互决策任务中的特定能力。此外,使用 PANDA 的 LLM 甚至在 ScienceWorld 的 4 项任务上优于专家模型。这一发现凸显了探索无需微调方法、实现从弱到强泛化的潜力。

论文链接:
https://arxiv.org/abs/2402.12835

8.VideoPrism:用于理解视频的基础视觉编码器

来自 Google Research 的研究团队提出了一个通用视频编码器——VideoPrism,它可以通过单个冻结模型处理各种视频理解任务。VideoPrism 在一个异构语料库上进行了预训练,该语料库包含 36M 高质量视频字幕对和 584M 个视频剪辑以及带有噪声的平行文本视频片段(如 ASR 转录文本)。

预训练方法在语义视频嵌入的全局-局部蒸馏和 token 洗牌方案上改进了掩蔽自动编码,使 VideoPrism 能够在主要关注视频模态的同时利用与视频相关的文本。研究团队在四大类视频理解任务中进行了广泛测试,VideoPrism 在 33 个视频理解基准中的 30 个基准上实现了最先进的性能。

论文链接:
https://arxiv.org/abs/2402.13217

9.AgentMD:利用“临床计算器”增强智能体的风险预测能力

临床计算器在医疗保健领域发挥着重要作用,可为预后等各种目的提供准确的循证预测。然而,可用性挑战、传播不畅和功能受限等问题限制了这些计算器的广泛使用。利用大量临床计算器集合来增强大型语言模型,为克服这些障碍和提高工作流程效率提供了机会,但手工整理过程的可扩展性是一个重大挑战。

为此,来自美国国立卫生研究院(NIH)、马里兰大学、耶鲁大学和佛罗里达州立大学的研究团队提出了一个新型语言智能体——AgentMD,它能够在各种临床环境中整理和应用临床计算器。利用已发表的文献,AgentMD 自动收集了 2164 种具有可执行功能和结构化文档的临床计算器,统称为 RiskCalcs。人工评估显示,RiskCalcs 工具在三项质量指标上的准确率超过了 80%。

在推理时,AgentMD 可以根据患者描述自动选择和应用相关的 RiskCalcs 工具。在新设立的 RiskQA 基准上,AgentMD 明显优于使用 GPT-4 的思维链提示(准确率分别为 87.7%、40.9%)。此外,研究团队还将 AgentMD 应用于真实世界的临床笔记来分析人群和风险级别的患者特征。研究表明,语言智能体与临床计算器在医疗分析和患者护理方面具有实用性。

论文链接:
https://arxiv.org/abs/2402.13225

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/404852.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

从零开始手写mmo游戏从框架到爆炸(二十一)— 战斗系统二

导航:从零开始手写mmo游戏从框架到爆炸(零)—— 导航-CSDN博客 上一章(从零开始手写mmo游戏从框架到爆炸(二十)— 战斗系统一-CSDN博客)我们只是完成了基本的战斗,速度属性并没有…

前端数据可视化:ECharts使用

可视化介绍 ​  ​  应对现在数据可视化的趋势,越来越多企业需要在很多场景(营销数据,生产数据,用户数据)下使用,可视化图表来展示体现数据,让数据更加直观,数据特点更加突出。   ​  数据可视化主要目…

读取7400MB/s!华为发布eKitStor Xtreme M.2闪存条

今日,华为举行数据存储新春新品发布会,不仅发布全新数据湖解决方案,华为还针对商业市场与分销市场发布了全闪存存储新品。 据介绍,面向游戏加速、影视编辑、户外作业等场景,华为发布eKitStor Xtreme系列高性能M.2闪存条…

Leetcode3035. 回文字符串的最大数量

Every day a Leetcode 题目来源:3035. 回文字符串的最大数量 解法1:哈希 排序 由于可以随意交换字母,先把所有字母都取出来,然后考虑如何填入各个字符串。 如果一个奇数长度字符串最终是回文串,那么它正中间的那…

一文读懂Linux内核中的Device mapper映射机制

一、 简介 本文总结Device mapper的映射机制。Device mapper是Linux2.6内核中提供的一种逻辑设备到物理设备的映射框架机制,在该机制下,用户可以很方便的根据自己的需要指定实现存储资源的管理策略,当前比较流行的Linux的逻辑卷管理器比如&a…

轻松打造智能化性能测试监控平台:【JMeter+Grafana+Influxdb】的优化整合方案

在当前激烈的市场竞争中,创新和效率成为企业发展的核心要素之一。在这种背景下,如何保证产品和服务的稳定性、可靠性以及高效性就显得尤为重要。 而在软件开发过程中,性能测试是一项不可或缺的环节,它可以有效的评估一个系统、应…

igolang学习3,golang 项目中配置gin的web框架

1.go 初始化 mod文件 go mod init gin-ranking 2.gin的crm框架 go get -u github.com/gin-gonic/gin 3.go.mod爆红解决

渗透测试之RCE漏洞

RCE(remote command execute)远程命令执行。应用程序的某些功能需要调用可以执行的系统命令的函数,如果这些函数或者函数的参数被用户控制,就可能通过命令连接符将恶意的命令拼接到函数中,从而执行系统命令。 常见的命…

WordPress使用

WordPress功能菜单 仪表盘 可以查看网站基本信息和内容。 文章 用来管理文章内容,分类以及标签。编辑文章以及设置分类标签,分类和标签可以被添加到 外观-菜单 中。 分类名称自定义;别名为网页url链接中的一部分,最好别设置为中文…

mybatis 集成neo4j实现

文章目录 前言一、引入jar包依赖二、配置 application.properties三、Mybatis Neo4j分页插件四、Mybatis Neo4j自定义转换器handler五、MybatisNeo4j代码示例总结 前言 MyBatis是一个基于Java语言的持久层框架,它通过XML描述符或注解将对象与存储过程或SQL语句进行…

【C++私房菜】面向对象中的多重继承以及菱形继承

文章目录 一、多重继承1、多重继承概念2、派生类构造函数和析构函数 二、菱形继承和虚继承2、虚继承后的构造函数和析构函数 三、has-a 与 is-a 一、多重继承 1、多重继承概念 **多重继承(multiple inheritance)**是指从多个直接基类中产生派生类的能力…

Open CASCADE学习|绘制砂轮

今天绘制一个砂轮,其轮廓由两条直线段和两段圆弧构成,圆弧分别与直线相切,两条圆弧之间相交而非相切。建模思路是:先给定两条直线段的起始点及长度,画出直线段,然后给定其中一圆弧的半径及圆心角&#xff0…

Elastic Stack--02--核心概念、倒排索引

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 1.核心概念1.1 索引1.2 类型1.3 文档1.4 字段 2.倒排索引此处ID是唯一标识 具体拆解的案例 1.核心概念 mysqlESDatabases 数据库索引 indicesTable 数据表类型 Type…

探索D咖智能饮品机器人的工作原理:科技、材料与设计的相互融合

智能饮品机器人是近年来随着人工智能和自动化技术的发展而崭露头角的一种创新产品。它将科技、材料和设计相互融合,为消费者带来了全新的饮品体验。下面D咖来探索智能饮品机器人的工作原理,以及科技、材料和设计在其中的作用。 首先,智能饮品…

抖音小店无货源真的靠谱吗?发展前景如何?2024年值得做吗?

大家好,我是电商花花。 我们通常说的抖音小店无货源就是利用产品之间的信息差、利润差来赚取商品的差价。 无货源模式就是即使没有货源,也能做抖音小店,前期店铺起店,我们需要大量的出单量和数据,我们才能快速把店铺…

Spring Boot应用集成Actuator端点自定义Filter解决未授权访问的漏洞

一、前言 我们知道想要实时监控我们的应用程序的运行状态,比如实时显示一些指标数据,观察每时每刻访问的流量,或者是我们数据库的访问状态等等,需要使用到Actuator组件,但是Actuator有一个访问未授权问题,…

QT基本组件

四、基本组件 Designer 设计师(重点) Qt包含了一个Designer程序,用于通过可视化界面设计开发界面,保存文件格式为.ui(界面文件)。界面文件内部使用xml语法的标签式语言。 在Qt Creator中创建文件时&#xf…

蓝桥杯C++竞赛常用库函数介绍

文章目录 前言一、二分查找1. 二分查找的前提2.binary_search函数3.lower_bound函数和upper_bound函数4.蓝桥杯例题 二、最值查找1. min和max函数2.min_element和max_element函数3.nth_element函数4.蓝桥杯例题 三、排序1.sort函数2.sort自定义比较函数,或lambda表达式(匿名函数…

金和OA UploadFileBlock接口任意文件上传漏洞

声明 本文仅用于技术交流,请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任 1. 产品简介 金和数字化智能办公平台(简称JC6)是…

运维SRE-06 阶段性复习软件管理体系

那些年运维必会操作-第一弹 操作 文件:增删改查 增:touch,vim,>,>>,cp删除:rm修改:内容:vi/vim,>,>> 文件名:mv查看:内容:cat/vim/less/more/head/tail/sed/awk/…