CVPR‘24| Leap-of-Thought! 中大/哈佛等提出CLoT探究大模型幽默创新响应

Leap-of-Thought! 中大/哈佛等提出CLoT探究大模型幽默创新响应

  • 什么是“大喜利”创新响应游戏?
  • 为什么考虑“大喜利”游戏?
  • 性能结果展示
  • 激发创造力的思维方式Leap-of-Thought (LoT)
  • 通向LoT! 激发创造力的训练方法CLoT
  • 性能评估
  • 总结

(导读) 多模态大模型具备创造的潜力吗?能力如何?本文从大模型创造力测评与增强等方面进行了探索,从幽默创新响应的角度,揭示了大模型在创新任务上的潜力和不足。目前该成果被计算机视觉顶级会议CVPR 2024录用。

在这里插入图片描述Let’s Think Outside the Box: Exploring Leap-of-Thought in LLM with Creative Humor Generation

论文:https://arxiv.org/abs/2312.02439
Project:https://zhongshsh.github.io/CLoT/
Code:https://github.com/sail-sg/CLoT
大V的精彩解读:@夕小瑶科技说:超有梗!笑话都讲不好的大模型,已经进化成梗王了!解读经典梗图停不下来

为了探索多模态大模型的创造力,中山大学HCP实验室林倞教授团队联同Sea AI Lab、哈佛大学的研究人员从日本传统的创新幽默游戏“大喜利”(Oogiri)切入,探索目前多模态大模型在创新响应上的现状。并提出了让多模态大模型打破常规思维思考(Think Outside the Box)的训练方法 Creative Leap-of-Thought (CLoT)。

在这里插入图片描述

什么是“大喜利”创新响应游戏?

“大喜利”本来是指一系列日本传统戏剧游戏,随着时代的快速发展。现代的“大喜利”,目前一般是指一种叫Tonchi (頓智)的游戏,通常以游戏节目或智力问答节目的形式呈现,可以参考B站的日本著名节目IPPON大獎賽 (视频链接)。玩家被提供各种多模态内容,可以是简单的问题、随机图像等,然后提示玩家想出幽默的、有创意的反应,以达到令人惊讶的喜剧效果,如下图所示的例子。
在这里插入图片描述

(例子1) 在第一个“图文到文”的例子中,玩家要求阅读图像,和上面对应的文字,尝试想出一段文字填入对应的“问号?"位置,使得整个图文可以展示出幽默且有创意的效果。在第一个例子中,老人向年轻人寻求帮助,从正常的思维来看,可能的填写方式可以是“请问xxx路怎么走?”或者是"可以带我回家吗,我迷路了"之类的┓( ´∀` )┏。然而,所给出的“你…你能帮我解开手铐吗?”的写法具有冲击感、幽默感,且看起来确实是这么一回事,使人忍俊不禁。

(例子2) 在第二个“图到文”的例子中,玩家要求看图配文,并使得图文搭配起来具有幽默效果。这张图看起来是一个很普通的拖车的图片(需要注意的是,在“大喜利”游戏中,一般图片都是很普通的日常图片)。配文“快让开!我的兄弟伤得很严重”让倾斜着身体45°向上的车看起来像是一个奄奄一息的车子。在道路上快速的驰骋也确实体现了位于下方的车很着急,急着送兄弟去医院。整体来说配文相当有趣且幽默!

(例子3) 在第三个“图到文”的例子中,玩家被要求根据所给的文字进行回复,使得回复和问题合在一起具备幽默感。本例子中的回复似乎在调侃程序员的日常工作主要就是代码的“复制+黏贴”┓( ´∀` )┏ (注:CV工程师除了可以表示computer vision工程师也可以表示ctrl+c/ctrl+v工程师 )

本工作主要关注这三种类型的“大喜利”游戏,相关数据Oogiri-GO (如下表所示,含中英日三种语言)可以进入Project页面下载。
在这里插入图片描述

为什么考虑“大喜利”游戏?

“大喜利”游戏是用于探索多模态大模型创新能力的理想平台,因为:

  • “大喜利”游戏是天然的创新响应任务。如上所提到的,现代“大喜利”也被称为Tonchi (頓智)。“頓”在日文和中文中都表示“突然”,而“智”的意思是“智力、洞察力或直觉”,该游戏天然地要求玩家给出令人眼前一亮、灵光一闪的创新响应;
  • “大喜利”的数据格式是高度合适的。不管是“图文到文”、“图到文”还是“文到文”,这些类型都天然地和目前多模特大模型的输入输出格式吻合,即输入为“图文”,输出仅为“文”。
  • “大喜利”数据质量高。创新是一件很难的事情,即使是人类,因此能作为“创新”相关的数据集并不多。鉴于该游戏长期在互联网上非常活跃(在中文社区中,一般也叫日式神吐槽/冷吐槽),而且带有大量点评数据,比如点赞数等等。正好积累了大量高质量人类创新幽默响应可以被用于研究。

性能结果展示

注意事项:

  • 幽默是主观的。任何一个幽默的响应都很难取悦每一个人 (人类的悲欢并不相通.jpg)。另外文化的差异、知识范围等原因也会造成不同人对不同响应的幽默理解。
  • 创新是困难的。如日本著名“大喜利”节目IPPON大獎賽 (视频链接) 中顶尖人类选手也很难确保每一次响应都能让评委满意。如果模型响应不满意,可以让它多试几次~
  • 幽默是多元的。一些常见的“调侃“、“讽刺“等手段是幽默的重要组成部分。不同的文化,甚至不同的人,对这些内容的容忍度不同,模型输出的内容可能对某些人会产生冒犯,敬请多多包容。本文、模型以及数据均只用于学术研究。

首先展示的是在本文方法CLoT前后的创新响应对比:
在这里插入图片描述

接下来是一些精彩的模型响应合集:
在这里插入图片描述
在这里插入图片描述

激发创造力的思维方式Leap-of-Thought (LoT)

如下图(左)所示,传统的链式思考(Chain-of-Thought,CoT)方法是一种顺序思考过程,通过逐步推理指导大模型进行逻辑推理,每个后续的思考都建立在前一个思考的基础上。这一思考过程一定程度上确保了精确性和严谨性,但对于创造性问题表现不佳。如下图(右)所示,本文探索了一种新的非顺序、创造性思维范式——跳跃思维Leap-of-Thought(LoT)。这种范式涉及到思考关联性和知识跳跃。远距离的思考也被认为是联想。与CoT强调逻辑紧密的思维链不同,LoT强调打破常规思维思考问题,激发模型的创造力。
在这里插入图片描述

通向LoT! 激发创造力的训练方法CLoT

基于所提出的Oogiri-GO数据集,本文探索出一套激发多模态大模型创造力的训练方法CLoT。如下图所示,CLoT包括两个阶段:

  • (1)关联性指令微调。在这一阶段,本文设计生成式和判别式模板,将Oogiri-GO数据集转换为指令微调的训练数据,用于训练多模态大模型,使得模型具备初步的创新响应能力。
  • (2)探索性自我调整。在这一阶段中,本文首先通过设计远关联的条件词,促使(1)中的模型生成多样化且与输入远关联的回答,并设计筛选流程,获得可靠的新LoT数据。随后,新数据被转换成指令微调的训练数据,用于进一步微调模型,具体地:
    • (2.1) 探索性远程关联:这一步骤鼓励LLM在给定的弱关联条件下产生创新的回应。通过这种方式,LLM学习在看似不相关的概念之间建立联系,从而生成多样化的创意内容。
    • (2.2) 自我精炼:在探索性远程关联的基础上,通过设计一系列筛选流程,收集到的创意回应被用来进一步训练LLM。这样做可以提高LLM在处理创造性任务时的表现,使其能够生成更高质量和多样性的内容。
      在这里插入图片描述

性能评估

为了尽可能全面评估CLoT,本文基于Oogiri-GO数据集,设计了选择题和排序题作为量化评估方式。实验结果表明,CLoT能够显著提高多模态大模型(如Qwen和CogVLM)的性能,显著超越包括GPT4v在内的先进模型。另外,与其他先进推理框架CoT等相比,在各项量化指标下也是有显著优势的。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

此外,研究团队还通过用户调查,证实了CLoT帮助模型生成了更好的幽默内容。
在这里插入图片描述

研究团队还考虑到了CLoT的泛化性,用“看云猜物CGG”和“发散思维测试DAT”两个其他任务评估CLoT的性能,实验结果显示CLoT相对于基准模型具有更好的准确度,说明CLoT具备不错的泛化能力。DAT是一种用于评估人类联想创造能力的测试。

在这里插入图片描述

总结

基于研究创造力的理想平台”大喜利”幽默创新响应游戏,来首次探讨了多模态大模型的创新响应能力。揭示了现有大模型在创造力、幽默能力在内的能力不足的现状,并提出缓解目前现状的提升方法。本工作已开源https://github.com/sail-sg/CLoT。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/542739.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Java系列】SpringCloudAlibaba统一返回体及全局异常捕获实现

本文将以实际代码展示如何实现SpringCloudAlibaba的统一返回体及全局异常捕获。 作者:后端小肥肠 1. 前言 在构建微服务应用时,统一返回体和异常捕获机制的设计对于保持代码的整洁性和提高服务的可维护性至关重要。特别是在使用 Spring Boot 和 Spring …

数据结构初阶:二叉树(一)

树概念及结构 树的概念 树是一种 非线性 的数据结构,它是由 n ( n>0 )个有限结点组成一个具有层次关系的集合。 把它叫做树是因 为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的 。 有一个特殊的结点&a…

1688商品详情接口技术深探:解锁电商数据新纪元,实现业务自动化飞跃

1688商品详情接口技术解析 一、引言 随着电子商务的快速发展,越来越多的企业开始关注如何利用API接口获取商品详情信息,以实现数据的自动化处理和业务的快速拓展。1688作为国内知名的B2B电商平台,其商品详情接口成为了众多企业关注的焦点。…

HarmonyOS鸿蒙端云一体化开发--适合小白体制

端云一体化 什么是“端”,什么是“云”? 答:“端“:手机APP端 “云”:后端服务端 什么是端云一体化? 端云一体化开发支持开发者在 DevEco Studio 内使用一种语言同时完成 HarmonyOS 应用的端侧与云侧开发。 …

AI预测体彩排3第3弹【2024年4月14日预测--第1套算法开始计算第3次测试】

今天咱们继续测试第1套算法和模型,今天是第3次测试,目前的测试只是为了记录和验证,不建议大家盲目跟买。我的目标仍旧是10次命中3-4次!~废话不多说了,直接上结果! 2024年4月14日排3的七码预测结果如下 第一套&…

LLM 推理优化探微 (4) :模型性能瓶颈分类及优化策略

编者按: 在人工智能浪潮袭卷全球的大背景下,进一步提升人工智能模型性能,满足更多应用需求已经刻不容缓。如何优化模型延迟和吞吐量,成为了业界亟待解决的重要问题。 我们今天为大家带来的这篇文章,其观点为&#xff1…

C语言中的文件操作

C语言中的文件操作 1、文件的打开 创建文件指针变量 File* pf;定义一个指向FILE类型数据的指针变量,可以使pf指向某个文件的文件信息区,通过文件指针变量就能够找到与它关联的文件 (1)文件的打开 使用fopen函数打开文件&#…

基于Springboot的餐厅点餐系统

基于SpringbootVue的餐厅点餐系统的设计与实现 开发语言:Java数据库:MySQL技术:SpringbootMybatis工具:IDEA、Maven、Navicat 系统展示 首页展示 菜品详情页 菜品信息 个人中心 后台管理 菜品信息管理 用户管理 菜…

less+rem+媒体查询布局(主流)

rem适配布局 一.rem基础二.媒体查询1.概念2.语法(1).mediatype查询类型(2).关键字(3).媒体特性(4).应用 3.媒体查询rem实现元素动态大小变化4.引入资源(针对不同媒体查询…

【系统分析师】需求工程☆

文章目录 0、需求工程概述1、需求的分类2、需求获取3、需求分析3.1 结构化需求分析-SA3.1.1DFD- 数据流图3.1.2 STD-状态转换图3.1.3 ER图-实体联系图 3.2 面向对象需求分析-OOA3.2.1 工具-UML图3.2.2 UML分类3.2.3 用例图 ☆3.2.4 类图 / 对象图 ☆3.2.5 顺序图3.2.6 活动图3.…

斐尔玫瑰荣获《中国3.15诚信企业》证书,诚信经营赢得社会认可

2024年,斐尔玫瑰,荣获了备受瞩目的《中国3.15诚信企业》证书。这一荣誉的获得,不仅是对斐尔玫瑰长期以来坚持诚信经营、提供优质产品和服务的肯定,更是对其在消费者心目中建立起的良好信誉和口碑的认可。 斐尔玫瑰作为女性私密护…

自动化测试之httprunner框架hook函数实操

本篇介绍httprunner中hook函数的使用,以及通过编程能力实现建设自动化测试更全面的场景覆盖 前置: 互联网时代让我们更快的学习到什么是Httprunner 正文: 经过上文了解到这个框架怎么使用之后,我们开始来探讨一下我们为什么要用…

MySQL分区表(14/16)

分区表 基本概述 分区表是数据库中一种用于优化大型表数据管理和查询性能的技术。它将一个表的数据根据特定的规则或条件分割成多个部分,每个部分称为一个分区。每个分区可以独立于其他分区进行存储、管理和查询,这样可以提高数据处理的效率&#xff0…

mybatis(9)-逆向工程+PageHelper+注解方式开发

最后一篇!! 1、逆向工程1.1、普通版1.2、增强版 2、PageHelper2.1 limit2.2 插件 3、注解开发3.1 Insert3.2Delete3.3 Update3.4 Select Results 1、逆向工程 1.1、普通版 所谓的逆向工程是:根据数据库表逆向生成Java的pojo类,S…

智过网:注册安全工程师注册有效期与周期解析

在职业领域,各种专业资格认证不仅是对从业者专业能力的认可,也是保障行业安全、规范发展的重要手段。其中,注册安全工程师证书在安全生产领域具有举足轻重的地位。那么,注册安全工程师的注册有效期是多久呢?又是几年一…

伺服系统中滤波器算法的工程实现方案

此文章主要致力于描述如何将伺服驱动系统中的数字滤波器用编程语言来实现。

【动态规划 区间dp 位运算】100259. 划分数组得到最小的值之和

本文涉及知识点 动态规划 区间dp 位运算 LeetCode100259. 划分数组得到最小的值之和 给你两个数组 nums 和 andValues,长度分别为 n 和 m。 数组的 值 等于该数组的 最后一个 元素。 你需要将 nums 划分为 m 个 不相交的连续 子数组,对于第 ith 个子数…

银行渠道整合平台应用架构

渠道整合平台将 功能微服务化,将服务流程标准化。微服务 化的功能能够进行各种组合使用。而标准化的流程可同时作用于所有渠道,保证体验一致。未来在进行流程变更的时候可有效避免各渠道的重复开发。 • 渠道整合平台避免了各个渠道对于同一个业务的差异…

C# dynamic 数据类型

在C#中,dynamic是一种数据类型,它允许在运行时推迟类型检查和绑定。使用dynamic类型,可以编写更具灵活性的代码,因为它允许在编译时不指定变量的类型,而是在运行时根据实际情况进行解析。 dynamic类型的变量可以存储任…

你真的会处理python代码异常吗?

Python 使用称为异常(exception)的特殊对象来管理程序执行期间发生的错误。每当发生让Python不知所措的错误时,它都会创建一个异常对象。如果你编写了处理该异常的代码,程序将继续运行;如果你未对异常进行处理,程序将停…