论文笔记:基于LLM和多轮学习的漫画零样本角色识别与说话人预测

整理了ACM MM2024 Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion)论文的阅读笔记

  • 背景
  • 模型
    • 框架
    • 实现细节
  • 模型
    • 数据集
    • 实验
    • 可视化
    • 消融实验

背景

  最近读到一篇新文章,主要是做漫画中的零样本角色识别,问题和方法都很有趣,特地来写一篇笔记分享。
  角色是漫画故事的核心,在漫画中识别角色和预测对话的说话人至关重要,这可以使我们实现很多应用程序,比如利用角色特定的声音来为漫画配音。
  以往漫画中说话人预测的研究主要解决图像中人物区域和语音气泡区域的对应关系,但无法确定说话人的名字。如果我们想知道说话者的角色名称,我们首先需要通过特定地角色分类器识别角色区域的角色名称,但是这种方法需要对每个漫画进行注释,这是不可行的,因为每年都会有上千部漫画被发布。
  本文提出了一项新问题,如何在zero-shot的情形下进行角色名称识别?这是以往的工作没有考虑过的,通过引入大语言模型和多模态迭代训练框架,本文的方法可以在仅基于未注释的漫画图像来识别角色并预测说话人的名字。这种方法不需要注释,可以在任何漫画系列上原样使用。
在这里插入图片描述

模型

框架

  下图是本文提出框架的概览。模型的输入只有漫画的图像集合 I I I,我们首先对图像进行预处理,通过一般漫画字符和文本类别的对象检测器获得角色区域 C C C和文本区域 D D D,然后使用SGG模型(一个之前的用于匹配人物区域和语音气泡区域的对应关系的模型)从 I , C , D I,C,D I,C,D中生成初始关系 R R R
在这里插入图片描述

   R R R表示字符区域和文本区域之间的对应关系。 r i j r_{ij} rij表示第 i i i个角色说了第 j j j个气泡区域的置信度。此外,本文通过OCR获取了气泡中的文本,并将其提供给LLM分析,从而获得角色列表 N N N,这一步是本文的创新之处,通过这种方式,我们可以获取漫画中的角色名称而不需要任何注释。
  这里的逻辑是这样,在没有先验知识的情况下,人类如何识别新漫画中的说话人?这个过程通常从注意对话中的角色名字开始。例如,如果一个角色叫另一个角色“火影忍者”,我们就会把对对话的回应与火影忍者联系起来。然后我们将角色的视觉外观与他的对话连接起来,当火影忍者在接下来的几页中再次出现时,即使在对话中没有提到他的名字,我们仍然可以知道这个名叫火影忍者的角色。
  在框架中,说话人预测和特征识别是迭代进行的,每个任务的输出作为另一个任务的输入,主要由三个模块组成:

  • 说话人预测,目的是通过LLM预测文本区域的标签,也就是该气泡区域属于哪个说话人,这里的标签并不是某个图像区域,而是一个确定的角色名称,第一次预测只使用文本内容,在后面的步骤中,会使用角色识别获得的标签,表示为: F : ( T , N , y p s e u d o ) → y F:(T,N,y_{pseudo})\rightarrow y F:(T,N,ypseudo)y
  • 标签传播,目的是获得图像区域的标签,也就是某图像区域的角色名称,使用关系分数在角色和文本区域之间转换标签,这个过程是双向的,表示为: H t → c : ( R , y ) → X H_{t\rightarrow c}:(R,y)\rightarrow X Htc:(R,y)X H c → t : ( R , X ) → y H_{c\rightarrow t}:(R,X)\rightarrow y Hct:(R,X)y
  • 角色识别,目的是识别每个角色姓名所对应的角色区域,使用图像信息和由上一步得到的伪标签 X p s e u d o X_{pseudo} Xpseudo来训练出一个角色分类器。预测角色区域 X X X的标签,表示为: G : ( C , X p s e u d o ) → X G:(C,X_{pseudo})\rightarrow X G:(C,Xpseudo)X  此外,关系分数在迭代的过程中也会被更新,因为生成最初的关系分数时没有考虑角色区域的标签,通过考虑角色标签可以获得更准确的关系分数。
    关系分数更新的原则是,如果 x i x_i xi等于 y i y_i yi,也就是说气泡所对应的说话人和角色区域对应的伪标签是相同的, r i j r_{ij} rij乘以 s s s,反之 r i j r_{ij} rij除以 s s s s s s x i x_i xi y i y_i yi的置信度获得,最小值是1。通过这种方式,被预测具有相同角色标签的配对会获得更高的关系分数。

实现细节

在这里插入图片描述

  说话人识别的细节如左图所示,首先使用llm从 T T T N N N中提取关于故事摘要和人物概况的上下文信息。然后将此上下文与每个气泡内容一起馈送到llm中,为了获得稳定的输出,我们让llm同时输出字符 i d id id和角色名称,这些输出的字符id被转换成标签。此外,我们让llm输出从1到5的整数置信度分数。
  标签传播和角色识别的过程如右图所示,给定初始说话人预测结果 Y Y Y,根据关系进行标签传播获取角色区域的伪标签,然后使用伪标签训练一个角色分类器,通过角色分类器为未知标签的角色区域生成标签。
  在多轮迭代的过程中,随着 Y Y Y越来越接近真实的文本标签,生成的伪标签也将越来越接近真实。相应的,字符分类器的训练数据也越来越可靠,识别精度也越来越高。

模型

数据集

  本文的实验所选择的数据集是Manga109数据集,包含109卷日本漫画,并为角色和文本区域提供角色标签。选择其中23卷作为测试集。剩余的卷用于关系检测模块的训练和验证以及角色分类器的预训练。
  需要注意的是,在主评价中,作者省略了数据预处理中获取C、D、T和N的步骤。而是利用Manga109的注释将它们视为已知信息。

实验

在这里插入图片描述  表中,text和img列表示每种方法使用的模式。Iter是迭代次数,初始阶段是迭代0,在此阶段,说话人预测仅通过llm使用文本信息进行。本文根据关系预测的难易程度将测试集分为Easy和Hard两类,total是全部。Easy包含11卷,关系预测精度超过75%。其余12卷被归类为Hard。
  如表1 (a)所示,本文的方法在说话人预测和角色识别方面都比单模态方法的准确性有了显著提高。尽管角色识别的准确率低于50%,但本文的方法是第一个识别未见漫画中角色标签的方法。
  在迭代3中,虽然Easy数据的准确性继续提高,但Hard和Total数据的准确性略有下降。这表明,从进一步的迭代中获得的关系检测的精度增益是有限的。为了进一步研究这一点,作者使用表1 (b)中的基础真值关系进行了分析,其中说话人预测和角色识别的精度都随着进一步的迭代而不断提高。这些结果表明,在准确预测文本和角色区域之间关系的情况下,迭代过程更有效。

可视化

在这里插入图片描述
  图5中,左图是单模态和多模态方法的对比,单模态方法无法实现zero-shot角色识别,当仅使用LLM时,不会执行角色识别。右图显示了每次迭代的结果。随着迭代次数的增加,角色识别和说话人预测任务的准确率都有明显的提高趋势。尽管第一次迭代没有产生正确的预测,但到第三次迭代时,准确性已经显著提高。
在这里插入图片描述
  图6显示了每个漫画的说话人预测的准确性。三个条形图分别表示迭代0、迭代1和迭代2的准确性。迭代提高了大多数漫画的准确率,表明了迭代方法在不同漫画上的有效性。
  但是,不同漫画的性能差异很大,范围从0.2到0.8。更多的迭代并不一定导致更高的精度。这是因为如果关系预测或角色识别的准确性较低,候选对象可以在说话人预测中引入噪声。图7显示了一个示例。在迭代1中,llm正确地预测了说话者(角色A)。然而,由于说话者与文本之间的距离,角色A获得了较低的关系得分。相比之下,角色B更亲近,关系得分更高,被错误地认为是高自信的候选人。这在迭代2中导致了不正确的预测,这解释了图6和表1中迭代的准确性降低的原因。

消融实验

在这里插入图片描述
  表2和3显示了伪标签和说话人候选人的质量及其对说话人预测和角色识别任务准确性的影响。比较了三种关系得分。第二和第三列是伪标签的精度和召回率。第四列中列出的精度是小于阈值的伪标签的精度。第五列是最终准确度。我们可以观察到,从伪标签的准确度(第4列)到最终准确度(第5列)的解释了迭代过程的有效性。结果表明,在每个模块中使用不同的模态信息对前一步得到的结果进行了细化。通过对比关系分数,我们可以看到,通过更好的关系预测来提高伪标签的质量,结果会更好。
  表4显示了在说话人预测的过程中使用不同的LLM提示的效果,(1)ctx:关于人物和故事的上下文信息,(2)cand:说话人候选人,(3)prob:候选人的概率。
  表5展示了框架中的关系评分对关系预测和说话人预测的影响。对于每个文本区域,选择对应的关系得分最高的角色区域。然后,通过将正确匹配的区域数除以文本区域总数来计算准确率。我们的评分方法准确率达到79.8%,优于以往的方法。与之前不考虑角色标签的工作相比,该框架可以通过预测图像和文本的角色标签来更好地预测关系。
  表6展示了完全zeroshot情形下的实验结果,而不是直接使用注释,由于对象检测、OCR和字符名称提取中的错误,这个结果极大地低于表1所示的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/875239.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java并发:互斥锁,读写锁,Condition,StampedLock

3,Lock与Condition 3.1,互斥锁 3.1.1,可重入锁 锁的可重入性(Reentrant Locking)是指在同一个线程中,已经获取锁的线程可以再次获取该锁而不会导致死锁。这种特性允许线程在持有锁的情况下,可…

如何在 Selenium 中获取网络调用请求?

引言 捕获网络请求对于理解网站的工作方式以及传输的数据至关重要。Selenium 作为一种 Web 自动化工具,可以用于捕获网络请求。本文将讨论如何使用 Selenium 在 Java 中捕获网络请求并从网站检索数据。 我们可以使用浏览器开发者工具轻松捕获网络请求或日志。大多数现代 Web…

【iOS】UIViewController的生命周期

UIViewController的生命周期 文章目录 UIViewController的生命周期前言UIViewController的一个结构UIViewController的函数的执行顺序运行代码viewWillAppear && viewDidAppear多个视图控制器跳转时的生命周期pushpresent 小结 前言 之前对于有关于UIViewControlller的…

MySQL:bin log

redo log 它是物理日志,记录内容是“在某个数据页上做了什么修改”,属于 InnoDB 存储引擎。 而 binlog 是逻辑日志,记录内容是语句的原始逻辑,类似于“给 ID2 这一行的 c 字段加 1”,属于MySQL Server 层。 不管用什…

学习平台|基于java的移动学习平台系统小程序(源码+数据库+文档)

学习平台|学习平台系统|在线学习平台系统小程序 目录 基于java的移动学习平台系统小程序 一、前言 二、系统设计 三、系统功能设计 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️大厂码…

C++奇迹之旅:快速上手Priority_queue的使用与模拟实现

文章目录 📝priority_queue的介绍和使用🌠 priority_queue的介绍🌉priority_queue的使用 🌠仿函数的使用🌠C语言有趣的模仿push_back🌠priority_queue的模拟实现🚩总结 📝priority_q…

java重点学习-集合(List)

七 集合(List) 7.1 复杂度分析 7.2 数组 1.数组(Array)是一种用连续的内存空间存储相同数据类型 数据的线性数据结构。 2.数组下标为什么从0开始 寻址公式是:baseAddressi*dataTypeSize,计算下标的内存地址效率较高 3.查找的时间复杂度 随机(…

HarmonyOS Next系列之实现一个左右露出中间大两边小带缩放动画的轮播图(十二)

系列文章目录 HarmonyOS Next 系列之省市区弹窗选择器实现(一) HarmonyOS Next 系列之验证码输入组件实现(二) HarmonyOS Next 系列之底部标签栏TabBar实现(三) HarmonyOS Next 系列之HTTP请求封装和Token…

一种多策略改进小龙虾智能优化算法MSCOA 改进策略:种群混沌映射初始化+透镜成像反向学习+黄金正弦变异策略

一种多策略改进小龙虾智能优化算法MSCOA 改进策略:种群初始化精英反向透镜成像反向学习黄金正弦变异策略 文章目录 一、小龙虾COA基本原理二、改进策略2.1种群初始化 映射2.2 透镜成像反向学习2.3 黄金正弦变异策略 三、实验结果四、核心代码五、代码获取六、总结 一…

小型企业如何利用人工智能的生产力

尽管生产力低下是一个长期存在的问题,但最近严峻的经济逆风加剧了这一问题,企业清算数量同比增长了 19%。 Xero 的报告《小企业生产力:趋势、影响和战略》反映了这些宏观经济变化,显示 2023 年新西兰小企业生产力与 …

SiC,GaN驱动优选驱动方案SiLM5350系列SiLM5350MDDCM-DG 带米勒钳位Clamp保护功能 单通道隔离栅极驱动器

SiLM5350MDDCM-DG是一款适用于IGBT、MOSFET的单通道 隔离门极驱动器,具有10A拉电流和10A灌电流驱动能 力。提供内部钳位功能,可单独控制 上升时间和下降时间。 在 SOP8 封 装 中 具 有 3000VRMS 隔 离 耐 压 ( 符 合 UL1577)。 与…

抖音微信超火国庆节国旗头像生成源码

源码介绍: 抖音微信超火国庆节国旗头像生成源码,静态页前端生成速度超快!源码直接上传到服务器即可使用。 1、打开地址后点击上传->选一张你喜欢的头像->然后点右边箭头符合选款式->最后点保存头像->按照提示 2、保存到手机即…

c/c++面试100道

1.一道笔试题解析_哔哩哔哩_bilibili P20:#define offsetof(TYPE, MEMBER) ((size_t)&((TYPE*)0)->MEMBER) 1、 offsetof 宏是 C 语言中用于计算结构体成员相对于结构体起始地址的偏移量的宏定义。这个宏的定义如下: #define offsetof(TYPE, …

macOS上谷歌浏览器的十大隐藏功能

谷歌浏览器(Google Chrome)在macOS上拥有一系列强大而隐蔽的特性,这些功能能显著提高您的浏览体验。从多设备同步到提升安全性和效率,这些被低估的功能等待着被发掘。我们将逐步探索这些功能,帮助您最大化利用谷歌浏览…

09-排序1 排序(C)

这一节,测试各类排序算法的运行速度(没有基数排序(桶) 其实在实际学习中,还是有意义的 给定 n 个(长整型范围内的)整数,要求输出从小到大排序后的结果。 本题旨在测试各种不同的排序…

【代码随想录训练营第42期 Day57打卡 - 图论Part7 - Prim算法

一、Prim算法 Prim算法是一种贪心算法,用于求解加权无向图的最小生成树问题。其中,最小生成树是指一个边的子集,它连接图中的所有顶点,且边的总权重最小,并且没有形成环。 对于Prim算法的简单了解,这里推…

基于小程序的教学辅助微信小程序设计+ssm(lw+演示+源码+运行)

教学辅助微信小程序 摘 要 随着移动应用技术的发展,越来越多的学生借助于移动手机、电脑完成生活中的事务,许多的传统行业也更加重视与互联网的结合,由于学生学习的压力越来越大,教学辅助是一个非常不错的教育平台,对…

9.12-kubeadm方式安装k8s+基础命令的使用

一、安装环境 编号主机名称ip地址1k8s-master192.168.2.662k8s-node01192.168.2.773k8s-node02192.168.2.88 二、前期准备 1.设置免密登录 [rootk8s-master ~]# ssh-keygen[rootk8s-master ~]# ssh-copy-id root192.168.2.77[rootk8s-master ~]# ssh-copy-id root192.168.2.…

指令——计算机的语言(part 2)

目录 1.1 翻译并执行程序 1.1.1 编译器 1.1.2 汇编器 1.1.3 链接器 1.1.4 加载器 1.1.5 动态链接库 接上一篇文章: 指令——计算机的语言(part 1) 1.1 翻译并执行程序 程序翻译层次图如下: 首先高级语言比如说C,会被编译器编译成汇编语言,然后汇…

Python面试宝典第48题:找丑数

题目 我们把只包含质因子2、3和5的数称作丑数(Ugly Number)。比如:6、8都是丑数,但14不是,因为它包含质因子7。习惯上,我们把1当做是第一个丑数。求按从小到大的顺序的第n个丑数。 示例 1: 输入…