GPT-4V with Emotion:A Zero-shot Benchmark forMultimodal Emotion Understanding

GPT-4V with Emotion:A Zero-shot Benchmark forMultimodal Emotion Understanding

GPT-4V情感:多模态情感理解的zero-shot基准

1.摘要

最近,GPT-4视觉系统(GPT-4V)在各种多模态任务中表现出非凡的性能。然而,它在情感识别方面的功效仍然是个问题。本文定量评估了GPT-4V在多通道情感理解方面的能力,包括面部情感识别、视觉情感分析、微表情识别、动态面部情感识别和多通道情感识别等任务。我们的实验表明,GPT-4V表现出令人印象深刻的多模态和时间理解能力,甚至在某些任务中超过了监督系统。尽管取得了这些成就,GPT-4V目前是为一般领域定制的。它在需要专业知识的微表情识别中表现不佳。本文的主要目的是呈现GPT-4V在情绪理解方面的量化结果,并为未来的研究建立一个zero-shot基准。代码和评测结果可在:https://github . com/zero qiaoba/GPT 4v-emotion获取。

GPT-4V:

        虽然在多模态任务上表现良好,但情感识别方面仍有提升潜力

        GPT-4V的优点:多模态和时间理解能力优秀,甚至在某些任务中超过了监督系统

        GPT-4V的不足:在需要专业知识的微表情识别中表现不佳

多模态情感理解任务: 

        面部情感识别、视觉情感分析、微表情识别、动态面部情感识别和多通道情感识别

本文的目的:呈现GPT-4V在情绪理解方面的量化结果,并为未来的研究建立一个zero-shot基准

zero-shot就可以被定义为:利用训练集数据训练模型,使得模型能够对测试集的对象进行分类,但是训练集类别和测试集类别之间没有交集;期间需要借助类别的描述,来建立训练集和测试集之间的联系,从而使得模型有效。【摘自:Zero-shot(零次学习)简介-CSDN博客】

2.背景及研究意义

  • 多模态情感理解任务旨在整合多模态信息(即图像、视频、音频和文本)来理解情绪。
  • 为每项任务选择有限数量的样本,对GPT-4V的性能进行定性评估,当前GPT-4V请求限制100+左右。
  • 目前的GPT-4V只支持图像和文本,对于音频,我们试图转换成梅尔频谱图,以捕捉副语言信息然而,GPT-4V拒绝承认梅尔光谱图。因此,我们的评估主要集中在图像、视频和文本上

创新性:

        这是第一个定量评估GPT-4V在情绪任务中表现的工作。我们希望我们的工作可以为后续研究建立一个zero-shot基准,并启发情感计算的未来方向。

评估对象:

        GPT 4 API(GPT-4-1106-preview)

GPT-4对请求有三个限制:

        每分钟令牌数(TPM)、每分钟请求数(RPM)和每天请求数(RPD)

        为了满足RPM和RPD,我们遵循以前的工作[7]并采用批量输入。
 

面部表情识别为例

提示:请扮演一个面部表情分类专家的角色。我们提供20张图片。

请忽略说话者的身份,专注于面部表情。

对于每幅图像,请根据与输入的相似性从高到低对提供的类别进行排序。

以下是可选的类别:[快乐、悲伤、愤怒、恐惧、厌恶、惊讶、中性]。

每个图像的输出格式应该是{'name ':,' result ':}。

Prompt:

Please play the role of a facial expression classification expert.We provide 20 images.

Please ignore the speaker’s identity and focus on the facial expression.

For each image,please sort the provided categories from high to low according to the similarity with the input.

Here are the optional categories:[happy,sad,angry,fearful,disgusted,surprised,neutral].

The output format should be {’name’:,’result’:}for each image.

总结

        实验专注于:图像、视频和文本模态

        评估的模型GPT 4 API(GPT-4-1106-preview),为了满足RPM和RPD,我们遵循以前的工作[7]并采用批量输入

        创新性:第一个定量评估GPT-4V在情绪任务中表现的工作。目标为后续研究建立一个zero-shot基准,并启发情感计算的未来方向。 

3.实验和结果

在本文中,我们评估了GPT-4V在五个任务中的zero-shot性能

表1 2总结了数据集统计和标注方法:

  • 表1:五类基本情感理解任务及数据集信息:(面部情感识别、视觉情感分析、微表情识别、动态面部情感识别和多通道情感识别

        面部情绪识别识别:对于视频的处理:提取每个序列的最后三帧用于情感识别。

                                        提取关键帧,包括各种头部姿势、遮挡和光照

        视觉情感分析:旨在识别由图像引起的情感,而不要求图像以人为中心

                                为了与之前的作品进行公平的比较,我们将这些标签重新映射为积极和消极的情绪。

        微表情识别:微表情持续时间短,强度低,并且出现在稀疏的面部动作单元中[28]

                              使用apex框架评估GPT-4V对微表情的识别

        动态面部情绪识别将分析扩展到图像序列或视频。需要进一步利用时态信息。

                                        评价指标包括未加权平均召回率(UAR)和加权平均召回率(WAR)

        多模态情绪识别情绪:整合不同来源的信息

                                            本文主要研究否定/肯定分类任务。分别为< 0分和> 0分分配正类和负类。

  • 表2:数据集及采用的情感标签信息。

对于视觉情感分析(见表4),GPT-4V优于监督系统,表明其在从视觉内容理解情感方面的强大能力。然而,GPT-4V在微表情识别方面表现不佳(见表5),这表明GPT-4V目前用于一般领域。它不适合需要专业知识的领域

表6-7显示了GPT-4V和监督系统在视频理解方面的差距。值得注意的是,由于每个视频只采样三帧,一些关键帧可能会被忽略,从而导致性能受限。

对色彩空间的稳健性在表3中,GPT-4V在CK+和FERPlus上表现稍差。由于两个数据集都有灰度图像,一个合理的假设出现了:当面对灰度图像时,GPT-4V的表现会更差吗为了探索这种可能性,我们将RAF-DB中的所有RGB图像转换为灰度图像,并将结果报告在表8中。有趣的是,GPT-4V在不同的颜色空间表现出非常相似的性能。这种对色彩空间变化的弹性表明GPT-4V在这方面具有内在的鲁棒性

时间理解能力为了降低评估成本,我们对每个视频统一采样三帧。在本节中,我们将进一步研究不同采样数的影响。如表9所示,当采样帧数从3减少到2时,性能明显下降。这突出了在未来工作中增加采样帧数的重要性

多模态情感理解:表10报告了三个基准数据集上的单峰和多峰结果。

观察到多模态结果优于单峰结果,证明了GPT-4V整合和利用多模态信息的能力。但是对于CMU-MOSI,我们在多模态结果中观察到轻微的性能下降。这个数据集主要依赖于词汇信息[77],视觉信息的加入可能会给GPT-4V理解情绪带来一些困惑

总结

  1. 对于视觉情感分析,GPT-4V优于监督系统,其在从视觉内容理解情感方面的强大能力。
  2. GPT-4V在微表情识别方面表现不佳,GPT-4V目前用于一般领域。不适合需要专业知识的领域
  3. GPT-4V和监督系统在视频理解方面的差距。由于每个视频只采样三帧,一些关键帧可能会被忽略,从而导致性能受限。
  4. GPT-4V在不同的颜色空间表现出非常相似的性能。这种对色彩空间变化的弹性表明GPT-4V在这方面具有内在的鲁棒性
  5. 多模态结果优于单峰结果

4.结论

本文做了什么:提供了对GPT-4V在五个不同任务中的多模态情绪理解性能的评估

结论是什么:GPT-4V在理解视觉内容的情感方面有很强的能力,甚至超过了监督系统。然而,它在需要专业领域知识的微表情识别中表现不佳

本文还做了什么:为后续研究的zero-shot基准

本文还能做什么

  • 由于GPT-4V API成本较高,本文对视频输入统一采样3帧。未来的工作将探索更高采样率下的性能
  • 整合更多与情感相关的任务和数据集,以提供对GPT-4V的全面评估

5.读后感

1.本文的价值在哪里?

        对于最新的模型,GPT4的情感识别能力进行了第一次全方位评估。

2.本文的对于情感的可解释性做了哪些阐释?

        将模型的情感理解能力体现为以下任务的性能:面部情感识别、视觉情感分析、微表情识别、动态面部情感识别和多通道情感识别——【情感分类任务】

3.如何理解其作为zero-shot基准?

        本文工作希望为后续研究的zero-shot基准, 其目标在于让计算机模拟人类的情感推理方式,来识别从未见过的新事物的情感。

        其在大量的情感任务及数据集上做了初次尝试。

4.接下来的工作可能从哪些方面开展?

        视频更好的采样来观测性能变化

        收集更多的情感数据集评估GPT-4情感能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/256334.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AWS-WAF-CDN基于速率rate的永久黑名单方案(基于lambda实现)

参考方案&#xff08;有坑&#xff09;&#xff0c; 所以产生了这篇博客&#xff1a; 点击跳转 1. 部署waf &#xff08;有则跳过&#xff09; 必须存在一个rate速率规则&#xff0c;后面的方案堆栈要用 新建rate速率规则 关联cdn资源 2.部署堆栈 (美国东部 (弗吉尼亚北部 …

【QT】QDockWidget控件的使用

目录 1.概述 2.常用函数介绍 3.QDockWidget布局相关 4.QDockWidget的使用注意事项 5.使用场景 6.简单应用示例代码 1.概述 QDockWidget类提供了一个小部件&#xff0c;可以停靠在QMainWindow中&#xff0c;也可以作为桌面上的顶级窗口浮动。 QDockWidget提供了dock Widg…

Github 2023-12-18 开源项目周报 Top14

根据Github Trendings的统计&#xff0c;本周(2023-12-18统计)共有14个项目上榜。根据开发语言中项目的数量&#xff0c;汇总情况如下&#xff1a; 开发语言项目数量TypeScript项目4Python项目4Jupyter Notebook项目3非开发语言项目1JavaScript项目1Rust项目1Go项目1 基于项目…

下载svn client,小乌龟

给兄弟们提供一个下载svn client的软件连接 不好用包退货 https://sourceforge.net/projects/tortoisesvn/ 点击download即可

21.三层链路聚合

三层链路聚合 交换机默认的接口模式为二层接口模式 1.先将交换机的接口改为三层模式 2.创建三层链路聚合端口组3 3.将端口加入链路聚合端口组3 4.给聚合后的端口配置IP地址 在路由器上也做链路聚合的操作 1.创建三层链路聚合端口组3 2.将端口加入链路聚合端口组3 …

基于ssm的航班订票管理系统论文

摘 要 互联网发展至今&#xff0c;无论是其理论还是技术都已经成熟&#xff0c;而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播&#xff0c;搭配信息管理工具可以很好地为人们提供服务。针对航班订票信息管理混乱&#xff0c;出错率高&#xff0c;信息安全性差…

Git账户密码http方式的配置

Git账户密码http方式的配置 入门 git在提交时每次都需要输入密码和账号信息&#xff0c;可以将账号和密码进行持久化存储&#xff0c; 当git push的时候输入一次用户名和密码就会被记录&#xff0c; 不需要每次输入&#xff0c;提高效率&#xff0c;进行一下配置&#xff1…

2024年完整湖北等保测评机构名单看这里!

等保测评机构是指经公安部认证的具有资质的测评机构&#xff0c;主要从事等级测评活动。一般过等保需要找正规具有资质的等保测评机构。那你知道2024年湖北等保测评机构有哪些&#xff1f;名单有吗&#xff1f; 2024年完整湖北等保测评机构名单看这里&#xff01; 1、湖北星…

端口占用命令 netstat (centos)+netstat (windows)

linux 1.使用 netstat 命令查看端口占用情况 netstat -tlnp 使用 -p 选项查看进程信息。 使用 -t 选项列出 TCP 协议的连接&#xff1a;类似&#xff08;使用 -u 选项列出 UDP 协议的连接&#xff1a;&#xff09; 2.查找占用指定端口号的应用信息 netstat -tlnp | grep 3…

Java智慧工地数字化云平台源码(SaaS模式)

智慧工地是智慧城市理念在建筑工程行业的具体体现&#xff0c;智慧工地解决方案是建立在高度信息化基础上一种支持人事物全面感知、施工技术全面智能、工作互通互联、信息协同共享、决策科学分析、风险智慧预控的新型信息化手段。围绕人、机、料、法、环等关键要素&#xff0c;…

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)更改应用图标

鸿蒙&#xff08;HarmonyOS&#xff09;项目方舟框架&#xff08;ArkUI&#xff09;更改应用图标 一、操作环境 操作系统: Windows 10 专业版 IDE:DevEco Studio 3.1 SDK:HarmonyOS 3.1 二、更改图标 图标的位置&#xff1a;entry->src->main->resources->-b…

瑞芯微RV1103与FPGA图像传输,实现网络推流

一、瑞芯微RV1103介绍 RV1106及RV1103具有以下六大核心技术优势&#xff1a; 1、内置自研第4代NPU&#xff0c;最高达0.5TOPs算力 RV1106及RV1103采用Cortex-A7 CPU及高性能MCU&#xff0c;内置瑞芯微自研第4代NPU&#xff0c;运算精度高&#xff0c;支持int4、in8、int16混合…

WebGL开发的应用程序类型

WebGL是一种用于在Web浏览器中进行高性能图形渲染的JavaScript API&#xff0c;它主要用于创建交互式的3D图形和图像。通过WebGL&#xff0c;您可以开发多种类型的Web应用程序&#xff0c;包括但不限于以下几种&#xff0c;希望对大家有所帮助。北京木奇移动技术有限公司&#…

【前端】vscode 相关插件

一 插件&#xff1a; 01、ESLint 用来识别并检查ECMAScript/JavaScript 代码的工具 02、Prettier 用来格式化代码&#xff0c;如.js、.vue、css等都可以进行格式化 03、Vetur 用来识别并高亮vue语法 04、EditorConfig 用来设置vscode的编程行为 二、安装依赖 01、…

新年跨年烟花超酷炫合集【内含十八个烟花酷炫效果源码】

❤️以下展示为全部烟花特效效果 ❤️下方仅展示部分代码 ❤️源码获取见文末 🎀HTML5烟花喷泉 <style> * {padding:0;margin:0; } html,body {positi

TSX-3225 (MHz范围晶体单元微型低轮廓贴片)

TSX-322系列晶体谐振器是爱普生主推的一款无源晶振型号&#xff0c;频率范围16mhz ~ 48mhz&#xff0c;3.2*2.5mm较小的外部尺寸&#xff0c;可以广泛使用在手机&#xff0c;蓝牙&#xff0c;无线-局域网、ISM 频段电台广播&#xff0c;MPU时钟等产品中。 规范 运动阻力(ESR) 外…

基于ssm餐饮掌上设备点餐系统论文

餐饮掌上设备点餐系统 摘要 随着信息技术在管理上越来越深入而广泛的应用&#xff0c;管理信息系统的实施在技术上已逐步成熟。本文介绍了餐饮掌上设备点餐系统的开发全过程。通过分析餐饮掌上设备点餐系统管理的不足&#xff0c;创建了一个计算机管理餐饮掌上设备点餐系统的…

Enum in C,C++

C(C11以上&#xff09;&#xff1a; 第一种方式&#xff1a; /*** file duLangMap.h* author geovindu,Geovin Du(geovindu163.com)* brief vscode c11* version 0.1* date 2023-12-18** copyright Copyright (c) 站在巨人的肩膀上 Standing on the Shoulders of Giants 2023…

RK3568 android11 调试mipi摄像头 gc2093

一&#xff0c;摄像头简介 GC2093是一个高质量的1080P CMOS图像传感器&#xff0c;用于安全相机产品、数码相机产品和手机相机应用程序。包含了一个1920H x 1080V像素阵列、片上10位ADC和图像信号处理器。高性能和低功耗功能的全面集成使GC2093最适合设计&#xff0c;减少了实…

TikTok矩阵玩法分享,如何建立TikTok矩阵?

矩阵是在 TikTok 上非常常见的营销方式&#xff0c;很多卖家想要通过矩阵化运营快速涨粉。但要想做好TikTok矩阵&#xff0c;需要有明确的方向和计划。下面东哥我将分享一些做TikTok矩阵的玩法&#xff0c;帮助大家更好地搭建自己的TikTok矩阵。 了解TikTok矩阵 TikTok矩阵是一…