【论文速览】根据人脑fMRI信号重建图像 Image Reconstruction from human brain activity

文章目录

    • 前言
    • 文章一
      • 研究背景
      • 主要方法
      • 部分实验结果
      • 总结与思考
      • 参考资料
    • 文章二
      • 研究背景
      • 主要方法
      • 部分实验结果
      • 总结与思考

前言

人类的视觉神经系统对于真实世界的视觉刺激有着非凡的感知与理解能力,比如我们能够准确地识别物体距离和三维几何关系等,这是当前人工智能难以比拟的能力。在人类视觉感知系统中,外部视觉刺激会经过神经编码为神经信号,而神经解码就是根据神经信号得到相对应的视觉刺激,通过研究这个编解码过程能够帮助我们进一步去理解大脑不同区域的功能。

根据不同任务的复杂性和具体目标,这类研究可以分为刺激分类(stimuli classification)、刺激识别(stimuli recognition)和刺激重建(stimuli reconstruction)。比如刺激分类就是根据大脑活动信息去区分视觉刺激中包含的物体类别,刺激识别就是从一组已知的图像中识别特定的视觉刺激,而刺激重构就是直接生成图像。

这篇博文将介绍今年两个比较新的根据人脑活动信号直接生成视觉刺激图像的工作,具体地说,就是根据观测图像时生成的脑补fMRI信号去重建观测图像

文章一

在这里插入图片描述

研究背景

在这里插入图片描述
本文要做的一个任务就是根据人脑活动重建视觉图像,更具体地说就是根据人脑的功能性磁共振成像(functional magnetic resonance imaging, fMRI)来重建其观测到的图像。如上图所示,第一行是现有的图像(观测者看到的图像),第二行是模型根据其中一个观测者的fMRI重建得到的图像。

本文提出的方法主要基于Stable Diffusion模型,并且探讨了LDM(latent diffusion model)与人脑独特功能之间的联系,从神经科学的角度对LDM不同成分提供了一种的定量解释。

主要方法

Stable Diffusion
关于Stable Diffusion模型这里就不过多介绍了,感兴趣可以参考我这篇博客(一文速览扩散模型优化过程:从DDPM到条件生成模型Stable Diffusion),其模型结构大致如下所示:
在这里插入图片描述
其中z是原始图像输入编码器得到的潜在表征(latent representation),c是输入文本信息表征,数学公式: $ z_c $是去噪后得到的表征,其会送入解码器得到最终的生成图像。

本文直接用的其开源的代码与预训练参数(version 1.4).

解码过程:从fMRI重构图像
解码过程如下图所示,本论文主要要训练的只有两个线性模型(红色部分),其负责将fMRI信号转换成对应的潜在表征(z和c),而Stable Diffusion的其他参数不需要调整。
在这里插入图片描述
(i)首先第一步观测者早期视觉皮层(early visual cortex)对应的fMRI信号得到潜在表征z,然后送入解码器得到得到一个粗(coarse)解码图像 X z X_z Xz
(ii) X z X_z Xz随后会被送入解码器,然后进行加噪过程(扩散模型的前向过程);
(iii)将观测者高层视觉皮层(higher visual cortex)的fMRI信号编码称为潜在的文本表征c,然后与加噪后的表征 z T z_T zT一起进行去噪过程(扩散模型的逆向过程)得到最终的生成图像 X z c X_{zc} Xzc.

线性模型使用的是L2正则化的线性回归,针对不同的观测者单独训练.

编码过程:全脑体素建模
为了去解释LDM模型与人脑活动之间的联系,本文构造了一个全脑体素(whole-brain voxel-wise)编码模型,如下图所示。其通过线性模型来构造Stable Diffusion中潜在表征与人脑体素之间的对应关系,分别对比了不同噪声条件下、不同扩散阶段、不同U-Net层的特征与大脑部位的对应关系。
在这里插入图片描述
这一部分就不详细介绍了,感兴趣的可以参见原文,主要是从生物神经学的角度分析了LDM的内在机理。

部分实验结果

在这里插入图片描述
上图展示了同一名受试者根据不同潜在表征生成的图像,可以发现:① 仅使用z重建的图像与原图像视觉一致(visually consistent),但语义内容不一致(个人认为这里的视觉一致指的就是整体的颜色与纹理结构);② 仅使用c生成的图像具有高度的语义保真度但视觉不一致;③ 从 z c z_c zc生成的图像同时具有高度语义保真度和视觉一致性。

在这里插入图片描述
上图展示了不同观测者对同一副图像的fMRI信号生成的重构图像,可以看到整体的重建质量还是可以的。(不同观测者重建出来的图像相互间有差距,可能是因为每个人关注的区域不一致导致激活有差异)。

总结与思考

本文基于Stable Diffusion模型提出了一个可以从人脑fMRI信号重构图像的方法,它不需要对大模型进行重新训练,只需要学习fMRI到LDM潜在表征的线性映射即可。此外,模型从生物神经科学的角度探讨了LDM的内在机理。

读完全文,可以发现本文的主要方法和思路都不难,并且从重建的效果上来看还不错,基本能够认出原始图像的特征,但整体细节还有待进一步加强。此外,方法需要针对不同观测者去构建线性映射模型,这里也值得优化。

参考资料

[1] 【AI论文学习笔记】大脑信号重建图像 High-resolution image reconstruction with LDM from human brain activity

文章二

在这里插入图片描述

研究背景

针对fMRI信号重建的任务,作者分析了目前工作存在的问题:首先是早期方法虽然能够顺利重建出原始图像的结构信息,比如轮廓、大小等,但其重建结果缺乏明显的语义信息导致难以辨认;而最近的方法采用预训练的生成模型进行重建,能生成语义相似的图像(比如上面那篇文章),但其生成结果在结构信息上是不可控的,比如位置、朝向等。

在这里插入图片描述

第一行图像展示了早期方法的重建结果,第二行展示了当前方法的生成结果,最后一行为本文提出MindDiffuser的生成结果

为了去解决这两个问题,本文提出了一个两阶段的模型MindDiffuser,结合了“优化”和“生成”两种方法的思想,使得重构结果在语义上相似的同时结构也一致。

主要方法

MindDiffuser的模型框架如上图所示,其包括两个阶段。首先MindDiffuser要构建三个不同的回归模型,去学习fMRI与图像图像潜层特征之间的映射,包括VQ-VAE编码特征 Z Z Z,CLIP提取的图像特征 Z C L I P Z_{CLIP} ZCLIP和文本特征 C C C(这些都是在后面过程中要用到的)。在第一阶段(a),会利用Z和C两个特征去进行图像生成,这和Stable Diffusion的过程一模一样。
在这里插入图片描述

作者认为在第一阶段主要是嵌入了语义信息和细粒度细节信息,解决了"what is contained"

在第二阶段,作者利用CLIP输出的视觉特征 Z C L I P Z_{CLIP} ZCLIP来进一步对齐结构信息。具体地, Z C L I P Z_{CLIP} ZCLIP包括了图像对应的一组浅层特征(浅层特征包含了视觉低层信息,如结构位置信息等),通过计算生成图与 Z C L I P Z_{CLIP} ZCLIP之间的L2距离来反向优化生成图像,通过反向传播进行多次迭代来对齐结构信息,从而得到最终的生成结果。

在这里插入图片描述

部分实验结果

在这里插入图片描述
上图展示了MindDiffuser与当前不同主流方法之间的重构结果对比,可以看到MindDiffuser是能够较好地捕获到原始图像的语义和结构信息的。此外,第三行也证明了第二阶段的重要性(without control)。

在这里插入图片描述
此外,在定量指标的对比上,MindDiffuser也具有明显优势。

在这里插入图片描述
上图展示了MindDiffuser对于不同受试者fMRI的重建结果,需要注意的是,这里的结果都是由同一个模型生成,这说明MindDiffuser能够适应于不同个体。

文中还探讨了VQ-VAE特征z对于重构生成的重要性,更多实验参照原文.

总结与思考

MindDiffuser第一阶段的过程与上面第一篇文章基本上一样,都是基于直接构造fMRI到不同特征空间的映射模型,然后通过Stable Diffusion来进行图像重构。但不同点在于它没有引入过多先验,即通过ROI定位不同脑部视觉皮层区域的fMRI信号,而是直接针对完整的fMRI信号进行学习,这有助于简化数据获取难度。此外,MindDiffuser可以直接针对多个受试者同时训练模型,这说明其针对个体差异的泛化能力更强。

本论文的主要贡献就是利用CLIP的图像特征,额外引入了一个结构信息对齐功能。因为在StableDiffusion框架下的生成过程会引入一定程度的随机性,在前向和逆向过程中都有随机噪声的参与,所以在浅层特征上引入一致性损失会改善这种现象。

对于这个任务,能达到这种效果其实还是比较惊艳了,如果要完全重构出完整图像应该是不可能的,因为不同的人在观测时会注意到不同的模块,大脑产生的信号也不同。随着人工智能技术的发展,脑机接口时代到临可能真的不远了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/26810.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

三维数字沙盘交互大数据可视化GIS地理信息系统第十课

三维电子沙盘交互无人机倾斜摄影大数据可视化GIS地理信息系统第十课 设置system.ini 如下内容 Server122.112.229.220 userGisTest Passwordchinamtouch.com 该数据库中只提供 成都市火车南站附近的数据请注意,104.0648,30.61658 在SDK中自带了一个自定义的基础面…

pycharm和virtualBox虚拟机的安装(包括本地环境和远程环境配置)

目录 一、安装时需要的软件二、安装virtualBox三、安装pycharm四、创建pycharm本地环境五、创建pycharm远程环境 一、安装时需要的软件 Pycharm,jetbrains-agent-latest破解包(破解pycharm);镜像文件ubuntu20,虚拟机virtualBox …

Zellij – 颜值爆表,比tmux、screen更好用的多窗口终端

如果你曾经使用过多窗口终端,如tmux、screen,那么你可能对Zellij上手会更快。下面将介绍这个惊艳出众的多窗口终端利器。 一、Zellij 特点 Zellij最大的特点是支持插件,与WebAssembly编译兼容。与screen和tmux相比,Zellij是以细…

Linux 之Python 定制篇-APT 软件管理和远程登录

Linux 之Python 定制篇-APT 软件管理和远程登录 apt 介绍 apt 是Advanced Packaging Tool 的简称,是一款安装包管理工具。在Ubuntu 下,我们可以使用apt 命令进行软件包的安装、删除、清理等,类似于Windows 中的软件管理工具。 unbuntu 软件…

LVS-DR负载群集的优势和部署实例(我们都会在各自喜欢的事情里变得可爱)

文章目录 一、DR模式数据包流向分析二、DR模式的特点三、DR模式中需要解决的问题问题1解决方式 问题2解决方式 四、LVS-DR部署实例1.配置NFS共享存储器2.配置节点web服务(两台的配置相同)3.配置LVS负载调度器 一、DR模式数据包流向分析 1.Client 客户端…

《计算机网络——自顶向下方法》精炼——3.7(2)

读书有三到:谓心到,眼到,口到。——明朱熹 文章目录 对链接吞吐量的简化描述高带宽路径的TCP公平性 对链接吞吐量的简化描述 为了简化对一条TCP连接吞吐量的描述,我们首先忽略连接过程中处于慢启动状态的时间,因为这一…

chatgpt赋能python:Python将yyyymmdd转换成yyyy-mm-dd的方法

Python将yyyymmdd转换成yyyy-mm-dd的方法 Python语言不仅易于学习,而且是一种功能强大的语言,广泛应用于数据分析、人工智能和Web开发等领域。在实际开发过程中,我们经常遇到需要将日期格式转换为其他格式的需求。本文将介绍如何使用Python将…

Nginx rewrite

目录 一、location 1.location 匹配规则介绍 2. 实际网站使用中匹配规则 2.1第一个必选规则 2.2第二个必选规则是处理静态文件请求,这是nginx作为http服务器的强项 2.3第三个规则就是通用规则 3.location 匹配规则演示 2.1一般前缀匹配 2.2正则匹配 2.3正则…

电池状态估计 | Matlab实现利用卡尔曼滤波器估计电池充电状态

文章目录 效果一览文章概述研究内容程序设计参考资料效果一览 文章概述 电池状态估计 | Matlab实现利用卡尔曼滤波器估计电池充电状态 研究内容 目前,常用的电池模型有:数

斐波那契数列题解(非递归c++方法实现)

在做信奥赛(信息学奥赛)中的for循环题目时,有一道斐波那契数列,想到的第一个方法是使用递归求解;因为以往题目最多使用的就是递归形式,但鉴于该题目在for循环题目堆,所以就思考了一些新方法&…

仙境传说RO:添加限购物品刷新物品库存教程

仙境传说RO:添加限购物品刷新物品库存教程 大家好我是艾西,在游戏中我们会有普通的基础装备那么必然就会有到顶的套装,往往可能一套到顶的套装就可能霸服。那么就需要GM去做游戏的设定以及限制,上一篇文章中我给大家讲述了如果创…

RabbitMQ的基本概念

目录 1、MQ 的基本概念 1.1 MQ概述 1.2 MQ 的优势和劣势 1.3 MQ 的优势 1. 应用解耦 2. 异步提速 3. 削峰填谷 小结: 1.4 MQ 的劣势 1.5 常见的 MQ 产品 1.6 RabbitMQ 简介 1.7 JMS 1、MQ 的基本概念 1.1 MQ概述 MQ全称 Message Queue(消息队列&#…

火山引擎DataLeap的Catalog系统搜索实践(三):Learning to rank与后续工作

Learning to rank Learning to rank主要分为数据收集,离线训练和在线预测三个部分。搜索系统是一个Data-driven system,因此火山引擎DataLeap的Catalog系统设计之初就需要考虑数据收集。收集的数据可以用来评估和提升搜索的效果。数据收集和在线预测前面…

Augmentation Matters:一种简单而有效的半监督语义分割方法(CVPR2023)

文章目录 Augmentation Matters: A Simple-yet-Effective Approach to Semi-supervised Semantic Segmentation摘要本文方法Random Intensity-based AugmentationsAdaptive Label-aided CutMix 实验结果 Augmentation Matters: A Simple-yet-Effective Approach to Semi-superv…

【C语言】C预处理器(宏、文件包含、条件编译...)

一、C语言编译的预处理阶段1.1 C语言的编译过程1.2 C语言编译的预处理 二、C语言 宏2.1替换常量2.2函数宏2.3 字符串化和连接:#和##2.4 变参宏 三、文件包含:#include3.1 写法3.2 头文件的作用——声明3.3 头文件和extern 、static 四、 其他指令4.1 #un…

路径之谜 2016年国赛 深度优先搜索

目录 解题思路 AC代码: 题目描述 小明冒充 XX 星球的骑士,进入了一个奇怪的城堡。 城堡里边什么都没有,只有方形石头铺成的地面。 假设城堡地面是 nn 个方格。如下图所示。 按习俗,骑士要从西北角走到东南角。可以横向或纵向…

公司新来一00后,真让人崩溃...

2022年已经结束结束了,最近内卷严重,各种跳槽裁员,相信很多小伙伴也在准备今年的金九银十的面试计划。 在此展示一套学习笔记 / 面试手册,年后跳槽的朋友可以好好刷一刷,还是挺有必要的,它几乎涵盖了所有的…

Executor框架的两级调度模型

Executor框架的两级调度模型 在HotSpot VM的线程模型中Java线程(java.lang.Thread)被一对一映射为本地操作系统线程。Java线程启动时会创建一个本地操作系统线程;当该Java线程终止时,这个操作系统线程也会被回收。操作系统会调度…

计算机网络-网络层与链路层协议分析实验

一.实验目的 通过本实验,进一步熟悉PacketTracer的使用,学习路由器与交换机的基本配置,加深对网络层与链路层协议的理解。 二.实验内容 1.完成路由器交换机的基本配置 2.了解 ICMP 数据包的格式 3.检查ARP交换 三.实验过程 1.完成路由…

【Python】Python系列教程-- Python3 列表(十二)

文章目录 前言访问列表中的值更新列表删除列表元素Python列表截取与拼接嵌套列表列表比较Python列表函数&方法 前言 往期回顾: Python系列教程–Python3介绍(一)Python系列教程–Python3 环境搭建(二)Python系列…