【论文笔记】Large Brain Model (LaBraM, ICLR 2024)

在这里插入图片描述

Code: https://github.com/935963004/LaBraM
Data: 无


目录

    • Abstract
    • Introduction
    • Method
      • Neural tokenizer training:
      • Pre-training LaBraM:
    • Results
      • Experimental setup:
      • Pre-training result:
      • Comparison with SOTA:
      • Pre-training with/without downstream datasets:
      • Scaling data size:
    • Conclusion
    • Related work
    • Appendix
      • Effectiveness of VQ:
      • LaBraM without pre-training:
    • Discussion


Abstract

本文介绍了一种新型的大型脑电图(EEG)模型,名为Large Brain Model(LaBraM),旨在克服传统基于EEG的深度学习模型在脑机接口(BCI)应用中的局限性,如模型规模有限、感知能力和泛化性不足。LaBraM通过无监督预训练来获得对EEG信号的通用感知能力,然后可以针对不同的下游任务进行微调。

LaBraM面临的挑战包括EEG数据集规模小、格式差异大、电极数量不匹配、数据样本长度不等、任务设计多样以及信噪比低。为了应对这些挑战,LaBraM通过将EEG信号分割成EEG通道片段,使用向量量化神经谱预测技术训练一个语义丰富的神经tokenizer,将连续的原始EEG通道片段编码成紧凑且离散的神经tokens。然后,通过预测掩蔽EEG通道片段的原始神经tokens来预训练神经Transformer。

LaBraM在约2500小时、来自约20个数据集的多种类型的EEG信号 上进行了预训练,并在多种下游任务上进行了验证,包括异常检测、事件类型分类、情感识别和步态预测。实验结果表明,LaBraM在各自领域的表现超过了所有比较的SOTA(State of the Art)方法。


Introduction

  • 背景:当前的EEG模型缺乏跨任务的学习能力,泛化性较差。
  • 动机:大语言模型(LLMs)的成功表明自监督掩码预训练的方式对于大规模数据应用的潜力,将重建思想应用于预训练神经Transformer可能对下游任务是有效的。
  • 挑战
    1. 缺乏足够的EEG数据:如何利用大量的未标记EEG数据集?以及多大的数据够用?
    2. 不同的EEG数据集有不同的采集配置:如何处理不同格式的EEG数据以匹配神经Transformer的输入层?
    3. 缺乏有效的EEG表征学习范式:EEG的低信噪比特点,以及如何平衡时间和空间特征?
  • 贡献
    1. 大规模EEG预训练:在超过2500小时的EEG数据上预训练
    2. 兼容各种EEG配置:LaBraM 是统一的模型,能够在灵活的辅助下处理各种通道和时间长度的 EEG 信号。预训练的 LaBraM 可以适应任何具有不同配置的下游数据集
    3. 有效的EEG表征学习:神经 Transformer 使该模型能够有效捕获具有不同通道和长度的脑电图信号的时间和空间特征,使其适用于脑电图分析中的各种下游任务。并进一步定义了一个神经密码本(CodeBook),它提供了一种紧凑、通用且有意义的EEG信号表示。
    4. 下游数据集综合实验:作者在 BCI 的四个代表性下游任务上评估了 LaBraM,结果表明在很大程度上超越了所有为特定任务而开发的 SOTA 方法。

Method

在这里插入图片描述

Neural tokenizer training:

在通过掩码预测对 LaBraM 进行预训练之前,需要先将 EEG 标记为离散tokens。这一部分主要基于 Van Den Oord 的 VQVAE 架构实现

  • EEG数据token化:首先通过一个 tokenizer 模块将EEG根据时间和通道两个维度划分为patch矩阵
  • tokens 的向量量化:基于VQVAE的思想,将上一步得到的patch通过最近邻的方式找到一个预定义的 CodeBook 上的向量来代替这个patch,更新patch矩阵
  • 傅里叶谱预测:重建的目标被设定为EEG信号的傅里叶频谱的频率和相位分布(作者在预实验中发现直接重建EEG信号损失无法收敛,可能是SNR过低导致),作者认为这两种特征揭示了大脑潜在的神经生理活动(存在改进空间,这里的重建目标决定了后续预训练的下游任务的上限)。
  • VQ的预测损失:包含两种预测目标的重建损失,以及 CodeBook 的更新损失
    在这里插入图片描述

Pre-training LaBraM:

  • 模型架构:时序 encoder → 叠加时序和空间 embedding → 大量Transformer模块 → Tokens预测头
  • 掩码输入:同样地划分为patch矩阵,然后随机选取一定比例的patch进行掩蔽,同时为了提高训练效率和内存使用,将随机掩码的对称patch矩阵同时作为输入,也可以起到数据增广的作用。
  • 预测目标:上一步得到的离散tokens。
    在这里插入图片描述

Results

Experimental setup:

  • Pre-training:在超过2500h的EEG数据上训练神经tokenizer和预训练 LaBram
  • Fine-tuning:在四个下游数据集上进行全微调 LaBram

Pre-training result:

在这里插入图片描述

Comparison with SOTA:

表 1 和表 2 展示了最先进的baseline以及LaBraM在 TUAB 和 TUEV 的结果。结果表明,LaBraM-Base 模型在这两项任务的各种评估指标上均优于所有baseline。随着模型参数数量的增加,LaBraM-Huge 模型表现最好。作者认为有了足够的数据量,大规模脑电图模型可以学习更通用的脑电图模式,从而提高脑电图分析中各种下游任务的性能。
在这里插入图片描述

Pre-training with/without downstream datasets:

在这里插入图片描述

如图 4 所示,是否将下游任务数据集纳入模型的预训练过程不会显着影响模型在下游任务上的性能。这表明 LaBraM 模型具有学习通用脑电图表示的能力

Scaling data size:

在这里插入图片描述

如图所示,随着数据规模的不断扩大,Huge模型的性能呈现出明显的上升趋势。这些结果基本遵循 scaling law,所以作者大胆推断,在数据量至少为一万小时的情况下,Huge 模型将继续表现得更好。


Conclusion

LaBraM是一个通过无监督预训练学习通用embedding的大型脑电图(EEG)模型,能够处理多样化的EEG数据集。LaBraM通过分割EEG信号和使用向量量化神经谱预测来生成丰富的语义tokenizer,并利用神经Transformer架构在大规模数据上预训练学习EEG信号的时空间特征,适用于多种EEG分析任务。在异常检测、事件分类、情感识别和步态预测等任务中,LaBraM的表现超越了当前最先进方法,有望推动EEG深度学习模型的发展。


Related work

  • BCI 中的自监督学习BrainBERT(Wang 等人,2023)掩蔽立体脑电图 (SEEG) 频谱图的随机部分,并使用 43.6 小时的数据生成原始嵌入。

Appendix

Effectiveness of VQ:

在这里插入图片描述

LaBraM without pre-training:

直接在下游数据集上从头开始训练 LaBraM,无需预训练,性能急剧下降证明了预训练的有用性。
在这里插入图片描述


Discussion

  • Limitations
    1. 虽然作者收集了有史以来最大的超过2500小时的脑电图数据集,并为BCI训练了有史以来最大的3.69亿参数的模型,但与当今的大型视觉模型和大型语言模型相比,仍然有很大的差距。
    2. LaBraM 需要进行全面微调以适应下游任务,这可能会耗费计算成本和内存成本。
    3. LaBraM 使用单峰脑电图数据进行训练。研究用其他方式训练大型脑电图模型是值得的。
  • Outlook
    1. 涌现能力:从各种BCI任务中收集更多的脑电数据,并训练更大的脑电模型,看看脑电模型中是否存在类似于大型语言模型的涌现能力
    2. 高效性:利用适配器、即时调优、LoRA等参数高效学习方法,减少微调开销,节省磁盘空间
    3. 多模态:将图像、语言、语音和其他生理信号等其他模态纳入大型脑电图模型训练中以构建新的范式,或将脑电图表示与语义空间中的其他模态对齐,这可能是未来工作的一个有意义且具有挑战性的方向。

创作不易,麻烦点点赞和关注咯!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/920675.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AnythingLLM - 任何文档资源内容转换为任何LLM

更多AI开源软件: AI开源 - 小众AIhttps://www.aiinn.cn/sources 一个全栈应用程序,使您能够将任何文档、资源或内容转换为任何 LLM 都可以在聊天期间用作参考的上下文。此应用程序允许您选择要使用的 LLM 或矢量数据库,并支持多用户管理和权…

PDF内容提取,MinerU使用

准备环境 # python 3.10 python3 -m pip install huggingface_hub python3 -m pip install modelscope python3 -m pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com下载需要的模型 import json import osimport requests from huggingface_hub…

【阅读记录-章节3】Build a Large Language Model (From Scratch)

目录 3 Coding attention mechanisms3.1 The problem with modeling long sequences背景:注意力机制的动机 3.2 Capturing data dependencies with attention mechanismsRNN的局限性与改进Transformer架构的革命 3.3 Attending to different parts of the input wit…

Kubernetes配置管理ConfigMap、Secret

Your burden will become a gift, and your suffering will light your way. 应用部署的一个最佳实践是将应用所需的配置信息与程序分离,这样可以使应用程序被更好地复用,通过不同的配置也能实现更灵活的功能。将应用打包为容器镜像后,可以通过环境变量或者外挂文件的方式在…

141. Sprite标签(Canvas作为贴图)

上节课案例创建标签的方式,是把一张图片作为Sprite精灵模型的颜色贴图,本节给大家演示把Canvas画布作为Sprite精灵模型的颜色贴图,实现一个标签。 注意:本节课主要是技术方案讲解,默认你有Canvas基础,如果没有Canvas基…

「OpenCV交叉编译」ubuntu to arm64

Ubuntu x86_64 交叉编译OpenCV 为 arm64OpenCV4.5.5、cmake version 3.16.3交叉编译器 gcc-arm-10.2-2020.11-x86_64-aarch64-none-linux-gnu 可在arm或linaro官网下载所需版本,本文的交叉编译器可点击链接跳转下载 Downloads | GNU-A Downloads – Arm Developer L…

鸿蒙网络编程系列48-仓颉版UDP回声服务器示例

1. UDP回声服务器简介 回声服务器指的是这样一种服务器,它接受客户端的连接,并且把收到的数据原样返回给客户端,本系列的第2篇文章《鸿蒙网络编程系列2-UDP回声服务器的实现》中基于ArkTS语言在API 9的环境下实现了UDP回声服务器&#xff0c…

【WPF】Prism学习(七)

Prism Dependency Injection 1.注册类型(Registering Types) 1.1. Prism中的服务生命周期: Transient(瞬态):每次请求服务或类型时,都会获得一个新的实例。Singleton(单例&#xf…

springboot基于Hadoop的NBA球员大数据分析与可视化(1)(6)

摘 要 科学技术日新月异,人们的生活都发生了翻天覆地的变化,NBA球员大数据分析与可视化系统当然也不例外。过去的信息管理都使用传统的方式实行,既花费了时间,又浪费了精力。在信息如此发达的今天,可以通过网络这个媒…

Q3净利增长超预期,文心大模型调用量大增,百度未来如何分析?

首先,从百度发布的2024年第三季度财务报告来看,其净利润同比增长17%,超出了市场预期,显示出百度整体财务表现的强劲。这一增长不仅体现在总营收和百度核心营收上,更具体地反映在归属百度核心的净利润上,这标…

Vscode/Code-server无网环境安装通义灵码

Date: 2024-11-18 参考材料:https://help.aliyun.com/zh/lingma/user-guide/individual-edition-login-tongyi-lingma?spma2c4g.11186623.0.i0 1. 首先在vscode/code-server插件市场中安装通义插件,这步就不细说了。如果服务器没网,会问你要…

开源TTS语音克隆神器GPT-SoVITS_V2版本地整合包部署与远程使用生成音频

文章目录 前言1.GPT-SoVITS V2下载2.本地运行GPT-SoVITS V23.简单使用演示4.安装内网穿透工具4.1 创建远程连接公网地址 5. 固定远程访问公网地址 前言 本文主要介绍如何在Windows系统电脑使用整合包一键部署开源TTS语音克隆神器GPT-SoVITS,并结合cpolar内网穿透工…

实战 | C#中使用YoloV8和OpenCvSharp实现目标检测 (步骤 + 源码)

导 读 本文主要介绍在C#中使用YoloV8实现目标检测,并给详细步骤和代码。 详细步骤 【1】环境和依赖项。 需先安装VS2022最新版,.NetFramework8.0,然后新建项目,nuget安装 YoloSharp,YoloSharp介绍: https://github.com/dme-compunet/YoloSharp 最新版6.0.1,本文…

IDE配置tomcat

1.导航到 Tomcat 安装目录 E:\apache-tomcat-9.0.95-windows-x64\apache-tomcat-9.0.95 2.启动 Tomcat 服务:bin\startup.bat

python读取Oracle库并生成API返回Json格式

一、安装必要的库 首先,确保已经安装了以下库: 有网模式 pip install flask pip install gevent pi install cx_Oracle离线模式: 下载地址:https://pypi.org/simple/flask/ # a. Flask Werkzeug-1.0.1-py2.py3-none-any.whl J…

MAC借助终端上传jar包到云服务器

前提:保证工程本地已打包完成:图中路径即为项目的target目录下已准备好的jar包 第一步:打开终端(先不要连接自己的服务器),输入下面的上传命令: scp /path/to/local/app.jar username192.168.1…

Python数据分析NumPy和pandas(四十、Python 中的建模库statsmodels 和 scikit-learn)

主要学习两个流行的建模工具包,statsmodels 和 scikit-learn。 一、pandas 与模型代码之间的接口 模型开发的常见工作流程是使用 pandas 进行数据加载和清理,然后再切换到建模库来构建模型本身。模型开发过程的一个重要部分在机器学习中称为特征工程&a…

实操案例|TinyVue树表+动态行合并

本文由孟智强同学原创。 背景 团队某个小项目切换 UI 框架,要将 Element 换成 TinyVue。期间遇到一个树表形式的业务表格,支持多级下钻,且第一列有合并行。当初用 Element 实现这个表格时费了一些周折,料想 TinyVue 上场应该也不…

Mesh路由组网

Mesh无线网格网络,多跳(multi-hop)网络,为解决全屋覆盖信号,一般用于家庭网络和小型企业 原理 网关路由器(主路由,连接光猫),Mesh路由器(子路由,…

基于Windows系统用C++做一个点名工具

目录 一、前言 二、主要技术点 三、准备工作 四、主界面 1.绘制背景图 2、实现读取花名册功能 3.实现遍历花名册功能 4.实现储存功能 4.1创建数据库 4.2存储数据到数据库表 4.3读取数据库表数据 一、前言 人总是喜欢回忆过去,突然回忆起…