视频理解开山之作 “双流网络”

1 论文核心信息

1.1核心问题

  • 任务:如何利用深度学习方法进行视频中的动作识别(Action Recognition)。
  • 挑战
    • 视频包含时空信息,既需要捕捉静态外观特征(Spatial Information),也需要建模运动信息(Temporal Information)。(空间以及时间)
    • 现有基于单帧输入的 CNN 模型在视频理解任务上的表现不如传统的手工特征(如 Dense Trajectories)。
  • 解决方案:提出双流卷积神经网络(Two-Stream ConvNets),分别建模静态和运动信息。

1.2 论文主要贡献 

  • 提出 Two-Stream ConvNet 架构:由空间流(Spatial Stream)时间流(Temporal Stream) 组成:

    • 空间流(Spatial Stream):基于单帧 RGB 图像进行分类。
    • 时间流(Temporal Stream):基于**多帧密集光流(Dense Optical Flow)**进行分类。
    • 两个流的 softmax 预测结果融合,提高识别性能。
  • 证明光流作为输入有助于学习时序信息:相比直接输入多帧 RGB 图像,基于光流的方法效果更好

  • 利用多任务学习(Multi-task Learning):在多个数据集上进行联合训练,提高泛化能力。

  • 在 UCF-101、HMDB-51 数据集上达到 SOTA:比之前 CNN 方法显著提升,并接近于基于手工特征的 SOTA 方法

2 深度技术细节

2.1 神经架构

(1) 输入数据

  • 输入视频(左侧):视频序列被送入两个不同的 CNN 流。

  • 空间流(Spatial Stream ConvNet)(上方绿色框):

    • 输入单帧 RGB 图像(single frame)。

    • 主要学习静态外观信息,如背景、物体形状等。

  • 时间流(Temporal Stream ConvNet)(下方紫色框):

    • 输入多帧光流(multi-frame optical flow)。

    • 主要学习运动信息,如物体的移动方向、速度等。

(2) CNN 结构

两个流的 CNN 结构基本相同:

  • conv1:7×7 卷积核,stride=2,norm,pooling 2×2
  • conv2:5×5 卷积核,stride=2,pooling 2×2
  • conv3, conv4, conv5:3×3 卷积核,stride=1,pooling 2×2
  • 全连接层(FC)
    • fc6:4096 维 + dropout(40%)
    • fc7:2048 维 + dropout(40%)
    • softmax 分类

(3) 结果融合

  • 两个 CNN 输出的 softmax 结果融合(右侧红色框)。

  • 融合方式

    • 平均融合(Averaging)

    • SVM 训练(支持向量机)

2.2 为什么使用光流? 

  • 光流(Optical Flow) 提供了显式的运动信息,使网络能够直接学习时序关系,而不需要 CNN 直接从 RGB 帧中推导运动。(de就是竖直和水平方向)
  • 试验表明,使用多帧 RGB 作为输入时,CNN 无法有效建模运动信息,而光流可以显著提升性能。

2.3   训练策略

  • 空间流 CNN 预训练于 ImageNet,然后迁移到 UCF-101 和 HMDB-51 进行微调。
  • 时间流 CNN 直接在视频数据集上训练,因没有类似 ImageNet 的大规模视频数据可供预训练。
  • 采用多任务学习(Multi-task Learning),在 UCF-101 和 HMDB-51 数据集上联合训练,以增强泛化能力。

3 优缺点分析(现在)

双流网络(Two-Stream Networks)是一种常见的深度学习架构,通常用于视频分析、动作识别等任务。它的基本思想是通过两个不同的网络流来处理不同类型的信息流。最典型的例子是视频分类任务中的两个流,一个处理静态图像信息(通常是视频的每一帧),另一个处理动态信息(通常是光流,描述了视频帧之间的运动)。下面是双流网络的优缺点分析:

优点

  1. 能够处理多模态信息

    双流网络能够同时处理不同类型的输入信息,例如静态图像流和动态光流流。通过结合这两种信息,可以更全面地理解视频内容,尤其在动作识别中,静态图像能够捕捉物体的外观信息,而动态流可以捕捉物体的运动信息。
  2. 增强表达能力

    每个流都专注于不同的特征提取任务,从而有助于模型提取更多的信息并增强分类的准确性。例如,光流流能够捕捉时间上的运动变化,静态图像流则可以捕捉空间上的细节。
  3. 提高鲁棒性

    由于网络通过不同流处理不同类型的信息,能够在某种信息缺失的情况下,仍然保持较强的鲁棒性。例如,如果一个流受到噪声影响,另一个流仍然能提供有用的信息。

缺点:

  1. 计算开销大

    • 双流网络需要两个独立的网络处理不同的流,这意味着需要更多的计算资源,尤其是在处理长视频或高分辨率图像时。两条流分别进行计算和特征提取,导致网络参数量和计算复杂度较高。

  2. 训练难度高

    • 双流网络需要同时训练两个流,这可能会增加训练过程的复杂性,并且两个流之间的学习过程可能不完全同步,导致训练过程不稳定或收敛速度较慢。

  3. 难以共享信息

    • 虽然两个流可以分别处理不同的信息,但它们并不总是能够很好地共享信息。这可能导致某些信息在流之间没有得到有效融合,降低模型的整体性能。

  4. 对数据质量要求高

    • 双流网络依赖于不同类型的数据(如图像和光流),如果数据不充分或质量不高,可能会导致信息缺失或冗余,影响最终的识别效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/983642.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ARMv8寄存器的介绍

一、寄存器的作用 寄存器是CPU的内部组成单元,是CPU运算时取指令和数据最快的地方。它可以用来暂存指令、数据和地址。在CPU的控制部件中,包含的寄存器有指令寄存器(IR)和程序计数器(PC)。CPU的算术逻辑部…

步进电机软件细分算法解析与实践指南

1. 步进电机细分技术概述 步进电机是一种将电脉冲信号转换为角位移的执行机构,其基本运动单位为步距角。传统步进电机的步距角通常为 1.8(对应 200 步 / 转),但在高精度定位场景下,这种分辨率已无法满足需求。细分技术…

【AD】5-12 Object元素的隐藏与显示

1.CtrlD进入Object显示界面,进行显示或隐藏

【 <一> 炼丹初探:JavaWeb 的起源与基础】之 Servlet 过滤器:实现请求的预处理与后处理

<前文回顾> 点击此处查看 合集 https://blog.csdn.net/foyodesigner/category_12907601.html?fromshareblogcolumn&sharetypeblogcolumn&sharerId12907601&sharereferPC&sharesourceFoyoDesigner&sharefromfrom_link <今日更新> 一、过滤器&…

Linux16-数据库、HTML

数据库&#xff1a; 数据存储&#xff1a; 变量、数组、链表-------------》内存 &#xff1a;程序运行结束、掉电数据丢失 文件 &#xff1a; 外存&#xff1a;程序运行结束、掉电数据不丢失 数据库&#xff1a; …

uniapp实现的个人中心页面(仿小红书)

采用 uniapp 实现的一款仿小红书个人中心页面模板&#xff0c;支持vue2、vue3, 同时适配H5、小程序等多端多应用。 简约美观大方 可到插件市场下载尝试&#xff1a; https://ext.dcloud.net.cn/plugin?id22516 示例

【运维篇】KubeSphere-02(经验汇总)

一、使用建议 1.对于数据库、对像存储比较重的要不能丢失&#xff0c;有异地存储备份需求的有状态服务&#xff0c;不建议采用k8s进行部署&#xff0c;会导致运维难度更大。 2.对于中间件如redis、MQ、harbor、seata、nacos、zookeeper可采用k8s部署。 3.对于无状态服务tomc…

基于单片机及传感器的机器人设计与实现

摘要 : 本设计基于单片机及多种传感器 , 完成了一个自主式移动机器人的制作。单片机作为系统检测和控制的核心 , 实现对机器人小车的智能控制。反射式红外光电传感器检测引导线, 使机器人沿轨道自主行走 ; 使用霍尔集成片 , 通过计车轮转过的圈数完成机器人行走路程测量; …

SQLiteStudio:一款免费跨平台的SQLite管理工具

SQLiteStudio 是一款专门用于管理和操作 SQLite 数据库的免费工具。它提供直观的图形化界面&#xff0c;简化了数据库的创建、编辑、查询和维护&#xff0c;适合数据库开发者和数据分析师使用。 功能特性 SQLiteStudio 提供的主要功能包括&#xff1a; 免费开源&#xff0c;可…

SpringBoot过滤器(Filter)的使用:Filter接口、FilterRegistrationBean类配置、@WebFilter注释

1、过滤器(Filter)的介绍 Spring Boot 的过滤器用于对数据进行过滤处理。通过 Spring Boot 的过滤器,程序开发人员不仅可以对用户通过 URL 地址发送的请求进行过滤处理(例如:过滤一些错误的请求或者请求中的敏感词等),而且可以对服务器返回的数据进行过滤处理(例如:压…

第11章 web应用程序安全(网络安全防御实战--蓝军武器库)

网络安全防御实战--蓝军武器库是2020年出版的&#xff0c;已经过去3年时间了&#xff0c;最近利用闲暇时间&#xff0c;抓紧吸收&#xff0c;总的来说&#xff0c;第11章开始学习利用web应用程序安全&#xff0c;主要讲信息收集、dns以及burpsuite&#xff0c;现在的资产测绘也…

PQL查询和监控各类中间件

1 prometheus的PQL查询 1.1 Metrics数据介绍 prometheus监控中采集过来的数据统一称为Metrics数据&#xff0c;其并不是代表具体的数据格式&#xff0c;而是一种统计度量计算单位当需要为某个系统或者某个服务做监控时&#xff0c;就需要使用到 metrics prometheus支持的met…

23年以后版本pycharm找不到conda可执行文件解决办法

这个问题很痛苦&#xff0c;折磨了我半天。 就是链接远程服务器的时候 就一直以为这三个都要配置 就这个conda环境这里怎么都找不到服务器的虚拟环境的python可执行文件&#xff0c;非常痛苦。 后面查找了资料&#xff0c;找了好久&#xff0c;才发现&#xff0c;原来只需要配…

后智能体时代的LLM和Agent

文章目录 1. 关于AI重塑的哲学体系2. 关于AI大模型体系的认知3. 关于AI大模型体系的畅想4. 关于人和AI大模型体系的共处5. 写在最后 随着OpenAI、Deepseek、Manus等等智能体的爆火&#xff0c;人们茶前饭后、插科打诨的话题都离不开这些智能体&#xff0c;现状也正如《人民日报…

QTreeWidget指定子节点弹出菜单

方法&#xff1a;判断父对象 connect(ui->treeWidget_nav, &QTreeWidget::itemChanged, [](QTreeWidgetItem *TWI){if (TWI->parent() TWI_bookmark) {qDebug() << TWI->data(0, LOCATION_OF_REAL_PATH).toString() << TWI->text(0);} }); ui->…

R语言使用scitable包交互效应深度挖掘一个陌生数据库

很多新手刚才是总是觉得自己没什么可以写的&#xff0c;自己不知道选什么题材进行分析&#xff0c;使用scitable包后这个完全不用担心&#xff0c;选题多到你只会担心你写不完&#xff0c;写得不够快。 今天演示一下使用scitable包深度挖掘一个陌生数据库 先导入R包和数据 li…

神经网络|(十五)|霍普菲尔德神经网络-Storkey 训练

【1】引言 前序学习进程中&#xff0c;对霍普菲尔德神经网络有了初步认识&#xff0c;使用Hebbian方法测试了霍普菲尔德神经网络算法。相关学习文章链接为&#xff1a; 神经网络|(十四)|霍普菲尔德神经网络-CSDN博客 在此基础上&#xff0c;尝试探索使用Storkey方法对霍普菲…

算法006——和为S 的两个数

力扣——查找总价格为目标值的两个商品点击跳转 注意题目中的关键信息升序 我们利用双指针&#xff0c;不管 target 是多少&#xff0c;让一个指针指向最小值&#xff0c;让一个指针指向最大 那么&#xff0c;共有三种情况 我们首先遇到的是第二种情况 sum < target left …

【推荐项目】039-酒店预定系统

039-酒店预定系统 介绍 Java ssm 酒店预定管理系统 针对您提出的酒店预定系统&#xff0c;以下是一个基于SSM&#xff08;Spring Spring MVC MyBatis&#xff09;框架与JSP技术的功能结构整理&#xff0c;该系统分为管理端与用户端两大模块&#xff1a; 一、管理端功能 个…

从0开始,手搓Tomcat

一、什么是Tomcat Tomcat 是一款开源的、轻量级的 Web 服务器&#xff0c;它不仅能够提供 HTTP 服务&#xff0c;还能够运行 Java Servlet 和 JavaServer Pages&#xff08;JSP&#xff09;。对于许多开发者来说&#xff0c;理解 Tomcat 的目录结构以及如何在该结构中组织应用…