(论文阅读40-45)图像描述1

40.文献阅读笔记(m-RNN)

简介

题目

Explain Images with Multimodal Recurrent Neural Networks

作者

Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Alan L. Yuille, arXiv:1410.1090

原文链接

http://arxiv.org/pdf/1410.1090.pdf

关键词

m-RNN、multimodal

研究问题

研究问题:解释图像内容;图像和句子检索。

以前的方法思路:看做句子和图像之间的检索问题。给定句子(图像)查询相应的图像(句子)。

具体实施方法:对句子和图像都提取特征,并且将其映射到相同的语义 嵌入空间。

缺点:这样的方法对新图像的描述能力弱。(不在数据库中的句子、图像无法查询,或者查询结果不准确)

针对这一任务,通常有两类方法。第一类假定有特定的语言语法规则。它们解析句子并将其分为几个部分。然后将每个部分与图像中的对象或属性关联起来(例如,使用条件随机场模型,使用马尔可夫随机场模型)。这类方法生成的句子在语法上是正确的。另一类方法与我们的方法更为相关,它们利用深度玻尔兹曼机和主题模型等,学习多模态输入(即句子和图像)空间的概率密度。与第一种方法相比,它们能生成结构更丰富、更灵活的句子。给定相应图像生成句子的概率可作为检索的亲和度指标。

研究方法

多模态循环神经网络(m-RNN):该模型直接模拟了在给定先前单词和图像的情况下生成单词的概率分布。图像描述就是从这个分布中采样生成的。该模型由两个子网络组成:用于句子的深度递归神经网络和用于图像的深度卷积网络。这两个子网络在多模态层中相互作用,形成整个 m-RNN 模型。

The whole m-RNN architecture contains a language model part, an image part and a multimodal part. The language model part learns the dense feature embedding for each word in the dictionary and stores the semantic temporal context in recurrent layers. The image part contains a deep Convulutional Neural Network (CNN) [17] which extracts image features. The multimodal part connects the language model and the deep CNN together by a one-layer representation.

语言模型学习字典中每个词的稠密特征嵌入,并在recurrent layers中存储语义时间上下文(semantic temporal context)。

图像部分包含提取图像特征的深度卷积神经网络( CNN )。

多模态部分通过单层表示将语言模型和深度CNN连接在一起。

损失函数:using a perplexity based cost function

  1. RNN在每个时间帧中有六个层:输入词层、两个词嵌入层、递归层、多模态层和 softmax 层

研究结论

模型优于最先进的生成方法。此外,m-RNN 模型还可应用于检索图像或句子的任务,与直接优化检索排序目标函数的先进方法相比,其性能有了显著提高。模型是可扩展的,并且有潜力通过为图像和句子整合更强大的深度网络来进一步改进。

创新不足

额外知识

递归神经网络:【神经网络】递归神经网络 - 知乎 (zhihu.com)

模型必须能够按照树结构去处理信息,而不是序列(循环神经网络),这就是递归神经网络的作用。

41.文献阅读笔记

简介

题目

Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models

作者

Ryan Kiros, Ruslan Salakhutdinov, Richard S. Zemel, arXiv:1411.2539.

原文链接

http://arxiv.org/pdf/1411.2539.pdf

关键词

Visual-Semantic

研究问题

图像描述

研究方法

编码器:深度卷积网络( CNN )和长短期记忆循环网络( LSTM ),用于学习图像-句子的联合嵌入。解码器:一种新的神经语言模型,它将结构向量和内容向量结合起来,用于每次依次生成单词。

解码器补充:引入了一种新的神经语言模型,称为结构-内容神经语言模型(SC-NLM)。SC-NLM 与现有模型的不同之处在于,它以编码器产生的分布式表征为条件,将句子的结构与内容割裂开来。

结构变量有助于引导模型生成短语,可以看作是一个软模板,有助于避免模型生成语法废话。

SC-NLM 可以仅根据文本进行训练。这样,我们就可以利用大量的单语文本(如非图像标题)来提高语言模型的质量。

编码器为我们提供了一种对图像和标题进行排序并开发良好评分函数的方法,而解码器则可以使用所学到的表征来优化评分函数,从而生成新的描述并对其进行评分。

研究结论

最先进的性能

创新不足

额外知识

Lstm:包含一个内置的记忆单元,用于存储信息和利用远距离上下文。LSTM 存储单元周围有门控单元,用于读写和重置信息。

42.文献阅读笔记(LRCN)

简介

题目

Long-term Recurrent Convolutional Networks for Visual Recognition and Description

作者

Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, Trevor Darrel l, arXiv:1411.4389.

原文链接

http://arxiv.org/pdf/1411.4389.pdf

关键词

recurrent convolutional

研究问题

描述了一类可端到端训练且适用于大规模视觉理解任务的递归卷积架构,并展示了这些模型在活动识别、图像标题和视频描述方面的价值。

递归卷积模型则是 "双重深度 "的,因为它们学习空间和时间的组合表征。当非线性因素被纳入网络状态更新时,学习长期依赖关系就成为可能。可微分递归模型的吸引力在于,它们可以将可变长度的输入(如视频)直接映射到可变长度的输出(如自然语言文本),并能模拟复杂的时间动态;同时,它们还能通过反向传播进行优化。

有关用于视频处理的 CNN 模型的研究已经考虑了在原始序列数据上学习三维时空滤波器,以及在固定窗口或视频镜头片段上学习帧到帧表示,其中包含了瞬时光流基于轨迹的聚合模型 。这些模型探索了感知时间序列表征学习的两个极端:要么学习完全通用的时变加权,要么应用简单的时间池。

研究方法

主张视频识别和描述模型也应在时间维度上进行深度学习,即潜在变量具有时间递归性。

LSTM 单元的隐藏状态使用非线性机制进行增强,允许状态在不修改的情况下传播、更新或重置,使用的是简单的学习门控函数。

应用于时变输入和输出的愿望不断增长的架构

研究结论

证明 LSTM 类型的模型可以提高传统视频活动挑战的识别率,并实现从图像像素到句子级自然语言描述的新颖端到端优化映射。我们还表明,这些模型改进了从传统视觉模型衍生的中间视觉表征中生成描述的能力。

创新不足

额外知识

CRF:条件随机场

43.文献阅读笔记

简介

题目

Show and Tell: A Neural Image Caption Generator

作者

Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan

原文链接

http://arxiv.org/pdf/1411.4555.pdf

关键词

研究问题

图像描述

想回答诸如"数据集大小如何影响泛化"、"它将能够实现什么样的迁移学习"、"它将如何处理弱标记样本"等问题。

研究方法

CNN(图像的表示)+LSTM(联系前后输入)

介绍了 NIC,这是一个端到端神经网络系统,可以自动查看图像并生成通俗易懂的合理描述。NIC 以卷积神经网络为基础,将图像编码为紧凑的表示形式,然后由递归神经网络生成相应的句子。对模型的训练是为了最大限度地提高给定图像的句子的可能性。

利用一个循环神经网络将可变长度的输入编码为固定维度的向量,并使用这种表示将其"解码"到期望的输出句子。

研究结论

随着图像描述可用数据集规模的扩大,NIC 等方法的性能也将随之提高。此外,如何利用来自图像和文本的无监督数据来改进图像描述方法也将是一个有趣的课题。

创新不足

额外知识

None

44.文献阅读笔记

简介

题目

Deep Visual-Semantic Alignments for Generating Image Description

作者

Andrej Karpathy, Li Fei-Fei, CVPR, 2015.

原文链接

http://cs.stanford.edu/people/karpathy/cvpr2015.pdf

关键词

对图像内容进行密集注释。

研究问题

提出了一种生成图像及其区域的自然语言描述的模型。以往视觉识别领域的大部分工作都集中在用一组固定的视觉类别标记图像上,这些工作已经取得了很大的进展。然而,尽管封闭的视觉概念词汇表构成了一种方便的建模假设,但与人类所能编写的大量丰富描述相比,它们具有极大的局限性。针对生成图像描述的挑战,已经开发出了一些开创性的方法。然而,这些模型通常依赖于硬编码的视觉概念和句子模板,这就限制了它们的多样性。此外,这些工作的重点是将复杂的视觉场景还原成一个句子,而我们认为这是不必要的限制。

研究方法

利用图像及其句子描述的数据集来学习语言和视觉数据之间的模态间对应关系。基于图像区域上的卷积神经网络,句子上的双向循环神经网络和通过多模态嵌入对齐两个模态的结构化目标的新颖组合。

描述了一种多模态循环神经网络架构,该架构使用推断的对齐来学习生成新的图像区域描述。

输入->推断->输出

研究结论

创新不足

额外知识

双向递归神经网络(Bidirectional Recurrent Neural Network,BRNN):来计算单词表示。双向递归神经网络采用 N 个单词序列(以 1-k 表示法编码),并将每个单词转换为 h 维向量。不过,每个单词的表征都会被该单词周围大小不一的上下文所丰富。

45.文献阅读笔记

简介

题目

Translating Videos to Natural Language Using Deep Recurrent Neural Networks

作者

Subhashini Venugopalan, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond Mooney, Kate Saenko, NAACL-HLT, 2015.

原文链接

http://arxiv.org/pdf/1412.4729.pdf

关键词

视频翻译

研究问题

将视频直接翻译成句子.描述的视频数据集稀缺,现有的大多数方法已被应用于可能词汇量较小的玩具领域。人们已经提出了针对具有一小部分已知动作和对象的狭窄领域的解决方案.

研究方法

同时具有卷积和循环结构的统一深度神经网络将视频直接翻译成句子。

该网络在 120 多万张带有类别标签的图像上进行了预先训练.

他们将其模型的一个版本应用于视频到文本的生成,但没有提出端到端的单一网络,而是使用了中间角色表示。

利用长短期记忆(LSTM)递归神经网络来建立序列动态模型,但将其直接连接到深度卷积神经网络来处理传入的视频帧,从而完全避免了监督中间表征。

研究结论

提出了一种用于视频描述的模型,该模型使用神经网络从像素到句子的整个流水线,并且可以潜在地允许整个网络的训练和调整。在一个广泛的实验评估中,我们表明我们的方法比相关的方法生成更好的句子。我们还表明,与仅依赖视频描述数据相比,利用图像描述数据可以提高性能。然而,我们的方法在更好地利用视频中的时间信息方面存在不足

创新不足

每帧都进行卷积处理,运算量太大.

额外知识

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/159855.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Odoo:行业领先的免费开源财务管理解决方案

面向现代企业的财务和会计软件 可靠关账,更快速、更准确地报告财务数据 Odoo ERP财务和会计软件可帮助财务主管设计、革新和理顺财务流程和运营。Odoo ERP无缝整合各种核心财务和会计功能,提供强大的合规管理特性,有助于企业改善业务绩效、提…

react 手机端 rc-table列隐藏(根据相关条件是否隐藏)、实现图片上传操作

最近公司某一项目的手机端,新增需求:table中的附件要可以编辑,并且是在特定条件下可编辑,其他仅做展示效果。 查阅官方文档,没有发现是否隐藏这一属性,通过css控制样式感觉也比较麻烦,后面发现可…

预告|万博智云CTO孙琦将出席2023 OpenInfra Days China,并发表最新容灾方案,欢迎报名参会!

2023年12月1日,北京海航万豪酒店将迎来一场令人瞩目的盛会——OpenInfra Days China 2023。 大会主题 本次活动是时隔两年来的首次线下盛会,聚集了全球社区的技术专家、行业领袖以及国内开源基础设施技术企业的代表,旨在交流研究OpenInfra基…

小程序授权获取头像

wxml <view class"header"><text>头像</text><button class"butt" plain"true" open-type"chooseAvatar" bind:chooseavatar"chooseAvatar"><image src"{{HeadUrl}}" mode"&quo…

Vue3-watchEffect函数

Vue3-watchEffect函数 功能&#xff1a;watchEffect 函数在一开始时就会执行一次&#xff0c;而当中的回调函数的属性发生变化&#xff0c;那么watchEffect 就会再执行一次&#xff0c;主要作用还是在于监视回调函数每次的变化。 // App.vue <template><h2>计数…

JavaScript 浮点数运算的精度问题及解决

JavaScript 浮点数运算的精度问题及解决 在 JavaScript 中整数和浮点数都属于 Number 数据类型&#xff0c;当浮点数做数学运算的时候&#xff0c;你经常会发现一些问题&#xff0c;举几个例子&#xff1a; 0.1 0.2 0.30000000000000004 console.log(0.1 0.2) 0.3000000…

“可信区块链运行监测服务平台TBM发展研讨会”将于11月23日在北京召开

为推动区块链治理与创新&#xff0c;积极推进信任科技生态体系建设&#xff0c;中国信息通信研究院、中国移动设计院联合区块链服务网络&#xff08;BSN&#xff09;发展联盟共同发起建立了可信区块链运行监测服务平台&#xff08;TBM&#xff09;。 TBM平台通过对区块链系统的…

requests爬虫IP连接初始化问题及解决方案

问题背景 在使用HTTPS爬虫IP连接时&#xff0c;如果第一次请求是chunked方式&#xff0c;那么HTTPS爬虫IP连接将不会被初始化。这个问题可能会导致403错误&#xff0c;或者在使用HTTPS爬虫IP时出现SSL错误。 解决方案 为了解决这个问题&#xff0c;我们可以在requests库的ada…

vue项目本地开发完成后部署到服务器后报404

vue项目本地开发完成后部署到服务器后报404是什么原因呢&#xff1f; 一、如何部署 前后端分离开发模式下&#xff0c;前后端是独立布署的&#xff0c;前端只需要将最后的构建物上传至目标服务器的web容器指定的静态目录下即可 我们知道vue项目在构建后&#xff0c;是生成一系…

仿真2.0 - 引入生成式AI

仿真模型是物理对象、系统或过程的虚拟表示&#xff0c;可预测其在不同场景中的行为和性能。 如今&#xff0c;仿真模型广泛应用于各行各业&#xff0c;以优化流程、为决策提供信息并创建数字孪生。 几十年来&#xff0c;仿真模型一直被用来对复杂的系统和过程进行建模。 这些…

interview review

M: gamma correction 人眼和相机对强度的变化敏感程序不一样, 人对暗部更敏感. 上面一条人眼觉得是均匀, 下面一条是相机真实的均匀. 人眼觉得的中间值 在相机中是21.8%, 为了让灰度的分布更符合人眼, 我们需要对图片进行gamma校正, 使得各用128个数字来表示相机真实世界中…

CentOS Linux release 7.9.2009 (Core)中安装配置Tomcat

一、安装JDK 部分内容可以参考我这篇文章&#xff1a;Windows11与CentOS7下配置与检测JDK与Maven环境变量 中的 2.2 安装jdk-8u371-linux-x64.tar.gz和配置环境变量/etc/profile //1、安装redhat-lsb yum install -y redhat-lsb//2、查看系统版本信息 lsb_release -a //3、查…

.NET 8.0 中有哪些新的变化?

1性能提升 .NET 8在整个堆栈中带来了数千项性能改进 。默认情况下会启用一种名为动态配置文件引导优化 (PGO) 的新代码生成器&#xff0c;它可以根据实际使用情况优化代码&#xff0c;并且可以将应用程序的性能提高高达 20%。现在支持的 AVX-512 指令集能够对 512 位数据向量执…

java:springboot单元测试spring-boot-starter-test

背景 Java的单元测试可以使用多个框架&#xff0c;其中比较流行的包括&#xff1a; JUnit&#xff1a;JUnit是Java单元测试最常用的框架&#xff0c;它提供了一套丰富的API&#xff0c;可以方便地编写测试用例和测试套件。JUnit 5是JUnit的最新版本&#xff0c;引入了许多新功…

汽车ECU的虚拟化技术初探(三)--U2A虚拟化辅助功能分析1

目录 1.基本概述 1.1 U2A虚拟化辅助功能 1.2 U2A虚拟化使能和资源分配 2. U2A架构概述 3. CPU运行模式 3.1 虚拟化模式 3.2 限制运行模式 3.3 权限运行模式 3.4 CPU运行模式小结 4.小结 1.基本概述 1.1 U2A虚拟化辅助功能 在汽车ECU的虚拟化技术初探(二)-CSDN博客中…

Boolean源码解剖学

原创/朱季谦 有天突发其想&#xff0c;想看一下Boolean底层都做了些什么&#xff0c;故而去看了一番Boolean的源码&#xff0c;基于一些思考的基础上&#xff0c;输出了这篇文章。 一.类继承 Boolean的源码类定义部分如下&#xff1a; 1 public final class Boolean implemen…

初学Redis(Redis的启动以及字符串String)

首先使用在Windows PowerShell中输入指令来启动Redis&#xff1a; redis-server.exe 然后通过指令连接Redis&#xff1a; redis-cli 上图的127.0.0.1是计算机的回送地址 &#xff0c;6379是默认端口 上述代码中创建了两个键&#xff0c;注意Redis中严格区分大小写&#xff0…

策略模式在数据接收和发送场景的应用(升级版)

1.背景 在数据接收和发送场景打算使用了 if else 进行判断&#xff1a; if("A".equals(system)){ASystem.sync("向A同步数据"); } if("B".equals(system)){BSystem.sync("向B同步数据"); } ... 非常麻烦&#xff0c;需求多了很臃肿&…

phpStorm Xdebug调试 加FireFox浏览器

步骤1&#xff1a; [Xdebug] zend_extension“D:\phpstudy_pro\Extensions\php\php5.4.45nts\ext\php_xdebug.dll” xdebug.collect_params1 xdebug.collect_return1 xdebug.remote_enableOn xdebug.remote_hostlocalhost xdebug.remote_port9001 xdebug.remote_handlerdbgp ;…

什么是Sectigo SSL证书

Sectigo SSL证书是由全球领先的网络安全公司Comodo和Symantec合并后成立的Sectigo公司所提供的一种数字证书。它能够为您的网站提供一个强大的安全套接字层&#xff08;SSL&#xff09;加密&#xff0c;确保您的网站与用户的数据传输过程中的安全性。 为什么选择Sectigo SSL证…