Product1M 深度理解 PPT

系列论文研读目录


文章目录

  • 系列论文研读目录


在这里插入图片描述
模态内检索:是指在同一模态(例如,图像、文本或音频)中进行的检索任务。它通常涉及在同一类型的数据中查找相关项。比如下面图像只能查询图像,文本只能查询文本,视频只能查询视频
跨模态检索:是指在不同模态之间进行的检索任务,即使用一种模态的数据来检索另一种模态的数据。图像可以查找相关的文本的结果,文本可以查找相关的检索的结果,和视频的结果。
然而,这两种检索的方法通常受到单一模态输入的影响,这使得它们难以应用于许多现实世界的场景,其中查询和目标中都存在多模态信息。比如假设你在一个在线购物平台上搜索一款运动鞋。
上传了一张运动鞋的图片,并附上文本描述:“我想要一双红色的运动鞋。”这两种模态作为查询的根据
而目标(Targets)是数据库中有多款运动鞋的记录,每款记录包含:图像:每双鞋的图片。还有文本描述:关于每双鞋的详细描述,例如“红色运动鞋,适合跑步,轻便舒适”。

在这里插入图片描述
WSOD:弱监督目标检测:是一种目标检测方法,它利用有限的标注信息来训练模型。与传统的目标检测方法需要大量的精确标注(如边界框)不同,WSOD通常只依赖于弱标注,例如图像级标签或少量的边界框。。
WSOD通常依赖于预定义类的固定大小的集合,并且不容易适用于我们提出的任务,比如WSOD依赖于预定义的类标签,这意味着模型只能识别这些特定的类别。当商品种类不断变化或新增时,模型需要重新训练以适应新的类标签,这在实际应用中效率低下且成本高昂。
在这里插入图片描述
跨模态的自我监督学习,之前的自我监督学习有单流双流,两种,下面左边是单流的vilt右边是双流的vilbert,但是单流双流的这些方法不是为实例级检索量身定制的,作者展示了它们可能由于网络架构中的设计缺陷和不适当的代理任务而存在缺陷。
在这里插入图片描述
电子商务的商品种类高度丰富,网上消费者的需求多样化:
一方面,在线商品具有越来越多样化的类别,并且其中很大一部分被展示为产品组合,其中不同产品的多个实例存在于一个图像中。
另一方面,在线客户或商家可能希望检索组合中的单个产品以进行价格比较[42]或在线商品推荐[34]。
而随着多媒体生成的数据的积累,产生了大量大规模且弱注释的数据。举个例子:图像和文本:数据集包含大量图片和与之相关的简短描述。例如,一张狗的图片可能只标注为“动物”,而没有具体说明是“狗”或“猫”。这种情况下,图像的具体内容没有被详细注释。
在这里插入图片描述
我们提出了一个现实的问题:如何在给定的大规模弱标注的多模态数据上执行实例级细粒度的产品检索 这个图是比较不同的检索范式,图像级检索往往返回琐碎的结果,因为它不区分不同的实例,而多模态实例级检索更有利于在多模态数据中搜索各种产品。

在这里插入图片描述
本文的研究内容就是如图
在这里插入图片描述
最上面的表格是样本类别实例,检测图片的数量。
多产品特性和复杂组合:多产品图像在电子商务网站中普遍存在,并作为实例级产品检索的查询图像。如图2(1a)所示,产品可以以丰富的形式和布局组织,并且实例的数量可以很大。单一产品样本的数量过多和差异性大,导致不同产品组合图像的组合复杂。弱监督和模糊对应:我们考虑使用两种常见模式的数据,即,图像和文本,用于检索。与其他具有干净类标签的数据集不同,商品标题的监督很弱,而且通常没有信息。我们在图2(1b)中显示了不同类型的挑战性样本。一些样本包含缩写,即,几种产品的缩写形式,在它们的标题中。然而,类似于“八件套”的缩写并不包含任何关于产品的具体信息。第二类样本带有不相关的信息,标题中描述的商品可能不会出现在图像中,反之亦然。图像和标题之间的模糊对应关系的广泛分布使得实例级检索更具挑战性。
与真实场景的一致性:我们在图2(1c)中展示了一些具有挑战性的样本。它们可能具有复杂的背景,其中包含不相关的对象、无定形水印或覆盖产品信息的显著杂波。有些不同类别的产品,除了包装上的文字略有不同外,外观几乎相同,例如,日霜vs晚霜。如图2(2a,2b)所示,Product1M的长尾分布与现实世界的场景非常一致。
在这里插入图片描述
这个图是实例级检索流程的概述。(a)基于由复制粘贴数据增强方案生成的伪标签来预训练RPN。(b)利用CAPTURE通过混合流Transformer架构和几个代理任务捕获跨模态的潜在协同作用。( c ) 构建匹配的图像-文本样本的正对以进行跨模态对比学习。

在这里插入图片描述
首先图像顶部显示了三个单一产品的样本图像,这些产品在不同的背景下拍摄。我们需要从这些图像中提取产品的前景。
接下来使用了GrabCut算法,这是一个常用的图像分割方法,用于从这些单一产品图像中提取前景蒙版。图中可以看到,经过GrabCut处理后,每个产品都被单独分割出来,形成了前景蒙版。
在生成前景蒙版后,使用复制粘贴数据增强将这些蒙版粘贴到不同的真实背景图像上,以创建合成图像。这种增强技术有助于提高训练数据的多样性,使模型更好地适应不同场景中的产品检测。
进行区域建议网络(RPN)的训练,将这些合成图像用于训练一个区域建议网络(RPN)。RPN的任务是生成图像中可能包含物体的区域(即建议框),以便后续的对象检测。
使用预训练的RPN进行检测,图像中右侧的分支展示了如何使用预训练的RPN来检测产品。RPN生成的建议框被用于进一步提取特征,以提高多产品检测的准确性。
合成图像和经过训练的RPN网络用于多产品检测器的训练,以便在图像中区分多个不同的产品。
在RPN生成的建议区域基础上,使用RoIAlign操作来获取每个实例的特征。然后,这些特征被输入到CAPTURE模块中,用于进一步的跨模态学习。
整个过程的目的是通过数据增强和特征提取方法,将单一产品图像扩展到多产品检测任务中,以提高检测器在多产品场景下的性能。
在这里插入图片描述
这里CAPTURE的结构是把之前的单流和双流模型进行了组合,然后利用了掩码任务来学习,还用了对比学习。
在这里插入图片描述
在推理过程中,Co-Transformer层分别输出HIMG和HTXT作为视觉和语言输入的整体表示。然后将得到的特征作为我们检索算法的输入。在计算实例与图库集中的样本之间的余弦相似性矩阵之后,我们检索每个查询的具有最高相似性的对应的单一产品样本。
想要PPT可评论

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/891001.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

modbus tcp wireshark抓包

Modbus TCP报文详解与wireshark抓包分析_mbap-CSDN博客 关于wireshark无法分析出modbusTCP报文的事情_wireshark 协议一列怎么没有modbus tcp-CSDN博客 使用Wireshark过滤Modbus功能码 - 技象科技 连接建立以后才能显示Modbus TCP报文 modbus.func_code 未建立连接时&…

D36【python 接口自动化学习】- python基础之函数

day36 函数的定义 学习日期:20241013 学习目标:输入输出与文件操作﹣-49 函数定义:如何优雅地反复引用同一段代码? 学习笔记: 函数的用途 定义函数 调用函数 # 定义函数 def foo():print(foo)print(foo …

胤娲科技:AI短视频——创意无界,即梦启航

在这个快节奏的时代,你是否曾梦想过用几秒钟的短视频,捕捉生活中的每一个精彩瞬间?是否曾幻想过,即使没有专业的摄影和剪辑技能,也能创作出令人惊艳的作品? 现在,这一切都不再是遥不可及的梦想。…

一区鱼鹰优化算法+深度学习+注意力机制!OOA-TCN-LSTM-Attention多变量时间序列预测

一区鱼鹰优化算法深度学习注意力机制!OOA-TCN-LSTM-Attention多变量时间序列预测 目录 一区鱼鹰优化算法深度学习注意力机制!OOA-TCN-LSTM-Attention多变量时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.基于OOA-TCN-LSTM-Attenti…

Mysql(八) --- 视图

文章目录 前言1.什么是视图?2.创建视图3. 使用视图4. 修改数据4.1.注意事项 5. 删除视图6.视图的优点 前言 前面我们学习了索引,这次我们来学习视图 1.什么是视图? 视图是一个虚拟的表,它是基于一个或多个基本表或其他视图的查询…

Docker 入门篇

🏝️ 博主介绍 大家好,我是一个搬砖的农民工,很高兴认识大家 😊 ~ 👨‍🎓 个人介绍:本人是一名后端Java开发工程师,坐标北京 ~ 🎉 感谢关注 📖 一起学习 &…

05 django管理系统 - 部门管理 - 修改部门

04我们已经实现了新增部门的功能,下面开始修改部门模块的实现。 按道理来说,应该是做成弹框样式的,通过ajax悄咪咪的发数据,然后更新前端数据,但是考虑到实际情况,先用页面跳转的方式实现,后面…

106页PPT企业管控模式方案:战略、产业与职能管理体系核心规划

企业集团管控模式的设计方案是一个复杂而系统的过程,其核心规划涉及到战略、产业与职能管理体系。以下是对这三个方面的详细规划: 一、战略规划 明确集团战略目标:集团应根据市场环境和自身优势,明确战略发展方向和目标&#xf…

Tailwind Starter Kit 一款极简的前端快速启动模板

Tailwind Starter Kit 是基于TailwindCSS实现的一款开源的、使用简单的极简模板扩展。会用Tailwincss就可以快速入手使用。Tailwind Starter Kit 是免费开源的。它不会在原始的TailwindCSS框架中更改或添加任何CSS。它具有多个HTML元素,并附带了ReactJS、Vue和Angul…

JavaScript 网页设计案例:使用 Canvas 实现趣味打气球小游戏

JavaScript 网页设计案例:使用 Canvas 实现趣味打气球小游戏 在网页设计中,交互性和趣味性是吸引用户的重要因素。借助 JavaScript 和 HTML5 的 canvas 元素,我们可以轻松实现各种动画效果,今天将带你打造一个有趣的 打气球小游戏…

Metasploit渗透测试之攻击终端设备和绕过安全软件

概述 在之前,重点讨论了针对服务器端的利用。但在当下,最成功的攻击都是针对终端的;原因是,随着大部分安全预算和关注都转向面向互联网的服务器和服务,越来越难找到可利用的服务,或者至少是那些还没有被破…

大规模多传感器滑坡检测数据集,利用landsat,哨兵2,planet,无人机图像等多种传感器采集数据共2w余副图像,mask准确标注滑坡位置

大规模多传感器滑坡检测数据集,利用landsat,哨兵2,planet,无人机图像等多种传感器采集数据共2w余副图像,mask准确标注滑坡位置 大规模多传感器滑坡检测数据集介绍 数据集概述 名称:大规模多传感器滑坡检测…

云计算第四阶段-----CLOUND二周目 04-06

cloud 04 今日目标: 一、Pod 生命周期 图解: [rootmaster ~]# vim web1.yaml --- kind: Pod apiVersion: v1 metadata:name: web1 spec:initContainers: # 定义初始化任务- name: task1 # 如果初始化任务失败&#…

计算机网络:数据链路层 —— 共享式以太网

文章目录 共享式以太网CSMA/CD 协议CSMA/CD 协议 的基本原理 共享式以太网的争用期共享式以太网的最小帧长共享式以太网的最大帧长共享式以太网的退避算法截断二进制指数退避算法 共享二进制以太网的信道利用率使用集线器的共享式以太网10BASE-T 共享式以太网 共享式以太网是当…

安宝特方案 | AR技术在轨交行业的应用优势

随着轨道交通行业不断向智能化和数字化转型,传统巡检方式的局限性日益凸显。而安宝特AR眼镜以其独特的佩戴方式和轻便设计,为轨道交通巡检领域注入了创新活力,提供了全新的解决方案。 01 多样化佩戴方法,完美适应户外环境 安宝特…

鸿蒙NEXT开发-知乎评论小案例(基于最新api12稳定版)

注意:博主有个鸿蒙专栏,里面从上到下有关于鸿蒙next的教学文档,大家感兴趣可以学习下 如果大家觉得博主文章写的好的话,可以点下关注,博主会一直更新鸿蒙next相关知识 专栏地址: https://blog.csdn.net/qq_56760790/…

盘点超好用的 Windows 录屏软件,轻松记录屏幕精彩

在当今数字化信息高速流转的时代,屏幕录制已经成为我们日常工作、学习和娱乐中不可或缺的一项技能。如果你是微软电脑,正好我今天想要介绍的就是windows怎么录屏相关工具的操作,感兴趣就继续往下看吧。 1.FOXIT录屏大师 链接直达&#xff1…

鸿蒙开发实战项目【硅谷租房】--- 项目介绍

目录 一、简述 二、项目资料 2.1 UI设计稿 2.2 服务器 2.3 Apifox接口JSON文件 使用 Apifox 测试接口 一、简述 这是一个基于 鸿蒙 API12 开发的移动端租房 App,用户可以使用该应用搜索租房列表、查看房屋详情、预约租房等。 该项目的tabbar包含五部分&…

Ubuntu系统下的用户管理

Ubuntu系统下的用户管理 一、ubuntu介绍1.1 ubuntu简介1.2 主要特点 二、创建新用户2.1 查看当前Ubuntu版本2.2 创建新用户2.3 修改密码2.4 查看用户id 三、新建用户组3.1 新建用户组3.2 查询用户组3.3 加入某个用户组 四、赋予sudo权限4.1 将用户添加到 sudo 组4.2 查看admin用…

NFTScan | 10.07~10.13 NFT 市场热点汇总

欢迎来到由 NFT 基础设施 NFTScan 出品的 NFT 生态热点事件每周汇总。 周期:2024.10.07~ 2024.10.13 NFT Hot News ​01/ 数据:9 月份加密市场大多数指标均出现下降,链上总交易量下降 13% 10 月 7 日,据 The Block 研究总监 la…