通用视觉大模型调研

humanbench

  • HumanBench: Towards General Human-centric Perception with Projector Assisted Pretraining;
  • 为了解决不同任务之间的conflict以及不同dataset之间的差异(相同任务),提出PATH,backbone是所有任务共享、projector是任务级别共享的、head是dataset级别共享的,也就是普通多任务+task specific projector+dataset specific head;
  • projector: attention module(channel atten(senet) + spatial atten(self atten))(atten feature of specific task) + gate module(fuse featrue of different layer);
    在这里插入图片描述

UniHCP

  • UniHCP: A Unified Model for Human-Centric Perceptions
  • transformer encoder不分任务提取特征
  • transformer decoder + task-specific query关注特定任务的特征
  • task guided interpreter
    在这里插入图片描述

Uni-Perceiver

  • Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks;
  • 人类通过同时处理多模态的数据来感知这个世界,这个过程是多任务的,但是当前的机器学习方法关注于一个任务,本文建立了一个统一的框架,将输入和target经过task-agnostic transformer encoder和task-specific tokenizer来将不同任务不同模态的表示统一到一个空间,之后再训练的过程中使用寻找最大相似的目标的准则进行
  • 主要解决的问题是当前的大模型针对每一个任务都有自己的head,随着任务的增加都要为其定制head以及获取对应的训练数据;
  • 整体思路是将所有的任务共性抽象出来,将输入和目标都统一到同一个空间,寻求输入和对应输出匹配的最大似然概率,此处使用余弦相似度来计算;
  • 首先将不同模态的输入数据和目标使用modality-specific tokenizer来产生token sequence,之后input token seq和target token seq都送到transformer encoder中转换到同一个空间,目标是寻求匹配的最大似然概率;
  • 针对不同数据有不同的tokenizer;
    在这里插入图片描述

Uni-Perceiver-MoE

  • Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs
  • 主要解决的问题是不同的任务在general model的训练过程中会相互产生不好的影响,使用conditional MoEs来解决
    在这里插入图片描述
  • transformer原来的FFN层和linear projection层被MoEs取代,主要是一个gate操作,将部分的输出变为0,相当于选择了特定的子网络,但是是自适应的;

Florence

  • Florence: A New Foundation Model for Computer Vision
  • 主要解决的问题针对当时视觉基础模型的模态仅仅是text和image(CLIP等),扩展了模态,从小物体到大场景,从静态到动态,从单图像到加上深度图等等;由此针对增加的模态增加了新的模块来利用,以利于下游任务;
    在这里插入图片描述

FLAVA

  • FLAVA: A Foundational Language And Vision Alignment Model
  • 主要解决CLIP等cross modal模型数据不开源,现有模型单使用使用cross model或者modal fuse,无法同时应对unimoal,cross modal和multi modal的情况,在image-text对数据上提出新的训练策略
  • 分为三个部分,针对图片uni modal的transformer+针对text uni-modal的transformer+针对multimodal的损失,这样就可以同时处理单模态以及多模态任务
    在这里插入图片描述

INTERN

  • INTERN: A New Learning Paradigm Towards General Vision
  • 主要解决之前的通用模型不够通用的问题,提出了新的训练范式
  • 分为数据、网络结构以及下游任务三个部分,有down adaptation来使得任务更好的应对下游任务,主体网络部分分为三个阶段,amateur+expert+generalist
    在这里插入图片描述

M3I-pretraining

  • Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information
  • 主要针对的问题是现在有很多种训练方法,例如全监督、弱监督、自监督,有很好的效果,有一些方法通过多阶段的方式结合使用这些方法,但是这种结合使用的方式有一个问题是当整个训练流程走完以后假如结果不好,无法确定是哪一个stage的问题,提出的解决方法就是只用一个统一的stage
    在这里插入图片描述

GRADNORM

  • GRADNORM: GRADIENT NORMALIZATION FORADAPTIVE LOSS BALANCING IN DEEP MULTITASKNETWORKS
  • 主要解决的是多任务训练不好收敛的问题,可以一个损失量级大的任务占了主导地位,gradnorm调和了不同任务的损失,使不同损失的量级相同
  • 通过增加一个新的gradiant loss,这个损失的定义是每个任务的梯度和总的梯度的l1正则之和,最终得到的效果是不同任务的梯度量级相同,降低损失降低快的下降速度,提高损失降低慢的下降速度,达到调和的目的https://zhuanlan.zhihu.com/p/378533888,https://zhuanlan.zhihu.com/p/570751177 ,其中第一项是单任务的损失带权梯度,第二项是不同任务的损失带权梯度,r表示的值和学习速度成反比https://zhuanlan.zhihu.com/p/470955143
  • 实现https://github.com/brianlan/pytorch-grad-norm
  • 两个损失,多任务损失和梯度损失独立更新,梯度损失是权重的函数,达到对权重更新的目的
    在这里插入图片描述

Dynamic Task Prioritization for Multitask Learning

  • 针对多任务训练,主要是动态的关注于更加困难的任务,分为两个级别,一个是样本级别,类似于focal loss,另一个是任务级别,关注于困难任务,通过指定kpi开完成,kpi取值0-1,和任务的困难程度成反比,任务的困难程度和损失的权重成正比https://zhuanlan.zhihu.com/p/71012037 ;

Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

  • 针对多任务训练,根据不确定性来确定损失的权重http://www.liuxiao.org/2020/07/multi-task-learning-using-uncertainty-to-weigh-losses-for-scene-geometry-and-semantics/
  • 一种正则化方法
  • 两个回归问题多任务
    在这里插入图片描述
  • 回归+分类
    在这里插入图片描述
  • 两个sigma都是可学习的参数
  • 代码https://github.com/yaringal/multi-task-learning-example/blob/master/multi-task-learning-example.ipynb

End-to-End Multi-Task Learning with Attention

  • https://zhuanlan.zhihu.com/p/82234448
  • 实现https://github.com/lorenmt/mtan
  • humanbench和这个很像,在共享特征之后加上了task spetial的attention模块来聚焦任务相关的特征
  • 采用dynamic weight average来决定损失的权重,和gradnorm的思路很像

Multi-Task Learning as Multi-Objective Optimization

  • 将多任务转变为多目标优化问题,Pareto optimality是指一组参数,没有另一组不同的参数会使损失值更小,非劣解是指不存在一个最优解的情况下所有的可能解,Pareto最优解——无法在改进任何目标函数的同时不削弱至少一个其他目标函数。这种解称作非支配解或Pareto最优解。
    在这里插入图片描述
  • Multiple Gradient Descent Algorithm(MGDA)来解决MTL Parato optimality

Gradient Surgery for Multi-Task Learning

  • 当不同任务的梯度方向相反的时候,将梯度更新为处理之后的梯度

MOE, MMOE, SNR, PLE, MOSE, MTDNN, ESSM

  • 工业界多任务学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/552333.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

gpt4和chatgpt的区别

模型规模和性能:GPT-4比GPT-3.5更大、更强大。GPT-4拥有更多的参数和更大的训练数据集,因此在各种任务上表现更出色,如语言理解、问题解答和推理能力等。多模态能力:GPT-4支持处理图像等多模态信息,而GPT-3.5主要处理文…

【JavaWeb】Day47.Mybatis基础操作——删除

Mybatis基础操作 需求 准备数据库表 emp 创建一个新的springboot工程,选择引入对应的起步依赖(mybatis、mysql驱动、lombok) application.properties中引入数据库连接信息 创建对应的实体类 Emp(实体类属性采用驼峰命名&#xf…

LeetCode236:二叉树的最近公共祖先

题目描述 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对于有根树 T 的两个节点 p、q,最近公共祖先表示为一个节点 x,满足 x 是 p、q 的祖先且 x 的深度尽可能大(一个节点也可以是…

ECharts:五大卓越在线示例库助力高效数据可视化开发

1. ECharts官方示例库 ECharts官网提供的示例库是最权威、最新的展示平台,涵盖了所有基础和高级图表类型,每个示例都配有详尽的代码解释和配置说明。开发者可以直接查看源代码,复制粘贴后稍加修改就能应用于实际项目中。 2. Make A Pie - EC…

制作一个RISC-V的操作系统十一-定时器中断

文章目录 CLINT定时器中断mtimemtimecmp机制总体框架流程时间节拍系统时钟代码 CLINT 产生软件中断和定时器中断 定时器中断 mtime 类似计数器,按照硬件对应的固定频率递增 上电后会自动复位为0,有硬件自动完成 mtimecmp 需要自己设置&#xff0…

【计算机考研】目标学校改考408,报考人数大量减少,第二年能捡漏吗?

关键还是要看往年,最近三年的成绩。如果突然暴跌的话一定要注意第二年是否会弹很厉害。有时候408的学校就是一场博弈论,选择大于努力。 从大部分情况来看,爆冷后第一年回弹还是有限,但是第三年可能会爆热。 然后谈一下备考。 首…

【Web】NewStarCTF 2022 题解(全)

目录 Week1 HTTP Head?Header! 我真的会谢 NotPHP Word-For-You Week2 Word-For-You(2 Gen) IncludeOne UnserializeOne ezAPI Week3 BabySSTI_One multiSQL IncludeTwo Maybe You Have To think More Week4 So Baby RCE BabySSTI_Two UnserializeT…

跨境电商干货:如何提升亚马逊店铺质量?

亚马逊作为全球最大的电子商务平台之一,吸引了无数卖家和买家参与其中。在这个竞争激烈的环境中,要想提升亚马逊店铺的质量和业绩,需要采取一系列有效的策略和工具。而住宅IP代理作为一个强大的网络工具,也在其中发挥着重要的作用…

02_Fixture定位,Caliper卡尺工具,几何学工具

Fixture定位工具 需求: 测量工件的尺寸 使用Caliper(卡尺)工具 这个时候需要借助Fixture工具 VisionPro中的图像空间 “” 图像的当前空间,即CogImage中的“SelectedSpaceName”表示的名字空间 “#” 像素空间,即坐标原点为图片左上角的坐标空间&am…

张大哥笔记:搭建一个网站有什么好处?如何搭建网站?

如果你有一个网站,你可以迅速聚集和结识五湖四海的人,男女老少,各个年龄段的都有,甚至还有很多不是从事 IT 行业的人,他们会让你学习到更多知识,了解到更大的世界! 至于作用嘛,最直…

Java面试八股之Iterator接口和Iterable接口

1. Java为什么不直接实现Iterator接口,而是实现Iterable? 这道题算是一道比较基础的题,面试官肯定也不是想让回答得多深入,只是考查对迭代器的了解程度,最好是看过源码,实际上迭代器的源码并不难。我们把注释折叠起来…

【NUCLEO-G071RB】003——GPIO-按键控制LED灯

NUCLEO-G071RB:003——GPIO-按键控制LED灯 设计目标电路原理图芯片配置程序修改 设计目标 用输入控制输出,即以蓝色按键B1的输入控制LED4灯的输出 细节: 若判定为按键按下中,则LED灭灯,否则亮灯按键按下和抬起的检查…

热烈祝贺中国特医首次获得蒙特国际品质奖!中国特医健效达品质永攀世界高峰

近日,第63届Monde Selection品质评鉴活动圆满落幕,健效达旗下优康力和优益力产品凭借其卓越品质,成功摘得世界蒙特奖,这是中国特医食品首次获得蒙特奖国际品质奖。 健效达特医树立世界特医新标杆,永攀世界高峰&#xf…

基于STC12C5A60S2系列1T 8051单片机的带字库液晶显示器LCD12864数据传输并行模式显示32行点x128列点字模串的应用

基于STC12C5A60S2系列1T 8051单片机的带字库液晶显示器LCD12864数据传输并行模式显示32行点x128列点字模串的应用 STC12C5A60S2系列1T 8051单片机管脚图STC12C5A60S2系列1T 8051单片机I/O口各种不同工作模式及配置STC12C5A60S2系列1T 8051单片机I/O口各种不同工作模式介绍液晶显…

ssm055基于spring框架的中小企业人力资源管理系统的设计及实现+jsp

中小企业人力资源管理系统设计与实现 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本中小企业人力资源管理系统就是在这样的大环境下诞生,其可…

LLM推理框架Triton Inference Server学习笔记(二): Triton模型部署流程(stey by stey)

官方文档查阅: TritonInferenceServer文档 1. 写在前面 上一篇文章对triton inference server进行了一个整体的介绍,解答了三个经典问题what, why, how。 这篇文章就开始转入实践, 从实践的角度整理Triton模型部署的全流程, 如果我有一个训…

循环神经网络(RNN):概念、挑战与应用

循环神经网络(RNN):概念、挑战与应用 1 引言 1.1 简要回顾 RNN 在深度学习中的位置与重要性 在深度学习的壮丽图景中,循环神经网络(Recurrent Neural Networks,RNN)占据着不可或缺的地位。自从…

边缘计算网关

在信息化高速发展的今天,数据已经成为企业运营的核心资产。然而,随着数据量的爆炸式增长,传统的中心化数据处理方式已经无法满足企业对实时性、安全性和效率性的需求。这时,边缘计算网关应运而生,它作为连接物理世界和…

ollama与open-webui、lobe-chat简单使用案例

参考: https://github.com/ollama/ollama https://github.com/open-webui/open-webui ollama最为大模型后端服务 open-webui、lobe-chat前端聊天页面 ollama直接下载客服端安装win cpu安装推理;open-webui、lobe-chat使用docker安装 1、ollama 安装好后可以直接运行,cpu使…

基于springboot实现人口老龄化社区服务与管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现人口老龄化社区服务与管理系统演示 摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了人口老龄化社区服务与管理平台的开发全过程。通过分析人口老龄化社区服务与管理平台方面的不足&#xff…