在过去的十年中,出现了许多涉及计算机视觉(CV)的项目,无论是小型的概念验证项目还是更大规模的生产应用。应用计算机视觉的方法是相当标准化的:
1、定义问题(分类、检测、跟踪、分割)、输入数据(图片的大小和类型、视野)和类别(正是我们想要的)
2、注释一些图片
3、选择一个网络架构,训练-验证,得到一些统计数据
4、构建推理系统并进行部署
到2023年底,人工智能领域迎来了生成式人工智能的新成功:大型语言模型(llm)和图像生成模型。每个人都在谈论它,它们对小型计算机视觉应用有什么改变吗?
本文将探索是否可以利用它们来构建数据集,利用新的架构和新的预训练权重,或者从大模型中提取知识。
小型计算机视觉
在这里,我们通常感兴趣的是可以以相对较小的规模构建和部署的应用程序:
💰开发成本不应该太高
💽它不应该需要一个庞大的基础设施来训练(想想计算能力和数据规模)
🧑🔬它不需要很强的研究技能,而是应用现有的技术
⚡推理应该是轻量级和快速的,以便它可以嵌入或部署在CPU服务器上
🌍总体环境足迹应该很小(考虑计算能力,模型/数据的一般大小,没有特定的硬件要求)
这显然不是当今人工智能的趋势,因为我们在今年看到的都是具有数十亿个参数的模型,并且这些模型开始成为某些应用程序的标准。但重要的是:关心更小的规模是至关重要的,并不是所有的项目都应该遵循谷歌、Meta、OpenAI或微软的规模趋势并且我们也不可能有它们那么大的资金。
目前来看大多数有趣的计算机视觉项目实际上也比那些大公司的项目规模要小得多,但这并不意味着我们就要缩小我们的应用程序,而是说我们应该更加关心开发和推理成本。所以考虑到这一点,我们还能在应用中利用人工智能的最新发展吗?
首先看看基础模型
计算机视觉中的基础模型
新的大型语言模型(LLM)已经很流行,因为你可以很容易地在应用程序中使用基础模型(许多是开源的,或者可以通过API使用)。把GPT、Bert、Llama看作这样的模型。基础模型是一个非常大的通用神经网络,它是大多数下游任务的基础。它包含了非常广泛的主题,语义,语法,不同的语言等知识。
在计算机视觉中,这样的模型已经存在了很长一段时间了:使用ImageNet(100万张标记图像)上预训练的神经网络作为下游任务的“基础”模型是标准的。你可以在它的基础上构建你的神经网络,如果需要的话,还可以根据你自己的数据对它进行微调。
ImageNet预训练网络和llm之间有两个主要的概念区别:
训练的数据类型:ImageNet依赖于纯粹的监督学习:一个大规模的分类任务,而LLM是生成模型:它们以一种使用原始文本的自监督方式训练(任务只是预测下一个单词)。
基础模型对新任务的适应:ImageNet预训练网络系统地需要一个新的学习过程来适应新的任务。但是对于llm,虽然可以对模型进行微调,但模型已经足够强大,无需任何进一步的训练就可以用于下游任务,只需用正确的信息提示模型,使其对新任务有用。
目前大多数计算机视觉应用,如分类,目标检测,分割仍然使用ImageNet预训练网络。下面我们回顾一下可能用于计算机视觉任务的或即将出现的新模型。
计算机视觉的新基础模型综述
在计算机视觉的世界里,除了ImageNet,有很多自监督网络的例子,其中一些是生成模型(比如GAN和最近的扩散模型)。它们只接受原始图像或图像-文本对(例如图像及其描述)的训练。它们有时被称为LVM(大视觉模型)。
(弱)有监督的视觉模型:
1、DINOv2 (Meta) -一个大型ViT(1B参数)的集合,以完全自监督的方式进行训练。
2、SAM Segment Anything (Meta) -一个用于高分辨率图像的ViT,专门设计用于分割,并可以进行零样本分割(不需要注释来生成新的分割蒙版)。另一个用例是使用SAM作为医学图像分割的附加输入。
基于图像-文本对训练的视觉语言基础模型:
CLIP (OpenAI) -图像和简短描述的对齐,非常适合于拍摄分类,并在实践中用作各种下游CV任务的基础模型
大型生成模型,现在是多模态的(包括能够在其架构中理解复杂文本的大型语言模型):
StableDiffusion
Dall-E (OpenAI)
视觉专用多任务大型模型
Florence-2:统一计算机视觉(Microsoft)
大型闭源坏模型
只能通过api获得:大型多用途模型,不以视觉为中心,但展示了出色的视觉能力,以及生成能力;
GPT-4V (OpenAI)
Gemini (Google)
除了闭源以外,还有许多开源的、更小的、多用途的视觉+文本聊天模型正在开发中,例如LlaVA。
所有这些模型都是强大的基础模型,涵盖了许多视觉领域,在许多情况下都能很好地完成判别或生成任务。如何在我们特定的小型环境中利用它们呢?
构建训练数据集
使用这些新模型的一个实用的想法是保持我们的标准训练管道,例如广泛使用的Yolo检测器,通过生成新的训练图像和/或生成注释来改进我们的数据集。流程如下:
标准数据集由一组带注释的训练和验证图像组成
增强数据集将使用强大的通用模型来添加自动注释:
1)对未标记图像的新注释⇒这需要一个已经适合任务的模型。可以使用一个非常大的通用模型,仔细地添加示例或提示,进行零标注,或者根据现有的人工注释对非常大的模型进行微调。
2)在现有标注的基础上增加一层新的信息,例如使用SAM从边界框信息中自动添加分割标注
生成的数据集由生成的图像及其注释组成。构建一个由图像和/或文本组成的提示,以生成数千个图像及其注释。可以直接使用API来生成这些带注释的图像(与寻找好的图像和收集人工注释相比,成本应该很小)。
将验证集与生成的或增强的集分开,因为要在精心标记的数据上度量实际性能。这意味着在实践中,即使我们选择了新的生成技术或基础模型,仍然需要对真实图像进行一些手动标记。
扩充数据集的例子
可以从现有的图像开始,通过丰富它们或使它们更容易注释来改进标签。现在有几个数据标注平台提出使用SAM或DINOv2,通过对图片中的物体进行预分割来提高标注效率。
生成的数据集示例
虽然生成数据集的想法已经存在很长时间并且被广泛用于训练LLM,但找到真正的小型应用程序来有效地利用生成的数据(自动注释或纯合成数据)是相当具有挑战性的。
不使用基础模型,而是使用简单的渲染管道,或者使用类似的技术使用3D渲染来生成数据,这些结果目前看起来还很粗糙
https://github.com/921kiyo/3d-dl
使用生成模型完全生成图片和注释,以下图片是使用Dall-E 生成图片的样例
还可以使用CV处理构建数据集(例如将对象粘贴到背景中进行分割任务),但是这里的问题是,数据的质量将在很大程度上取决于生成图像的质量,因此将不得不在构建正确的渲染步骤上投入大量精力(在3D中甚至更多)。
目前还没有太多使用纯生成模型生成数据集的成功例子,但考虑到最近图像生成AI模型的渲染质量和可操作性,我个人认为这只是时间的问题。比如有可能使用ControlNet从现有的分割蒙版或轮廓开始生成已经有标签的新图片,但目前还不清楚它是否能很好地与非分布类(即不是标准的COCO类)一起工作,或者分辨率是否足够好。
下面这篇论文提出了一个类似的想法,即修改现有的标记图片以生成共享分割掩码的新图片,从而产生增压的语义数据增强。
https://liu.diva-portal.org/smash/get/diva2:1779399/FULLTEXT01.pdf
但是当生成成千上万的图像而不是手动管理和标记它们时,应该考虑成本,因为改进并不明显!
最后
通过训练带有人类注释数据的模型来实现现代计算机视觉的方式即将被新的大型基础模型彻底改变。
大型基础模型有时具有“纳米级”版本,用于在低端服务器甚至嵌入式应用程序上进行推理。但是对于这些应用来说,它们仍然太大了,并且对于新任务的调整也不是那么便宜。因为目前,我们还是不会边缘设备上使用500M+参数的VIT模型,而是选择更小,更专业的模型。
但是对于小型的推理和低资源开发,我们也可以使用大型基础模型,或者通过使用api /本地推理直接调用这些模型,或者使用这些模型的一些知识。今天主要通过帮助标记数据,明天通过其他方式知识转移-例如,蒸馏。
没有标准的程序或普遍的方法来从这些大型或生成模型中转移这些知识,但它可能会在2024年有所发展!
https://avoid.overfit.cn/post/27697c284d4f4a4d93f91be616e3e998
作者:Charles Ollion