BioCLIP:物种图像的基础视觉模型

从无人机到个人手机,各种相机收集的自然世界图像是越来越丰富的生物信息来源。从图像中提取生物相关信息用于科学的计算方法和工具激增,尤其是计算机视觉。然而,其中大多数都是为特定任务设计的,不容易适应或扩展到新的问题、环境和数据集。为了解决这一问题,BioCLIP发布了TREEOFLIFE-10M,这是最大、最多样化的生物图像数据集。然后开发了BIOCLIP,这是生命树的基础模型,利用TREEOFLIFE-10M捕捉到的生物学的独特特性,即植物、动物和真菌的丰富多样的图像,以及丰富的结构化生物学知识。BioCLIP在不同的细粒度生物分类任务上进行了严格的基准测试,BioCLIP始终显著优于现有的基线(绝对值为16%至17%)。

来自:BIOCLIP: A Vision Foundation Model for the Tree of Life

目录

  • 背景概述
  • 贡献
  • CLIP背景下的零样本和小样本场景

背景概述

计算机视觉正在迅速成为研究自然世界的工具。然而,应用计算机视觉来回答生物学问题仍然是一项艰巨的任务----生物学家必须手动为感兴趣的特定分类种群标记足够的数据,并找到和任务相关的模型。此时,CLIP和GPT-3等基础模型正在推进零样本或少样本学习(无需参数更新)。类似的生物学视觉基础模型应该适用于跨越整个生命树的任务,而不仅仅是它所训练的那些分类种群。

在这项工作中,作者的目标是为生命树开发这样一个基础模型:

  • 首先,它应尽可能推广到整个生命树,以确保它支持研究人员研究许多不同的分支。此外,收集覆盖数百万已知分类群的训练数据是不可行的,因此该模型必须推广到训练数据中不存在的分类群。
  • 其次,它应该学习生物图像的细粒度表示,这种细粒度是至关重要的,因为生命树将生物分为广泛的类别(动物、真菌和植物)甚至非常细粒度的类别(印第安浅蓝鸟,印第安蓝鸟)。
  • 最后,由于生物学中数据收集和标记的高成本,在low-data(即零样本或少样本)设置中的性能至关重要。

虽然泛化、细粒度分类在计算机视觉中已经是老问题,但对于生物自然图像,数亿张图像上训练的现有通用视觉模型依然达不到要求。具体而言,现有的视觉模型产生了一般的细粒度表示,有助于比较狗和狼等常见生物,但不适用于更细粒度的比较,例如Onoclea sensibilis和Onoclea hintonii(见图1)。

下面,作者确定了开发生物学视觉基础模型的两个主要障碍。首先,需要合适的预训练数据集:现有数据集缺乏规模、多样性或细粒度标签。其次,需要研究适当的预训练策略,利用生物学领域的特性,更好地实现前面提到的三个关键目标。
fig1

  • 图1:a.两种不同植物的两个分类群(taxa),或分类学标签(taxonomic labels),图d和图e,除了species之外,它们的taxa是相同的。b.自回归文本编码器自然地对分类法(taxonomy)的层次结构进行编码。看看Order token(Polypodiales)如何包含Kingdom, Phylum 和 Class tokens的信息。这有助于将视觉表示与层次结构对齐。c.分类标签的这些分层表示被馈送到标准对比预训练目标中,并与图像表示 d 和 e 相匹配。
文本类型例子
Common-共识black-billed magpie-黑嘴喜鹊
Scientific-科学Pica hudsonia-黑嘴喜鹊
Taxonomic-分类学Animalia Chordata Aves Passeriformes Corvidae Pica hudsonia
Scientific + CommonPica hudsonia with common name black-billed magpie
Taxonomic + CommonAnimalia Chordata Aves Passeriformes Corvidae Pica hudsonia with common name black-billed magpie
  • 表3:BIOCLIP训练中考虑的文本类型。

贡献

鉴于这些目标和实现这些目标的挑战,作者介绍了:TREEOFLIFE-10M,一个大规模的ML ready生物图像数据集,以及BIOCLIP,一个生命树的视觉基础模型。

  • TREEOFLIFE-10M:一个大规模、多样化的ML生物图像数据集。作者策划并发布了迄今为止最大的ML ready生物图像数据集及其相关分类标签,包含超过1000万张图像,覆盖生命树中的454,000个分类群。相比之下,目前最大的ML ready生物图像数据集中iNat21仅包含270万张图像。TREEOFLIFE-10M集成了现有的高质量数据集,如iNat21和BIOSCAN-1M。更重要的是,它包括来自生命百科全书的最新图像,该百科全书提供了TREEOFLIFE-10M的大部分数据多样性。TREEOFLIFE-10M中的每个图像都以其尽可能最好的分类层次以及生命树中更高的分类等级进行标记(参见图1和表3中的分类等级和标签示例)。TREEOFLIFE-10M能够训练BIOCLIP和未来的生物学基础模型。
  • BIOCLIP:生命之树的视觉基础模型。对于TREEOFLIFE-10M等大规模标记数据集,一种标准、直观的训练策略(如ResNet50和Swin Transformer等其他视觉模型所采用的)是使用监督分类目标,并从图像中学习预测分类指数。然而,这并没有认识到和利用分类学标签的丰富结构——分类群(taxa)不是孤立存在的,而是在一个全面的分类学中相互联系的。因此,通过普通监督分类训练的模型不能很好地推广到那些unseen分类群(不能支持零样本分类)。

相反,作者提出了一种新的策略,将CLIP风格的多模态对比学习与BIOCLIP丰富的生物分类学相结合。作者将从Kingdom到最远端的taxon rank“扁平化”为一个称为taxonomic name的字符串,并使用CLIP对比学习目标来学习将图像与其对应的分类名称相匹配。直观地说,这有助于该模型推广到看不见的分类群——即使模型没有看到某个物种,它也很可能学会了该物种属(genus)或科(family)的合理表示(见图1)。BIOCLIP还支持零样本分类法(开放词汇表)。作者进一步提出并证明了混合文本类型训练策略的有效性;通过在训练过程中混合不同的文本类型(例如,taxonomic vs. scientific vs. common),模型保留了taxonomic name的泛化能力,同时在测试时具有更大的灵活性。例如,即使下游用户只提供常见的物种名称,BIOCLIP仍然表现出色。
tab4

  • 表4:模型基准测试。

CLIP背景下的零样本和小样本场景

对于零样本,遵循与CLIP相同的程序(直接计算输入图像与候选文本的相似度就行)。对于小样本学习,遵循SimpleShot并使用nearest-centroid classifier。对于k-shot,首先对每个类的k个示例进行随机采样,并从预训练模型的视觉编码器中获得图像embedding。然后,计算 k 个嵌入的平均特征向量作为每个类的质心。数据集中剩下的所有示例都用于测试。在对每个质心和测试特征向量应用均值减法和L2归一化后,选择质心离测试向量最近的类作为预测类。作者用不同的随机种子重复每个实验5次,并在表4中报告平均准确度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/751016.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java-方法引用

方法引用概念 把已经有的方法拿过来用,当做函数式接口中抽象方法的方法体 前提条件 1、引用处必须是函数式接口 2、被引用的方法必须已经存在 3、被引用方法的形参和返回值 需要跟抽象方法保持一致 4、被引用方法的功能要满足当前需求 方法引用格式示例 方…

JavaScript高级程序设计(第四版)--学习记录之基本引用类型

Date Date类型将日期保存为自协调世界时间1970年1月1日午夜至今所经过的毫秒数。 创建日期对象 let now new Date() Date.parse()方法接收一个表示日期的字符串参数,尝试将这个字符串转换为表示该日期的毫秒数。 let time new Date(Date.parse("May 24,2024&…

Spring Boot 3 整合 SpringDoc OpenAPI 生成接口文档

😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~ 🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…

MySQL锁和使用

在MySQL中,锁用于控制并发访问,以保证数据的一致性和完整性。MySQL提供了多种类型的锁,包括表级锁、行级锁和页面级锁。以下是MySQL中各种锁的详细介绍及其使用方法: 1. 表级锁(Table Locks) 表级锁用于锁…

Studying-代码随想录训练营day22| 回溯理论基础、77.组合、216.组合总和II、17.电话号码的字母组合

第22天,回溯章节开始!一大算法难点,加油加油! 回溯理论基础组合问题的剪枝操作 文档讲解:代码随想录回溯理论基础 视频讲解:回溯理论基础 回溯法也叫回溯搜索法,它是一种搜索,遍历的…

Python 算法交易实验73 QTV200第二步: 数据清洗并写入ClickHouse

说明 先检查一下昨天启动的worker是否正常工作,然后做一些简单的清洗,存入clickhouse。 内容 1 检查数据 from Basefuncs import * # 将一般字符串转为UCS 名称 def dt_str2ucs_blockname(some_dt_str):some_dt_str1 some_dt_str.replace(-,.).re…

【日记】软考居然一次过了(620 字)

正文 早上空闲的时候,上 QQ 看了一下,许久不见动静的系统架构设计师群有人说出分了。我想高级都出分了,中级应该也出来了,于是用手机查了一下。看到分数几乎快要泪从中来。为什么软考能一次过,银行从业资格证考了两三…

放烟花短视频素材去哪里找?去哪里下载?烟花素材网分享

在当代社会,短视频凭借其独有的魅力成为大众传递情感、记录生活、分享快乐的新兴方式。特别是在庆祝节日和特殊时刻时,烟花的绚丽效果常常被用来吸引观众的目光,成为视频作品中的亮点。然而,对于短视频制作者来说,寻找…

【SCAU操作系统】期末复习简答及计算题例题解析

一、写出下列英文缩写词在计算机系统中的英文或中文全名。 OS: Operating System 操作系统PSW: Program Status Word 程序状态字FCFS: First Come First Serve 先来先服务PCB: Process Control Block 进程控制块DMA: Direct Memory Access 直接存储器存取MMU: Memory Manageme…

Does a vector database maintain pre-vector chunked data for RAG systems?

题意:一个向量数据库是否为RAG系统维护预向量化分块数据? 问题背景: I believe that when using an LLM with a Retrieval-Augmented Generation (RAG) approach, the results retrieved from a vector search must ultimately be presented…

从源码到上线:直播带货系统与短视频商城APP开发全流程

很多人问小编,一个完整的直播带货系统和短视频商城APP是如何从源码开发到最终上线的呢?今天,笔者将详细介绍这一全过程。 一、需求分析与规划 1.市场调研与需求分析:首先需要进行市场调研,了解当前市场的需求和竞争情…

Flutter学习:从搭建环境到运行

一、开发环境的搭建 本文所示内容都是在Windows系统下进行的。 1、下载 Flutter SDK Flutter 官网(https://docs.flutter.cn/release/archive?tabwindows) 或者通过 git clone -b master https://github.com/flutter/flutter.git 下载 2、配置环境…

VMware 最新的安全漏洞公告VMSA-2024-0013

#深度好文计划# 一、摘要 2024年6月26日,VMware 发布了最新的安全漏洞公告 VMSA-2024-0013,修复了 VMware ESXi 和 VMware vCenter 中的多个安全漏洞。 VMSA-2024-0013:VMware ESXi 和 vCenter Server 更新修正了多个安全性漏洞 &#xff…

datax入门(datax的安装与简单使用)——01

datax入门(datax的安装与简单使用)——01 1. 官网2. 工具部署(通过下载DataX工具包)2.1 下载、解压2.2 配置2.2.1 查看配置模版2.2.2 根据模版配置json2.2.3 启动DataX 3. datax的简单使用3.1 mysql2stream3.2 mysql2mysql3.2.1 拼…

评估大型语言模型生成文章的能力

1. AI解读 1.1. 总体概要 本文探讨了大型语言模型(LLMs)如GPT-4在生成特定领域(如计算机科学中的自然语言处理NLP)教育调查文章方面的能力和局限性。研究发现,尽管GPT-4能够根据特定指导生成高质量的调查文章&#x…

使用jupyter打开本地ipynb文件的方法

常用方法: 先启动jupyter,然后在打开的页面点击upload,选择想要打开的文件上传然后打开,但是这样其实是先复制了一份到jupyter中,然后打开运行。而我不想复制。 方法二 先打开项目文件所在文件夹,文件夹…

背靠广汽、小马智行,如祺出行打得过滴滴和百度吗?

©自象限原创 作者丨艾AA 编辑丨薛黎 北京时间6月14日凌晨,在特斯拉股东大会上,马斯克阐述了对Robotaxi(自动驾驶出租车)商业模式的构想——特斯拉不仅会运营自己的无人驾驶出租车车队,还可以让特斯拉车主们的爱…

Flutter学习目录

学习Dart语言 官网:https://dart.cn/ 快速入门:Dart 语言开发文档(dart.cn/guides) 学习Flutter Flutter生命周期 点击跳转Flutter更换主题 点击跳转StatelessWidget和StatefulWidget的区别 点击跳转学习Flutter中新的Navigato…

一文入门CMake

我们前几篇文章已经入门了gcc和Makefile,现在可以来玩玩CMake了。 CMake和Makefile是差不多的,基本上是可以相互替换使用的。CMAke可以生成Makefile,所以本质上我们还是用的Makefile,只不过用了CMake就不用再写Makefile了&#x…