源自:电子学报
作者:李学龙
注:若出现无法显示完全的情况,可搜索“人工智能技术与咨询”查看完整文章
摘 要
地球表面有约71%的面积被江河湖海等水体覆盖,陆地上的成像也会受到云雪雨雾等水体影响,但是,当前常见的机器视觉科研工作和应用系统基本只围绕空气和真空介质中的视觉任务展开,涉及不同形态水体的视觉工作没有得到系统的研究.涉水视觉(water-related vision)作为涉水光学技术在视觉领域的具象化体现,重点研究光与水的物质相互作用及跨介质传播过程中,涉水视觉影像信号智能处理与分析方面的科学问题,以及先进智能涉水视觉装备研制方面的工程技术问题.本文从“为什么大海是蓝色的?”这一具有普适意义的问题出发,系统介绍了水对光的吸收、散射、衰减作用机理,对涉水视觉任务造成的影响,以及现有的涉水图像处理与解析方法.本文基于水体光学特性及成像退化机理,介绍了团队在探索涉水成像和图像解析等涉水视觉关键技术及装备方面的成果,先后研制了全海深超高清相机“海瞳”、全海深3D相机、全海深高清摄像机等,形成了从色彩、强度、偏振、光谱等全方位、体系化的水下观测解析装备研制能力,填补了我国全海深光学视觉技术的空白,推动了我国涉水视觉领域技术的升级,应用价值和社会效益显著.
关键词
涉水视觉 / 涉水光学 / 多模态认知计算 / 机器视觉 / 图像视频信号处理 / 地外海洋
1 引言
海洋中含有十三亿五千多万立方千米的水,约占地球上总水量的97%,其中蕴含了大量的重要资源未被探索与开发,是地球上最重要的涉水环境.除了常见的江河湖海等典型的水体,陆地上的云雪雨雾等天气条件也会创造复杂的涉水环境,甚至于其他星球上也可能会存在如地外海洋一类的涉水环境.因此,对涉水环境进行探索与研究是一项十分重要的课题.光是探测涉水环境的重要手段,解析光探测结果的涉水视觉对海洋生态[1,2]、碳平衡、气候变化、海洋热力学、恶劣环境探测等问题具有重要研究意义.涉水视觉技术的发展影响了我们对涉水环境的认识与涉水资源的开发.而常见的涉水环境中包含悬浮颗粒物、可溶有机物、浮游动植物等各种复杂的元素,且其中的光线传播路径常常涉及多种介质.因此,光在涉水环境中传播机理要比在空气中更为复杂,研究光与水及其所含物质相互作用及光的跨介质传播机理是涉水视觉的基础.
视觉影像信号智能处理与分析领域面临多重挑战,包括复杂环境、物体检测和识别困难、数据获取与标注复杂、大数据和高分辨率、水下视觉问题、实时性需求、数据隐私与安全、跨域泛化.
首先,涉水环境通常受到多种复杂因素的影响,包括波浪、潮汐、光照变化和水质变化等.这些因素导致涉水影像的质量在时空上变化巨大,进一步使物体检测、跟踪和识别任务更加复杂.物体的形状、颜色和纹理可能会因水域介质的光学特性而受到干扰,增加了物体检测和识别的难度.为了进行监督学习,必须对这些数据进行准确的标注,包括物体和环境属性的精确标记,但是要求标注者具备高度专业知识和经验.
其次,现代高分辨率摄像技术生成了大量的涉水影像数据,其数据频率较高,这增加了数据处理和管理的挑战.处理这些大数据集需要高性能计算资源和有效的数据管理策略,以确保及时的数据分析和存储.水下环境中的影像和视频通常受到光线在水中的散射和吸收的影响,导致图像模糊和颜色失真.这增加了水下图像和视频分析的复杂性,需要开发专门的算法来克服这些问题,以提高图像质量和物体识别性能.
再次,在某些关键应用场景中,如洪水预测和海上救援,系统必须能够实时处理涉水影像数据.这需要高效的算法和硬件加速,以确保系统具备即时响应和实时决策制定的能力.此外,考虑到一些影像可能包含敏感信息,如个人身份或敏感地理位置,数据的隐私和安全性成为不可忽视的问题.因此,必须采取措施来保护数据的隐私和安全性,同时遵守法规和伦理要求.这也增加了数据处理和存储的复杂性.
最后,不同涉水环境中收集的数据可能存在差异,例如,海洋环境与内陆水域的差异.因此,模型需要具备跨域泛化的能力,以在不同场景中表现出良好的泛化性能.这需要大规模、多样化的数据集和强大的迁移学习技术的支持.
因此,为了应对上述挑战,需要开展跨学科研究和技术创新,将机器视觉与机器学习、光学、海洋学等多个领域的知识结合起来,推动涉水视觉相关应用的发展.
机器视觉是智能时代的“眼睛”,其基于传感器捕获的图像为智能设备执行其功能提供操作指导,涉及光学照明、光学成像、信号处理、图像处理、图像增强、多模态认知计算及图像智能解析算法等多种技术.随着计算机视觉技术的不断发展,越来越多新的视觉算法及技术被提出,在目标侦查、智慧城市、资源勘探等多个领域都已经有很成熟的工程化应用.但是当前常见的机器视觉和智能系统研究主要围绕空气和真空介质中的视觉任务展开,对涉水前端成像机理和过程研究不够深入,对涉水图像和视频的智能化处理与分析研究未成体系.涉水视觉技术仍然停留在利用传统处理方法进行识别,仅通过对颜色、外形等特征对目标进行辨识.当前端采集设备应用于涉水环境时,水对光的反射、折射、吸收、散射等作用,对成像结果的能见度、分辨率、对比度等影响很大,尤其是在复杂的水环境下,易造成目标图像出现偏色、褪色、畸变、对比度低、亮度分布不均匀等情况,很难对目标图像进行准确辨识,无法直接用于处理及分析.
随着近些年智能信号处理技术的跨越式进步,现今的视觉技术,利用光电成像系统采集图像信息,经过智能技术的处理,对目标特性进行识别、分析及判断,与深度学习、计算成像、3D视觉、嵌入式视觉系统等技术紧密结合,然而前端成像设备和后端分析算法间的关系常常被忽略,在涉水视觉领域因前端光线传播机理复杂而影响更甚.理想的完备涉水视觉系统是通过光学的装置和非接触的传感器,在光传播路径的局部或整体的一切水体中,自动地接收并处理一个真实物体的图像,通过前后端的感算结合高效、准确地获得所需信息.
涉水视觉是基于光与水的物质相互作用及跨介质传播机理,通过构建专用光学硬件与视觉算法的技术体系,解决涉水环境下视觉影像信号智能处理与分析,及先进智能涉水视觉装备研制相关的工程问题,探索机器视觉技术在涉水环境中应用的科学.其作为临地安防体系中水下安防的重要支撑,对我国领水的防卫、保护、生产、安全、救援具有重要的意义.本文作为《涉水光学》一文在视觉领域具象化的延伸[3],综述了光与水的物质相互作用及跨介质传播机理,以及与水有关的机器视觉及图像视频技术,介绍了团队在涉水视觉方面开展的相关工作,以及所取得的成果.
2 光与水的物质相互作用及跨介质传播
光与水的物质相互作用及跨介质传播机理涉及很多物理、化学过程及反馈机制,如图1所示.海水对光的衰减系数变化会引起海洋热辐射平衡变化,是全球海洋系统对气候系统、陆地生态系统反馈作用及反馈力度的重要模式与物理量.
图1 光与水的物质相互作用及跨介质传播机理
2.1 为什么大海是蓝色的?
视觉的基本感知是颜色.关于海洋蓝色原因的猜测可以追溯到很久以前.公元前8世纪,人们已经开始描绘海洋的颜色,如古希腊诗人荷马笔下著名的“酒红色大海”,形容大海的颜色为蓝色逐渐融入黑色的昏暗阴影,如图2所示.1871年,英国物理学家瑞利勋爵(Lord Rayleigh,本名John William Strutt)认为天空呈蓝色是因为光线与大气中分子的弹性散射所造成的,即瑞利散射(Rayleigh scattering),当光碰到的较小的空气粒子(如氮和氧),就会散射出短波长的光,也就是蓝色,而海洋的蓝色只是反射天空的颜色[4~8].
图2 海水颜色认知的主要历程1
19世纪,德国化学家本生(Bunsen)认为海洋的颜色取决于水对光的吸收,这个结论仅局限于纯水[9].而瑞士化学家和物理学家索里特(Soret)认为颜色是由散射造成.1928年,印度物理学家拉曼(Raman)认为海洋呈现蓝色和天空呈现蓝色的理论相似,都与光在分子间的散射有关,即拉曼散射(Raman scattering)[10].一部分原因是反射了天空的颜色,另一部分是水分子或水中悬浮物对光的散射[11,12].苏联科学家博古斯拉夫斯基(Boguslavsky)基于之前的理论,于1923年对海洋颜色的机制进行完整解释,考虑了产生颜色的全部因素,即水分子及悬浮颗粒产生的光散射,加上分子溶解物质的吸收.同时他提出当海面出现涟漪,海水的颜色将极大增强,波浪的背风面比顺风面颜色更深[13].卡勒(Kalle)精确地研究了已有理论,证明了纯水中分子散射的作用,并且提出了可溶有机物是造成浑浊水中颜色向波长较长方向变化的主要原因[14,15].卡勒(Kalle)认为从海面上观测海水的颜色,会受到来自太阳光、大气蓝色反射、云层阴影以及近表层蓝绿色的后向散射等的影响.当海面呈现漫反射时,非选择性反射光占主导地位,海洋表面呈现出灰色[15].1974年安德烈∙莫尔(A.Morel)[4]详细回顾了有关纯水和纯海水散射的理论和观察结果.在非常清澈、开阔的水环境中,几乎没有颗粒物,称为水溶胶,海洋的光学特性主要取决于水分子本身的散射和吸收特性.当光进入水中被吸收,光的能量被耗尽,水变得“昏暗”,水下物体的能见度降低;当光进入水中发生散射,会在不同方向反射,水仍保持“明亮”,水下物体的清晰度降低.因此,大海呈现蓝色是光与水物质相互作用的结果.
表1给出了太阳辐照度在主要波长范围内的分布,仅大约42%的太阳能量在与涉水光学相关的近紫外和可见光波段中.瑞利散射强度与太阳光波长的关系如图3所示.瑞利散射解释了大气是蓝色的原因,但是由于海洋中的物质成分远比大气复杂很多,因此瑞利散射并没有正确解释这个问题.
表1 太阳光参数在不同波长的分布
图3 大气中瑞利散射强度与波长的关系
一般情况下,在低纬度的开阔海域,即热带和赤道海域,海水呈深蓝色或靛蓝色,主要是由于生物生产力相对较小,海水的颜色主要取决于光与水分子的相互作用.在维度更高处,海水颜色呈现蓝绿色到绿色.沿岸海水通常也呈现绿色.这主要是由于海水中存在浮游植物及有机物.在一些沿岸海域,河流中携带的溶解性有机物使海水呈现黄绿色,也有一些沿岸海域由于红棕色浮游植物大量繁殖而呈现出红色,即赤潮.在一些极地海域,冰川碰撞、磨损,将产生细碎的“岩粉”,随着冰雪融水流入海洋,造成海水呈现乳白色.
2.2 单介质涉水环境中光的衰减
受涉水环境中水体复杂内容物的影响,光线的传播会存在显著的衰减,进而影响涉水视觉影像的采集与分析.这其中影响最大的是水体对光线的吸收和散射,光的衰减是所有吸收和散射的总和,光束衰减系数c( 𝜆)是光谱吸收系数a( 𝜆)和光谱散射系数b( 𝜆)之和.光束的衰减可以利用水的小样本进行测量,与取样的自然环境相互独立,但是原位测量难度较大.目前在660 nm附近,可溶有机物质的吸收可以忽略不计,且有成熟的工业LED作为光源,因此可以用作测量水固有光学特性的光源,使用能量计测量光在某个方向上的衰减[16,17].但是对现实应用场景中复杂的涉水环境光的衰减测量难度极大,因此本小节将从水体的光学特性出发,对单介质涉水环境中光的吸收和散射机理进行阐述,以辅助涉水视觉前后端的结合,为改进现有的涉水视觉算法提供理论基础.
2.2.1 水体的光学特性
水体的光学特性主要包括固有光学特性(Inherent Optical Properties,IOP)及表观光学特性(Apparent Optical Properties,AOP)[18,19].表观光学特性是随光照条件变化而变化的海水光学特性,包括辐照度反射率、漫反射衰减系数等.固有光学特性是仅与水体成分有关而不随光照条件变化的,还与浮游植物有关,由吸收系数、体散射函数、折射率、光束衰减系数等组成.光与水的物质相互作用,可以归结为水对光场的衰减作用,其中光的吸收、散射是光在水中衰减的主要原因,均由光与水的物质相互作用引起,是不同物质光学性质的主要表现.
严格来说,水全部是由粒子组成的,包括有机和无机、生物和非生物、“溶解的”和“粒子的”等.纯海水主要由H2O,Na+,Cl-,及Mg2+组成,具体成分如表2所示.除了表2所列主要成分外,海水还含有几乎所有已知的自然界元素.为了进一步研究自然水体的吸收和散射特性,表3列出了典型物质的尺寸及每单位的数量浓度.
表2 海水中的主要元素(海水盐度3.5%)
表3 各类物质尺寸及每单位的数量浓度
2.2.2 水体中光的吸收
光的吸收主要表现在入射到水中的部分光子能量转化为其它形式的能量,如热能、化学势能等,表现为光的衰减,致使目标能见度的降低.确定自然水体的光谱吸收系数a( 𝜆)是非常困难.一方面,水体对近紫外线和蓝色波长的吸收很弱,因此需要非常灵敏的仪器.另一方面,如何避免散射效应导致的光谱吸收系数测量重叠也是一个难点.
自然水体中对光产生吸收作用的除了水分子吸收,还有包括叶绿素、可溶有机物及悬浮颗粒物的吸收,自然海水的吸收系数可以表示为
(1)
其中,aw( 𝜆),aph( 𝜆),aCDOM( 𝜆),ap( 𝜆)分别表示纯海水、叶绿素、可溶有机物及悬浮颗粒物的吸收系数[20~22].
(1) 纯海水的吸收
光是一种电磁波,水对电磁辐射的吸收取决于水的状态.从化学角度,水分子是一种极化分子,极化分子具有较强的紫外及红外共振作用.在紫外光谱区,存在电子激发的紫外共振;在红外光谱区,存在由分子激发的红外共振.因此,水对紫外及红外光谱区的吸收相对强烈,其中水对红外光谱区的吸收最强.图4给出了纯海水的光谱吸收系数[23].海水中的盐对可见光波长的吸收作用可以忽略,但是对紫外波长却增加了吸收.
图4 纯海水的光谱吸收系数
为了合理地解释光与物质相互作用产生光谱的物理机制,多种理论模型被建立,如刚性/非刚性转子,简谐/非谐振子,转动模型及多原子分子振动,转动模型等.其中,双原子分子线性简谐振动模型给出的分子振动频率位于中红外波段,刚性转子模型和转动模型一般用于研究气态分子与光的相互作用机理.
水分子是光与水相互作用的基础,如图5所示,水是由氢、氧两种元素组成,由于sp电子杂化,水分子由两个氢原子和一个氧原子构成V字型结构.常温常压下,水分子中较大的氧原子以104.5°±0.3°的夹角及95.84±0.05 pm的氢氧键长键合较小的氢原子.由于水分子是由3个原子组成的V型结构,所以水分子有9个自由度:3个平动自由度,3个转动自由度,还有3个振动自由度.前两者与外界环境有关,后者是水分子内部自由度,但如果受到环境的影响则会发生平移.
图5 O-H键结构参数
水分子基本振动可以分为伸缩振动和弯曲振动两种类型,其特点是振动过程中分子质心保持不变,整体不转动,所有原子都是同相运动.每个基本振动代表一种振动方式,都有自己的特征振动频率,并产生相应的红外吸收峰.水分子的跃迁模式主要包括旋转跃迁,分子获得振动能量量子的振动跃迁,以及分子被提升到激发电子态的电子跃迁.气态水对光的吸收主要来自水分子O-H键的振动模式,其中旋转跃迁发生在光谱的微波和远红外区域,振动跃迁发生在中红外线和近红外区域,电子跃迁发生在真空紫外区.与冰的吸收光谱类似,尽管液态水中没有旋转跃迁,但在微波区域会产生吸收,尤其是在可见光谱中的弱吸收导致水呈淡蓝色.
(a) 旋转跃迁
由于微波和远红外线的吸收,分子获得一定量的旋转能量.环境温度和压力下的大气水蒸气在光谱的远红外区域引起吸收,从大约50 μm到朝向微波区域的更长波长.
旋转光谱:水分子是一个不对称的顶端,即它具有三个独立的惯性矩.由于分子的低对称性,在光谱的远红外区可以观察到大量的跃迁.
(b) 振动跃迁
分子振动是水呈蓝色的主要内因.如图6所示,水分子具有3种基本的分子振动,包括O-H对称拉伸振动,O-H不对称拉伸振动,以及H-O-H弯曲振动.拉伸振动是原子沿着键轴方向伸缩拉伸,使键长发生周期性变化的振动.弯曲振动是指基团键角发生周期变化的振动或分子中原子团对其余部分作相对运动.弯曲振动的力常数小于拉伸振动,因此同一基团的拉伸振动在其伸缩振动的低频端出现.
图6 水分子的振动模式
多原子的复杂振动数目即是分子的振动自由度,或简称振动自由度.每个振动自由度都是分子的一种振动形式,并有其特征的振动频率,理论上振动自由度与吸收峰数目相等.水分子的振动自由度为3n-6=9-6=3,水分子有反对称拉伸振动(2.662 μm),对称拉伸振动(2.734 μm)及弯曲振动(6.27 μm)三种形式,因此水分子有3个红外吸收峰.通常将分子的振动吸收峰分为基频峰和泛频峰,泛频峰包括倍频峰,合频峰和差频峰.倍频峰指振动能级由基态向“第二、三……”振动激发态的跃迁,即高次谐波.水对蓝色波段光的吸收需要激发基本跃迁波段的高次谐波,由于这种谐波的分布密度很低,因此水对蓝色波段光的吸收相对较少.O-H振动会使气态水在2.734 μm及2.662 μm产生强吸收带,对于液态水,会在红外光谱产生强吸收带,在2.898 μm,2.766 μm及6.097 μμm处能观察到液态水的峰值最大值.对于气态水,H-O-H弯曲振动会在6.269 μm处产生强吸收带.对于液态水,在1.950 μm,1.450 μm,1.200 μm及0.970 μm的近红外范围内产生吸收带,吸收强度基本弱于O-H振动.冰的吸收光谱与液态水的光谱相似,吸收峰值位于2.941 μm,3.105 μm及6.17 μm [24].
(c) 电子跃迁
气态分子的振动伴随着旋转跃迁,产生振动-旋转光谱.此外,振动谐波和组合带出现在近红外区域.对于液态水,旋转跃迁被淬灭,但吸收带仍然会受到氢键的影响.在结晶冰中,振动光谱也同样受到氢键的影响,并且存在能够引起远红外吸收的晶格振动.
在200 nm至800 nm的光谱范围内,假设研究目标是清澈的天然水,其中盐或其他溶解物质的吸收可以忽略不计,唯一存在散射的是水分子和盐离子,并且没有发生非弹性散射.基于以上条件,史密斯(Smith)和贝克(Baker)[20]间接地确定了纯海水光谱吸收系数的上限 𝑎w(𝜆):
(2)
其中, 𝑠w(𝜆)表示纯海水的光谱散射系数,K d( 𝜆)表示清水中的扩散衰减函数.
(2) 可溶有机物质的吸收
可溶有机物质是水中溶解且吸收蓝光和紫外光的所有有机化合物的总称.在可溶有机物质对光吸收的影响中,透射率的减小总是伴随着峰值透射率朝着波长较长方向移动,表现为海水的颜色从蓝色变为绿色,直至变为棕色,这是由于可溶有机物质增加了选择性吸收.正是这个原因,这些成分一般被称为黄色物质或有色的溶解有机物(Chromophoric Dissolved Organic Matter,CDOM).
可溶有机物的吸收系数可表示为[25]
(3)
其中,a CDOM( 𝜆)是参考波长为 𝜆 0的吸收系数,通常波长范围为350 nm至700 nm;s为吸收系数的光谱斜率,通常为-0.014 nm-1至-0.019 nm-1,在传统的一类水体中,取-0.014 nm-1.可溶有机物的吸收系数如图7所示[26~29],黄色物质在红色波段吸收得很少,但是它的吸收随波长的减小快速增加,在蓝色和紫外波段吸收十分明显.黄色物质的重要来源是腐烂的陆生植物,因此它的浓度在湖泊、河流及沿海中最高,是蓝色波段的主要吸收源.
图7 可溶有机物的吸收系数
赤潮是海洋水体中某些微小的浮游植物、原生动物或细菌,在一定的环境条件下突发性增殖和聚集,引发的一定范围和一段时间内的水体变色现象.赤潮最早因海水变红而得名,其实赤潮不一定都是红色,因形成赤潮的生物种类和数量不同,赤潮海域水体会而呈现红、黄、绿和褐等色,如红色中缢虫形成的赤潮呈紫褐色,由异弯藻形成的赤潮呈酱褐色,夜光虫形成的赤潮呈砖红色.赤潮是在特定环境条件下产生的,产生的一个最重要原因是海洋污染.大量含有各种含氮有机物的废污水排入海水,促使海水富营养化,这是赤潮藻类能够大量繁殖的重要物质基础.国内外大量研究表明,海洋浮游藻是引发赤潮的主要生物,在全世界4 000多种海洋浮游藻中有260多种能形成赤潮,其中有70多种能产生毒素.这些毒素有些可直接导致海洋生物大量死亡,有些甚至可以通过食物链传递,造成人类食物中毒.
(3) 浮游植物的吸收
海洋中的浮游植物是海洋食物链的最基础一环,它们通过光合作用吸收光及二氧化碳并释放氧气;有些浮游植物还会通过化学过程发出荧光,影响着海水的颜色,更是与海洋的生态环境相互影响.浮游植物细胞是可见光的强吸收剂,在决定天然水的吸收特性方面起着重要作用.
人们很早就意识到浮游植物是决定大部分海水光学特性的粒子.浮游植物的吸收发生在光合色素中,其中最主要的是叶绿素.叶绿素和相关色素对蓝色和红色波段的光有很强的吸收作用,它们在浓度很高时,将主导海水的吸收光谱.叶绿素存在于所有光合植物中,包括叶绿素A和叶绿素B.叶绿素A对光的吸收要远高于叶绿素B.叶绿素粒子通常比可见光波长大,对入射光会产衍射,尽管大粒子在很小的散射角有很强的散射,但是它们在大角度的散射作用很微弱,因此较大的浮游植物对体散射函数的贡献较少.如图8所示,叶绿素的吸收光谱在蓝光和红光波段附近,对绿光波段吸收很少,其中叶绿素A分别在430 nm和665 nm处达到吸收峰值[30~34].阿特金斯(Atkins)和普尔(Poole)[35]认为蓝绿光衰减系数的变化是由于浮游植物中的叶绿素、类叶红素及叶黄质等的吸收.延奇(Yentsch)和雷瑟(Ryther)认为浮游植物等光合色素造成蓝色吸收[36,37].
图8 浮游植物叶绿素吸收光谱
如图8所示,类胡萝卜素是吸收紫光和蓝绿光的另一组关键色素.在光合作用中,类胡萝卜素有助于捕获光能,吸收多余能量并将其以热量形式散发出去.研究人员发现建立浮游植物的光学吸收特性模型,必须结合所在区域及季节,目前通常采用参数aph* ( 𝜆)对模型进行优化.布里柯(Bricaud)等人[38,39]将aph* ( 𝜆)表示为总叶绿素浓度(TChl)的幂函数:
(4)
其中,A( 𝜆)及B( 𝜆)为通过测量不同浮游植物的光学特性估算的波长特定系数,A( 𝜆)代表每TChl单位的aph * ( 𝜆),B( 𝜆)代表aph* ( 𝜆)随TChl增加而产生的变量.
(4) 悬浮颗粒物的吸收
悬浮颗粒物的吸收光谱与可溶有机物相似,可以用指数函数来描述:
(5)
其中,指数衰减系数sp比可溶有机物衰减系数s要小,通常为-0.011 6 nm-1至-0.013 0 nm-1,平均值为-0.012 3 nm-1 [40].
(5) 水汽的吸收
水汽广泛存在于大气的对流层以及海洋表面,由于水汽随高度、温度、气压等影响,难以用可靠的公式很好地描述其变化.水汽主要在0.72 μm,0.81 μm,0.94μm,1.1 μm,1.38 μm,1.87 μm,2.7 μm及3.2μm附近均有吸收.
2.2.3 水体中光的散射
光的散射是传播中的光波通过不均匀介质时,一部分光波偏离原方向传播的现象.光的散射特性相对于吸收较为复杂,主要表现在水及其中的物质使光的传播方向发生了变化,改变了光场的能量分布,致使目标清晰度,对比度降低.当光入射到水中时,经过光与水的物质相互作用,会发生弹性散射和非弹性散射.弹性散射不会使光发生频移,但是散射特性与水体的属性以及水中悬浮颗粒的尺寸、密度等有关.在海水中引发激光弹性散射的散射元主要是水分子、浮游植物、悬浮颗粒及湍流.光与水发生的另一类散射是非弹性散射,会使光的频率相对于入射光的频率发生偏移.非弹性散射分为两类:拉曼散射与布里渊散射.拉曼散射与物质的分子结构有关,而布里渊散射是由多普勒效应引起的.海水中的布里渊散射特性与温度、盐度密切相关,通过分析海水的布里渊散射特性,可以构建海水的温度场和盐度场模型.其中,引起光在海水中的散射机制主要包括瑞利散射及米氏散射(Mie scattering),两种机制具体可反映在海水成分对光的散射上.在海水中,引起光散射的主要物质是悬浮粒子及纯海水[41].
首先,最重要的是水本身,即使最纯净的水也会表现出复杂的吸收光谱和折射率波动,进而引起的大量散射.海水中大量存在的各种盐类会导致紫外线的额外吸收,并且盐浓度的微小变化也会导致折射率变化,增加散射量的波动.
根据爱因斯坦(Einstein)及斯莫鲁霍夫斯基(Smoluchowski)的Einstein-Smoluchowski理论[41,42],纯水对光的散射主要是由于分子数密度的涨落,以及各向异性水分子运动方向的变化,导致折射率的改变.此后众多学者也开展了相关研究,建立的散射模型中,分子数密度的涨落被认为与液体密度及温度有关.与液体密度的影响相比,温度产生的影响占比不到1%.
其次,天然水体中大量存在各种溶解物质的混合物,溶解物质对光的散射包括有机物及无机物对光的散射,从蓝光到紫外线区域对光会产生强烈吸收.这些混合物来源于各种生物体的新陈代谢和分解,一部分从陆地浸出并通过河流和地表水带到海洋,另一部分是由病毒、细菌和浮游生物分解产生的,是影响可见光光谱随海洋深度变化的主要因素.
最后,所有天然水体中也存在大量悬浮颗粒,由浮游生物、石英、沙子、淤泥等组成,它们是水中散射的主要来源,散射量远大于由折射率波动引起的散射.
英国物理学家瑞利勋爵于1871年通过理论计算推导,获得关于分子散射的严格解,即瑞利散射定律.该定律从电子论出发,解释了光的散射机理,但是该定律仅适用于粒子的尺寸远远小于波长的情况,当粒子尺寸与波长接近时,该理论则不再适用.1908年,德国物理学家古斯塔夫∙米(Gustaf Mie)提出了著名的“米氏散射”[43],得到了适用于大尺寸各项同性的球形粒子散射的精确解,但是该理论对非球形粒子产生的光散射现象无法做出合理解释.
散射特征取决于无量纲尺寸参数x:
(6)
其中,r 表示粒子的半径, 𝜆为入射光的波长.可以看出,光的散射不仅与散射元的尺度大小、密度有关,而且和入射光的波长有关.如图9所示,当x ≫ 1时,发生几何散射(geometric scattering),投影面积散射光.当x ≈ 1时,发生米氏散射,大部分的入射光线会沿着前进的方向进行散射,主要由大气中的微粒,如烟、尘埃、小水滴及气溶胶等引起.当x ≪ 1时,发生瑞利散射,通常粒子尺寸小于波长的1/10[44].
图9 瑞利散射及米式散射示意图
固有光学特性是仅与水体成分有关而不随光照条件变化的海水光学特性.如图10所示,在长度为∆l的水体中,一束强度为Io ( 𝜆)的单色光入射,未改变传输方向的透射光强为It ( 𝜆),Is ( 𝜆)为各个方向的总散射光强,
( 𝜆)为水环境中存在的同向散射增益.假设没有发生非弹性散射,即没有光子在散射过程中发生波长变化,根据能量守恒定律,入射光Io ( 𝜆)表示为
(7)
图10 光在海水中传输时的固有光学特性示意图
当光线入射到不均匀的介质中,如乳状液、胶体溶液等,与介质中的粒子发生碰撞,如果粒子足够小,根据介质的折射率不均匀而产生散射光,散射光的强度Is ( 𝜆)与入射光的波长 𝜆有关.图9展示了不同波长的入射光与介质中粒子发生碰撞后的散射光方向.这种光学现象可以用瑞利散射函数S( 𝜆, 𝜃)在数学上进行描述,表示入射光Io( 𝜆)向 𝜃方向散射的比率:
(8)
其中,S( 𝜆, 𝜃)表示量每单位入射辐照度在每单位体积水的散射强度,也可以理解为单位体积微分散射截面. 𝜃表示散射角,n为空气的折射率,k表示波数,a表示颗粒半径,r表示反射系数,
.可以看出,对于非常小的粒子,瑞利散射为粒子半径的六次方,与波长的四次方成反比.
对S( 𝜆, 𝜃)在所有方向进行积分,就可以得到单位辐照度入射到单位体积水的散射功率,也就是光谱散射系数:
(9)
由于在自然水体中,散射在入射方向是方位角对称的,该积分在[0,π/2]范围内为前向散射,[ π/2, π]范围内为后向散射.
图11给出了极坐标下,440 nm,550 nm及680 nm的瑞利散射系数,可以看出较短波长的蓝光比相对较长波长的绿光及红光散射更多.
图11 不同波长下瑞利散射系数
(1) 纯海水的光散射
如前所述,纯水介质的光散射是由水的微观密度波动以及成分波动引起的折射率随机变化的结果.该理论在应用过程中要求粒子之间相互独立,没有相互作用,起伏引起的光散射与温度有关.在极纯的海水中,密度起伏可以认为仅与纯水分子有关, 𝑆𝑤( 𝜃, 𝜆)完全由纯水散射引起.根据瑞利散射理论,体积散射函数可表述为
(10)
Einstein-Smoluchowski散射理论解释了散射与分子数密度对波动和折射率的波动有影响.在海水中,不同离子浓度的随机波动造成了折射率较大的波动,产生了较大的散射.光的体积散射函数S( 𝜃, 𝜆)表示为
(11)
其中, 𝛿表示散射角为π/2时两个线偏振分量的强度之比,即退偏度.由于海水具有一定的各向异性,该值通常取0.0899,如果介质的响应是各向同性的,则该值为0. 𝜆0为实际入射光的波长.
总散射系数s( 𝜆)是体积散射函数在所有立体角上的积分,单位为m -1,散射角为90°时,表示为[45]
(12)
散射角为90°时,纯水和纯海水(盐度3.5%至3.9%)的散射量为
.
纯海水是由纯水加上不同的可溶解盐组成的,图12显示了纯海水的散射系数,其中海水的盐度为3.5%至3.9%,对于波长370 nm至450 nm的光,水分子散射所造成的光强衰减为20%至25%.严格意义上,瑞利散射理论中定义的散射基于非常小的各向异性球形颗粒,而Einstein-Smoluchowski散射理论定义的是小尺寸分子数密度的波动与折射率的相关波动共同引起的散射,但是两种理论所得到的散射模型基本一致.
图12 纯海水的散射系数
(2) 悬浮颗粒的光散射
海水中的悬浮颗粒能散射入射光,使光在水下扩散,所以海水在很多区域看起来都是浑浊的.尤其是在近海海水中,常见的颗粒物主要是矿物质和黏土颗粒物,具有很高的光折射率,对光的散射很强.因此在实际涉水环境中,很难能够满足理论上体散射函数的纯水.当水中存在少量颗粒后,散射系数会大幅增加,其中主要是正向散射.悬浮颗粒的散射通常采用米氏散射理论,其理论的物理基础与瑞利散射理论类似,但是瑞利散射理论将粒子等同于单个偶极子,而米氏散射理论考虑位于粒子内的多个电偶极子及磁偶极子.对于尺寸远大于光波长的粒子,物理光学的衍射原理结合几何光学原理就能够对这种情况下的散射机制进行解释,这里不再赘述.对于尺寸等于或略大于光波长的粒子,根据米氏散射理论,此类散射主要发生在光束轴小角度内的前向方向,散射强度随着角度的增加而不断减小.霍德金森(Hodkinson)及格林里弗斯(Greenleaves)[46]对混合大小的球形颗粒悬浮液的计算表明,小角度散射主要是由于衍射,而较大角度的散射主要是由于外部反射和折射透射.
因此,总体积散射函数Sp( 𝜃,𝜆)可以表示为
(13)
如图13所示,散射最强时,散射角为0°,即前向散射.当散射角大于15°后,需要考虑粒子表面的折射及反射.
图13 基于米式散射理论及透射、反射、衍射定律的透明球体散射强度的角度分布图
米氏散射的通解对于任意大小的球体、折射率和波长都是精确有效的,主要用于计算消光效率系数Qe、电子的散射Qs及电子吸收Qa,即
(14)
式(14)中的散射系数和消光系数可以表示为无穷级数形式[47~49],即
(15)
(16)
粒子的散射系数可简化为
(17)
其中,an 及bn 为米氏散射系数,取决于频率;Re为复数和的实部;N为粒子数.
从式(17)可以看出,粒子的米氏散射不仅与粒子尺寸有关,而且与粒子数密度及粒子单位面积的散射系数有关.米氏散射理论为涉水环境固有光学特性分析及建模提供了理论框架,被广泛用于现代海洋光学研究中,如微生物颗粒的光学特性的研究[50].
(3) 湍流造成的光散射
根据米氏散射理论,绝大部分的散射为前向散射,即散射角 𝜃趋近于0.当散射角 𝜃<1°时,散射量的持续增加可能是湍流造成的.由湍流引起的折射率波动∆n可以表示为
(18)
其中,∆T及∆S表示温度T及盐度S的波动.
在天然水域中,温度及盐度波动通常在千分之一量级,光在水中传播时,由于折射率波动而产生的角度偏差非常小.因此在海洋中,湍流引起的散射强度在总散射强度中所在比例较低.但是,湍流引起的随机折射率波动,随着时间的积累,也将不可忽视,例如在水下成像中,会显著降低成像质量[51,52].
另外,湍流能够让颗粒物悬浮在海水中,当颗粒物的黏性足够强,这些悬浮颗粒将结合在一起形成絮状物,将进一步增大对光的散射.
(4) 非弹性散射
在粒子碰撞过程中,如粒子间除有动能交换外,粒子内部状态在碰撞过程中有所改变或转化为其他粒子,则称为非弹性散射.如图14所示,非弹性散射中,散射光子能量减小的散射称为斯托克斯(Stokes)散射,散射光子能量增加的散射称为反斯托克斯(Anti-Stokes)散射.散射光能量的改变与介质中的声子有关,光学声子(Optical Photon,OP)参与的称为拉曼散射,声学声子(Acoustic Photon,AP)参与的称为布里渊散射(Brillouin scattering).在拉曼散射中,光子因一阶相邻原子之间键的振动和旋转跃迁而发生散射,而布里渊散射则是由大尺度、低频声子引起的光子散射.声学声子能量较低,因此布里渊散射频移较小.光学声子能量略高,拉曼散射频移较大.拉曼散射及布里渊散射都有斯托克斯线与非斯托克斯线.通常在散射光中,绝大部分光都是瑞利散射,拉曼散射和布里渊散射都非常弱.
图14 非弹性散射示意图
布里渊散射是光与水相互作用产生的一种非弹性散射,实际上是由多普勒效应引起的.布里渊散射是一种非弹性散射,与弹性散射能够直接反映水中粒子本身的信息(如粒子大小、密度等)不同,布里渊散射与水的温度、盐度、密度等有关.这些参数会随机涨落,并且以声速向各个方向运动,形成声子.当光与声子相互作用产生散射时,声子运动的多普勒效应使散射光发生频移,出现频率大于及小于入射光中心频率的两个散射光,其频率对称地分布在入射光中心频率的两侧.
利用布里渊散射技术,海水温度测量可利用弗莱(Fry)等[53]的方法来实现,基于海水中布里渊频移量的大小,反演出海水中温度参数.海水中的折射率和声速都是关于海水温度和盐度的函数,通过检测海水布里渊散射频移的大小可以反演出海水温度及盐度的分布.海水表层附近的折射率随海水盐度、温度和波长的经验公式表示为[54]
(19)
其中,S表示海水盐度,T表示海水温度.
布里渊散射频移量表示为
(20)
海水的温度与布里渊频移量和接收布里渊散射信号功率之间的关系式为
(21)
其中,PB表示海水中布里渊功率,P0为海水中入射光功率大小,η为常数,约为0.001 7,ε为海水相对介电常数,P为普克尔光弹系数,kB 为玻尔兹曼常数,R为激光在海水介质中最小空间分辨率,T为海水的温度, ∆ νB为布里渊频移量.
综上所述,海水中布里渊散射频移量主要受到海水中的温度和盐度的影响;利用海水中布里渊散射频移量和布里渊散射功率,能够实现对海水温度和盐度的测量.通常海水温度的变化对布里渊散射信号的功率影响较大,而海水盐度的变化对其影响较小.表4简要汇总了海水对光的衰减中,各种因素的作用及波长的依赖性.
表4 水及其中物质的散射、吸收特性
2.3 跨介质涉水环境中光的反射及折射
“一道残阳铺水中,半江瑟瑟半江红”,我国唐代诗人白居易浪漫、生动地描绘了光的反射及色散现象;“潭清疑水浅,荷动知鱼散”,唐代储光羲则生动描绘了光的折射现象.1704年,牛顿(Newton)出版了他的第二部科学巨著《光学》(Opticks)[55],在这部划时代的作品中,牛顿通过棱镜和凸镜详细分析了光的折射现象.
海洋或湖泊上空的大气中大部分太阳光抵达水面,一部分会被水面反射到大气中,剩余部分折射进入水中.进入水中的光子有时也会从水下碰撞气-水交界面,其中一些光子穿过水面返回大气,另一部分再次反射回水中.当气-水交界面是一个水平面时,光子穿透水面时发生反射和折射现象,将严格遵守几何光学法则.气-水交界面将空间分成了折射率为na的大气,以及折射率实部为 𝑛w的水体,近似值na=1, 𝑛w=1.34,表5给出了入射光波长589.3 nm时,不同盐度及温度条件下的水的折射率[56~58].
表5 不同盐度及温度条件下的水的折射率
光线从空气入射到水中,遵循菲涅尔定律.入射光线,反射光线和折射光线各自与法线形成的夹角分别为 𝜃i, 𝜃r和 𝜃t.入射光线与反射光线的方向根据反射定律: 𝜃i= 𝜃r.入射光线与折射光线的方向由斯涅尔定律约束:n1sin 𝜃1 =n2sin 𝜃2.
对于s和p分量的偏振光被界面反射的比例R可以表示为[59]
(22)
对于非偏振光,反射比例R=(Rs +Rp)/2.如图15不同入射角时的反射率(a)光线从大气入射到水(b)光线从水入射大气所示,在入射角度不高于30°时,无论是由大气入射还是由水体入射的光线,反射率都为0.02~0.03.当光线从大气入射水中,入射角等于布儒斯特角时,p光反射率为0,即完全折射,s光部分反射.当入射角大于布儒斯特角时,反射率逐渐快速增大.当光线从水入射大气时,当入射角不低于48°时,光线就无法穿透气-水交界面进入大气.因此,对于入射到水中的光或者从水下发出的光,相对而言难以“逃离”水体.
图15 不同入射角时的反射率
(a) 光线从大气入射到水 (b) 光线从水入射大气
回到最初的问题,大海的颜色是由海面反射光和海水散射光的颜色决定的.赤道附近海域呈现深蓝色或靛蓝色是由于在该区域生物生产力较小.一方面,水分子对短波长的蓝光散射强度大于长波长的红光;另一方面,太阳光中的红光到黄光极易被海水吸收,主要剩余蓝光继续被海水散射.在高纬度和沿岸海域,海水中存在大量浮游植物,植物中的叶绿素将吸收红光和蓝光,海水将呈现绿色.沿岸海域由于陆地植物分解产生的浅黄色物质而呈现淡绿色,河流汇入带来的大量泥沙等无机物导致海水甚至呈现出黄色.另外,海水的颜色也与海水深度有关:通常海水浅的地方,短波长的光被散射较少,海水呈现绿色;海水深的地方,短波长的光被散射较多,海水呈现深蓝色.
光与水的物质相互作用及跨介质传播机理的研究,在分析水的固有光学特性及表观光学特性基础上,涵盖了光在同一种均匀透明介质中以及在两种介质分界面上的传播规律,从单一场景发展到跨域场景,能够为后续涉水视觉处理与分析奠定基础.
3 涉水影像处理与分析
涉水影像处理作为涉水光学技术在视觉领域的具象化应用体现,研究核心内容是基于光与水的物质相互作用及跨介质传播机理,在光传播路径的局部或整体中涉及水体的视觉任务.如图1所示,涉水视觉处理与分析的空间应用范围与涉水光学一致.具体来说不仅包含江河湖海等典型的单介质视觉任务,还包括空气中雨雾环境下的跨介质涉水视觉任务.如本文第2节所述,不同应用场景下,光的传播路径和传播机制存在显著差异,进而导致相应的视觉任务面临着不同的难点.结合特定涉水场景的光学特性,从前端的成像机理出发,考虑成像过程中光的传播过程以指导后端涉水视觉解析,可以有效改进相关任务的效率与效果.图16涉水环境光传播过程中受到的影响及其导致的涉水影像分析与处理难点展示了当前常见的涉水环境中出现的光源,光线传播过程中受到不同形式水体的干扰情况以及对最终成像结果造成的影响.
图16 涉水环境光传播过程中受到的影响及其导致的涉水影像分析与处理难点
3.1 单介质涉水影像处理
单介质涉水环境,是最常见的涉水环境之一.水下图像的采集与处理是涉水视觉领域最直观的一个应用场景.受水下环境高压、高湿以及低照度等特殊条件的影响,水下图像采集设备通常对设备密封性、抗压性、耐腐蚀性以及感光能力有较高要求,因而需要对相关的采集设备进行特殊设计和处理.且如第2.2节所述,受水体本身和其包含的杂质对光线的吸收和散射作用影响,水下成像质量极易受到色彩偏移、照度不均和对比度低等问题的制约进而影响后续的分析与应用.因此需要构建水下光线传播模型进而对采集到的图像数据进行增强与复原,抑或针对特定的水下视觉任务与场景设计专属的方法以提升算法在特定场景特定任务中的表现.下文将从单介质涉水影像增强和单介质涉水影像复原两个层面进行阐述,表6 [60~67]展示了涉及的部分相关方法以及它们使用的技术类型.
表6 典型的涉水图像处理方法及其属性
3.1.1 单介质涉水影像增强
如第2节所述,光在涉水环境传播的过程中,涉水复杂环境的光学特性会对图像采集造成不利影响.以水体为主要介质的环境中,光被大量吸收及散射.研究表明水下每隔10 m的深度,就会损失一半的光.在杂质较多的环境下,光的损失将更加显著.这极大影响了成像结果中场景的清晰度及对比度.同时受水体对不同波长光吸收率不同的影响,水下场景蓝绿光所在波段更具有优势,这导致最终成像的结果中蓝色和绿色占主导颜色,即存在严重的色偏情况.在高浊度水体条件中或使用人工强光源的条件下,这个问题可能会被进一步加剧,因为高浊度的水体增加了对光的吸收及散射,而人工光源则可能导致场景中的照明不均匀,从而掩盖场景中的细节并产生额外的亮斑[68].水体中普遍存在的杂质颗粒与荧光生物也会导致成像质量的退化.依据成像结果的不同退化情况,我们需要对细节丢失的涉水图像进行增强,对内容丢失的涉水图像进行复原.本节主要关注涉水图像增强技术的梳理.具体来说常见的涉水图像增强方法可以分为基于硬件的增强方法[69~71]及基于算法的增强方法[72,73].基于硬件的增强方法致力于设计专用的设备在采集图像的时候就实现对图像的增强;而基于算法的增强方法则偏向开发相对普适的方法,接受不同设备采集到的图像文件作为输入实现涉水影像的增强与恢复.
(1) 基于硬件的涉水图像增强方法
当前常见的基于硬件的涉水图像成像增强方式有偏振成像、距离选通成像、荧光成像等,通过特殊设计的硬件设备实现在采集图像的时候就排除一些干扰,提升成像质量.
光具有强度、波长和偏振特性.自然光是没有偏振的,而通常传感器捕获到的光是包含偏振信息的.初步研究证实,通过偏振成像可以减少后向散射.涉水偏振成像有两种经典的方法.一种是在相机前面安装一个偏振滤光片来接收偏振图像[69,70].另一种方法是使用偏振光源来捕捉同一场景的不同照明图像.偏振成像的目的是在快速捕获图像的同时显著降低噪声.图17展示了一种常见的基于偏振滤光片的偏振成像方式,即通过安装偏振滤光片来在图像采集之时就去除掉其他来源的杂光.
图17 偏振成像过滤杂光实现图像增强
偏振成像是一种被动成像方式,而距离选通成像是一种广泛应用于浑浊水体中的主动激光成像系统[74].在涉水激光成像系统中,相机与光源相邻,而目标在混浊介质的后面.该系统通过选择来自物体的反射光并通过关闭快门以阻挡后向散射.然而,激光成像方法存在易受环境影响、设备设置复杂等缺点.因此,激光成像仪器很少在工业中应用.
常见的荧光成像方法需要在完全黑暗的环境下进行,成像过程中通常会人为对环境光和其他光源进行遮挡,以免影响成像质量.但是在实际的应用过程中,很难完全排除所有光源的影响.因此,如何在有其他光线影响的情况下进行高质量的荧光成像是当前亟待研究的课题.马泽尔(Mazel)[75]针对白天场景下的荧光成像方法进行了改进,通过对成像设备的闪光同步速度、闪光强度、闪光持续时间、探测器灵敏度和荧光屏障滤光片光谱特性等多种物理特性建模,结合采集环境的水体状态、采集时间、采集方位等多种环境因素来排除成像过程中环境光线的干扰,实现有环境光情况下高质量的荧光成像.而立体成像技术则是对人眼视觉进行模拟,具体来说,使用特殊的手段获取被观察对象在不同位置、不同角度或者不同位置下的图像,通过设计算法来恢复出被采集场景的立体距离信息.包含距离信息的视觉数据能为导航、避障等多种任务提供有力的支持.罗瑟(Roser)等[76]提出了一种在动态自然光照和浑浊条件下同时进行水下图像质量评估、可见度增强和视差计算以提高立体距离分辨率的新方法.该方法通过使用物理水下光衰减模型从原始退化图像的稀疏3D地图估计可见性属性,进而实现水下立体图像实时重建,当前已经被搭载在无人涉水航行器上进行了应用验证.
基于硬件的涉水图像增强方法需要在相应的硬件采集设备层面就进行考虑从而做出针对性的改动,进一步配合相应的图像恢复算法实现对某些特定场景和任务的高质量图像获取.表7给出了本文介绍的3种成像方法分析和对比.然而这一类方法存在针对性强、普适性差的问题,在非目标场景下甚至会出现效果变差的状况.因此,有研究者提出从图像数据本身出发,不依赖特定的采集方式进行涉水图像的增强方法研究,即下文介绍的基于算法的涉水图像增强方法.
表7 基于硬件的涉水图像增强方法对比
(2) 基于算法的涉水图像增强方法
基于算法的涉水图像增强方法通过分析常见涉水图像的表观特征,总结涉水图像在应用过程中所存在的缺陷,结合造成该缺陷的原因提出相应的算法,在已经完成采集涉水图像的基础上,做出针对性的图像增强与改进.基于算法的涉水图像增强方法关注图像数据的自身特性,不和特定的成像方法产生绑定.涉水影像的增强主要关注图像中目标分离度、纹理特征和边界的加强,而对比度这一常用的图像评价标准可以同时兼顾这一系列目标,因此当前涉水图像增强技术通常面向对比度增强这个常见的涉水图像质量问题展开研究.如图18所示,常见的涉水图像对比度增强方式涉及小波变换、图像滤波等一些常见的传统图像处理方法和深度神经网络一类的基于学习的方法,我们将围绕不同类别的方法展开讨论.
图18 涉水图像对比度增强的常见方法
对比度是常用的主观评价图像质量的基本标准.它是由两个相邻平面反射的亮度差异造成的,这种亮度差异会导致目标视觉属性上的偏差,进而使一个物体可以区别于其他实体和场景背景[77].研究表明,相比较于绝对亮度,人类的视觉系统对图像的对比度更加敏感.因此,尽管在现实世界中,光照条件经常发生显著变化,我们依然可以高效地感知周围的环境.如果图像的像素亮度过于集中在一个特定的范围内,就会导致图像的整体对比度偏低,进而导致图像部分区域信息的丢失[78].而涉水场景中因为光线的不足往往会导致采集到的图像出现对比度差的状况,因此需要研究适用于涉水图像的对比度增强算法,以加强图像中目标的细节,突出目标主体.
很多研究者在最常见的RGB和HSV图像空间以及相应的频率空间展开了涉水图像增强的研究.普里亚达希尼(Priyadharsini)等[60]提出了基于平稳小波变换(Stationary Wavelet Transform,SWT)的图像对比度增强算法,该方法基于拉普拉斯滤波器和掩码技术对低频子频带进行修改,以提升图像的峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似性(Structural Similarity,SSIM)指标.古拉辛(Guraksin)等[79]设计了基于离散小波变换(Discrete Wavelet Transform,DWT)和圆周演化算法的涉水图像增强方法,在第一阶段通过对比度增强和同态分光来增加图像对比度和亮度;在使用DWT对图像进行分解后,利用圆周演化算法检测对于不同性能评价方法的最优参数.
为了平衡图像对比度和涉水图像处理中与光线相关的问题,伊克巴尔(Iqbal)等[61]在RGB和HSI颜色模型中应用了集成彩色模型和无监督色彩校正两种不同的拉伸算法.桑克帕尔(Sankpal)等[62]在此基础上进一步提出了基于雷利拉伸的单通道图像对比度增强算法,利用涉水退化图像尺度参数的最大似然估计和能量校正来估计信息的损失以增强图像对比度,改进方法的加入降低了输出结果中的噪声量,且增加了图像的细节.查尼(Chani)等[80,81]提出了基于瑞利直方图(Rayleigh histogram)拉伸和平均RGB,HSV色彩空间的对比度增强算法,并设计了定性和定量的实验分析证实了对直方图均衡化方法改进的有效性.李等[63]提出了一种高浊度涉水图像增强算法,通过图像去散射与分析物理频谱特性,实现涉水图像的对比度增强;此外还提出了一种新的涉水图像质量衡量指标,并构建了一个基于深度神经网络的图像质量分类框架.
除了在常见的RGB和HSV图像空间展开涉水图像增强的研究,还有研究者尝试在CIELAB图像空间进行研究.CIELAB颜色空间由一个亮度通道和两个颜色通道构成,它更接近于人类的视觉系统,因此在此空间中处理完的图像可能更加符合人类的视觉认知.张等[81]提出了基于视网膜皮层算法(retinex)的颜色恒常性和CIELAB空间的涉水图像增强方法,该方法通过在CIELAB三个通道中,结合使用双边和三边滤波器来构成多尺度视网膜皮层(Multi-Scale Retinex,MSR)结构,实现图像对比度的增强,另外还更新了原始视网膜皮层算法,消除人工光源造成的光晕.
近年来,也有很多的研究者将深度学习的方法引入涉水图像的对比度增强任务中.深度学习作为一种强大的数据驱动方法,为涉水图像增强提供了全新的解决方案.基于深度学习的涉水图像增强方法的核心是使用深度神经网络来学习图像的复杂特征和统计规律,从而实现自动化的图像增强.其中,卷积神经网络(Convolutional Neural Network,CNN)和生成对抗网络(Generative Adversarial Network,GAN)是两种常用的深度学习架构.
在涉水图像增强中,CNN被广泛应用于图像预处理和特征提取.CNN通过多层卷积和池化操作,可以从图像中学习到不同层次的特征表示,从低级纹理到高级语义信息.对于涉水图像,CNN可以学习到水下环境中光线衰减和颜色失真等特有的特征,从而在增强图像时更加准确地补偿这些问题.例如,研究人员可以设计一个端到端的CNN模型,将水下图像作为输入,通过训练学习到从原始图像到增强图像的映射,从而实现自动的图像增强.
通过构建CNN网络,该方法能够自动学习水下图像的特征表示,从而有效恢复图像细节、提升对比度,增强图像的清晰度和可视化效果.该方法的核心包括数据准备、网络架构设计、特征学习、损失函数定义、训练优化等步骤,最终使训练好的网络能够将水下图像转化为更具视觉吸引力和信息丰富度的增强图像,为水下环境下的目标检测、探测等任务提供有力支持.然而,尚需解决光线衰减不同程度的处理方法以及数据限制等问题,未来的研究可以进一步改进网络设计、融合多模态信息等手段,进一步提升基于CNN的涉水图像增强方法的效果.
GAN在涉水图像增强中也展现出强大的潜力.GAN由生成器和判别器两部分组成,通过构建生成器和判别器两个竞争性网络,该方法能够逐步提升生成的图像的真实性和视觉效果.生成器网络将水下图像转化为更清晰、更有对比度的增强图像,同时判别器网络评估生成图像与真实增强图像之间的差异.这种对抗性训练方式使生成器能够逐步提升图像质量,为水下图像的可视化呈现和分析提供了有力工具.然而,要克服生成图像逼真性和训练稳定性等挑战,需要进一步深入研究网络架构和损失函数的设计.未来的发展将推动基于GAN的涉水图像增强方法在水下领域发挥更大作用.
除了CNN和GAN,还有一些其他深度学习方法在涉水图像增强中得到了应用.例如,自注意力机制(self-attention)可以帮助模型捕捉图像中的长距离依赖关系,从而在增强过程中更好地保留重要的细节.迁移学习技术允许将在大规模数据集上预训练的模型迁移到涉水图像增强任务上,从而加快模型的训练收敛速度并提高增强效果.
基于Transformer的涉水图像增强方法是图像处理领域的新兴技术,通过将图像视为序列数据并利用自注意力机制,它能够更好地捕捉水下图像中的全局关系,弥补光线衰减和颜色失真等问题.该方法的核心是设计一个多层的Transformer架构,使其能够自动学习图像的特征表示并生成更清晰、更具对比度的增强图像.然而,虽然该方法在图像增强任务中表现出潜力,但仍需克服数据稀缺性和模型复杂性等挑战,未来的研究可以探索更有效的位置编码方式、注意力机制设计以及模型压缩技术,以进一步推动基于Transformer的涉水图像增强方法的发展.
基于迁移学习的涉水图像增强方法是一种创新手段,通过在源领域预训练深度神经网络,将其在涉水图像领域进行微调,以实现更好的图像增强效果.这一方法借助源领域的丰富知识,能够捕捉通用的特征表达,并将其迁移到水下环境中,以提升图像清晰度和对比度.虽然这种方法减少了在水下数据上的训练需求,但仍需要解决如何在源模型和目标任务之间平衡,以及如何更好地处理水下特定的问题.未来的研究可以集中在更精细的模型适应和泛化方法上,以进一步推动基于迁移学习的涉水图像增强方法的进步.
比如孙等[82]使用CNN网络作为编码器,反卷积层作为解码器,构成涉水图像对比度增强编解码模型.戈切里(Goceri)等[83]则是将这一思路进一步拓展到多种不同类型的涉水图像中进行增强.这一类的增强方法不需要过多的考虑成像过程中的物理模型,涉水图像增强模型以数据驱动,通过迭代的训练过程调整模型参数,大量的数据赋予了模型更好的稳定性,使其能够处理带有多种不同噪声的涉水图像.宾杜(Bindhu)等[84]提出使用线性图像插值和有限图像增强,在提升图像对比度和分辨率的同时移除图像中的失真.古拉辛(Guraksin)等[85]使用基于差分进化算法计算得到的参数对涉水图像的R,G,B三个通道分别进行对比度拉升,最终得到整体的对比度增强的图像.郑等[86]利用加权混合将对比度受限自适应直方图均衡(Contrast-Limited Adaptive Histogram Equalisation,CLAHE)变换图像和反锐化掩模(UnSharp Masking,USM)变换图像进行融合,并用实验证明所提线性融合方法也十分有效.
总之,基于深度学习的涉水图像增强方法在改善水下图像质量方面具有巨大潜力.通过充分利用深度神经网络的强大特征学习能力,这些方法能够在水下环境中有效地进行图像增强,提高图像的清晰度、对比度和可视化效果.表8给出了本文介绍的三种图像增强方法分析和对比.然而,仍然存在一些挑战和机遇.多模态融合、鲁棒性、小样本学习以及不确定性建模等领域有待探索,以进一步提升图像增强的效果.此外,致力于实时性和效率的研究将推动这一方法在水下探测和应用领域的实际应用.弱监督学习等技术的应用将降低数据标注成本,而将方法应用于特定领域如水下考古、海洋生物观测,将会引领更具体的问题研究,推动这一技术在实际应用中的发展.综上所述,基于深度学习的涉水图像增强方法在未来充满着前景,将为水下图像处理领域带来更多创新和应用机会.
表8 基于算法的涉水图像增强方法对比
3.1.2 单介质涉水影像复原
前文所述单介质涉水图像增强算法致力于通过后处理的方式对采集到的图像进行现有内容的增强,以达到增强图像中目标分离度、纹理特征和边界的效果.但是受涉水图像采集过程中设备与环境的限制,涉水图像中往往还存在严重的色彩偏移与图像内容模糊问题,此类问题的存在涉及图像内容的丢失,无法通过图像增强来直接改善,这也阻碍了涉水图像的分析与处理.因此,也有大量的研究者致力于单介质涉水视觉的色彩恢复和内容恢复研究.这里统称其为单介质涉水视觉复原任务.下文将分别对这两个方向上的研究进展进行介绍.
首先是单介质涉水影像的色彩恢复.如图19所示,蓝光和绿光能够在水下传播更远的距离,这就导致涉水低光照环境下采集到的图像多数呈现蓝色和绿色.对于涉水图像的三个颜色通道直方图分析结果也表明红色通道分量极小[87],这与理论分析结论一致.为了缓解涉水图像颜色偏移问题,必须对其进行色彩校正,以改善图像中信息的准确性.深度学习技术通过大规模训练数据集,以端到端的方式,自动学习并建模光线衰减的复杂关系.具体而言,CNN等深度模型能够从数据中学习出水下图像与清晰图像之间的映射关系,从而实现图像复原.近年来,一些基于深度学习的网络架构,如U-Net和ResNet等,被广泛应用于水下图像复原任务,它们能够逐层提取图像特征,帮助网络捕获和修复图像中的细节.
图19 单介质涉水图像色彩偏移及矫正效果对比
(a) 单介质涉水图像色彩偏移 (b) 色彩矫正后的图像
2012年,沙姆斯丁(Shamsuddin)等[64]通过比较输出图像拉升直方图的平均值对自动和手动色彩校正技术进行了评估,对比结果显示相较于自动校正的方法,手动的色彩校正效果更好,分析表明这可能是由于自动化算法对图像色彩空间认知能力不足.塞蒂(Sethi)等[65]提出了一种利用模糊逻辑来确定涉水图像色差并基于菌群优化算法(Bacterial Foraging Optimization,BFO)来消除色差的颜色矫正方法.该方法的自适应特性有效地增强了矫正后图像的视觉质量.与UCM和灰度世界算法相比,此方法具有更好的色差识别效果.性能评估结果表明,菌群优化算法自动地搜索到了最优的色彩平衡,在恢复图像颜色的同时也提高了图像的对比度.桑克帕尔(Sankpal)等[66]提出了一种非均匀光照图像色彩校正方法,该方法基于最大似然估计将图像映射到瑞利分布.输入图像被分成三个颜色通道来分别估计修正参数,并独立地进行直方图拉伸,拼接在一起形成校正后的图像.相较于线性拉伸,奥(Ao)等[67]提出了一种自适应线性拉伸的方法,该方法根据直方图实际分布对弱光区域进行阈值调整,最终实现在保持较低计算复杂度的同时提高颜色校正结果的主观质量.实验结果表明,该方法具有较好的实时性能.辛格(Singh)等[88]通过对输入图像进行离散小波变换得到颜色近似系数和目标细节系数,通过颜色近似系数进行不同图像颜色的校正,并基于细节系数来保持图像的内容结构.
在单介质涉水影像内容恢复层面,如图20所示,湍流、失焦、杂质、相对运动等多种复杂因素,会造成最终成像存在退化降质进而出现模糊与内容丢失,影响后续处理与分析的进行.因此,对于涉水影像内容恢复相关的研究多集中于去模糊技术.常见的一种思路是通过预设的方式对模糊图像的退化过程进行建模,进而基于模型和模糊图像反推出原始的清晰图像.有研究者提出基于反向滤波[89]对图像的线性退化进行建模,使用如下退化模型表征涉水图像的退化过程:
(23)
其中,g(p,q)表示最终采集到的涉水图像,f(p,q)表示输入的未退化图像,h(p,q)为退化函数,*代表卷积运算,n(p,q)为噪声函数.将该退化过程变换到频域可以通过如下公式计算真实图像值:
(24)
其中,u,v为频率域的变量;G,F,H,N代表式(23)中函数g,f,h,n通过傅里叶变换转换到频域的函数.此时,在高频域中1/H(u,v)趋于无穷大时,噪声N的一个微小波动都会导致求解真实值F出现极大的变化,影响图像复原效果.因此在实际的使用过程中通常会引入参数k,来遏制高频域中的微小噪声扰动.通过实际的实验结果发现,在噪声值比较小的情况下,k取值为0.01比较合适,但是当噪声值比较大的时候,k的取值也需要相应增大,一般在0.1左右,但是该值也会使复原图像结果趋于平滑,降低输出图像的质量.
图20 单介质涉水图像模糊现象及去模糊处理效果对比
(a) 单介质涉水图像模糊 (b) 去模糊后的图像
为了进一步提升复原图像的质量,有研究者提出基于最小二乘滤波的方法,以最小化均方误差为衡量指标进行算法设计.使用式(25)在频域计算复原图像:
(25)
其中,Sn (u,v)为噪声函数的功率谱,Sf(u,v)则表示原始输入的功率谱函数.但是在实际的应用过程中,实际噪声的功率谱和输入图像的功率谱没有办法获取到,所以引入一个正则参数上来替代Sn(u,v)/Sf(u,v),进而得到近似的最小二乘滤波去模糊算法.相比于原始的反向滤波退化模型,最小二乘滤波算法具有更高的噪声鲁棒性,适用范围更加广泛.除上述基于图像退化模型的涉水图像去模糊算法,还有研究者提出基于运动密度方程[90]或是CNN[91]推算专用于估计运动模糊的模糊核,进而反向推算出待还原的图像.还有研究者不遵循图像退化的思路,而是将其看作一个逐像素的回归[92]或是图像生成[93]问题,通过大量的成对数据对模型进行训练,然后基于输入的模糊图像绕过重建的过程直接输出预测的真实图像.虽然此类方法没有底层物理模型的支撑,但是得益于极大的数据规模与包含大量参数的模型设计与强有力的硬件支撑,依然取得了不错的效果.更进一步,有研究者提出将造成模糊的物理机制[94]与算法进行结合来指导模糊的去除,实验结果显示,尽管物理机制的引入为算法带来了改进,但是实际模糊成因复杂,因此该方法还有较大的改进空间.
基于深度学习的涉水影像复原面临着一系列挑战与机遇.一方面,训练数据的质量和数量对模型性能至关重要.水下数据获取难度大,标注成本高,导致数据集的规模和多样性有限,可能导致模型的泛化能力不足.解决这一问题的途径之一是引入合成数据或迁移学习,以充实数据集.另一方面,如何更好地处理不同水下环境和条件下的色彩失真、光线衰减等情况,也需要进一步的研究.随着深度学习模型的不断演进,研究人员可以进一步设计更复杂的网络架构,引入更多的先验知识,以提高模型的复原效果.同时,跨模态融合、多任务学习等技术也可以用于增强复原能力,实现更全面的图像修复.此外,将深度学习方法应用于实时复原场景,如水下机器人的实时图像增强,也是一个重要的方向.表9给出了本文介绍的三种图像复原方法的分析和对比.综合而言,基于深度学习的涉水影像复原不仅为水下科研和探测提供了强有力的支持,还在海洋资源开发、环境保护等领域具有广泛的应用潜力.
表9 基于算法的涉水图像复原方法对比
3.2 跨介质涉水影像处理
相较于单介质涉水环境,光在跨介质传播过程中,不光受到单介质内光线吸收和散射的影响,还会受到不同介质间光的折射与反射的影响,最终造成影像数据多个层面内容和细节的丢失.最典型的跨介质涉水视觉场景为含雾图像和含雨图像、雾霾和雨滴的存在,这会严重限制涉水影像内容的分析与利用,因此很多研究者致力于涉水图像去雾和去雨的研究,我们也将从这两个方面展开介绍.
3.2.1 跨介质涉水影像去雾
依据算法设计思路的不同,可以将常见的涉水图像去雾算法分为基于物理模型的方法、基于非物理模型的方法以及基于深度学习的方法.下文将对三种不同的思路分别进行详细的介绍.
(1) 基于物理模型的涉水图像去雾算法
基于物理模型的涉水图像去雾算法从雾对成像过程的影响出发,将光传播过程中的散射和吸收纳入考量建立物理模型.现在最常见的涉水图像去雾物理模型为大气散射模型,如图21所示,该模型由1976年麦卡特尼(McCartney)[95]基于米氏散射理论发展而来.该模型由三个部分组成:直接光照Ed 、前向散射Efs 和后向散射Ebs,即
图21 大气散射模型
(26)
其中,直接光照是光直接到达相机的部分,一部分光在到达相机的过程中经过了散射和吸收,所以只有部分到达了相机.同时,后向散射是图像对比度降低的最主要的原因,因此可以忽略前向散射.
直接光照的部分可以被定义为
(27)
其中,J和d为场景的亮度和深度, 𝜂是衰减系数,t是透射率.这个模型中最重要的是直射光和后向散射光之间的比重,深度和衰减系数之间呈指数关系,复原的关键就是找到透射率.
在室外场景中, 𝜂仅仅由散射系数组成,此时也就是 𝛽.但是在水下环境中,衰减系数 𝜂是吸收系数 𝛼和衰减系数 𝛽的和.吸收系数 𝛼和衰减系数 𝛽都是和波长相关的,因此传输衰减系数 𝜂也是和波长相关的.
后向散射分量不是来自物体的辐射,而是来自环境光源和分散在介质中的粒子之间的相互作用.因此,一个简化的模型可以写成:
(28)
其中,A是场景中的空气或者全局光,是一个依赖波长的标量,通常情况下也被认为是全局常量,与空间坐标无关.大气光值中包含了包括太阳等外部光源的光,以及其他杂乱的漫反射光等影响目标全局反射光强度的所有杂散光.而大气透射率则代表了透过单位长度的介质给定入射光的衰减状况.进一步处理得到
(29)
其中,x为图像像素的空间坐标,I(x)代表受到光线散射影响采集到的有雾图像,J(x)为待恢复的原始图像反射光,t(x)=exp[-rd(x)]代表大气透射率,J(x) t(x)为目标衰减反射光.
由式(29)可知,只需要根据含雾图像I(x)计算出透射率t(x)和全局大气光值A,即可通过式(29)反推出原始的无雾图像.现有的基于物理模型的涉水图像去雾算法大多基于该模型演变而来,很多工作的改进和创新集中于全局大气光值A和透射率t(x)的估计上.对于全局大气光值A的估计,前期工作中最简单直接的方式为使用含雾图像中亮度最大的像素点灰度值作为全局大气光强值.基于分块递归的大气光强值估计方法[96]则是将含雾图像从空间层面平均分为四个部分计算每个部分的平均亮度值和标准差,并将二者做差,然后选取差值最大的子块再分为四个部分重复上述步骤,如此循环迭代下去,直到分块的大小达到预先设定的阈值,或是分块的次数超过预先设定的最大值,选取最后得到的子块中亮度最大值作为全局大气光强值.
因此在涉水视觉中,解决图像恢复和深度估计这个模糊问题时,最常用的策略之一是基于对场景的一些先验知识来施加额外的约束,较为典型的方法则是暗通道先验方法.何等[97]通过观测分析了最常见的无雾室外图像,如图22所示,在大多数的非天空区域下的自然图像中,至少有一个颜色通道在某些像素点处具有极低的强度.所有图像块中每个颜色通道的像素点最低值组合在一起构成图像的暗通道,统计分析结果发现除了天空区域以外,对于无雾的室外图像块,暗通道强度极低且趋近于零.基于暗通道的大气光值估计方法则是从暗通道中选取一定比例最亮的像素值,然后选取原始含雾图像对应位置像素点中的最大灰度值作为全局大气光值.而水下暗通道先验则是将该先验信息应用到了蓝色通道和绿色通道.
图22 无雾与含雾图像及暗通道对比
黑暗通道中的这些低强度是由三个原因造成的:图像中的一些阴影;彩色物体或者物体表面至少一个颜色是低强度的;深色的物体或者物体表面.他们收集了大量的户外图像并建立了直方图进行统计.统计显示,在暗通道中,大约75%的像素值为0值,90%的像素值低于25.基于以上统计先验,可以将暗通道定义为
(30)
其中,Jc 是每个颜色通道的场景亮度, 𝛺(x)是一个以x为中心的局部斑块.接下来运用这个暗通道先验进行复原推导.
在这里,首先假设给出了大气光A为已知.进一步假设在一个局部斑块 𝛺(x)中的传输是恒定的.将斑块的传输表示为
.根据雾霾成像方程,对方程进行局部斑块取最小值的操作,可以得到
(31)
因为以上操作是在三个颜色通道上独立执行的,所以这个方程可以变化为
(32)
对上述公式取三个颜色通道之间的最小运算,得到
(33)
根据暗通道先验,无雾亮度的暗通道亮度J 趋于0,即
(34)
同时,环境光A总是正的,将导致
(35)
将之前的等式带入上述等式,得到
(36)
其中,
是正常的有雾图像
的暗通道,提供了透射率的估计.
之前提到,暗通道先验不适用于天空区域.但是天空的颜色通常与雾霾图像中的大气光A非常相似,可以得到
.所以对于天空区域,天空是无限大的,透射趋于0,上述等式也可以去处理天空区域.
实际上,即使在晴朗的日子里,大气中也不是绝对没有任何粒子.所以,当人眼看到远处的物体时,雾霾仍然存在.此外,雾霾的存在是人类感知深度的基本线索,这种现象被称为空中透视现象.如果彻底去除雾霾,图像可能会看起来不自然,深度的感觉可能会消失.因此,可以通过在上述等式中引入一个常数参数 𝜔(0< 𝜔≤1).
(37)
上述暗通道先验算法同样适用于水下,即至少有一个颜色通道有一些像素的强度接近于0,这是由于:(1)阴影;(2)至少有一种颜色是低强度的物体或者物体表面,如鱼类、藻类或者珊瑚等;(3)深色的物体或者物体表面,如岩石或者深色的沉积物.但是,在水下环境中红光被吸收和散射的程度非常大,所以红光的强度往往较低,因此暗通道先验算法后会由于红色通道而失效,最终导致图像复原的效果差.考虑以上情况可得
(38)
经过类似于之前的推导,可以得到透射率 𝑡˜(𝑥)为
(39)
为了选取合适的背景光,根据式(26)可得
(40)
从式(40)可知,复原原本的场景亮度,在求出透射率
的情况下还需要知道环境光A.以往选择强度最高的像素作为大气光A,但是若水下图像中存在白色的物体,则不属于环境光的范畴,环境光A则会选取白色物体的像素强度,不符合要求.
基于分段的大气光强值估计方法则是考虑到常见图像中可能包含不同的光照来源,尤其是来自天空的光源和来自地面的光源可能存在显著的差异,且地面的人造光源可能会对图像中全局大气光值判断造成不良影响.通常的图像中天空场景位于图像的上半部分,所以有研究者直接将图像在水平方向上分成多个部分,然后使用最上面的部分来通过暗通道估计算法获取全局大气光强值.
基于快速估计的全局大气光值算法则是首先求取含雾图像的暗通道图像,然后对其进行均值滤波,获取滤波后暗通道图像中的最大值,再将该值与R,G,B三通道中灰度最大值加和后求平均值作为全局大气光值.
估计出全局大气光强值后,只需要再估算大气透射率,即可使用式(26)直接计算出原始的无雾图像.何等[97]结合式(41)中各个变量的取值范围:
(41)
推算出t(x)的取值范围:
(42)
进而使用1-I(x)/A来近似的表示t(x)的值,为了保证图像的自然性,增加一个参数ω来对透射率值进行调整,最终得到如下透射率计算方式:
(43)
金(Kim)等[96]则是提出了通过变换式(26)直接求解J(x),有
(44)
可以看到,此时J(x)和I(x)在坐标轴上构成一条与纵轴的交点为(0,-A/t(x)+A)的直线.当I(x)的值在[0,255]的有效范围内变化时,J(x)的值有可能为负值或者是超出图像最大值,进而导致去雾后图像的失真情况.金等[96]设计了如下损失函数来限制去雾过程中的失真,即
(45)
其中,E loss代表生成无雾图像过程中产生的失真量,Jc (x)为去雾后图像中对应的R,G,B三个通道的图像.同时,还引入了损失E contrast来衡量去雾过程中对比度增强的效果:
(46)
其中,Im 和Jm 分别代表含雾图像和去雾图像的均值,N all代表图像中像素点的总个数.最终金等[96]提出通过在预设的取值范围内,迭代的计算相应的总损失值E loss + E contrast,取其中使总损失值最小的透射率作为当前像素点处的透射率近似值.依照此思路可以依次求得图像中所有像素点处的透射率估算值,但是这样的计算思路会造成算法的计算量过大.表10给出了本文介绍的三种图像增强方法的分析和对比.因此,可以进一步假设图中每个小块区域的透射率相同,只对每个小块区域计算一次透射率从而极大地减少计算开销.在获取到估计的大气光值和透射率后,基于大气散射模型即可直接计算得到去雾后的图像.
表10 基于物理模型的涉水图像去雾算法对比
(2) 基于非物理模型的涉水图像去雾算法
基于非物理模型的涉水图像去雾算法,通常使用改进后的通用图像增强算法,对图像中的目标细节进行增强,通过强化图像边缘、突出纹理信息等方式增加图中细节信息,进而实现去雾的目的.比较常见的基于非物理模型的去雾算法涉及直方图均衡化,图像滤波和视网膜皮层模型(Retinex)等多种基础的图像增强算法.直方图均衡化算法通过人为调整图像直方图分布状况使其变得均匀,从而实现图像对比度和细节的增强,进而达到去雾的效果.早在2004年,雷扎(Reza)等[98]就提出了一种受限对比度的直方图均衡化方法CLAHE.该方法首先将图像分为多个子块,再对其中所有子块逐个进行局部的对比度受限直方图均衡化,最后对子块的边界进行平滑,最终实现了去雾.程等[99]通过改进直方图均衡过程中的分布方式,实现了一种自适应的直方图均衡化方法.该方法依据图像中目标的分布状况进行自适应的分析,自动地衡量图像中不同区域应当呈现的直方图分布状况,对景物复杂多变的场景去雾效果更好.
基于常见的图像滤波器进行涉水图像去雾的工作涉及导引滤波[100]、联合双边滤波[101]、联合三边滤波[102]等多种不同的基础图像滤波方式.因为此类方法使用的滤波器均为最基础的图像滤波器,所以这里不再详细介绍.基于Retinex模型的去雾算法主要由高斯滤波和对数以及反对数变换构成,与前文提到的用于涉水图像对比度增强的视网膜模型方法类似,有研究者将其与暗通道先验直接结合[103],或是通过泰勒展开的方式进行结合专用于夜间图像的去雾[104],或是将其与色彩矫正任务一同处理[105].基于直方图均衡化的方法只考虑到图像的灰度分布特征,在实现的过程中容易受到图中额外噪声的影响.基于基础滤波的方法也大多只关注到图像中低频部分的雾气造成的影像进行优化,无法妥善地处理图像中的高频噪声.表11给出了本文介绍的三种基于非物理模型的涉水图像去雾算法的分析和对比.总之,基于非物理模型的涉水图像去雾方法主要通过统计和分析图像本身的数学特征,然后基于特定的变换方式对图像中的雾气进行滤除,同时增强图像的细节,本质上此类方法都属于一种常见的图像增强方法的专项应用.常见的涉水图像去雾算法在完成去雾之后可能会呈现偏暗的整体效果,导致对比度偏低,因此很多方法会补充诸如对比度提升和伽马矫正的后处理方法,改善最终呈现的无雾图像视觉效果.
表11 基于物理模型的涉水图像去雾算法对比
(3) 基于深度学习的涉水图像去雾算法
基于深度学习的算法也被研究者引入涉水图像去雾领域.早在2016年,蔡等[106]就设计了基于卷积神经网络于大气散射模型结合的去雾方法DehazeNet.该方法使用包含特征提取层、多尺度映射层、局部极值抑制层和非线性回归层构成的模型来预测输入图像的逐像素透射率,得到透射率值后即可直接通过大气散射模型反推出相应的无雾图像.值得注意的是,后续使用估计出的透射率推算无雾图像时,将大气光值设置为一个固定的全局常量,导致模型在不均匀雾度的情况下效果变差.因此,李等[107]在大气散射模型的基础上进行了进一步推演,将其变形为如下形式:
(47)
其中,新变量K(x)的定义由下式给出:
(48)
其中,b是默认的固定偏差常量,其余变量含义和前文一致.不同于之前基于大气散射模型的去雾思路,这里李等[107]将透射率t和大气光值A集中到一个变量中,这个新变量的值受到含雾图像I(x)的影响,所以文中求解无雾图像的思路是,构建模型基于输入图像,对K(x)直接进行估计并预测出相应的无雾图像,实现端到端的去雾.任等[108]则是提出了一种基于门控融合的方法来实现去雾,该方法首先对原始图像进行了白平衡矫正,对比度增强和伽马矫正叠加在一起构成了三通道的网络输入,通过类似UNet[109]的结构解码得到三个通道输入对除雾这个最终目标的贡献,最后通过门控融合三个通道的预测值得到最终去雾图像.同时任等[108]在网络训练的过程中引入了多尺度融合训练的方法,抑制除雾过程中光晕的产生.曲等[110]提出了不依赖大气散射模型的去雾模型,基于像素级语义理解的思路从输入的含雾图像直接点对点地逐像素输出去雾后的图像.模型中融入了对抗生成网络的思想,具体来说包含一个多分辨率生成器、一个多尺度判别器和一个增强器.判别器和生成器以对抗生成的方式互相提升,以生成更加真实的无雾图像,而增强器则用于更进一步改善生成图像的细节.但是由于没有真实含雾图像和无雾图像对用于模型的训练,以上方法都是通过使用无雾图像和随机生成的透射率,基于大气散射模型来生成虚拟的含雾图像用于模型的训练.所以在某种意义上它们都是基于合成数据展开的研究,由于合成数据和真实数据间存在域间差异,使用合成数据进行训练的模型在真实场景中使用时会出现显著的性能下降.
为了缓解基于深度学习的方法严重依赖海量数据这一问题,李等[111]提出了一种半监督的去雾方法,具体来说他们提出了一种由有监督分支和无监督分支共同构成的去模糊网络模型,两个分支在模型训练过程中共享权重.有监督分支使用合成的含雾图像-无雾图像对进行训练,使用均方误差、感知误差和对抗性误差共同构成该分支的损失函数;而无监督分支则是使用真实含雾图像进行训练,通过暗通道先验和图像梯度统计利用无雾清晰图像的属性来进行约束.混合使用真实数据和合成数据进行模型的训练,可以赋予模型在合成图像和真实图像间的域适应能力,然而仅仅通过共享参数的训练只能一定程度上缓解域间差异带来的影响,并不能真正解决这个问题.因此,邵等[112]提出首先使用一种双向图像域翻译模型,将含雾/无雾图像在真实域和合成域上进行双向的域转换来缩小两个域间的差异,接着使用翻译后的图像来分别训练真实域和合成域上的去雾模型,分别用于在两个域内完成去雾任务.为了彻底解决去雾任务没有真实含雾-无雾图像对用于模型训练的问题,张等[113]提出通过自行搭建场景配合能固定位置的机械臂和产生雾气的机器,以视频的形式采集真实场景下的无雾图像与含雾图像,同时还设计了CG-IND模型用于视频去雾,并通过大量的实验验证了新采集数据集和新提出视频去雾方法的有效性.但是因为搭建的场景有限且真实应用过程中面对的雾气成因多种多样,所以在新采集数据上训练的模型迁移到真实应用场景中,还是会存在显著的性能下降.因此,还是有很多研究者致力于拥有高泛化性能的去雾模型研究,比如杨等[114]提出了一种基于深度的雾气密度分解自增强去雾模型,该模型建立了图像中深度信息和雾气密度之间的联系,使用深度信息辅助增强去雾效果.基于深度学习的去雾方法充分利用了深度神经网络的超强表征能力,但是纯粹由数据驱动的模型易受到过拟合影响导致泛化能力差的问题,因此基于物理模型先验与深度学习表征结合的方法,在未来会有更好的发展前景.
3.2.2 跨介质涉水影像去雨
除了雾气会对视觉传感器采集到的图像造成显著的影响之外,涉水视觉任务经常面临的另一个典型场景为雨水天气下光在大气介质中的传播.这不仅会影像成像的质量,还会对场景中的目标造成遮挡,进而阻碍后续视觉任务的进行.
因此很多研究者致力于涉水图像去雨的相关研究,通过基于滤波器、基于先验知识或是基于深度学习以及混合模型的方法来实现去雨.图23展示了常见的涉水图像去雨方法,后续本文也将围绕这几个类型展开介绍.
图23 涉水图像去雨的常见方法
基于滤波器的去雨方法,通常采用和之前任务中提到的基于滤波器方法类似的思路,即通过分析图像中雨水的特点,针对性地使用基础图像滤波器来实现对雨滴的过滤.例如何等[115]和许等[116,117]通过改进原始的导向滤波器,将其应用在去雨任务中.郑等[118]则是进一步通过多导向滤波器的结合实现了更好的去雨效果.金等[119]和丁等[120]则是将非局部均值滤波器和L0 平滑滤波器用于去雨任务中.基于滤波器的去雨方法最显著的优点是简单快速,可以通过较少的计算资源取得一定的去雨效果.但是和之前的任务一样,基础滤波器的处理效果无法令人满意.
基于先验知识的去雨方法,是将更多和含雨图像生成相关的先验知识引入去雨的算法中,以通过先验知识的引导,提升去雨的效果.通常来说先验知识包括成像过程中的物理模型,以及目标场景中的深度等与场景内容、结构等相关联的信息.如图24所示,最常见的思路是对图像进行分解得到含雨部分和无雨部分,再基于原图和分解出的结果重建出除雨后的图像.早在2011年,康等[121]就基于形态成分分析,将除雨问题转化为图像分解问题,提出了一种基于单幅图像的降雨去除框架.该方法不是直接应用传统的图像分解技术,而是首先使用双边滤波将图像分解成低频和高频部分;然后通过执行字典学习和稀疏编码,将高频部分分解为“含雨分量”和“无雨分量”,从而在保留大多数原始图像细节的同时从图像中移除“含雨分量”.孙等[122]则是通过观察标准批处理模式学习方法的局限性,提出利用图像结构相似性进行去雨.骆等[123]基于含雨图像的一种非线性生成模型,即屏幕混合模式,提出了一种基于字典学习的单幅图像去雨算法.其基本思想是在具有很强互斥性的学习词典上,用很高的区别码稀疏地逼近含雨层和无雨层的特征块,从而将两个分量从它们的非线性组合中准确地分离出来.陈[124]则是将深度信息引入去雨算法中,为了将雨带从高频部分分离出来,采用了包括方向梯度直方图、景深和特征颜色的混合特征集来进一步分解高频部分.通过应用混合特征集,可以去除大部分雨纹,同时可以增强非雨点成分.基于图像分解和字典学习的方法通常都认为雨滴外观存在显著的结构特征,虽然这些方法可以提高整体可见度,但它们往往会在背景图像中留下过多的雨滴纹路残留或过度平滑背景图像.李等[125]则认为雨滴去除可以被表示为一个层分解问题,即雨纹层叠加在包含真实场景内容的背景层上,进而提出对背景层和雨滴层都使用基于高斯混合模型的块级层分解方法,以在多个方向和尺度上缓解除雨后导致的雨滴纹路残留.
图24 基于图像分解的去雨方法
深度学习方法自然也被广泛应用到去雨任务中来.早在2013年艾根(Eigen)等[126]就收集了一组有雨水-无雨图像样本对用来训练一个简单的浅层卷积神经网络,该模型同时也被用来去除图像中的污渍.不同于前文提到的去雾任务,去雨任务可以比较方便地获取到较多场景下的含雨-无雨图像对,因此可以更方便直接地通过深度学习的方法,高效完成去雨任务.杨等[127]提出使用基于检测的思路来获取到图像中雨带的位置,再通过循环的检测和雨带去除过程来迭代得到更好的去雨效果.潘等[128]则是提出了一种通用的对偶卷积神经网络,用于包括去雨在内的多种偏底层图像优化的视觉任务.研究表明这些任务的核心目的通常涉及目标信号的结构分量和细节分量估计,因而提出使用两个并行的网络分支,分别以端到端的方式恢复图像中特定的细节和结构信息,进而根据每个特定任务的形成模式来生成目标图像.任等[129]提出通过重复展开一个浅层的ResNet结构,递归地使用模型结构层来显著减少网络模型的参数量,同时也保持了模型较好的去雨性能,训练的过程中使用负结构相似性和均方误差作为损失函数进行模型参数的优化.杨等[130]提出了一种基于自监督学习的雨纹去除方法,分析发现雨纹去除和图像的纹理特征高度相关,通过将常见的波段特征运算和卷积网络模型相结合,提升模型区分特征的能力,进而建立了基于频带恢复的分形带学习网络,融合跨尺度的自监督机制来约束不同尺度下输入的特征在重新缩放后能保持核心内容等价.陈等[131]针对含雨-无雨真实图像对少的问题,提出了一种有效的非配对对抗式图像去雨框架.该框架在深层特征空间中,通过对偶对比学习的方式来研究非配对样本的相互属性,由双向翻译分支和对比指导分支构成.使用双向翻译分支来基于对抗一致性的循环体系结构,生成丰富的样本对,并挖掘两个域之间的潜在特征分布.对比指导分支隐含地约束了不同样本在深层特征空间的嵌入,鼓励相似的特征分布接近,将不同的特征分布推得更远,从而更好地促进雨滴去除效果.上述方法侧重于去雨模型的结构搭建,试图通过模型结构层面的改进提升去雨效果.
然而,有研究者通过观察发现很多被雨滴遮挡部分对应的背景细节完全丢失,通过简单的滤波和映射等方式是无法真正实现理想的去雨效果的.因此,有研究者开始从图像生成的角度出发,尝试解决去雨的问题.比较常见的思路是通过对抗生成网络来对图像中雨滴遮挡的部分进行填补.如钱等[132]提出了一个基于注意力机制的对抗生成网络,通过加入注意力机制辅助生成器,实现对于雨滴本身区域及其周围结构更多的关注,而判别器网络在评估的过程中也更多地倾向于恢复区域的局部一致性.张等[133]则是将条件生成对抗网络引入去雨任务中,通过施加额外的约束,即去雨图像必须与其对应的真实无雨图像不可区分,来为模型的对抗性损失提供更多的指导;除此之外,他们还在生成器-鉴别器对训练过程中,引入了一种新的精化损失函数和结构新颖性指标,旨在减少生成模型引入的伪影并确保生成图像有更好的视觉质量.李等[134]进一步提出了一个二阶段的去雨模型.其中,第一阶段首先对现有的大气光模型进行了针对雨水环境的改进,然后基于滤波和卷积神经网络结合对改进后大气光模型中的雨点集合、环境光值以及透射率值进行预测.第二阶段则是基于第一阶段中的物理先验,以及预测出的参数值,来指导模型对输入图像中雨水的去除,同时纠正生成过程中可能会产生的伪影并增强背景细节.
涉水图像处理致力于涉水光学领域中的智能图像信号分析与理解,主要涵盖涉水图像增强、涉水图像色彩恢复和涉水图像内容恢复三个方面,分别从不同的角度出发来智能地分析和理解涉水图像中的内容.表12展示了本小节介绍的一些典型方法以及这些方法的特性.三者理解图像的出发点不同,但是都从单一的“水下光学”基础上发展到跨域场景,通过分析光在水体及跨介质传播过程中的规律,指导涉水图像处理,为后续涉水任务开展奠定了基础.
表12 典型的涉水图像处理方法及其属性
3.3 涉水影像解析
上述3.1和3.2两节中,无论是单介质涉水图像的增强复原或是跨介质涉水图像的去雨去雾,更多地关注图像本身质量与内容细节的提升,可以说是相对偏向于底层图像预处理的一个过程,不涉及较高层级的图像内容理解与分析.而涉水环境的探索与应用离不开对采集图像所包含高层次语义信息的分析、理解与应用.所以智能的解析算法也是涉水视觉中必不可少的一部分.具体来说,当前常见的涉水视觉智能化解析涉及涉水目标的分割、检测、识别和跟踪等多种不同的任务.依据实际的需求,相关的任务和算法也在不断地发展和更新.这里以涉水目标的检测和跟踪为例,对当前涉水视觉解析的相关进展进行总结.
3.3.1 涉水目标检测识别
涉水目标检测隶属于目标检测任务在特定场景下的具象化实现.如图25所示,不同于常见环境下的目标检测任务,受涉水环境复杂多变的影响,涉水目标检测任务在目标层面存在着遮挡严重、姿态表观多变、类内表观差异大、类间形态相似度高等诸多挑战;在场景层面存在着光线不充分、色彩偏移、成像模糊、环境极端复杂等诸多难点.
图25 涉水目标检测应用
(a) 水下生物检测 (b) 涉水图像分割 (c) 浮游生物检测
在基于传统方法的目标检测任务中,通常采用诸如方向梯度直方图(Histogram of Oriented Gradients,HOG)[135]、尺度不变特征变换(Scale Invariant Feature Transform,SIFT)[136]、盖伯特征(Gabor feature)[137]等手段对输入图像进行特征提取,然后将特征分块后逐个与预先设计的目标特征模板进行比对.
特征模板匹配过程中通常使用诸如支持向量机(Support Vector Machine,SVM)[138]、线性判别分析(Linear Discriminant Analysis,LDA)[139]、主成分分析法(Principal Component Analysis,PCA)[140]等方法对特征块是否为目标进行判断.诸如此类手工设计的目标特征,应用于特定应用场景和特定目标时取得了不错的效果,但是当应用场景趋于复杂、目标密度增加、目标类型增多时,为特定目标设计的特征将直接失效,无法实现有效的检测.尤其是在涉水场景中,此类方法几乎不可用.
得益于深度神经网络的快速发展,其超强的表征能力为涉水场景的目标检测提供了新的解决思路和更多的可能性.在2015年之前,鲜有工作将深度学习引入涉水目标检测中.拉万巴赫什(Ravanbakhsh)等[141]使用Haar分类器来对形状特征进行分类,然后使用主成分分析法对所有特征进行建模.但是此算法特征处理速度较慢.斯潘皮纳托(Spampinato)等[142]使用移动平均算法来在精度和处理时间之间达到一个比较好的平衡.上述方法在处理少量样本的时候有着不错的效果,但是面对大量的涉水图像时效果变得很差.李等[143]将深度神经网络引入涉水目标检测领域,用于鱼的检测与识别.具体来说,他们使用在ImageNet上预训练的AlexNet作为Fast R-CNN框架的骨干网络用于提取特征,随后基于Fast R-CNN自身的结构设计实现检测与识别.同时他们还采集并公开了一个包含12种鱼类,共计24 272张图像的带标注涉水目标检测数据集.菲舍尔(Fisher)等[144]构建了Fish4Knowledge项目,该项目使用10台水下摄像机的视频记录为实验平台,研究更普遍适用的捕获、存储、分析和查询多个视频流的方法.在海洋生物检测层面,该项目收集了包含23个种类,共计27 370张鱼类图像,可以用于比较复杂的鱼类检测与分析任务.维龙(Villon)等[145]基于GoogleNet构建了27层的深度卷积神经网络用于鱼类的检测,并且将实验结果与基于支持向量机和HOG特征的方法进行对比,结果显示基于神经网络的方法远好于传统方法的效果.俄勒冈州立大学哈特菲尔德海洋科学中心(Hatfield Marine Science Center, Oregon State University)在2015年举办的国家数据科学竞赛包含了一项浮游生物分类比赛,其中包含了121种浮游生物类型共计30 000张样本,其中部分类别包含的样本数量少于20个,样本数量少、分类难度大.取得冠军的团队设计了一个共计16层的神经网络模型,通过一个循环池化的结构设计实现多层密集特征的融合汇集,最终达到了81.52%的综合分类准确率.李(Lee)等[146]提出了一个规模更大的WHOI-Plankton数据集,包含了103个类别,共计340万张带标注的图像.他们提出的方法主要关注于解决超大型数据集的类不平衡问题,具体来说是使用CIFAR 10 CNN模型作为分类器,通过三个卷积层和两个全连接层首先在类归一化数据上进行预训练,然后在原始数据上重新训练,以减少类不均衡带来的偏差.戴等[147]构建了一个包含13类,共计9 460张显微灰度浮游动物图像的数据集,将深度卷积神经网络引入浮游动物的分类任务中,构建了一个11层的ZooplanktoNet模型用于浮游生物分类,并超过AlexNet,CaffeNet,VGGNet,GoogleNet取得了93.7%的分类准确率.
除了鱼类和浮游动植物的检测之外,很多研究者致力于海底生态的保护,其中珊瑚的检测与分析是被重点关注的领域.而珊瑚的颜色、大小、形状和质地会因为物种类别与生长环境的不同而呈现出极大的差异,且珊瑚的边界是有机而模糊的,因此珊瑚检测与分类是一项极具挑战的涉水视觉任务.诸如边界框、点或线的图像标注方式都不能够完美地对珊瑚进行表征.因此很多研究者除了研究检测分类方法本身,还致力于目标表征方式的改善.马科斯(Marcos)等[148]使用基于纹理的局部二进制表征和基于颜色的归一化色度坐标用于目标的表征,并设计一个三层的网络模型用于检测与分类.贝吉本(Beijbom)等[149]收集了一个Moorea标记珊瑚数据集,并给出了一种基于颜色和纹理描述的珊瑚检测分类方法,实验结果显示新提出的方法效果远好于现有的方法.埃拉瓦迪(Elawady)等[150]使用有监督的卷积神经网络用于珊瑚分类,他们研究了Moorea标记的珊瑚和赫里特-瓦特大学的大西洋深海数据集,并计算了相位一致性(Phase Congruency,PC)、零分量分析(Zero Component Analysis,ZCA)和韦伯局部描述器(Weber Local Descriptor,WLD),并将输入图像的纹理和形状特征一并纳入考虑.为了使传统的点标注涉水数据与卷积神经网络的输入约束兼容,穆罕默德(Mahmood)等[151]提出了一种基于空间金字塔池化(Spatial Pyramid Pooling,SPP)的特征提取方案,该方案基于VGGNet提取的深度特征来进行珊瑚分类,同时结合了基于颜色和纹理的手工设计的特征以提高分类能力.
另外还有一些方法会对水下目标检测有极大帮助.目标检测分为Anchor Based和Anchor Free两种方式.在YOLOV3,YOLOV4,YOLOV5中,通常都是采用 Anchor Based的方式,来提取目标框.YOLOX是YOLO(You Only Look Once)目标检测系列的一个变种,将 Anchor Free的方式引入YOLO系列中,它将图像分成网格并在每个网格中检测目标,旨在提高检测精度并保持较快的推理速度,这使它在计算资源有限的情况下非常有用.尽管YOLOX通常用于陆地上的目标检测,但也可以应用于在水下目标检测.使用Anchor Free方法有如下好处:(1)降低了计算量,不涉及IoU计算,另外产生的预测框数量也更少;(2)缓解了正负样本不平衡问题;(3)避免了Anchor Free方法的调参.DETR(Data Efficient Transformer)是一种基于Transformer架构的目标检测模型,它具有端到端的学习能力,可以同时检测和定位多个目标.在水下目标检测中,使用已经训练好的DETR模型,通过在水下数据集上进行微调,使其适应水下环境的特殊情况.另外,水下环境通常包含视觉和声学信息,DETR可以用于将这些多模态数据融合,以提高水下目标检测性能.DINO(Data-Independent Neural Optimizer)是一种用于自监督学习的方法,可以用于预训练神经网络模型.在水下目标检测中,使用水下图像数据对目标检测模型进行预训练,以获取对水下视觉特征的理解.之后,将预训练的DINO模型迁移到水下目标检测任务上,通过微调来适应水下环境.
3.3.2 涉水目标跟踪定位
前述涉水目标检测识别算法主要致力于单个场景的静态目标状态分析,但是对于动态目标的状态解析和跨场景目标分析无法应用.因此有研究者将计算机视觉领域的目标跟踪算法引入涉水视觉领域中,拓宽了涉水视觉算法的应用范围.如图26所示,依旧是受到涉水环境复杂多变的目标和场景影响.具体来说,在目标层面,涉水目标存在实例间表观差异小、跨场景识别难度高、目标尺度变化显著等诸多挑战;在场景层面,存在采集设备稳定性差、采集条件光线干扰多、目标活动范围立体宽广等诸多问题.
图26 涉水复杂环境目标跟踪
(a) 水下目标复杂场景 (b) 目标立体跟踪结果
在目标跟踪算法发展的早期,有研究者将跟踪问题描述为自适应边界框的预测[152],通过对前一帧中边界框的位置调整来预测当前帧目标的边界框,以适应当前帧和前一帧之间包括背景与目标的变化.住本(Sumimoto)等[153]则是将分段形状的时序高通滤波器引入到算法中用于相应快速移动的目标.罗伯特-伊纳西奥(Robert-Inacio)等[154]则关注于连续帧中物体位置的均匀变化,跟踪速度持续不变的目标.韦斯托尔(Westall)等[155]将动态规划引入到跟踪算法中,用于提前预测目标的移动方位.
在用于跟踪的特征设计层面,布卢瓦西(Bloisi)等[156]使用Haar特征来进行目标的检测和跟踪.诸如哈里斯角检测器[157]一类的关键点检测器也被证明在跟踪算法中能起到较好的特征提取作用.弗罗斯特(Frost)等[158]将分段形状聚合成水平集,然后在帧间追踪水平集的变化,实现对视频中目标的跟踪,通过加入对诸如海面上各种船只等预期目标的形状预设提供先验信息以加强跟踪效果.也有研究者使用一个状态变量来表示目标在当前帧中的位置和特征[155],然后通过贝叶斯网络来基于上一帧的状态变量预测当前帧的状态.此类方法对遮挡有一定的兼容能力,比较适合跟踪具有相对光滑和可预测轨迹的运动对象,然而对具有复杂运动状态变化或是静止过一段时间的目标无能为力.钟[159]则是将卡尔曼滤波器用于学习和分析前景目标的运动状况.安杰洛娃(Angelova)等[160]使用混合卡尔曼滤波来跟踪港口中的船只等大型目标.原始的卡尔曼滤波无法同时对多个目标进行跟踪,因此有研究者提出了基于多个假设的优化版本卡尔曼滤波器[161,162],相关的实验结果也显示了改进版本的算法在多目标跟踪上的有效性[163,164].
但是上述方法在低分辨率视频上的表现不如高分辨率视频[165],因此有研究者提出使用预先设定的多条初始轨迹,辅助跟踪的进行[163].前述很多方法基于前景和背景的分割来实现目标的跟踪,有研究者提出可以通过“运动分割”来在不预先分割前景的前提下直接对目标进行跟踪.这是因为具有相同运动特征的像素很可能属于相同的前景对象,因此可能可以通过隐式的合并空间信息来实现最终跟踪.遵循此思路的常见方法为基于光流运动分割的跟踪方法[165],此类方法基于物体是刚性的且运动是平滑的假设.随着深度学习在各个领域展现出较好的效果,研究者们也将其引入涉水目标跟踪领域中.单等[166]提出了一种基于深度学习的实时船体跟踪方法,达到了跟踪精度和速度的均衡.
也有研究者将其应用到水下生物的跟踪分析中.闯等[167]使用可变形核来实现水下移动摄像头上鱼群的跟踪.王(Wang)等[168]基于YOLOV5和SiamRPN++来进行鱼类的检测、跟踪和异常监测.李等[169]则重点关注基于联合网络的多个鱼类目标的同时跟踪.通过多种多样的涉水视觉处理和解析算法,可以实现对涉水场景的高效理解与分析,进而推动相关的应用和行业发展.
总之,涉水视觉技术在未来发展前景广阔,将在海洋勘探、海洋生态保护、水下考古、水下安全监控和救援等领域发挥着举足轻重的作用.一方面,传统算法仍然在涉水视觉领域发挥着举足轻重的作用;另一方面,通过深度学习和模式识别等算法,可以实现对水下图像的自动分析和理解,实现更高效的水下数据处理和信息提取.同时,随着无人机和机器人技术的发展,更多的智能设备将被应用于水下环境,推动涉水视觉技术在各个领域的应用拓展和创新.
4 涉水光学成像
涉水光学成像基于涉水视觉处理和解析算法,利用光与水的物质相互作用机理及光的跨介质传播机理,探索江河湖海云雨雾雪,其中深海探测成像是战略制高点,先进深海成像装备作为大国海洋战略的核心,受到了世界各国的高度重视.面对新的国际形势,国家“十四五”规划和2035远景目标进一步明确了新时代海洋强国的发展战略,我国深海探潜事业迎来了新的发展机遇,新型智能化深海探潜技术与装备不断涌现.
4.1 光学成像简史
公元前400多年的春秋战国时期,“墨经·经说下”最早记载了小孔成像原理:“景光之人,煦若射,下者之人也高;高者之人也下.足蔽下光,故成景于上;首蔽上光,故成景于下.在远近有端,与于光,故景库内也.” 由此拉开了人类探索光学成像的序幕.
17世纪现代光学在欧洲诞生了,几何光学是光学发展史上的转折点,这个时期建立了光的反射定律和折射定律.1608年,荷兰的李普塞(Lippershey)发明了第一架望远镜.1611年,开普勒(Kepler)发表了“折光学”.1621年,斯涅耳(Snell)提出了折射定律.1657年,费马(Fermat)首先指出光在介质中传播时所走路程取极值的原理,并根据这个原理推出光的反射定律和折射定律.到十七世纪中叶,基本奠定了几何光学的基础.
1826年,法国人尼埃普斯(Nièpce)拍摄了世界公认的第一幅照片——窗外景色.1839年,法国人达盖尔(Daguerre)公布了世界上第一个实用摄影术,达盖尔摄影法又称“银版摄影术”.1861年,物理学家麦克斯韦(Maxwell)拍摄了世界上第一张彩色摄影图像-塔尔坦丝带,如图27所示.1866年德国化学家肖特(Schott)与光学家蔡司(Zeiss)在蔡司公司发明了正光摄影镜头.1888年美国柯达公司(Kodak)生产出了新型感光材料“胶卷”,同年生产出了世界上第一台安装胶卷的可携式照相机.2012年,柯达公司正式向美国曼哈顿市法院提出破产保护申请,这家成立于1880年的世界影像产品龙头企业轰然倒塌,自此传统胶卷相机逐渐淡出视野.殊不知,让柯达走向衰落的数码相机正在诞生.在以柯达为代表的胶卷感光成像如日中天的20世纪六七十年代,正孕育着数字成像技术的未来.1969年,贝尔实验室的科学家博伊尔(Boyle)和史密斯(Smith)发明了电荷耦合元件(Charge-Coupled Device,CCD),能够将光学影像转换为电信号,奠定了数码相机的基础,二人与香港中文大学原校长高锟一起获得2009年诺贝尔物理学奖.1975年,美国柯达公司的赛尚(Sasson)基于CCD发明了世界上第一部数码相机,自此基于图像传感技术的光电成像开始逐步取代基于光化学成像技术的胶卷成像.
图27 世界上第一幅照片与第一幅彩色照片
尽管目前手机相机都已经配备了亿级像素的图像处理器,但是受限于单位数据的信息提供能力——信容(information capacity)[170,171],成像所获得的信息量将受限于光学成像系统.随着数据量的井喷式增长,信息采集量将远远无法满足人们的需求,不可避免地会出现光场信息缺失,如相位、偏振、频率等.在香农信息论被提出之后,人们便尝试将其引入光学成像领域,逐渐形成了信息论的重要研究方向之一.近年来,随着信息技术的不断发展,计算光学成像技术应运而生.尤其是深度学习技术的发展,将智能技术的发展带到了前所未有的高度.计算光学成像是利用数字运算而非采用传统几何光学的数字成像技术,融合了光学硬件、信号采集、智能算法于一体的新一代成像技术,在数据获取、信息交互、集成应用等方面有极大的应用潜力.
4.2 涉水计算光学成像关键技术
海洋平均深度约3 700 m,在水深达到100 m以下光线几乎衰减殆尽,而且每下降10 m,水压会增加1个大气压,如此幽暗且高压的环境对人类探索深海形成了巨大的阻碍,但是人类对深海探索的渴望促进了近些年水下科技的蓬勃发展.第一张被认定的水下照片是汤普森(Thomson)于1856年拍摄的,他将相机放在一个防水的木箱里,沉到水面以下约18英尺(约5.5 m)处,大约10 min完成.令人遗憾的是,拍摄的照片非常模糊.第一位真正意义上的水下摄影师是法国生物学家,摄影师布坦(Boutan),1893年他在发表于The Century Illustrated Monthly Magazine的一篇文章中,描述了他开发的水下摄影设备,并展示了相机的插图和几张水下照片.1898年,他出版了第一本关于水下摄影的书La Photographie Sous-Marine.
涉水环境中光的吸收、散射、衰减以及光在气水交界面的反射及折射,使成像变得复杂.传统常规成像技术无法保障涉水环境图像质量,随着数字图像信号处理技术和计算机技术的发展,计算光学成像技术诞生了.与传统常规成像技术不同,计算光学成像技术引入编解码的信息处理过程,利用关联解码算法进行图像重构,打破了传统“所见即所得”的视觉信息获取模式,创新性地在光学成像全过程中对信号进行处理,从光场高阶关联函数获取目标视觉信息.近年来,随着计算机硬件运算性能的提升以及智能技术的快速发展,利用空间光调制技术及单像素强度探测来实现图像重建计算的单像素成像技术得到越来越多的关注.单像素成像是利用光场调制矩阵将结构光场投影到目标上,使用不具备空间分辨能力的单像素探测器(如光电二极管、光电倍增管等)采集包含被测目标空间信息的一维光信号,使被测目标的二维或者三维空间信息被编码成一维光信号,最后对一维光信号进行数值关联计算,完成被测目标图像重建.一方面,由于不需要使用传统百万像素以上的面阵探测器,仅使用单像素探测器进行信号采集,极大降低了信号采集要求;另一方面,通过全局优化,通过物理模型及水体等传输介质嵌入成像模型,利用深度学习神经网络等方法将高维光场信息编码映射到低维,并解码获得被测目标图像,带来作用距离及环境适应性提升.因此,单像素成像技术的发展有望为极端环境成像提供新的契机.
针对涉水环境光场退化的问题,笔者团队开展了基于准贝塞尔光场的水下单像素成像技术研究[172],综合利用光场强度和相位两个物理维度信息,提高探测到的单像素信息利用率,降低水中散射介质对光场干涉及衍射的影响,从而提取传统成像中无法解译的被测目标信息.如图28所示,采用波长532 nm的10 mW激光作为光源,使用数字微镜器件(Digtial Micromirror Devices,DMD)依次对光场空间强度分布进行调制,使用随机强度调制的横向贝塞尔形成偏移位置的伪贝塞尔散斑.实验采用数字3作为被测目标,透射光信号是由单像素探测器收集,并通过计算机记录光强数据并重建目标图像.通过实验发现重建目标图像衬噪比与伪贝塞尔环调制规则的关系,证明使用随机强度调制的横向位移贝塞尔散斑光场,相比传统光场在高散射介质中具有明显优势,尤其是对提高水下成像质量具有重要意义.
图28 基于强度调制贝塞尔光场的单像素成像实验示意图
针对涉水成像过程中噪声大的问题,笔者团队开展了基于智能降噪的水下单像素成像技术研究[173],提出了一种基于深度神经网络的智能去噪水下单像素成像重建方法,如图29所示.他们构建了两个去噪声神经网络来提高单像素成像的重建效果:一个深度神经网络用于去除散斑光场中固有的噪声,提取有利于被测目标图像重建的光场信息;另一个用于去除检测到的图像中的水下环境噪声,降低水环境噪声的影响.使用探测到的被测目标单像素强度值与散斑光场强度之间的最小差值作为损失函数训练网络参数,无需任何训练数据集,极大节省了数据采集的成本.为了模拟水下的极端噪声环境,使用造浪器产生48 000 L/h的湍流,分别在距离2 m的透射式单像素成像实验及距离4 m的反射式单像素成像实验中,实现了采样率极低的高质量图像重建.
图29 基于智能去噪声神经网络的单像素成像实验示意图
针对单像素成像算法模型与深度学习神经网络相互独立的问题,笔者团队开展了图像重建物理模型嵌入图像生成神经网络的水下单像素成像技术研究[174],提出了一种自监督的图像环形网络增强的单像素成像方法,如图30所示.将随机二维信号输入深度学习神经网络,输出具有目标特征信息的二维图像,由该图像生成神经网络生成的二维图像作为后续迭代的输入,不断引入先验信息,在探测得到的单像素信号约束下往复循环,有助于减少神经网络的不确定性.使用重建图像强度和探测器接收光强度之间的差值作为损失函数,构建的物理驱动图像重建神经网络是一个多功能的框架,可动态优化和重建二维目标图像,无需依赖任何标记的数据进行预训练.研究结果表明,该深度神经网络在未知场景中能够以较低的采样率显著提高重建图像质量.
图30 物理模型嵌入图像生成神经网络的单像素成像实验示意图
4.3 水下成像复原解析关键技术及装备体系化应用技术
水下光学成像是利用水下光学信息表征水下场景信息,检测场景目标并分析场景态势的技术[175],水下光学成像探测手段作为探潜器的“眼睛”,对水下环境感知、水下场景目标解析、无人潜航器自主导航等有重要意义,在沉物搜索、深海调查、环境监测等领域广泛应用.受限于水下复杂多变的环境,波流涌动的水流特性及迥异于大气环境中的地物特征,水下光学成像探测一直受到光学信息高噪声叠加,强衰减和动态分布不均等问题的困扰.
水下物体的能见度主要取决于物体与探测器之间以及光源与物体之间,水的吸收及散射特性.由于在黑暗的水中,光的衰减长度为15~20 m,因此水下物体无法在任意距离上实现主动光成像,即使在最清澈的水中也只能看到明亮的散射光.前文介绍过,由于水对光的散射,物体的像已经无法分辨.图像的对比度可以表示为
(49)
其中,Iobject表示目标物体的辐照强度,Ibackground表示背景辐照强度.从式(46)可以看出,增加照明光辐照强度也会相应增加背景光辐照强度,使物体图像对比度进一步变差.因此,如何构建复杂环境下水下成像机理模型,实现影像的复原与解析,是亟待解决的关键问题.
针对退化机理难建模、场景目标难解析、观测装备体系不健全的问题,笔者团队围绕“水体光学特性及成像质量退化机理”这一科学问题,构建了水体自适应的影像增强复原模型,提出了多传感器数据融合及场景解析技术,创建了全方位的水下环境观测装备体系,攻克了退化机理难建模、场景目标难解析、观测装备体系不健全等难题.先后研制了全海深超高清相机,全海深高清相机“海瞳”,小型全海深高清摄像机等,形成了从色彩、强度、偏振和光谱等全方位、体系化的水下观测装备研制能力,为我国海洋强国战略贡献了大国重器[176~184].
(1)全海深超高清相机——“奋斗者”号万米载人潜器电视直播核心装备
2020年10月,研制的全海深超高清相机作为万米深潜直播的核心装备,实现了国际上首次万米直播,如图31所示.
图31 全海深超高清相机
(2)“海瞳”相机——我国首套自主研制的全海深高清相机.2017年3月,研制的“海瞳”相机随天涯号着陆器多次下潜到万米深度,最大潜深10 909 m,记录的相关视频影像资料为马里亚纳海沟深渊的海洋生物、物理海洋等多学科研究提供了重要的原始数据.获得了诸多珍贵海洋观测资料,填补了多项海洋科研领域空白.首次记录下了位于8 152 m深处的狮子鱼,是当时国际上观测到鱼类生存的最大深度,如图32所示.
图32 “海瞳”相机
(3)小型全海深高清摄像机
2020年4月至6月期间,研制的小型全海深高清摄像机,搭载“海斗一号”无人潜水器上,作为唯一搭载的光学成像设备,进行了我国首次作业型无人潜水器的万米海试,最大下潜深度10 907 m,刷新了我国潜水器最大下潜深度纪录,如图33所示.
图33 搭载于“海斗一号”的小型全海深高清摄像机
针对水下环境复杂多变,光在传播过程中受到水及其中物质的吸收和散射作用,导致水下成像质量不高的问题,笔者团队提出了结合浊度、温盐深、流速等因素的成像质量提升方法,揭示了影像质量退化机理及不同水质参量对复原过程的影响规律.在此基础上,构建了成像质量与直接衰减场景辐射、前向散射场景辐射以及后向散射场景辐射等关系模型,建立了环境自适应的水下影像复原模型,实现了多变环境下影像退化与复原自适应调节.上述研究成果成功被应用于全海深高清相机、全海深3D相机等系列相机的水下探测影像复原任务中,水中成像测试的影像色偏度与饱和度分别为1.21和50.21.
针对水中影像经过复原后仍难以满足较高的清晰度与对比度要求的问题,笔者团队通过构建照明光场分布、光学系统参数和系统相对位置关系及实测海水背景图像,建立基于陆上对比基准的分光谱传输模型,估计出最优的三原色波长体散射函数、吸收系数、计算目标在三种波长下的距离信息,实现水下影像的高质量去噪和真实色彩恢复.进一步地,提出了在3D-DCT域统计分析的无参考水下影像质量评价指标体系,设计了基于循环生成对抗网络的运动影像盲去模糊模型,实现了多尺度特征的水下影像质量增强技术.上述研究成果被应用于全海深高清相机、全海深3D相机等多型水下成像设备的影像增强任务中,水中成像测试的影像对比度与信息熵指标分别为8.73和6.58.
针对水下折射率差异带来的视场角压缩、成像失真和色散等影像退化问题,响应变焦镜头长度不变时满足平滑变焦的要求,笔者团队开展水体、耐压窗口、光学系统的一体化像差校正技术研究.通过光学系统的负光焦度设计,校正了平板窗口玻璃引入的正畸变;组合筛选了高折射率及高色散光学材料,实现平板窗口玻璃色差消除;研发了光学系统中各运动组元控制补偿机制,实现了变焦过程中像面稳定;提出了基于平滑凸轮曲线的像面像质自动优化,保证了运动镜组的运行流畅,实现了高分辨率、高色彩还原度,低光学畸变及平滑连续变焦.该技术在频率为180 lp/mm时,各焦距位置中心视场传函大于0.4.该成果已被成功应用于全海深超高清相机、全海深3D相机、全海深高清摄像机等多型水下设备.
针对单一探测手段获取信息有限,导致水下目标和场景表征不足,且传统的信息融合方法存在特征对齐难、语义关联浅等问题,笔者团队提出了包括可见光成像、微光成像、偏振成像的多源感算一体框架,设计了多源特征几何对齐和语义空间联合学习的可控多模态融合机制,提出了促进多模态语义高效融合的解译策略,建立了分层学习机制的智能调控模型,解决了传统方法多模态涉水影像融合度低、语义挖掘浅的问题,实现了目标色彩、强度、偏振信息的互补,丰富了目标的信息量.提出的多源感算一体框架对典型水下目标(如珊瑚礁、狮子鱼等),相较于传统单一高清相机,识别准确率提升56%.
针对光在水中的散射与吸收致使影像中目标的色彩、形态、尺寸发生变化,而传统的目标识别算法往往采用浅层视觉特征,缺乏高层语义信息,导致水下影像目标识别准确率低和鲁棒性较差的问题,笔者团队基于多传感融合特征,建立了双向自适应语义关联的目标多尺度分析框架,提出了边界信息引导和场景上下文约束的水下目标识别方法,解决了暗弱目标定位不准、可辨度低的问题,实现了水下典型目标的自适应检测与识别.上述研究成果被应用于浅水珊瑚礁典型性区域水下机器人与水下高光谱成像仪等自主系统集成与试点应用中,有效解决了水下目标单模态信息匮乏导致的识别准确率低的问题,其中对珊瑚礁识别分类准确率为95.1%.
(4)水下光学导引装置——“领航者”深海智能光学导引装置
西北工业大学与中国科学院西安光学精密机械研究所、国家海洋局北海技术中心、山东科技大学合作,由笔者主持研发了高精度光学三维位姿解算方法,研制了“领航者”号深海智能光学导引头,于2023年9月1日在国家海洋局青岛考察基地首次实现了海试,如图34所示.
图34 “领航者”深海智能光学导引算法水池试验及海试
针对水下环境复杂、光信号衰减强,导致回收站导引灯测角误差大、水下无人潜航器姿态抖动大的问题,笔者团队提出了基于回收站导引灯偏角测量的光学导引方法及多模态位姿数据融合的解算框架,设计了基于启发式搜索和深度神经网络融合的三维位姿算法,构建了粒子群搜索和Transformer模型,解决了传统方法在解算水下无人潜航器三维位姿时容易出现的多解和无解情况,实现了高精度、高速度的导引灯光学三维位姿解算.团队将该算法嵌入“领航者”号深海智能光学导引装置,在浑浊的近岸海水中,验证了基于导引灯偏角测量的回收站定位方法,顺利完成水下无人潜航器导引回收海试.
4.4 地外海洋探索
虽然地球上的海洋还存在大量未知领域,但是人类已经开启了地外海洋的探索.屈原曾在“天问”中感叹到“日月安属?列星安陈?”.寻找地外生命和宜居环境主要通过探测太阳系中可能存在生命的天体,尽管目前被发现疑似存在地外海洋的行星越来越多,如图35所示,但在浩瀚的太空中探测地外海洋仍极具挑战.
图35 太阳系含有“水”的星球
1996—2010年,美国宇航局以“追踪水的痕迹”为战略目标,先后发射了“火星全球勘探者号”(Mars Global Surveyor,MGS)、“火星奥德赛号”(Mars Odyssey)、“机遇号”(Opportunity)、“勇气号”(Spirit)火星车、“火星勘测轨道器”(Mars Reconnaissance Orbiter,MRO)、“凤凰号”(Phoenix)等,已经获得了大量火星存在水的证据.
欧罗巴是希腊神话中的一位公主,是腓尼基王后“亚细亚”的女儿,深得众神之王宙斯的宠爱.木卫二(欧罗巴)在1610年被伽利略发现,是木星的第四大卫星.1995—2003年,美国宇航局的“伽利略”号探测器围绕木星的轨道飞行,对木卫二进行了详细探测.木卫二表面被冰壳覆盖,厚度可能超过20 km,在巨大的冰壳之下,很可能存在一个深度达80 km的海洋,比马里亚纳海沟还要深.美国宇航局计划于2024年10月发射欧罗巴快船(Europa Clipper),预计于2030年4月抵达,进一步探测木卫二.
土卫二(恩克拉多斯)以希腊神话中的巨人恩克拉多斯命名.1789年8月28日,赫歇尔(Herschel)使用当时世界上直径最大的望远镜发现了土卫二.1980年11月11日在距土卫二202 000 km处,旅行者太空船获得了土卫二的图像.2014年美国国家航空航天局宣布,1997年10月15日发射的卡西尼号(Cassini)发现了土卫二南极地底存在液态水海洋的证据,海洋深度约10 km.除了水,地外海洋也能由其他物质组成,如土卫六上的烃湖.土卫六(泰坦)是环绕土星运行的最大一颗卫星,也是太阳系第二大的卫星,荷兰物理学家、天文学家和数学家惠更斯(Huygens)于1655年3月25日发现.根据旅行者1号和旅行者2号的数据显示,土卫六拥有浓厚大气层,1995年哈勃望远镜和其他观测数据表明土卫六上存在大量液态甲烷.惠更斯号(Huygens)是人类第一个登陆土卫六的探测器,任务是深入土卫六的大气层,对土星最大的卫星土卫六进行实地考察.2005年1月14日惠更斯号登陆土卫六,降落在一片固体陆地上,并在着陆后拍摄了人类历史上第一张土卫六表面照片.美国约翰·霍普金斯大学(Johns Hopkins University)应用物理实验室于2017年4月提出土卫六探测计划,将于2026年发射蜻蜓号无人太空飞行器,登陆土卫六寻找适合生物生存的环境与化学变化.另外,木卫四(卡里斯托)、木卫三(盖尼米德)、海卫一(特里同)的冰盖下也可能存在巨大的海洋.
2015年5月20日,美国众议院拨款委员会批准了美国宇航局制订海洋世界探索计划(Ocean Worlds Exploration Program,OWEP),主要目标是探索外太阳系中可能拥有地下海洋的卫星,以评估其宜居性并探寻简单的外星生命生物印迹.地外海洋的探测主要基于光学遥感,通过光谱分析确定巨行星大气的化学成分和元素丰度.
地外海洋中的液态水是寻找地外生命与地外可居住环境的出发点,是深空探测中的一项重要科学内容.2023年宇航领域科学问题和技术难题之一是计算光学高维遥感突破航天光学遥感探测极限.计算光学高维遥感将计算光学引入遥感技术,构建光波与客观世界的高维映射关系,打破以几何光学为基础的低维线性关系,建立高维物理量与遥感量的非线性映射模型,从高维物理量中解译遥感信息,将传统遥感精度提升一个量级以上.由此可见,机器视觉和计算成像技术的发展,将进一步推动人类对地外海洋的探索.
5 总结
光与水及其中所含物质相互作用及跨介质传播机理不仅直接决定了光在水中的传播特性,而且是涉水视觉乃至涉水光学的重要理论基础.当光入射到涉水环境中时,经过跨介质传播及光与水及其中所含物质相互作用,会发生反射、折射、衍射、吸收、散射等作用,其中散射包括弹性散射和非弹性散射.弹性散射没有发生光的频移变化,散射特性与入射光的波长、水的特性以及水中悬浮粒子的大小、密度等有关,在海水中主要由水分子和悬浮颗粒造成弹性散射.通过研究海洋悬浮颗粒的米氏散射特性,可以获得涉水环境中悬浮颗粒大小、密度等信息.非弹性散射会引起散射光发生频移,包括拉曼散射及布里渊散射.通过分析海洋悬浮粒子的非弹性散射特性,可以构建涉水环境的温度及盐度检测模型.目前,基于涉水光学的理论分析及实验测量,对涉水环境中水分子、可溶有机物质、浮游植物等对光的吸收特性研究,以及基于瑞利散射理论对水分子、叶绿素的散射特性研究,均已经相对成熟.而针对涉水环境中的悬浮颗粒,由于不同涉水环境差异较大,水中粒子的密度、大小、分布极其复杂,通常使用经验公式进行计算.更高阶的涉水图像视频处理与解析任务,当前尚未被成体系地涉及.已有研究更多的是将现有计算机视觉算法向涉水视觉领域简单迁移,无法与前端的光学传播原理有效结合.但从江河湖海各种水体到陆地上的涉水环境甚至地外海洋,涉水视觉的应用空间十分广阔,亟待深入研究.
本文从涉水视觉原理出发,介绍了涉水视觉成像过程中光与水的物质相互作用及跨介质传播机理,对当前现有的涉水图像视频处理与解析方法进行了梳理.然后介绍了团队在涉水视觉观测装备研制方面取得的一系列科研成果,相关成果填补了我国全海深光学探测技术的空白,推动了我国涉水视觉观测技术的发展,促进了海洋科学、海洋牧场、海洋安全等多个领域的科研及技术升级.
6 问题与展望
在水下和海洋环境中引入涉水视觉技术,虽然具有巨大的前景,然而却面对一系列独特的问题与挑战.首先,光线在水中的衰减和散射现象导致水下图像色彩失真、细节模糊、质量下降,从而使目标的检测、识别和跟踪变得极具挑战性.其次,水流、水质以及海洋环境的多样性和复杂性,对水下目标探测和定位提出了极高的要求,特别是在涉及海底管道、沉船等目标的定位和监测方面.进一步,水下生物和目标多样,常常融入复杂背景之中,这为目标的精确定位与跟踪带来巨大挑战.此外,水下环境中数据获取与传输问题不容忽视,通信的不稳定性和传输速度的限制可能会影响实时数据分析和决策的能力.与此同时,极端环境如深海的高压和低温等条件也限制了涉水视觉设备的性能和寿命.
然而,未来的研究方向为应对这些问题提供了希望.改善水下图像质量的方法,如多光谱成像、激光成像技术的不断进步,有望在一定程度上解决光线衰减和散射问题,从而提高水下图像的清晰度和分辨率.智能算法的创新,尤其是深度学习技术的融入,有望使机器能够更好地适应水下环境的特点,实现更为精准的目标检测和识别.多模态融合的策略可以将不同传感器的数据融合,为目标的定位和环境的监测提供更加全面的信息.水下无人潜航器的开发能够实现在水下环境中的自主探索、数据采集以及任务执行,从而拓展机器视觉的应用范围.此外,借助迁移学习方法,将在陆地上训练的机器视觉模型迁移到水下环境中,有望加速水下目标识别和分析的进展.高效稳定的数据传输技术的发展可以支持远程控制和实时数据分析.最后,涉水视觉技术在海洋环境中的应用还将推动环境监测与保护、深海探索以及资源管理等领域的进一步发展.总之,虽然机器视觉在水下和海洋环境中面临许多问题,但通过持续的研究和创新,这些问题将逐步得到克服,为水下探索、环境保护和资源开发等领域带来新的机遇和前景.
声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。
注:若出现无法显示完全的情况,可搜索“人工智能技术与咨询”查看完整文章