DCB(动态上下文信念)是一个用于累积通过注视获得信息的状态表示组件。它由三个部分组成:
- Fovea(中央凹):接收来自注视位置周围区域的高分辨率视觉输入。
- Contextual beliefs(上下文信念):代表一个人对场景的整体“什么”和“哪里”的理解,以分类信心的水平表示。
- Dynamics(动态性):在搜索过程中,随着每次注视的变化,主动收集信息。
DCB能够有效地整合视觉输入、上下文信息和动态变化,从而提高搜索效率和准确性。它在IRL(逆强化学习)模型和其他方法(如BC-CNN)中用作状态表示,有助于改善模型的性能和数据效率。
这张图片展示了一个视觉处理系统的流程图,用于从输入图像中提取和处理视觉信息。流程如下:
输入图像:首先,系统接收一个高分辨率的输入图像。
低分辨率图像:输入图像被转换为低分辨率版本,用于生成低分辨率的信念图(Low-res Beliefs)。
高分辨率信念图:同时,输入图像也用于生成高分辨率的信念图(High-res Beliefs)。
注视历史:系统还考虑了注视历史(Fixation History),这可能用于理解观察者的注视模式。
动态上下文信念:结合高分辨率和低分辨率的信念图以及注视历史,系统生成动态上下文信念(Dynamic Contextual Beliefs)。
单热任务嵌入:这些动态上下文信念被转换为单热任务嵌入(One-hot Task Embedding),用于识别和定位图像中的特定对象。
对象信念:最终,系统输出不同对象的信念图,如椅子、冰箱、微波炉和烤箱等,每个对象都有一个20x32的表示。
高分辨率和低分辨率信念图在DCB(动态上下文信念)模型中具有以下意义:
-
低分辨率信念图:
- 代表场景的整体信息,提供全局上下文。这些信息通常基于较少的计算资源和较大的视野范围,适用于捕捉场景中的大致结构和物体类别。
- 用于在搜索的初始阶段快速识别可能的目标区域,帮助引导视线向潜在目标靠近。
-
高分辨率信念图:
- 提供注视点周围的详细信息,包括目标的具体特征和形状。这些信念图通常在具体的注视位置上生成,能够反映出清晰的细节。
- 在搜索的后期阶段,帮助优化对目标的判断和识别,增强决策的准确性。