【AI】人类视觉感知特性与深度学习模型(2/2)

目录

二、人类视觉感知特性对深度学习模型的启发

2.1 视觉关注和掩盖与调节注意力模型的关系

1.视觉关注和掩盖

2. 注意力机制模型

2.2 对比敏感度与U形网络的联系

2.3 非局部约束与点积注意力的联系


续上节

【AI】人类视觉感知特性与深度学习模型(1/2)-CSDN博客

二、人类视觉感知特性对深度学习模型的启发

上次我们讨论了人类视觉感知的4个特性,这4个特性,对深度学习模型,都有重要的影响,主要体现在以下几个方面。

2.1 视觉关注和掩盖与调节注意力模型的关系

视觉关注(Visual Attention)和掩盖(Masking)与调节注意力模型(Attentional Modulation Models)在视觉认知和神经科学领域中紧密相关。这些概念共同探讨了人类和机器如何处理大量视觉信息,特别是在资源有限的情况下如何优先处理最重要的信息。

1.视觉关注和掩盖

视觉关注是指视觉系统在处理信息时选择性地集中于场景中的某些部分,而忽视其他部分的过程。这种选择性关注有助于高效地处理复杂的视觉场景,因为它允许有限的认知资源被优先分配给最相关或最显著的信息。

掩盖是一种视觉现象,其中一个刺激(掩盖刺激)的存在使得另一个同时或相近时间出现的刺激(目标刺激)变得难以被察觉或识别。掩盖效应可以在空间上(例如,两个刺激相邻时)或时间上(例如,两个刺激相继出现时)发生。掩盖可以影响视觉关注的分配,因为被掩盖的刺激可能不会被视觉系统优先处理。

调节注意力模型试图解释视觉关注是如何在场景中分布的,以及这种分布是如何根据任务需求、刺激特性和内部状态进行调节的。这些模型通常涉及计算场景中不同位置的显著性(Saliency),然后基于这些显著性值来分配注意力。

2. 注意力机制模型

调节注意力(Attentional Modulation)。调节注意力是一种机制,通过它,神经系统可以根据当前的目标或任务需求来调整其对不同刺激的敏感性。这种调节可以在多个层面上发生,包括感知、认知和运动层面。在感知层面,调节注意力可以影响刺激的视觉显著性和神经表征的强度。

点积注意力(Dot-Product Attention)。点积注意力是深度学习领域中的一种注意力机制,特别是在Transformer架构中得到了广泛应用。在这种机制中,输入的每个元素都会与一个查询(Query)进行点积运算,生成一个分数,这个分数反映了输入元素与查询的相关性。然后,这些分数会被归一化(通常使用Softmax函数),并用于加权输入元素,从而生成一个加权的上下文向量。这个过程可以被看作是一种软性的信息选择机制,其中每个输入元素都对输出有一定的贡献,但贡献的大小取决于其与查询的相关性。

视觉关注和掩盖都与注意力的分配和调节密切相关。当一个刺激被另一个刺激掩盖时,它可能不会被视觉系统优先关注,因为掩盖效应降低了其显著性。调节注意力模型试图解释这种注意力的分配过程,并预测在不同条件下哪些刺激会被优先关注。

点积注意力等注意力机制模型为理解和实现这种选择性关注提供了计算工具。在深度学习模型中,这些注意力机制可以被用来模拟人类的视觉关注过程,从而提高模型在处理复杂视觉任务时的性能。例如,在图像分类或目标检测任务中,模型可以学会将更多的注意力分配给图像中最相关或最显著的部分,从而更准确地识别和分类对象。

挤压激励(SE)模块使用全局平均池化和一个线性层来计算每个通道的比例因子,然后相应地强化有效通道而弱化无意义通道。因此,SLA有效地刻画了人类视觉的视觉关注和视觉掩盖两个感知特性,如下图。

2.2 对比敏感度与U形网络的联系

对比敏感度说明,人类视觉系统非常关注物体的边缘,往往通过边缘信息获取目标物体的具体形状、解读目标物体等。U型网络通过跳接结构,将能够表达边缘、纹理的细节信息传递到高阶特征中,从而帮助解码器更好地修复目标的细节。U型网络的这种特性,反映的是物体的边缘、形状、纹理等信息对于人类视觉信息理解的重要性,因此,U型网络在一定程度上刻画了人类视觉对比敏感度的特征。

对比敏感度,作为视觉感知的关键指标之一,描述了人眼或图像传感器在不同对比度下区分亮度变化的能力。在视觉科学中,对比敏感度通常与空间频率相关联,反映了视觉系统对快速变化的图像特征的响应能力。这种感知机制对于理解图像中的细节、边缘以及纹理至关重要。

近年来,深度学习领域的发展推动了各种新型网络结构的设计,其中U形网络(U-Net)在图像处理和分析任务中尤为突出。U形网络得名于其特殊的U形架构,这种架构包括一个收缩的路径来捕获上下文信息,以及一个对称的扩展路径来实现精确的定位。这种设计使得U形网络在处理分割、去噪、超分辨率等任务时表现出色。

对比敏感度与U形网络之间的联系,在于它们共同关注图像中的细节信息和特征差异。对比敏感度作为人类视觉系统的一个基本属性,启发了计算机视觉算法在处理图像时需要考虑不同对比度下的特征变化。而U形网络通过其独特的架构设计,有效地结合了上下文信息和定位精度,使得在像素级别的图像处理任务中能够更好地保留和利用这些细节信息。

在实际应用中,利用对比敏感度的概念可以指导U形网络的设计和优化。例如,在网络训练过程中引入对比度变化的数据增强技术,可以帮助网络学习在不同对比度条件下鲁棒的特征表示。此外,U形网络的性能评估也可以参考对比敏感度的指标,以量化其在处理不同对比度图像时的性能差异。

对比敏感度和U形网络在视觉信息处理方面有着紧密的联系。通过将人类视觉系统的感知特性与深度学习网络的设计原则相结合,可以进一步推动计算机视觉技术的发展和应用。

2.3 非局部约束与点积注意力的联系

大量人类视觉研究发现,人脑处理视觉信息时并不是仅局限于局部区域的信息。人眼对全局的、语义的、简单结构的形状整体更容易产生印象,而非局部细节信息。

DPA 通过点积计算形式,获得询问特征向量任意一个位置与键(key)特征向量中全部位置之间的相关性:从而捕获位置与位置之间(像素与像素之间)的长距离依赖关系,实现全局上下文信息的建模。同时,学习到的全局上下文信息通过softmax 得到空间上的注意力图,也可以起到对有效信息增强强和无效信息弱化的作用。     

DPA的全局上下文建模在一定程度上体现了人眼视觉关注、视觉掩盖和非局部约束等多个特征。

点积注意力,作为注意力机制的一种,是通过计算输入序列中各个位置之间的点积相似度来确定注意力权重的方法。在点积注意力中,输入序列中的每个元素都会被赋予一个查询(Query)、键(Key)和值(Value),通过计算查询与键的点积相似度,再经过Softmax函数归一化得到权重,最后对值进行加权求和得到注意力输出。点积注意力可以看作是一种软性的信息选择机制,其中每个输入元素都对输出有一定的贡献,但贡献的大小取决于其与查询的相关性。

非局部约束和点积注意力之间的联系主要体现在它们都是用来捕捉全局信息或长距离依赖性的方法。非局部约束通过考虑图像或数据中更广泛区域的信息来提供全局上下文感知,而点积注意力则通过计算输入序列中各个位置之间的点积相似度来确定全局的注意力权重。在实际应用中,非局部约束和点积注意力可以相互结合,共同提高模型在复杂任务中的性能。例如,在视觉问答、图像生成或视频理解等任务中,可以利用非局部约束来捕捉全局上下文信息,同时利用点积注意力来关注与问题或任务最相关的部分。

需要注意的是,非局部约束和点积注意力虽然有一定的联系,但它们在具体实现和应用上可能存在差异。在实际使用时,需要根据具体任务和数据特点选择合适的方法或结合使用多种方法来提高模型的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/283730.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Radishes:分分钟复制一个网易云音乐

Radishes是一个免费开源的跨平台音乐平台,它提供大量的无版权音乐供用户免费浏览、搜索、观看歌单和下载,并根据个人喜好推荐音乐,支持多端使用。还有一个叫xpet的,功能也差不多,需要魔法,有条件有兴趣的朋…

苦心分享两款免费AI 绘图软件,效果真的不错

这里写自定义目录标题 图一是 AI 绘画软件一键抠图做的,软件还免费 网址:https://www.yijiankoutu.com/ 一个非常强大的AI绘画网站,能够免费生成各种好看的二次元、3D、国风、漫画、卡通等风格的图片,生成图片跟文字匹配度非常高,…

深入解析 可空值类型

前言: 问:为什么会有可空值类型的诞生? 答:应对在某些特定场景中获取的信息可能是不完整的。 C# 1中的可空值类型 在C#1中没有对应的表示Null值的方法。当时普遍都是采用其他方式。第一种在数据缺失的情况下给其一个默认值。第…

【远程开发】穿越跳板机和CLion远程开发——全面配置流程

文章目录 穿越跳板机配置 ProxyJump 方案Cygwin上的配置 建立 SSH Tunneling 方案 代码映射目录映射方案配置Rsync加速 远程服务器方案(todo) 远程Debug tips:本文讲了两种穿越跳板机的方案(推荐ProxyJump方案),和两种代码映射的方案。实际任选一对搭配即…

动态规划10-多重背包

题目描述 有N种物品和一个容量为V 的背包。第i种物品最多有Mi件可用,每件耗费的空间是Ci ,价值是Wi 。求解将哪些物品装入背包可使这些物品的耗费的空间 总和不超过背包容量,且价值总和最大。 思路分析 区别于完全背包和简单的01背包问题&…

WPF+Halcon 培训项目实战(10):HS组件绘制图案

文章目录 前言相关链接项目专栏运行环境匹配图片模板匹配加载模板文件运行结果 绘制十字标 WPF HS组件绘制图像绘制和生成的区别 前言 为了更好地去学习WPFHalcon,我决定去报个班学一下。原因无非是想换个工作。相关的教学视频来源于下方的Up主的提供的教程。这里只…

海康visionmaster-渲染结果:控件颜色:控件颜色修改的方法

描述 环境:VM4.0.0 VS2015 及以上 现象:简易修改 VM 控件的颜色? 解答 对二次开发中嵌入控件的颜色进行修改,具体代码如下: C# string colorinfo “ColorStyle3”; AppColorService.CurColorDefine colorinfo; “Co…

全志R128 DSP开发工具安装教程

资料准备 要编译和仿真DSP,需要以下资料: DSP 核 SDK,SDK 需要包含DSP 编译源码。Cadence Xtensa 的 Windows IDE 工具 (Xplorer‑8.0.13 版本), Windows 版本 DSP 的 package 包。Cadence Xtensa 的 License,用于服…

linux安装java8

1、下载java 根据自己系统的位数下载 查看系统位数命令:getconf LONG_BIT 下载地址 https://www.oracle.com/java/technologies/javase/javase8u211-later-archive-downloads.html 2、解压、移动 将下载的文件上传到linux系统中并解压 tar -zxvf jdk-8u333-linux…

人是需要被肯定和认可的,赞美也是一种动力

前几天转发了一些网上的文章,突然有了10个关注我的人,赞美数和收藏量也上去了一些。 这是一种很意外的惊喜。 看了一下主题是: 1,如何将.NET8创建的控制台程序部署成WINDOWS服务。 2,.NET进阶篇06-async异步、thread多线程 3,易语言启动线程传…

最优轨迹生成(四)—— 带约束轨迹优化

本系列文章是学习深蓝学院-移动机器人运动规划课程第五章最优轨迹生成 过程中所记录的笔记,本系列文章共包含四篇文章,依次介绍了微分平坦特性、无约束BVP轨迹优化、无约束BIVP轨迹优、 带约束轨迹优化等内容 本系列文章链接如下: 最优轨迹生…

【ChatGPT 默认强化学习策略】PPO 近端策略优化算法

PPO 近端策略优化算法 PPO 概率比率裁剪 演员-评论家算法演员-评论家算法:多智能体强化学习核心框架概率比率裁剪:逐步进行变化的方法PPO 目标函数的设计重要性采样KL散度 PPO 概率比率裁剪 演员-评论家算法 论文链接:https://arxiv.org…

12. 整数转罗马数字

罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。 字符 数值 I 1 V 5 X 10 L 50 C 100 D 500 M 1000 …

Filezilla使用

服务端 点击安装包 点击我接受 点击下一步 点击下一步 点击下一步 点击安装即可 配置用户组,点击编辑,出现组点击 点击添加,点击确定即可 配置用户,点击编辑点击用户 点击添加,设置用户名&#xff…

打印9*9乘法口诀

一. main函数实现 1.参数n表示乘法口诀表总共有多少行 2.设定两个循环 外层循环控制总共有多少行 内层循环控制每行有多少个表达式以及表达式中的内容 #include<stdio.h> int main() {int n 0;scanf("%d", &n);for (int i 1; i < n; …

丢失VCRUNTIME140_1.dll怎么办,多种dll问题解决方法分享

丢失VCRUNTIME140_1.dll是许多计算机用户经常遇到的问题之一。VCRUNTIME140_1.dll是一个动态链接库文件&#xff0c;它是Visual C Redistributable Package的一部分。Visual C Redistributable Package是微软为了支持运行使用Visual C编写的软件而提供的一个可再发行组件包。当…

Django 学习教程- Hello world入门案例

系列 Django学习教程-介绍与安装 欢迎来到第Djagno学习教程第二章Hello World 入门案例。 在本教程中&#xff0c;我将引导您完成django的Hello World入门案例。 让我们开始吧&#xff01; 版本 Django 5.0Python 3.10 创建项目 安装 Django 之后&#xff0c;您现在应该…

RK3568平台开发系列讲解(Linux系统篇)PWM系统编程

🚀返回专栏总目录 文章目录 一、什么是PWM二、PWM相关节点三、PWM应用编程沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇将介绍 PWM 的系统编程。 一、什么是PWM PWM,即脉冲宽度调制(Pulse Width Modulation)

CSS 纵向底部往上动画

<template><div class"container" mouseenter"startAnimation" mouseleave"stopAnimation"><!-- 旋方块 --><div class"box" :class"{ scale-up-ver-bottom: isAnimating }"><!-- 元素内容 --&g…

线性代数基础知识

计算机视觉一些算法中常会用到线性代数的一些知识&#xff0c;为了便于理解和快速回忆&#xff0c;博主这边对常用的一些知识点做下整理&#xff0c;主要来源于如下这本书籍。 1. 矩阵不仅仅是数字排列而已&#xff0c;不然也不会有那么大精力研究它。其可以表示一种映射 关于…