【AI】人类视觉感知特性与深度学习模型(1/2)

目录

一、关于人类视觉感知

1.1 视觉关注

1.自上而下(Top-down)的视觉关注

​编辑

2.自下而上(Bottom-up)的视觉关注

3.区别和记忆点

1.2 视觉掩盖

1.常见的视觉掩盖效应

2.恰可识别失真(Just Noticeable Difference, JND)

1.3 对比敏感度(Contrast Sensitivity)

1.4 非局部约束


一、关于人类视觉感知

视觉感知特性,即人类视觉系统感知图像信息的特性,是一个高度复杂的信息处理过程。理解人类对视觉信息的处理机制,有助于推动计算机视觉高性能算法研究。下面主要研究视觉关注、亮度及对比敏感度、视觉掩盖、视觉非局部约束这四个特性。

1.1 视觉关注

视觉关注机制(Visual Attention Mechanism)是一个非常重要的概念。视觉关注机制是人类视觉系统的一种特性,它能够帮助我们优先处理视野中最相关或最显著的信息。近年来,深度学习模型,特别是卷积神经网络(CNN),已经成功地模拟了这种机制,以提高在各种计算机视觉任务中的性能。

视觉关注机制,一般分为两种类型:

1.自上而下(Top-down)的视觉关注
  • 英文简称:Top-down Attention
  • 定义:自上而下的视觉关注是指基于观察者的内部状态、知识、期望或任务需求来引导的视觉注意力分配。这种注意力是有意识的、目标导向的,并依赖于大脑的高级认知功能。
  • 详细解释:当我们在寻找特定目标时,比如在一群人中寻找一个熟悉的面孔,我们的视觉系统会根据大脑中已有的信息(如该人的面部特征)来指导我们的眼睛移动,这就是自上而下的视觉关注。在这种情况下,注意力是被主动地、有意识地分配到最有可能包含目标信息的区域。
2.自下而上(Bottom-up)的视觉关注
  • 英文简称:Bottom-up Attention
  • 定义:自下而上的视觉关注是由外部刺激驱动的,它基于图像中的显著性特征(如颜色、亮度、对比度、运动等)来自动吸引观察者的注意力。这种注意力是无意识的、刺激驱动的,并且相对独立于观察者的内部状态或任务需求。
  • 详细解释:想象一下,当你在一个安静的图书馆中突然听到一声巨响,你的注意力会立即被吸引到那个声音来源的方向。这就是自下而上的视觉关注的一个例子,即使你的初衷是专注于阅读,但外部的刺激(巨响)无意识地捕获了你的注意力。在视觉中,显著性的视觉特征,如一个明亮的物体或一个快速移动的物体,可以自动吸引我们的注意力,而无需任何有意识的努力。
3.区别和记忆点

其实很好记忆,自下而上的视觉关注类型,是客观因素驱动的,和你的记忆和意识无关,是被动刺激带来的,这是一种无意识、自发的反应,例如“循声望去”;而自上而下的视觉关注类型,是主观命令指导的,受意识的支配,依赖于特定的指令,例如上面的找人。

这两种类型的视觉关注在人类的视觉处理中相辅相成,共同帮助我们高效地处理复杂的视觉环境。在深度学习中,模拟这两种类型的注意力机制已经成为提高模型性能的一个重要研究方向。例如,通过在神经网络中引入注意力模块,模型可以学会在处理图像或视频时优先关注最相关的信息,从而提高在目标检测、图像识别、视频分析等任务中的准确性。

1.2 视觉掩盖

视觉掩盖(Visual Masking)是一种视觉现象,其中一个视觉刺激(掩盖刺激)的存在使得另一个同时或相近时间出现的视觉刺激(目标刺激)变得难以被察觉或识别。这种掩盖效应可以发生在空间上(两个刺激相邻时)或时间上(两个刺激相继出现时)。

1.常见的视觉掩盖效应
  • 亮度掩盖:当一个高亮度的刺激与一个低亮度的刺激同时出现时,低亮度的刺激可能会被掩盖。
  • 模式掩盖:一个复杂的模式可能会掩盖其中的简单模式或特征。
  • 运动掩盖:运动物体的某些特征可能会因为其他运动物体的存在而被掩盖。
  • 颜色掩盖:在颜色对比强烈的区域,较弱的颜色可能会被较强的颜色所掩盖。
  • 空间频率掩盖:高频的空间信息可能会被低频的空间信息所掩盖。
2.恰可识别失真(Just Noticeable Difference, JND)

人眼无法察觉到一定阈值下的失真,这个阈值,就是JND。

恰可识别失真是指人类观察者能够察觉到的最小刺激变化量。这是心理物理学中的一个关键概念,用于量化人类感觉系统的敏感性和分辨力。在视觉领域中,JND 可以指的是亮度、颜色、大小、方向等属性上的最小可察觉变化。

JND 是基于韦伯定律(Weber's Law)的,该定律指出人类感知到的刺激变化量与原有刺激强度之间存在一定的比例关系。换句话说,人类对刺激的感知并不是绝对的,而是相对的。因此,当刺激发生微小变化时,如果这种变化小于 JND,那么人类观察者就无法区分变化前后的刺激。

例如:

  • 亮度 JND:考虑一个房间里的灯光。如果你逐渐调暗灯光,直到达到一个点,人们刚刚能够察觉到灯光变暗了,那么这个调暗的量就是亮度上的 JND。
  • 颜色 JND:想象你有一组非常相似的颜色样本。你逐个展示给观察者,并要求他们指出哪个样本与其他样本不同。观察者能够准确指出的最小颜色差异就是颜色上的 JND。
  • 大小 JND:在一条线上逐渐增加一个小点的大小,直到观察者能够明确地说出点的大小已经改变了,这个改变的大小就是大小上的 JND。

1.3 对比敏感度(Contrast Sensitivity)

人类的视觉系统具有鲁棒性,无法分辨一定程度以内的边缘模糊,这种分辨能力成为对比灵敏度。它实际是对比度阈值的倒数。

对比灵敏度=1/对比度阈值

对比敏感度是指人眼或图像传感器对图像中亮度差异(对比度)的敏感程度。在视觉科学中,对比敏感度通常用来描述观察者区分两个亮度级别之间细微差异的能力,尤其是当这些差异较小的时候。它是评价视觉功能的重要参数之一,与视觉锐度(视力)不同,但两者密切相关。

人类视觉系统对高对比度刺激的反应比对低对比度刺激的反应更强烈。例如,在完全黑暗的背景上看到一个明亮的点非常容易,但在相似的灰度背景下区分两个相近的灰度级别则可能更具挑战性。对比敏感度通常用一个函数来描述,该函数表示了在不同空间频率下,观察者能够检测到的最小对比度。

考虑一个简单的视觉测试,其中包含一系列具有不同对比度的条纹图案。每个图案的条纹宽度和间距可能不同,代表着不同的空间频率。观察者被要求指出他们能够清晰看到条纹的最低对比度水平。这个测试可以用来测量观察者的对比敏感度,并绘制出对比敏感度函数(Contrast Sensitivity Function, CSF),该函数揭示了在不同空间频率下对比敏感度的变化。

对比敏感度通常通过计算韦伯分数(Weber Fraction)来量化,该分数是引起感觉变化所需的最小刺激强度与基准刺激强度的比值。在视觉领域,这可以表示为:

Weber Fraction = ΔL / L

其中 ΔL 是能够引起感觉变化的最小亮度差异,L 是基准亮度水平。然而,在实际应用中,对比敏感度通常使用更复杂的公式和模型来描述,这些模型考虑了空间频率、观察条件(如光照水平)和个体差异等因素。

1.4 非局部约束

格式塔心理学强调了很多在视觉感知中的非局部性约束特征,如相似性、相近性、连续性和闭合性等。人的视觉感知往往会将符合这些特征的图像信息组织到一起,而通常情况下,这些特征也是区分对象是否属于同一目标的显著标志。

我自己常常认为,这就是看不准。但是为了类似图灵测试这样的人工智能要求,而需要让计算机生成的图像,更接近人的主观感受。AIGC可能给你画了一副非常符合你要求的画,但是你总是感觉不对劲,就是模型并不理解人类的心理,对视觉感受的影响。

越强大的模型,生成的图像,越接近用户的心理预期。

可以参考我这2个AIGC生成图片的探讨。

【AIGC】接着昨天的AI“洗图”骚操作,继续调戏国产大模型_aigc 洗稿-CSDN博客

【AIGC】今天想用AI“洗个图”,失败了,进来看我怎么做的-CSDN博客

在图像处理、计算机视觉和深度学习领域,非局部约束指的是在分析和处理图像或数据时,不仅仅考虑当前像素或位置的局部邻域信息,而是同时考虑图像中其他位置或数据集中其他样本的信息。这种约束有助于捕捉图像或数据中的长距离依赖性和全局结构,从而提高相关任务的性能。

非局部约束的重要性:

  • 全局上下文感知:传统的局部处理方法(如卷积操作)主要关注像素周围的小邻域。然而,许多视觉任务需要理解全局上下文,例如识别一个物体在不同尺度、位置和方向上的出现。非局部约束通过考虑图像中更广泛区域的信息来提供这种上下文感知。
  • 长距离依赖性建模:在许多场景中,图像中的像素或特征之间可能存在长距离依赖性。例如,在识别一个人的姿势时,手臂和腿的位置是相互关联的,即使它们在图像中是分开的。非局部约束有助于捕捉这些依赖性。
  • 提升性能:通过整合更全面的信息,非局部约束可以增强深度学习模型在复杂任务中的性能,如目标检测、语义分割和视频理解等。

(未完待续)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/282767.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CentOS:docker同一容器间通信

docker同一容器中不同服务以别名访问 1、创建bridge网络 docker network create testnet 2、查看Docker网络 docker network ls 3、运行容器连接到testnet网络 使用方法&#xff1a;docker run -it --name <容器名> —network --network-alias <网络别名> <…

SpringBoot 一个注解实现数据脱敏

什么是数据脱敏 数据脱敏是指对某些敏感信息&#xff0c;例如姓名、身份证号码、手机号、固定电话、银行卡号、邮箱等个人信息&#xff0c;通过脱敏算法进行数据变形&#xff0c;以保护敏感隐私数据。 数据脱敏通常涉及以下几种主要方法&#xff1a; 替换&#xff1a; 将原始…

table表格中使用el-popover 无效问题解决

实例只针对单个的按钮管用在表格里每一列都有el-popover相当于是v-for遍历了 所以我们在触发按钮的时候并不是单个的触发某一个 主要执行 代码 <el-popover placement"left" :ref"popover-${scope.$index}"> 动态绑定了ref 关闭弹窗 执行deltask…

两种方法求解平方根 -- 牛顿法、二分法

Leetcode相关题目&#xff1a; 69. x 的平方根 牛顿法 迭代公式&#xff1a; 以求解 a a a 的平方根为例&#xff0c;可转换为求解方程 f ( x ) f(x) f(x)的根。 f ( x ) x 2 − a f(x)x^2-a f(x)x2−a 迭代公式如下&#xff1a; x n 1 x n − f ( x n ) f ′ ( x n )…

独立站的个性化定制:提升用户体验的关键

随着电子商务的竞争加剧&#xff0c;用户体验成为了企业赢得市场的关键因素之一。独立站作为企业品牌形象和产品展示的重要平台&#xff0c;其个性化定制的程度直接影响着用户体验。本文将探讨独立站的个性化定制如何提升用户体验&#xff0c;并通过代码示例说明实现个性化定制…

第九课:机器学习与人工智能、计算机视觉、自然语言处理 NLP及机器人

第九课&#xff1a;机器学习与人工智能、计算机视觉、自然语言处理 NLP及机器人 第三十四章&#xff1a;机器学习与人工智能1、分类 Classification2、做分类的算法 分类器 Classifier3、用于分类的值是特征 Feature4、特征值种类叫做标记数据 Labeled data5、决策边界 Decisio…

C语言实现关键字匹配算法(复制即用)

文章目录 前言功能要求运行截图全部代码 前言 无套路&#xff0c;均已上机通过&#xff0c;求个关注求个赞&#xff0c;提供答疑解惑服务。 功能要求 一份C源代码存储在一个文本文件中&#xff0c;请统计该文件中关键字出现的频度&#xff0c;并按此频度对关键字进行排序。要…

windows server 2022 启用SYN攻击保护

2023.12.28 SYN攻击是什么&#xff1a; SYN攻击是黑客攻击的常用手段&#xff0c;也是最容易被利用的一种攻击手法&#xff0c;属于DDoS攻击的一种。它利用TCP协议缺陷&#xff0c;通过发送大量的半连接请求&#xff0c;耗费CPU和内存资源。 SYN攻击包括大量TCP连接的第一个包&…

竞赛保研 基于大数据的股票量化分析与股价预测系统

文章目录 0 前言1 课题背景2 实现效果3 设计原理QTChartsarma模型预测K-means聚类算法算法实现关键问题说明 4 部分核心代码5 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 基于大数据的股票量化分析与股价预测系统 该项目较为新颖…

【c++】使用vector存放键值对时,明明给vector的不同键赋了不同的值,但为什么前面键的值会被后面键的值给覆盖掉?

错误描述 运行程序得到结果如下图所示&#xff08;左边是原始数据&#xff0c;xxml文件中真实数据的样子&#xff0c;右图是程序运行得到的结果结果&#xff09;&#xff1a; 对比以上两图可以发现&#xff0c;右图中两个实例的三个属性值都来自左图中的第二个User实例&#x…

微信商家转账到零钱开通技巧,模板下载

商家转账到零钱是什么&#xff1f; 【商家转账到零钱】功能整合了微信支付之前的【企业付款到零钱】【批量转账到零钱】功能&#xff0c;支持批量对外转账&#xff0c;对有批量对用户付款需求的应用场景更友好&#xff0c;操作便捷。如果你的应用场景是单付款场景的话&#xf…

方太厨电,在创新科技中看见烟火人间

人类的历史&#xff0c;就是一部创新的历史。科普作者马特里德利在《创新的起源&#xff1a;一部科学技术进步史》写道&#xff1a;能源是所有创新之源。 火的发明和使用&#xff0c;就是一种创新&#xff0c;人类第一次通过控制热量的转换来做功&#xff0c;依靠火来取暖和烹饪…

介绍几种mfc140u.dll丢失的解决方法,找不到msvcp140.dll要怎么处理

如果你在使用电脑时遇到mfc140u.dll丢失错误时&#xff0c;这可能会导致程序无法正常运行&#xff0c;但是大家不必过于担心。今天的这篇文章本将为你介绍几种mfc140u.dll丢失的解决方法&#xff0c;找不到msvcp140.dll要怎么处理的一些解决方法。 一.mfc140u.dll文件缺失会有什…

使用IDEA创建maven java项目(hello word)(1.8)

参考资料&#xff1a; idea创建java项目_使用IDEA创建java项目&#xff08;hello word&#xff09;-CSDN博客 ​ 本文代码工程下载链接&#xff1a; https://download.csdn.net/download/xijinno1/87441597 ​ 前提:已安装好jdk,配置好环境变量。我使用的是java 8&#xff08;…

毫秒格式化

## 计算当前毫秒数&#xff1a; const [start,setStart] useState(new Date().getTime())useEffect(()>{setInterval(()>{setCurrMill(new Date().getTime()-start)},1)},[]) ## 格式化毫秒 function formatMilliseconds(milliseconds) {const totalSeconds Math.flo…

IPD-PDP产品开发流程-PDT产品开发计划Charter文档模板(word)4

今天继续为您分享PDT的产品开发计划Charter模板的内容。 Charter任务书模板内容9&#xff1a;资料开发计划 在IPD运作时&#xff0c;配套资料的开发也是非常重要的内容&#xff0c;尤其是产品发布、上市的时候需要配套的产品资料包非常全面&#xff0c;所以在Charter中也要列出…

面试官:了解CountDownLatch吗

程序员的公众号&#xff1a;源1024&#xff0c;获取更多资料&#xff0c;无加密无套路&#xff01; 最近整理了一份大厂面试资料《史上最全大厂面试题》&#xff0c;Springboot、微服务、算法、数据结构、Zookeeper、Mybatis、Dubbo、linux、Kafka、Elasticsearch、数据库等等 …

Java(算术,自增自减,赋值,关系,逻辑,三元)运算符,运算符的优先级,隐式转换,强制转换,字符串的+。

文章目录 1.运算符和表达式运算符&#xff1a;表达式&#xff1a; 2.算术运算符练习&#xff1a;数值拆分 3.隐式转换概念&#xff1a;简单记忆&#xff1a;两种提升规则&#xff1a;取值范围从小到大的关系&#xff1a; 4.隐式转换的练习案例一&#xff1a;案例二&#xff1a;…

HTML进阶

列表、表格、表单 文章目录 列表、表格、表单01-列表无序列表有序列表定义列表 02-表格表格结构标签-了解合并单元格 03-表单input 标签input 标签占位文本单选框上传文件多选框下拉菜单文本域label 标签按钮 04-语义化无语义的布局标签有语义的布局标签 05-字符实体 01-列表 …

排序整形数组--------每日一题

大家好这是今年最后的一篇了&#xff0c;感谢大家的支持&#xff0c;新的一年我会更加努力地。 文章目录 目录 文章目录 题⽬描述&#xff1a; 输⼊10个整数&#xff0c;然后使⽤冒泡排序对数组内容进⾏升序排序&#xff0c;然后打印数组的内容 一、题目解读 冒泡排序是⼀种基础…