神经网络不确定性综述(Part V)——Uncertainty measures and quality

相关链接:

神经网络不确定性综述(Part I)——A survey of uncertainty in deep neural networks-CSDN博客

神经网络不确定性综述(Part II)——Uncertainty estimation_Single deterministic methods-CSDN博客

神经网络不确定性综述(Part III)——Uncertainty estimation_Bayesian neural networks-CSDN博客

神经网络不确定性综述(Part IV)——Uncertainty estimation_Ensemble methods&Test-time augmentation-CSDN博客

神经网络不确定性综述(Part V)——Uncertainty measures and quality-CSDN博客


4. Uncertainty measures and quality

不确定性的数值测量与质量评估的方法。

  1. Uncertainty estimation的质量取决于所使用的方法。比如different approximations of Bayesian inference (e.g. Gaussian and Laplace approximations) 会产生不同的不确定性估计结果。
  2. Uncertainty缺少金标准。比如,如果我们将uncertainty定义为the uncertainty across human subjects,we still have to answer questions as “How many subjects do we need?” or “How to choose the subjects?”
  3. 缺乏统一的定量评价指标。在不同的机器学习任务中,不确定性的定义也是不同的(Huang et al . 2019b)。比如在回归任务重,prediction intervals or standard deviation被用来表示uncertainty;而在分类/分割任务中,可以使用entropy作为捕获uncertainty的指标。

4.1 Evaluating uncertainty in classification tasks

For classification tasks, the network’s softmax output already represents a measure of confidence. But since the raw softmax output is neither very reliable (Hendrycks and Gimpel 2017) nor can it represent all sources of uncertainty (Smith and Gal 2018), further approaches and corresponding measures were developed.

4.1.1 Measuring data uncertainty in classification tasks

In order to evaluate the amount of predicted data uncertainty, one can for example apply the maximal class probability or the entropy measures:

\text{Maximal probability: }p_{max}=max\{p_k\}_{k=1}^K\\\text{Entropy: H}(p)=-\sum_{k=1}^Kp_k\log_2(p_k)_\omega

The maximal probability represents a direct representation of certainty, while entropy describes the average level of information in a random variable. Even though a softmax output should represent the data uncertainty, one cannot tell from a single prediction how large the amount of model uncertainty is that affects this specific prediction as well.

4.1.2 Measuring model uncertainty in classification tasks

As already discussed in Sect. 3, a single softmax prediction is not a very reliable way for uncertainty quantification since it is often badly calibrated (Smith and Gal 2018) and does not have any information about the certainty of the model itself has on this specific output (Smith and Gal 2018).——仅仅通过softmax的结果并不能可靠地去量化uncertainty,并且也不包含有关模型本身对预测output的certainty的任何信息。

An (approximated) posterior distribution p(\theta|D) on the learned model parameters can help to receive better uncertainty estimates.有了这个后验分布,the softmax output本身也成为了一个随机变量,并且可以进一步地评估它的variation,即uncertainty。

For simplicity, we denote p(y|\theta,x) also as p and it will be clear from context whether p depends on \theta or not. 而衡量 p 是否与 \theta 有关的最常见的方式有mutual information (MI), the expected Kullback–Leibler Divergence (EKL), and the predictive variance. Basically, all these measures compute the expected divergence between the (stochastic) softmax output and the expected softmax output

\hat{p}=\mathbb{E}_{\theta\sim p(\theta|D)}[p(y|x,\theta]

  • Mutual Information

The MI uses entropy to measure the mutual dependence between two variables. In the described case, the difference between the information given in the expected softmax output and the expected information in the softmax output is compared, i.e.

\mathrm{MI}(\theta,y|x,D)=\mathrm{H}[\hat{p}]-\mathbb{E}_{\theta\sim p(\theta|D)}\mathrm{H}[p(y|x,\theta)]

Smith and Gal (2018) pointed out that the MI is minimal when the knowledge about model parameters does not increase the information in the final prediction. Therefore, the MI can be interpreted as a measure of model uncertainty.

  • The Expected KL

The Kullback–Leibler divergence measures the divergence between two given probability distributions. The EKL can be used to measure the (expected) divergence among the possible softmax outputs,

\mathbb{E}_{\theta\sim p(\theta|D)}[KL(\hat{p}\parallel p)]=\mathbb{E}_{\theta\sim p(\theta|D)}\left[\sum_{i=1}^K\hat{p}_i\log\left(\frac{\hat{p}_i}{p_i}\right)\right]

which can also be interpreted as a measure of uncertainty on the model’s output and therefore represents the model uncertainty.

  • The predictive variance

The predictive variance evaluates the variance on the (random) softmax outputs, i.e.

\sigma(p)=\mathbb{E}_{\theta\sim p(\theta|D)}[(p-\hat{p})^2]

  • 如何估计 \hat{p} ?

\hat{p}\approx\frac1M\sum_{i=1}^Mp^i

4.1.3 Measuring distributional uncertainty in classification tasks

尽管以上的uncertainty measures被广泛用于捕获BNN、ensemble methods以及test-time augmentation得到的多种prediction之间的多样性,但是它们无法捕获输入数据或OOD样本中的distributional shifts。

考虑这样一个场景,  如果所有的predictor都分配了high probability mass给错误的类别标签,这将使不同的预测之间趋于统一,这时网络对预测似乎是certain的,预测本身的uncertainty将变得很低。对于OOD样本,可能的解决方案是使用EDL或者直接关注网络输出的logit。如果网络对于当前样本在任一类别上的质量分配/logit都较低,则该样本趋向于是OOD的。

4.2 Evaluating uncertainty in regression tasks

4.2.1 Measuring data uncertainty in regression predictions

在分类任务中,网络将输出所有可能类别的概率分布。而与此不同,回归任务只做逐点的估计/预测,没有任何数据不确定性的信息。如Section 3所述,一个常见的解决方法是让网络去预测概率分布的参数,比如正态分布的mean vector \mu 与standard deviation \sigma,之后我们就可以直接用它们来表示data uncertainty

The prediction of the standard deviation allows an analytical description that the (unknown) true value is within a specific region. The interval that covers the true value with a probability of \alpha (under the assumption that the predicted distribution is correct) is given by (需要确认)

\left[\widehat{y}-\frac12\Phi^{-1}(\alpha)\cdot\sigma;\widehat{y}+\frac12\Phi^{-1}(\alpha)\cdot\sigma\right]

where \Phi^{-1} is the quantile function, the inverse of the cumulative probability function.

除此之外,一些工作还提出了直接预测所谓的prediction interval (PI)的方法,

PI(x)=[B_l,B_u]

这个区间提供了预测值的可取范围(均匀分布),而这种方法的certainty则可以直接通过测量此区间的长度来衡量。这里介绍两个指标,

  1. Mean Prediction Interval Width (MPIW)
  2. Prediction Interval Coverage Probability (PICP)

The PICP represents the percentage of test predictions that fall into a prediction interval and is defined as

\mathrm{PICP}=\frac cn

where n is the total number of predictions and c is the number of ground truth values that are actually captured by the predicted intervals.

4.2.2 Measuring model uncertainty in regression predictions

回归任务和分类任务的model uncertainty之间没有差异,可以使用类似的方法测量。比如,大部分情况下可以通过approximate an average prediction and measure the divergence among the single predictions.

4.3 Evaluating uncertainty in segmentation tasks

分割任务中的不确定性评估与分类问题十分相似,比如using approximates of Bayesian inference (Nair et al. 2020; Roy et al. 2019; LaBonte et al. 2019; Eaton-Rosen et al. 2018; McClure et al. 2019; Soleimany et al. 2019; Soberanis-Mukul et al. 2020; Seebock et al. 2020) 或者test-time augmentation(Wang et al. 2019).

In the context of segmentation, the uncertainty in pixel-wise segmentation is measured using confidence intervals (LaBonte et al. 2019; Eaton-Rosen et al. 2018), the predictive variance (Soleimany et al. 2019; Seebock et al. 2020), the predictive entropy (Roy et al. 2019; Wang et al. 2019; McClure et al. 2019; Soberanis-Mukul et al. 2020) or the mutual information (Nair et al. 2020).

The uncertainty in structure (volume) estimation is obtained by averaging over all pixel-wise uncertainty estimates (Seebock et al. 2020; McClure et al. 2019). The quality of volume uncertainties is assessed by evaluating the coefficient of variation, the average Dice score, or the intersection over union (Roy et al. 2019; Wang et al. 2019).

以上两段提到的这几篇文献可以读一下

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/659328.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

探索 ChatboxAI:智能对话的新时代

在人工智能迅速发展的今天,智能对话已经成为了我们日常生活中不可或缺的一部分。从智能助理到聊天机器人,AI 技术正在改变我们与世界互动的方式。今天,我们要介绍的是一个全新且功能强大的平台——ChatboxAI。 什么是 ChatboxAI?…

PyTorch自定义张量操作开发指南【CFFI+CUDA】

PyTorch 与 TensorFlow 一起成为深度学习研究人员和从业者的标准。虽然 PyTorch 在张量运算或深度学习层方面提供了多种选择,但一些专门的操作仍然需要手动实现。在运行时至关重要的情况下,应使用 C 或 CUDA 来完成此操作,以支持 CPU 和 GPU …

智能除螨—wtn6040-8s语音芯片方案引领除螨仪新时代

语音螨仪开发背景: 随着物联网技术的快速发展,除螨仪作为家庭清洁的重要工具,其智能化、人性化的设计成为提升市场竞争力的关键。置入语音芯片的除螨仪,通过开机提示、工作状态反馈、操作指引、故障提醒等内容。用户可以更加直观…

.NET 某和OA办公系统全局绕过漏洞分析

转自先知社区 作者:dot.Net安全矩阵 原文链接:.NET 某和OA办公系统全局绕过漏洞分析 - 先知社区 0x01 前言 某和OA协同办公管理系统C6软件共有20多个应用模块,160多个应用子模块,从功能型的协同办公平台上升到管理型协同管理平…

腾讯社招测试岗有点奇葩的面试,被问抽奖程序的测试用例设计

今天腾讯网上预约社会招聘,我是前天才看到这条消息,前天投了简历,还叫别人内推了我一把,但是悲剧的我把简历上的号码写成了原来在北京的号码,所以我也不知道是别人觉得我简历不合适还是因为联系不上我所以没有邀请我参…

View->Bitmap缩放到自定义ViewGroup的任意区域

Bitmap缩放和平移 加载一张Bitmap可能为宽高相同的正方形,也可能为宽高不同的矩形缩放方向可以为中心缩放,左上角缩放,右上角缩放,左下角缩放,右下角缩放Bitmap中心缩放,包含了缩放和平移两个操作&#xf…

数据要素的大海,如何流向千行百业?

文|白 鸽 编|王一粟 当数智化的风吹向银行业,是从底层数据的融合开始的。 在银行风控场景中,一个人想要进行风险投资或借贷,银行往往会评估这个人的信贷和风控策略。在以往的办理模式中,会需要办理人…

Java设计模式-活动对象与访问者

活动对象 Java设计模式中,活动对象是指一个对象始终处于活动的状态,该对象包括一个线程安全的数据结构以及一个活跃的执行线程。 如上所示,ActiveCreature类的构造函数初始化一个线程安全的数据结构(阻塞队列)、初始化…

微信小程序毕业设计-农场驿站平台系统项目开发实战(附源码+论文)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:微信小程序毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计…

8086 汇编笔记(二):寄存器(内存访问)

一、内存中字的存储 字单元的概念:字单元,即存放一个字型数据(16 位)的内存单元,由两个地址连续的内存单元组成 由上一章学习可知:高地址内存单元中存放字型数据的高位字节,低地址内存单元中存放字型数据的低位字节 …

数字资产革命:Web3带来的新商业机会

随着区块链技术的不断发展和普及,数字资产正逐渐成为全球范围内的热门话题。作为区块链技术的重要应用之一,Web3正在带来一场数字资产的革命,为传统商业模式带来了全新的机遇和挑战。本文将深入探讨数字资产革命与Web3的关系,探索…

数据分析之统计学基础

数据分析是现代企业和科研中不可或缺的一部分,而统计学是数据分析的基石。在本篇博客中,我们将介绍统计学的基础知识,涵盖数据类型、描述性统计(集中趋势、离散程度和偏差程度),并通过代码实例加以说明。 …

如何批量结构化分汇多工作表sheet?

目录 一、如遇合并表格,注意结构化二、确认主键,合并所有文件数据三、sheet2同理四、案例总结 如果遇到这样情形,多文件夹多文件,多工作表的分汇场景;可以参考以下方法解决。 一、如遇合并表格,注意结构…

汇编原理(四)[BX]和loop指令

loop:循环 误区:在编译器里写代码和在debug里写代码是不一样的,此时,对于编译器来说,就需要用到[bx] [bx]: [bx]同样表示一个内存单元,他的偏移地址在bx中,比如下面的指令 move bx, 0 move ax,…

IAR9.30安装和注册相关

下载解压licpatcher64工具,把licpatcher64.exe拷贝到IAR的安装目录中双击运行。 示例IAR9.30.1默认安装如下如下,一共三个分别拷贝运行,不要遗漏。 C:\Program Files\IAR Systems\Embedded Workbench 9.1\arm\bin C:\Program Files\IAR Syst…

一书读懂Python全栈安全,剑指网络空间安全

写在前面 通过阅读《Python全栈安全/网络空间安全丛书》,您将能够全面而深入地理解Python全栈安全的广阔领域,从基础概念到高级应用无一遗漏。本书不仅详细解析了Python在网络安全、后端开发、数据分析及自动化等全栈领域的安全实践,还紧密贴…

系统与软件工程软件测试过程

系统与软件工程 软件测试 测试过程 ;对应的国标是GB/T 38634.4 2020 ,该标准的范围规定适应用于治理、管理和实施任何组织,项目或较小规模测试活动的软件测试的测试过程,定义了软件测试通用过程,给出了描述过程的支持信息图表。 一 术语和定义 1.1实测…

力扣hot100:23. 合并 K 个升序链表

23. 合并 K 个升序链表 这题非常容易想到归并排序的思路,俩升序序列合并,可以使用归并的方法。 不过这里显然是一个多路归并排序;包含多个子数组的归并算法,这可以让我们拓展归并算法的思路。 假设n是序列个数,ni是…

这么多不同接口的固态硬盘,你选对了嘛!

固态硬盘大家都不陌生,玩游戏、办公存储都会用到。如果自己想要给电脑或笔记本升级下存储,想要存储更多的文件,该怎么选购不同类型的SSD固态盘呐,下面就来认识下日常使用中常见的固态硬盘。 固态硬盘(Solid State Drive, SSD)作为数据存储技术的革新力量,其接口类型的选…

5.25.6 深度学习在放射图像中检测和分类乳腺癌病变

计算机辅助诊断 (CAD) 系统使用数字化乳房 X 线摄影图像并识别乳房中存在的异常情况。深度学习方法从有限数量的专家注释数据中学习图像特征并预测必要的对象。卷积神经网络(CNN)在图像检测、识别和分类等各种图像分析任务中的性能近年来表现出色。本文提…