[论文精读]Variational Bayesian Last Layers

论文网址:Variational Bayesian Last Layers (arxiv.org)

论文代码:GitHub - VectorInstitute/vbll: Simple (and cheap!) neural network uncertainty estimation

英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用

1. 省流版

1.1. 心得

(1)挺普适的亚子

1.2. 论文总结图

2. 论文逐段精读

2.1. Abstract

        ①Characteristics of model: sampling-free, single pass and loss (?)

        ②Advantages: plug and play

2.2. Introduction

        ①They aims to correct the uncertainty quantification

        ②Contributions: proposed variational Bayesian last layers (VBLLs), parameterized model, outperformed baselines and released a package

2.3. Bayesian Last Layer Neural Networks

        ①“回顾了贝叶斯最后一层模型,该模型仅对神经网络中的最后一层保持后验分布”(啥意思??意思是其他层都不包含后验是吗

        ②T input x\in\mathbb{R}^{N_x} with corresponding output (classification) y\in\mathbb{R}^{N_y}. And y \in \left \{ 1,..., N_y \right \} is a one hot lable set

        ③Neural network:

\varphi:\mathbb{R}^{N_{x}}\times\Theta\to\mathbb{R}^{N_{\varphi}}\sim \varphi:=\varphi(x,\theta)

the \theta \in \Theta is acturally a weight in the last layer of neural network

2.3.1. Regression

        ①Traditional Bayesian last layer (BLL):

y=w^{\top}\phi(x,\theta)+\varepsilon

\varepsilon is the noise of Gauss distribution (i.i.d.)

        ②Assuming a Gaussian prior: p(\boldsymbol{w})=\mathcal{N}(\underline{\bar{\boldsymbol{w}}},\underline{S})

        ③Predictive distribution:

p(y\mid x,\eta,\theta)=N(w^{\top}\phi,\phi^{\top}S\phi+\Sigma)

where \eta=(\bar{\boldsymbol{w}},S) denotes the parameters of distribution

2.3.2. Discriminative Classification

        ①The specific BLL classification:

p(y\mid x,W,\theta)=\mathrm{softmax(z),\quad z=W\phi(x,\theta)+\varepsilon}

        ②Unnormalized joint data-label log likelihoods:

z=\log p(x,y\mid W,\theta)-Z(W,\theta)

where Z(W,\theta) is a normalizing constant

2.3.3. Generative Classification

        ①"Placing a Normal prior on the means of these feature distributions and a (conjugate) Dirichlet prior on class probabilities, we have priors and likelihoods (top line and bottom line respectively) of the form":

\boldsymbol{\rho}\sim\mathrm{Dir}(\underline{\boldsymbol{\alpha}})\in\mathcal{P}_{N_{y}}\; \; \; \; \; \; \; \; \; \; \boldsymbol{\mu}_{\boldsymbol{y}}\sim\mathcal{N}(\bar{\underline{\boldsymbol{\mu}}}_{\boldsymbol{y}},\underline{S}_{\boldsymbol{y}})\\\boldsymbol{y}\mid\boldsymbol{\rho}\sim\mathrm{Cat}(\boldsymbol{\rho})\boldsymbol{\phi}\; \; \; \; \; \; \; \; \;\; \;\mid\boldsymbol{y}\sim\mathcal{N}(\boldsymbol{\mu}_{\boldsymbol{y}},\Sigma)

where \underline{\bar{\mu}}_{y}\in\mathbb{R}^{N_{\phi}} is the prior mean, \underline{S}_{\boldsymbol{y}}\in\mathbb{R}^{N_{\phi}\times N_{\phi}} denotes the covariance over \mu_y\in\mathbb{R}^{N_\phi}

        ②Distribution of parameters:

p(\rho,\mu\mid\eta)=\mathrm{Dir}(\alpha)\prod_{k=1}^{N_{y}}N(\mu_{k},S_{k})

        ③Marginalization analysis:

p(x\mid y,\eta)=\mathcal{N}(\mu_{y},\Sigma+S_{y}),\quad p(y\mid\eta)=\frac{\alpha_{y}}{\sum_{k=1}^{N_{y}}\alpha_{k}}

where \eta=\{\alpha,\mu,S\}

        ④Prediction by Bayes' rule:

p(\mathbf{y}\mid\mathbf{x},\mathbf{\eta})=\mathrm{softmax}_{\mathbf{y}}(\log p(\mathbf{x}\mid\mathbf{y},\mathbf{\eta})+\log p(\mathbf{y}\mid\mathbf{\eta}))

where

\log p(x\mid y,\eta)=-\frac{1}{2}((\phi-\mu_{y})^{\intercal}(\Sigma+S_{y})^{-1}(\phi-\mu_{y})+\mathrm{logdet}(\Sigma+S_{y})+\mathrm{c})

where c is a constant shared by all the classes, and it can be ignored in that the shift-invariance of the softmax

        ⑤95% predictive credible region and visualization:

2.3.4. Inference and Training in BLL Models

        ①By gradient descent, the (log) marginal likelihood:

T^{-1}\log p(Y\mid X,\theta)

where the full marginal likelihood may bring ubstantial over-concentration of the approximate posterior

2.4. Sampling-Free Variational Inference for BLL Networks

        ①To approximate a margin, they develop bounds of the form:

T^{-1}\log p(Y|X,\theta)\geq\mathcal{L}(\theta,\eta,\Sigma)-T^{-1}\mathrm{KL}(q(\xi|\eta)\mid|p(\xi))

where \xi is the parameter in the last layer, q(\xi|\eta) is the approximating posterior

2.4.1. Regression

        ①When q(\xi\mid\eta) is the variational posterior, then:

\mathcal{L}(\boldsymbol{\theta},\boldsymbol{\eta},\Sigma)=\frac{1}{T}\sum_{t=1}^{T}\left(\log\mathcal{N}(\boldsymbol{y}_{t}\mid\bar{\boldsymbol{w}}^{\top}\boldsymbol{\phi}_{t},\Sigma)-\frac{1}{2}\boldsymbol{\phi}_{t}^{\top}S\boldsymbol{\phi}_{t}\Sigma^{-1}\right)

when q(\boldsymbol{\xi}\mid\boldsymbol{\eta})=p(\boldsymbol{\xi}\mid Y,X) and distributional assumptions are satisfied, the lower bound is tight

2.4.2. Discriminative Classification

         ①When q(W\mid\boldsymbol{\eta})=\prod_{k=1}^{N_{y}}\mathcal{N}(\bar{\boldsymbol{w}}_{k},S_{k}) is the variational posterior, then:

\mathcal{L}(\boldsymbol{\theta},\boldsymbol{\eta},\Sigma)=\frac{1}{T}\sum_{t=1}^{T}\left(\boldsymbol{y}_{t}^{\top}\bar{W}\phi_{t}-\mathrm{LSE}_{k}\left[\bar{\boldsymbol{w}}_{k}^{\top}\phi_{t}+\frac{1}{2}(\phi_{t}^{\top}S_{k}\phi_{t}+\sigma_{k}^{2})\right]\right)

where \mathrm{LSE}_{k} is the log-sum-exp function, k is the sum, \xi=\{W\} is the parameter, \sigma_{i}^{2}:={\Sigma}_{ii}, and q(W\mid\eta)=\prod_{k=1}^{N_{y}}q(w_{k}\mid\eta)=\prod_{k=1}^{N_{y}}q(\bar{w}_{k},S_{k}) is the variational posterior. And the bound is the  standard ELBO

2.4.3. Generative Classification

        ①When q(\boldsymbol{\mu}\mid\boldsymbol{\eta}) = \prod_{k=1}^{N_{y}}\mathcal{N}(\bar{\boldsymbol{\mu}}_{k},S_{k}) is the variational posterior, then:

\mathcal{L}(\boldsymbol{\theta},\boldsymbol{\eta},\Sigma)=\frac{1}{T}\sum_{t=1}^{T}\left(\log\mathcal{N}(\phi_{t}\mid\bar{\boldsymbol{\mu}}_{\boldsymbol{y}_{t}},\Sigma)-\frac{1}{2}\mathrm{tr}(\Sigma^{-1}S_{\boldsymbol{y}_{t}})+\psi(\boldsymbol{\alpha}_{\boldsymbol{y}_{t}})-\psi(\boldsymbol{\alpha}_{*})+\log\boldsymbol{\alpha}_{*}\right)\\-\operatorname{LSE}_{k}[\log\mathcal{N}(\phi_{t}\mid\bar{\boldsymbol{\mu}}_{k},\Sigma+S_{k})+\log\boldsymbol{\alpha}_{k}])

where p\left ( \rho | Y \right )=Dir\left ( \alpha \right ) is the exact Dirichlet posterior over class probabilities, \alpha denotes the Dirichlet posterior concentration parameters, \psi \left ( \cdot \right ) is the digamma function, \alpha _*=\sum_{k}a_k. All \psi(\alpha_{y_{t}}),\psi(\alpha_{*}),\log\alpha_{*} will vanish in gradient computation. The bound is ELBO

2.4.4. Training VBLL Models

(1)Full training

        ①Training goal:

\boldsymbol{\theta}^*,\boldsymbol{\eta}^*,\Sigma^*=\arg\max_{\boldsymbol{\theta},\boldsymbol{\eta},\Sigma}\left\{\mathcal{L}(\boldsymbol{\theta},\boldsymbol{\eta},\Sigma)+T^{-1}(\log p(\boldsymbol{\theta})+\log p(\Sigma)-\mathrm{KL}(q(\boldsymbol{\xi}\mid\boldsymbol{\eta})||p(\boldsymbol{\xi})))\right\}

isotropic  adj.各向同性的;等方性的

(2)Post-training

        ①Different training methods from full traning

(3)Feature uncertainty

        ①Combining SVI and variational feature learning:

\log p(Y\mid X)\geq\mathbb{E}_{q(\boldsymbol{\xi},\boldsymbol{\theta},\Sigma\mid\boldsymbol{\eta})}[\log(Y\mid X,\boldsymbol{\xi},\boldsymbol{\theta},\Sigma)]-\mathrm{KL}(q(\boldsymbol{\xi},\boldsymbol{\theta},\Sigma\mid\boldsymbol{\eta})||p(\boldsymbol{\xi},\boldsymbol{\theta},\Sigma))

        ②Collapse this expectation:


\log p(Y\mid X)\geq\mathbb{E}_{q(\boldsymbol{\xi},\boldsymbol{\theta},\Sigma\mid\boldsymbol{\eta})}[\log(Y\mid X,\boldsymbol{\xi},\boldsymbol{\theta},\Sigma)]-\mathrm{KL}(q(\boldsymbol{\xi},\boldsymbol{\theta},\Sigma\mid\boldsymbol{\eta})||p(\boldsymbol{\xi},\boldsymbol{\theta},\Sigma))

2.4.5. Prediction with VBLL Models

        ①For classification task:

p(\boldsymbol{y}\mid\boldsymbol{x},X,Y)\approx\mathbb{E}_{q(\boldsymbol{\xi}\mid\boldsymbol{\eta}^*)}[p(\boldsymbol{y}\mid\boldsymbol{x},\boldsymbol{\xi},\boldsymbol{\theta}^*,\Sigma^*)]

        ②For generation or regression:

p(\boldsymbol{y}\mid\boldsymbol{x},X,Y)\approx\mathbb{E}_{q(\boldsymbol{\theta}\mid\boldsymbol{\eta}^*)}\mathbb{E}_{q(\boldsymbol{\xi}\mid\boldsymbol{\eta}^*)}[p(\boldsymbol{y}\mid\boldsymbol{x},\boldsymbol{\xi},\boldsymbol{\theta},\Sigma^*)]

conjugacy  n.共轭性

2.5. Related Work and Discussion

        ①Introducing the development of Bayes

2.6. Experiments

2.6.1. Regression

        ①Comparison table in different datasets:

2.6.2. Image Classification

        ①Comparison table in CIFAR-10 and CIFAR-100:

2.6.3. Sentiment Classification with LLM Features

        ①Comparison of G-VBLL, D-VBLL and MLP on IMDB Sentiment Classification Dataset:

2.6.4. Wheel Bandit

        ①Wheel bandit cumulative regret:

        ②Wheel bandit simple regret:

2.7. Conclusions and Future Work

        VBLL is a universal module

3. 知识补充

3.1. Sampling-free

“sampling-free”通常指的是在进行某种处理或分析时,不需要对数据进行采样或选择一部分数据。相反,它会使用完整的数据集进行处理,以提供更准确、更全面的结果。

3.2. Single pass

“single pass”通常指的是在处理数据或执行某种算法时,只对整个数据集进行一次遍历或处理。

在数据处理或算法设计中,single pass方法通常用于优化性能和减少计算成本。通过只进行一次遍历,可以更快地处理大量数据,并减少内存使用和存储需求。

4. Reference List

Harrison, J., Willes, J., & Snoek, J. (2024) 'Variational Bayesian Last Layers', ICLR. doi: https://doi.org/10.48550/arXiv.2404.11599

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/636457.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

leetcode437 路径总和III-哈希表+前缀和

题目 给定一个二叉树的根节点 root ,和一个整数 targetSum ,求该二叉树里节点值之和等于 targetSum 的 路径 的数目。 路径 不需要从根节点开始,也不需要在叶子节点结束,但是路径方向必须是向下的(只能从父节点到子节…

服务器数据恢复—EVA存储多块硬盘离线导致部分LUN丢失的数据恢复案例

服务器数据恢复环境: 1台某品牌EVA4400控制器3台EVA4400扩展柜28块FC硬盘。 服务器故障: 由于两块磁盘掉线导致存储中某些LUN不可用,某些LUN丢失,导致存储崩溃。 服务器数据恢复过程: 1、由于EVA4400存储故障是某些磁…

Web API——获取DOM元素

目录 1、根据选择器来获取DOM元素 2.、根据选择器来获取DOM元素伪数组 3、根据id获取一个元素 4、通过标签类型名获取所有该标签的元素 5、通过类名获取元素 目标:能查找/获取DOM对象 1、根据选择器来获取DOM元素 语法: document.querySelector(css选择…

python从0开始学习(十二)

目录 前言 1、字符串的常用操作 2、字符串的格式化 2.1 格式化字符串的详细格式(针对format形式) ​编辑 总结 前言 上一篇文章我们讲解了两道关于组合数据类型的题目,本篇文章我们将学习新的章节,学习字符串及正则表达式。 …

C++|红黑树(分析+模拟实现插入)

目录 一、概念 二、红黑树插入的实现 2.1红黑树节点的定义 2.2红黑树基础架构 2.3红黑树的插入 2.3.1按照二叉搜索树的规则插入新结点 2.3.2检测新插入节点,是否破坏红黑树性质来进行调整 2.3.2.1cur为红,p为红,g为黑,u存…

好用的桌面备忘录是哪个?备忘录软件哪个更好用?

备忘录软件已成为我们日常生活和工作中不可或缺的工具,它能帮助我们记录重要事项、安排日程,从而提高工作效率,减少遗忘。在繁忙的工作和生活中,一款好用的备忘录软件往往能让我们事半功倍。 在众多的备忘录软件中,敬…

Jenkins 构建 Web 项目:构建服务器和部署服务器分离的情况

构建命令 #!/bin/bash node -v pnpm -v pnpm install pnpm build:prod # 将dist打包成dist.zip zip -r dist.zip dist

2024年艺术鉴赏与文化传播国际会议(AACC 2024)

2024年艺术鉴赏与文化传播国际会议(AACC 2024) 2024 International Conference on Art Appreciation and Cultural Communication 【重要信息】 大会地点:贵阳 大会官网:http://www.icaacc.com 投稿邮箱:icaaccsub-co…

VS QT 里头文件的<>和““的区别

今天在跑项目的时候遇到这么个问题,在添加api宏定义的时候,不加显示无法识别的外部错误,加了显示找不到文件。反正就是怎么都是错的,但是我检查了CmakeLists、模块所在文件夹、项目路径都是没有问题的。非常奇怪。 然后就开始尝试…

一阶数字高通滤波器

本文的主要内容包含一阶高通滤波器公式的推导和数字算法的实现以及编程和仿真 1 计算公式推导 1.1.2 算法实现及仿真 利用python实现的代码如下: import numpy as np # from scipy.signal import butter, lfilter, freqz import matplotlib.pyplot as plt #2pifW…

【LeetCode 随笔】面试经典 150 题【中等+困难】持续更新中。。。

文章目录 380.【中等】O(1) 时间插入、删除和获取随机元素238.【中等】除自身以外数组的乘积134.【中等】 加油站135.【困难】分发糖果42.【困难】接雨水 🌈你好呀!我是 山顶风景独好 💝欢迎来到我的博客,很高兴能够在这里和您见面…

matlab使用教程(80)—修改图形对象的透明度

1.更改图像、填充或曲面的透明度 此示例说明如何修改图像、填充或曲面的透明度。 1.1坐标区框中所有对象的透明度 透明度值称为 alpha 值。使用 alpha 函数设置当前坐标区范围内所有图像、填充或曲面对象的透明度。指定一个介于 0(完全透明)和 1&#x…

第19讲:自定义类型:结构体

目录 1.结构体类型的声明1.1 结构体回顾1.1.1 结构的声明 特殊的结构声明1.3 结构的⾃引⽤ 2. 结构体内存的对齐2.2 为什么存在内存对⻬?2.3 修改默认对⻬数 3. 结构体传参4. 结构体实现位段4.1 什么是位段4.2 位段的内存分配4.3 位段的跨平台问题4.5 位段使⽤的注意事项 正文…

目标检测——无人机垃圾数据集

引言 亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。 …

【ONE·MySQL || 事务】

总言 主要内容:介绍事务。理解事务概念(为什么存在),理解事务的四种属性(原子性、持久性、隔离性、一致性),理解事务的隔离级别(四种隔离级别,读写并发说明)。…

Java zip解压时候 malformed input off : 0, length : 1

public static void unzip(String zipFilePath, String destDirectory) {File dir new File(destDirectory);// 如果目标文件夹不存在,则创建if (!dir.exists()) {dir.mkdirs();}byte[] buffer new byte[1024];try (ZipInputStream zis new ZipInputStream(new F…

C++小病毒

C小病毒&#xff08;注&#xff1a;对电脑无过大伤害&#xff09; 短短行&#xff0c;创造奇迹&#xff01; 把这个文件命名为virus.exe就可以使用了。 #include<bits/stdc.h> #include<windows.h> using namespace std; int main() {HWND hwnd GetForegroundW…

梳理 JavaScript 中空数组调用 every方法返回true 带来惊讶的问题

前言 人生总是在意外之中. 情况大概是这样的. 前两天版本上线以后, 无意中发现了一个bug, 虽然不是很大, 为了不让用户使用时感觉到问题. 还是对着一个小小的bug进行了修复, 并重新在上线一次, 虽然问题不大, 但带来的时间成本还是存在的. 以及上线后用户体验并不是很好. 问题…

OpenFeign微服务调用组件使用

前言&#xff1a;OpenFeign是可以跨服务、跨进程的调用方式。 什么是Feign Feign是Netflix开发的声明式、模版化的HTTP客户端。 优势: Feign可以做到使用 HTTP 请求远程服务时就像调用本地方法一样的体验&#xff0c;开发者完全感知不到这是远程方法&#xff0c;更感知不到这…

一个典型的分布式缓存系统是什么样的?no.32

分布式 Redis 服务 由于本课程聚焦于缓存&#xff0c;接下来&#xff0c;我将以微博内的 分布式 Redis 服务系统为例&#xff0c;介绍一个典型的分布式缓存系统的组成。 微博的 Redis 服务内部也称为 RedisService。RedisService 的整体架构如图所示。主要分为Proxy、存储、集…