The Role of Subgroup Separability in Group-Fair Medical Image Classification

文章目录

  • The Role of Subgroup Separability in Group-Fair Medical Image Classification
    • 摘要
    • 方法
    • 实验结果

The Role of Subgroup Separability in Group-Fair Medical Image Classification

摘要

研究人员调查了深度分类器在性能上的差异。他们发现,分类器将个体分成子群的能力在医学影像模态和受保护特征之间存在显著差异;关键的是,他们表明这一特性能够预测算法偏差。通过理论分析和广泛的实证评估(代码可在 https://github.com/biomedia-mira/subgroup-separability 获取),他们发现子群可分性、子群差异和性能降级之间存在关系,尤其是在模型训练数据具有系统偏差(如欠诊断)的情况下。这些发现为模型如何产生偏见提供了新的视角,为公平医学影像人工智能的发展提供了重要见解。

方法

考虑一个二元疾病分类问题,对于每个图像 x ∈ X x \in X xX,我们希望预测一个类别标签 y ∈ Y : { y + , y − } y \in Y : \{y^+, y^-\} yY:{y+,y}。我们将 P : [ Y ∣ X ] → [ 0 , 1 ] P : [Y|X] \rightarrow [0, 1] P:[YX][0,1] 表示图像和类别标签之间的基础映射。假设我们可以访问一个(有偏差的)训练数据集,其中 ( P_{\text{tr}} ) 是训练图像和训练标签之间的条件分布;如果 P tr ! = P P_{\text{tr}} != P Ptr!=P,我们称这样的数据集是有偏的。我们关注群体公平性,其中每个个体属于一个子群 a ∈ A a \in A aA,并且旨在学习一个公平模型,当部署在从 P P P 绘制的无偏测试数据集上时,该模型可以在所有群体上实现最佳性能。我们假设群体在两个数据集中保持一致。在这项工作中,我们考虑的偏差是欠诊断,这是一种标签噪音,其中一些真正的阳性个体 x + x^+ x+ 被误标为阴性。我们特别关注由于历史上医疗保健供给不平等或歧视性诊断政策而导致的欠诊断在特定子群中表现出来的情况。形式上,如果群体 A = a ∗ A = a^* A=a 满足式 (1),则称该群体为欠诊断:
在这里插入图片描述
现在可以使用总概率法则,根据方程(2)中的子群映射来表达从图像到标签的整体映射。结合方程(1),这意味着方程(3)——在有偏训练数据集中,将真正的阳性个体分配为阳性标签的概率低于无偏测试集。
在这里插入图片描述
在训练过程中,使用经验风险最小化的监督学习旨在获得一个模型 (\hat{p}),将图像映射到预测的标签 y ^ = argmax y ∈ Y p ^ ( y ∣ x ) \hat{y} = \text{argmax}_{y \in Y} \hat{p}(y|x) y^=argmaxyYp^(yx),使得对所有 ( x , y ) (x, y) (x,y) ,近似于 P tr ( y ∣ x ) P_{\text{tr}}(y|x) Ptr(yx)。由于该模型反映了有偏的训练分布,我们预期在无偏测试集上评估时,来自训练数据的欠诊断将在学习到的模型中体现出来。然而,学得模型的错误分布取决于子群可分性。根据方程(2),个体预测是每个子群映射的线性组合,权重是每个个体属于每个群体的概率。当子群可分性较高时,由于敏感信息的存在,模型会学习到每个子群的不同映射,如方程(4)和(5)所示。因此,该模型在保留其他群体的无偏映射的同时,会对群体 A = a ∗ A = a^* A=a 进行欠诊断。
在这里插入图片描述
Equation (4) 和 (5) 显示,在测试时,我们的模型在欠诊断的子群中将表现出比其他子群更差的性能。实际上,考虑真正率(True Positive Rate,TPR)作为性能指标。无偏模型的群体真正率 TPR ( a u ) \text{TPR}(a_u) TPR(au) 在方程 (6) 中表示。
在这里插入图片描述
这里, N + , a N_{+,a} N+,a 表示测试集中属于群体 ( a ) 的阳性样本数。请记住,在实践中,我们必须在有偏的训练分布 P tr P_{\text{tr}} Ptr上训练我们的模型。因此,我们从方程 (4) 和 (5) 推导出这样一个模型的测试时真正率 TPR b a \text{TPR}_b^a TPRba,得到方程 (7) 和 (8)。
在这里插入图片描述
在高子群可分性的情况下,方程 (7) 和 (8) 表明欠诊断群的真正率直接受到训练集中的偏差影响,而其他群体主要不受影响。鉴于各群体之间的差异,一个合适选择的群体公平度量可能能够识别出偏差,有时甚至不需要访问无偏测试集。另一方面,当子群可分性较低时,这个性质并不成立。对于不可分离的群体(即 P ( a ∣ x ) ≈ 1 ∣ A ∣ P(a|x) \approx \frac{1}{|A|} P(ax)A1 ,对于所有 a ∈ A a \in A aA),训练模型将无法学习到不同的子群映射,如方程 (9) 所示。
在这里插入图片描述
方程 (3) 和 (9) 暗示训练模型的性能对所有群体都会下降。回到真正率 (TPR) 的例子,当可分性较差时,方程 (10) 表示所有群体的性能下降。在这种情况下,我们期望性能下降在各个群体之间是均匀的,因此不会被群体公平性指标检测到。性能下降的严重程度取决于欠诊断子群中受损标签的比例以及数据集中欠诊断子群的大小。
在这里插入图片描述
我们已经推导出了欠诊断偏差对分类器性能的影响,针对高和低子群可分性这两种极端情况。在实践中,真实数据集的子群可分性可能在这些极端之间连续变化。在第 4 节中,我们通过实证研究探讨了以下几个方面:(i) 在真实环境中子群可分性如何变化,(ii) 当向数据集中添加欠诊断偏差时,可分性如何影响每个群体的性能,(iii) 模型如何在其表示中编码敏感信息。

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/589185.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PHP源码_最新在线工具箱网站系统源码

项目运行截图 源码贡献 https://githubs.xyz/boot?app41 部分数据库表 SET NAMES utf8mb4; SET FOREIGN_KEY_CHECKS 0;-- ---------------------------- -- Table structure for toolbox_category -- ---------------------------- DROP TABLE IF EXISTS toolbox_category…

【网络原理】HTTP 协议的基本格式和 fiddler 抓包工具的用法

系列文章目录 【网络通信基础】网络中的常见基本概念 【网络编程】网络编程中的基本概念及Java实现UDP、TCP客户端服务器程序(万字博文) 【网络原理】UDP协议的报文结构 及 校验和字段的错误检测机制(CRC算法、MD5算法) 【网络…

下载安装 VisualVM

1、下载安装 VisualVM 第1步:下载地址:https://visualvm.github.io/ 第2步:解压到制定位置 第3步:指定jdk路径 下载完成后,在etc文件夹下找到visualvm.conf文件,设置jdk路径visualvm_jdkhome"D:\ITS…

ICode国际青少年编程竞赛- Python-1级训练场-路线规划

ICode国际青少年编程竞赛- Python-1级训练场-路线规划 1、 Dev.step(3) Dev.turnLeft() Dev.step(4)2、 Dev.step(3) Dev.turnLeft() Dev.step(3) Dev.step(-6)3、 Dev.step(-2) Dev.step(4) Dev.turnLeft() Dev.step(3)4、 Dev.step(2) Spaceship.step(2) Dev.step(3)5、…

ElasticSearch教程入门到精通——第一部分(基于ELK技术栈elasticsearch 8.x新特性)

ElasticSearch教程入门到精通——第一部分(基于ELK技术栈elasticsearch 8.x新特性) 1. ElasticSearch安装(略)2. ElasticSearch基础功能2.1 索引操作2.1.1 创建索引2.1.2 Head 索引2.1.3 查询索引2.1.3.1 查询单独索引2.1.3.2 查询…

【MATLAB】GUI初步设计

MATLAB界面设计 前言一、基本步骤1.1 创建GUI文件1.2 界面设计 总结 前言 为了完成图像处理的作业,简直就是生活不易啊 找到一个很棒的教学视频 基于MATLAB的GUI界面设计流程讲解 一、基本步骤 1.1 创建GUI文件 由于在写博文之前我已经创建好文件了,…

邊緣智能2024—AI開發者峰會(5月9日)數碼港即將啟幕

隨著 AI (人工智能)技術的飛速發展,我們正迎來邊緣計算智能化與分布式AI深度融合的新時代,共同演繹分布式智能創新應用的壯麗篇章。"邊緣智能2024 - AI開發者峰會"將聚焦於這一前沿領域,探討如何通過邊緣計算…

中国发布首个汽车大模型标准

🦉 AI新闻 🚀 中国发布首个汽车大模型标准 摘要:中国信息通信研究院于4月28日发布了国内首个汽车大模型标准,标志着汽车行业正式迈向“人工智能+”时代。该标准包含三个核心能力域:场景丰富度、能力支持度…

Pytorch学习笔记——环境配置安装

1、下载和配置环境 Anacodna必备(工具包里面都包含的有,集成与运用科学分析的软件,比较方便) 点击这个网页:Download Now | Anacondahttps://www.anaconda.com/download/success 按照教程安装(教程可以自己在网上搜…

XY_RE复现(五)

一&#xff0c;给阿姨倒一杯卡布奇诺 是一道魔改TEA加密 给出了一些初始化&#xff0c;然后输入的flag拆分&#xff0c;两两一组&#xff0c;通过for循环放入encrypt加密函数 #include <stdio.h> #define uint32_t unsigned intvoid decrypt(uint32_t *v, uint32_t *ke…

拆单算法交易(Algorithmic Trading)

TWAP TWAP交易时间加权平均价格Time Weighted Average Price 模型&#xff0c;是把一个母单的数量平均地分配到一个交易时段上。该模型将交易时间进行均匀分割&#xff0c;并在每个分割节点上将拆分的订单进行提交。例如&#xff0c;可以将某个交易日的交易时间平均分为N 段&am…

守护数据安全: 零信任视角下的勒索病毒防范之道

前言 就在近日&#xff0c;鸿海集团旗下半导体设备大厂——京鼎精密科技股份有限公司&#xff08;以下简称“京鼎”&#xff09;遭到了黑客的入侵。黑客在京鼎官网公布信息直接威胁京鼎客户与员工&#xff0c;如果京鼎不支付赎金&#xff0c;客户资料将会被公开&#xff0c;员…

pyqt 滑动条控件QSlider

pyqt 滑动条控件QSlider 滑动条控件QSlider效果代码 滑动条控件QSlider QSlider 是 PyQt中的一个控件&#xff0c;它允许用户通过拖动滑块或点击滑块轨道上的任意位置来选择一系列值。 QSlider 有两种主要的类型&#xff1a;Qt.Horizontal&#xff08;水平滑块&#xff09;和 …

java版数据结构:深入理解栈和队列:数据结构与应用(vector,stack,queue)

目录 前言 动态数组类&#xff08;vector&#xff09; 特点&#xff1a; 应用&#xff1a; 栈&#xff08;Stack&#xff09; 栈的基础概念&#xff1a; 栈的常用方法&#xff1a; 模拟栈操作&#xff1a; 队列&#xff08;Queue&#xff09; 队列的基础概念 队列的常…

VS Code工具将json数据格式化

诉求&#xff1a;json数据格式化应该在工作中用到的地方特别多&#xff0c;为了更方便、更仔细的对json数据查看&#xff0c;将json数据格式化是非常有必要的。 VS Code中如何将json数据快速格式化 1、在VS Code中安装Beautify JSON插件 2、安装完后在需要格式化的文件中按住…

Easy TCP Analysis上线案例库功能,为用户提供一个TCP抓包分析案例分享学习的平台

​案例库&#xff0c;提供给用户相互分享TCP抓包故障排查案例或是经典学习案例的功能&#xff0c;任何用户都可从案例库查看其它用户分享的案例&#xff0c;每个用户也都可以上传自己的案例&#xff0c;经过平台审核去重即可展示在案例库。 对于学习&#xff0c;最典型的三次握…

Linux进程概念(下)

Linux进程概念 1. 命令行参数2. 环境变量2.1 环境变量的概念2.2 环境变量的使用和一些问题2.3 获取环境变量2.4 深入理解环境变量2.5 环境变量相关的命令 3. 进程地址空间3.1 基本概念3.2 为什么要有地址空间 1. 命令行参数 main函数也可以带参数的&#xff0c;如下 #include…

Linux内核之原子操作:atomic_long_dec用法实例(六十七)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

2023-2024年汽车行业报告/方案合集(精选345份)

汽车行业报告/方案&#xff08;精选345份&#xff09; 2023-2024年 来源&#xff1a;2023-2024年汽车行业报告/方案合集&#xff08;精选345份&#xff09; 【以下是资料目录】 2023中国汽车科技50强 2023中国智能汽车产业发展与展望 2023比亚迪海豹汽车拆解报告 2023新能…

PotatoPie 4.0 实验教程(31) —— FPGA实现摄像头图像高斯滤波

什么是高斯滤波 高斯滤波是一种常见的图像处理技术&#xff0c;用于去除图像中的噪声和平滑图像。它的原理基于统计学中的高斯分布&#xff08;也称为正态分布&#xff09;。 在高斯滤波中&#xff0c;一个二维的高斯核函数被用来对图像中的每个像素进行加权平均。这个高斯核…