【论文阅读 Validation Free and Replication Robust Volume-based Data Valuation】

论文题目

免验证的对于复制鲁棒性的基于量的数据估值

1. 本文具体贡献

  • 通过数据的体积形式化了数据多样性的度量,并在理论上和实证上证明了体积对数据估值的适用性;
  • 形式化了复制鲁棒性的概念,并设计了一种基于稳健体积(RV)度量的数据估值方法,并在理论上保证了复制鲁棒性
  • 与基线方法进行了广泛的实证比较,以证明我们的方法在无需验证的情况下具有一致的估值结果,具有复制鲁棒性,并且可以灵活地适应处理诸如各种神经网络等复杂的机器学习模型

2. 问题设置和符号(想要看懂的话认真看)

考虑两个带估值的数据子矩阵 X S X_S XS X S ′ X_{S'} XS,分别包含了 s s s s ′ s' s行的d维输入特征向量。
P S : = [ X S T 0 ] T ∈ R n × d P_S :=[X^T_S 0]^T \in \mathbb R^{n \times d} PS:=[XST0]TRn×d X S ∈ R n × d X_S \in \mathbb R^{n \times d} XSRn×d的零填充版本。
我们沿着行将数据子矩阵连接起来形成完整的数据矩阵 X S ∈ R n × d , i . e . , X : = [ X S T X S ′ T ] T X_S \in \mathbb R^{n \times d},i.e.,X := [X^T_S X^T_{S'}]^T XSRn×d,i.e.,X:=[XSTXST]T并且 n = s + s ′ n=s+s' n=s+s(别担心,这里的T是转置矩阵,用两个T是为了验证行进行拼接)
我们将对应的标签表示为: y : = [ y S T y S ′ T ] ∈ R n × 1 y:=[y^T_Sy^T_{S'}]\in \mathbb R^{n\times 1} y:=[ySTyST]Rn×1
OLS的最小二乘解为:
w : = X + y = a r g m i n β ∣ ∣ y − X β ∣ ∣ 2 w:=X^{+}y=argmin_\beta||y-X\beta||^2 w:=X+y=argminβ∣∣y2
X + : = ( X T X ) − 1 X T X^{+}:=(X^TX)^{-1}X^T X+:=(XTX)1XT X X X的伪逆
相似的,我们用 X S + X^+_S XS+作为 X S X_S XS的伪逆, w S : = X S + y S w_S:=X^{+}_Sy_S wS:=XS+yS
同时为了简化公式:令 V : = V o l ( X ) V := Vol(X) V:=Vol(X) V S : = V o l ( X S ) V_S := Vol(X_S) VS:=Vol(XS)
Vol()的定义如下, ∣ A ∣ 代表 A 的行列式 |A|代表A的行列式 A代表A的行列式,X的左Gram矩阵为 G : = X T X ∈ R d × d G:=X^TX\in \mathbb R^{d\times d} G:=XTXRd×d,所以对于数据子矩阵 X S X_S XS G S : = X S T X S ∈ R d × d G_S:=X^T_SX_S\in \mathbb R^{d\times d} GS:=XSTXSRd×d

Definition 1 (Volume). 对于一个满秩的矩阵 X ∈ R n × d X \in \mathbb{R}^{n \times d} XRn×d,其中 n ≥ d n \geq d nd,定义其体积为 V o l ( X ) : = ∣ ( X > X ) ∣ = ∣ G ∣ Vol(X) := \sqrt{|(X>X)|} = \sqrt{|G|} Vol(X):=(X>X) =G 。我们采用上述对体积的定义有以下几个原因:
(a) 通常,数据的输入特征空间是由数据收集过程中预先确定和固定的。但是,新的数据可以不断涌入,因此 n n n 可以无限增长,而 d d d 保持不变。
(b) 通过利用体积与学习性能之间的形式联系(第3节),我们可以设计一个无需验证的基于体积的数据估值方法,将更大的价值分配给导致更好学习性能的数据。
© 这为体积和多样性之间提供了直观的解释:向数据集添加一个数据点可以增加多样性/体积,具体取决于数据集中已有的数据点(引理1)。

在实践中,我们进行预处理,比如主成分分析,以减少输入特征空间的维度,以确保这一假设得到满足。这一假设是为了确保没有冗余特征,即可以使用其他特征进行精确重构的特征。例如,如果数据集已经包含了月薪,那么年薪将是冗余的。

概念性讲解

OLS(Ordinary Least Squares,普通最小二乘)

OLS是一种常用的线性回归方法,用于拟合线性模型到数据中。在OLS中,我们试图找到一组系数,使得模型的预测值与实际观测值之间的残差平方和最小化。
对于给定的数据集,假设有一个包含n个样本的数据矩阵X,其中每行表示一个样本,每列表示一个特征。同时,有一个长度为n的目标向量y,表示每个样本的观测值。
OLS的目标是找到一个系数向量w,使得模型的预测值 X w X_w Xw与观测值y之间的残差的平方和最小化。数学上,这可以表示为以下最小化问题:
w O L S = a r g w m i n ∣ ∣ y − X w ∣ ∣ 2 2 w_{OLS}=arg_wmin||y-Xw||^2_2 wOLS=argwmin∣∣yXw22

向量的二范数

向量的二范数,也称为欧几里得范数(Euclidean Norm),是指向量中各个元素的平方和再开方得到的结果。对于一个n维向量v,其二范数表示为:
∣ ∣ v ∣ ∣ 2 = v 1 2 + v 2 2 + . . . + v n 2 ||v||_2=\sqrt{v^2_1+v^2_2+...+v^2_n} ∣∣v2=v12+v22+...+vn2

伪逆

伪逆(Pseudoinverse)是一种广义逆的概念,在线性代数和矩阵计算中经常用到。伪逆是针对非方阵或奇异矩阵的情况而提出的,因为对于这些矩阵来说,它们没有逆矩阵。
广义逆有几种不同的定义,其中最常见的是 Moore-Penrose 广义逆。给定一个矩阵 A A A,它的 Moore-Penrose 广义逆通常表示为 A + A^+ A+。广义逆满足以下四个性质:
[ A A + A = A A + A A + = A + ( A A + ) T = A A + ( A + A ) T = A + A ] [ \begin{align*} AA^+A &= A \\ A^+AA^+ &= A^+ \\ (AA^+)^T &= AA^+ \\ (A^+A)^T &= A^+A \end{align*} ] [AA+AA+AA+(AA+)T(A+A)T=A=A+=AA+=A+A]

3 更大的数据量意味着更好的学习性能

通过普通最小二乘(OLS)框架来正式化这一说法。具体来说,我们将研究两个学习性能的度量指标
(a)由偏差表示的伪逆质量 b i a s S : = ∣ ∣ P S + − X + ∣ ∣ bias_S:=||P^+_S-X^+|| biasS:=∣∣PS+X+∣∣,因为准确估计 X + X^+ X+ 对于达到较小的均方误差(MSE)是重要的,其中 P S + : = ( X S T X S ) − 1 P S T P^+_S:=(X^T_SX_S)^{-1}P^T_S PS+:=(XSTXS)1PST
(b)作为MSE表示的均方误差: L ( w S ) : = ∣ ∣ y − X w S ∣ ∣ 2 L(w_S):=||y-Xw_S||^2 L(wS):=∣∣yXwS2

3.1 更大量的数据意味着更小的偏差

命题1(数据量VS偏差对于d=1)。对于 x ∈ R n × 1 x \in \mathbb R^{n\times 1} xRn×1的非零 X S , X S ′ X_S,X_{S'} XS,XS,有 V S ≥ V S ′ ⟺ b i a s S − b i a s S ′ ≤ 0 V_S\ge V_{S'} \Longleftrightarrow bias_S-bias_{S'} \le 0 VSVSbiasSbiasS0

命题2(一般情况下的体积 vs. 偏差)。对于 X ∈ R n × d X \in \mathbb{R}^{n \times d} XRn×d 的满秩的 X S X_S XS X S ′ X_{S'} XS,有
b i a s S 2 − b i a s S ′ 2 = 1 V S 4 ∥ Q S X S T ∥ 2 − 1 V S ′ 4 ∥ Q S ′ X S ′ T ∥ 2 + 2 ⟨ 1 V 2 Q X T , 1 V S ′ 2 Q S ′ P S ′ T − 1 V S 2 Q S P S T ⟩ \begin{align*} &bias^2_S - bias^2_{S'} \\ &= \frac{1}{V^4_S} \left\| Q_S X^T_S \right\|^2 - \frac{1}{V^4_{S'}} \left\| Q_S' X^T_{S'} \right\|^2 \\ &\quad + 2 \left\langle \frac{1}{V^2} QX^T, \frac{1}{V^2_{S'}} Q_{S'} P^T_{S'} - \frac{1}{V^2_S} Q_S P^T_S \right\rangle \end{align*} biasS2biasS2=VS41 QSXST 2VS41 QSXST 2+2V21QXT,VS21QSPSTVS21QSPST
其中
Q : = ∑ l = 1 k ( λ l σ l ) − 1 ∏ j = 1 , j ≠ l k ( G − λ j I ) , { λ l } l = 1 k  表示矩阵  X  的左 Gram 矩阵  G  的  k  个唯一特征值 , Q S , Q S ′  相应地定义于  G S , G S ′ , P S  和  P S ′  分别是  X S  和  X S ′  的零填充版本 , σ l : = ∑ g = 1 k ( − 1 ) g + 1 λ k − g l [ ∑ H ⊂ { 1 , . . . , k } ∖ { l } , ∣ H ∣ = g − 1 ( ∏ h ∈ { 1 , . . . , k } ∖ H λ h − 1 ) ] . \begin{align*} Q &:= \sum_{l=1}^{k}(\lambda_l\sigma_l)^{-1} \prod_{j=1,j \neq l}^{k}(G - \lambda_j I), \\ \{\lambda_l\}_{l=1}^{k} &\text{ 表示矩阵 } X \text{ 的左 Gram 矩阵 } G \text{ 的 } k \text{ 个唯一特征值}, \\ Q_S, Q_S' &\text{ 相应地定义于 } G_S, G_S', \\ P_S \text{ 和 } P_S' &\text{ 分别是 } X_S \text{ 和 } X_S' \text{ 的零填充版本}, \\ \sigma_l &:= \sum_{g=1}^{k}(-1)^{g+1}\lambda_{k-g}^{l} \left[ \sum_{H \subset \{1,...,k\}\setminus \{l\},|H|=g-1} \left( \prod_{h \in \{1,...,k\}\setminus H} \lambda_h^{-1} \right) \right]. \end{align*} Q{λl}l=1kQS,QSPS  PSσl:=l=1k(λlσl)1j=1,j=lk(GλjI), 表示矩阵 X 的左 Gram 矩阵 G  k 个唯一特征值, 相应地定义于 GS,GS, 分别是 XS  XS 的零填充版本,:=g=1k(1)g+1λkgl H{1,...,k}{l},H=g1 h{1,...,k}Hλh1 .

本文通过经验验证结论第3节的方法,检验第3.1节最后一段描述的附加假设是否成立,即通过检查 V S ≥ V S ′ ⟺ b i a s S − b i a s S ′ ≤ 0 V_S\ge V_{S'} \Longleftrightarrow bias_S-bias_{S'} \le 0 VSVSbiasSbiasS0成立的百分比次数。
实验设置如下:
在500次独立试验中随机且相同地抽样相同大小的XS、XS’,并计算更大的体积导致更好的学习性能的百分比(纵轴)与XS、XS’大小(横轴)的关系。
在这里插入图片描述

3.2 更大量的数据意味着均方误差越小

命题3(d = 1 时的体积 vs. 均方误差)。对于 X ∈ R n × 1 X \in \mathbb{R}^{n \times 1} XRn×1 的非零 X S X_S XS X S ′ X_{S'} XS,有 V S ≥ V S ′ ⇔ L ( w S ) − L ( w S ′ ) ≤ 0 V_S \geq V_{S'} \Leftrightarrow L(w_S) - L(w_{S'}) \leq 0 VSVSL(wS)L(wS)0
不幸的是,以上结果不适用于d > 1的情况。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/753002.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【网络安全的神秘世界】解决dvwa靶场报错:Illegal mix of collations for operation ‘UNION‘

🌝博客主页:泥菩萨 💖专栏:Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具 🚩问题描述 当尝试执行如下 SQL 语句时: 1 union select schema_name,1 from information_schema.s…

不能创建第三个变量,实现两个数的交换

目录 常规实现两个数的交换(如:交换变量a和变量b) 方法一:加减法 方法二:异或操作符 常规实现两个数的交换(如:交换变量a和变量b) 创建一个临时变量tmp,先将其中一个…

SpringBoot 3.3.1 + Minio 实现极速上传和预览模式

统一版本管理 <properties><minio.version>8.5.10</minio.version><aws.version>1.12.737</aws.version><hutool.version>5.8.28</hutool.version> </properties><!--minio --> <dependency><groupId>io.m…

慢动作视频怎么制作?5种方法,轻松制作慢动作视频

在短视频风靡的当下&#xff0c;慢动作视频凭借其独特的视觉效果和引人入胜的节奏感&#xff0c;成为了吸引观众眼球的利器。你是否也想知道如何制作这种令人心动的慢动作视频呢&#xff1f;下面教大家5种能够制作出慢动作视频的方法&#xff0c;一起来学习下吧。 方法一&#…

python(二)手把手导入导出工程

目录 一、导入工程 二、安装相关库 1、打开requirements.txt 文件所在目录 2、ctrlshift鼠标右键&#xff0c;点击&#xff1a; 在此处打开PowerShell窗口 3、pip install -r requirements.txt &#xff0c;回车 三、导出环境 1、使用 requirements.txt导出环境中所有使用…

Spring AI之后,阿里推出Spring Cloud Alibaba AI,接入体验篇——Java也能方便用 AI

阿里推出Spring Cloud Alibaba AI&#xff0c;接入体验篇——Java也能方便用 AI 1.Spring AI2.Spring Cloud Alibaba AI3. 接入体验 1.Spring AI Spring AI 是 Spring 官方社区项目&#xff0c;旨在简化 Java AI 应用程序开发&#xff0c;让 Java 开发者像使用 Spring 开发普通…

【从零开始实现联邦学习】

1. 环境配置如下 python3.7pip install torchpip install torchvision 2. 代码如下 原书的代码存在一点bug&#xff0c;现已被作者修复 Client端代码如下 import torch.utils.dataclass Client(object):def __init__(self,conf,model,train_dataset,id1):self.conf conf …

【系统架构设计师】七、信息安全技术基础知识(网络安全技术|网络与信息安全风险|网络安全协议)

目录 一、网络安全技术 1.1 防火墙 1.2 入侵检测系统IDS 1.3 入侵防御系统IPS 1.4 杀毒软件 1.5 蜜罐系统 二、网络与信息安全风险 三、网络安全协议 四、相关推荐 五、历年真题练习 一、网络安全技术 1.1 防火墙 防火墙是在内部网络和外部因特网之间增加的一道安全…

使用自定义的shiro密码匹配器CredentialsMatcher完成密码验证

今天突然想研究一下shiro怎么匹配用户的密码。 我们使用shiro的API登录时&#xff0c;会先创建一个令牌对象&#xff0c;而经常用的令牌对象是UsernamePasswordToken&#xff0c;把用户输入的用户名和密码作为参数构建一个UsernamePasswordToken&#xff0c;然后通过Subject.l…

宏集物联网工控屏通过 S7 ETH 协议采集西门子 1200 PLC 数据

前言 为了实现和西门子PLC的数据交互&#xff0c;宏集物联网HMI集成了S7 PPI、S7 MPI、S7 Optimized、S7 ETH等多个驱动来适配西门子200、300、400、1200、1500、LOGO等系列PLC。 本文主要介绍宏集物联网HMI如何通过S7 ETH协议采集西门子1200 PLC的数据&#xff0c;文中详细介…

办公软件WPS与Office的区别

临近计算机考试很多同学在纠结我是报wps好&#xff1f;还是ms office好&#xff1f;下面就来详细说说。 1、wps属于国内金山公司的办公软件&#xff0c;里面包含word、Excel和PPT。考试是2021年开始的&#xff01; 2、MS&#xff08;Microsoft 微软&#xff09; office属于美…

网易游戏如何基于 Apache Doris 构建全新湖仓一体架构

导读&#xff1a;随着网易游戏品类及产品的快速发展&#xff0c;游戏数据分析场景面临着越来越多的挑战&#xff0c;为了保证系统性能和 SLA&#xff0c;要求引入新的组件来解决特定业务场景问题。为此&#xff0c;网易游戏引入 Apache Doris 构建了全新的湖仓一体架构。经过不…

精益生产转型攻略:如何平稳过渡,避免业务震荡?

在当今快速变化的市场环境中&#xff0c;越来越多的企业开始关注并尝试实施精益生产&#xff0c;以提升生产效率、降低成本并增强竞争力。然而&#xff0c;转型并非一蹴而就&#xff0c;如何在确保精益生产实施效果的同时&#xff0c;又避免对企业的现有业务流程和组织结构产生…

【C++进阶9】异常

一、C语言传统的处理错误的方式 终止程序&#xff0c;如assert 如发生内存错误&#xff0c;除0错误时就会终止程序返回错误码 需要程序员自己去查找对应的错误 z如系统的很多库的接口函数都是通 过把错误码放到errno中&#xff0c;表示错误 二、C异常概念 异常&#xff1a;函…

anaconda卸载过程中出现fail to run pre-unistall报错

问题&#xff1a; 在使用Uninstall-Anaconda3.exe卸载程序时&#xff0c;出现报错&#xff1a; 解决方案&#xff1a; 把文件夹移动到C盘用户文件夹后再运行卸载程序。即可正常运行程序。

ping 出现的结果判断

ICMP协议发送包的时候 常见的ping反馈结果&#xff1a; 连接建立成功&#xff0c;Reply from 目标地址 目标主机不可达&#xff0c;Destination host unreachable 直接不能出交换机&#xff0c;到达不了交换机 请求时间超时&#xff0c;Request timed out 服务器到交换机…

一名HR,在招聘嵌入式开发岗位,为什么感觉一年比一年难?

在开始前刚好我有一些资料&#xff0c;是我根据网友给的问题精心整理了一份「嵌入式的资料从专业入门到高级教程」&#xff0c; 点个关注在评论区回复“888”之后私信回复“888”&#xff0c;全部无偿共享给大家&#xff01;&#xff01;&#xff01; 1.嵌入式学用不一致, 高…

MySQL基础查询与复杂查询

基础查询 1、查询用户信息&#xff0c;仅显示用户的姓名与手机号&#xff0c;用中文显示列名。中文显示姓名列与手机号列。 2、根据商品名称进行模糊查询&#xff0c;模糊查询需要可以走索引&#xff0c;需要给出explain语句。使用explain测试给出的查询语句&#xff0c;需要显…

如何把mkv转成mp4?介绍一下将mkv转成MP4的几种方法

如何把mkv转成mp4&#xff1f;如果你有一个MKV格式的视频文件&#xff0c;但是需要将其转换为MP4格式以便更广泛地在各种设备和平台上播放和共享&#xff0c;你可以通过进行简单的文件格式转换来实现。转换MKV到MP4格式可以提供更好的兼容性&#xff0c;并确保你的视频文件能够…

vue2(vue-cli3x[vue.config.js])使用cesium新版(1.117.0)配置过程

看来很多解决方法都没有办法&#xff0c;最后终于。呜呜呜呜 这里我用的是vue-cli去搭建的项目的vue2 项目&#xff0c;其实不建议用vue2搭配cesium。因为目前cesium停止了对vue2的版本更新&#xff0c;现在默认安装都是vue3版本&#xff0c;因此需要控制版本&#xff0c;否则…