前段时间看Sch¨olkopf教授的《Towards Causal Representation Learning》,看到这篇挺有意思来读读。
这一篇只在Arxiv上挂着,重点主要是研究发掘两变量之间的因果关系(无法应用独立性检验等方法),引入了信息论中的正则性和irregularity的概念,比较信息论,实验较少。
目前ANM以及其升级版需要考虑noise对发现因果方向的影响,因此没法应用在判别模型。
我们考虑两个变量,它们通过一个可逆函数相互关联。虽然之前已经表明,噪声的依赖性结构可以为确定两个变量中的哪一个是原因提供提示,但我们现在表明,即使是在无终结性(无噪声)的情况下,也存在着可用于因果关系的非对称性。我们的方法是基于这样的想法:如果函数和原因的概率值是独立选择的,那么在某种意义上,结果的分布将取决于函数。我们对这一方法进行了理论分析,表明它在低噪声系统中也能发挥作用,并将其与信息几何学联系起来。我们在不同领域的各种真实世界的数据集上报告了强有力的实证结果。
对象:两个通过一个可逆函数相互关联的变量
现有方法:噪声的依赖性结构可以为确定两个变量中的哪一个是原因提供提示
假设:即使是在无终结性(无噪声)的情况下,也存在着可用于因果关系的非对称性。
内容:如果函数和原因的概率值是独立选择的,那么在某种意义上,结果的分布将取决于函数。贡献:对这一方法进行了理论分析,表明它在低噪声系统中也能发挥作用,并将其与信息几何学联系起来。我们在不同领域的各种真实世界的数据集上报告了强有力的实证结果。
给定了一个假设:
(以下说明了假设的意义——f'和x是独立的,这也是全文的最高设定——f: X→Y的因果关系中,f和X是独立的)
在这个假设下,又证明了如下引理:
导到manifold里
由(6)我们一般化到非均匀分布的manifold里假设这个关系还成立,也就是输出的熵是输入和关系的熵的和,
在这样就有了一种非对称性、也就是可以实现由对称的相关性到非对称的因果性的转换
那么这个IGCI怎么计算呢?需要进一步转换,首先表示出来熵的含义:
进一步表示出ICGI需要的这个指数,我们实际应用就是(8)或者(9)这样的式子。
接下来以均匀分布和高斯分布作为例子具体刻画一下指数
之后的计算都基于这两个分布的index了,无论是利用(12)近似(8)还是利用(13)近似(9),说白了都用的是有限差分(作者也提及,实际上13表现不好,猜测是与无穷处发散有关,不过本身上面标绿的式子准确性我也存疑)
虽然说的是判别模型,但是作者基于加入noise的证明了方法的鲁棒性
实验很简单,一个合成数据集(没有对比),一个causeffect对(也是Sch¨olkopf团队提出的)、一个没有公开的莱茵河水量数据集(22个点两两成对,利用地点和水量,获得上游影响下游的因果关系)
附:(《Towards Causal Representation Learning》综述的一点信息:)
这个分的很符合我的认知(虽然是前几年的论文),首先列了一下因果的概念,ICM、SMS等principle说的很清晰。把因果和ML的结合分为半监督学习,对抗性攻击,鲁棒性和强泛化性,预训练、数据增强和自监督、强化学习、科学性应用、多任务学习等,很全很不错。
摘要--机器学习和图形因果关系这两个领域是分别产生和发展的。然而,现在这两个领域有了交叉渗透,并且越来越多的人希望从对方的进步中获益。在本文中,我们回顾了因果推理的基本概念,并将其与机器学习的关键性开放问题(包括转移和泛化)联系起来,从而评估因果关系如何有助于现代机器学习研究。这也适用于相反的方向:我们注意到,大多数因果关系的工作都是从因果变量给定的前提下开始的。因此,人工智能和因果关系的一个核心问题是因果表征学习,即从低级别的观察中发现高级别的因果变量。最后,我们描述了因果关系对机器学习的一些影响,并提出了这两个社区交叉的关键研究领域。
结论--在这项工作中,我们讨论了不同层次的模型,包括因果和统计模型。我们认为,这一范围是建立在建模和数据收集方面的一系列假设之上的。为了将因果关系和机器学习研究项目结合起来,我们首先讨论了因果推断的基本原理。第二,我们讨论了独立机制假设和相关概念,如不变性,如何为因果学习提供强大的偏向。第三,我们讨论了当因果变量被观察到时,如何从观察性和干预性数据中学习因果关系。第四,我们讨论了因果表征学习的开放性问题,包括它与最近对深度学习中分解表征概念的兴趣的关系。最后,我们讨论了如何在因果框架内更好地理解和解决机器学习界的一些开放性研究问题,包括半监督学习、领域泛化和对抗性稳健性。
基于这一讨论,我们列出了一些未来研究的关键领域:
a) 学习大规模的非线性因果关系: 并非所有现实世界的数据都是非结构化的,干预的效果往往可以被观察到,例如,通过分层收集多个环境中的数据。现代机器学习方法的近似能力可能被证明对大量变量之间的非线性因果关系建模很有用。在实际应用中,经典的工具不仅受限于通常的线性假设,也受限于它们的可扩展性。元学习和多任务学习的范式接近于因果建模的假设和要求,未来的工作应该考虑(1)了解在哪些条件下可以学习非线性因果关系,(2)哪些训练框架可以最好地利用机器学习方法的可扩展性,以及(3)提供令人信服的证据,证明与(非因果)统计表示法相比,在现实世界任务的概括、重新定位和因果模块的转移方面具有优势。
b) 学习因果变量: 通过最先进的神经网络方法学习的 "分解 "表征仍然是分布式的,即它们以矢量格式表示,在维度上有一个任意的排序。这种固定的格式意味着表征的大小不能动态地改变;例如,我们不能改变场景中物体的数量。此外,结构化和模块化的表征也应该在网络为特定任务(集)训练时出现,而不仅仅是自主编码。不同的高层变量可能会被提取出来,这取决于手头的任务和能力。了解在哪些条件下可以恢复因果变量,可以为我们在预测性任务中对哪些干预措施具有鲁棒性提供洞察力。
c) 了解现有的深度学习方法的偏见: 扩展到海量数据集,依靠数据增强和自我监督,都已经成功地探索了提高深度学习模型预测的稳健性。分解各个部分的好处是不容易的,即使我们对有用的不变性有直觉,在处理一个新任务时,往往也不清楚应该使用哪种 "技巧"。对一组特定的干预措施进行强概括的概念可以用来探测现有的方法、训练方案和数据集,以建立一个归纳偏见的分类法。特别是,最好能了解预训练中的设计选择(如哪些数据集/任务)如何在因果意义上对下游的转移和稳健性产生积极影响。
d) 学习世界和代理的因果正确的模型: 在许多现实世界的强化学习(RL)环境中,抽象的状态表示是不可用的。因此,从高维、低层次的像素表征中推导出抽象的因果变量,然后恢复因果图的能力对于现实世界强化学习环境中的因果归纳非常重要。此外,为代理人的模型和环境(世界模型)建立因果描述,对于基于模型的强化学习的稳健性和通用性应该是至关重要的。