【论文导读】Inferring deterministic causal relations

前段时间看Sch¨olkopf教授的《Towards Causal Representation Learning》,看到这篇挺有意思来读读。

这一篇只在Arxiv上挂着,重点主要是研究发掘两变量之间的因果关系(无法应用独立性检验等方法),引入了信息论中的正则性和irregularity的概念,比较信息论,实验较少。

目前ANM以及其升级版需要考虑noise对发现因果方向的影响,因此没法应用在判别模型。

我们考虑两个变量,它们通过一个可逆函数相互关联。虽然之前已经表明,噪声的依赖性结构可以为确定两个变量中的哪一个是原因提供提示,但我们现在表明,即使是在无终结性(无噪声)的情况下,也存在着可用于因果关系的非对称性。我们的方法是基于这样的想法:如果函数和原因的概率值是独立选择的,那么在某种意义上,结果的分布将取决于函数。我们对这一方法进行了理论分析,表明它在低噪声系统中也能发挥作用,并将其与信息几何学联系起来。我们在不同领域的各种真实世界的数据集上报告了强有力的实证结果。

对象:两个通过一个可逆函数相互关联的变量

现有方法:噪声的依赖性结构可以为确定两个变量中的哪一个是原因提供提示

假设:即使是在无终结性(无噪声)的情况下,也存在着可用于因果关系的非对称性。

内容:如果函数和原因的概率值是独立选择的,那么在某种意义上,结果的分布将取决于函数。贡献:对这一方法进行了理论分析,表明它在低噪声系统中也能发挥作用,并将其与信息几何学联系起来。我们在不同领域的各种真实世界的数据集上报告了强有力的实证结果。

给定了一个假设:

(以下说明了假设的意义——f'和x是独立的,这也是全文的最高设定——f: X→Y的因果关系中,f和X是独立的)

 

 

在这个假设下,又证明了如下引理:

 导到manifold里

由(6)我们一般化到非均匀分布的manifold里假设这个关系还成立,也就是输出的熵是输入和关系的熵的和,

 

 在这样就有了一种非对称性、也就是可以实现由对称的相关性到非对称的因果性的转换

 那么这个IGCI怎么计算呢?需要进一步转换,首先表示出来熵的含义:

进一步表示出ICGI需要的这个指数,我们实际应用就是(8)或者(9)这样的式子。 

 

 接下来以均匀分布和高斯分布作为例子具体刻画一下指数

 

 之后的计算都基于这两个分布的index了,无论是利用(12)近似(8)还是利用(13)近似(9),说白了都用的是有限差分(作者也提及,实际上13表现不好,猜测是与无穷处发散有关,不过本身上面标绿的式子准确性我也存疑)

 

 虽然说的是判别模型,但是作者基于加入noise的证明了方法的鲁棒性

 实验很简单,一个合成数据集(没有对比),一个causeffect对(也是Sch¨olkopf团队提出的)、一个没有公开的莱茵河水量数据集(22个点两两成对,利用地点和水量,获得上游影响下游的因果关系)

 

 

附:(《Towards Causal Representation Learning》综述的一点信息:)

这个分的很符合我的认知(虽然是前几年的论文),首先列了一下因果的概念,ICM、SMS等principle说的很清晰。把因果和ML的结合分为半监督学习,对抗性攻击,鲁棒性和强泛化性,预训练、数据增强和自监督、强化学习、科学性应用、多任务学习等,很全很不错。

摘要--机器学习和图形因果关系这两个领域是分别产生和发展的。然而,现在这两个领域有了交叉渗透,并且越来越多的人希望从对方的进步中获益。在本文中,我们回顾了因果推理的基本概念,并将其与机器学习的关键性开放问题(包括转移和泛化)联系起来,从而评估因果关系如何有助于现代机器学习研究。这也适用于相反的方向:我们注意到,大多数因果关系的工作都是从因果变量给定的前提下开始的。因此,人工智能和因果关系的一个核心问题是因果表征学习,即从低级别的观察中发现高级别的因果变量。最后,我们描述了因果关系对机器学习的一些影响,并提出了这两个社区交叉的关键研究领域。

结论--在这项工作中,我们讨论了不同层次的模型,包括因果和统计模型。我们认为,这一范围是建立在建模和数据收集方面的一系列假设之上的。为了将因果关系和机器学习研究项目结合起来,我们首先讨论了因果推断的基本原理。第二,我们讨论了独立机制假设和相关概念,如不变性,如何为因果学习提供强大的偏向。第三,我们讨论了当因果变量被观察到时,如何从观察性和干预性数据中学习因果关系。第四,我们讨论了因果表征学习的开放性问题,包括它与最近对深度学习中分解表征概念的兴趣的关系。最后,我们讨论了如何在因果框架内更好地理解和解决机器学习界的一些开放性研究问题,包括半监督学习、领域泛化和对抗性稳健性。

基于这一讨论,我们列出了一些未来研究的关键领域:

a) 学习大规模的非线性因果关系: 并非所有现实世界的数据都是非结构化的,干预的效果往往可以被观察到,例如,通过分层收集多个环境中的数据。现代机器学习方法的近似能力可能被证明对大量变量之间的非线性因果关系建模很有用。在实际应用中,经典的工具不仅受限于通常的线性假设,也受限于它们的可扩展性。元学习和多任务学习的范式接近于因果建模的假设和要求,未来的工作应该考虑(1)了解在哪些条件下可以学习非线性因果关系,(2)哪些训练框架可以最好地利用机器学习方法的可扩展性,以及(3)提供令人信服的证据,证明与(非因果)统计表示法相比,在现实世界任务的概括、重新定位和因果模块的转移方面具有优势。

b) 学习因果变量: 通过最先进的神经网络方法学习的 "分解 "表征仍然是分布式的,即它们以矢量格式表示,在维度上有一个任意的排序。这种固定的格式意味着表征的大小不能动态地改变;例如,我们不能改变场景中物体的数量。此外,结构化和模块化的表征也应该在网络为特定任务(集)训练时出现,而不仅仅是自主编码。不同的高层变量可能会被提取出来,这取决于手头的任务和能力。了解在哪些条件下可以恢复因果变量,可以为我们在预测性任务中对哪些干预措施具有鲁棒性提供洞察力。

c) 了解现有的深度学习方法的偏见: 扩展到海量数据集,依靠数据增强和自我监督,都已经成功地探索了提高深度学习模型预测的稳健性。分解各个部分的好处是不容易的,即使我们对有用的不变性有直觉,在处理一个新任务时,往往也不清楚应该使用哪种 "技巧"。对一组特定的干预措施进行强概括的概念可以用来探测现有的方法、训练方案和数据集,以建立一个归纳偏见的分类法。特别是,最好能了解预训练中的设计选择(如哪些数据集/任务)如何在因果意义上对下游的转移和稳健性产生积极影响。

d) 学习世界和代理的因果正确的模型: 在许多现实世界的强化学习(RL)环境中,抽象的状态表示是不可用的。因此,从高维、低层次的像素表征中推导出抽象的因果变量,然后恢复因果图的能力对于现实世界强化学习环境中的因果归纳非常重要。此外,为代理人的模型和环境(世界模型)建立因果描述,对于基于模型的强化学习的稳健性和通用性应该是至关重要的。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/7202.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch:配置选项

Elasticsearch 带有大量的设置和配置,甚至可能让专家工程师感到困惑。 尽管它使用约定优于配置范例并且大部分时间使用默认值,但在将应用程序投入生产之前自定义配置是必不可少的。 在这里,我们将介绍属于不同类别的一些属性,并讨…

2023年泰迪杯数据挖掘挑战赛B题--产品订单数据分析与需求预测(2.数据探索性分析)

前言 继续上一片数据预处理进行续写,利用预处理之后的数据进行数据分析并且解决问题一相关的问题。问题一主要目的是让研究各种因素对于需求量的影响,然后找到确定影响需求量的主要因素并且进行数据分析和主要特征抽取。 对于问题提出的八个小问&#…

解决云服务器ssh经常断开的问题

问题描述:无论是腾讯云服务器还是阿里云服务器等,在使用MobaXterm或者Xshell连接云服务器时,如果十分钟左右无任何操作,ssh就会自动断开,非常烦人,下面提供几种方法来解决该问题。 MobaXterm的报错如下&am…

Cookie和Session的工作流程及区别(附代码案例)

目录 一、 HTTP协议 1.1 为什么HTTP协议是无状态的? 1.2 在HTTP协议中流式传输和分块传输编码的区别 二、Cookie和Session 2.1 Cookie 2.2 Session 2.3 Cookie和Session的区别 三、servlet中与Cookie和Session相关的API 3.1 HttpServletRequest 类中的相关方…

mysql与redis区别

一、.redis和mysql的区别总结 (1)类型上 从类型上来说,mysql是关系型数据库,redis是缓存数据库 (2)作用上 mysql用于持久化的存储数据到硬盘,功能强大,但是速度较慢 redis用于存储使…

【新2023Q2押题JAVA】华为OD机试 - 挑选字符串

最近更新的博客 华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为od机试,独家整理 已参加机试人员的实战技巧本篇题解:挑选字符串 题目 给定a-z,…

二.microchip samE54-- ATSAME54P20A 开发板使用总结

板子图片 2.1 板子硬件资源 2.1.1 外部插件1 2.2.2 外部插件2 2.2.3 外部插件3 2.2.IDE KIT连接(USB DEBUG) 板子自带,不是JLINK 出现这个说明板载 调试软件识别成功 2.3 编译与下载 D:\HarmonyProjects\usart\usart_echo_blocking\f…

DataHub调研数据血缘

DataHub调研&数据血缘 1. DataHub? 阿里的数据工具datahub? 回答: 不是 DataHub是由Linkedin开源的,官方喊出的口号为:The Metadata Platform for the Modern Data Stack - 为现代数据栈而生的元数据平台。官方网站A Metadata Platfo…

Qt C++与Python混合编程:补充错误

在提示中,需要引用Python.h,出现错误。 1、找不到Python.h 如果是pro工程,需要在里面配置; INCLUDEPATH /Users/xinnianwang/opt/anaconda3/include LIBS /Users/xinnianwang/opt/anaconda3/lib 如果是CMakeLists.txt需要配…

【清明节】开发平台公司流辰信息缅怀先祖,传承精神,撸起袖子创佳绩!

四月暖春,草长莺飞,杨柳依依,大自然呈现出一片生机勃勃的朝气景象。中国传统民俗节日——清明节踏春而来,在回乡祭祖,缅怀先人的季节里,哀思、怀念、伤感已经成为整个清明节的主基调。在这万物复苏、春和景…

Spring循环依赖冤冤相报何时了

Spring循环依赖 🚎什么是循环依赖?那么循环依赖是个问题吗?单例setter, spring是如何解决的为什么需要三级缓存单单只有两级缓存行不行还得是你三级缓存三级缓存解决依赖循环全解梦想不会逃跑,会逃跑的永远都是自己 什么是循环依赖…

MySQL逻辑架构

讲师:尚硅谷-宋红康(江湖人称:康师傅) 官网:http://www.atguigu.com 1. 逻辑架构剖析 1.1 服务器处理客户端请求 首先MySQL是典型的C/S架构,即Client/Server 架构,服务器端程序使用的mysqld…

【2023】Kubernetes之Pod与容器状态关系

目录简单创建一个podPod运行阶段:容器运行阶段简单创建一个pod apiVersion: v1 kind: pod metadata: name: nginx-pod spec:containers:- name: nginximages: nginx:1.20以上代码表示创建一个名为nginx-pod的pod资源对象。 Pod运行阶段: Pod创建后&am…

vba:end属性

1.从录制一个宏开始。操作:(ctrl向上键、ctrl向下键、ctrl向左键、ctrl向右键) 2.看代码 Range.End 属性 返回一个 Range 对象,该对象代表包含源区域的区域尾端的单元格。 等同于按键 (End向上键、End向下键、End向左键、End向右键) 语法 表达式.End (…

Java基础(十四):包装类

Java基础系列文章 Java基础(一):语言概述 Java基础(二):原码、反码、补码及进制之间的运算 Java基础(三):数据类型与进制 Java基础(四):逻辑运算符和位运算符 Java基础(六):数组 Java基础(七):面向对…

打包构建优化

最近沉迷逛某蓝色软件,收益良多!万分感谢博主 海阔_天空,写的太棒了👍🎉 下面是原文链接,我在原文的基础上浅做个笔记,方便个人快速复习 PS:本篇文章在评论区里存在很多吐槽技术太…

常见密码的编码

1.base64编码 字符包括字母A-Z、a-z、数字0-9,这样共有62个字符 当看到号的加密方式时,可以考虑base64。例:cTZ1NQ解码之后为q5u5。 bash32 只有大写字母(A-Z)和数字234567 bash64 只有数字0-9以及大写字母ABCDE…

Java 网络编程之NIO(Channel)

同步 VS 异步 同步 同步编程是指当程序执行某个操作时,它必须等待该操作完成才能继续执行下一个操作。这意味着程序在执行网络请求时必须等待网络请求完成才能继续执行下一步操作,因此同步编程通常会导致程序的性能降低。在网络编程中,同步编…

【分享】免梯子的GPT,玩 ChatGPT 的正确姿势

火了一周的 ChatGPT,HG 不允许还有小伙伴不知道这个东西是什么?简单来说就是,你可以让它扮演任何事物,据说已经有人用它开始了颜色文学创作。因为它太火了,所以,本周特推在几十个带有“chatgpt”的项目中选…

基于YOLOv5的水下海洋目标检测

摘要:水下海洋目标检测技术具有广泛的应用前景,可以用于海洋环境监测、海洋资源开发、海洋生物学研究等领域。本文提出了一种基于 YOLOv5 的水下海洋目标检测方法,使用数据增强方法进行了大量实验,并与其他方法进行了对比&#xf…