【Python实战因果推断】7_元学习器2

目录

X-Learner


X-Learner

X-learner 在解释上要比前一个学习器复杂得多,但其实现却非常简单,所以如果你一开始不理解,也不用担心。X 学习器有两个阶段和一个倾向得分模型。第一个阶段与 T 学习器相同。首先,将样本分为治疗组和非治疗组,并为每组拟合一个模型:

\hat{\mu}_{0}(X)\approx E[Y|T=0,X]\\\hat{\mu}_{1}(X)\approx E[Y|T=1,X]

现在,事情开始有了转机。在第二阶段,您首先需要使用之前拟合的模型来估算缺失的潜在结果:

\hat{\tau}(X,T=0)=\hat{\mu}_{1}(X,T=0)-Y_{T=0}\\\hat{\tau}(X,T=1)=Y_{T=1}-\hat{\mu}_{0}(X,T=1)

在之前的示例数据中,\hat{\tau}(X,T=0)\hat{\tau}(X,T=1) 是第二幅图中的数据点。在下图中,我再现了同样的数据,以及预测模型 {\mu(X)}_{\tau0} 和 {\mu(X)}_{\tau1} 。请注意,即使您有更多的控制数据,\hat{\tau}(X,T=0) 还是错误的。这是因为它是使用 \widehat{\mu_{1}} 建立的,而\widehat{\mu_{1}} 是在非常小的样本中拟合的。因此,由于 \hat{\tau}(X,T=0) 是错误的,{\mu(X)}_{\tau0} 也会产生误导。相反,{\mu(X)}_{\tau1} 很可能是正确的,因为 \hat{\tau}(X,T=1) 也是正确的,因为它是使用 \widehat{\mu_{0}} 模型生成的:

总之,你有一个模型是错误的,因为你错误地估算了干预效果,而另一个模型是正确的,因为你正确地估算了这些值。现在,您需要一种方法将两者结合起来,使正确的模型具有更大的权重。为此,您可以使用倾向得分模型。使用该模型,您可以将两个第二阶段模型组合如下\widehat{\tau(x)}=\hat{\mu}(X)_{\tau0}\hat{e}(x)+\hat{\mu}(X)_{\tau1}\big(1-\hat{e}(x)\big)

在本例中,由于处理的单位很少,\hat{e}(x) 非常小,因此错误的 CATE 模型 \hat{\mu}(X)_{\tau0} 的权重非常小。 相反,1 - \hat{e}(x) 接近 1,因此正确的 CATE 模型 \hat{\mu}(X)_{\tau1} 的权重会更大。更一般地说,这种使用倾向得分的加权平均值将有利于从使用更多数据训练的  \widehat{\mu_{t}} 模型中得到的干预效果估计值。

下图显示了 X 学习器给出的 CATE 估计值,以及分配给每个数据点的权重。请注意,它实际上是如何抛弃错误数据的:

可以看出,与 T-learner 相比,X-learner 在纠正非线性估计的错误 CATE 方面做得更好。一般来说,当干预组的规模远大于其他组时,X-learner 的表现会更好。

我知道这可能需要消化很多东西,但希望您在查看代码时会更清楚。下图 总结了这个学习器。

你还可以试试领域适应学习器。它是 X 学习器,但使用倾向得分模型来估计 \hat{\mu}_{t}(X),权重设置为 1/\hat{P}(T=t)

让我们看看如何编写这些代码。这里是第一阶段,与 T-learner 完全相同。如果计划使用倾向得分进行领域适应,则需要对训练样本进行 1/{P}(T=t) 的重新加权,因此现在也是拟合倾向得分的时候:

 from sklearn.linear_model import LogisticRegression
 from lightgbm import LGBMRegressor
 # propensity score model
 ps_model = LogisticRegression(penalty='none')
 ps_model.fit(train[X], train[T])
 
 # first stage models
 train_t0 = train.query(f"{T}==0")
 train_t1 = train.query(f"{T}==1")
 m0 = LGBMRegressor()
 m1 = LGBMRegressor()
 np.random.seed(123)
 m0.fit(train_t0[X], train_t0[y],
 sample_weight=1/ps_model.predict_proba(train_t0[X])[:, 0])
 m1.fit(train_t1[X], train_t1[y],
 sample_weight=1/ps_model.predict_proba(train_t1[X])[:, 1]);

接下来,您需要预测治疗效果,并对这些预测效果拟合第二阶段的模型:

 # second stage
 tau_hat_0 = m1.predict(train_t0[X]) - train_t0[y]
 tau_hat_1 = train_t1[y] - m0.predict(train_t1[X])
 m_tau_0 = LGBMRegressor()
 m_tau_1 = LGBMRegressor()
 np.random.seed(123)
 m_tau_0.fit(train_t0[X], tau_hat_0)
 m_tau_1.fit(train_t1[X], tau_hat_1);

最后,一旦你拥有了所有这些,你就可以使用倾向得分模型来结合来自第二阶段模型的预测来获得CATE。所有这些都可以在测试集上进行估计:

 # estimate the CATE
 ps_test = ps_model.predict_proba(test[X])[:, 1]
 x_cate_test = test.assign(
 cate=(ps_test*m_tau_0.predict(test[X]) +
 (1-ps_test)*m_tau_1.predict(test[X])
 )
 )

让我们看看 X-learner 在累积收益方面的表现如何。在这组数据中,干预和对照的大小几乎相同,所以不要指望会有巨大的差异。X-learner 试图纠正的问题在这里可能并不明显:

不出所料,X-learner 的性能与 T-learner 相差不大。事实上,从曲线下的面积来看,X-learner 略逊于 T-learner。请记住,这些学习器的质量取决于具体情况。就像我前面说的,在这个特定的数据中,干预和对照的样本量都足够大,因此不会遇到 X 学习器试图解决的那种问题。这或许可以解释为什么这两种模型的表现相似。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/755735.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

深度剖析:前端如何驾驭海量数据,实现流畅渲染的多种途径

文章目录 一、分批渲染1、setTimeout定时器分批渲染2、使用requestAnimationFrame()改进渲染2.1、什么是requestAnimationFrame2.2、为什么使用requestAnimationFrame而不是setTimeout或setInterval2.3、requestAnimationFrame的优势和适用场景 二、滚动触底加载数据三、Elemen…

【Python】已解决:ModuleNotFoundError: No module named ‘nltk‘

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决:ModuleNotFoundError: No module named ‘nltk‘ 一、分析问题背景 在Python编程中,我们常常需要使用第三方库来扩展语言的功能和应用场景。NLTK&am…

DP:解决路径问题

文章目录 二维DP模型如何解决路径问题有关路径问题的几个问题1.不同路径2.不同路径Ⅱ3.下降路径最小和4.珠宝的最高价值5.地下城游戏 总结 二维DP模型 二维动态规划(DP)模型是一种通过引入两个维度的状态和转移方程来解决复杂问题的技术。它在许多优化和…

Linux----> tail、cat、more、head、less的用法详解

1.tail命令&#xff1a;用于查看文件的最后几行内容。 基本用法&#xff1a;tail [选项] [文件] 常用选项&#xff1a; -n <行数>&#xff1a;显示最后的 <行数> 行。-f&#xff1a;实时显示文件新增内容&#xff0c;通常用于查看日志文件。 示例&#xff1a;…

算法金 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost 算法大全

大侠幸会&#xff0c;在下全网同名「算法金」 0 基础转 AI 上岸&#xff0c;多个算法赛 Top 「日更万日&#xff0c;让更多人享受智能乐趣」 决策树是一种简单直观的机器学习算法&#xff0c;它广泛应用于分类和回归问题中。它的核心思想是将复杂的决策过程分解成一系列简单的决…

JavaSE-面向对象(总结复习详细)

前言: 在 Java SE 中&#xff0c;面向对象编程是一种基本的编程范式&#xff0c;它将现实世界中的问题抽象成对象&#xff0c;然后通过对象之间的交互来解决问题。在面向对象编程中&#xff0c;所有的操作都是围绕对象展开的&#xff0c;对象拥有属性和行为&#xff0c;并且可…

MambaMixer:突破Transformers限制的高效深度学习架构

深度学习模型尤其是Transformers架构&#xff0c;已经在诸如自然语言处理、计算机视觉和时间序列预测等多个领域取得了显著成就。然而&#xff0c;随着模型输入序列长度的增加&#xff0c;传统的Transformers模型面临着显著的扩展性问题。其核心问题在于&#xff0c;Transforme…

GPT-5:编织未来智能的经纬

GPT-5技术突破预测 随着GPT-5的预告&#xff0c;人工智能的叙事正步入一个崭新的篇章。想象中的GPT-5不仅是自然语言处理&#xff08;NLP&#xff09;领域的革命&#xff0c;更是对“理解”本身的一次重新定义。它可能集成深度学习的最新进展&#xff0c;如自注意力机制的进一步…

Java访问修饰符的区别

public&#xff1a;公开的&#xff0c;任何地方都可以访问。 protected&#xff1a;受保护的&#xff0c;同一个包中的类和所有子类(可跨包)可以访问。 private&#xff1a;私有的&#xff0c;只有在同一个类中可以访问。 默认&#xff08;无修饰符&#xff09;&#xff1a;包级…

SmartEDA革新来袭:融合Multisim与Proteus精髓,引领电子设计新纪元!

在电子设计领域&#xff0c;每一次技术的革新都如同春风化雨&#xff0c;滋润着设计师们的心田。今天&#xff0c;我们迎来了一个划时代的电子设计自动化&#xff08;EDA&#xff09;工具——SmartEDA&#xff0c;它不仅融合了业界知名的Multisim和Proteus的精华&#xff0c;更…

【计算机毕业设计】077停车场微信小程序

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

FreeRTOS移植到STM32

一、找一个STM32的裸机工程模板 我们以STM32F103裸机程序为例 随便找的一个裸机程序 二、去官网上下载FreeRTOS V9.0.0 源码 在移植之前&#xff0c;我们首先要获取到 FreeRTOS 的官方的源码包。这里我们提供两个下载 链 接 &#xff0c; 一 个 是 官 网 &#xff1a; http:…

若依 ruoyi 分离版 vue 简单的行内编辑实现

需要实现的效果&#xff1a;双击文本 - 修改文本 - 保存修改。 原码&#xff1a;仅文本显示文字内容 <el-table-column label"商品" align"center" prop"goodsName" width"200" v-if"columns[1].visible" /> 实现…

基于Vue,mysql,JavaEE的简单投票与投票管理系统

项目介绍 ​ 本项目&#xff0c;基于Vue2.6,mysql,JavaEE 实现简单的投票与投票管理系统 项目地址 VotingSystem: 投票系统1.0 管理员和普通用户 (gitee.com) 有问题请评论私聊哦 项目分类 数据库 创建投票人&#xff0c;被投票人&#xff0c;投票关系&#xff08;追踪谁…

基于Java的蛋糕预定系统【附源码+LW】

摘 要 当今社会进入了科技进步、经济社会快速发展的新时代。国际信息和学术交流也不断加强&#xff0c;计算机技术对经济社会发展和人民生活改善的影响也日益突出&#xff0c;人类的生存和思考方式也产生了变化。传统购物方式采取了人工的管理方法&#xff0c;但这种管理方法存…

使用 nvm 管理 Node 版本及 pnpm 安装

文章目录 GithubWindows 环境Mac/Linux 使用脚本进行安装或更新Mac/Linux 环境变量nvm 常用命令npm 常用命令npm 安装 pnpmNode 历史版本 Github https://github.com/nvm-sh/nvm Windows 环境 https://nvm.uihtm.com/nvm.html Mac/Linux 使用脚本进行安装或更新 curl -o- …

阿里云服务器数据库迁云: 数据从传统到云端的安全之旅(WordPress个人博客实战教学)

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 文章目录 一、 开始实战1.2创建实验资源1.3重置云服务器ECS的登录密码&#xff08;请记住密码&#xff09;1.4 设置安全组端口1…

武汉星起航:跨境热销新趋势,亚马逊美国站与欧洲站选品大赏

亚马逊作为全球领先的电商平台&#xff0c;其美国站和欧洲站一直是全球卖家争相入驻的热门站点。这两个站点不仅拥有庞大的消费群体和完善的物流体系&#xff0c;更以其独特的选品策略吸引了众多消费者的目光。武汉星起航将深入剖析亚马逊美国站和欧洲站当前热销的选品&#xf…

【Qt】之【Bug】大量出现“未定义的标识符”问题

背景 构建时出现大量错误 原因 中文注释问题 解决 方法1. 报错代码附近的中文注释全部删掉。。。 方法2. 报错的文件添加 // Chinese word comment solution #pragma execution_character_set("utf-8")

爱奇艺 Opal 机器学习平台:特征中心建设实践

01 综述 Opal 是爱奇艺大数据团队研发的一站式机器学习平台&#xff0c;旨在提升特征迭代、模型训练效率&#xff0c;帮助业务提高收益。整个平台覆盖了机器学习生命周期中特征生产、样本构建、模型探索、模型训练、模型部署等在内的多个关键环节。其中特征作为模型训练的基石…