【因果推断python】46_估计量2

目录

连续型干预变量案例

非线性处理效果

关键思想


连续型干预变量案例

目标转换方法的另一个明显缺点是它仅适用于离散或二元处理。这是你在因果推理文献中经常看到的东西。大多数研究都是针对二元干预案例进行的,但您找不到很多关于连续干预的研究。这让我很困扰,因为在这个行业中,持续干预无处不在,主要是您需要优化的价格形式。因此,即使我找不到任何关于持续干预的目标转换的信息,我还是想出了一些在实践中有效的方法。请记住,我没有围绕它进行的超级可靠的计量经济学研究。

为了激发它,让我们回到冰淇淋销售的例子。在那里,我们的任务是估计价格的需求弹性,以便我们可以更好地设定冰淇淋价格以优化我们的收入。回想一下,数据集中的事件样本是一天,我们希望知道人们何时对价格上涨不那么敏感。另外,回想一下,价格在这个数据集中是随机分配的,这意味着我们不需要担心混淆偏差。

prices_rnd = pd.read_csv("./data/ice_cream_sales_rnd.csv")
prices_rnd.head()

和之前一样,让我们先把数据分为训练和测试两个集合。

np.random.seed(123)
train, test = train_test_split(prices_rnd, test_size=0.3)
train.shape, test.shape
((3500, 5), (1500, 5))

现在是我们需要一点创造力的地方。对于离散情况,条件平均处理效果由当我们从未处理到处理时结果变化多少给出,以单位特征 X 为条件。

\tau(x)=E[Y_i(1)-Y_i(0)|X]=E[\tau_i|X]

简而言之,这是估计处理对不同单元配置文件的影响,其中配置文件是使用特征 X 定义的。对于连续的情况,我们没有那个开关。单元未经处理或未经处理。相反,它们都经过处理,但强度不同。因此,我们不能谈论给予干预的效果。相反,我们需要从增加干预的角度说话。换句话说,我们想知道如果我们增加一定量的干预,结果会如何变化。这就像估计结果函数 Y 对干预 t 的偏导数。并且因为我们希望知道对于每个组(CATE,而不是 ATE),我们以特征 X 为条件

\tau(x)=E[\partial Y_i(t)|X]=E[\tau_i|X]

我们如何估计呢?首先,让我们考虑一个简单的情况,其中结果与干预呈线性关系。假设您有两种类型的日子:炎热的日子(黄色)和寒冷的日子(蓝色)。在寒冷的日子里,人们对价格上涨更加敏感。此外,随着价格上涨,需求线性下降。

img

在这种情况下,CATE 将是每条需求线的斜率。这些斜率将告诉我们,如果我们将价格提高任何数量,需求会下降多少。如果这种关系确实是线性的,我们可以分别用简单线性回归估计热天和冷天的系数来估计这些弹性。

我们可以从这个估算器中得到启发,思考一个单独的单元会是什么样子。换句话说,如果我们在那里有同样的东西,为每一天定义。在我的脑海里,它会是这样的:

Y_i^*=(Y_i-\bar{Y})\frac{(T_i-\bar{T})}{\sigma_T^2}

用简单的英语来说,我们将通过从中减去平均值来转换原始目标,然后将其乘以处理,我们也从中减去了平均值。最后,我们将其除以处理方差。唉,我们有一个针对连续情况的目标转换。

img

现在的问题是:它有效吗?事实上,它确实如此,我们可以通过一个类似的证明来证明它为什么起作用,就像我们在二进制案例中所做的那样。首先,让我们打电话

V_i=\frac{(T_i-\bar{T})}{\sigma_T^2}

注意 E[V_i|X_i=x]=0a 因为在随机分配下 E[T_{i}|X_{i}=x]=\bar{T}。换句话说,对于 X 的每个区域,E[T_{i}]=\bar{T}。还有 E[T_iV_i|X_i=x]=1 因为 E[T_i(T_i-\bar{T})|X_i=x]=E[(T_i-\bar{T})^2|X_i=x],即处理方差。最后,在条件独立(我们在随机处理分配情况下免费获得)下,E[T_ie_i|X_i=x]=E[T_i|X_i=x]E[e_i|X_i=x] 。

为了证明这个目标转换是有效的,我们需要记住我们正在估计一个局部线性模型的参数

Y_i=\alpha+\beta T_i+e_i|X_i=x

在我们的示例中,这些将是炎热和寒冷日子的线性模型。在这里,我们对 \beta 参数感兴趣,这是我们的条件弹性或 CATE。有了这一切,我们可以证明

请记住,这仅在随机干预时有效。对于非随机处理,我们必须将 \bar{T} 替换为 M(X_{i}),其中 M 是一个估计 E[T_i|X_i=x]

Y_i^*=(Y_i-\bar{Y})\frac{(T_i-M(T_i))}{(T_i-M(T_i))^2}

这将确保第三行中的 \alpha E[V_i|X_i=x]消失为零,并且 E[T_iV_i|X_i=x] 消失到 1。请注意,如果您只想根据干预效果对单位进行排序,实际上并不需要 E[T_iV_i|X_i=x] 去 1。换句话说,如果您只想知道需求在哪几天对价格上涨更敏感,但您不需要知道多少,那么 \beta 估计值是否按比例缩放并不重要上或下。如果是这种情况,您可以省略分母。

Y_i^*=(Y_i-\bar{Y})(T_i-M(T_i))

如果所有这些数学看起来很烦人,请不要担心。代码其实很简单。再一次,我们用上面看到的公式转换我们的训练目标。在这里,我们有随机的处理分配,所以我们不需要建立一个预测价格的模型。我也省略了分母,因为这里我只关心排序处理效果。

y_star_cont = (train["price"] - train["price"].mean()
               *train["sales"] - train["sales"].mean())

#然后,就像以前一样,我们拟合回归 ML 模型来预测该目标。
cate_learner = LGBMRegressor(max_depth=3, min_child_samples=300, num_leaves=5)

np.random.seed(123)
cate_learner.fit(train[["temp", "weekday", "cost"]], y_star_cont)

cate_test_transf_y = cate_learner.predict(test[["temp", "weekday", "cost"]])

test_pred = test.assign(cate=cate_test_transf_y)
test_pred.sample(5)

这一次,CATE 的解释是不直观的。 由于我们已经从目标转换中删除了分母,所以我们看到的这个 CATE 是由 ���(�) 缩放的。 然而,这个预测仍然应该很好地排序干预效果。 为了看到这一点,我们可以使用累积增益曲线,就像我们之前所做的那样。

gain_curve_test = cumulative_gain(test.assign(cate=cate_test_transf_y),
                                "cate", y="sales", t="price")

gain_curve_train = cumulative_gain(train.assign(cate=cate_learner.predict(train[["temp", "weekday", "cost"]])),
                                   "cate", y="sales", t="price")


plt.plot(gain_curve_test, label="Test")
plt.plot(gain_curve_train, label="Train")
plt.plot([0, 100], [0, elast(test, "sales", "price")], linestyle="--", color="black", label="Taseline")
plt.legend();

对于这些数据,看起来具有转换目标的模型比随机模型要好得多。不仅如此,训练和测试结果非常接近,因此这里的方差不是问题。但这只是这个数据集的一个特征。如果您还记得,当我们探索二元处理案例时,情况并非如此。在那里,模型的表现不是很好。

非线性处理效果

谈到了连续案例,我们需要处理的房间里还有一头大象。我们假设干预效果呈线性关系。然而,这很少是一个合理的假设。通常,干预效果以一种或另一种形式饱和。在我们的示例中,可以合理地认为,在价格上涨的第一个单位时需求会下降得更快,但随后会下降得更慢。

img

这里的问题是弹性或干预效果随干预本身而变化。在我们的示例中,干预效果在曲线开始时更加强烈,而随着价格的上涨而减弱。同样,假设您有两种类型的日子:炎热的日子(黄色)和寒冷的日子(蓝色),我们想用因果模型区分这两者。问题是因果模型应该预测弹性,但在非线性情况下,如果我们查看曲线中不同的价格点(右图),炎热和寒冷天的弹性可能相同。

解决这个问题没有简单的方法,我承认我仍在研究什么最有效。目前,我所做的事情是尝试考虑干预效果的函数形式,并以某种方式将其线性化。例如,需求通常具有以下函数形式,其中较高的 \alpha s 意味着随着价格的每次上涨,需求下降得更快

D_i=\frac1{P_i^\alpha}

所以,如果我对需求 Y 和价格 T 都应用对数转换,我应该得到线性的东西。

线性化并不是那么容易做到的,因为它需要一些思考。但你也可以尝试一些东西,看看什么效果最好。通常,对数和平方根之类的东西会有所帮助。

关键思想

我们现在正朝着使用机器学习模型估计条件平均干预效果的方向发展。这样做的最大挑战是使预测模型适应估计因果效应的模型。另一种思考方式是,预测模型专注于将结果 Y 估计为特征 X 的函数,可能还有干预 T, Y=M(X,T) 而因果模型需要估计这个输出函数在处理 \partial Y=\partial M(X,T) 上。这不是简单方法就可以解决的,因为虽然我们确实观察到了结果 Y,但我们不能观察到 \partial Y,至少在个体样本层面上不能。因此,在为我们的模型设计目标函数时,我们需要具有创造性。

在这里,我们看到了一种非常简单的目标转换技术。这个想法是将原始目标 Y 与干预 T 结合起来,形成一个转换后的目标,期望它等于 CATE。有了这个新目标,我们可以插入任何预测性 ML 模型来估计它,然后模型预测将是 CATE 估计。附带说明一下,除了目标转换之外,此方法也称为 F-Learner

尽管如此简单,但也需要付出代价。转换后的目标是对个体干预效果的非常嘈杂的估计,并且该噪声将以方差的形式转移到模型估计中。这使得目标转换更适合大数据应用,在这些场景中,由于样本量很大,方差不是个大问题。目标转换方法的另一个缺点是它仅针对二元或分类处理定义。我们尽最大努力提出该方法的连续版本,甚至最终得出了一些似乎可行的方法,但到目前为止,还没有可靠的理论框架来支持它。

最后,我们以对非线性干预效果及其带来的挑战的讨论结束。也就是说,当干预效果随干预本身而变化时,我们可能会错误地认为单位具有相同的干预反应曲线,因为它们对干预的反应相同,但实际上它们只是接受了不同的干预量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/727573.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【深度学习】GELU激活函数是什么?

torch.nn.GELU 模块在 PyTorch 中实现了高斯误差线性单元(GELU)激活函数。GELU 被用于许多深度学习模型中,包括Transformer,因为它相比传统的 ReLU(整流线性单元)函数能够更好地近似神经元的真实激活行为。…

ARM64汇编0B - 函数调用约定

建议先看《CSAPP》的3.7节,讲的很细。我们这里就直接看例子来分析了。 例子 static int func(int a, int b, int c, int d, int e, int f, int g, int h, int i) {printf("%s\n", "add all");int x a b;return a b c d e f g h i; …

Faiss:选择合适的索引Index

向量相似性搜索彻底改变了搜索领域。它允许我们高效地检索从GIF到文章等各种媒体,即使在处理十亿级别数据集时,也能在亚秒级时间内提供令人印象深刻的准确性。 然而,这种灵活性也带来了一个问题:如何知道哪种索引大小最适合我们的…

2-11 基于matlab的BP-Adaboost的强分类器分类预测

基于matlab的BP-Adaboost的强分类器分类预测,Adaboost是一种迭代分类算法,其在同一训练集采用不同方法训练不同分类器(弱分类器),并根据弱分类器的误差分配不同权重,然后将这些弱分类器组合成一个更强的最终…

check python checking for Python executable “python2“ in the PATH

背景: mac电脑升级后重新拉取老项目后安装node_module 和启动项目报错 gyp info using node-gyp3.8.0 gyp info using node14.18.0 | darwin | x64 gyp verb command rebuild [] gyp verb command clean [] gyp verb clean removing "build" directory …

Python基础教程(二十六):对接MongoDB

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…

视听分割相关论文阅读

1. End-to-End Referring Video Object Segmentation with Multimodal Transformers RVOS(视频中的参考对象分割)比RIS(图像中的参考对象分割)要困难得多,因为指代动作的文本表达通常无法从单个静态帧中正确推断出来。…

Web3 学习

之前学习 web3,走了不少弯路,最近看到了 hackquest,重新刷了一遍以太坊基础,感觉非常nice,而且完全免费,有需要的可以试试,链接hackquest.io。

劲爆!Kimi月之暗面可以接入微信,智能升级, 打造个性多Agent(二)

前言 在当今这个快速发展的AI时代,抖音推出了一个名为“扣子Coze”的工具,帮助用户快速、低门槛地搭建属于自己的AI机器人。本文将详细介绍如何使用扣子Coze配置自己的AI Agent,并展示其在多个平台上的应用。 如何使用多个Agent 搭建更加智…

【DKN: Deep Knowledge-Aware Network for News Recommendation】

DKN: Deep Knowledge-Aware Network for News Recommendation 摘要 在线新闻推荐系统旨在解决新闻信息爆炸的问题,为用户进行个性化推荐。 总体而言,新闻语言高度凝练,充满知识实体和常识。 然而,现有的方法并没有意识到这些外部…

[Kubernetes] etcd 单机和集群部署

文章目录 1.etcd基本概念2.etcd的基本知识3.etcd优势4.etcd单机部署4.1 linux部署4.2 windows部署4.3 docker安装etcd 5.etcd集群部署 1.etcd基本概念 etcd是一个高可用的分布式键值存储系统,是CoreOS(现在隶属于Red Hat)公司开发的一个开源…

Redis缓存的一些概念性问题

目录 缓存模型和思路 缓存更新策略 数据库和缓存不一致 缓存与数据库双写一致 缓存穿透 缓存雪崩 缓存击穿 速度快,好用,内存的读写性能远高于磁盘,缓存可以大大降低用户访问并发量带来的服务器读写压力 缓存模型和思路 标准的操作方式就是查询数据库之前先…

用户态协议栈02-arp reply实现

在上一节DODK的UDP收发中发送udp包的时候,需要向物理机的arp表中添加一个静态的arp记录。这在生产环境中显然是不可以的。在内核的协议栈中,会将自己的ip和mac在局域网中进行广播,并且记录其他电脑的ip和mac。在需要发送数据包的时候&#xf…

AD使用快捷键

1、如何实现元器件旋转45放置 在Preferences >> PCB Editor >> General中将Rotation Step(旋转的步进值)由90改为45,这样以后每次按空格键旋转器件时旋转角度为45。 2、显示网络、隐藏网络 N 3、对齐 2、设置DRC检查选项&#xf…

clickhouse学习笔记(四)库、表、分区相关DDL操作

目录 一、数据库操作 1、创建数据库 2、查询及选择数据库 3、删除数据库 二、数据表操作 1、创建表 2、删除表 3、基本操作 ①追加新字段 ②修改字段类型或默认值 ③修改字段注释 ④删除已有字段 ⑤移动数据表(重命名) ⑥清空表 三、默认值…

【前端技巧】css篇

利用counter实现计数器 counter-reset&#xff1a;为计数器设置名称&#xff0c;语法如下&#xff1a; counter-rese: <idntifier><integer>第一个参数为变量名称&#xff0c;第二个参数为初始值&#xff0c;默认为0 counter-increment&#xff1a;设置计数器增…

OpenGL绘制Bezier曲面

Bezier的定义 贝塞尔曲面是贝塞尔曲线在二维上的扩展。它由一组控制点定义,通过这些控制点生成光滑的曲面。贝塞尔曲面通常用两个参数 u u u和 v v v来表示,这两个参数的取值范围都在 [0, 1] 之间。 数学表示 P ( u , v ) = ∑ i = 0 n ∑ j = 0 m p i j ⋅ B i , n ( u ) ⋅…

YOLOv10改进 | Conv篇 |YOLOv10引入SPD-Conv卷积

1. SPD-Conv介绍 1.1 摘要:卷积神经网络(CNN)在图像分类和目标检测等许多计算机视觉任务中取得了巨大的成功。 然而,在图像分辨率较低或物体较小的更艰巨的任务中,它们的性能会迅速下降。 在本文中,我们指出,这源于现有 CNN 架构中一个有缺陷但常见的设计,即使用跨步卷…

MicroPython+ESP32 C3+ST7735S LCD屏 WIFI联网显示实时时间

案例地址&#xff1a;https://gitee.com/whltaoin_admin/MP_ESP32_ST7735S- 展示效果 ESP32LCD屏 WIFI联网并显示实时时间 TFT LCD模块参数介绍 名称&#xff1a;1.8 128*160 RGB_TFT驱动芯片&#xff1a;ST7735S ESP32 C3 参数介绍&#xff08;经典款&#xff09; 外观及…

Kafka基础教程

Kafka基础教程 资料来源&#xff1a;Apache Kafka - Introduction (tutorialspoint.com) Apache Kafka起源于LinkedIn&#xff0c;后来在2011年成为一个开源Apache项目&#xff0c;然后在2012年成为一流的Apache项目。Kafka是用Scala和Java编写的。Apache Kafka是基于发布-订…