tigramite教程(二)生物地球科学案例研究

文章目录

  • 数据生成与绘图
  • 因果发现分析
    • 平稳性假设、确定性、潜在混杂因素
    • 结构假设
    • 参数假设
  • 使用PCMCIplus的滑动窗口分析
  • 聚合因果图
  • 非参数因果效应估计
    • 假设的图形和调整集
    • 干预的真实情况
    • 假设的参数模型和因果效应的估计
    • 使用关于图的不同假设进行估计
  • 非因果估计

项目地址

这个文件夹中的两个案例研究来自气候科学和生物地球科学,遵循以下审查论文中的 QAD-问卷和方法选择流程图(包含在 tigramite github 教程文件夹中):

Runge, J., Gerhardus, A., Varando, G., Eyring, V. & Camps-Valls, G. Causal inference for time series. Nat. Rev. Earth Environ. 10, 2553 (2023).

该审查论文的末尾列出了一些用于解决选定 QAD 问题的软件和方法。

这个例子将演示使用基于因果推断的技术来调查空气温度(Tair)对生态系统呼吸(Reco)的因果效应,数据还包括总初级生产力(GPP)和短波辐射(Rg)。为了更好地说明非参数因果效应估计,这个案例研究考虑了一个具有已知定量基准真实性的合成系统:
在这里插入图片描述
在这些方程中,被解释为一个结构因果模型(SCM),其中 η t ˙ \eta _{\dot{t }} ηt˙
是相互独立的标准正态噪声项,除了Tair,其中 η t ˙ T a i r = η t + 1 4 ∗ ϵ t 3 \eta _{\dot{t }}^{Tair}=\eta_t+\frac{1}{4}*{\epsilon}_t^3 ηt˙Tair=ηt+41ϵt3
(标准正态噪声项和)具有立方指数,以表示更极端的温度。SCM展示了Reco和Tair之间的单峰关系(请参见下图中的干预基准真相),这在真实数据中也被发现(请参见论文)。

分析将首先说明因果发现,然后进行因果效应估计。让我们从导入一些标准Python包以及tigramite因果推断包开始。

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.transforms as mtransforms

import sys
from copy import deepcopy

import sklearn
from sklearn.linear_model import LinearRegression
from sklearn.neural_network import MLPRegressor
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler
from scipy.stats import gaussian_kde
import warnings
from sklearn.exceptions import DataConversionWarning
warnings.filterwarnings(action='ignore')

import tigramite
import tigramite.data_processing as pp
import tigramite.plotting as tp

from tigramite.models import LinearMediation, Models
from tigramite.causal_effects import CausalEffects

from tigramite.pcmci import PCMCI
from tigramite.independence_tests.robust_parcorr import RobustParCorr

数据生成与绘图

步骤紧密遵循QAD模板(综述论文中的表1和图2流程图)。与气候示例不同,这里所有变量(节点)都已定义为每日连续值的时间序列。下一个问题是关于创建一个平稳数据集(图2流程图)。与气候示例不同,这里考虑了多个数据集(多个站点)的设置。在考虑的合成示例中,由于站点只是同一SCM的不同实现,因此平稳性是通过构造满足的(除了所有站点共享的季节性),因此,不同站点的时间序列可以简单地汇总(合并)。为了减轻季节性非平稳性,只考虑4月至9月(模型月份)的时期(见下图)。

# Time series length is 6 years
T = 365*6 + 1

# 4 Variables
N = 4

# We model 5 measurement sites
M = 5

data_dict = {
   }
mask_dict = {
   }
for site in range(M):

    modeldata_mask = np.ones((T, N), dtype='int')
    for t in range(T):
        # April to September
        if 90 <= t % 365 <= 273:
            modeldata_mask[t,:] = 0
            
    mask_dict[site] = modeldata_mask

    modeldata = np.zeros((T,N))
    random_state = np.random.RandomState(site)
    noise = random_state.randn(T, N)
    noise[:, 1] += 0.25*random_state.randn(T)**3
        
    for t in range(1, T):
        modeldata[t,0] = np.abs(280.*np.abs(np.sin((t)*np.pi/365.))**2 + 50.*np.abs(np.sin(t*np.pi/365.))*noise[t,0])
        modeldata[t,1] = 0.8*modeldata[t-1,1] + 0.02*modeldata[t,0] + 5*noise[t,1]  
        modeldata[t,2] = np.abs(0.2* modeldata[t-1, 2] + 0.002*modeldata[t,0] * modeldata[t,1] + 3*noise[t,2]) 
        modeldata[t,3] = np.abs(0.3*modeldata[t-1,3] + 0.9*modeldata[t,2] * 0.8**(0.12*(modeldata[t,1]-15)) + 2*noise[t,3])
    data_dict[site] = modeldata

# Variable names
var_names = ['Rg', 'Tair', 'GPP', 'Reco']

# Init Tigramite dataframe object
dataframe = pp.DataFrame(data=data_dict, 
                    mask = mask_dict,
                    analysis_mode = 'multiple',
                    var_names=var_names)
fig_axes = tp.plot_timeseries(dataframe,
                   grey_masked_samples='data',
                   adjust_plot=False,
                   color = 'red',
                   alpha=0.6, 
                   data_linewidth=0.3,
                   selected_dataset=0)

for index in range(1, len(data_dict)):
    adjust_plot = False
    if index == M - 1: 
        adjust_plot = True
    color = ['red', 'green', 'blue', 'yellow', 'lightblue'][index]
    tp.plot_timeseries(dataframe,
                       fig_axes =fig_axes,
                       grey_masked_samples='data',
                       adjust_plot=adjust_plot,
                       color=color,
                       time_label='day',
                       alpha=0.6, 
                       data_linewidth=0.3,
                       selected_dataset=index)
plt.show()

在这里插入图片描述

因果发现分析

在得到这个平稳的数据集后,第一个因果问题涉及因果发现。为了选择合适的因果发现方法,必须确定可以合理做出的假设。

平稳性假设、确定性、潜在混杂因素

这里的数据来自多个数据集(因果发现框架中的蓝色框,论文中的图2),然而,这些数据集共享相同的基础分布,下一个问题是这个系统是否是确定性的。考虑到在这个规模下的动态复杂性,可以假设它是一个非确定性系统。下一个假设是是否有潜在的混杂因素,即因果影响两个或更多观察变量的未观察变量。在这里,由于限制分析仅限于季节,在此期间可以预期平稳性,因此合理地假设不存在隐藏的混杂因素,这在基础SCM中是正确的。

结构假设

接下来需要做出图类型的结构假设。由于这里的进程很快,同时因果效应(即,在数据的时间分辨率1天以下的因果影响)可能会发生。此外,在这里,可以通过在图中不允许Rg有任何父母节点来强制实施Rg是外生变量的领域知识。这些假设建议使用基于约束的因果发现算法PCMCI+(或其他类似选项,见图2)。
为了对PCMCI+估计的因果时间序列图中最大时间滞后做出假设(即 X t − τ j → X t j X_{t-\tau}^j \to X^j_t XtτjXtj,所有 τ \tau τ such that 在图中的最大),可以使用数据来调查滞后依赖函数,或者,像在这里一样,可以使用领域知识来证明 τ m a x = 1 \tau_{max}=1 τmax=1(以天为单位)。

参数假设

接下来,为PCMCI+选择下一个超参数是关于条件独立性的测试,这需要一个参数假设。下面我们使用Tigramite的plot_densities函数来通过联合和边际密度估计调查依赖关系的类型。在这里,我们描绘了原始数据以及实现正态分布边际的转换数据。

dataframe_here = deepcopy(dataframe)
matrix_lags = None
matrix = tp.setup_density_matrix(N=N, 
        var_names=dataframe.var_names, **{
   
        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/410819.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

力扣随笔之颜色分类(中等75)

思路&#xff1a;定义两个指针划分left&#xff0c;right划分三个区域left左边是红色区域&#xff0c;right右边是蓝色区域&#xff0c;left和right之间是白色区域&#xff1b;定义一个遍历指针遍历整个数组&#xff0c;遇到红色与left所指位置数字交换&#xff0c;并将left自加…

鸿蒙开发实战-手写一个Openharmony投屏工具

实战手写一个Openharmony投屏工具&#xff0c;实现代码分享如下&#xff1a; java import javax.imageio.ImageIO; import javax.swing.*; import java.awt.*; import java.awt.event.*; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOExcepti…

一篇文章告诉你ELK Stack是什么

目录 ELK Stack简介 ELK Stack优点 ELK Stack组成 Elasticsearch Elasticsearch简介 Elasticsearch主要特点 Elasticsearch核心概念 Elasticsearch的配置 Logstash Logstash简介 Logstash过滤器之grok正则匹配 Logstash过滤器之mutate数据修改 Logstash过滤器之Ge…

如何快速将每个图片做二维码?批量生成图片码的步骤

现在很多商品的包装上扫码都会展现出物品的图片信息&#xff0c;每个物品都会有单独的一张物品信息图片。那么当导出一批图片后&#xff0c;如何快速将每张图片单独生成一个二维码来使用呢&#xff1f;本文小编将通过图文内容给大家讲解一下图片二维码生成器的批量建码功能该如…

automatic_mine_sweeper —— A project review to improve myself

1. How to understand the whole structure of the project? 1.Cbutton.h 和 Cbutton.cpp文件&#xff1a; Cbutton.h文件- // Cbutton.h : main header file for the CBUTTON application //#if !defined(AFX_CBUTTON_H__240DD99D_BEDE_49BD_A960_3268C3644816__INCLUDED_…

Python实用技巧:处理JSON文件写入换行问题

Python实用技巧&#xff1a;处理JSON文件写入换行问题 &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;Matplotlib之旅&#xff1a;零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程 &#x1f448; 希望得到您的订阅…

05 Flink 的 WordCount

前言 本文对应于 spark 系列的 Spark 的 WordCount 这里主要是 从宏观上面来看一下 flink 这边的几个角色, 以及其调度的整个流程 一个宏观 大局上的任务的处理, 执行 基于 一个本地的 flink 集群 测试用例 /*** com.hx.test.Test01WordCount** author Jerry.X.He* ver…

架构设计:流式处理与实时计算

引言 随着大数据技术的不断发展&#xff0c;流式处理和实时计算在各行各业中变得越来越重要。那么什么是流式处理呢&#xff1f;我们又该怎么使用它&#xff1f;流式处理允许我们对数据流进行实时分析和处理&#xff0c;而实时计算则使我们能够以低延迟和高吞吐量处理数据。本…

Bert基础(四)--解码器(上)

1 理解解码器 假设我们想把英语句子I am good&#xff08;原句&#xff09;翻译成法语句子Je vais bien&#xff08;目标句&#xff09;。首先&#xff0c;将原句I am good送入编码器&#xff0c;使编码器学习原句&#xff0c;并计算特征值。在前文中&#xff0c;我们学习了编…

4.测试教程 - 用例篇

文章目录 1.测试用例的基本要素2.测试用例的给我们带来的好处3.测试用例的设计方法3.1基于需求进行测试用例的设计3.1.1功能需求测试分析3.1.2非功能需求测试分析 3.2具体的设计方法3.2.1等价类3.2.2边界值3.2.3错误猜测法3.2.4判定表3.2.5场景设计法3.2.6因果图3.2.7因果图的需…

c++:vector的相关oj题(136. 只出现一次的数字、118. 杨辉三角、26. 删除有序数组中的重复项、JZ39 数组中出现次数超过一半的数字)

文章目录 1. 136. 只出现一次的数字题目详情代码(直接来异或&#xff09;思路 2. 118. 杨辉三角题目详情代码1思路代码2思路2 3. 26. 删除有序数组中的重复项题目详情代码思路 4. JZ39 数组中出现次数超过一半的数字题目详情代码1&#xff08;暴力&#xff09;思路1代码2&#…

A Visual Guide to Mamba and State Space Models

用于语言建模的 Transformers 的替代方案 Transformer 架构一直是大型语言模型 &#xff08;LLMs&#xff09; 成功的主要组成部分。它已被用于当今几乎所有LLMs正在使用的产品&#xff0c;从 Mistral 等开源模型到 ChatGPT 等闭源模型。 为了进一步改进LLMs&#xff0c;开发…

【HarmonyOS】鸿蒙开发之Stage模型-基本概念——第4.1章

Stage模型-基本概念 名词解释 AbilityStage:应用组件的“舞台“ UIAbility:包含UI界面的应用组件&#xff0c;是系统调度的基本单元 WindowStage:组件内窗口的“舞台“ Window&#xff1a;用来绘制UI页面的窗口 HAP:Harmony Ability Package(鸿蒙能力类型的包) HSP:Harmony Sh…

【算法 - 动态规划】找零钱问题Ⅰ

在前面的动态规划系列文章中&#xff0c;关于如何对递归进行分析的四种基本模型都介绍完了&#xff0c;再来回顾一下&#xff1a; 从左到右模型 &#xff1a;arr[index ...] 从 index 之前的不用考虑&#xff0c;只考虑后面的该如何选择 。范围尝试模型 &#xff1a;思考 [L ,…

C++——二叉搜索树

二叉搜索树 二叉搜索树&#xff1a; 又为搜索二叉树&#xff0c;一般具有以下的性质 若它的左子树不为空&#xff0c;则左子树上所有的节点的值都小于父亲节点若它的右子树不为空&#xff0c;则右子树上所有的节点的值都大于父亲节点它的左右子树也都为二叉搜索树 二叉搜索树…

Vue前端实现一个本地消息队列(MQ), 让消息延迟消费或者做缓存

MQ功能实现的具体代码(TsMQ.ts)&#xff1a; import { v4 as uuidx } from uuid;import emitter from /utils/mittclass Message {// 过期时间&#xff0c;0表示马上就消费exp: number;// 消费标识&#xff0c;避免重复消费tag : string;// 消息体body : any;constructor( exp…

Docker基础篇(六) dockerfile体系结构语法

FROM&#xff1a;基础镜像&#xff0c;当前新镜像是基于哪个镜像的 MAINTAINER &#xff1a;镜像维护者的姓名和邮箱地址 RUN&#xff1a;容器构建时需要运行的命令 EXPOSE &#xff1a;当前容器对外暴露出的端口号 WORKDIR&#xff1a;指定在创建容器后&#xff0c;终端默认登…

python中的类与对象(1)

目录 一. 引子&#xff1a;模板 二. 面向过程与面向对象 &#xff08;1&#xff09;面向过程编程 &#xff08;2&#xff09;面向对象编程 三. 对象与类 &#xff08;1&#xff09;对象 &#xff08;2&#xff09;类 四. 面向对象程序设计的特点&#xff1a;封装&#…

daydayEXP: 支持自定义Poc文件的图形化漏洞利用工具

daydayEXP: 支持自定义Poc文件的图形化漏洞利用工具 基于java fx写的一款支持加载自定义poc文件的、可扩展的的图形化渗透测试框架。支持批量漏洞扫描、漏洞利用、结果导出等功能。 使用 经过测试,项目可在jdk8环境下正常使用。jdk11因为缺少一些必要的组件,所以jdk11版本工…

sqli-labs第46关

注&#xff1a;说明借鉴&#xff08;现阶段水平不够&#xff0c;只能靠借鉴来完成本次作业&#xff0c;若侵权&#xff0c;必删&#xff09; 基于Sqli-Labs靶场的SQL注入-46~53关_sqli-lab less46-CSDN博客 SQL-Labs46关order by注入姿势-CSDN博客 一、首先需要sql-labs的环…