(Modeling of pulsar timing noise deduction and atmospheric time delay deduction of time signals)
脉冲星是一种连续而稳定的快速旋转的中子星,为它们赢得了“宇宙的李温室”的绰号。脉冲星的空间观测对深空航天器的导航和时间标准的维持起着至关重要的作用。
脉冲星时间在原子计时中的应用有望改善局部原子钟的稳定性和可靠性为未来计时的发展指明了未来方向。脉冲星时间研究的关键挑战之一是如何解决脉冲定时噪声降低精度和稳定性的问题。
脉冲星定时噪声是在脉冲星旋转参数中沿时间尺度(通常是数月或数年)发生的一种连续扰动。它表现为预先预测的脉冲到达时间(PT)和实际到达时间(PT-TT)之间的差异,这永远不等于零。定时噪声通常是“红噪声”,几乎存在于所有的脉冲星中,包括毫秒脉冲星。一些表现出随机变化,而另一些则表现出准周期性,如图1所示。
脉冲星定时噪声主要包括脉冲星旋转的d噪声、色散测量(DM)变化引起的噪声、观测设备噪声和特定频带的噪声。IPTA发布的数据使用功率谱模型描述了红色噪声强度如下:
其中p0表示红噪声的强度,傅里叶频率,f顺式为角频,q为频谱指数。除了功率谱估计方法(矩阵,1997),用于脉冲星定时噪声估计的方法还包括A8模型(阿祖曼年,1994;杨廷高,2014)、指数模型(香农,2010)、σz(t)估计(里尔顿,2016)和经验模态分解(EMD)方法(Huang,1998;高峰,2018)。然而,这些方法只能在一定程度上提高脉冲星模型的精度。脉冲星定时噪声的来源广泛且复杂因此寻找有效的脉冲采集方法是一个挑战。这仍然是PTA研究中的一项重要任务。躯体患者甚至曾尝试使用人工智能提取定时噪声特征并建模的方法(梁洪涛,2023),旨在获得更好的定时噪声去除和预测的解决方案。
问题一:考虑用功能模型模拟图2中的脉冲星定时噪声,目标是模型拟合度达到95%或更高。建模所需的数据可以在附件1中找到。可以参考而不使用的数据关系包括:脉冲星的观测频率在e无线电波段为1540MHz,带宽为320MHz,MJD52473~56081的均方根值为75268.376us,而对于MJD52473至56646,均方根值为is78502.322us。一般认为红噪声的强度是均方根值的前提,但不相等。
- 数据预处理与归一化
由于脉冲星计时噪声数据具有较大的时间跨度和不同量级的数据幅度,为了确保模型的训练过程收敛良好且稳定性强,首先对数据进行归一化处理。这里我们使用Min-Max归一化,将脉冲星计时噪声(PT-TT)的值标准化到0到1的区间。
归一化公式:
其中,x表示原始数据,xmi 和 xmax分别为数据的最小值和最大值,xscaled是归一化后的数据。归一化的目的是防止因变量数量级不同而导致模型训练时的权重不平衡。
- 时间序列建模
为了更好地模拟脉冲星噪声数据中的时序关系,我们使用滑动窗口生成时间序列数据。具体而言,在给定的时间步长T 下,将历史数据转化为时间序列输入与输出对。假设时间步长为T=10,则模型会将前T 个时刻的数据作为输入,第 T+1个时刻的数据作为输出。
时间序列建模公式: 设 Xt 表示时刻 t 的数据(归一化后的PT-TT值),则输入序列和目标输出的表示如下:
目标输出:
- LSTM 模型结构
长短期记忆网络 (LSTM) 是一种特殊的递归神经网络 (RNN),能够有效处理长时间依赖关系。LSTM网络的结构包括遗忘门、输入门和输出门,使其能够记住长时间的依赖信息。具体而言,LSTM网络会在每个时间步计算记忆状态和输出状态,从而捕捉脉冲星计时噪声的长期依赖特征。
LSTM公式推导
对于每个时刻t,LSTM单元的计算公式如下:
遗忘门:
输入门:
候选记忆单元状态:
更新记忆单元状态:
输出门:
隐藏状态:
其中:
ft是遗忘门的输出,用于控制上一个记忆状态对当前时刻的影响;
it是输入门的输出,用于决定当前输入对记忆状态的更新程度;
C~t是候选记忆单元状态;
Ct是当前的记忆单元状态,结合了上一时刻记忆状态和当前时刻的输入;
ot是输出门,用于控制当前记忆状态对输出的影响;
ht是当前时刻的隐藏状态,也是最终的输出结果。
这里,Wf、Wi、WC、Wo分别表示各门的权重矩阵,bf、bi、bC、bob_obo 分别表示各门的偏置项,σ表示激活函数sigmoid,∗表示逐元素相乘操作。
- 损失函数与优化目标
为了优化LSTM模型的性能,定义均方误差 (MSE) 作为损失函数,目标是最小化预测值与实际值之间的均方差。均方误差定义如下:
损失函数公式:
其中,N是数据点的总数,y^i是模型的预测值,yi是实际值。通过最小化MSE,可以确保模型预测结果与真实数据之间的偏差最小。
- R²值的计算
为了评价模型的拟合度,我们使用R²值来衡量模型的预测性能。R²值的计算公式为:
R²值公式:
其中,yˉ是实际值的平均数。如果 R2值接近1,表示模型具有较好的拟合度。
- 模型训练与预测
通过多次迭代(epoch)训练LSTM模型,使得损失函数逐步减小。最终得到的LSTM模型可以用于脉冲星计时噪声的预测。具体过程如下:
对于训练数据集中的每一时间点,输入对应的时间序列数据X 到模型中。
通过模型计算预测值y^。
计算损失函数,反向传播更新模型参数。 - 预测值的反归一化
由于模型训练过程中采用了归一化处理,预测结果需要通过反归一化还原到实际尺度,反归一化的公式如下:
反归一化公式:
Test R-squared: 0.9951323629485885
问题二:考虑对图2中脉冲星定时噪声的未来趋势进行短期(从几天到1个月)和长期(从几个月到几年)的预测,预测验证所需的数据可以在附件1中找到
在脉冲星计时噪声的数学建模中,为了精确描述观测到的脉冲星到达时间 (Pulse Arrival Time, PT) 与预测到达时间 (Predicted Time of Arrival, TT) 之间的偏差(即PT-TT),我们引入了时间序列模型的基本框架。针对论文问题一,利用深度学习模型(特别是长短期记忆网络 LSTM)进行拟合,旨在捕捉时间序列数据中的非线性变化,进而提升模型的拟合精度。
在该问题的数学建模过程中,我们将短期(从几天到1个月)和长期(从几个月到几年)的预测视作时间序列预测任务。基于脉冲星定时噪声数据,我们使用LSTM(长短期记忆网络)模型进行建模。以下是模型的具体数学建模过程和公式推导:
- 数据预处理与归一化
给定脉冲星定时噪声的原始数据为一个时间序列 {PTTT(t)∣t∈[1,T]}表示在时间t的脉冲星定时噪声。
为了将数据适应于LSTM网络的输入要求,我们首先对数据进行归一化处理,将数据变换到 [0,1]区间,以提高模型的收敛速度并防止模型对不同尺度的数据产生偏倚。归一化公式如下:
其中 PTTTmax和 PTTTmin分别表示原始数据的最大值和最小值,PTTT′(t)是归一化后的数据。
- 时间序列数据集的生成
对于短期预测(时间步为30)和长期预测(时间步为60),我们将时间序列转化为输入-输出对(X,y),即:
其中,TTT 表示时间步长,短期预测中 T=30T=30T=30,长期预测中 T=60T=60T=60。这样我们就可以构建出模型的训练和测试数据集。
- LSTM模型架构
LSTM是一种递归神经网络(RNN),其基本单元可以记忆和处理序列数据中的长依赖性。给定一个输入序列 {xt},LSTM单元通过下列一系列公式计算输出:
其中,ft、it、ot分别为遗忘门、输入门和输出门,Ct是单元状态,ht是隐藏状态。该网络结构用于提取时间序列的模式和趋势特征。
- 目标函数
我们定义预测目标为最小化均方误差(MSE),公式如下:
其中,y^i是模型的预测值,yi是实际值,N是测试数据集的大小。
- 预测与评价
使用训练好的短期和长期模型分别进行预测,得到预测序列 {PT^TT′(t)}。最终,我们反归一化还原预测值:
为了评估模型的预测效果,我们计算均方误差(MSE)和平均绝对误差(MAE):
通过绘制短期和长期预测结果,可以直观分析模型在不同时间步长下的预测能力: