说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。
1.项目背景
时间序列分析中的Theta模型(Theta Model)是由Athanasios Theodoridis在2008年提出的一种统计预测方法,它特别适用于具有非平稳性和季节性的数据集。Theta模型结合了趋势和季节性成分的灵活建模,并且在处理长周期季节性、多重季节性和不规则间隔的时间序列时表现出了优越性。
Theta模型的核心思想是将时间序列分解为几个不同的组成部分:
趋势部分:通过平滑的方式捕获数据随时间变化的基本趋势。
季节性部分:对于有规律重复模式的数据,模型能够捕捉到季节性效应。
残差部分:剩余的随机波动或噪声。
相比于传统的指数平滑(如简单指数平滑、Holt-Winters方法等)或其他复杂模型(如ARIMA模型),Theta模型的一个优势在于它对季节性成分的估计更为灵活,可以适应各种长度的季节周期,并且允许季节性强度随时间而变化。
具体地,Theta模型定义了两种更新方程:一种用于趋势项,另一种用于季节性项。模型参数通过最小化预测误差的平方和来估计,通常采用某种优化算法进行求解。
总结来说,Theta模型是一种高级的时间序列预测工具,它旨在通过有效的参数估计和灵活的组件分解来提高对非平稳时间序列的预测精度。
本项目通过ThetaModel算法来构建时间序列分析Theta模型。
2.数据获取
本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:
编号 | 变量名称 | 描述 |
1 | DATE | 日期 |
2 | HOUST | 房价 |
数据详情如下(部分展示):
3.数据预处理
3.1 用Pandas工具查看数据
使用Pandas工具的head()方法查看前五行数据:
关键代码:
3.2 数据缺失查看
使用Pandas工具的info()方法查看数据信息:
从上图可以看到,总共有1个变量,数据中无缺失值,共484条数据。
关键代码:
3.3 数据描述性统计
通过Pandas工具的describe()方法来查看数据的平均值、标准差、最小值、分位数、最大值。
关键代码如下:
4.探索性数据分析
4.1 变量直方图
用Matplotlib工具的hist()方法绘制直方图:
从上图可以看到,变量主要集中在500~2250之间。
4.2 折线图
从上图中可以看到,数据是不断波动的。
5.构建Theta模型
主要使用ThetaModel算法,用于时间序列分析Theta模型。
5.1 构建模型
编号 | 模型名称 | 参数 |
1 | Theta模型 | method="additive" |
5.2 模型摘要信息一
5.3 模型摘要信息二
采用加法形式来处理趋势和季节性效应。
6.模型评估
6.1 生成刺猬图
6.2 各成分预测
Trend:
趋势(Trend)是时间序列中长期上升或下降的线性或非线性模式,它反映了数据随时间推移的整体发展方向。在时间序列分析中,提取趋势成分可以帮助我们识别并预测数据在未来可能遵循的持续变化。
SES (Simple Exponential Smoothing):
简单指数平滑是一种处理时间序列趋势的方法,通过赋予最近的数据点更高的权重来估计当前的趋势值。它主要用于捕捉数据中的平稳趋势而没有明显季节性波动的部分。 SES模型只考虑了趋势部分,并且对于不包含季节性的数据效果良好。
Seasonal:
季节性(Seasonality)是指数据在固定的时间间隔(如日、周、月、年等)内呈现周期性的重复模式。在时间序列分析中,分离出季节性成分是为了更好地理解这些周期性影响,并能准确地预测未来在相同时间段内的表现。
7.结论与展望
综上所述,本文采用了ThetaModel算法来构建时间序列分析Theta模型,最终证明了我们提出的模型效果良好。此模型可用于日常产品的预测。
# 本次机器学习项目实战所需的资料,项目资源如下:
# 项目说明:
# 获取方式一:
# 项目实战合集导航:
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
# 获取方式二:
链接:https://pan.baidu.com/s/1v6Q7gA0nJaUXtU4caZiUmQ
提取码:xjg9