基于数据预测下的减少非法野生动物贸易研究
近年来,非法野生动物贸易每年涉及的金额高达 265 亿美元,被认为是全球第四大 非法贸易。本文基于收集的数据, 对非法野生动物贸易进行研究。
问题一,为了确定五年项目的研究对象我们利用非法野生动物为关键词对各国政府 进行搜索。为了更加突出其结果,我们绘制了词云图对出现频数进行可视化表达。通过 结果可以看出美国的搜索尤为明显,因此本文选择美国为主客户。为了深入研究美国与 相关指标,我们利用知网、 PubMed 、Google Scholar 等期刊检索网站以非法野生动物进 行检索, 再以美国为关键词进行二次检索。最终得出美国出现频率最高的 16 个指标作 为该问题的指标评价体系。并使用语言大模型(Chat GPT4.0)对收集的指标进行分类 得出权力、资源和兴趣三类一级指标的划分。
为了找到相关的数据, 利用 python 数据爬虫以及自行寻找等方式,在国家统计局、 工信部、能源局、世界银行等开放数据库获取数据。对于数据预处理, 利用收集到的数 据集利用 q-q 图以及 k-s 检验判定分布方式,得出数据存在部分服从正态分布、部分不 服从。因此,对于服从正态分布的数据使用 3σ原则判定异常值, 对于不服从的数据使 用箱线图判定异常值。将异常值替换为缺失值,对于缺失值,这里采用牛顿线性插值的 方式。由于指标数量过多,这里使用 KMO 检验和 Bartlett 球形检验判定指标独立性,
对于通过检验的使用主成分分析法进行降维,对于未通过检验的指标使用相关性分析进 行降维。利用降维后的数据进行相关性分析, 判断指标与选择的四个因变量的关系,利 用数据预处理之后的数据,建立多元线性回归模型进行预测。
对于问题二,利用联合国发布的 World Wildlife Crime Report 中指出的相关数据,
等一些文献支撑我们可以看出选择美国作为研究的主题。利用问题一选取的三个一级指 标与四个因变量构建偏最小二乘法回归分析, 分析每一个因变量与三个指标的关系。在 有五年干预的情况下我们直接使用线性回归模型对三个自变量进行预测。以没有干预的 预测值与实际的五年项目进行对比,以来来说明客户。
问题三, 基于问题一的指标体系构建方式, 我们发现会造成部分关键指标的丢失。 因此,我们对未选择的其他指标进行分析, 根据美国统计年鉴对三个一级指标的描述, 进一步得出新的指标来表示对国内经济其他部门的债权作为新的额外的权力以及能源 使用量作为资源。
问题四, 对实施项目后进行预测。首先, 利用常规数据直接进行预测, 得到没有实 时项目下未来 10 年的情况。再利用五年项目的规定,对未来五年每年的数据进行插值, 得到新的数据集,利用该数据集对未来十年进行预测。最后比对两种情况在的差异性。 在进行灵敏度分析完成对问题五的求解。
综上所示, 本文基于收集的数据对非法野生动物贸易建立了预测模型进行预测研究, 以此实现对五年项目的描述,并写出一份报告呈现给美国政府。
关键词: 非法野生动物贸易、预测模型、加权平均预测
目录
一、 问题重述 5
1.1 问题背景 5
1.2 问题回顾 6
二、 问题分析 7
2.1 数据分析 7
2.2 问题一分析 7
2.3 问题二分析 8
2.4 问题三分析 8
2.5 问题四、五分析 8
三、 模型假设 9
四、 符号说明 9
五、 问题一模型建立与求解 10
5.1 数据收集 10
5.2 数据清洗 14
5.2.1 异常值判定与处理 14
5.2.2 缺失值寻找与处理 21
5.2.3 数据降维 22
六、 问题二、三模型的建立求解 31
6.1 问题二客户解释性 31
6.2 数据驱动分析 33
6.3 新指标体系的构建 39
6.4 新降维数据 41
七、 预测模型的建立与求解及灵敏度分析 42
7.1 多元线性回归模型的构建与求解 42
7.2 ARIMA 预测模型的建立与求解 44
7.2.1 平稳性检验 44
7.2.2 模型的选择 452024美赛F题高质量成品论文57页+1-4问代码数据集+运行结果表+保姆级讲解