2020年认证杯SPSSPRO杯数学建模
C题 抗击疫情,我们能做什么
原题再现:
2020 年 3 月 12 日,世界卫生组织(WHO)宣布,席卷全球的冠状病毒引发的病毒性肺炎(COVID-19)是一种大流行病。世卫组织上一次宣布大流行是在 2009 年的 H1N1 流感爆发期间,该病感染了世界近四分之一的人口。但是,当时该决定因制造了不必要的恐慌而受到批评。SARS 尽管影响了 26 个国家,但仍未被认为是大流行病,MERS 也没有被认为是大流行病。世卫组织表示,大流行是“新疾病的全球传播”。对于达到大流行水平与否,当下没有定量的严格标准,也没有触发该定义的病例或死亡数量阈值。也就是说“大流行”特征所指的不是疾病的严重性,而是疾病传播的广泛程度。目前,在全球已有超过 200 个国家/地区报告了病毒感染病例。但由于各国的人口和经济情况差别较大,病毒检测能力和国家防疫政策都不尽相同,所以报告的病例是否就真实反映了病毒传播的情况? 如何能够对于疫情情况给出更加有效的量化指标,这是世卫组织非常关心的问题。
“无症状感染者”全称是“新冠病毒无症状感染者”,指无临床症状、但呼吸道等标本新冠病毒病原学检测呈阳性者。无症状感染者可分为两种情形:一是感染者核酸检测呈阳性,经过 14 天潜伏期的观察,均无任何可自我感知或可临床识别的症状与体征,始终为无症状感染状态;二是感染者核酸检测呈阳性,采样时无任何可自我感知或可临床识别的症状与体征,但随后出现某种临床表现,即处于潜伏期的“无症状感染”状态。无症状感染者存在传染性。但传染期长短、强弱有待确定。很多人担心“无症状感染者”会成为新的传染源,那么,到底会不会呢? 部分专家认为鉴于无症状感染者的呼吸道标本能检出病原核酸,但由于无咳嗽、打喷嚏等临床症状,病原排出体外引起传播的机会较确诊病例相对少一些。另外,《英格兰医学杂志》上近日有报告说,一名感染者从未出现症状,但所释放的病毒量与出现症状的人相当。因此,也有一部分科学家猜测:一些感染者“在症状轻微或无症状时具有高度传染性”。但要强调的是,类似状况的患者规模仍不清楚。
早在 2 月 17 日,中国疾控中心流行病学组在《中华流行病学杂志》上发表的大规模流调论文就提到,截至 2 月 11 日,中国疾控中心共收到国内报告病例 72314 例,含有 889 例无症状感染者,比例约占 1.2%。日本一个研究小组的报告称(研究论文 3 月 12 日刊登在 Eurosurveillance 杂志),对钻石公主号游轮上的 634 名新冠肺炎病例进行统计模型分析,估计无症状感染者所占比例为 17.9%。张文宏团队撰文指出,以目前部分研究为例,感染新冠病毒的人群中,无症状感染者的比例大约为 18%—31%。不过有些患者仅出现很轻微的症状,在隔离观察期间也不一定会被发现,也常常被认为是无症状。无症状感染者的识别具有一定的困难,如何快速地、准确地、最小成本地识别和判断也是世界各国非常关注的问题。
第二阶段问题: 请你的团队结合第一阶段的问题,建立合理的数学模型来解决以下问题:
1. 1918 年的西班牙流感是人类历史上第二致命的传染病,在 1918–1919年曾经造成全世界 10 亿人感染,2 千 5 百万到 4 千万人死亡(当时世界人口约为 17 亿人);其全球平均致死率约为 2.5%–5%,和一般流感的0.1% 比较起来较为致命,感染率也达到了 5%。然而大流行的第一波并不是最致命的,实际上,1918 年上半年流感大流行造成的最初死亡人数相对较低,基本上只是普通的流感。在那年 10 月至 12 月的第二波疫情中,死亡率最高。1919 年春天的第三次流感比第一次更致命,但比第二次要轻。随着全球新冠疫情拐点的到来,各国都在启动全面复工、复产的计划,但是必须承认这次疫情有出现第二次高峰的风险,第二次高峰一旦出现可能会更加可怕,对于经济的影响可能是致命的。请建立数学模型,选择三个国家进行研究,评估它们出现第二次高峰的风险大小,并给出复工复产的政策性建议,以避免第二次高峰的出现。
2. 对一种刚刚出现的、传染迅速的流行病而言,有许多疾病的特征是不易准确测量的。例如潜伏期的长度分布,无症状感染者的比例,通常的测试方法对潜伏期和无症状感染者的假阴性率和假阳性率等等。当这些参数的取值不同时,防疫工作应以何种形式开展可能就会出现差异,疾病流行的最终趋势也会有所不同。请建立合理的数学模型,讨论哪些参数是最重要的,而这些参数如果不准确,会对防疫工作和疾病流行的过程带来怎样的影响。
3. 我国的无症状感染者的数量持续降低,但是并未清零,也有一些无症状感染者未被发现,请结合第一阶段的模型,充分考虑我国的疫情现状,评估重启大型体育赛事(比如中超足球联赛或者 CBA 篮球联赛)的可能性,并给出分阶段(无观众赛事、部分观众赛事、全部观众但要求戴口罩赛事、全面放开赛事)重启的时间表。
4. 为了能够顺利重启一些大型体育赛事,给有关部门写一份有关于疫情防控的备忘录。注:建模所需的部分数据可以从 https://github.com/datasets/covid-19下载。
整体求解过程概述(摘要)
新冠肺炎爆发以来,对世界各国经济的发展造成了严重的影响。为了评估疫情出现第二次高峰风险的大小,确定影响疫情的重要参数,预测我国疫情持续时间,本文建立了 Fisher 多元判别模型、BP 神经网络模型、TOPSIS 算法、插值方法和 GM(1,1)模型,对疫情的影响进行了综合评价和预测。
针对问题一,本文首先对所给附件进行数据预处理,通过上网收集数据,选取所需数据,对所得原始数据做标准化处理、归一化和可视化分析。以人口密度、人口流动、经济条件、医疗条件、防疫措施五项指标建立 Fisher 多元判别模型,对美国、德国、中国三个国家疫情出现二次高峰风险大小进行预测,求解出 Z1<Z2,Z12<Z22,Z13>Z23,即美国、德国疫情出现二次高峰风险大,中国疫情出现二次高峰风险小。建立 BP 神经网络模型,借助 MATLAB 工具并建立程序,得出了美国、德国、中国疫情出现二次高峰风险大小计算结果的准确率分别为 98%、96%、98%,验证了 Fisher 多元判别分析模型的准确性。
针对问题二,为构建一个多指标综合考量的评价体系,挑选出主要影响防控工作及疾病流行的参数,首先,为了提高评价的准确性,此处选取了 7 个对疫情和防控有重要意义的参数。考虑到各参数需要充分结合疫情的发展定量态势去说明和评价,因此,我们选取全球疫情总人数进行动态跟踪,取 8 万、30 万、240 万、430 万共四个节点。对各参数不同节点数据进行了标准化和归一化处理,建立 TOPSIS 算法,进行了综合评价。选取了综合评分前 4 的四个参数,依次是潜伏期长度、无症状感染者的比例、医疗设施启用程度和假阴性/阳性率,分别对各参数的取值不准确时会对防控工作及疾病流行有哪些不同程度的影响进行了详细的分析和说明。
针对问题三,首先对时间序列不连续的实测无症状感染者数据采用分段线性插值和三次样条插值方法进行还原。同时选取了 3 月 30 日左右疫情的爆发热点时期,全国累计确诊总人数 82545 人为依据,选取一阶段的 4.7%的无症状感染者比例对社会总群体无症状感染者数量进行了预测,为 3880 人。分别对现阶段实测的和社会群体预测的无症状感染者数量建立了 GM(1,1)模型,进行了时间轴预测。结果显示,在 7 月 16 日当天,能够检测得到的实测无症状感染者人数将会为 0;8 月 24 日对社会群体进行总体预测的无症状感染者人数将会为 0。以此作为依据,制定了一套完备的大型体育赛事重启和实施建议。
针对问题四,本文依据问题一、问题二和问题三模型的建立,评估出三个国家疫情出现二次高峰风险大小,得出重要参数,预测出疫情持续时间。结合参考文献,简明扼要的撰写有关疫情的防控备忘录,对疫情的防控起到一定的指导作用。
问题分析:
问题 1 的分析
针对问题一本文首先对所给附件进行数据预处理,通过上网收集数据,选取所需数据,对所得原始数据做标准化处理、归一化和可视化分析。以人口密度、人口流动、经济条件、医疗条件、防疫措施五项指标建立 Fisher 多元判别模型,对美国、德国、中国三个国家疫情出现二次高峰风险大小进行预测。建立 BP 神经网络模型,借助 MATLAB工具并建立程序,求出美国、德国、中国疫情出现二次高峰风险大小计算结果的准确率,验证 Fisher 多元判别分析模型的准确性。
问题 2 的分析
针对问题二,为构建一个多指标综合考量的评价体系,挑选出主要影响防控工作及疾病流行的参数。首先,为了提高评价的准确性,此处选取了 7 个对疫情和防控有重要意义的参数。考虑到各参数需要充分结合疫情的发展定量态势去说明和评价,因此,我们选取全球疫情总人数进行动态跟踪,取 8 万、30 万、240 万、430 万四个节点。对各参数不同节点数据进行了标准化和归一化处理,建立 TOPSIS 算法,进行综合评价,选出最重要的参数,详细分析说明当各参数的取值不准确时会对防控工作及疾病流行有哪些不同程度的影响。
问题 3 的分析
针对问题三,首先对时间序列不连续的实测无症状感染者数据采用分段线性插值和三次样条差值方法进行还原。同时选取了 3 月 30 日左右疫情的爆发热点时期,全国累计确诊总人数 82545 人为依据,选取一阶段的 4.7%的无症状感染者比例对社会总群体无症状感染者数量进行了预测。分别对现阶段实测的和社会群体预测的无症状感染者数量建立了 GM(1,1)模型,进行了时间轴预测。预测我国疫情持续时间,制定一套大型体育赛事重启和实施建议。
问题 4 的分析
针对问题四本文依据问题一、问题二和问题三模型的建立,评估出三个国家疫情出现二次高峰风险大小,得出重要参数,预测出疫情持续时间。结合参考文献,简明扼要的撰写有关疫情的防控备忘录。
模型假设:
假设多元判别可忽略各因素间的影响
假设问题二中的多指标均可看为纵向指标,对疫情起到纵向影响
假设数据插值时,两种插值方法间均可忽略较大区间对整体的影响
假设问题三中用现阶段无症状感染者去推断社会总群体中的无症状感染者数量是可行的
论文缩略图:
全部论文请见下方“ 只会建模 QQ名片” 点击QQ名片即可
部分程序代码:(代码和文档not free)
p=[А];P=P';
T=[10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;1
0;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;10;01;01;01;01;01;01;0l;01;
01;01;0l;01;01;01;01;0l;01;01;01;01;0l;01;01;01;01;0l;01;01;01;01;0l;01;01;01;01;0l;01;01;0
1;01;0l;01;01;01;01;0l;01;01;01;01];
T=T’;
net=newff(minmax(р), [21, 8, 2], {'tansig','tansig','logsig'} ,’traingdm');
net.trainParam.epochs=40000;
net.trainParam.goal=0.01;
net.trainParam.lr=0.01;
net=train(net,p,T);
p1= [B];
p1=p1;
Y=sim (net,p1);
x=[0.4 0.6 0.78 0.7
0.43 0.62 0.75 0.8
0.75 0.70 0.64 0.50
0.80 0.65 0.43 0.50
0.60 0.67 0.73 0.78
0.40 0.52 0.67 0.75
0.45 0.68 0.79 0.75
];
y=zscore(x)
clc, clear
a=[0.4 0.6 0.78 0.7
0.43 0.62 0.75 0.8
0.75 0.70 0.64 0.50
0.80 0.65 0.43 0.50
0.60 0.67 0.73 0.78
0.40 0.52 0.67 0.75
0.45 0.68 0.79 0.75
];
[m,n]=size(a);
for j=1:n
b(:,j)=a(:,j)/norm(a(:,j));
end
w=[0.4 0.3 0.1 0.2];
c=b.*repmat(w,m,1);
Cstar=max(c);
Cstar(4)=min(c(:,4))
Cstar(3)=min(c(:,3))
C0=min(c);
C0(4)=max(c(:,4))
C0(3)=max(c(:,3))
for i=1:m
Sstar(i)=norm(c(i,:)-Cstar);
S0(i)=norm(c(i,:)-C0);
f=S0./(Sstar+S0);
[sf,ind]=sort(f,'descend')