一定要点击文末的卡片,进入后,即可获取完整论文!!
首先,我们需要对缺失的 speed_mph 进行插补。缺失值处理是数据预处理的
重要环节之一。可以采用均值、中位数或者根据其他相关特征进行预测的方法来
填补缺失值。在这里,我们可以考虑使用其他相关的特征来预测 speed_mph 的缺
失值。
针对问题 1,题目要求建立一个模型捕捉得分发生时的比赛流程( flow of
play),并将其应用到一场或多场比赛中。并用该模型确定哪位球员在比赛中的
某个特定时间段表现更好,以及他们的表现好到什么程度。对于这个问题,可以
先建立一个评价模型。在建立评价模型时,应先对特征进行构建。由于题目所给
特征较多,可以考虑使用数据降维模型对特征进行合并或筛选。然后,根据题目
所给特征计算出在每场比赛中每个时间点每位选手的表现得分。得到表现得分后,
可以以事件时间点为自变量,以表现得分为因变量建立非线性回归模型,并基于
智能优化算法对参数进行求解。
针对问题 2,我们需要验证"势头"在比赛中的作用。我们可以统计每个时间
点选手的表现得分,然后通过 Kruskal-Wallis H 检验来检验选手表现与得分情况
之间的关系。这可以帮助我们确定在比赛中,选手的势头对表现得分是否有显著
影响。
针对问题 3.1,题目要求预测比赛中的波动情况,并计算哪些特征与波动之
间的关系最强。这里可以先对波动进行归类,将其转变为分类变量。然后将得分
表现及其余特征作为输入、将波动种类作为输出,构建神经网络预测模型。这里
可以考虑运用智能优化算法等改进的神经网络。然后,可以对特征的重要性进行
反解,得出对于波动来说什么特征的重要性较大。
针对问题 3.2,题目要求对球员在新的比赛中对阵不同的球员时给出不同的
建议。这里可以针对前述分析中得出的较重要的特征,统计出现较好的结果时的
数据分布。
针对问题 4,题目要求检验模型的预测性能并讨论其泛化性能。对于该问题,
可以采用 precision、 recall、 accuracy 等指标对模型的精度进行评价。针对模型的
特征,可在未来考虑将选手的经验、水平等因素纳入分析中,并重新利用模型预
测结果,分析精度是否会提升。分析各个特征对于其余赛事是否有适用性,对于
无法迁移的特征,若删除该特征后能否保持较好的预测精度。
1 基于 BP 神经网络的缺失值插补
对数据集进行检查,发现数据表中 rally_count、 serve_width、 serve_depth、
return_depth 和 speed_mph 均存在缺失值,故需对缺失值进行插补。
在本文中,基于 BP 神经网络对缺失值进行插补。基于 BP 神经网络对缺失
值进行插补是一种很有前景的方法。 BP 神经网络是一种常见的人工神经网络,
能够通过反向传播算法来不断调整网络参数,从而实现对复杂模式的学习和逼近。
这种方法在缺失值插补的场景中具有一定的优势,特别是当数据之间存在复杂的
非线性关系时。
首先,我们可以将数据集中的非缺失值作为训练集,将缺失值对应的特征作
为目标值,构建 BP 神经网络模型。通过不断迭代训练,神经网络可以学习到特
征之间的复杂关系,从而能够对缺失值进行较为准确的预测。
BP 神经网络是是一种多层前馈算法,由输入层、隐含层和输出层组成。层
与层之间有工作信号与误差信号传播。如下图所示为神经网络结构图。