在2023年温布尔登绅士队的决赛中,20岁的西班牙新星卡洛斯·阿尔卡拉兹击败了36 岁的诺瓦克·德约科维奇。这是德约科维奇自2013年以来首次在温布尔登公开赛失利 ,并结束了他在大满贯赛事中历史上最伟大的球员之一的非凡表现。
这场比赛本身就是一场非凡的战斗。[1]德约科维奇似乎注定要轻松获胜,他以6-1控制 了第一盘(7场比赛赢6场)。然而,第二盘比赛很紧张,最终阿尔卡雷兹以7-6的比分获 胜。第三盘与第一盘相反,阿尔卡拉兹以6-1轻松获胜。在第四盘开始时,年轻的西班牙 人似乎完全控制了局面,但不知怎么的,比赛又改变了方向,德约科维奇完全控制了局面,以6-3赢得了这一盘。第五盘也是最后一盘开始时,德约科维奇从第四盘领先,但方向又发生了变化,阿尔卡拉兹控制了局面,以6-4获胜。这场比赛的数据在所提供的“2023-温布尔登1701”的数据集“match_id”中。当德约科维奇使用“set_no”列等于1时,你可以看到第一回合的所有分数。令人难以置信的波动,有时是很多分数,甚至是 比赛,发生在那些似乎有优势的球员,通常被归因于“势头”。 字典中对动量的一种定义是“通过运动或一系列事件获得的力量或力”。[2]在体育运 动中,一个团队或球员可能会觉得他们在比赛/比赛中有动力,或“力量/力量”,但很 难衡量这种现象。此外,如果比赛中各种事件如何创造或改变势头,这并不明显。
提供2023年温布尔登男子比赛前两轮后的每一分数据。您可以自行选择包含额外的玩家 信息或其他数据,但您必须完全记录这些来源。将数据用于:(In the 2023 Wimbledon Gentlemen’s final, 20-year-old Spanish rising star Carlos Alcaraz defeated 36-year-old Novak Djokovic. The loss was Djokovic’s first at Wimbledon since 2013 and ended a remarkable run for one of the all-time great players in Grand Slams. The match itself was a remarkable battle.[1] Djokovic seemed destined to win easily as he dominated the first set 6 – 1 (winning 6 of 7 games). The second set, however, was tense and finally won by Alcarez in a tie-breaker 7 – 6. The third set was the reverse of the first, Alcaraz winning handily 6 – 1. The young Spaniard seemed in total control as the fourth set started, but
somehow the match again changed course with Djokovic taking complete control to win the set 6 – 3. The fifth and final set started with Djokovic carrying the edge from the fourth set, but again a change of direction occurred and Alcaraz gained control and the victory 6 – 4. The data for this match is in the provided data set, “match_id” of “2023-wimbledon-1701”. You can see all the points for the first set when Djokovic had the edge using the “set_no” column equal to 1. The incredible swings, sometimes for many points or even games, that occurred in the player who seemed to have the advantage are often attributed to “momentum.” One dictionary definition of momentum is “strength or force gained by motion or by a series of events.”[2] In sports, a team or player may feel they have the momentum, or “strength/force” during a match/game, but it is difficult to measure such a phenomenon. Further, it is not readily apparent how various events during the match act to create or change momentum if it exists. Data is provided for every point from all Wimbledon 2023 men’s matches after the first 2 rounds. You may choose to include additional player information or other data at your discretion,but you must completely document the sources. Use the data to:)
问题一:开发一个模型,捕捉得分发生时的比赛流程,并将其应用于一个或多个比赛。你的模型应该确定哪个球员在比赛的特定时间表现更好,以及他们的表现有多好。提供 一个基于模型的可视化功能来描述匹配流程。注:在网球比赛中,发球者赢得得 分的可能性要高得多。您可能希望以某种方式将其考虑到您的模型中(Develop a model that captures the flow of play as points occur and apply it to one or more of the matches. Your model should identify which player is performing better at a given time in the match, as well as how much better they are performing. Provide a visualization based on your model to depict the match flow. Note: in tennis, the player serving has a much higher probability of winning the point/game. You may wish to factor this into your model in some way):完整内容见文末附件:
针对问题一,我们需要开发一个模型来捕捉比赛中每一分的流程,并应用于一场或多场比赛。模型应能识别在比赛特定时刻哪位选手表现更佳,以及他们的表现优势有多大。此外,还需要提供一种可视化方式来展示比赛流程。以下是具体的解题思路和数学建模过程:
数据预处理:整理和清洗比赛数据,确保数据质量。
特征提取:从数据中提取重要特征,如得分、发球情况等。
模型建立
基本统计模型:计算选手在特定时间段(例如每个游戏或每个集合)的得分率和赢球率。
得分率 Ps:对于每位选手,计算在某一时间段内的得分率,例如每个游戏或每个集合。
动量考量:考虑比赛中的动量变化,例如连续得分或失分可能对选手的心理和比赛表现产生影响。
发球优势调整:由于发球方在网球中通常更有优势,模型中应考虑这一因素。
模型评估与优化:通过比较模型输出与实际比赛结果来评估模型性能,并根据需要进行调整优化。
可视化:根据模型输出创建比赛流程图,直观展示比赛中双方表现的变化。
问题二:
网球教练怀疑“势头”是否在比赛中起着任何作用。相反,他假设一个球员的波动和 成功的跑动是随机的。使用您的模型/度量来评估此索赔。(A tennis coach is skeptical that “momentum” plays any role in the match. Instead, he postulates that swings in play and runs of success by one player are random. Use your model/metric to assess this claim.)完整内容见文末附件:
问题二要求我们使用模型来评估网球教练的观点,即比赛中的动量变化(即一个选手连续取得成功的情况)是随机的,而不是由比赛的动量决定的。为了解决这个问题,我们需要利用之前开发的模型来分析比赛数据,并使用统计方法来评估比赛中的动量变化是否具有随机性。以下是解决这个问题的具体思路和数学建模过程:
步骤 1: 动量指标计算
首先,我们利用第一问题中定义的动量指标 M,这个指标反映了选手在比赛中的连续得分趋势。
步骤 2: 序列随机性检验(Runs Test)
定义游程:在得分序列中,一连串的得分或失分被定义为一个“游程”。例如,连续几分由同一选手赢得构成一个游程。
计算实际游程数量:统计比赛中的总游程数量 N。
计算理论游程数量:
Z检验:
如果 Z 值远离 0(通常绝对值大于 1.96 对应于 5% 的显著性水平),则表示游程数量非常规,暗示非随机性。
步骤 3: 比较分析
将实际游程数量与理论游程数量进行比较。
如果实际游程数量显著不同于理论预期值,则表明比赛中存在非随机性,这可能与动量有关。
步骤 4: 结论
如果统计检验显示比赛中的游程数量显著地偏离随机分布,则拒绝零假设,支持存在动量效应的观点。
如果统计检验显示游程数量与随机分布相符,则无法拒绝零假设,这可能支持教练的观点,即比赛中的得分变化是随机的。
问题三:
教练们很想知道是否有指标可以帮助决定何时比赛的流程将从偏爱一个球员转向另
一个球员。
o利用至少一场比赛提供的数据,建立一个模型来预测比赛中的这些波动。哪
些因素似乎是最相关的(如果有的话)?
o考虑到过去比赛“势头”波动的差异,你如何建议一名球员与另一名球员进
行新的比赛?(Coaches would love to know if there are indicators that can help determine when the flow of play is about to change from favoring one player to the other.
o Using the data provided for at least one match, develop a model that predicts
these swings in the match. What factors seem most related (if any)?
o Given the differential in past match “momentum” swings how do you advise a
player going into a new match against a different player? )
为了解决问题三,我们需要开发一个模型,该模型能够预测比赛中动量的改变,即何时比赛的优势会从一方转移到另一方。以下是解决这个问题的具体思路和数学建模过程:
1. 动量指标定义
定义动量转变指标 M:比赛中的动量转变可以通过连续得分的变化来度量。
2. 特征提取
选择特征 F={f1,f2,…,fm},如破发点赢得情况、非受迫性失误数、一发得分率等。
3. 相关性分析
计算特征与动量转变指标之间的皮尔逊相关系数ρ。
4. 模型选择
在这一步,我们考虑使用机器学习模型来预测比赛中的动量转变。
逻辑回归是一个广泛用于二分类问题的统计模型,它能够给出因变量(即动量转变是否发生)的概率预测。动量转变可以定义为比赛中优势从一位选手转移到另一位选手的事件。
我们可以定义一个二元变量 Y,它的值为 1,如果在接下来的几分中动量发生了转变(例如,一位选手连续得分后,对手开始连续得分),否则为 0。
5.2 特征选择
基于数据,选择一系列可能影响动量转变的特征X=[x1,x2,…,xn],
逻辑回归模型可以表示为:
5.4 参数估计
使用最大似然估计法来估计模型参数。