指北君不懂足球,只是懂点数据。简单聊下欧洲杯预测。
体育活动中的数据分析和预测
数据早就融入到了专业的体育活动中,无论是提高运动员的表现,还是战术和策略制定,伤病预防和恢复,甚至球迷和商业分析,都离不开数据的分析和预测。
在足球比赛中,可以通过分析比赛数据(如跑动距离、传球准确率、射门次数等),教练和分析师可以评估运动员和球队的表现,识别强项和弱点;而在练习过程中,可以进一步针对运动员设计个性化的训练计划,以提高运动员的体能和技术水平, 甚至使用在每一次运动过程中通过心率监测来调整训练强度和频率;在比赛前,可以通过分析对手的比赛数据,可以发现对手的战术模式、强项和弱点,从而制定有效的比赛策略;在比赛后,对于受伤运动员的恢复过程可以通过数据分析进行跟踪和评估,确保其在安全的情况下恢复训练;通过社交媒体数据分析,了解球迷对比赛的反应和互动,通过分析销售数据和市场趋势,优化营销策略等等。
在这里,我们简单使用现有数据来看一下2024欧洲杯的预测。
欧洲杯简介
欧洲杯(UEFA European Championship),全称为欧洲足球锦标赛,是由欧洲足球协会联盟(UEFA)组织的欧洲国家队间的足球赛事。它是世界上最重要和最受关注的足球赛事之一,仅次于国际足联世界杯(FIFA World Cup)。
欧洲杯的首届赛事于1960年在法国举行,当时被称为“欧洲国家杯”(European Nations' Cup)。赛事每四年举行一次,通常在偶数年,与世界杯交错进行。
最初只有四支球队参加决赛圈比赛,之后逐渐扩展为八支、十六支,直到2020年扩展到二十四支球队。参赛球队通过预选赛阶段决定,预选赛阶段由各个欧洲国家队参加,以争取进入决赛圈的名额。目前的赛制包括小组赛和淘汰赛两个阶段。小组赛阶段,二十四支球队被分成六个小组,每组四支球队。每组前两名和四个成绩最好的第三名进入淘汰赛阶段(需要这四个队伍才能凑齐后面的比赛)。淘汰赛阶段包括八分之一决赛、四分之一决赛、半决赛和决赛。
欧洲杯数据分析预测步骤
对于足球比赛的预测来说,其实和任何一个预测模型的建立流程并无区别。包括数据收集、预处理、数据分析与特征选择、模型选择与训练、模型评估、实际预测等多个步骤。其中相对花费时间较多的是数据收集过程,收集的数据包括:
-
历史比赛数据:包括过去比赛的结果、进球数、红黄牌、控球率等。 -
球员数据:球员的个人表现数据,如进球数、助攻数、防守数据等。 -
球队数据:球队的整体表现数据,如胜率、攻防效率等。 -
环境数据:包括比赛场地、天气条件、观众数量等。 -
即时数据:球队和球员的当前状态、伤病情况等。
当收集好这些数据之后,就可以进行后续的工作了。
彩票公司(或博彩公司)
他们其实也是这么做的。收集历史数据,然后使用一些统计模型,再参考一些专家建议,得到对比赛的一个初步预测结果。
对于他们来说,比赛的预测结果当然很重要,但更重要的是风险管理, 也就是赔率的设计: 如何将预测的概率结果转换为赔率。
假设有一场足球比赛,球队A对阵球队B。博彩公司通过分析历史数据、统计模型和专家意见,得出以下初始概率:
-
球队A胜率:50% -
平局概率:25% -
球队B胜率:25%
初始赔率可以这样计算:
-
球队A胜:1/0.50 = 2.00 -
平局:1/0.25 = 4.00 -
球队B胜:1/0.25 = 4.00
如果大量资金投注在球队A获胜上,博彩公司会将球队A的赔率降低,例如调整到 1.80,同时提高平局和球队B胜的赔率,以平衡投注和风险。这也就是在不同的时间段博彩公司的赔率发生变化的根本原因 -- 平衡自己的风险。
除了这种动态赔率调整以外,他们还会使用一些其他的策略来平衡风险,比如限额策略,设置每个玩家或每场比赛的最大投注金额,防止单个大额投注对公司财务的冲击;再比如,多样化策略,提供多种投注类型,如胜平负、半场/全场比分、总进球数等等,以吸引不同类型的投注者,并分散单一结果的风险。
甚至还可以使用一些对冲策略,在其他博彩平台上对冲部分风险,即在自己平台上某个结果的投注量过大时,在其他平台上下注相同结果,以分散风险。甚至为一些特定高风险赛事购买保险,以防止由于异常结果导致的巨额亏损。
当然了,实时监控也是他们风险管理的重要一环。对于被认为有异常投注行为的客户,列入黑名单,限制或禁止其投注。或者,嗯嗯。
根据上面的赔率,如果有 2 个人押注 A 队胜利,其他 2 个人分别压住平局或球队 B 胜利,那么博彩公司是不挣钱的。他们主要是通常通过设置适当的利润率(也称为“过关”或“总返还率”)来确保无论比赛结果如何,他们都能从投注中获利。也就是说,总返还率通常小于100%,以保证博彩公司有一定的利润。一般来说,在设置了总返还率之后,还需要根据投注金额分布动态调整赔率才可能保证盈利。
对于 2024 欧洲杯
上面说过的足球数据是一些低维度的特征,对于整体比赛来说,肯定都是有用的,但考虑到时间等成本因素,我们可以直接使用一些高维度的特征。高维度的特征虽然用起来很方便,但毕竟损失了很多细节,需要"提前"有这个意识。
在 wiki 上,有一个非常不错的高维度特征:球队阵容。
https://en.wikipedia.org/wiki/UEFA_Euro_2024_squads
比如对于德国队来说,网页列出了每个队员的基本情况,姓名、出生年月、出场次数(Caps)、进球数,以及所在俱乐部的名字。提取数据是一个相对来说简单的过程,通过几个 xpath
节点很容易获取到我们想要的数据。
然后我们可以直接把结果塞入到 KNIME Network Mining Extension(网络挖掘扩展)的 Network Analyzer
节点中。这个节点配置其实还是有点复杂的,至少需要对图论有一些简单了解。
我们在这里重点使用 Hubs & Authority
。指北君给你举一个例子让你理解这两个概念。在一个公司,保安大叔认识所有工作人员,他就是有着极高 Hub
分数的节点,而一些销售专家、技术专家、以及有强大后台权势的人就是有着极高的 Authority
分数的节点。
在我们的例子中,Hub
分数高的就是俱乐部节点,分数越高,说明它给各个不同的欧洲国家队输送的队员多。
图片中是 Hub
分数比较靠前的俱乐部,他们分别是:
巴黎圣日尔曼
皇家马德里
巴塞罗那
国际米兰
拜仁慕尼黑
曼彻斯特城
勒沃库森
布拉格斯拉维亚
兵工厂
米兰
莱比锡红牛
利物浦
多特蒙德足球俱乐部
罗马
尤文图斯
可以看出,它们当 Hub
是有一定的合理性的。
Authority
分数高的就是欧洲国家队。
对于德国对来说,它们最大的 Hub 连接点是拜仁和斯图加特。
指北君在看图的时候,发现了一个异常粗的 edge, Czech Republic
(捷克) 和 Slavia Prague
(布拉格斯拉维亚) 之间的 edge。捷克国家队 26 人的大名单中,有 9 人来自布拉格斯拉维亚,amazing!
其他
最简单的投注策略就是,两队比赛,投注高 Authority
的队伍即可。
指北君买了 3 张彩票,一共花了 30 元。买的是那种连续对 5 场比赛就能中奖的彩种。
欧洲杯已经过去两天了,目前来看,其中有一张彩票,5 场中已经中了 4 场,还有一场今晚出结果。其余的,目前已经出结果的比赛,均是对的。
在指北君完全不懂足球的前提下,根据这种简单模型的指导,结果让人感到惊讶。
有人会觉得这是赌博。但 Gambling 和 Betting 是有区别的。
人生中的许多选择何尝不是一种 Gambling,我们能做的也就是,度量风险与收益,衡量目标和意义,做出更明智的 Betting。
参考
-
Using Graph Theory and KNIME Analytics Platform to Predict the EURO 2024 Outcome | by Martin D Aus A | Low Code for Data Science | Jun, 2024 | Medium -
GraphTheory – KNIME Community Hub
本文由 mdnice 多平台发布