注意:我已经为我的兴趣完成了这本书的翻译,并详细询问了格雷厄姆博士。任何翻译和发布超过30%的书目内容都可能对作者的版权产生影响。因此,我将以注释和注释系列的形式总结书中内容的一小部分。
如果您已经联系了Graham博士,讨论了大中国的版权并需要翻译手稿,则可以直接与我联系。我是投资银行业的模型分析师,已经从事足球战术分析已有十多年了。我可以更好地匹配书中的基本概念和理论。
翻译这本书始终是业余工作。如果有任何错误和遗漏,请随时通知和修改它们。
原始作者简介:
伊恩·格雷厄姆(Ian Graham)博士是体育咨询公司Ludonautics的创始人,该公司开发了用于预测足球比赛和球员绩效分析的统计工具。他是席卷足球世界的数据革命的原始设计师之一。 Graham博士于2012年至2023年在利物浦足球俱乐部担任研究总监,并在英超联赛中建立了第一部门,以独立分析足球数据。他曾在决策技术公司工作,并担任足球研究主管。他拥有剑桥大学物理学博士学位。
前言:
我作为量化的一生(中文翻译:kuanke sheng)由Emmanual Derman撰写,是我们这一代几乎所有“ Kuanke”必读的书。与Derman的学术成就相比,这本书远非学术杰作,但在某种程度上,物理学教授转变为主要定量的心理旅程是该行业中学术界某个分支的果实 - 这也是科学的魅力。
格雷厄姆博士的书就像足球模特领域的“广阔的客人生活”。模型的描述简单而有趣。更重要的是向读者展示该模型应如何在世界顶级俱乐部中发挥作用,并在闯入和实验后开花并承受果实。
当我刚开始一个相关的专业时,运动和量化之间的联系像雨后一样涌现出来。但是,当时,无论是在业内还是外部,甚至是足球行业的那些人,足球界的人们都很难接受物理和数学部的毕业生从事足球运动,但是应用数学是这样的。这不是一个现实,一旦您进入此字段,就可以理解。在这里,您需要积累知识才能看到广阔的前景 - 不仅是交易,不仅是衍生品,而且还广泛的体育部门:博彩公司,足球游戏,战术分析,球员分析...都有各种领域。一旦掌握了基本概念,您会发现在足球中应用数学是一件非常自然的事情,远远不如外界描述它。
这不仅是因为足球的可重复性 - 利用历史来预测未来的未来本质,而且还因为基础技术的发展越来越多,您不再拥有这些基本基础数据。在过去的十年中,大型模型的发展为学术领域提供了更多的可能性。
作者对所谓的“大数据”感到非常厌恶。模型是模型,数学是数学。本质上,这不是每个人都可以深入讨论的内容和主题,因为它并不便宜。格雷厄姆博士在利物浦的经验以及行业数据分析师所面临的困境实质上是指向这一点 - 是的,您甚至可以使用最先进的技术来解释问题,但是问题的核心是我们是否可以在数学上而不是数学上可以用数学上的工具来说明问题。在行业通常没有这种能力之前,数据模型确实会有一种或另一种问题。
但是话又说回来,如果数据模型存在问题,它的开发是否毫无意义?当然不是。正如交易者在查看利润和损失归因声明时总是无法解释的利润和损失列,无论是足球中的典范还是其他模型一样,目标是努力接近目标,而不是选择放弃,因为他们无法达到目的。就像应用数学的许多领域一样,数学模型的动机,论证,验证和产生并不是本质上的差异。在我的行业中,这是将新模型投入生产和推出的漫长过程。您面临的最无助的怀疑通常来自非学术领域 - 这是正常的。学术界的事物可以通过朝这个方向不断地不断改进。您必须给新事物。
但是,正如我所说,这不是一个便宜的话题。至少,让我们用格雷厄姆博士的著作作为介绍,使讨论更有价值。
第1章地球上最强大的团队
利物浦将在历史上与巴塞罗那与巴塞罗那进行比赛。我在利物浦工作,很荣幸获得两张比赛的门票 - 但我决定把它们放在架子上。那是2019年5月,我们已经进入了冠军联赛的半决赛 - 足球比赛中最负盛名的俱乐部赛事。
坦率地说,自2012年加入利物浦以来,我已经受够了,我们经历了2014年英超联赛冠军的痛苦,2016年,我们以半场领先的领先优势输掉了UEFA杯决赛,在2018年,我们在欧洲冠军联赛决赛中输给了皇家马德里。而现在,在2019年,我们在巴塞罗那半决赛的第一回合中吞下了0-3的损失,这是一个幻想,可以扭转这种劣势。这些经历使我感到身体和精神疲惫,我真的不想面对另一个巨大的失败。此刻,我的朋友Jin问我是否有额外的门票可以观看这场比赛。他实际上只是尝试了一下,但是说如果他不问,他会后悔的。我告诉他我确实有门票,但我不会去现场。他认真问我是否疯了,那是冠军联赛的半决赛!那是巴塞罗那!那是狮子座!我意识到他是对的 - 我以前从未见过梅西在现场比赛,只是为了看到世界上最伟大的球员,这场比赛值得继续。
我做的工作是我不想去的原因。作为利物浦的研究总监,我的角色是获取,分析和解释有关足球比赛的数据,而足球中数据分析的一种应用是为了预测结果。在利物浦,我和我的同事开发了一个统计模型,该模型将原始绩效数据(有关投篮,节省和目标的信息)估算为估计团队实力。然后,每个球队的进攻和防守能力,即他们的进球能力和防止承认的能力,用于预测比赛和比赛的结果。
鉴于第一回合中的0-3损失,我们的模型估计我们达到3.5%的决赛机会,而球队的力量统计模型评估巴塞罗那比利物浦强20%。尽管利物浦在第二回合中的主场优势甚至可以使比赛达到比赛,但我们必须至少有四个进球来确保直接晋级,或者只是以3-0赢得比赛并加班。我对足球的看法与粉丝的观点完全相反,这些观点从概率的角度看,我看着一切,并且通过客观证据估算了概率。对于此游戏,所有证据都表明我们的成功可能性极低。
在训练场上,每个人都知道我的部门做出了这些预测,因此当自助餐厅工作人员问我们机会有多巨大时,我告诉他们模型表明的坏消息,他们的反应是:“这比我想象的要大一点!”我的悲观主义成为我同事中乐观的原因。
即使按照安菲尔德的标准,那天晚上的气氛也在闪烁。苏亚雷斯(Suarez) - 利物浦(Liverpool)从2011年到2014年的最佳球员,但现在在巴塞罗那(Barcelona)攻入第一回合,并选择自由庆祝。这激怒了利物浦的球迷。当他要拉开帷幕时,五万人大喊“苏亚雷斯,滚出去!”在我的日常工作中,我通常会要求保持平静和客观的态度来看足球,但是在那天,在安菲尔德,作为粉丝,我很乐意在看台上加入嗓音。
游戏非常开放且非常有趣。我们的成功机会非常低,这使我比平时更享受比赛:因为无论如何我都必须输掉比赛,所以我不用担心结果,而是享受这场足球盛宴。但是在开场比赛六分钟后,客队的阿尔巴直接向曼尼(Mane)进行了严重的许可,后者将其传给了亨德森(Henderson),他的射门被守门员救了下来。正在等待机会的原始机会不会错过这个机会。球进入,我们以1-0领先。
巴塞罗那创造了一些不错的机会,但利物浦在上半场结束时仍以1-0领先。在比赛的53分钟内,阿诺德为Wijnaldum创造了一个很好的机会。他取得了不太进取的投篮,但球实际上错过了网:2-0。巴塞罗那踢出了比赛,但立即输掉了球,Wijnaldum再次以3-0的优势得分。安菲尔德(Anfield)的气氛从闪烁变为核爆炸场景。每次苏亚雷斯碰球时,看台上的球迷都会以恶性的诅咒和嘲笑回应。当第三个进球进入网时,我已经大喊大叫,我不得不让金戴愤怒地批评苏亚雷斯:我在下半场不断用肘部戳他的肋骨,这是一个信号,以使他侮辱来访的球员。
随着我们的胜利机会的增加,我的紧张局势比例扩大了,但是在第78分钟,阿诺德抓住了巴塞罗那宽松的防守机会,并迅速取得了成功,Origi取得了不可阻挡的射门,将比分扩大到4-0。巴塞罗那经常失去关注,并在捍卫角球踢球时向裁判抱怨,这是我的同事在视频分析部门发现的习惯。因此,我们的玩家和球童准备在角落迅速启动,视频分析师的见解值得每个人的赞赏。
在最戏剧性和不可能的情况下,我们进入了冠军联赛决赛。也许在利物浦工作了七年之后,我们终于赢得了奖杯。像每个利物浦的球迷一样,那天晚上我离开安菲尔德时感到非常兴奋。但另一方面,作为数据分析师,我迫不及待地想再次评估游戏。
那天晚上,当我开车回家时,有关该游戏的数据被推到了我们部署在云中的服务器。数据提供商收集中心的视频分析师记录了每个球操作移动的详细信息 - 可以通过,射击,铲球,犯规 - 并上传了数据。同时,Anfield的相机记录了所有球员和球的运动,每秒记录了25次,然后通过视觉算法转换为每个玩家位置的轨迹。
当这些数据在第二天早上凌晨5点左右到达时,会触发几个自动过程。首先,数据测试:通过算法判断数据的质量,以便我们的模型可以产生合理的结果;接下来是预处理:球处理事件与玩家位置相关联,以结合来自不同维度的数据;最后分析:处理后的数据将通过我们的模型处理,该模型从统计上解释游戏并评估每个玩家对游戏结果的贡献。根据每个球员的表现,进一步的算法将更新团队实力和球员能力的评级结果。
在看台上,我既兴奋又很高兴地看着这场比赛。第二天早上,随着数据的处理并在我面前提出了计算结果,我合理地分析了游戏,这使我感到自己记得前一天晚上的游戏与我第二天评论和分析的游戏并不完全相同。我们以4-0获胜,但朝另一个方向前进很容易。事后看来,我们的晋升结果几乎不可阻挡。萨拉(Salah)因受伤而错过了比赛,并穿着一件T恤在看台上看着“永不放弃”,但实际上每场比赛都会受到意外的影响。我们都记得一些游戏,如果不是错过的十字架或幸运的折射,结果可能会完全不同。鉴于游戏中的进球,我们的4-0胜利远非确定,并且使用数据来分析游戏中可能发生的事情将导致不太确定和更概率的观点。它的价值在于消除那些幸运的胜利和不幸的失败,将表现(信号)与运气(噪音)分开,使我们能够更好地了解团队的优势和劣势。
使用游戏中发生的镜头得出的预期目标模型意味着我们估计的“公平得分”是利物浦的2.0进球和巴塞罗那的0.9个进球。我们的模型预测,此+1.1“公平”目标差异不足以赢得半决赛,并且使用称为“预期目标”的方法计算公平分数。
在此游戏中,数据模型对这两个团队的性能的评估比我记得的要近。 Origi的第一个进球有40%的得分机会,但随后是巴塞罗那的两次机会:梅西的投篮命中率为12%,Coutinho投篮命中率为18%。半场结束时,巴塞罗那的阿尔巴(Alba)有33%的机会进球,并被我们的门将艾丽森(Alisson)救出。在下半场,利物浦最好的后卫Virgil Van Deck的头球被Corner Kick挽救了:36%的进球机会。接下来的事情与实际结果相反,基于成功的概率,我们在下半场的三个目标与预期的目标仅为0.41。
根据每次射门得分的可能性,我在计算机上模拟了游戏结果,结果表明,利物浦以4-0或更高的比例获胜的机会仅为5%,而将游戏拖入加时赛的可能性为4%。
接下来,我检查了得分手在预期目标中的表现。从特定的位置和特定情况下拍摄是一回事,而射击好是另一回事。该模型考虑了每次射门的轨迹和守门员在射门时的位置,即“射门后预期的进球数”。
计算结果发生了变化:2.0-0.9的胜利变成了3.4-1.7的胜利。来自两支球队的球员贡献了超过平均水平的球。 Origi的两个目标特别出色。他非常准确地开枪,开枪到了很难挽救守门员的地方。但是巴塞罗那球员的投篮命中率也出色:由于准确的射门,他们的预期0.9个进球增加到1.7,这并不奇怪,因为他们拥有梅西和苏亚雷斯。但是,巴塞罗那达到1.7后的预期目标并没有最终转化为实际目标。考虑到该指标对守门员评估的重要性,我们的守门员阿里森(Alisson)有很大的理由被评为这场比赛中最佳球员。
评论:
Graham团队确定的服务器任务在数据到达后,我们称为Batch,这是Quant工作的非常重要的部分。大型银行还具有成熟的工具(气流等)来控制这些自动化任务,以促进重新启动,分发任务和设置任务重新启动机制。
为了实现这些批次的平稳操作,尤其是称为模型输出结果的批次,您需要大量清洁和预处理基本数据。当这些数据来自第三方时,这项工作实际上非常具有挑战性。无论是大型银行还是足球俱乐部,它都必须建立一组完整的多源数据馈送机制。
拍摄后的预期目标和预期目标是两个非常普遍且非常基本的评估指标。实际上,依靠一些现有的公共坐标水平数据,我们可以建立相应的模型。与Graham博士的差距从来都不是要建立一个好的模型,而是关于如何处理问题。以这两个模型为例,尤其是后者,团队掌握的基本数据可能与Whoscore没有什么不同,因此如何训练模型成为问题的基础。
至于相关概率之后的仿真分析,最简单的是一种数值算法,可以通过随机数进行模拟。在这里,有点像我们使用更多的蒙特卡洛。这有点复杂。您还可以校准马尔可夫过渡概率进行改进。例如,第一个目标肯定会影响随后的预期目标分配等。
足球模型有趣的是,尽管它仍处于初始阶段,但有很多可能性,这类似于我们日常工作中新模型的情绪。他的日常生活也与我们行业的日常生活非常相似。实际上,我羡慕他,并且有足够的选择来进行某个游戏。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请联系本站,一经查实,本站将立刻删除。如若转载,请注明出处:https://www.mlmtt.com/html/tiyuwenda/6265.html