世界杯决赛,胜负已定!AI说冠军是……
没有“算命大师”,世界杯就像少了点什么。
2010南非世界杯,章鱼保罗八场比赛预测全中,正确率百分之百,上了《时代周刊》封面。
2018俄罗斯世界杯有三只神兽“执行任务”:迪拜骆驼沙信(Shaheen),俄罗斯猫阿喀琉斯(Achilles)以及英国猪马库斯(Marcus)。反正一场比赛就两个结果,三只动物总有一只满足你。
牲畜都上阵了,数据科学家颜面何存?
大数据、人工智能、机器学习的浪潮,一轮又一轮。科学的统计方法,难道不比四脚或八足动物来得准?之前瑞银、高盛、麦格理等投资银行,都用自己的商业模型预测过2014、2018两届世界杯。
尴尬的是,他们都错了。
本届冠军是……
之前的错误,并不能阻挡数据科学家预测2022卡塔尔世界杯的热情。
几年前,英国艾伦图灵研究所的三位研究员开发了一个统计模型,上个月刚算出了2022世界杯冠军的结果。
该模型是在游戏《梦幻英超》(Fantasy Premier League)里搭建的,因为《梦幻英超》和现实联系紧密:每位玩家都要充当经理人,从英超联赛里选择一支15人的队伍,根据这15人在英超的真实表现获得积分。
每个星期,经理人都可以操作转会、替换球员;也可以提名队长,总积分在一周内翻番的球员就有资格。另外,不同位置的球员因“作用”不同,获得积分的形式也不同。前锋进球或助攻都有积分,后卫和守门员零封才能拿积分。
和大多数运动一样,足球也是随机性和可预测性的趣味组合。依赖历史数据、定义明确的评分系统和人员组合的可能性,《梦幻英超》很适合机器学习。
于是,艾伦图灵的三位研究员,搞了个队伍叫阿森纳AI(AIrsenal),让它先学了1997年的足球预测经典模型——从球队攻击强度、防守强度和主场优势出发,使用贝叶斯算法来计算获胜球队。
光搞英超不太够,研究人员又引入了不同大洲的球队的相对实力参数,好预测国际比赛。
2022卡塔尔世界杯之前,阿森纳AI还学了GitHub用户martj42编制的数据库。该数据库记录了自1872年以来每场足球比赛的详细结果,还把比赛权重做了排序,像2002年之后的世界杯正赛、近期比赛的结果,重要性大于洲际锦标赛、预选赛和友谊赛。
最后,FIFA的官方排名也被导入模型。
十万次模拟之后,AI给出了答案,本届世界杯冠军是巴西!其在两万五千次的预测中都捧起大力神杯,夺冠率高达25%!其次是比利时和阿根廷,夺冠率达到18%和13.5%。
众所周知,巴西已经在八强赛里出局,比利时小组赛就已打包回家。
算得明明白白
预测准不准,只是茶余饭后的笑料。但数据确确实实改变了体育运动,当然也改变了足球。
本届世界杯前三场小组赛,葡萄牙队名宿C罗均不到终场就被换下,脸色不佳。而教练完全不需有换下巨星的压力。因为,终场哨声响起后的几分钟之内,球队就能收到官方发来的详细数据——锋线球员跑动距离和被围堵的频率,防守球员的控球时间和拦截强度。
巨星有没有发挥作用,数据自己就能“回答”。
这是数据分析引导一切的年代:球员布阵,训练强度,击败对手的策略……
和卡塔尔赛场上植入芯片的足球类似,足球运动员早就“全副武装”,可穿戴的背心、腰带配有传感器和GPS,能够感知球员的全身动作乃至每只脚的频率。身体之外,多角度摄像机捕捉球员场上的所有举动。
如今大多数不差钱的球队都雇佣数据分析师,后者来自大公司、实验室,比如微软、欧洲粒子物理实验室或欧洲原子能研究中心。
数据分析师的辛勤工作,改变了传统的比赛方式。现在,几乎没有哪位前锋像马拉多纳或者罗纳尔多那样,独自长途奔袭,晃过五六人,一脚射门——多人控传后近距离射门成功率更高;边锋多传球而不是自己抢着进球;教练喜欢用高个子球员占据“制空权”……这些战术转变,都来自确凿的证据——大数据。
谷歌的DeepMind为利物浦创建了一位AI助理教练,它可以使用实时数据来指导训练。比如“看”完上半场比赛,AI助理教练就能给出下半场的阵型和球员布局的建议。
最重大的改变,主要体现在球员招募和定位球策略上。
球员踢什么位置,有多少成果,值多少钱,AI都能算得明明白白。《梦幻英超》这种经营游戏,就是让玩家过一把“会计师”的瘾。如果你是巴黎圣日耳曼的“话事人”,给姆巴佩砸下1.25亿美元的奖金,会不会“闭着眼睛”发?
定位球玩得最好的,当属克罗地亚。他们最喜欢把对手拉进加时赛乃至点球大战,八强赛5:3战胜巴西,正是定位球策略的高明之处。2018年世界杯,他们也是靠点球大战,赢得了前两轮淘汰赛。
小组赛期间,日本被克罗地亚点球淘汰,教练森保一赛后不无悔恨地表示,自己从来没研究过点球策略。
真正的冠军竟是他们!
输赢不重要,但我们还是想提前知道结局。这是人类自古以来改不了的“爱好”。
像《史记·高祖本纪》,刘邦命运被提前预告,传奇色彩十足。先是准岳父吕公称“相人多矣,无如季相”;又有山野老父,看了其妻子儿女一圈,都说“天下贵人”,见到刘邦本人,“君相贵不可言”。果然,刘邦47岁揭竿抗秦,54岁就成为开国之君。
1951年,雷明顿兰德公司发售的UNIVAC I(通用自动计算机一号),是世界第一台商用电子计算机,占地26.7平方米,重7.2吨,卖给了美国人口普查局。
只卖一台要亏本。公司与哥伦比亚广播公司合作,预测1952年总统大选。它以仅5.5%的投票率为样本,预测了艾森豪威尔的压倒性胜利。最后,该计算机共售出46台。
想知道本届世界杯冠军花落谁家,就不能吊死在一个AI上。
“TGM研究”包含三个算法,一个叫Logistic Regression,是一种对数几率模型;一个叫Random Forest,能获取多个“决策树”的平均值,最后创建“森林”预测结果;一个叫SVM,是最流行的监督机器学习算法,用Kernel Method转换数据,在可能的结果之间“找”到最佳解。
总之这三个算法都由一大堆复杂的函数构成,以此来显示其计算的“专业性”。
用Logistic Regression预测,法国队赢。
用Random Forest预测,阿根廷赢。
用SVM预测,没有结果。
现在大家可以放心看球了。
- 来自作者
- 相关推荐