世界杯决赛,胜负已定!AI说冠军是……

超载叽
·
·
IPFS
听君一席话,如听一席话。

没有“算命大师”,世界杯就像少了点什么。

2010南非世界杯,章鱼保罗八场比赛预测全中,正确率百分之百,上了《时代周刊》封面。

2018俄罗斯世界杯有三只神兽“执行任务”:迪拜骆驼沙信(Shaheen),俄罗斯猫阿喀琉斯(Achilles)以及英国猪马库斯(Marcus)。反正一场比赛就两个结果,三只动物总有一只满足你。

牲畜都上阵了,数据科学家颜面何存?

大数据、人工智能、机器学习的浪潮,一轮又一轮。科学的统计方法,难道不比四脚或八足动物来得准?之前瑞银、高盛、麦格理等投资银行,都用自己的商业模型预测过2014、2018两届世界杯。

尴尬的是,他们都错了。

本届冠军是……

之前的错误,并不能阻挡数据科学家预测2022卡塔尔世界杯的热情。

几年前,英国艾伦图灵研究所的三位研究员开发了一个统计模型,上个月刚算出了2022世界杯冠军的结果。

该模型是在游戏《梦幻英超》(Fantasy Premier League)里搭建的,因为《梦幻英超》和现实联系紧密:每位玩家都要充当经理人,从英超联赛里选择一支15人的队伍,根据这15人在英超的真实表现获得积分。

每个星期,经理人都可以操作转会、替换球员;也可以提名队长,总积分在一周内翻番的球员就有资格。另外,不同位置的球员因“作用”不同,获得积分的形式也不同。前锋进球或助攻都有积分,后卫和守门员零封才能拿积分。

和大多数运动一样,足球也是随机性和可预测性的趣味组合。依赖历史数据、定义明确的评分系统和人员组合的可能性,《梦幻英超》很适合机器学习。

于是,艾伦图灵的三位研究员,搞了个队伍叫阿森纳AI(AIrsenal),让它先学了1997年的足球预测经典模型——从球队攻击强度、防守强度和主场优势出发,使用贝叶斯算法来计算获胜球队。

光搞英超不太够,研究人员又引入了不同大洲的球队的相对实力参数,好预测国际比赛。

2022卡塔尔世界杯之前,阿森纳AI还学了GitHub用户martj42编制的数据库。该数据库记录了自1872年以来每场足球比赛的详细结果,还把比赛权重做了排序,像2002年之后的世界杯正赛、近期比赛的结果,重要性大于洲际锦标赛、预选赛和友谊赛。

最后,FIFA的官方排名也被导入模型。

十万次模拟之后,AI给出了答案,本届世界杯冠军是巴西!其在两万五千次的预测中都捧起大力神杯,夺冠率高达25%!其次是比利时和阿根廷,夺冠率达到18%和13.5%。

众所周知,巴西已经在八强赛里出局,比利时小组赛就已打包回家。

算得明明白白

预测准不准,只是茶余饭后的笑料。但数据确确实实改变了体育运动,当然也改变了足球。

本届世界杯前三场小组赛,葡萄牙队名宿C罗均不到终场就被换下,脸色不佳。而教练完全不需有换下巨星的压力。因为,终场哨声响起后的几分钟之内,球队就能收到官方发来的详细数据——锋线球员跑动距离和被围堵的频率,防守球员的控球时间和拦截强度。

巨星有没有发挥作用,数据自己就能“回答”。

这是数据分析引导一切的年代:球员布阵,训练强度,击败对手的策略……

和卡塔尔赛场上植入芯片的足球类似,足球运动员早就“全副武装”,可穿戴的背心、腰带配有传感器和GPS,能够感知球员的全身动作乃至每只脚的频率。身体之外,多角度摄像机捕捉球员场上的所有举动。

如今大多数不差钱的球队都雇佣数据分析师,后者来自大公司、实验室,比如微软、欧洲粒子物理实验室或欧洲原子能研究中心。

数据分析师的辛勤工作,改变了传统的比赛方式。现在,几乎没有哪位前锋像马拉多纳或者罗纳尔多那样,独自长途奔袭,晃过五六人,一脚射门——多人控传后近距离射门成功率更高;边锋多传球而不是自己抢着进球;教练喜欢用高个子球员占据“制空权”……这些战术转变,都来自确凿的证据——大数据。

谷歌的DeepMind为利物浦创建了一位AI助理教练,它可以使用实时数据来指导训练。比如“看”完上半场比赛,AI助理教练就能给出下半场的阵型和球员布局的建议。

最重大的改变,主要体现在球员招募和定位球策略上。

球员踢什么位置,有多少成果,值多少钱,AI都能算得明明白白。《梦幻英超》这种经营游戏,就是让玩家过一把“会计师”的瘾。如果你是巴黎圣日耳曼的“话事人”,给姆巴佩砸下1.25亿美元的奖金,会不会“闭着眼睛”发?

定位球玩得最好的,当属克罗地亚。他们最喜欢把对手拉进加时赛乃至点球大战,八强赛5:3战胜巴西,正是定位球策略的高明之处。2018年世界杯,他们也是靠点球大战,赢得了前两轮淘汰赛。

小组赛期间,日本被克罗地亚点球淘汰,教练森保一赛后不无悔恨地表示,自己从来没研究过点球策略。

真正的冠军竟是他们!

输赢不重要,但我们还是想提前知道结局。这是人类自古以来改不了的“爱好”。

像《史记·高祖本纪》,刘邦命运被提前预告,传奇色彩十足。先是准岳父吕公称“相人多矣,无如季相”;又有山野老父,看了其妻子儿女一圈,都说“天下贵人”,见到刘邦本人,“君相贵不可言”。果然,刘邦47岁揭竿抗秦,54岁就成为开国之君。

1951年,雷明顿兰德公司发售的UNIVAC I(通用自动计算机一号),是世界第一台商用电子计算机,占地26.7平方米,重7.2吨,卖给了美国人口普查局。

只卖一台要亏本。公司与哥伦比亚广播公司合作,预测1952年总统大选。它以仅5.5%的投票率为样本,预测了艾森豪威尔的压倒性胜利。最后,该计算机共售出46台。

想知道本届世界杯冠军花落谁家,就不能吊死在一个AI上。

“TGM研究”包含三个算法,一个叫Logistic Regression,是一种对数几率模型;一个叫Random Forest,能获取多个“决策树”的平均值,最后创建“森林”预测结果;一个叫SVM,是最流行的监督机器学习算法,用Kernel Method转换数据,在可能的结果之间“找”到最佳解。

总之这三个算法都由一大堆复杂的函数构成,以此来显示其计算的“专业性”。

用Logistic Regression预测,法国队赢。

用Random Forest预测,阿根廷赢。

用SVM预测,没有结果。

现在大家可以放心看球了。

CC BY-NC-ND 2.0 授权
超载叽“啊哒”~嘤嘤怪+硬妹,一个经不起批评的人。科幻文学硕士,星球大战中文网副站长。关注科技、游戏、艺术、美食、历史等领域。曾服务于多家主流媒体,主持过文化、科技、游戏等栏目。 创作,是要发现和体现属于自己的趣味。 此博客登载本人原创文字和编译内容,未经授权严禁转载。 “伏枥骅骝千里志,经霜乔木百年心。”
  • 来自作者
  • 相关推荐

埃尔多安第三次连任,“新奥斯曼主义”引发“文明冲突”?

战术核武器,让世界更“安全”?

别拿风流当借口,性骚扰就是性骚扰