世界杯谁将夺冠?“神奇模型”预测还准吗?武巍

6/15/2026

2026年6月12日,四年一度的足球世界杯重燃战火。作为全球最大的单项体育赛事,世界杯每场比赛的胜负,以及哪支球队能够最终夺冠,捧起大力神杯,自然值得关注。对普通球迷来说,预测比赛结果,是观看比赛之余的一项重要的趣味活动。当年德国的章鱼保罗,就因为在2008年欧洲杯和2010年世界杯上准确率超高的预测而名声大噪。随后,同样来自德国的经济分析师约阿希姆·克莱门特(Joachim Klement),更是因为成功预测了2014年、2018年、2022年这连续三届的世界杯冠军,而广受关注。

2026年6月10日,国际足联主席因凡蒂诺(左)出席在墨西哥首都墨西哥城举行的新闻发布会。新华社记者 武巍 摄

虽然今年他同样本着娱乐精神,已通过自研模型预测荷兰队将最终战胜葡萄牙队,赢得决赛的胜利,但本次世界杯新增诸多变数,准确预测的难度加大。一方面,世界杯将第一次由美国、加拿大和墨西哥三国联合承办,比赛将在三个国家16座城市进行;另一方面,参加本次世界杯的队伍,更是第一次达到48支。这意味着想要最终夺冠,必须在小组赛出线之后,连续赢下五场淘汰赛,运气起到的作用变得更大了。

不过,专业人士要想提高预测的准确性,不可能完全凭运气猜,而是要尽可能使用可靠的预测工具。这一工具,通常就是数学。

复杂的足球预测古典概率的相关理论,可以解释诸如纸牌、骰子等博弈项目,并对结果出现的概率进行预测。但是,对于像足球比赛这样的体育竞技项目,其复杂度远远超过了六面骰子的点数或者五十二张扑克牌的组合数。

正如1954年瑞士世界杯上,西德队主教练塞普·赫尔贝格的那句经典语录所说的:“足球是圆的,一场比赛有90分钟。”这句话完美诠释了绿茵场上瞬息万变的魅力:没有绝对的弱者,不到终场哨响,一切皆有可能。正是这种不确定性,造就了无数震撼人心的史诗级逆转。

2026年6月8日,葡萄牙国家足球队在葡萄牙奥埃拉什进行赛前训练,备战即将开赛的2026年美加墨世界杯足球赛。新华社/欧新|图

但是,这种巨大的不确定性,也使得想要用数学工具来预测足球比赛的结果,显得几乎不可能实现。

正因如此,在相当长一段时间里,对足球比赛结果的预测,都主要依靠经验判断、专家直觉和对球队强弱的粗略比较来完成。

事情的转机出现在1956年。这一年,英国统计学家迈克·约瑟夫·莫罗尼对其出版的《数字中的事实》一书的第三版进行了内容增补,利用泊松分布(Poisson distribution)等数学工具,去拟合英格兰足球联赛的比分。这是人类历史上第一次有人尝试用严谨的统计学数学模型来分析足球比赛结果。

泊松分布,是由法国数学家西梅翁·泊松在1837年提出的一种离散概率分布。

所谓概率分布,可以理解为一张“可能性清单”或一套“概率规则”:它告诉我们一件事可能出现哪些结果,以及每种结果有多大概率发生。

不同的概率分布会遵循不同的规则,从而适用于描述不同类型的事件。而泊松分布适合描述这样一类问题:在一段固定时间或一个固定空间范围内,某个随机事件发生多少次。比如,某个服务窗口在一小时内收到多少次请求、电话交换机在一分钟内接到多少通电话、某个路口在十分钟内通过多少辆车、某一地区在一年内发生多少次特定自然灾害等等。

在莫罗尼看来,足球比赛中的进球,就可以看作是90分钟的比赛时间内发生的随机事件,因此可以用泊松分布来进行描述。

足球现场数据的偶然性不过,莫罗尼的模型还比较原始,更多是在描述进球数的总体规律,而不是像后来的模型那样精细地区分球队实力、主客场因素或具体对阵关系。但是莫罗尼的工作是具有开创性的:他为足球预测提供了一种新的思路,不是问“哪支球队看起来更强,更有可能获胜”,而是问“某种比分以多大的概率出现”。

从这个意义上说,莫罗尼打开了足球预测数学化的大门。他让人们开始意识到:足球比赛虽然充满不确定性,但其结果并非完全不可建模。

在莫罗尼之后,越来越多的统计学家着手用数学工具分析足球比赛,并提出了各种改进型的模型和理论。

其中值得一提的就是1968年由英国皇家空军中校查尔斯·里普与统计学家伯纳德·本杰明发表的论文《足球运动中的技术与机会》。

作为足球的狂热爱好者,里普长期通过手工方式,记录比赛中包括传球和进攻过程在内的各种数据。在与本杰明合作研究了数百场比赛数据后,他们发现,足球比赛中的大多数进球来自不超过三次传球的进攻,并强调足球中偶然因素的重要性。

这项研究的影响十分复杂。一方面,里普和本杰明极大地推进了足球现场数据采集和表现分析的发展;另一方面,他们对数据过于粗糙的解释,也在后来受到很多批评。

在现实层面,里普和本杰明的研究深深影响了后来担任英格兰足协教练总监的查尔斯·休斯。休斯继承了里普和本杰明的分析思路,并进一步发展出著名的POMO理论,即“最大机会位置”(Positions of Maximum Opportunity):球队应当尽快把球送入最容易制造射门和进球机会的区域。在休斯的推动下,强调高节奏、快速向前、传中、定位球和直接进攻的足球理念,被写入英格兰足协的教练教育和官方教材体系,并在相当长时间内影响了英格兰足球的训练与战术观念。

进入新千年以来,这一过于教条的足球理念,造成了英格兰足球的战术僵化。英格兰足球界也对此进行了长期的反思与改革。从2026年世界杯英格兰主帅托马斯·图赫尔(Thomas Tuchel)的足球理念,以及他给出的英格兰队26人大名单上,就可以看出这种反思与改革的印记。

预测模型的考虑因素增多里普和本杰明的工作代表了足球数据分析早期的一条路线:它不是逐步建立概率预测模型,而是试图直接从比赛事件记录中推导战术原则。由于当时足球数据分析还不成熟,研究者容易把“观察到的现象”直接解释为“应该采取的策略”,于是得出了偏向长传、直接进攻的结论。这个结论后来确实影响了英格兰足球的战术理念和教练教育,也因此成为足球数据分析史上一个非常有争议的案例。

而在另外一条路线上,有很多统计学家在沿着莫罗尼开启的方向,尝试将更多的因素纳入预测模型当中,以期获得更准确的预测结果。

1982年,迈克·马赫提出了一个更系统的足球比分建模框架。用泊松分布来描述双方进球数,并把一支球队的表现拆分为两个核心能力:进攻能力和防守能力。这样一来,模型不再只是描述整个联赛的进球规律,而是可以根据不同球队的强弱,估计一场具体比赛可能出现的比分。

马赫预测模型的重要性在于,它把足球预测从“总体统计”推进到了“对阵预测”。一支球队能进多少球,不再被看作一个孤立的随机事件,而是由自身进攻能力、对手防守能力以及主客场等因素共同决定。这个框架后来成为许多足球预测模型的基础:先估计双方的预期进球数,再由进球分布推导出比分、胜平负和其他结果的概率。可以说,马赫奠定了现代足球比分预测模型的基本结构。

马赫之后,马克·迪克森和斯图尔特·科尔斯在1997年提出的模型,是足球预测模型走向实用化的重要节点。他们继承了马赫的基本思路,仍然用球队的进攻能力、防守能力和主场优势来估计双方进球数,但进一步修正了传统泊松模型在足球比赛中的几个关键问题。最著名的是,他们发现低比分结果之间并不完全独立,尤其是0:0,1:0,0:1,1:1这些比分,需要进行额外调整;同时,他们还引入了时间衰减机制,让近期比赛表现对球队实力估计的影响更大。

迪克森-科尔斯预测模型的意义在于,它不再只是一个漂亮的统计框架,而是更明确地服务于实际预测。足球比赛中最常见,也最影响胜平负概率的,往往就是那些低比分的情况;如果模型在这些地方偏差较大,预测结果就会失真。迪克森-科尔斯通过低比分修正和时间权重,让模型更贴近真实比赛,也更适合用于赛前概率估计。

自此,足球预测模型开始走出统计学家的研究,进入现实中,成为预测每一场真实比赛结果的有力工具。现实的需求,也让足球预测模型进入了快速发展的阶段,各种改进方法在这个框架上不断扩展。

赛程、伤停、阵容、球员能力、球队状态、战术风格等越来越多的因素被量化,并纳入到预测模型之中。进球期望模型的出现,更是让预测模型从“只看结果”转向“理解过程”。而近年来,随着全民AI热潮的不断升温,基于大数据和深度学习的自主AI预测模型也在不断发展,变得越来越精细。尽管如此,要想准确预测世界杯结果,仍然是一件非常困难的事。

所谓预测模型,归根结底是让数据更好地反映现实规律的工具。不管是泊松分布这样的预测模型底层架构,还是考虑各种赛场情况的改进,本质上都是一个数学模型。模型的精细程度,当然会影响预测的准确性。而要真正能够让模型“说话”,靠的是大量的已知数据。

正因此,诸如英超、德甲、西甲这样的足球联赛,才是预测模型最适合的场景。一支联赛球队一年要踢几十场比赛,而且教练、阵容、战术结构相对稳定,模型可以从过去比赛中估计出相对可靠的攻防强度,进而得出相对可靠的预测结果。

但世界杯则是完全不同的另外一种比赛模式:国家队的球员来自不同联赛和体系,赛前只有很短的集训时间,世界杯小组赛只有三场,接下来的淘汰赛更是一场定生死,输了就回家。在这种比赛模式下,红牌、伤病、点球大战、裁判判罚等等因素都会被极度放大,比赛中的随机波动足以改变最终的结果。

这一切都让世界杯的比赛具有更大的偶然性,也增大了预测的难度。诸如2014年世界杯半决赛上,德国7:1淘汰巴西的最终结果,就是这种偶然性的绝佳体现。当时有赛前预测认为,德国能取得7个进球的概率不足0.03%。

是科学还是玄学?到了经济分析师克莱门特这里,事情已经不再是“又出现了一个更好的预测模型”。恰恰相反,他的模型更像是对足球预测叙事的一次反讽。此前的预测模型,以及后来的AI模型,都建立在一个基本前提上:过去的数据能够在某种程度上揭示球队的真实实力,并帮助我们估计未来比赛的概率。但是,再精巧的模型,也要依赖数据;而世界杯恰恰是一个数据贫瘠、结构不稳定、随机性被放大的场景。

国家队不是长期稳定运行的俱乐部,而是临时集合的队伍;小组赛样本极少,淘汰赛又是一场定胜负;红牌、伤病、点球大战、裁判判罚乃至足球在飞行途中的一次意外变线,这些都足以改写整个模型的输出。

相较于那些专业的预测模型,克莱门特的模型显得格外粗糙。它没有试图精细描述每支球队的进攻、防守结构,也不真正处理比赛中的战术细节,而是用人口、经济、气候、排名等宏观变量去模拟世界杯结果。甚至在他的模型当中,这些具有确实根据的部分只占了大约55%,剩下的约45%纯粹靠“运气”。

而这种粗糙,本身就是克莱门特故意为之,与其说是在认真预测冠军,不如说是一种类似于行为艺术的反讽。克莱门特在借一个看似科学的预测模型提醒读者:在世界杯这样的高度随机事件面前,模型很容易制造出一种虚假的确定性。

正如他在2026年的“预测报告”当中所写的:这个模型最初只是一次让我们学会谦卑的实验,目的在于说明经济模型是多么愚蠢和不可靠;而经济学家却总以为自己可以预测从通胀、疫情到世界杯的一切。

不仅如此,在这份预测报告里,克莱门特还专门列出预测专家常用的五种借口,拿来为自己所用:要是某事发生了,我就对了;模型外的因素变了,所以错不在我;我差一点就对了;不是错,只是还没发生;不能只凭一次预测评价我。

可以说,关于可能出现的世界杯预测失败的情况,他毫不掩饰地找好了借口:“如果我对了,那是能力;如果我错了,那是别人的锅。”这与其说是在做世界杯预测,不如说是在拆掉预测者身上那所谓的光环。

但是,出乎克莱门特意料的是,这个本用来说明预测不可靠的模型,后来竟然连续预测中了2014年德国、2018年法国和2022年阿根廷三届世界杯的冠军。

对于这一点,克莱门特在2026年预测报告中也写道:“即便是随机抛硬币,也会连续三四次出现正面。这并不意味着下一次还会是正面。”

但是,很多人并没有在意克莱门特的本意和他的所谓“澄清”。这一神奇的预测结果,让克莱门特的模型被媒体塑造成了“神奇模型”。这正是克莱门特的案例中最有意思的地方:它并没有证明世界杯可以被准确预测,反而展示了人们是如何把一次又一次偶然的命中,误读成预测能力本身。

Scroll for more