金融AI武道大会开赛:四道业务真题量子位

7/1/2026

好久没看到这么神清气爽的AI比赛了。

名为AFAC2026金融智能创新大赛,总算不是单纯刷分的「乏味Benchmark」。四道赛题,全部从真实金融场景中生长出来:

看盘面:识别机构交易行为与资金流向;

啃文档:将复杂保险PDF还原为结构化Markdown;

做实验:在稀疏反馈下完成自动化实验设计;

读长文:控制Token成本,对金融长文本精准问答。

是的,专挑金融这个最「地狱级」的训练场。

很多人可能不知道,模型发展到今天,金融垂直任务依然没能被啃下来。

以保险文档还原Markdown为例,一旦碰到大图片、大文档场景,模型在相关Benchmark上的平均分甚至会掉到0.1以下,即便是GPT、Gemini这样的前沿多模态模型都够呛。

为何垂直场景落地如此困难?

归根结底,这是Agent层的工程问题。不是光靠参数Scaling就能吞掉的。

这正是AFAC2026大赛的核心宣言:全员回归基础研究,一起探索模型如何在真实约束下,交付产业价值。

说实话,这可能是今年金融AI领域,最值得关注的一场比赛。

2026金融AI武道大会

今年的挑战组共设置了四个分会场——

赛题一:市场参与者交易行为识别与资金流向分析

普通投资者面对盘面,最无力的地方在于:你永远不知道屏幕另一头那笔大单到底想干嘛。

股票突然拉升,大单涌现,盘口挂出巨量买单。你捕捉到K线异动,准备追入风口。

但对面的真实目的,可能只是骗你进来接盘……

股市里藏着人。

如何更好地识别交易行为,一直是市场最天然的刚需。

但难点也恰恰在此。在这片黑暗森林里,买卖双方都在想尽一切办法揣测对方的意图。

结果就是持续的对抗与升级:当某些资金行为被识别出来,真正使用这些手法的人就会反过来隐藏自己,甚至利用市场对这些信号的认知进行反向博弈。

在蚂蚁集团财富保险事业群投研投顾技术负责人、AFAC大赛出题家纪韩看来,这正是这道赛题最有趣的地方:资金识别这件事,从来不只是数学题。

从交易角度看,挂单、撤单、拆单,本质上是你与对手盘之间的一种沟通。这里面夹杂着大量意图,包括误导和制造假象。

最强的选手,赢在对社会、商业乃至人性的理解。

如今大模型的出现,为这场游戏提供了又一把新武器。它能从高频数值数据中,发现人类尚未总结出的隐含模式。

谁能优先利用并封装好这项能力,谁就能在股市里赢得真金白银。

但光是调用模型还远远不够,选手必须依托harness框架来设计机制。

L2行情数据的数据量极其庞大,如果硬塞进模型,哪怕是支持1M上下文的窗口也会直接爆掉,导致注意力机制失效。

因此,参赛者需要提前写好规则或现成代码,或者让模型调用工具,先把数据处理到可观察、可理解、可判断的状态。

在harness的实现层面,隐含了非常复杂的工程要求。

场景之外,这个赛题的评测规则也挺有意思。

作为一个瞄准产业落地的比赛,这个赛题并没有强调「成本优化」。

很反直觉,对吧?毕竟一提到落地,大部分人最关心的工程指标就是成本。

对此,出题家纪韩的解释是:

如果策略真的有效,其带来的潜在收益增强,可能让成本显得微不足道。

这是一场博弈。当你在纠结成本时,你的对手在倾尽全力调用最好的模型。

每个场景都有自己的价值函数,「成本」并非永恒的关键变量。

看盘这件事,你的首要目的,是赢过对手。

赛题二:复杂金融文档还原挑战

参赛选手需要设计并实现一个端到端的文档解析系统,将一张金融文档图片,完整、准确、有结构地转成Markdown。

注意这里有三个关键词:完整、准确、有结构。

金融文档不是普通的小作文。一份保险文档,通常包含多级标题、密集表格、脚注和批注,每项信息都必须100%准确。

不过,为什么要做这件事?

以保险表格为例,寿险产品需要非常精准地告诉张三,在某年某月能领到多少钱。

这个数字从哪来?表格查询。

经纪人拿到需求后,凭借直觉定位到第15XX页的某一张表、某一个单元格,查出张三45岁时能领多少钱。

但用户那么多,不可能每次有人问都让经纪人帮忙查第几页、第几个单元格。

机构当然希望能把这些文档结构化。但问题是,金融文档大部分是图片或PDF,普通OCR能把字认出来,却没有智能。

这就引出了阅读顺序的问题。

人能一眼判断阅读顺序,机器却可能先读右栏,再读左栏;文字都认对了,意思依然乱掉。

结构,其实是语义极其重要的一部分。

大模型能很好地解决这个问题,但也带来了新的约束——上下文。

金融文档的超大图可能有几亿像素点,光输入就会撑爆窗口,何况输出还可能长达十几万字。你不能指望一个模型硬吞整张图。

因此需要一套端到端Agent工作流:先切分,再调用小模型分多次解析,最终拼回一份保真的Markdown。

很有意思,用蚂蚁集团财富保险事业群保险智能科技资深总监、AFAC大赛出题家续兴中的话说,拼接这套SOP的过程,有点像福尔摩斯办案。

Scroll for more