神秘“欢乐马”屠榜,碾压Seedance 2.0华尔街日报
神秘视频模型HappyHorse-1.0空降Artificial Analysis 榜首,大幅领先 Seedance 2.0 等产品,引发热议。其归属未明,猜测指向基于 daVinci-MagiHuman 的优化版本,或与阿里有关。更重要的是,开源模型正逼近闭源水平,行业格局或生变。
周二深夜,AI圈炸了。
在全球知名AI评测平台Artificial Analysis的Video Arena榜单上,一个代号为「HappyHorse-1.0」的神秘视频生成模型悄然空降——没有发布会,没有技术博客,没有任何公司背书,直接以碾压式的姿态登顶榜首。
截止发稿,文本生视频赛道,Elo积分飙至1357分,领先刚登顶五天的Seedance 2.0 84分,比第三名和第四名的SkyReels V4和Kling 3.0 1080p Pro高出超过100分。HappyHorse-1.0一个模型,就拉开了整个行业梯队的差距。
图像生视频赛道更是跑出了1402的恐怖高分,刷新了该榜单的历史纪录。
唯一稍显逊色的,是在包含原生音效的「视频+音频」综合排名上,HappyHorse屈居第二,略低于Seedance 2.0。
这个榜单,没那么容易刷
很多人第一反应是:这不会是刷分吧?
这个质疑并非没有道理。但Artificial Analysis的排名机制,决定了它比普通跑分榜更难被轻易操控——所有排名均来自全球真实用户的「蒙眼二选一」盲测投票,用户在完全不知情的情况下,对两段生成结果进行对比选择,最终汇总成Elo积分。
模型团队无法通过刷题作弊,反映的是普通人看过之后最真实的感知偏好。
当然,也有人指出,Artificial Analysis的盲测样本中人像生成、口播类内容占比超过60%,而HappyHorse在人像场景上天然具备优势,这在一定程度上可能造成了评测分数与实际综合能力之间的落差。
X上的讨论者也因此分成了两派:怀疑派认为HappyHorse与Seedance 2.0在人物细节、动态连贯性上仍有可见差距;支持者则对其潜力寄予厚望,尤其期待它能解决多镜头序列中画质一致性这一行业痛点。
其次,根据网上的测评,普通人对这款模型的评价普遍很高。
"欢乐马"究竟是谁的马?
这才是整个AI圈最想搞清楚的问题。
X上的猜测来得很快。最先被注意到的,是官网的语言排序:普通话和粤语排在英语前面。对于一个面向全球用户的产品,这个顺序相当反常——背后团队来自中国,基本可以确认。
名字本身也是线索。2026年是农历马年,「HappyHorse」这个命名藏着不太含蓄的马年梗,今年早些时候「Pony Alpha」也玩过类似套路。于是嫌疑名单迅速拉长:腾讯和阿里的创始人都姓马,天然在列;有人押注小米,觉得雷军一贯低调,喜欢突然亮牌;也有人觉得气质更像DeepSeek,毕竟DS此前曾悄悄上线过视觉模型,后来又悄悄下线了。
X用户Passluo的评论颇为意味深长:"这匹快乐马是谁的?阿里、腾讯,还是小米?"
技术层面的"破案"
光靠名字猜不够,技术圈随即开启了福尔摩斯模式。
X用户Vigo Zhao把HappyHorse-1.0的公开基准数据拿去和已知模型逐条核对,找到了一个高度吻合的对象:daVinci-MagiHuman——也就是今年3月上线GitHub的开源模型「达芬奇魔法人类」。
视觉质量、文本对齐、物理一致性等多项数据逐项对得上,官网结构也几乎一样,两者同为单流Transformer架构,同为音视频联合生成,支持的语言列表完全一致。这种程度的重合,很难用巧合解释。
目前技术圈认可度较高的结论是:HappyHorse是daVinci-MagiHuman联合开发方之一的Sand.ai,基于开源模型优化的迭代版本,核心目的是验证模型在用户真实偏好下的表现上限,为后续商业化落地做铺垫。
daVinci-MagiHuman于2026年3月23日正式开源,是两支年轻团队合作的产物:
一支来自上海创智学院生成式AI研究实验室,另一支是北京的Sand.ai(三呆科技)。模型采用150亿参数的纯自注意力单流Transformer,将文本、视频、音频三种模态的token全部塞进同一个序列里联合建模。
另一条线索,指向阿里淘天
与此同时,坊间还流传着另一个版本的猜测:
HappyHorse背后的核心团队,来自阿里淘天集团「未来生活实验室」,由前快手副总裁、可灵技术负责人张迪领衔。
公开资料显示,张迪于2025年底加盟阿里,执掌淘天集团「未来生活实验室」。该实验室是阿里电商核心算法团队,集结了顶尖技术人才与核心算力资源,专注大模型与多模态前沿领域,成立仅一年有余,已在国际顶会发表10余篇高质量论文。
值得一提的是,这一传闻发酵的时间节点,恰好与阿里港股今日的活跃表现有所重叠——当然,这只是一个有趣的巧合,目前并无任何实锤将两者直接挂钩,不宜过度解读。
这件事真正重要的信号
不论HappyHorse最终花落谁家,这次事件传递的行业信号已经足够清晰。
长期以来,开源视频模型与闭源产品之间横亘着一道效果层面的可见差距——在需要向客户交付的场景里,开源模型的生成质量始终未能跨过「可用」到「可交付」的门槛。可灵、Seedance等闭源产品的定价权,在相当程度上正是建立在这一差距之上。
这一次,一个基于开源模型的产品,在以真实用户感知为基准的盲测排行榜上,首次正面比肩了当前主流闭源竞争对手。
对于依赖这一差距构建定价权的闭源厂商而言,这至少是一个值得认真对待的信号。
按照Artificial Analysis的「盲测屠榜」惯例,当一个匿名模型赚足关注度后,官方通常会在一周内正式「认领」。
或许就在这几天,我们就会知道答案了。
在这个马年,真正值得关注的,或许不是哪匹马跑得最快,而是赛道本身,正在变宽。


