理想汽车发现端侧Scaling Law新智元

3/4/2026

如何把庞大的大模型塞进受限的车载芯片?面对端侧算力瓶颈,最新的「软硬协同设计定律」给出破局解法:只需输入芯片参数,即可免训练算出最优模型架构。同等算力下,模型智商跃升近20%,研发周期从数月缩至一周。

如何把「大象」塞进冰箱?

这正是现代智能辅助驾驶正在努力完成的一个命题。

我们希望车子能拥有一个像爱因斯坦一样聪明的超级大脑,但现实的尴尬是:

你不可能在后备箱里塞进一个需要液冷的服务器机柜!

当云端大模型正在加速冲刺AGI的同时,具身智能、智能驾驶等真实物理场景却正面临着一个隐性的巨大焦虑:「小」。

如何把「大模型」塞进极其有限的「小空间」车载芯片或机器人控制核心里?

这就是目前智能驾驶、具身智能、VR等领域碰到的一个现实问题:

被一块小小的芯片「卡住了脖子」。

智能驾驶正在迈向全场景智能,但车载算力平台撞上了一个核心悖论:

比如,一个在云端GPU上10毫秒就能完成的推理任务,到了车载芯片上可能要300毫秒。对自动驾驶来说,300毫秒意味着车辆在高速上「盲开」了好几米。

所有巨头,英伟达、苹果、微软、谷歌都在想办法。

但是第一个给出理论级答案的,是一家中国车企。

2026年2月,理想汽车基座模型MindVLA团队与国创决策智能技术研究所联合发布了一篇论文:《Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs》。

提出了面向端侧大语言模型的「硬件协同设计扩展定律」。

论文地址:https://arxiv.org/abs/2602.10377

这篇论文直面了当前最核心的挑战之一:

如何将越来越强大的大语言模型高效地部署在资源受限的「端侧设备」(如汽车、手机、机器人)上。

提到理想汽车,多数人的第一反应还是「增程式电动车的代表」。但审视其近两年的技术布局:自研5nm车规芯片马赫100、开源操作系统星环OS、自研基座大模型MindVLA、端到端智驾全栈自研。

理想正在从一家以增程技术见长的汽车公司,蜕变为一家以智能驾驶和具身智能为核心的AI公司。

而这篇刚刚发布的论文,是理解这场转型最好的注脚。

大模型「上车」,卡住了!

如何将目前「最先进的AI」装入汽车?

这里会遇到了一个巨大的矛盾:

一方面,希望车载AI模型尽可能地聪明、反应迅速,以确保驾驶安全和流畅的交互体验。这要求模型规模大、结构复杂。

另一方面,汽车内部的计算单元(芯片)受到严格的物理限制,包括功耗、散热、内存大小和成本。这要求模型必须小巧、高效。

传统的做法通常是「模型归模型,硬件归硬件」。

AI研究者设计出性能强大的模型,然后由工程师想办法在硬件上进行优化和「塞入」。

这种方式效率低下,且往往无法达到真正的最优。

这就好比为一个F1赛车引擎设计了一个巨型卡车的底盘,二者无法完美匹配,引擎性能大打折扣。

而理想这篇论文正是为了解决这个「失配」问题,他们提出了一套系统性的方法:

在设计模型之初就将硬件的能力考虑进来,实现「软硬协同设计」(Hardware Co-Design)。

架构选择(右侧)与硬件平台(左侧)共同塑造损失-延迟帕累托前沿

软硬协同:连接模型与硬件的桥梁

如何衡量模型的「智慧」?

先来简单介绍下什么是损失-延迟帕累托前沿。

在AI领域,「损失」是衡量模型预测与真实答案之间偏差的指标。

损失越低,模型预测越准确,代表它越「聪明」、精度越高。你可以把它理解为「工作质量」。

延迟指的是AI给出反应需要多长时间。延迟越低,速度越快,代表它能做到「秒回」。你可以把它理解为「工作速度」。

帕累托前沿是一个经济学概念。

通俗地说,当你追求既要「质量高」(低损失),又要「速度快」(低延迟)时,你会遇到一个物理极限。

到了这个极限状态后,你不可能在不牺牲速度的前提下,让AI变得更聪明;也不可能在不牺牲聪明度的前提下,让AI跑得更快。

所有这些「最优的折中点」连起来的一条线,就叫「帕累托前沿」。

理想团队发现,模型的最终损失与其架构超参数(如网络深度、宽度、专家数量等)之间存在着可预测的数学关系。

Scroll for more