理想汽车发现端侧Scaling Law新智元
如何把庞大的大模型塞进受限的车载芯片?面对端侧算力瓶颈,最新的「软硬协同设计定律」给出破局解法:只需输入芯片参数,即可免训练算出最优模型架构。同等算力下,模型智商跃升近20%,研发周期从数月缩至一周。
如何把「大象」塞进冰箱?
这正是现代智能辅助驾驶正在努力完成的一个命题。
我们希望车子能拥有一个像爱因斯坦一样聪明的超级大脑,但现实的尴尬是:
你不可能在后备箱里塞进一个需要液冷的服务器机柜!
当云端大模型正在加速冲刺AGI的同时,具身智能、智能驾驶等真实物理场景却正面临着一个隐性的巨大焦虑:「小」。
如何把「大模型」塞进极其有限的「小空间」车载芯片或机器人控制核心里?
这就是目前智能驾驶、具身智能、VR等领域碰到的一个现实问题:
被一块小小的芯片「卡住了脖子」。
智能驾驶正在迈向全场景智能,但车载算力平台撞上了一个核心悖论:
比如,一个在云端GPU上10毫秒就能完成的推理任务,到了车载芯片上可能要300毫秒。对自动驾驶来说,300毫秒意味着车辆在高速上「盲开」了好几米。
所有巨头,英伟达、苹果、微软、谷歌都在想办法。
但是第一个给出理论级答案的,是一家中国车企。
2026年2月,理想汽车基座模型MindVLA团队与国创决策智能技术研究所联合发布了一篇论文:《Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs》。
提出了面向端侧大语言模型的「硬件协同设计扩展定律」。
论文地址:https://arxiv.org/abs/2602.10377
这篇论文直面了当前最核心的挑战之一:
如何将越来越强大的大语言模型高效地部署在资源受限的「端侧设备」(如汽车、手机、机器人)上。
提到理想汽车,多数人的第一反应还是「增程式电动车的代表」。但审视其近两年的技术布局:自研5nm车规芯片马赫100、开源操作系统星环OS、自研基座大模型MindVLA、端到端智驾全栈自研。
理想正在从一家以增程技术见长的汽车公司,蜕变为一家以智能驾驶和具身智能为核心的AI公司。
而这篇刚刚发布的论文,是理解这场转型最好的注脚。
大模型「上车」,卡住了!
如何将目前「最先进的AI」装入汽车?
这里会遇到了一个巨大的矛盾:
一方面,希望车载AI模型尽可能地聪明、反应迅速,以确保驾驶安全和流畅的交互体验。这要求模型规模大、结构复杂。
另一方面,汽车内部的计算单元(芯片)受到严格的物理限制,包括功耗、散热、内存大小和成本。这要求模型必须小巧、高效。
传统的做法通常是「模型归模型,硬件归硬件」。
AI研究者设计出性能强大的模型,然后由工程师想办法在硬件上进行优化和「塞入」。
这种方式效率低下,且往往无法达到真正的最优。
这就好比为一个F1赛车引擎设计了一个巨型卡车的底盘,二者无法完美匹配,引擎性能大打折扣。
而理想这篇论文正是为了解决这个「失配」问题,他们提出了一套系统性的方法:
在设计模型之初就将硬件的能力考虑进来,实现「软硬协同设计」(Hardware Co-Design)。
架构选择(右侧)与硬件平台(左侧)共同塑造损失-延迟帕累托前沿
软硬协同:连接模型与硬件的桥梁
如何衡量模型的「智慧」?
先来简单介绍下什么是损失-延迟帕累托前沿。
在AI领域,「损失」是衡量模型预测与真实答案之间偏差的指标。
损失越低,模型预测越准确,代表它越「聪明」、精度越高。你可以把它理解为「工作质量」。
延迟指的是AI给出反应需要多长时间。延迟越低,速度越快,代表它能做到「秒回」。你可以把它理解为「工作速度」。
帕累托前沿是一个经济学概念。
通俗地说,当你追求既要「质量高」(低损失),又要「速度快」(低延迟)时,你会遇到一个物理极限。
到了这个极限状态后,你不可能在不牺牲速度的前提下,让AI变得更聪明;也不可能在不牺牲聪明度的前提下,让AI跑得更快。
所有这些「最优的折中点」连起来的一条线,就叫「帕累托前沿」。
理想团队发现,模型的最终损失与其架构超参数(如网络深度、宽度、专家数量等)之间存在着可预测的数学关系。


