刘知远深度分享：泳姿不重要，关键是入水智源社区

当 AI 领域的“玩家们”执着于 “更大模型、更多数据” 的规模扩张洪流时，刘知远早已锚定了一条务实且坚定的差异化路径。他跳出单纯追逐参数的内卷，以密度法则重构模型价值，在端侧智能与产研融合中探寻通用人工智能的落地密码。

这位深耕 NLP 领域近二十年的清华大学长聘教授、面壁智能联合创始人和青源会发起人，见证并推动了中国的大模型浪潮，也在技术热潮中保持独有的清醒。从早年跟进 word2vec 深耕知识表示学习，到主导研发 ERNIE 预训练模型、参与打造 “悟道” 万亿大模型，再到推出 MiniCPM 端侧模型深耕高密度智能，他始终站在技术演进的核心赛道，探索学术与产业实践双向赋能的新模式。

在他的认知里，AI 并非单纯的技术狂欢，而是一场需平衡前沿探索与落地价值的长跑。这场兼顾技术深度、产业温度与社会价值的探索之旅，藏着怎样的方法论？端侧 AGI 又该如何突破瓶颈、落地生根？在这篇深度专访中，刘知远将拆解 AI 演进的核心脉络，分享浪潮之下的取舍与坚守，带你看清技术热潮背后的底层逻辑与未来方向。

采访&编辑：熊宇轩梦佳

NLP 演进核心脉络：2018 年预训练技术开启通用化时代，叠加 2022 年指令微调、2025 年大规模强化学习，三大节点让模型逐步具备自主学习、理解意图、深度思考能力，AGI 是持续进阶的目标。

人机协同底层逻辑：人核心负责把关判断，机器专注提效赋能，AI 始终是生产力工具；端云协同分工明确，端侧管个性化与隐私，云端供高阶专业能力。

2026 研发核心方向：聚焦高密度端侧 AGI 大模型，攻坚提升模型能力密度、实现自主学习算法突破、推进软硬协同与新型 AI 硬件探索的三大重点。

AI 社会价值与趋势：AI 伦理应该成为 “润滑剂”，智能体将助力知识平权，缩小数字鸿沟，具身机器人是硬件革新核心方向。

给从业者的核心建议：当前 AI 浪潮堪比 2000 年互联网，不必纠结 “入水姿势”，优先主动投身浪潮，依托产研结合做前沿探索，方能抓住机遇。

智源专访栏目意在展现行业顶尖技术研究者和创业者的研究经历和故事，记录技术世界的嬗变，激发当代AI从业者的创新思维，启迪认知、关注突破性进展，为行业注入灵感光芒。本次专访为总第35期。

简介：刘知远，清华大学计算机系长聘教授、博士生导师，青源会发起人。主要研究方向为自然语言处理、知识图谱和社会计算。已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文200余篇，Google Scholar统计引用超过5.8万次。入选2020-2023连续四年Elsevier中国高被引学者、《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。

NLP分水岭，从专用到通用的演进之路

“智能体发展，需要通用性，更要产学研协同。”

Q1：从技术演进的角度看，每一次NLP领域关键的技术突破，为当下的智能体技术奠定了哪些核心的能力?

刘知远: 在我看来，此次大模型的技术突破，其源头至少要追溯到始于 2018 年的预训练技术，其意义之深远，远超自然语言处理领域史上任何一次突破。2018 年之前的自然语言处理研究，始终受限于高度专用的发展范式，学界研究者各守一隅，要么深耕机器翻译，要么专注文本生成，要么钻研自动问答……每个人都是一个特别具体的任务的专家，这一发展状态与诸多其它的人工智能研究领域高度相似。而预训练技术的横空出世，与此前的专用范式形成了关键分野。自 2018 年起，自然语言处理才真正迈向通用智能，我们也自此从通用智能的视角，探索人工智能的语言能力。

从整个自然语言处理发展史上来看，2018年兴起的预训练技术是一个非常重要的里程碑。日后，我们重新梳理自然语言处理的发展脉络时，2018 年必将成为一个清晰的历史分界点，清晰地划分出前后两个截然不同的发展阶段。也正因如此，探讨 2018 年之后相关技术的变革，以及这些变革赋予模型的全新能力，才更具价值与意义。毕竟在这之前，所有技术探索都止步于专用任务，各任务间壁垒森严，任一任务的技术突破都无法迁移泛化至其他领域，这样的突破自然缺乏通用性。

2018 年之后，自然语言处理的发展脉络愈发清晰。预训练技术让模型拥有了从海量数据中自主学习知识的能力，只要数据充足，便能挖掘出数据背后的各类知识，这是一切发展的起点。2022 年底 ChatGPT 的出现，成为第二个关键节点，指令微调技术的应用，让模型真正具备了理解人类意图的能力，可依循需求完成各类任务，这份精准的意图理解，是技术发展中至关重要的一步。2024 年下半年至 2025 年，第三个重要突破接踵而至，大规模强化学习技术落地，让模型拥有了深度思考的能力。

回顾过去六年，这三个节点构成了大语言模型驱动下的自然语言处理研究的核心发展脉络。每个节点的到来，都伴随有出圈的全球级技术成果，引发行业乃至全球的轰动，从最初的 BERT、GPT，到 ChatGPT，再到 DeepSeek-R1，皆是如此。而未来的发展走向，关键便在于能否出现同等级别的重磅技术突破，继续掀起全球范围内的行业变革。

图注：刘知远图片

Q2: 您认为到 2025、2026 年这个时间节点，以 NLP 为核心的智能，是否已经从被动响应迈入主动行动的形式，抵达了这一关键的奇变临界点？

刘知远: 我觉得深度思考这个现象，确实值得重点关注。但这个现象背后的技术内核，更多是技术圈在深入研究，对于公众而言，大多只是直观看到模型拥有了深度思考的能力。而支撑这一能力的核心技术，就是大规模强化学习。就像 OpenAI 的 o1、DeepSeek 的 R1，包括 2025 年全年的行业最大热点，本质都是强化学习。

从这个角度来说，强化学习的落地成功，对应的是人工智能学习范式的根本转变，这和当年 AlphaGo 到 AlphaGo Zero 的变革有着异曲同工之妙。此前，训练 AlphaGo 等模型的范式，是人类准备好数据，它进行被动的学习；而到了 DeepSeek R1、OpenAI 的 o1，已经接近 AlphaGo Zero 的模式，不再局限于人类提供的数据，AI 能够主动去探索、思考，构思问题的解决方案，甚至会自己生成数据，再基于这些数据完成学习。在我看来，这种学习方式的转变，本身就是一次重大突破，和当年 AlphaGo 到 AlphaGo Zero 的跨越是一个道理，这也是行业发展背后的一条核心暗线。

大家现在经常讨论 Agent AI 的主动与被动。从表面看，让 AI 或者 Agent 实现主动和世界交互、主动为人类完成各类事，似乎通过 Prompt 设定规则就能做到。比如我们回到家，智能音箱主动向我们打招呼，这类行为只需提前写好规则就能实现，并不是 AI 真正具备了主动意识。而从技术本质来讲，从被动智能到主动智能的真正突破，在于模型能自主建立起在环境中的主动探索意识和能力，拥有向外探求的主观能动性。这一点，正是 2025 年深度思考这个表象背后，大规模强化学习所承载的重要历史意义。

当然我们会认为现在的智能体的主动性还不够。到明年，大概率都不需要人为地为强化学习提供标准答案。现在，无论是处理数学问题还是编写代码，AI 都已经具备了一定主动思考、寻求可能的解决方案的能力。但是，究竟哪个方案是对的，哪个方案是错的？AI 还无法自己做出判断。它需要利用人类提供的答案，然后基于规则给出奖励。那这个过程中，AI 的主动性还不够强。我们需要进一步加强模型的自主性，让它能够自主地决定在环境中该学什么，怎么学，到底学的好还是不好。

Q3: 您一边深耕学术研究，一边推动产业的发展。从学术层面的模型研发，到 AI 技术的产品化落地，这一路下来，您最深切的体会是什么？对于 NLP 领域积累的一些历史遗留问题，在如今做 AI 智能体的过程中，您是否感觉它们被进一步放大了？有没有出现一些突破性的解决方案？

刘知远: 我们一直提 2018 年开启了通用化人工智能的新方向。其实这两年，不论是做各类报告，还是在学校开设相关课程，其中一个重要的主题都是 “迈向通用人工智能”。为什么是 “迈向”？ “通用” 这个词，从来都不是一个绝对的概念，没有一个明确的标准来界定，并不是达到某个水平才是真正的通用，达不到就不算。在我眼中，通用是一个连续演进的过程。

2018 年的技术，对比此前的方案，已然实现了通用化的跨越；而站在当下看，2025 年的模型，又比 2018 年的模型具备了更强的通用性。尤其是在理解用户意图这一点上，2025 年的模型通用能力提升尤为明显。要知道，在 2023 年初 ChatGPT 出现之前，我们的常规做法都是先预训练模型，再通过微调，让它适配某个具体任务，成为专属的任务模型。而 2022 年底的指令微调技术，让模型实现了质的突破。一个模型就能理解用户各类意图，完成多样任务。我们可以直接通过 Prompt、借助上下文学习，让模型自身具备更通用的多任务处理能力。

今天，我们看到了模型的深度思考能力也能在各类任务中得到更好的发挥。2023 年的时候，模型虽然也能做上下文学习，在某些场景下具有逐步推理思考的能力，但这种能力的通用性还不够。而现在，深度思考能力已经基本融入了模型的核心体系。所以在我看来，“迈向通用人工智能” 这个说法恰如其分。2018 年的模型，对比过往已经足够通用，但和 2025 年的模型相比，仍偏于专用。若把 2025 年的模型放到 2030 年再看，或许又会发现，它在一些方面依旧存在专用性的局限，还有不少待提升的地方。

说到当下的模型还有哪些不足，我觉得最大的问题，还是在更高阶的智能层面，缺乏足够强的通用性和泛化能力。比如 2023 年时，模型已经能在数学、代码领域，依靠标准答案实现深度思考，哪怕全球已标注的相关数据都用尽了，也能通过自我模拟对弈的方式继续学习。但要知道，全球有众多学科、无数专业领域，模型目前还无法在这些领域都实现有效的自我模拟对弈，这样的通用性，和人类相比差距还很大。我们可以想想，一个普通的大学毕业生，放到任何一个工作岗位上，经过学习都能成为该领域的专业人才。从这一点来看，模型当下还不具备在任意领域自主学习、快速上手的通用能力。

AI 未来的发展，最终目标必然是通用人工智能，而这种 “通用”，从来都是没有最高、只有更高，是我们一直追求、不断进阶的目标。即便发展到今天，回答 AI 领域核心的探索问题，关键词依旧是 “通用” 二字。

图注：面壁智能的GitAgent

Q4：结合您在学术界与产业界的双重经历，您认为高校在哪些研究方向依然具备独特优势，或是尚未被产业界完全占据领先地位的？

刘知远: 在我看来，这个问题本身，其实是人为割裂了学术界与产业界的联系。大模型、人工智能发展到当下的阶段，早已不再是象牙塔里的纯研究对象，而是成为了能切实服务社会的重要载体。就像历史上的大规模集成电路、计算机、互联网，任何一项能影响全人类的科技突破，最终必然要通过企业、通过市场的方式，去落地服务全人类。

那么，思考创新的主体是什么？我觉得，任何一门学科，在发展相对成熟、即将规模化服务人类社会时，高校就不再是这一阶段的创新主体了。所以，其实对于目前的大模型来讲，它创新的主体就是企业，要以企业的形式，把我们最新的技术快速的转化为可以服务全人类的产品，体现其商业价值。

互联网诞生就是这一规律的显现。从搜索引擎技术和信息检索的研究，发展为人人可用的搜索引擎。原本的推荐系统研究，落地为规模化的个性化推荐，这些技术都在短时间内完成了产业化。所以就是你会看到那些最初在高校中被小范围、多方向探索的研究对象，一旦技术成熟度达到可规模化的水平，前沿探索的主体就会迅速转移。谷歌、字节跳动这些成功的高科技企业，都是这一规律的践行者。

因此，我认为所有 AI 领域的学者，都应认清这一历史发展趋势。这也是清华大学从学校、院系到教授，都在积极参与产研转化的原因。大家都清晰地意识到，在当下这个时代，想要做最前沿的技术研究，若脱离企业平台、脱离大团队协作、脱离产研结合的模式，就无法适应时代的要求。

与其纠结哪些研究适合高校、哪些适合企业，不如明确一个判断标准：凡是能快速落地应用、具备规模化潜力的研究，必然要以企业平台为核心。过去三到五年，AI 领域正经历这样的主体快速迁移，高校与产业界的距离也在不断拉近。在这个过程中，如果不愿认清事实、不愿承认这一范式转移的趋势，仍在高校闭门造车，我认为是不可取的。

当然，即便在 AI 时代，高校依然有其专属的研究价值与使命。比如人工智能领域最基础的理论研究、科学体系的建构探索，还有那些短期内不具备商业价值、高度开放性的问题研究，这些显然都适合在高校开展。但现在有不少高校的老师和学者，既不积极参与产研融合，也不愿承认这一重要的发展趋势，仅靠有限的算力、寥寥数名学生，就尝试开展大模型相关研究，这样的研究很难形成真正的重大突破与创新，最终只会被海量的论文所淹没，这并不是一个值得鼓励的现象。

Q5：您的团队近期也发布了不少与 GUI Agent 相关的产品和研究工作。能否简单聊聊，GUI Agent 这一领域近些年经历了哪些研发阶段，其中又体现出了 NLP 技术的哪些迭代与发展？

刘知远: 其实最近几个月 GUI Agent 之所以受到广泛关注，核心还是因为字节跳动等厂商推出了手机助手。GUI Agent 无疑是智能体的一种重要形态，它能让智能体像人类一样识别屏幕、理解界面内容，还能模拟人类的点击操作，这种形态也必然能体现出智能体的自主性、决策规划能力等核心特性，这一点是毋庸置疑的。但同时我也认为，它绝对不会成为下一代智能手机助手可商业化的主流形态。