DeepMind发现了最先进的强化学习算法人工智能大讲堂

在人工智能领域，强化学习（RL）算法的设计长期依赖人类专家的知识积累与直觉判断。从AlphaGo背后的蒙特卡洛树搜索，到掌控复杂物理系统的深度强化学习框架，每一次算法突破都离不开研究者们耗时数年的反复迭代与调试。

近日谷歌DeepMind宣称发现了最先进的强化学习算法，该算法拥有独特的预测语义与自适应机制，在 Atari 等多类经典基准任务上性能超越 MuZero 等人类设计算法，且具备优异的跨领域泛化能力。目前该研究成果已发表在《Nature》期刊。

强化学习的核心是让智能体通过与环境的交互，不断调整行为策略以最大化累积奖励。几十年来，研究者们手动设计了一系列经典算法：从基于时序差分的TD学习，到兼顾探索与利用的Q学习，再到如今广泛应用的近端策略优化（PPO）和分布式强化学习（Distributional RL）。这些算法在围棋、星际争霸等复杂任务中取得了瞩目成就，但人工设计的局限性也日益凸显。