苹果M4算力机密被曝光，Claude立新功新智元

Claude立大功！开发者靠它剖析MIL语言与E5二进制，绕过CoreML直达硬件，证明NPU训练从来不是硬件不行，而是苹果不让用。

AI界再迎地震，LLM训练未来或从此改变！

OpenClaw引起全球AI龙虾热潮，意外让苹果Mac mini卖爆——

美国百强连锁店之一的microCenter，本来主打的个人消费级PC，最近甚至宣称「Mac mini和OpenClaw天生一对」！

还有好消息：MAC mini养完小龙虾，不用吃灰了——

刚刚，苹果神经引擎（Apple Neural Engine，ANE）被破解，可能引爆AI训练革命！

工程师Manjeet Singh用Claude逆向工程Apple Neural Engine了，还训练了一个单层Transformer。

想象一下：不用GPU，不用TPU，就在M4芯片上完成的。

这并不意味着现在任何人都能构建LLM。还没到那一步。但现在你已经可以在自己的MacBook上用一个小数据集做家庭实验了。

无需CoreML，无需Metal，无需GPU。纯粹利用高速运行的ANE芯片。

如果属实，这无疑意义重大——

而且Claude深度参与了破解全程，包括整个逆向工程、基准测试以及训练代码的开发——由人类的直觉引领探索方向，由AI进行数据推理并撰写分析报告。

Manjeet Singh直言一切都靠Claude，他只是引导方向：

我们认为，这种人机协作是进行系统研究的一种新颖且自然的方式：

一个伙伴扮演富有直觉的架构师，另一个则充当编写代码和设计实验的工程师。

链接：http://github.com/maderix/ANE

Mac就能训单层Transformer！

Claude在这里扮演了关键角色。

通过Claude的智能分析，开发者钩住了私有方法、剖析了MIL语言的秘密，并拆解了E5二进制的迷雾，最终绕过CoreML框架，直接操控ANE硬件实现前向和反向传播。

一个单层Transformer（dim=768, seq=512）仅需9.3毫秒一步，峰值效率高达6.6 TFLOPS/W——

这是A100的80倍，H100的50倍以上。

这一发现让无数人的算力账单显得像个笑话。

更惊人的是，最新更新已实现完整Stories110M模型（109百万参数，12层Llama-2架构）在TinyStories数据集上的训练，损失实时下降，功耗低到「小于一瓦特」。

你的桌面Mac，从此不再是消费工具，而是AI训练的超级电脑，成本暴降至电费的零头。

这将改变世界。

首次，任何拥有Mac的人都可以在本地、私密地以远低于云GPU的成本微调、训练或迭代大规模模型。

不再租用4万美元的A100集群。不再排队等待。不再留下巨大的碳足迹。

过去动辄数万甚至数十万美元的训练成本？如今暴跌至几乎只需几美分——基本就是你那台闲置Mac本就在消耗的电费。

AI革命刚刚从耗资数十亿美元的数据中心转移到了你的桌面。

我们才刚刚起步，但大门已经敞开——今天是单层，明天就是完整模型。

超低成本的设备端训练时代已经到来。

未来不是即将来临，它已经在你的Mac上运行。不过，我们西岸看一下什么是ANE？

什么是苹果神经引擎ANE？

大多数新款iPhone和iPad都配备了神经引擎，这是一种能极大加速机器学习模型的特殊处理器，但关于这款处理器实际工作原理的公开信息并不多。

苹果神经引擎（简称 ANE）是一种NPU，即神经网络处理单元。

NPU类似于GPU，但GPU加速图形处理，而NPU则加速卷积、矩阵乘法等神经网络运算，是一种定制化的固定功能加速器。

它接收的是已经编译好的神经网络计算图，然后将整张图作为一个原子操作一次性执行完毕。

你无法像操作CPU或GPU那样逐条发出乘加指令（multiply-accumulate）。你提交的是一份描述完整计算图的编译程序，而硬件会从头到尾一次性跑完。

ANE并非唯一的NPU——

除了神经引擎，最著名的NPU当属谷歌的TPU（张量处理单元）。

2017年，Apple在A11 芯片中首次引入Neural Engine，当时是双核心设计。