编程进入「对讲机」时代新智元

Claude Code 正式上线语音模式：输入 /voice，长按空格说话，松开即完成输入。语音转录实时流入光标位置，和键盘无缝切换，转录Token完全免费。编程的下一个战场不是模型智商，而是交互方式。

刚刚，Anthropic给Claude Code加了个语音模式。

以后写代码，用嘴说就行。

Claude Code是Anthropic出品的命令行AI编程工具。

以前你得打字跟它交流。现在不用了。

输入/voice命令，开启语音模式。长按空格键说话，松开完成输入。

跟对讲机一模一样。

目前灰度测试阶段，大约5%的用户先尝鲜，接下来几周逐步放开。

如果你的账户有权限，打开Claude Code时欢迎界面会提示你。

语音模式这玩意儿牛在哪？

不是简单的语音转文字。

语音转出来的文字，会直接在光标位置实时流式输出。

类似下面网友分享的这样。

啥意思呢？你可以先手打一半提示词，遇到复杂逻辑懒得打字了，长按空格切到语音，吐槽一通那段难以描述的逻辑，松手，再继续打字。

无缝衔接。不覆盖。不替换。

这才是关键——它不是替代键盘，是补充键盘。

想象一个场景：你在调一个诡异的bug，涉及三层回调嵌套加一个竞态条件。

打字描述这玩意儿，光组织语言就得五分钟。

但如果张嘴说？人类天生就擅长口头描述混乱的场景。三十秒搞定。

还有一个大利好：语音转录的Token完全免费。不计费。不扣额度。想说多少说多少。

对面奥特曼什么反应？

有意思的是，OpenAI的Codex几乎在同一时间也加了类似功能。

Codex 0.105.0版本更新日志写得明明白白——按住空格录音，松开转录，文字直接输入到终端界面。

用的是Wispr语音引擎，目前支持macOS和Windows，Linux还没跟上。

而且这功能还需要手动开启：

在配置文件里设置features.voice_transcription=true。

两家几乎同时出招。

这不是巧合，是共识。

编程工具的下一个战场，不在模型有多聪明，而在交互有多自然。

社区怎么看？

开发者社区其实早就在自己搞了。

在官方语音模式之前，GitHub上就有一个叫Voice Mode的社区项目，通过MCP协议给Claude Code外挂了语音能力。

用Whisper做语音识别，用Kokoro做语音合成，甚至能离线跑。