编程进入「对讲机」时代新智元
Claude Code 正式上线语音模式:输入 /voice,长按空格说话,松开即完成输入。语音转录实时流入光标位置,和键盘无缝切换,转录Token完全免费。编程的下一个战场不是模型智商,而是交互方式。
刚刚,Anthropic给Claude Code加了个语音模式。
以后写代码,用嘴说就行。
Claude Code是Anthropic出品的命令行AI编程工具。
以前你得打字跟它交流。现在不用了。
输入/voice命令,开启语音模式。长按空格键说话,松开完成输入。
跟对讲机一模一样。
目前灰度测试阶段,大约5%的用户先尝鲜,接下来几周逐步放开。
如果你的账户有权限,打开Claude Code时欢迎界面会提示你。
语音模式这玩意儿牛在哪?
不是简单的语音转文字。
语音转出来的文字,会直接在光标位置实时流式输出。
类似下面网友分享的这样。
啥意思呢?你可以先手打一半提示词,遇到复杂逻辑懒得打字了,长按空格切到语音,吐槽一通那段难以描述的逻辑,松手,再继续打字。
无缝衔接。不覆盖。不替换。
这才是关键——它不是替代键盘,是补充键盘。
想象一个场景:你在调一个诡异的bug,涉及三层回调嵌套加一个竞态条件。
打字描述这玩意儿,光组织语言就得五分钟。
但如果张嘴说?人类天生就擅长口头描述混乱的场景。三十秒搞定。
还有一个大利好:语音转录的Token完全免费。不计费。不扣额度。想说多少说多少。
对面奥特曼什么反应?
有意思的是,OpenAI的Codex几乎在同一时间也加了类似功能。
Codex 0.105.0版本更新日志写得明明白白——按住空格录音,松开转录,文字直接输入到终端界面。
用的是Wispr语音引擎,目前支持macOS和Windows,Linux还没跟上。
而且这功能还需要手动开启:
在配置文件里设置features.voice_transcription=true。
两家几乎同时出招。
这不是巧合,是共识。
编程工具的下一个战场,不在模型有多聪明,而在交互有多自然。
社区怎么看?
开发者社区其实早就在自己搞了。
在官方语音模式之前,GitHub上就有一个叫Voice Mode的社区项目,通过MCP协议给Claude Code外挂了语音能力。
用Whisper做语音识别,用Kokoro做语音合成,甚至能离线跑。


