聊一聊语音输入进行AI编程的感受

张二嘎 · 发表于昨天 20:46

聊一聊语音输入进行AI编程的感受

身为AI产品经理，我接触AI编程已经有一年半的时间了。这段时间里，看着各类工具不断迭代，功能一点点完善，最近在语音交互这块的使用体验，让我有了不少的感触。

在过去，大部分AI编程工具都是纯文字交互，有的甚至只有命令行，没有语音交互相关的功能，我也一直是靠着打字和AI沟通需求。
去年做一些探索性项目时，我特意尝试了语音输入输出的方式，自己对于ASR、TTS这些事情也有了一些体感。
近期，越来越多AI编程工具陆续加上了语音交互功能，我开始常态化使用，慢慢摸出了这套交互方式的好用之处，还有一些很实际的小问题。

对比下来，语音输入解决了我长久以来的痛点。之前打字的时候，不管是电脑端还是手机端，输入速度都跟不上思考的速度，敲一段需求总要耗费不少时间，还经常出现错别字，尤其是同音词类似词的歧义，比如“离开”和“立刻”、“全不”和“全部”，总要反复修改挑选，本来连贯的思路，被这些细碎的操作打断，特别影响状态。

现在有了语音输入就不一样了，当下的语音识别技术能结合语境自动纠错，不用再纠结字词对错，表达起来格外流畅。心里想到什么需求、有什么细节想法，直接说出来就行，打字可能只能勉强梳理一两百字的需求，用语音轻轻松松就能说四五百字，能把需求的背景、细节偏好、甚至一些临时想到的补充点都完整传递给AI，思维不会被输入方式拖累，这是打字很难实现的顺畅感。

当然，使用过程中也发现了现阶段的小不足：很多AI编程工具目前只支持语音输入，却没有配套的语音输出功能。有时候AI返回大段代码说明或是需求反馈，盯着屏幕看久了，眼睛会觉得累，期待能有语音播报辅助接收信息。

但这里也藏着一个很有意思的效率矛盾，也是我这段时间摸索出来的小经验：语音和文字的输入输出效率，其实是完全相反的。

语音输入的优势很明显，快且流畅，能完整承载想法；可语音输出恰恰相反，效率远不如文字。文字可以一次性呈现几百上千字的内容，我们阅读速度快，扫一眼就能抓住核心重点，需要细看时也能逐字琢磨；但如果让语音逐字逐句朗读大段内容，反而会显得拖沓，听久了容易分心，甚至会觉得是种负担，远没有看文字来得高效。

所以我去年在做几个AI探索项目的时候总结了一个小技巧：不用追求语音和文字内容完全一致。屏幕上的文字保留完整版本，方便查阅、复制、细致核对；如果做语音输出，只需要做精简的概要版就好，提炼核心结论、关键改动点，快速抓住重点即可，不用把屏幕上的每一个字都朗读出来，这样既兼顾了信息的完整性，又不会让信息接收变得低效。

其实用语音做AI编程，算不上什么颠覆性的改变，只是一种更贴近人类自然表达习惯的交互方式。从早年打字和AI沟通，到现在用语音顺畅表达，再到慢慢摸索出适合自己的输入输出搭配方式，也是AI工具一步步贴近使用者需求的体现。没有什么夸张的变革，只是这样小小的使用体验优化，慢慢让体验变得更顺畅。