|
|
聊一聊语音输入进行AI编程的感受
身为AI产品经理,我接触AI编程已经有一年半的时间了。这段时间里,看着各类工具不断迭代,功能一点点完善,最近在语音交互这块的使用体验,让我有了不少的感触。
在过去,大部分AI编程工具都是纯文字交互,有的甚至只有命令行,没有语音交互相关的功能,我也一直是靠着打字和AI沟通需求。
去年做一些探索性项目时,我特意尝试了语音输入输出的方式,自己对于ASR、TTS这些事情也有了一些体感。
近期,越来越多AI编程工具陆续加上了语音交互功能,我开始常态化使用,慢慢摸出了这套交互方式的好用之处,还有一些很实际的小问题。
对比下来,语音输入解决了我长久以来的痛点。之前打字的时候,不管是电脑端还是手机端,输入速度都跟不上思考的速度,敲一段需求总要耗费不少时间,还经常出现错别字,尤其是同音词类似词的歧义,比如“离开”和“立刻”、“全不”和“全部”,总要反复修改挑选,本来连贯的思路,被这些细碎的操作打断,特别影响状态。
现在有了语音输入就不一样了,当下的语音识别技术能结合语境自动纠错,不用再纠结字词对错,表达起来格外流畅。心里想到什么需求、有什么细节想法,直接说出来就行,打字可能只能勉强梳理一两百字的需求,用语音轻轻松松就能说四五百字,能把需求的背景、细节偏好、甚至一些临时想到的补充点都完整传递给AI,思维不会被输入方式拖累,这是打字很难实现的顺畅感。
当然,使用过程中也发现了现阶段的小不足:很多AI编程工具目前只支持语音输入,却没有配套的语音输出功能。有时候AI返回大段代码说明或是需求反馈,盯着屏幕看久了,眼睛会觉得累,期待能有语音播报辅助接收信息。
但这里也藏着一个很有意思的效率矛盾,也是我这段时间摸索出来的小经验:语音和文字的输入输出效率,其实是完全相反的。
语音输入的优势很明显,快且流畅,能完整承载想法;可语音输出恰恰相反,效率远不如文字。文字可以一次性呈现几百上千字的内容,我们阅读速度快,扫一眼就能抓住核心重点,需要细看时也能逐字琢磨;但如果让语音逐字逐句朗读大段内容,反而会显得拖沓,听久了容易分心,甚至会觉得是种负担,远没有看文字来得高效。
所以我去年在做几个AI探索项目的时候总结了一个小技巧:不用追求语音和文字内容完全一致。屏幕上的文字保留完整版本,方便查阅、复制、细致核对;如果做语音输出,只需要做精简的概要版就好,提炼核心结论、关键改动点,快速抓住重点即可,不用把屏幕上的每一个字都朗读出来,这样既兼顾了信息的完整性,又不会让信息接收变得低效。
其实用语音做AI编程,算不上什么颠覆性的改变,只是一种更贴近人类自然表达习惯的交互方式。从早年打字和AI沟通,到现在用语音顺畅表达,再到慢慢摸索出适合自己的输入输出搭配方式,也是AI工具一步步贴近使用者需求的体现。没有什么夸张的变革,只是这样小小的使用体验优化,慢慢让体验变得更顺畅。
|
|