今天,阿里云悄无声息地放出了一款新产品——CosyVoice 移动版,支持手机 APP 和 macOS 双端下载。CosyVoice移动版是一款以语音输入为核心的手机输入法APP。你可以把它理解成一个“AI语音助手”,但它更专注于帮你把说的话,准确、高效地变成文字。
消息不算大张旗鼓,但在圈子里激起了不小的水花。原因很简单:字节跳动的豆包输入法、腾讯的微信输入法,再加上今天的阿里 CosyVoice,国内互联网三巨头终于聚齐在“AI 语音输入”这个赛道上了。
这不是巧合,而是一场关于“人怎么和手机说话”的暗战。
🎯为什么是现在?
其实语音输入不是新鲜事。讯飞、搜狗做了十几年,我们也都试过——对着手机说一段话,文字刷刷出来,看着挺酷。但用几次就放下了,因为总有几个词识别错,总得手动去改。改着改着就烦了,还不如老老实实打字。
问题出在传统语音识别是“听字”而不是“听话”。它把声音转成拼音,再匹配字库,至于你说的到底是什么意思,它不太关心。所以碰到方言、口音、专业术语,或者中英文混着说,它就懵了。
但现在不一样了。大模型出现后,语音识别不再是孤立的“听写”,而是结合上下文理解语义。你说“给我订一张去上海的票”,它能明白你要订的是火车票还是机票,甚至自动帮你补全日期。这种“理解”能力,是以前没有的。
阿里选在今天推出 CosyVoice,正是因为他们把千问大模型塞进了输入法里——让语音输入第一次有了“脑子”。
🎯阿里想干什么?
有人说,阿里做输入法是为了跟腾讯、字节抢流量。我觉得不止。
输入法是手机里最高频的工具之一,每个人每天都要打开无数次。它天然是AI 能力的最佳试验场——你说话,它转写,你修改,它学习。这种交互闭环,可以源源不断地喂养大模型,让 AI 更懂人类的日常表达。
所以阿里的目标不是做一个“更好的语音输入法”,而是用 CosyVoice 撬动整个移动端的 AI 入口。当你习惯了用嘴打字,习惯了它帮你润色邮件、生成会议纪要,你就离不开它了——而这,才是阿里真正想要的。
🎯普通人怎么用?
用法简单到不值一提:去应用商店搜“CosyVoice”下载,然后在手机系统设置里把它设为默认输入法。之后你在微信、备忘录、邮件……任何能打字的地方,键盘上都会多出一个麦克风按钮。点一下,说话,文字就自动填进去了。
如果你有常用的行业黑话、客户姓名、产品代号,可以提前在 APP 里导入“热词库”,这样识别率会高到离谱。提前导入行业术语、品牌名、人名等词汇,系统转写时会优先匹配,大幅减少后期修改,对专业的行业群体特别有用。另外,它还能生成制式文稿:直接说“帮我写封邮件给...”,系统就能自动生成带称谓和落款的标准化文档。
另外,它支持粤语、四川话、上海话等多种方言,说家乡话也能直接转成标准普通话文字,这个对年长用户或者区域工作者很友好。
🎯痛点治好了,好处才真正落地
过去语音输入最大的痛是“识别不准 + 修改麻烦”。你越急着用,它越出错,反而拖慢节奏。
CosyVoice 用大模型把这两个痛点一起拔了。你说话的时候带的口头禅“嗯啊那个”,它会自动过滤掉;你突然改口说“不对不对,改成下午三点”,它也能听懂并直接修正,不会留下改口痕迹。数字更不用操心,“三点五八亿”自动变成“3.58亿”。甚至你懒得多说,直接讲“帮我写封请假邮件”,它连称谓和落款都给你生成好。
说白了,它不是在“听写”,而是在理解你的意图,并直接帮你把话整理成可以用的文字。
这样一来,语音输入终于从“花哨的玩具”变成了“趁手的工具”。对记者、律师、学生、商务人士这些经常需要长篇输入的人来说,效率提升不是一点点——APP 里还有个统计面板,能直观告诉你省了多少打字时间,按估计,一小时说话能顶两小时打字。
目前 CosyVoice 还是限时免费,未来可能会收费,但现在是体验的最佳时机。
如果你曾经被语音输入折磨过,不妨给这次机会——反正不花钱,万一真的好用呢?
毕竟,用嘴打字这件事,我们已经等了十几年,这次可能真成了。

夜雨聆风