千问PC端AI语音输入上线,免费开放覆盖全平台,输入法战场卷到AI了
产品更新
千问PC语音输入免费开放
输入法战场卷到AI了
按住右Alt键开口说话,千问自动帮你去语气词、纠口误、整理格式——在任何桌面应用里都能用。免费,全覆盖,不挑软件。
5月7日,阿里千问正式在PC端上线AI语音输入功能,对所有用户免费开放,无需额外安装输入法。
Windows按右Alt,Mac按右Command,直接在微博、QQ邮箱、Photoshop、浏览器里开口就能用。
这事儿表面上是千问加了个语音功能,实际上是阿里向搜狗、讯飞的传统输入法领地正面亮剑。
和普通语音输入有什么不一样?
普通语音输入:你说的就是它写的
搜狗、讯飞们做了十几年,核心能力是”语音转文字”。你说什么,它写什么。语气词、口误、逻辑混乱,原封不动搬上屏幕。
准确率做到98%,已经是行业天花板。
千问语音输入:你说完,它替你改好
你如果说:“王总,会议定在两点……不对三点,地点在老会议室,记得带那份……市场调研报告。”
千问直接输出:“王总,会议定在下午三点,地点为老会议室,请带上市场调研报告。”
去语气词、纠口误、格式化整理——这三步,传统输入法做不了,因为它们没有大模型。
大模型加持,语音输入变成语音助手
智能整理:从”碎碎念”到”结构化”
散乱的口述内容,自动整理成逻辑清晰的周报、会议纪要。不只是转写,是在理解你说了什么。
上下文感知:知道你在跟谁说话
在钉钉里收到消息,它能根据对话上下文自动生成回复。在邮件里,中文口述就能生成英文邮件。
划选即操作:读文献也能用语音
选中一段英文论文,语音说”帮我翻译一下”或”帮我解释一下”,直接出结果。不需要复制粘贴到别处。
千问的底气:半个月前刚发了Fun-ASR 1.5
4月20日,阿里通义实验室发布了语音识别大模型Fun-ASR 1.5。半个月后就落地到了千问PC端。
30种语言 + 汉语七大方言,单模型覆盖,跨语言自动切换不需要手动选。
方言字错误率相比上一代下降56.2%,在13种方言识别上超越了字节的Seed-ASR和腾讯的Tencent-ASR。
西语、葡语、英语识别准确率均超过96%,连古诗词吟诵都能精准转写。
这意味着千问的语音输入不是简单接入第三方ASR接口,而是有自研大模型做底层支撑。
输入法,成了一场入口争夺战
腾讯1月27日刚把搜狗输入法升级到20.0 AI大版本,语音准确率98%,AI用户破亿,日均语音使用近20亿次。这还是行业老大。
讯飞深耕语音十几年,轻声场景都能保持97%准确率。豆包、元宝这些大模型产品也都内置了语音输入。
千问的策略很清晰:不用下载新输入法,用千问就行。1.66亿月活用户,直接转化成语音输入的潜在用户池。免费开放,零门槛。
语音输入的终局,不是更快,是更懂
传统输入法比的是”谁听得准”,千问比的是”谁听得懂”。纠口误、理逻辑、懂上下文,这不是语音识别的升级,是语音理解的开始。输入法战争,刚刚进入AI时代。
夜雨聆风