人类和计算机的交道,正在被人工智能悄悄改写。下一个可能迎来翻天覆地变化的日常动作,就是那个每天我们得重复几百次的——打字。
语音输入这事儿,早就不是什么新鲜玩意儿了。从当年红极一时的 Siri、Google Assistant,到如今在海外掀起热潮的 Whisper、Otter.ai 这类工具,语音转文字这个赛道已经被反复验证过,用户确实有实实在在的需求。
可用户的吐槽,也从来没断过。识别出来的内容里,全是口语化的碎碎念——“嗯、啊、那个、这个……”这些语气词、停顿和嘴瓢全给你原封不动地保留下来。说完话还得手动改一遍,折腾一圈下来,效率不但没提升,反而更麻烦了。
再往深处看,好多工具跟实际办公场景完全是两张皮。核心工作都在电脑上干,语音工具却只困在手机里,根本不搭界。
最近,千问电脑版来了个大动作,推出了一款全新的语音输入法。只要你对屏幕张开嘴,系统就能自动识别当前打开了什么应用、屏幕上有什么内容,还能理解你想表达什么意图。它会自动过滤掉那些语气词和嘴瓢,直接给出一段结构清晰、能直接用的文字。
这套语音能力,还和千问电脑版自己的生产力工具深度绑在了一起。你只要开口下指令,就能直接调用AI,帮你回邮件、改文案、做PPT、整理表格——统统不在话下。
交互逻辑也特别简单,你只需要记住两个操作就行。在任何界面上,长按右 Alt(Mac用户长按右 Command),松开手,语音就能自动转成文字,完全不需要再装什么插件或者切换应用。
要是你想直接下指令让AI帮干活儿,双击同一个快捷键就行。查资料、回消息、生成文档、做PPT,选中内容后再双击,千问就能根据屏幕上当前的内容,直接帮你搞定。

可以毫不犹豫地讲,在这个场景里,语音输入早已不是键盘的简单替代品,它更像是点燃整条工作流程链条的那把引信。
眼下,这项新功能已经全面对外开放。无论是下载千问电脑版客户端,还是直接登录网页,任何人都能直接上手体验。更关键的是,这全程免费,无需任何申请门槛,想用就用。
接下来,我们将从第一视角开展一次实地测评。通过这次深度试用,看看究竟能挖掘出哪些让效率飙升的隐藏玩法。
千问网页版入口:https://www.qianwen.com/ 千问客户端下载链接:https://www.qianwen.com/download?ch=tongyi_redirect
智能语音输入——打工人最硬核的“嘴替”,来了。
先来体验智能语音输入。
把鼠标光标定位到钉钉聊天窗口里,右手按住键盘上的右 Alt 键(如果你用的是 Mac,就按住右 Command 键)。然后,像跟朋友闲聊一样,对着麦克风直接说话,别犹豫、别停顿,也不用管语法对不对。比如你可以这样随口来一句:
“哎,这个项目嘛,我觉得时间线得好好排一下,还有那个……呃,对,周四之前得跟客户把方案敲定,内容那边也得赶紧催催,不然怕是赶不上。”
千问会帮你把“嗯、那个、然后”这些口头禅全部去掉,把原本乱糟糟的三件事重新整理成逻辑清楚的三句话。意思一个字都不会少,但出来的文字已经可以直接复制发送,干净利落。

过去写一段提示词往往要反复推敲,费时费力;如今,你完全可以想到什么就说什么,随意输入即可。
举个例子,你直接用口语扔出一段复杂的需求:
“我想做一份千问电脑版语音输入法的上线营销方案。先说说产品功能和价值,重点讲它怎么靠千问 AI 提升办公效率和内容整理能力。接着分析目标用户和市场定位,比如职场白领、内容创作者、学生——他们有哪些痛点,又有什么需求,和竞品比优势在哪里。再帮我设计营销策略,包括线上线下推广、社交媒体、短视频、KOL 合作这些。然后做预算和KPI规划,每个渠道和活动的预算要写清楚,还要讲下载量、转化率、曝光量。再分析风险和应对,比如用户认知不足、教育成本高、竞品影响。最后来个深度分析和观点拔高,聊AI语音输入对办公效率、知识管理、内容创作的趋势,国内外输入法的发展和推广动向,以及对数字办公生态和用户习惯的长期影响。”
千问就能自动把这些需求理得清清楚楚,按框架分点输出,整个结构一目了然,毫不含糊。

中文语音识别在正常语速条件下,几乎不会出现错别字。它甚至能流畅应付中英文混合的对话场景。
举个例子,假设我们通过语音输入这样一段话:“王姐,有个事想问一下,明天的会议具体几点开始?我下午有截稿任务,能不能稍微推迟一下?对了,楼下新开了家羊汤馆,味道不错,中午要不要一起去吃个饭?”
识别系统对这类带有口语化表达和术语转换的文本,依然能保持极高的准确性。

对话历史过于冗长,直接引发了“上下文窗口”(Context Window)溢出问题。
我计划将原本采用的 ConversationBufferMemory 机制,替换为 ConversationSummaryMemory。
能否提供一个借助大语言模型(LLM)自动摘要历史消息的代码范例?
千问的解析能力依旧精准无误。
即便中英文混杂表述,也未见丝毫偏差。

开口说话代替键盘敲击,办公方式迎来全新变革。
只需双击右侧的 Alt 键(Mac 电脑用户则双击右侧的 Command 键),就能瞬间激活一种名为“AI 语音指令”的功能。在这一模式下,千问完全听从你的语音指令——无论你身处哪个软件界面,或是在桌面的任意位置,它都能被唤起。
举个例子,当你打开邮件页面,双击快捷键,然后直接说出:“帮我写一封邮件,告诉客户方案延期两天,周五能交付,态度诚恳一些。”
千问接收到指令后,会立即理解你的意图。它能够感知当前的操作上下文,精准识别收件对象,并自动生成一封格式完整的邮件。这封邮件不仅包含标准的开头与结尾,整体语气也礼貌得体、毫不拖沓。

觉得语气太正式了?只需一句“把邮件语气改得轻松点”,通义千问立马重写,用词精准到位,完全不用你动手改。

另外,这家伙还懂得分析场景。举个例子,你让它“帮我回一句:我可以”,同样是这句话,在钉钉对话窗口里,它直接回了一句:“好嘞!我到时候准点去会议室~不见不散哟!” 这句话带着即时聊天那种活泼味儿,句末还顺手带上了个表情符号,显得特别自然。

进入邮箱页面时,同样的信息会转换为另一种形式。诸如“收到,我会准时参加”这类措辞,随即被采用,表达的腔调也瞬间切换为正式的商务书面语气。

完全一样的命令,换到不同情况下,它展现出的语气、措辞,甚至是风格,都会出现天壤之别。
比如,千问智能语音系统里有个很实用的功能——做便签。你只要在任何时候双击一下,就能开始用语音记录。举个例子,你可以这样说:
“我想到一个好玩的选题,想吐槽下现在大学生写论文的现状:很多人先把任务丢给 AI 生成初稿,接着让 AI 帮忙扩写和润色,最后又用 AI 去检查重复率。整篇论文下来,几乎全程都靠 AI 操作,自己动笔的部分越来越少。帮我记下这个灵感,再给出几个可以拓展的方向,比如:学术诚信方面,AI 写作和扩写的滥用,会不会影响原创性和学术道德?技术怪圈方面,AI 生成论文后,再用 AI 去检测,这种逻辑是否很荒诞,有种‘自相矛盾’的感觉?写作能力退化方面,如果过度依赖 AI,学生会不会连基本的写作技能都丢掉了?还有教育制度怎么应对,学校和老师又该用什么方式,来面对 AI 写作带来的教学挑战和评估难题?”
当你这么说时,千问的电脑版就能自动识别这段话,把它完整记录下来,并且提供一个专门的入口让你随时查看。
接下来,我们换个更高级的场景试试。
比如说,你可以让语音指令和千问内置的 PPT 功能联动起来。千问的 PPT 模块现在新增了一个专业模式,它背后是 Qwen 最新 AI 大模型的编程能力在驱动。这个模式能动态生成结构复杂的 PPT 页面和内容,做出来的东西不仅内容有深度,排版也特别专业。
假设你在钉钉里选中了一段需求文本,然后双击快捷键,开口说:“帮我把这段需求整理成待办清单,再做成一个汇报用的 PPT。”
千问会基于你选中的内容,自动梳理里面的逻辑、提炼出关键要点,然后直接生成一份结构完整的 PPT。整个过程,你完全不用复制粘贴、不用切换窗口,更不用自己动手排版。而且,生成之后你还能继续修改,直接在原先的 PPT 上调整,根本不需要从头再来。

除了多文件处理能力之外,将大批量的Word与PDF文件一次性拖入千问,你只需双击快捷键发出指令,AI就会自动启动。它能读取每一份文档,从中提炼出关键信息,再生成可用于数据可视化的图表,最终输出一份可直接用于上台汇报的完整材料。整个过程支持多达39种文件格式,可一次性完成批量作业。
另一个高频率出现的场景,是语音指令与Excel的深度配合。
同样,你只需双击快捷键,直接说出你的需求,例如:
“请把‘财政部、税务总局公告2026年第10号’中涉及增值税优惠政策的具体条目,整理成一份Excel清单。清单要包含减免方式、政策内容以及执行期限这三项。”
话音落下,千问便会自动搜集相关政策信息,并生成对应的增值税优惠政策清单Excel文件。从头到尾,你无需手动操作表格,一切都在对话式指令中完成。
在这整个流程里,你只需要清晰表达自己的意图,所有的执行工作——从数据抓取到表格生成——全权交给千问处理。对于那些日常需要维护各种数据表、但对Excel操作并不熟练的人来说,这种交互方式几乎没有任何学习门槛。
结语
这一切的根基,在于千问大模型历经多年打磨出的底层语音技术。这项能力建立在上亿小时的音视频数据训练之上,配合端到端的实时响应系统,构成了稳固的技术底座。它一直在等待一个足够贴近日常、足够高频的应用场景来释放潜力。
真正让千问电脑版语音输入法值得单独拿出来讨论的,是它颠覆了传统“语音输入”的范畴。普通工具只做简单的听写——用户说,它转,转换完就戛然而止。但千问的理念是理解,它把声音到文字的单次转写,升级成一条完整的智能链路:识别、理解、重写、排版一气呵成。
这条链路是为语音输入量身定制的AI流水线:Qwen定制的ASR模式负责高精度的语音识别,而Qwen最新序列的LLM则承担深度理解与表达重构的任务。它能同时监听用户说的内容,观察屏幕上显示的信息,判断用户正在使用哪个软件,再据此决定如何输出。真正解决的,是把口头想法快速转化成一个可以直接使用的高质量文本。
与此同时,它也大幅压缩了调用AI的流程。只需长按说话、双击下指令,AI能力就直接嵌入用户正在使用的软件中,输入和执行之间没有断点,注意力也不会因为切换窗口而中断。
这背后,是一个正在成型的大趋势。苹果把Siri全面升级成AI助手,OpenAI在持续强化ChatGPT的语音对话功能,Google的Gemini也在推进多模态交互……语音,正从键盘的补充角色,演变为AI时代最自然的交互入口。因为大模型已经能真正理解人话、把握上下文,打字反而成了多余的中间环节。
但在电脑端,这种转变才刚刚起步。桌面端的语音输入长期停留在转写工具层面,没有真正与AI能力深度融合。千问电脑版语音输入法,恰好做了一次有价值的尝试。
模型的聪明程度,决定了产品的上限;而用户能否以最自然的方式把意图传递给AI,则决定了产品能否真正融入日常生活。
语音输入,正在成为AI交互的下一个入口。
夜雨聆风