AI配音终于不用"标情绪标签"了——阶跃星辰这个新模型,用大白话就能指挥说话
你有没有遇到过这种事:对着AI配音工具调了半小时的”情绪参数”,选标签、滑滑块,出来的声音听着还是像个”字正腔圆的播音员在努力装激动”?
一、问题:AI配音的”情绪”,一直是调不出来的尴尬

用过AI做视频配音的人,大概率都有这个痛感:工具本身的音色已经做得很好了,挑一个声音,输入文字,点击生成——听起来确实”像个人在说话”。
但问题出在”演”这个字上。
你要配一段故事里两个人吵架的桥段,AI会用同样的平稳语调把台词念完,最多在音量上稍微大一点。你想让它”先犹豫,然后突然激动”,传统工具给你的选项是几组预设标签:“开心””悲伤””愤怒”——三选一。
三个标签覆盖人类几百种微妙的情绪状态,这本身就是个笑话。
更让人头疼的是”分寸感”。一段悼词,你想要的是”克制中的悲伤”,不是号啕大哭;一段幽默段子,你要的是”一本正经地搞笑”,不是播音腔的”开心朗读”。这些细微的差别,靠选标签根本搞不定。
所以很多做视频的人最后的办法是什么?自己配。 哪怕声音条件一般,至少情绪是对的。
2026年了,AI在写文章、画画、写代码上已经强得离谱,但”好好说一段话”这件事,竟然还是个没被解决的痛点。
二、洞察:从”选标签”到”写指令”,控制方式决定了天花板

这次的转折点,不是”声音更像真人了”,而是你指挥它的方式变了。
4月16日,阶跃星辰发布了一个叫 StepAudio 2.5 TTS 的新模型,定位很明确:Contextual TTS——语境感知语音合成。
它做了什么?把”控制情绪”这个动作,从选标签变成了写句子。
举个例子。以前你想让AI用”温柔但有点疲惫的声音说话”,你得在预设的情绪标签里找一个最接近的——大概率找不到,只好选”温柔”然后手动调语速。现在你可以直接写:”用温柔但略带疲惫的声音,像深夜给朋友发语音时的语气。”
这一句话,模型就能理解并执行。
这个变化的底层逻辑其实不复杂:自然语言的表达空间远大于标签系统。 人类的情绪不是”开心/悲伤/愤怒”六个抽屉能装下的,它是一张连续的光谱。标签系统是在光谱上强行画了几个点,自然语言控制等于把整张光谱交给了用户。
这里有一个值得留意的横向对比。在StepAudio 2.5之前,国内做”自然语言控制语音”这件事的,主要有两个玩家:
Fish Audio 的 S2-Pro(2026年3月开源)走的是”文中内联控制”路线——在需要调节的句子旁边直接插入控制指令,比如”[笑一下,然后放慢语速]接下来我要说一件很离谱的事”。它擅长的是句级别的精确控制,适合逐句打磨的专业配音场景。
阿里的 CosyVoice(2025年1月升级v2)则是在”克隆音色的情绪控制”上发力——你用自然语言描述情绪,但主要作用在音色克隆后的风格调整上,控制维度相对单一。
StepAudio 2.5 的做法是把这两种路线合并了:它有”全局语境控制”来定调整段基调(类似CosyVoice的宏观设定),又有”文中语境控制”来做句级精细调节(类似Fish Audio的逐句打磨),再加上零样本音色复刻——三层能力叠在一起。
换句话说,Fish Audio和CosyVoice各自解决了一个维度的问题,StepAudio 2.5把它们拼成了一个完整的”配音工作流”。这是这个模型真正值得注意的地方——不是单项指标有多强,而是把分散的能力收拢到了一个入口里。
三、论据:这件事不只是”能用了”,而是重新定义了谁在”导”

说完了逻辑,来看看实际效果。
零样本音色复刻的速度。 官方演示页面展示了这样一个流程:上传一段3秒的目标语音,模型就能提取音色特征,然后用你指定的任何情绪去驱动这段声音说话。3秒素材、零训练、即时生成——这个速度在2026年初的行业里属于第一梯队(基于公开演示推断,未经独立复现验证)。
文中语境控制的精细程度。 从演示案例来看,你可以在一段对话中给不同角色分别设定语气,比如”角色A用急躁的语气说这句话,角色B用不紧不慢的冷淡语气回应”。模型能在一整段文本里保持角色切换的连贯性,而不是每句话都像独立的语音片段拼在一起的。
最让我意外的——它对”停顿”和”节奏”的理解。 自然语言里有很多”不说出来的信息”藏在停顿里。传统TTS基本不会主动停顿,除非你手动加标点。StepAudio 2.5 在演示中展现了一种能力:当你描述”说到这里犹豫了一下”时,它真的会制造一个不规则的、带有呼吸感的停顿。这种细节以前只有在专业配音演员的表演里才能听到。
不过也有一个现实的限制:这种自然语言控制的效果,取决于你”描述情绪”的能力。如果你自己就说不清楚想要什么感觉,AI也猜不出来。它降低了技术门槛,但没有消除表达门槛——你得知道自己想要什么声音。
四、行动:你可以现在就试试

如果你在做视频、播客或有声内容,这件事值得你花半小时亲自体验。
具体的操作路径:
① 打开阶跃星辰开放平台(platform.stepfun.com),注册一个账号,进入模型列表找到 StepAudio 2.5 TTS。
② 先试最简单的一步:上传一段你自己或任何人的3秒语音,然后在文字框里输入一段台词,在全局语境描述里写”用日常聊天的语气,像在跟朋友解释一件事”。听听效果。
③ 然后尝试文中控制:在同一段文本中,给两句话分别设定不同的语气描述,比如第一句”用兴奋的语气”,第二句”突然冷静下来”。感受一下角色切换的连贯性。
④ 如果你已经在用其他TTS工具(豆包语音、CosyVoice、Fish Audio),把同一段文本分别喂进去,做一次横向听感对比。重点不是比谁”更像真人”,而是比谁更容易调出你想要的效果。
我自己会关注的一个判断标准是:从”想到一个声音效果”到”实际听到这个效果”,中间花了多少步骤。 步骤越少,说明控制方式越接近人类直觉——这才是语音合成真正该走的方向。
写在最后
语音合成这件事,最迷人的地方不在”技术有多强”,而在于它在重新定义”说话”这件事的门槛。
以前只有专业配音演员才能做到的情绪控制,现在一段自然语言就能搞定。这不只是工具的进步——它让普通人第一次拥有了”导演声音”的能力。
★
技术的终极目标从来不是替代人类表达,而是让更多人拥有表达的能力。
如果这篇文章对你有帮助,欢迎转发给朋友 🚀
夜雨聆风