
算力豹AI日报
NEWSPAPER

近日AI算力看点一览
01
小米开源OmniVoice:AI语音开始进入“全语种统一模型”阶段
小米集团AI实验室发布并开源多语言语音克隆模型OmniVoice,号称可覆盖600余种语言与方言,并在低资源小语种场景中实现高质量语音合成。相比传统TTS系统依赖的多模型、多阶段拼接的方案,OmniVoice采用单一的单一Transformer架构,尝试用一个统一的模型完成文本语音的直接生成。

(图源:IT之家)
技术突破的关键,在于“小模型架构做大规模语种泛化”。OmniVoice不仅取消了复杂的系统预测与独立文本建模结构,还首次在非自回归TTS模型中引入大语言模型预训练参数,使理解模型在发音准确率、语言和语义连贯性上获得明显提升。这意味着AI语音系统开始从“声音建模”走向“理解语言的语音生成”。
从行业应用看,多语种语音生成一直是AI商业化的重要瓶颈。大量小语种缺乏训练数据,传统语音系统往往只能覆盖主流语言,而OmniVoice在训练数据不足10小时的小语种场景下,仍能实现相关可懂和语音一致性。将进一步降低跨境电商、智能客服、AI陪伴、数字人以及全球化生产内容的多语音。
更值得关注的是,OmniVoice已经不仅仅是“读文本”。其支持自定义音色、表情表达、噪声过滤以及发音纠错,说明AI语音竞争正在从“能说”转向“像真人一样的表达”。随着统一多语言模型能力增强,未来AI语音可能逐渐成为多模态智能体的重要交互入口。
02
阶跃星辰冲刺IPO:国产大模型开始进入产业资本绑定阶段
国产大模型公司阶跃星辰被曝即将完成近25亿美元融资,并已完成股份制改造及红筹架构等,市场普遍将其视为赴港IPO的重要前置信号。相比之下,AI公司更多依赖财务投资人,本轮融资更值得关注的,是大量产业链资本开始进入大模型。
据了解,华勤、龙旗、豪威、中兴等企业已参与投资,覆盖整机制造、影像、通信与硬件方案等多个环节。这意味着,大模型竞争正从单纯的“模型能力比拼”,转向“终端落地与产业和谐”。产业资本押注的核心逻辑,目前AI能力正在从云端向手机、机器人、智能硬件等快速横向迁移。

(图源:光华日报)
从行业趋势看,国内当前大模型公司正在进入新阶段。一方面,基础模型能力逐渐趋同,严重依赖参数规模和跑分难已长期壁垒;另一方面,谁能率先打通芯片、启动、操作系统与AI代理生态,谁就更有机会建立商业闭环。阶星辰此次引入大规模硬件产业资本,本质上是在提前卡位“端侧AI”与“AI硬件入口”。
同时,此次红筹架构、引入香港投资管理有限公司等动作,也显示国内AI企业正在加速资本化与合规化进程。在全球AI竞争周期的背景下,大模型公司未来不仅比技术和算力,也开始比产业联盟、融资能力以及生态整合速度。


END

扫描下方二维码 关注我们
我们以算力为线,持续跟进算力基础设施的报道,输出洞察,伴随算力行业实现算力自由。敬请关注!

夜雨聆风