乐于分享
好东西不私藏

敢不敢用家乡话测试这个 AI?

敢不敢用家乡话测试这个 AI?

你的家乡话,语音识别能听懂吗?

过去,答案是“很难”。方言一出口,转写结果常常是乱码或空白。

但这一切正在改变……

通义实验室正式推出 Fun-ASR1.5实现了「方言工业级可用」的语音识别大模型

已关注

关注

重播 分享

它基于统一的大模型架构,单模型即可无缝覆盖 30 种语言、汉语七大方言体系及 20+ 地方口音,古诗词吟诵也能精准转写。测试显示,典型方言场景字错误率(CER)相对下降 56.2%。目前已有 5 种方言准确率突破 90%,15 种超过 80%

从“听得清”到“听得懂”,语音识别正式迈入全场景工业级新阶段(文末有惊喜)。

Fun-ASR1.5 聚焦“听得更全、听得更准、输出更规范”三大目标,实现从“通用转写工具”向“多语言、多文化理解平台”的关键演进。四大核心突破,一文看懂:

数十万小时真实数据训练,方言识别迈入“工业级”

方言语音数据稀疏、发音变异大,一直是行业深水区。Fun-ASR1.5 基于超数十万小时真实方言语音数据训练,涵盖日常对话、地方新闻、乡村政务等多场景。

覆盖更广

模型支持汉语传统七大方言体系(官话/吴/湘/赣/客/闽/粤),并深度适配 20+ 地区口音官话,覆盖中原、西南、冀鲁、江淮、兰银、胶辽、东北、北京、港台等,包括河南、陕西、湖北、四川、重庆、云南、贵州、广东、广西、河北、天津、山东、安徽、南京、江苏、杭州、甘肃、宁夏 等 20 多个地区。

重点优化

针对业务落地中最常遇到的长尾痛点,Fun-ASR1.5 对以下方言进行定向优化:

ASR结果:移动呢价钿比较实惠但是网速现在还可以反正也勿是老卡个。

ASR结果:可以买点辅导书来,自己假如说会的话也可以教一下小孩子,嗯,现在网络很发达可以多看一点知识。

ASR结果:喝姜茶呢可能有效果,但是如果发展成肺炎了,那你还是要用抗生素的噢。

ASR结果:本来画得挺投入的,结果楼上传来一阵电钻声,把我灵感全吓跑了,还是找邻居商量下吧。

ASR结果:平常辰光匣好教教嗯笃捺亨操作手机,因为倷跟得上时代,时代葛进步,倷再会方便。

ASR结果:但是一个人若是两三两百箍一百外箍安无算贵吧,吼自助餐啊,啊你也有肉咯也有菜咯也有水果咯也有甜点咯,啥物计有咯。

精度跃升

测试显示,在典型方言音频上,Fun-ASR1.5 相比上一版本平均字错误率(CER)相对下降 56.2%。这一能力正在赋能县域教育直播、地方政务服务热线、方言文化纪录片制作等长尾但高价值的应用场景。

本评测基于工业数据集⬆️

30种语言一个模型,跨语种混合自由切换

Fun-ASR1.5 支持 30 种主流语言的精准识别,包括:

  • 东亚与东南亚中文、日语、韩语、越南语、泰语、印尼语、马来语、菲律宾语

  • 南亚与中东:印地语、阿拉伯语

  • 欧洲主流语言英语、法语、德语、西班牙语、葡萄牙语、俄语、意大利语、荷兰语、瑞典语、丹麦语、芬兰语、挪威语、希腊语、波兰语、捷克语、匈牙利语、罗马尼亚、保加利亚语、克罗地亚语、斯洛伐克语等

已关注

关注

重播 分享

本评测基于开源数据集⬆️

得益于统一的多语言训练框架,Fun-ASR1.5在混合语种对话、跨语言自由切换(Code-Switching)场景下表现尤为突出。例如,在如下几段段包含多个语种交替的录音中,模型可准确识别语音内容,无需预设语种标签。

🔷 英日codeswitch

ASR结果:We’ve all had that experience of finally visiting a place we’ve dreamed about for years,only to find that it doesn’t quite live up to our expectations.There’s even a term for this in one of the most visited cities in the world,Paris Syndrome.何年も前から行きたかった場所をやっと訪れてみたら、思っていたほどではなかったという経験は誰しもあることだと思います。

该能力已广泛应用于跨国企业远程协作多语种短视频内容生产国际学术会议记录等场景,有效降低跨语言沟通成本。

古诗词识别专项优化:让千年韵律被现代技术“听”懂

Fun-ASR1.5 对中文古诗词识别进行了专项优化,这是对传统文化数字化的一次重要技术探索。不同于现代口语,古诗词具有以下挑战:

  • 文言语法简练,省略主谓宾;

  • 押韵严格,节奏固定(如五言、七言律诗);

  • 多用典故、异体字、古今异义词;

  • 诵读时存在拖腔、停顿、吟咏等非自然语流特征。

为此,我们构建了覆盖先秦、汉魏、唐宋、元明清至近代的古诗词语音-文本对齐语料库,包含《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音,显著提升高频诗句的识别准确率。

在内部评测集中,Fun-ASR1.5 对古诗词的字符级准确率达到97%。该能力已在国学在线课程、有声诗词APP等场景应用,未来有望助力中小学语文教育与非遗文化传承。

ASR结果:1)蓬山此去无多路,青鸟殷勤为探看。2)子夏曰,博学而笃志,切问而近思,仁在其中矣。

文本输出更规范、更易用:从“能听清”到“看得懂”

语音识别的最终价值在于生成可直接使用的文本。Fun-ASR1.5 在后处理环节重点优化了两项能力:

标点预测更加智能

模型基于上下文语义自动插入逗号、句号、问号、感叹号等标点,使转写结果接近书面表达。例如:

输入语音:“今天天气怎么样啊我想出去走走但又怕下雨”输出文本:“今天天气怎么样啊?我想出去走走,但又怕下雨。”

文本归一化(ITN)表现进一步提升

将口语中的非标准表达自动转换为规范格式:

  • 数字:“三千五百六十二” → “3562”

  • 日期:“二零二六年三月二十九号” → “2026年3月29日”

  • 金额:“五万八千块” → “58000元”

  • 电话:“幺三八零零幺三八零零零” → “13800138000”

这些改进大幅降低后期编辑成本,特别适用于会议纪要生成、新闻采访整理、法律笔录等对文本规范性要求高的场景。

目前,Fun-ASR1.5 已在 阿里云百炼平台 正式上线,面向教育、传媒、金融、科技、文化等各行业客户提供 API 服务。开发者可通过简单几行代码调用模型能力:

from http import HTTPStatusfrom dashscope.audio.asr import Transcriptionimport dashscopeimport osimport json# 以下为北京地域url,若使用新加坡地域的模型,需将url替换为:https://dashscope-intl.aliyuncs.com/api/v1dashscope.base_http_api_url = 'https://dashscope.aliyuncs.com/api/v1'# 新加坡和北京地域的API Key不同。获取API Key:https://help.aliyun.com/zh/model-studio/get-api-key# 若没有配置环境变量,请用百炼API Key将下行替换为:dashscope.api_key = "sk-xxx"dashscope.api_key = os.getenv("DASHSCOPE_API_KEY")task_response = Transcription.async_call(    model='fun-asr',    file_urls='https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav')transcribe_response = Transcription.wait(task=task_response.output.task_id)if transcribe_response.status_code == HTTPStatus.OK:    print(json.dumps(transcribe_response.output, indent=4, ensure_ascii=False))    print('transcription done!')

开源 Demo 体验同步开放,欢迎立即体验 Fun-ASR 1.5,测测你的家乡话:

  • 阿里云百炼地址:https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr

  • 魔搭社区在线体验:https://modelscope.cn/studios/iic/FunAudio-ASR

在评论区留言告诉我们:你用了哪种方言、转写结果准不准。我们将挑选有意思的反馈,送出定制周边~

关于 Fun-ASR:Fun-ASR 是通义实验室自主研发的端到端语音识别大模型,基于数千万小时真实语音数据训练,具备低延迟、高鲁棒性、强上下文理解等核心优势。Fun-ASR1.5 标志着 Fun-ASR 从“通用语音转写工具”向“多语言、多方言、多文化理解平台”的关键演进。未来,团队将持续投入语音大模型研发,推动语音技术在更广阔的社会场景中创造价值。

推荐了解

FIPO:只改变2%的Token,突破大模型推理瓶颈