「一事一议」AI克隆了你的声音,谁来担责?

（2023）京0491民初12142号 | 北京互联网法院

一、案件事实

（2023）京0491民初12142号，全国首例AI声音侵权案，入选最高人民法院民法典颁布五周年典型案例。

原告殷某某是一名配音演员。她发现自己的声音出现在多个知名APP的文本转语音产品中——不是她本人录制的，而是AI合成的。经声音筛选和溯源，她查到这些声音来自被告一某智能科技公司运营的平台。

声音的流转链条涉及五个被告。殷某某曾受被告二某文化传媒公司委托录制录音制品，被告二享有录音制品著作权。被告二将音频提供给被告三某软件公司，被告三仅用殷某某一人的录音作为素材进行AI化处理，生成文本转语音产品，经被告四的云平台出售。被告一通过API调取该产品在自己平台使用，中间经被告五采购中转。

殷某某起诉要求被告一、三立即停止侵权并赔礼道歉，五被告赔偿经济损失及精神损失。被告二、三的核心抗辩是：被告二作为录音制品著作权人，已通过数据协议将音频合法授权给被告三用于技术开发，因此对殷某某声音的AI化使用具有合法权利来源。换言之，被告认为著作权的授权链条可以覆盖声音的AI化使用——这恰恰是本案的争议焦点。

二、产业链核心法律风险全拆解

本案的核心问题是：用AI合成的声音，是否受到声音权保护？著作权人对录音制品的授权，能否延伸到对录音中自然人声音的AI化使用？

《民法典》第一千零二十三条第二款规定，对自然人声音的保护，参照适用肖像权保护的有关规定。肖像权保护的关键在于"可识别性"——声音权同理。

法院的说理分三层：

（一）AI合成声音的可识别性标准。

自然人声音以声纹、音色、频率为区分，具有独特性、唯一性、稳定性，能够给他人形成或引起一般人产生与该自然人有关的思想或感情活动。利用人工智能合成的声音，如果能使一般社会公众或者相关领域的公众根据其音色、语调和发音风格，关联到该自然人，可以认定为具有可识别性。这一标准确立了AI声音纳入人格权保护的门槛。

（二）本案的可识别性认定。

被告三仅使用殷某某一个人的声音开发涉案产品，经当庭勘验，该AI声音与殷某某的音色、语调、发音风格具有高度一致性，能够引起一般人产生与原告有关的思想或感情活动，能够将该声音联系到原告本人，进而识别出原告的主体身份

（三）授权链条的合法性审查。

被告二对录音制品享有著作权等权利，但不包括授权他人对原告声音进行AI化使用的权利。被告二与被告三签订数据协议，在未经殷某某本人知情同意的情况下，授权被告三AI化使用其声音，无合法权利来源。著作权的授权边界不能延伸到人格权领域。

在责任承担上，法院区分了五个被告的角色：被告二、三未经许可AI化使用原告声音，构成侵权，被告一、三向原告书面赔礼道歉，被告二、三赔偿经济损失；被告一、四、五主观上不存在过错，不承担损害赔偿责任。宣判后双方均未上诉，判决已生效。

三、延伸思考

本案的保护规则建立在"可识别性"这一前提上，而可识别性的成立与AI训练的技术路线直接相关。本案中被告三仅用一人声音训练，声源单一，可识别性明确。但如果AI训练使用了多人声音混合生成，声音特征被稀释到无法关联任何特定个人，可识别性可能无法成立——这恰恰是目前大多数商业语音合成产品的技术路线。本案的保护规则更多适用于"定向克隆"而非"通用合成"，二者之间的分界线有待后续案例进一步划定。

授权链条的断裂是另一个实务要点。录音制品的著作权人对录音制品享有复制、发行、信息网络传播等财产权利，但这些权利指向录音制品本身，不覆盖其中自然人声音的人格利益。法院认定，"对录音制品享有著作权等权利，但不包括授权他人对原告声音进行AI化使用的权利"。AI语音产品的开发者，即使取得了录音制品的合法授权，也需要单独取得声音权人的同意——录音授权与声音AI化授权必须分别约定。

还有一个举证细节。殷某某能锁定侵权链条，靠的是"声音筛选和溯源"——对比AI合成声音与原始录音，确认声源同一性。对普通人而言，如果AI产品未标注声音来源，溯源的技术门槛和举证难度会更高。《生成式人工智能服务管理暂行办法》第十二条要求对AI生成内容进行标识，但该义务针对的是生成内容本身，并未涉及训练数据中声音素材来源的标注。声音来源的可追溯性，是声音权保护从个案延伸到行业层面的基础设施问题。

律师简介

余宙

北京市中闻律师事务所顾问

余宙律师入选北京市律协涉外律师人才库后备人才，持有律师执业证、三级国有企业法律顾问证书，基金从业资格证书，高级合规师等证书，担任的社会职务为北京物资学院法学院校外实践导师。
余宙律师从事法律服务13年，具备企业法务、律师双重背景。余宙律师持续专注于公司业务和涉外业务，与国央企、上市公司、民营企业等多家公司建立常年法律顾问、合规咨询、商事争议解决、外商投资和跨境并购等法律事务合作。
联系电话：13717718216（微信同号）。