三言伍律
AI化声音侵权的法律分析
从"AI偷声"案看数字时代声音权益保护
01
离职后,你的声音还属于前公司吗?
2024年9月,周某从某文化公司离职后,发现自己的声音正在被前公司用来给一个虚拟角色配音。
不是回放录音,是AI合成的"新声音"。虚拟角色"梦某"出现在直播、商场展示甚至Steam商品页面上,用的语调、发音风格,和周某本人如出一辙。
事情要追溯到2023年8月。公司以"内部测试急用"为由,安排周某录制了一批声音素材,项目名称就叫"梦某-周某-声音使用及AI训练项目"。
周某当时就授权费问题与公司沟通,公司没有明确回复。双方始终没签正式合作协议。
周某发现公司不仅把声音素材拿去做了AI训练,还用在了商业场景中,于是提起诉讼,请求停止侵权、赔偿10万元并赔礼道歉。
公司的抗辩看起来站得住脚:双方签过《劳动合同》,附件《保密及知识产权协议》约定工作期间的知识产权及财产权利归公司所有。公司享有录音制品的著作权,拿来AI化使用,有什么问题?
杭州市滨江区人民法院却最终判令:公司停止侵权、赔偿经济损失2万元、出具书面道歉声明。判决已生效。
这个案子的核心矛盾,恰恰是大多数人的认知盲区——著作权保护的是"录音制品"这个载体,不是"声音"本身。
你花钱请人录了音,你拥有的是那段录音的著作权,但你没有权利把录音里那个人的声音提取出来,喂给AI,训练出一个可以无限生成的"数字替身"。
从北京互联网法院的殷某案到杭州滨江法院的周某案,AI声音侵权的裁判规则正在经历一场从"有没有"到"边界在哪"的演进。
这场演进涉及两个层次的追问:AI处理后的声音还能被认出来吗?认出来之后,著作权为什么不能覆盖人格权?
02
殷某案:AI声音侵权第一案的"三步走"
要理解周某案,得先看殷某案。
2023年,配音师殷某经朋友告知,发现短视频平台上出现了"自己的声音"。那些影视解说、游戏解说视频里的旁白,音色、语调、发音习惯,都和她高度一致。但她从未授权任何人把自己的声音AI化。
声音从哪来的?殷某溯源发现,源头是她2019年为一家文化传媒公司录制的有声读物。此后,这段录音经历了一条五层转授权的链条,最终播放量高达32亿次。
北京互联网法院组成五人合议庭审理此案。2024年4月23日一审宣判:被告赔偿殷某25万元并书面赔礼道歉。该案后被最高人民法院发布为典型案例。
法院的认定逻辑可以概括为三步:
第一步:声音具有可识别性。AI合成声音在音色、语调、发音风格上与殷某高度一致,一般社会公众或特定领域公众能依据这些特征识别出殷某,不要求完全一致,只要能产生特定联想即可。
第二步:AI生成声音落入声音权益保护范围。在具备可识别性的前提下,自然人声音权益的保护范围可及于AI生成声音,技术处理不改变声音的人格属性。
第三步:著作权不能覆盖人格权。录音制品著作权与声音人格权是两个层面的权利,文化公司对录音制品享有的著作权,不等于对殷某声音的人格权授权。
三步走的逻辑很清晰:先解决"能不能认出来"(可识别性),再解决"认出来之后受不受保护"(保护范围),最后解决"有著作权为什么还侵权"(权利边界)。
03
可识别性:AI处理后的声音,还是"你的"吗?
"可识别性"是声音权益保护的门槛。
民法典第1023条第2款规定,对自然人声音的保护参照适用肖像权有关规定。
而肖像权保护的前提是"可以被识别"——声音能否被识别出特定自然人,是主张声音权益的第一道关。
《民法典》
第1023条 对自然人声音的保护,参照适用肖像权保护的有关规定。
王利明教授在《论声音权益的法律保护模式》一文中论述,声音的三要素包括音调、音色和音量,其中可识别性主要通过音色判断。
史尚宽先生曾言:"声音标识人格之特征,为人格之重要利益,与姓名、肖像相同。"
AI场景下,这道门槛面临新的考验:经过算法处理的声音,还是原来的声音吗?
殷某案和周某案给出了基本一致的回答——AI处理后的声音只要还能被认出来,就仍然落入声音权益的保护范围。
两案在表述上有细微差异:殷某案强调"一般社会公众或特定领域公众"能识别,周某案强调"一般公众"能"准确识别"。但底层逻辑一致:技术加工不改变声音的可识别性。
那么,原告如何证明AI合成的声音就是自己的声音?实务中的基本路径是"初步举证+举证责任转移"。
权利人只需初步举证AI生成声音与自身特征高度相似、具备可识别性,后续举证责任即可转移至AI平台或内容生成方。
声纹鉴定是关键手段——声纹与指纹一样具有唯一性和稳定性,当侵权方否认时,权利人可通过专业声纹比对报告完成举证。
但声纹取证与鉴定专业门槛高、耗时长,侵权内容分散、源头难追溯。吴汉东教授提出,应以可识别性为核心侵权要件,结合声纹鉴定与传播场景综合界定人格权益边界。
殷某案中,法院对可识别性的认定并非仅凭主观听感,而是从三个方面综合判定:
主观标准,以一般社会公众或一定范围内的公众能否识别来判断;客观标准,从声纹辨认、声纹确认、声音的音色和语调等方面综合判断;使用方式,也作为判定因素之一。
也就是说,法院既有"听"的维度,也有"比"的维度——声纹辨认和声纹确认提供了技术层面的客观依据。
但AI技术的发展正在制造新的难题。
"局部高仿"——有选择性地模仿显著特征,嵌入其他声音或全新语句中,是否构成可识别性变得模糊。
"声音融合篡改"——杂糅多人声线生成新变体,原始声纹来源难以追溯,举证几乎不可能。
这些技术手段显著增加了法院判断合成声音是否达到"可识别性"门槛的难度。
04
著作权与人格权的"撞车":录音制品不等于声音本身
可识别性解决的是"声音受不受保护"的问题。但周某案中,公司提出的抗辩更进了一步:我享有著作权,为什么不能用?
这就触及了AI声音侵权中最核心的交叉地带。录音制品制作者对录音制品享有著作权(邻接权),但这项权利指向的是"录音制品"这一载体,不是声音本身。
杨立新教授举过一个例子:如果把声音录成了唱片,别人擅自使用,侵害的是著作权,而不是声音权。
传统场景下,两个权利各管各的。但AI化训练不是简单地播放或复制录音,而是对声音特征进行建模与再现——从录音制品中提取声音的人格要素,生成可以无限使用的"数字声音"。
著作权和人格权在这里撞车了。
滨江法院在周某案中的裁判逻辑很清晰。
第一层:知识产权归属约定不包含人格权益。
劳动合同附件约定的是"知识产权及财产权利归公司所有",人格权不在其中。
人格权专属于自然人,非经法定事由或明确授权,不得被剥夺、转让或继承。用人单位对员工录制的录音制品可能享有知识产权,但不能解释为员工对人格权的放弃。
第二层:AI化使用不同于传统使用。
声音的AI化训练和合成涉及对个人生物识别信息的深度处理,即使原始录音制品的著作权已归属公司,AI化使用仍需取得自然人的知情同意。
第三层:公司明知需授权。
法院查明,公司曾就声音授权事宜与周某沟通——这意味着公司自身也认识到声音授权与录音制品著作权是两回事。
但在周某就授权费提出沟通后,公司未予明确回复,仍然擅自使用。明知需授权而未取得授权,无合法权利来源。
AI化使用需要授权,授权的法定依据除了民法典人格权,还有《个人信息保护法》对声纹的特别规制。
该法将声纹列为敏感个人信息,处理须取得单独同意。即便声音素材已公开,AI化训练涉及对生物识别信息的深度处理,可能超出该法第27条"合理范围"的边界。
学界对第27条在AI训练场景的适用存在不同观点,但有一个底线是共识:人格权不因信息公开而丧失。
《个人信息保护法》
第28条 敏感个人信息是一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息,包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息,以及不满十四周岁未成年人的个人信息。
从殷某案到周某案,AI声音侵权的裁判规则走过了一条从"有没有"到"边界在哪"的演进之路。
可识别性标准确立了AI声音受保护的前提,著作权与人格权的区分厘清了权利的边界。
滨江法院倪晓花庭长在判后说的一段话,可以作为这条演进之路的注脚:
技术不改变人格权属性,声音、人脸、指纹等生物识别信息不是可以随意复刻的"数字资源"。人格权专属于自然人,非经法定事由或明确授权不得被剥夺、转让或继承。
裁判规则的边界仍在厘清,但有一点已经没有悬念:著作权不能覆盖人格权。
作者介绍:伍峻民律师,前法官,现律师。长期关注公司法、知识产权领域的法律实务,坚持用真实案例拆解法律规则,让专业分析回归常识。

欢迎扫码联系

分享、点赞、在看,3连3连!
夜雨聆风