AI化声音侵权的法律分析:从＂AI偷声＂案看数字时代声音权益保护

三言伍律

AI化声音侵权的法律分析

从"AI偷声"案看数字时代声音权益保护

AI化声音侵权的法律分析：从"AI偷声"案看数字时代声音权益保护

文｜伍峻民

离职后，你的声音还属于前公司吗？

2024年9月，周某从某文化公司离职后，发现自己的声音正在被前公司用来给一个虚拟角色配音。

不是回放录音，是AI合成的"新声音"。虚拟角色"梦某"出现在直播、商场展示甚至Steam商品页面上，用的语调、发音风格，和周某本人如出一辙。

事情要追溯到2023年8月。公司以"内部测试急用"为由，安排周某录制了一批声音素材，项目名称就叫"梦某-周某-声音使用及AI训练项目"。

周某当时就授权费问题与公司沟通，公司没有明确回复。双方始终没签正式合作协议。

周某发现公司不仅把声音素材拿去做了AI训练，还用在了商业场景中，于是提起诉讼，请求停止侵权、赔偿10万元并赔礼道歉。

公司的抗辩看起来站得住脚：双方签过《劳动合同》，附件《保密及知识产权协议》约定工作期间的知识产权及财产权利归公司所有。公司享有录音制品的著作权，拿来AI化使用，有什么问题？

杭州市滨江区人民法院却最终判令：公司停止侵权、赔偿经济损失2万元、出具书面道歉声明。判决已生效。

这个案子的核心矛盾，恰恰是大多数人的认知盲区——著作权保护的是"录音制品"这个载体，不是"声音"本身。

你花钱请人录了音，你拥有的是那段录音的著作权，但你没有权利把录音里那个人的声音提取出来，喂给AI，训练出一个可以无限生成的"数字替身"。

从北京互联网法院的殷某案到杭州滨江法院的周某案，AI声音侵权的裁判规则正在经历一场从"有没有"到"边界在哪"的演进。

这场演进涉及两个层次的追问：AI处理后的声音还能被认出来吗？认出来之后，著作权为什么不能覆盖人格权？

殷某案：AI声音侵权第一案的"三步走"

要理解周某案，得先看殷某案。

2023年，配音师殷某经朋友告知，发现短视频平台上出现了"自己的声音"。那些影视解说、游戏解说视频里的旁白，音色、语调、发音习惯，都和她高度一致。但她从未授权任何人把自己的声音AI化。

声音从哪来的？殷某溯源发现，源头是她2019年为一家文化传媒公司录制的有声读物。此后，这段录音经历了一条五层转授权的链条，最终播放量高达32亿次。

北京互联网法院组成五人合议庭审理此案。2024年4月23日一审宣判：被告赔偿殷某25万元并书面赔礼道歉。该案后被最高人民法院发布为典型案例。

法院的认定逻辑可以概括为三步：

第一步：声音具有可识别性。AI合成声音在音色、语调、发音风格上与殷某高度一致，一般社会公众或特定领域公众能依据这些特征识别出殷某，不要求完全一致，只要能产生特定联想即可。

第二步：AI生成声音落入声音权益保护范围。在具备可识别性的前提下，自然人声音权益的保护范围可及于AI生成声音，技术处理不改变声音的人格属性。

第三步：著作权不能覆盖人格权。录音制品著作权与声音人格权是两个层面的权利，文化公司对录音制品享有的著作权，不等于对殷某声音的人格权授权。

三步走的逻辑很清晰：先解决"能不能认出来"（可识别性），再解决"认出来之后受不受保护"（保护范围），最后解决"有著作权为什么还侵权"（权利边界）。

可识别性：AI处理后的声音，还是"你的"吗？

"可识别性"是声音权益保护的门槛。

民法典第1023条第2款规定，对自然人声音的保护参照适用肖像权有关规定。

而肖像权保护的前提是"可以被识别"——声音能否被识别出特定自然人，是主张声音权益的第一道关。

《民法典》

第1023条　对自然人声音的保护，参照适用肖像权保护的有关规定。

王利明教授在《论声音权益的法律保护模式》一文中论述，声音的三要素包括音调、音色和音量，其中可识别性主要通过音色判断。

史尚宽先生曾言："声音标识人格之特征，为人格之重要利益，与姓名、肖像相同。"

AI场景下，这道门槛面临新的考验：经过算法处理的声音，还是原来的声音吗？

殷某案和周某案给出了基本一致的回答——AI处理后的声音只要还能被认出来，就仍然落入声音权益的保护范围。

两案在表述上有细微差异：殷某案强调"一般社会公众或特定领域公众"能识别，周某案强调"一般公众"能"准确识别"。但底层逻辑一致：技术加工不改变声音的可识别性。

那么，原告如何证明AI合成的声音就是自己的声音？实务中的基本路径是"初步举证+举证责任转移"。

权利人只需初步举证AI生成声音与自身特征高度相似、具备可识别性，后续举证责任即可转移至AI平台或内容生成方。

声纹鉴定是关键手段——声纹与指纹一样具有唯一性和稳定性，当侵权方否认时，权利人可通过专业声纹比对报告完成举证。

但声纹取证与鉴定专业门槛高、耗时长，侵权内容分散、源头难追溯。吴汉东教授提出，应以可识别性为核心侵权要件，结合声纹鉴定与传播场景综合界定人格权益边界。

殷某案中，法院对可识别性的认定并非仅凭主观听感，而是从三个方面综合判定：

主观标准，以一般社会公众或一定范围内的公众能否识别来判断；客观标准，从声纹辨认、声纹确认、声音的音色和语调等方面综合判断；使用方式，也作为判定因素之一。

也就是说，法院既有"听"的维度，也有"比"的维度——声纹辨认和声纹确认提供了技术层面的客观依据。

但AI技术的发展正在制造新的难题。

"局部高仿"——有选择性地模仿显著特征，嵌入其他声音或全新语句中，是否构成可识别性变得模糊。

"声音融合篡改"——杂糅多人声线生成新变体，原始声纹来源难以追溯，举证几乎不可能。

这些技术手段显著增加了法院判断合成声音是否达到"可识别性"门槛的难度。

著作权与人格权的"撞车"：录音制品不等于声音本身

可识别性解决的是"声音受不受保护"的问题。但周某案中，公司提出的抗辩更进了一步：我享有著作权，为什么不能用？

这就触及了AI声音侵权中最核心的交叉地带。录音制品制作者对录音制品享有著作权（邻接权），但这项权利指向的是"录音制品"这一载体，不是声音本身。

杨立新教授举过一个例子：如果把声音录成了唱片，别人擅自使用，侵害的是著作权，而不是声音权。

传统场景下，两个权利各管各的。但AI化训练不是简单地播放或复制录音，而是对声音特征进行建模与再现——从录音制品中提取声音的人格要素，生成可以无限使用的"数字声音"。

著作权和人格权在这里撞车了。

滨江法院在周某案中的裁判逻辑很清晰。

第一层：知识产权归属约定不包含人格权益。

劳动合同附件约定的是"知识产权及财产权利归公司所有"，人格权不在其中。

人格权专属于自然人，非经法定事由或明确授权，不得被剥夺、转让或继承。用人单位对员工录制的录音制品可能享有知识产权，但不能解释为员工对人格权的放弃。

第二层：AI化使用不同于传统使用。

声音的AI化训练和合成涉及对个人生物识别信息的深度处理，即使原始录音制品的著作权已归属公司，AI化使用仍需取得自然人的知情同意。

第三层：公司明知需授权。

法院查明，公司曾就声音授权事宜与周某沟通——这意味着公司自身也认识到声音授权与录音制品著作权是两回事。

但在周某就授权费提出沟通后，公司未予明确回复，仍然擅自使用。明知需授权而未取得授权，无合法权利来源。

AI化使用需要授权，授权的法定依据除了民法典人格权，还有《个人信息保护法》对声纹的特别规制。

该法将声纹列为敏感个人信息，处理须取得单独同意。即便声音素材已公开，AI化训练涉及对生物识别信息的深度处理，可能超出该法第27条"合理范围"的边界。

学界对第27条在AI训练场景的适用存在不同观点，但有一个底线是共识：人格权不因信息公开而丧失。

《个人信息保护法》

第28条　敏感个人信息是一旦泄露或者非法使用，容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息，包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息，以及不满十四周岁未成年人的个人信息。

从殷某案到周某案，AI声音侵权的裁判规则走过了一条从"有没有"到"边界在哪"的演进之路。

可识别性标准确立了AI声音受保护的前提，著作权与人格权的区分厘清了权利的边界。

滨江法院倪晓花庭长在判后说的一段话，可以作为这条演进之路的注脚：

技术不改变人格权属性，声音、人脸、指纹等生物识别信息不是可以随意复刻的"数字资源"。人格权专属于自然人，非经法定事由或明确授权不得被剥夺、转让或继承。

裁判规则的边界仍在厘清，但有一点已经没有悬念：著作权不能覆盖人格权。

作者介绍：伍峻民律师，前法官，现律师。长期关注公司法、知识产权领域的法律实务，坚持用真实案例拆解法律规则，让专业分析回归常识。

欢迎扫码联系

好文阅读推荐：

公司股权｜合伙人要把股权卖给外人，你拦得住吗？

公司股权｜持股10%的他，凭什么逼80%的大股东分红？

公司股权 | 出钱最多的股东，就一定说了算吗？

公司设立｜公司名字工商过了，照样被强制改名

公司设立｜设立协议不是走过场——没谈清楚就签，散伙就是灾难

公司设立｜公司章程不是模板——不写清楚，吃亏的是你自己

公司设立｜揭开公司面纱——你以为公司能替你挡一切？

公司设立｜当法定代表人，这些风险你得知道

分享、点赞、在看，3连3连！