“我的声音被偷了。”今年3月,以729声工场旗下配音演员发布声明函为起始,行业内多位知名从业者及机构集体发声表明对未授权AI训练的反对态度。关于AI声音侵权及维权的讨论充斥在社交平台上。

事实上,这并非声音权利人的第一次维权尝试。两年前,全国首例AI生成声音人格权侵权案——殷某案在北京互联网法院宣判。该案涉及五方被告,法院对各方主体的责任作出了区分认定,法院最终认定原始录音制品的采集方和授权方与实施AI化处理的技术方构成侵权。此后,该案被最高人民法院列为利用网络信息技术侵害人格权典型案例。

相比两年前,目前AI声音技术的演化速度已远超外界想象,新的侵权形式也在不断涌现。据媒体报道,为动画角色太乙真人配音的张珈铭,曾投入大量时间与资金用于制止AI盗声,但由于侵权主体多为未成年人,法律追责受阻等现实难题,截至今年4月仍无一例起诉成功。4月2日,中国广播电视社会组织联合会演员委员会,针对“声纹克隆复刻”“擅自抓取演员影像声频用于AI模型训练”等侵权行为进行了严正声明。

当声音被“偷走”之后,权利人究竟该如何把它“找回来”?带着这个问题,新京报记者专访了北京互联网法院法官江潇。试图透过真实的审理视角,还原AI声音侵权行为背后的司法观察与审慎思考。


北京互联网法院。供图

新京报:从北京互联网法院受理的案件情况来看,当前涉及AI声音或声音权益的纠纷,主要集中在哪几类?

江潇:从目前案件情况来看,当前涉及AI声音或声音权益的纠纷,主要集中在以下几类:第一类是未经许可将他人声音进行AI化处理并制成文本转语音产品对外销售牟利,此类案件的典型代表是我院审理的全国首例“AI生成声音人格权侵权案”,该案被最高人民法院选为利用网络、信息技术侵害人格权典型案例;第二类是未经权利人许可,使用AI合成的名人声音用于商业推广或带货;第三类是对配音演员的声音进行AI克隆并在各类平台广泛传播使用。此外,还有涉及AI生成声音在短视频、有声读物等领域使用的纠纷。

新京报:与传统肖像权或人格权案件相比,这类案件呈现出哪些新的特点?在你看来,AI声音案件是否已经形成某种相对稳定的纠纷类型?

江潇:与传统人格权案件相比,AI声音案件呈现出以下特点:一是侵权链条复杂、主体多元,导致权利追溯和责任认定均较传统案件更为复杂;二是侵权行为具有高度隐蔽性和技术性,权利人往往难以自行发现和锁定侵权源头;三是损害后果的扩散速度快、影响范围广。总体来看,AI声音侵权案件尚处于不断涌现和探索阶段,案件的具体形态也在丰富和演变之中。

新京报:《中华人民共和国民法典》规定声音参照肖像权保护,“具有可识别性”是认定侵权的重要前提。在具体审理案件时:法院通常如何判断某段声音是否具有“可识别性”?是更侧重技术相似度,还是公众感知相似度?

江潇:关于“可识别性”的认定路径。《中华人民共和国民法典》第一千零二十三条第二款规定,对自然人声音的保护,参照适用肖像权保护的有关规定。据此,声音权益保护以具有“可识别性”为法律保护的前提条件。我院审理的“AI声音权”案中认定自然人声音的可识别性是指在他人反复多次或长期聆听的基础上,通过该声音特征能识别出特定自然人。利用人工智能合成的声音,如果能使一般社会公众或者相关领域的公众根据其音色、语调和发音风格,关联到该自然人,则可以认定为具有可识别性。因此,此类案件在判断标准上并非单纯或主要依赖技术指标,而是以“相关领域普通听众能否识别”作为判断核心。


全国首例AI声音权案庭审现场,庭审在线上进行。供图

新京报:在一些案件中,AI生成声音未必完全一致,而可能只是“风格类似”或“高度相似”。法院如何区分“高度相似”与“仅属风格模仿”?对于配音演员这类声音可变性较强的职业,其职业特性是否会影响识别性的判断?

江潇:关于区分标准,这是一个难点问题。我个人认为,关键或许在于声音特征的整体重合程度,以及公众是否会对声音主体产生一一对应的联系。如果在音色、语调、发音风格等多个核心特征上均呈现高度一致性,且足以使一般公众或相关领域公众将该声音关联到特定自然人,则可考虑认定为“高度相似”而非“仅属风格模仿”。

关于配音演员的声音识别性问题。相似地,我个人认为,判断的关键还是在于,一定范围内的听众能够将声音与某特定自然人建立一一对应关系,则可认定具备识别性。

新京报:目前部分AI系统会融合多人的声音特征生成新的声音,而非模仿单一对象。在这种情况下,如果生成声音无法明确对应某一自然人,法院是否仍可能认定侵权?若涉及多个潜在权利人,是否可能出现责任归属困难?您认为这类“融合声音”案件未来是否会成为审判重点难点?

江潇:关于融合声音的侵权认定,是一个前沿性的问题。我想还是要回归到可识别性的认定标准,如果生成声音无法明确对应某一特定自然人,则在该自然人独立提起的人格权侵权诉讼中,恐怕难以认定构成对特定个人的声音权益侵害。但另一方面,AI系统融合多人声音的处理方式,可能还涉及个人信息保护、数据安全等其他法律问题,成为可供参考的其他维权路径。

新京报:在一些案件中,被告可能对录音制品享有著作权,但并不当然意味着获得对声音进行AI化处理的授权。如果合同中写的是“信息网络传播权”或“全权授权”,法院通常会如何解释?从审判经验来看,声音权利人在签约时最容易忽视或最需要警惕的授权风险有哪些?

江潇:关于合同的解释。这是一个在审判实践中反复出现的问题。我院在“AI声音权案”中已明确:对录音制品享有著作权,并不等同于获得了对声音进行AI化处理的授权。未经权利人的知情同意,AI化使用或授权他人AI化使用权利人声音的行为,是欠缺合法权利来源的。因此,除非合同中有明确、具体的“声音AI化”“语音合成”等授权条款,否则不宜解释为包含了人格权层面的声音使用授权。

因此,配音演员在签约时应警惕协议中是否存在将著作权授权与声音人格权使用混为一谈、授权条款过于笼统宽泛、未约定声音素材的流转限制等问题。

新京报:AI声音侵权通常涉及多个主体,如模型开发方、平台运营方和实际使用者。法院通常如何区分不同主体的责任边界?如果平台仅提供工具而未直接生成内容,法院通常会重点考察哪些因素?

江潇:在案件审理中通常根据不同主体的行为性质、主观状态和对侵权结果的参与程度,分别认定其法律责任。以“AI声音权案”为例,该案涉及五方被告,法院对各方主体的责任作出了区分认定:原始录音制品的采集方和授权方与实施AI化处理的技术方,因未经原告许可AI化使用原告声音,构成侵权,承担赔偿责任和赔礼道歉责任;下游采购使用方与云服务平台方承担赔礼道歉责任;中间采购方则因主观上不存在过错,不承担损害赔偿责任。

新京报记者 吴龙珍

编辑 吴龙珍

校对 柳宝庆