深度伪造的AI们不光有法律问题,还有新型 - 肺炎症状

TUhjnbcbe - 2023/11/14 22:14:00

张孝荣

最近，“AI歌手翻唱”在网络爆红。

它们的出现揭示了AIGC给人类社会带来新的挑战：一是版权冲突，一旦放任，或将引发大规模版权冲突；二是声音伪造，声音高仿技术可以加强深度伪造效果，有可能影响国际关系和侵犯公众利益，给社会发展带来新的风险。

“AI翻唱”的本质是声音高仿

“AI翻唱”现象由“AI孙燕姿”引发。有人用AI软件工具复刻了歌手“孙燕姿”声音，翻唱了许多歌手演唱过的流行歌曲，其中周杰伦的《发如雪》、南拳妈妈的《下雨天》上传到B站，点击量快速突破百万。大部分人在听过后都会惊叹AI的强大。除了AI孙燕姿，目前网络上还活跃着AI周杰伦、AI王心凌等许多AI歌手。

视频网站上"AI孙燕姿”相关视频火爆。

AI歌手们为什么如此强大？

因为网上出现了一种新的声音高仿软件工具，全称是SoftVCVITSSingingVoiceConversion（基于Vits与SoftVC的歌声音色转换模型），也叫so-vits-svc模型。该模型使用了一种音色转换算法，采用SoftVC内容编码器提取源音频语音特征，然后将矢量直接输入VITS，中间不转换成文本，从而保留了音高和语调。

该软件有两大特点。一是高仿效果好，能让一些歌手原本的唱法得以保留并直接转换，生成的音频更加逼真。比如，输入孙燕姿的声音、气息和咬字等素材，模型可以掌握孙燕姿的声音、表演风格和特点，形成一套高仿孙燕姿的语音系统。二是操作简单，大大降低了用户的准备成本。用户只需要输入数十分钟的角色语音、歌声文件，软件通过深度学习技术，就能生成对应角色的AI声音模型，同时免去了音频调校的工序，极大地降低了创作者的门槛。

AI翻唱是否涉及法律问题？

答案是：当然涉及法律问题。问题还不少。

第一是表演者权。歌手的声音、气息运用、演唱特点、发声风格、演唱技巧、综合唱功等，构成特定的表演形式，在法律上被归类于表演者权。AI翻唱未经授权而仿造歌手声音演唱，侵犯了表演者权。

第二是表演权。AI翻唱，本质是使用了孙燕姿带有个人鲜明特点的表演，未经表演者许可，属于冒用表演者身份，仿造现场直播或者公开传送其现场表演，或者录制其表演的，这是侵犯表演权的表现。

第三是歌曲侵权。AI翻唱的作品并非真的由AI孙燕姿演唱自己的作品，而是翻唱别人作品，涉及了歌曲侵权。翻唱他人的歌曲如果只是个人学习，或者免费表演、不收取公众费用的时候，是不侵犯著作权的。但未经作者或者著作权人的同意，对歌曲进行复制、下载等的行为，是侵犯信息网络传播权的行为。如果因此再在平台上获得了打赏、稿费或广告分成，涉嫌商业使用，恐怕更麻烦。

今年4月，一首AI合成的《HeartonMySleeve》在油管APP和TikTok上爆火，获得了超千万的浏览量，它合成了歌手Drake和Weekend演唱的版本。

但随后，Drake和Weekend所在的唱片公司环球音乐向Spotify、苹果等流媒体音乐平台施压，要求封禁侵犯公司旋律、歌词版权的AI作品。于是，AI翻唱视频快速从平台上下架。

唱片公司在声明里向潜在的仿冒者发问，“是要站在艺术家、粉丝和人类创造性表达的一边，还是站在Deepfake、欺诈和拒付艺术家赔偿的一边？”此外，歌手Drake也在社交媒体平台上对AI合成翻唱歌曲表达了不满。

换句话说，"AI孙燕姿"上传翻唱的作品，不光需要得到孙燕姿和翻唱作品著作权人的许可，还需要相关平台与歌曲的版权机构达成协议。不然，后果可能很严重。如果放任不管，必将引发大规模的版权冲突问题，浪费司法诉讼资源不说，还会蔓延到其他AIGC领域，最后不得不在一片混乱之中调整法律规范以形成社会妥协。

AI声音高仿增强了深度伪造效果

深度伪造（Deepfake）是AI技术的衍生应用，一般是指通过使用“生成式对抗网络”（GenerativeAdversarialNetworks）的机器学习模型，将图片或视频合并叠加到源图片或视频上，借助神经网络技术进行大样本学习，将个人的声音、面部表情及身体动作拼接合成虚假内容的过程。

根据《福布斯》杂志年10月获得的一份法庭文件披露，一个欺诈团伙利用音频伪造技术克隆了一家企业董事的声音，将万美元资金转移到几个海外账户。

据报道，此类诈骗案例实际上是窃取了WhatsApp的录音语音信息，并对其进行伪造。由于该技术可以运用在任何人身上，很多专家和研究者担心，一旦该技术被其它国家所利用，就有可能让虚假的信息打着真实的幌子成为挑战他国内部矛盾和暴力冲突的不法工具。

此外。网上还有许多深度伪造的“视频换脸”案例。通过操纵人脸动作，重塑表情、口型和速度，让其发表非其真实意图的言论，如特朗普在推特上转发并大加嘲讽的佩洛西说话结巴的伪视频。

与传统人工伪造信息相比，深度伪造借助生成对抗网络可以大幅缩短并自动化训练过程。在这个过程中，两个神经网络相互竞争：生成器（Generator）网络用以创建虚假内容，而鉴别器（Discriminator）网络用以评估判别内容真假；两个神经网络相互竞争，循环往复数千甚至数百万个周期，直到无法区分真实和伪造。

AI翻唱技术大大增强了声音伪造的效果。目前，已经有许多在线网站和手机应用可以让用户模拟名人的声音，其应用价值已引起多国国家安全机构的