网络与数据法专栏
AIGC产品研发及应用中的著作权风险
一、 AIGC产品的研发与应用 人工智能生成内容(Artificial Intelligence Generated Content,下文简称“AIGC”)区别于传统的“决策式AI”,是一种“生成式AI”。其特点在于:它能通过海量数据训练,并在此过程中通过学习数据中的联合概率分布,对已有的数据进行总结归纳,创作模仿式、缝合式的新内容。简单来看,AIGC的研发使用可大体分为三个过程:训练数据——机器学习——输出内容。具体来说,训练数据是AIGC输出内容的前提,指AI从海量数据中学习分析,借以建立起一套算法程序;而机器学习则是AI对训练数据的总结归纳,通过模型构建形成AI自主输出内容的基础;输出内容承接前端的两个过程,指AI基于对前期训练数据的提取和处理,结合用户的需求而最终形成并输出的学习成果。 二、 AIGC的著作权侵权可能场景 在互联网技术高速发展的当下,AIGC在发展过程中也产生了许多法律方面的负外部性,其中一个突出的方面就是著作权侵权。在训练数据阶段,AI需要投入海量的数据并从中学习分析,而采集并使用数据的过程中难免存在侵犯著作权的风险。在输出内容阶段,同样存在侵犯著作权的可能性,而这一问题又衍生出关于AIGC内容本身的著作权保护等问题。 在美国,针对AIGC的著作权侵权问题,已涌现出大量诉讼:有原告认为,被告公司在寻找用于训练AI的数据时未经其同意大量复制传播了原告享有版权保护的作品,此种复制与传播构成对其版权的直接侵犯;[1]有原告认为,AI基于分析学习其作品而输出的内容是原告原作品的“衍生内容”,剽窃了原作者的创意和风格,侵犯了原告的版权;[2]有原告认为,经过其作品训练的AI在生成内容中消除了作品来源的标识,此种做法违反《数字千年版权法》(DCMA),侵犯了原告版权;[3]还有原告主张,被告未经其许可将其作品纳入训练数据的行为,导致AI的生成内容有原告作品的“鲜明特色”,以此误导了公众并给被告谋取到不正当的商业利益。[4]实践中,AI未经授权抓取训练数据的侵权形态是多样化的,而在海量数据的加持下,其侵权行为常有一定的持续性,导致侵权结果有大规模、不特定的特征。故上述系列诉讼中,多有原告列出一定的“被侵权标准”,借以提起集体诉讼;且多数原告对被告的行为提出多方面的诉讼主张。在我国,尚未有关于训练数据侵犯著作权的案例报道,但实践中已有关于AIGC生成内容的著作权侵权纠纷。下文将结合美中两国的最新实践案例,就AIGC的著作权相关问题进行分析。
美国及我国前沿判例分析解读
案例一、SARAH ANDERSEN, et al., v. STABILITY AI LTD., et al.[5] 原告称被告的产品属于“21世纪侵犯数百万艺术家权利的拼贴工具”,其详细介绍了Stable Diffusion对训练图像进行复制、存储及使用的过程,并据此向法院提出系列主张。目前,法院支持了部分事实清楚的诉请,但对其他主张则认为原告举证尚不充分。 1.原告主张:被告下载、储存原告作品数据及使用此数据训练AI的行为构成直接版权侵权。原告声称,被告未经其授权即使用原告的作品用于训练AI(包括下载、存储或分发作品的副本),并将其作品纳入到相关应用程序提供的产品中,此做法构成直接侵权。首先,就原告主张被告使用网上抓取的训练图像,并将其用于训练Stable Diffusion,导致图像作为压缩副本储存并合并到Stable Diffusion中的直接侵权诉请获得了法院支持,因为被告承认上述情形的存在。其次,就原告针对DeviantArt的直接侵权指控,法院认为原告就DeviantArt在抓取和使用Anderson和其他人的登记作品以创建训练图像方面发挥的积极作用举证不充分,不足以证成直接侵权的发生;最后,原告针对Midjourney的直接侵权指控,法院认为原告需要明确自己的被侵权逻辑是基于Midjourney使用Stable Diffusion,还是基于Midjourney自己独立使用训练图像来训练Midjourney产品,还是两者兼而有之。最终,法院支持了第一项诉请,但裁定驳回后两项诉请,并允许原告予以补充修正。 2.原告主张:当第三方运用被告AI生成仿冒作品时,被告构成间接版权侵权。原告声称,用户可以通过输入原告的名字和原有作品中的风格,依靠AI生成与该艺术家作品相似的“仿冒内容”,该“仿冒内容”构成对原有作品的侵犯,而被告编排了AI的学习分析程序,相当于默许了上述情况的发生,因此需承担间接责任。法院认为原告并未合理证明上述整个过程,相关的介绍中也未发现由被告产品输出的图像会与训练数据中的任何特定图像实质匹配,故驳回了该项诉请。 3.原告主张:被告从作品中移除版权信息导致AI生成的内容遗漏版权信息,违反了《数字千年版权法》。原告声称,其对作品享有合法有效的版权,作品中包含相关的版权信息。被告在获取作品后并未与原告签约取得在作品中移除、修改版权信息的授权,而被告却在使用过程中故意删除、修改了作品的版权信息,还分发了作品副本。法院认为原告应具体明确地说明被告用于训练Stable Diffusion的图像中所包含的具体版权信息,并明确每个被告在此项下的责任,以及充分举证具体事实,否则无法支持原告诉请。 【案例总结】可以看出,法院对AIGC版权侵权的认定极为慎重,除了直接的复制、存储等行为被明确认定为直接侵权以外,涉及到AI应用过程中的一些复杂分析学习过程,法院都认为需要由具体的技术说明和事实举证来证明侵权行为的成立。虽然这意味着此类案件的原告需要举证负担很重,但目前法院并未简单地将一些行为类型在法律上予以定性,随着相关技术材料和侵权事实的补充,其他诉请的侵权论证仍有成立的可能性。 案例二、STEPHEN THALER, v. SHIRA PERLMUTTER,[6] 原告泰勒拥有一个AI系统“Creativity Machine”,这个AI系统创作了一幅名为“A Recent Entrance to Paradise”的画作。原告据此向版权局以该AI系统为作者申请登记版权,但遭到版权局的驳回,其由此提出的行政诉讼也未获法院的支持。 1、原告认为AI的创作区别于传统人的要素,属于在新技术发展背景下对作者身份概念的一个扩充,从激励创新和迎合时代的角度来看应当承认AI的作者身份。版权局认为,作者身份只属于自然人,作品受到版权保护的必备要素即是人的参与,如果AI作为一种工具辅助人的创作,那创作作品可以取得版权;但完全由AI自主创作的作品,不符合版权法的规定。 2、法院在审理中认为,版权法旨在保护和激励人的创作,其条款中的作者身份只局限于自然人,且人的创作也是作品的必备要素,相关判例中也不存在对上述共识的突破,原告也无法举证版权法保护作品的例外,因此驳回了原告的诉请。在说理上,法院认为原告正确地认识到了版权法应随着时代发展而囊括进许多蕴含新技术因素的作品,但对版权法相关概念的解释应当严格遵循宪法的规定和已有的判例。版权适应时代的基础是人们对相关概念的一致理解,此种理解不应偏离“保护人类创作”的核心要义。 【案例总结】根据法院观点,“人的参与,即人在创作过程中的主导地位,是作品受到版权保护的核心要素”。因此,无需给AI本身赋予作者的身份,对完全由AI创作的作品也没有必要给与版权保护。 案例三、美国版权局《太空歌剧院》一案[7] 2022年9月21日,艾伦就著名的AI创作成果《太空歌剧院》向美国版权局提出登记申请,遭到了版权局的拒绝。2023年1月24日和2023年7月12日,艾伦向版权局两次提出重新考虑拒绝注册的决定,均遭到否决,版权局在答复中进行了详细说理。 1.关于版权保护的要素。艾伦认为,其在此幅画的创作过程中进行了多达624次提示,足以说明其在此过程中的“创造性投入”,最终作品是在AI生成的基础上由其通过Adobe Photoshop等多项工具优化修改得到的,体现了人类的创造力。版权局认为,基于现有材料并不能判断AI及艾伦在整个作品创作过程中的贡献占比,但无可争议的是,由AI占实质性贡献的部分不能获得版权的保护,应当予以剔除。版权局并不否认艾伦在提示工作中的“创造力”,此项工作理应成为受版权保护的因素。但在具体工作中AI是参照提示进行自主性的创作,使得用户需要对结果进行优化和重整以获得自己满意的结果,这说明人类用户在过程中并不占主导性地位,此种提示在作品生成的过程中不存在实质性贡献,故构成版权法保护的作品要素是由AI完成的,而非人类用户。 2.外部性考量。艾伦认为,版权局不予登记的决定属于对作者创作方式的价值评判,这不符合鼓励创新的导向、也不利于公众利用现有技术创新作品的表达形式和创作方式。版权局答复,能纳入版权保护的各项创新不能脱离版权法保护的核心,即人类身份和人的创作,受版权保护的新作品或受版权法认可的新创作方式在运用新技术的同时必须体现“人的要素”,表明人在创作过程中的实质贡献。此项判断完全基于事实分析,而对相关贡献占比的披露也属于版权法注册信息要求的范畴,是作品得被认可和保护的前提。版权局并不否认艾伦工作本身的可版权性,关键在于艾伦的工作并未在整个作品的创作过程中存在实质、主导性的贡献,生成作品不足以体现人的创造。 【案例总结】版权局在答复中详细回答了艾伦提出的系列主张,其认为无论通过什么方式,作品创作过程中必须体现实质的“人的创造”,因此,由AI占实质性贡献的部分不能获得版权的保护,进而作者寻求对整个作品享有版权保护的申请被驳回。 案例四、我国AI生成图片著作权侵权第一案一审[8] 2023年2月24日,原告李某使用开源软件Stable Diffusion通过输入提示词的方式生成涉案图片,后将该图片以“春风送来了温柔”为名发布在小红书平台。百家号账号“我是云开日出”在2023年3月2日发布了名为《三月的爱情,在桃花里》的文章,该文章配图使用了涉案图片。原告认为,被告未获得原告的许可,且截去了原告在小红书平台的署名水印,使得相关用户误认为被告为该作品的作者,严重侵犯了原告享有的署名权及信息网络传播权。北京互联网法院(下称“北互”)近期对该案作出了一审判决。 1.关于是否属于作品。法院重点论述了是否属于“智力成果”以及是否具有“独创性”两个要件。法院认为,从原告构思涉案图片起,到最终选定涉案图片止,这整个过程来看,原告进行了一定的智力投入,比如设计人物的呈现方式、选择提示词、安排提示词的顺序、设置相关的参数、选定哪个图片符合预期等等。涉案图片体现了原告的智力投入,故涉案图片具备了“智力成果”要件。就是否具有“独创性”法院则认为,原告对于人物及其呈现方式等画面元素通过提示词进行了设计,对于画面、布局、构图等通过参数进行了设置,体现了原告的选择和安排。另一方面,原告通过输入提示词、设置相关参数,获得了第一张图片后,其继续增加提示词、修改参数,不断调整修正,最终获得了涉案图片,这一调整修正过程亦体现了原告的审美选择和个性判断。在无相反证据的情况下,可以认定涉案图片由原告独立完成,体现出了原告的个性化表达。 2.关于原告是否享有涉案作品的著作权。法院认为,作者限于自然人、法人或非法人组织,这与民法典规定的民事主体一致。故人工智能模型本身无法成为我国著作权法上的作者。正因如此,虽然涉案图片是涉案人工智能模型所“画”,但是该模型无法成为涉案图片的作者。涉案人工智能模型设计者既没有创作涉案图片的意愿,也没有预先设定后续生成内容,其并未参与到涉案图片的生成过程中,于本案而言,其仅是创作工具的生产者。故涉案人工智能模型设计者亦不是涉案图片的作者。本案中,从相关主体的约定来看,根据在案证据,涉案人工智能模型的设计者,在其提供的许可证中表示,“不主张对输出内容的权利”,可以认定设计者亦对输出内容不主张相关权利。 【案例总结】法院最终认为,原告直接根据需要对涉案人工智能模型进行相关设置,并且是最终选定涉案图片的人,涉案图片是基于原告的智力投入直接产生,体现出原告的个性化表达,故原告是涉案图片的作者,享有涉案图片的著作权。可以看出在类似案例上,北互的观点与上文美国版权局的认定存在一定分歧。 著作权保护与侵权的法律解析
一、著作权侵权的构成要件 相较于一般的侵权行为,著作权侵权责任的承担有其特殊性,虽遵循传统的侵权法构成要件,但在实际的司法实践中,主要考虑以下几个方面:1.原告寻求保护的作品构成《著作权法》意义上的作品;2.被告存在侵权行为,包括有接触过原告所主张的作品的可能性、被控侵权作品与原告主张的作品构成实质性相似,即“接触+实质性相似”判断规则;3.不属于合理使用或法定许可;4.被告存在主观过错(当然也有学者认为过错仅影响损害赔偿,不影响是否构成侵权的认定)。 展开来说:“原告寻求保护的作品构成《著作权法》意义上的作品”需要结合《著作权法》的规定来判定。我国新《著作权法》第三条对能够构成作品的智力成果的要件进行规定,并且进一步在原本的列举式规定外,增加了第九项符合作品特征的其他智力成果。因此,符合该条所要求的“独创性”、“以一定形式表现”、“智力成果”等要求的即为《著作权法》所保护的作品。就“被告存在侵权行为”而言,一般来说,只要被告实施了侵害原告基于《著作权法》所享有的著作权的行为、或违反《著作权法》第五十二条、第五十三条规定的行为,该种行为没有被纳入到第二十四条合理使用或第二十五条法定许可的,即构成侵权行为。就主观方面的认定,通常考虑被告是否主观上认为获得了授权。 二、 AIGC训练数据阶段著作权侵权风险 通过上述的著作权侵权分析,训练数据阶段需要讨论的几个构成要件具体分析如下: 1.原告寻求保护的作品构成《著作权法》意义上的作品。需要注意的是,在大数据背景下,一个享有著作权保护的作品会有多样的表现形式,故在具体情境下我们应对著作权法规定的作品类型有一个多元化的认识。同一个智力成果可能在不同的层面上被认定构成不同的作品予以保护,比如电子游戏在某些层面可以作为计算机软件予以保护、在某些层面可能作为视听作品予以保护。这些作品的数据信息等多样化的表达内容也会成为著作权的保护对象。特别地,结合《著作权法》第三条第一款“独创性”的表述和其款下的第(九)项规定,一些符合作品特征的,新颖独创的表达内容也可能受著作权法的保护。 2.被告存在侵权行为包括有接触过原告所主张的作品的可能性、被控侵权作品与原告主张的作品构成实质性相似,即“接触+实质性相似”判断规则。在训练阶段,被投入的作品一般都是抓取大量存在于互联网中的作品,因此不存在不能接触的情形,该种作品完全以复制的形式被投入数据训练,因此“接触+实质性相似”判断规则一般不会在该类争议中被过多的关注。 3.是否属于合理使用或法定许可。该点是AIGC训练数据阶段争议的焦点。就我国《著作权法》而言,第二十五条法定许可的“为实施义务教育和国家教育规划而编写出版教科书”这一目的,直接将AIGC的使用方式排除在外。第二十四条则是通过构成要件+封闭式列举的方式对合理使用进行了规制:从法条的规定上需要满足“指明作者姓名或者名称、作品名称”、“不得影响该作品的正常使用”、“不得不合理地损害著作权人的合法权益”这三个构成要件,且还需要该种行为能够纳入到(一)到(十三)项的情形,才属于合理使用。从AIGC的具体使用情形和使用目的来看,虽然开发者可以尽力满足“指明作者姓名或者名称、作品名称”——收集并公开列明该AIGC投入的作品名称、作者姓名或名称、“不得影响该作品的正常使用”——由于传统的著作权使用情形并不包括作为学习资料供机器学习,可能被认为不影响该作品的正常使用、“不得不合理地损害著作权人的合法权益”——由于传统的著作权使用情形并不包括作为学习资料供机器学习,因此著作权人的权益并未被减损——这三个构成要件,但却很难被纳入合理使用(一)到(十三)项的情形。 4.主观方面。从传统的著作权侵权主观方面的判断而言,一般会要求被授权人需要对授权人是否有权授权该作品有一个形式判断,如存在权利链条的,则需要被授权人出示完整的权利链条。但就AIGC的情况,面对海量数据,AIGC开发者很难鉴别哪些数据属于作品,以及授权人是否有权授权该等数据,这些都存在客观困难。尽管如此,从当前法律规定的框架上看,获得权利人授权依然是避免侵权风险的最佳方式,可能需要业界共同探讨如何创建更为便利的授权方式。 三、AIGC内容输出阶段著作权维权与侵权风险 AIGC内容输出阶段主要存在著作权维权的风险和侵权风险。对于AIGC输出的内容是否属于作品,其作者系AI本身、亦或AI的开发者或使用者,如输出内容存在侵权,开发者或使用者是否应当承担责任等问题都是该领域争议的焦点。 AIGC输出的内容是否属于作品。对于这个问题,美国版权局与中国法院的认定大相径庭,《太空歌剧院》一案中,美国版权局认为,在具体工作中AI是参照提示进行自主性的创作,使得用户需要对结果进行优化和重整以获得自己满意的结果,这说明人类用户在过程中并不占主导性的地位,故构成版权法保护的作品要素是由AI完成的,而非人类用户,此种作品难以获得版权认可。而中国法院则在“春风送来了温柔”案中认为,从原告构思涉案图片起,到最终选定涉案图片止,原告进行了一定的智力投入,比如设计人物的呈现方式、选择提示词、安排提示词的顺序等等。无论美国版权局还是中国法院都没有否认申请人或原告在创作过程中的智力投入,但美国版权局认为该种智力投入并不占主导地位,中国法院则似乎认为,只要用户进行了智力投入,在满足作品其他要件的时候,就可以认定AIGC输出的内容属于作品。 作者系AI本身、亦或AI的开发者或使用者。关于这一问题,AI本身作为作者遭到了美国法院和中国法院的否决,均认为著作权法(版权法)保护的作品应当是人创作的。就中国法院审理的腾讯机器人Dreamwriter案件中、以及前文所举“春风送来了温柔”案,AI的开发者或者授权使用者享有所有基于软件开发成果的著作权,或者声明放弃对生成内容的著作权,因此,在该两个案件中都简化了上述问题,使用者当然可以享有“著作权”。但笔者并不认同“春风送来了温柔”案中北互的意见,使用者虽然通过提示词、设置相关参数等对最终的画作进行了限定、或者说选择,但本质仅仅是文字上的描述,而非对于美术作品所保护的线条、形状等组合的设置或者选择,可以说对最终的画作,使用者提供的仅仅是思想,而非作为美术作品的独创性表达内容。况且,即使输入同样的参数、提示词,每次生成的图片也是不同的,AI的使用者对最终的内容并不具有实质性的决定性贡献,因此,使用者不能够作为最终画作的作者。 输出内容存在侵权时开发者或使用者是否应当承担责任。当前美国和中国的案例对此均未有明确回应。在Andersen v. Stability AI案件中,法院以原告未能证明AI生成作品与原告作品相似的仿冒内容这一事实驳回了原告的诉讼请求。AIGC的开发者虽然对最终成果起到的作用远远大于使用者,但由于其无法控制用户选择的提示词等内容,且输出的内容仅面向用户,因此,在无法认定开发者具有过错的情况下,据此认定其应当承担责任的可能性相对较小。而对于AIGC的使用者而言,如果根据中国法院的判决其享有生成作品的著作权,则基于权利义务相一致的原则,其也可能对该等作品的侵权问题承担责任。后续可能还有待实践案例来进一步明确上述问题。 小结
综上所述,虽然目前各国立法和判例并未明确AIGC相关的法律界限,但结合传统部门法的视角及新的案例动向,无论是训练数据,还是生成内容,AIGC都伴有一定的法律风险。自著作权视角切入,以《著作权法》明确规定的行为类型为参考,结合以受著作权保护作品的认定和侵权构成要件的考量,可初步判定AIGC各个应用环节中的侵权风险来源。而依相关诉讼进展,在生成式AI应用过程中,训练数据涉及到数据的抓取和受著作权保护信息的复制,会产生著作权侵权的相关问题;后期AI自主输出内容很大程度上依赖前期训练数据所积累的分析模型,由此伴生的生成内容与受著作权保护作品存在“实质性相似”,也可能构成著作权侵权。同样,AIGC生成内容的著作权保护仍面临诸多法律上的难点。随着AIGC发展而衍生的系列法律问题需要我们有所认知和思考,在鼓励创新发展的同时,也需要对现有法律规则的运用与更新有所反思,力求在法律层面上进一步明晰AIGC的定位,给AIGC的有序发展提供适宜的法律框架。 (上海财经大学法学院实习生陈睿同学对本文的案例编写亦有贡献。)
团队介绍 中联网络安全与数据合规团队由具备深厚本土经验及广泛国际视野的专家律师组成。团队成员在本领域具有丰富的业务实践经验,并长期参与相关科研活动、社会活动。中联各地办公室均有合伙人及律师从事此领域业务,各个办公室可以一体协作,为客户提供组合服务。中联还与国内外的法律专家、技术团队等建立深入合作,具有为客户在世界范围内提供一站式网络安全与数据合规服务的能力。 刘名 中联律师事务所 上海办公室 顾问 ❖ 邮箱:iris.liu@sgla.com ❖ 执业领域:知识产权、公司商事、争议解决。 方懿 中联律师事务所 上海办公室 合伙人 ❖ 邮箱:eve.fang@sgla.com ❖ 执业领域:涉外商事、合规与政府监管、航运物流。