生成式人工智能(AIGC),包括大型语言模型(LLMs)、聊天机器人和其他类型的内容生成器(统称为AI大模型产品),是当前备受关注的热门话题,并且显然将成为许多行业和领域的未来趋势。这些生成式AI模型接受了来自各种来源的大量数据训练,其中可能包括受版权保护的作品、个人或敏感数据等内容。一旦完成训练,这些生成式AI模型可以被提问或给予提示,根据它们所接受的数据分析并根据人类训练者的反馈生成内容。
例如,像DeepSeek、ChatGPT这样的生成式AI模型能够通过快速生成内容给人们的工作带来效率和速度的提升。但AI大模型产品既有可能产生不准确和错误的答案,也有可能生成存在知识产权争议的内容,甚至还可能因答案包含重要敏感信息而造成数据泄露,这既展示了生成式AI所带来的令人难以置信的潜力,也揭示了其中蕴含的多层次风险。下文将以生成式人工智能的数据治理和知识产权两个方面为切入点探讨这一新生事物在法律合规上给我们带来的挑战。
▲ 图源苹果美国区应用商店
JAVY
1
生成式人工智能的全过程数据治理
数据是人工智能的基石,对数据直接或间接应用贯穿了生成式人工智能的整个生命周期。在这个过程中,涉及的数据合规问题十分复杂,包括对AI算法大模型进行训练,在模型应用过程中的数据处理以及利用数据进行模型优化。通常情况下,这个过程还涉及到生成式人工智能系统的开发者、服务提供者以及使用者等多个方面的主体。
▲ 图源网络
针对这一挑战,世界各大主要经济体都在通过立法和司法实践来探索AI领域的数据管理模式。例如,欧盟于2023年6月14日通过了《人工智能法案》以及于2023年11月9日通过了《数据法案》。这些法案作为欧盟整体数据立法计划的一部分,在GDPR的基础上探索了数据与人工智能的结合。该法案适用于所有类型的人工智能,作为监管产品的一部分,它不会赋予个人权利,但会规范人工智能系统的提供者,以及以专业身份使用它们的实体。在大洋的另一端,美国国家标准技术研究院发布的人工智能风险管理框架(AI RMF)标志着该领域迈向了一个重要的里程碑。这一框架的问世为人工智能系统的开发和应用带来了更为系统化和规范化的方法。
通过明确了AI系统的生命周期、各个阶段的参与者以及关键维度,AI RMF为人工智能的风险管理提供了一个全面的评估路径。这一框架的出现意味着在设计、开发、部署和运行AI系统时,能够更加准确地识别和管理潜在的风险。这对于确保AI系统的安全性、可靠性和可解释性至关重要。相对应的,我国也于2023年7月13日发布《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》),并于2023年8月15日正式施行。
1.1
模型训练阶段的数据合规
从微观上看,对生成式人工智能的数据治理主要分为两个阶段,第一个阶段即是在初期模型训练过程中对数据的采集、分类、清洗、标注,这其中的核心是数据来源的合规性。一般而言,虽然用于训练阶段的大模型并不会直接参与市场活动,但《暂行办法》第七条明确要求大模型服务提供者和开发者必须“使用合法来源的数据及基础模型”,因此不能认为用于大模型训练阶段的数据构成对数据的“合理使用”从而减轻模型训练阶段的数据采集合规义务。
当前大多数商业大模型的训练数据要么来自于直接或间接的数据收集,要么来自于网络爬虫的数据抓取。如果通过直接或间接收集数据,则需要确保满足《个人信息保护法》以及《数据安全法》对于数据来源的合法的要求,尽到数据使用者对于数据主体的保护义务,满足透明性要求并具备收集数据的合法性基础,避免使用未合法公开的个人信息或涉密信息。
而如果数据通过爬虫抓取,则风险要相对大的多,首先如果爬虫数据收集过程利用IP代理、伪造UA等方式绕过目标网站的Robots协议或其他反爬虫措施进行抓取,从而干扰被爬取网站的正常运营,这可能构成《反不正当竞争法》下的“妨碍、破坏其他经营者网络产品或者服务正常运行”的不正当竞争行为;其次如果抓取内容构成个人信息,则很可能因无法满足收集个人数据的合法性基础而构成“违法收集个人信息”的行为; 另外如果未经权利人许可,对他人享有著作权的数据进行抓取,并在融合于训练大模型后在输出成果中展示,可能构成侵犯他人著作权的行为;最后,如果数据抓取行为通过技术手段绕过反爬虫系统或干扰服务器系统的正常运行,则还有可能构成刑事犯罪。
因此,生成式人工智能即便在正式推向市场前的内部训练阶段,就要对数据的来源做多类型分级管理,并依据有关法律对训练数据做针对性的标记与清洗,尽可能保证模型的训练数据来源合法合规,提高数据标注及清洗、模型训练阶段的透明性、可解释性及公平性,积极应对监管,从而为产品后续的使用建立良好的基因。
1.2
产品运行和模型优化阶段的数据合规
生成式人工智能在模型训练完成后被投入市场,既面向大众提供服务,亦有可能在运行中通过用户反馈对模型进行进一步优化。模型产品在运行阶段会与大量用户输入的数据进行交互,而这些数据又可能会融入训练模型本身,成为大模型产品的一部分,并在后续对其他用户提供服务时向公众不定时披露。
▲ 图源视觉中国
以ChatGPT为例,OpenAI会通过收集用户账户信息、交流信息、社交媒体信息、日志信息、使用情况、设备信息、Cookies等个人信息来同时实现用户需求以及其大语言模型本身的迭代训练。在这一过程中,用户输入的内容五花八门,可能包含其个人信息和其他商业信息,甚至还包括涉密信息。
《暂行办法》第十一条规定生成式人工智能服务提供者应当遵守个人信息保护要求,禁止对个人数据的“非法留存”和“非法提供”,并强调信息收集的“必要性”,因此在产品运行过程中依然要时刻保证按照相关数据法规满足个人信息收集和使用的透明性及合法性要求,比如通过隐私政策告知生成式人工智能服务使用者个人信息处理规则,并通过勾选框等形式取得用户明确同意,为全套服务提供服务所必需具备合法性基础。
此外,基于目前AI大数据行业在全球的算力部署情况,我国境内大量的生成式人工智能服务提供商可能并不具备本土的算力储备和存储资源,因此难免会有部分境内服务提供商通过境外大模型SaaS授权的形式套用境外的大模型软件和数据库,在这一过程中还会不可避免地出现数据的跨境传输问题。对于此,服务商通过生成式人工智能服务获取的数据在跨境传输时,应当严格按照《个人信息保护法》、《数据出境管理办法》、《数据出境安全评估办法》、《个人信息出境标准办法》等法律法规的规定,对从用户处获取的数据进行分类分级处理,对可能涉及国家机密、商业隐私、个人隐私、敏感数据、重要数据等进行标记和识别,确定需要与境外进行数据交互的数据类别,作出针对性的数据出境安全评估和监管备案,而不能简单的以套用《个人信息出境标准合同》作为满足数据出境合规义务的标准。
最后,产品还需要关注可能出现的数据泄露风险。数据泄露风险既体现在生成式人工智能产品系统本身发生数据安全事故而导致的数据泄露,更包括服务使用者输入包含国家秘密、商业秘密或其他敏感数据进入大模型数据库进而向其他服务使用者泄露数据内容的情况。对于服务提供者本身,则要首先在获取用户数据时积极提示用户避免输入敏感数据,并采取一定技术手段对用户输入的数据做数据类别初筛,甄别可能的涉密敏感数据;另外需根据相关规定制定数据安全应急预案,在发生数据安全事件时及时履行上报及通知义务,并对产品供应商采取安全层面的合规管理措施。而对于产品使用者而言,涉密单位应对可能接触敏感信息的个人和团体作出严格的大模型类产品使用限制,从使用者层面规避敏感数据通过生成式人工智能大模型向外部泄露。
2
生成式人工智能对现有知识产权法律体系的冲击
生成式人工智能最先涉及的即是图像、音乐、影视、文字等艺术创作等领域。AI可以在极短的时间内处理大规模的数据并生成大量的内容相比之下,人类创作者可能需要花费更长的时间来完成相似的任务。这种高效率的创作速度可以加快内容的产出和发布周期。此外AI可以自动完成大部分创作过程,因此可以降低内容创作的成本,同时可以从海量的数据中学习和汲取灵感,从而生成具有创意和新颖性的内容,探索不同的风格、主题和结构,为创作者提供新的创意和灵感。AI还可以根据用户需求自动定制内容,根据用户的偏好和要求生成个性化的作品。正式这种便利,使得生成式人工智能迅速在内容创作行业展露头脚,然而相对应的也对有着几百年发展渊源的知识产权法律体系造成了极大的冲击。
▲ 图源网络
2.1
AI生成作品的可版权性
▲ STEPHEN THALER v. SHIRA PERLMUTTER案判决
生成式人工智能产品生成的艺术作品由于取样自大模型内的既有数据,并且由AI自动生成,因此对于这类生成作品是否具有《著作权法》第三条所规定“独创性”,以及是否能被归类为人类的“智力成果”。从中美欧等主要经济体的司法实践看,相关判决中既有支持该类作品具有著作权的判决结果,如我国(2019)粤0305民初14004号判决书法院认可了利用AI软件撰写财经新闻报道的可版权性;同时也存在不认可AI生成作品具有著作权的判例,如美国地方法院法官Beryl A. Howell在STEPHEN THALER v. SHIRA PERLMUTTER案中作出的判决。综合这些判例,不难发现,对于AI生成作品是否具有可版权性,重点在于作品中是否包含了人类的创作因素。
在不认可AI作品具有著作权的判决中,普遍认为自动运行而生成的作品是完全由机器或纯粹的机械过程所创造,没有任何人类作者的创造性投入或干预,因此不具有人类的智力成果。相对的,只有当作品包含人类创作因素时,该作品才能够受到著作权法的保护。当然,对于更为复杂的情况,比如利用嵌套的AI软件对生成的内容进行二次筛选,需要进一步评估人类在生成作品过程中的参与程度。因此,确定人类参与创作程度构成可版权性作品的标准,仍需未来的司法实践不断探索和形成相应的准则。
2.2
AI生成作品的著作权权利归属
生成式人工智能生成的作品由于同时具有数据来源方、模型开发者以及产品使用者三方的参与,如果AI生成作品满足上文所述的人类智力投入标准,那么该作品的著作权到底应当归属于何方呢?
针对这一问题,目前法律并未对此作出明确规定。一般情况下,生成式人工智能产品提供方会通过用户协议等方式就AI生成内容的归属进行约定,比如OpenAI在其用户协议中明确规定:“OpenAI将输出内容的所有权利和权益转让给用户。OpenAI可能基于提供和维护服务而使用这些内容。鉴于机器学习的特性,类似问题可能会导致相同的回答。其他用户的请求和生成的响应不被视为唯一用户的内容。”OpenAI的策略是让渡生成内容的权利,同时也使自己规避了因AI生成内容本身可能存在的权利瑕疵而产生知识产权纠纷。
当然,为了保障开发者的利益,即使约定AI生成内容的权益归属于用户,某些大模型产品,比如Notion AI,也可能会要求从用户协议中获得用户的授权,以便对用户通过AI产品创作的衍生品进行展示、存储、发布、复制、使用和修改等操作,从而实现应用开发者利用用户内容进行盈利、宣传和软件升级等目的。另外还有其他软件开发者选择保留AI生成作品的著作权,仅向付费用户授权商业使用等多种模式,或者直接通过知识共享许可协议(如CC0 1.0协议)将作品贡献到全球公共领域,以便其他人可以自由使用、修改、分发和利用这些作品,甚至可以将其商业化,而无需事先获得版权所有者的许可。
而对于没有明确约定权利归属或权利归属存在争议的AI生成作品,往往会通过司法判决的方式对知识产权归属进行确认,而判决结果也往往不尽相同。某个案中,法院认为原告获得生成式人工智能软件授权后,由其团队多人协作配合,各司其职,配合原告主创人员运用该软件完成相关文字作品,因此该文字即便使用了AI生成工具,但使用者依然享有文字作品的著作权;相反,法院在有些案件中认为AI生成的内容并未传递软件开发者的思想感情,而软件使用者仅以搜索的形式自动生成内容,也没有对内容本身赋予使用者的思想感情的独创性表达,因此大模型软件开发者和产品使用者均不对AI生成内容享有著作权。可以看出,与AI生成作品的可版权性一样,对于这类作品的著作权归属,司法实践中往往也要参考相关参与人对作品投入人类智力活动的程度以及对于生成作品独创性的贡献。
2.3
AI生成作品的著作权侵权风险
由于生成式人工智能大模型产品必须使用现有作品数据进行模型训练,并根据训练作品形成的算法模型生成AI生成内容,所以AI生成的内容自然而不可避免地携带了训练数据的记忆或痕迹,AI生成的内容可能呈现出训练作品的一些元素、特征和风格。普遍认为,如果AI提供的内容与训练作品在表达上存在实质性相似,并且存在交互的可能性,则可能存在著作权侵权的法律风险,视情况不同可能构成侵犯复制权、信息网络传播权或改编权。
如果AI生成作品构成知识产权侵权,按照一般《民法典》的规定,侵权作品的使用者作为过错方对于知识产权侵权行为承担主要责任,而根据网络服务提供者责任承担的一般原则,即服务提供者无需为用户利用网络服务的侵权行为承担责任,但对于其知道或应当知道的用户侵权行为应及时采取必要措施以避免损害扩大。
如果将生成式人工智能服务提供者定义为一般意义上的网络服务提供者,则其对侵权行为承担责任的前提是“知道或应当知道”侵权行为存在。但是按照《暂行办法》第九条之规定,生成式人工智能服务提供者将要承担等同于“内容生产者”的责任,积极履行网络安全义务。AI服务提供者虽然通过模型训练和参数调整等方式影响产品的内容输出,但对于用户使用软件并经过主观选择修改生成的内容,AI服务产品提供者其实并不能做到有效控制,故而《暂行办法》的语义可能会让生成式人工智能产品提供者在作品侵权过程中被定义为直接内容生产者而非网络服务提供者,这无疑给这类产品的服务商造成了巨大的商业风险。因此,对于AI生成作品侵权中大模型服务提供者的责任,仍然需要立法和司法实践进一步探讨。
JAVY
3
对生成式人工智能行业进行监管的探索
在第7届“啄木鸟数据治理论坛”上,南都数字经济治理研究中心发布的《生成式AI发展与治理观察报告(2023)》突显了全社会对于人工智能伦理治理的加剧关注。报告指出了虚假信息、算法歧视、侵犯知识产权、数据安全、个人隐私泄露、以及就业冲击等一系列问题,这些问题引发了对AI伦理治理的更为强烈的关注。
▲ 图源网络
针对这些问题,各国都积极通过立法手段来应对人工智能行业给社会带来的冲击,但各大主流经济体对监管侧重点则略有不同。其中,欧盟作为针对数据和AI专项立法的先驱者在近期敲定了《人工智能法案》的立法进程。该法案基于“风险分级”的核心理念,要求生成式人工智能的公司必须披露用于开发其系统的任何受法律保护的资料和数据。通过以往欧盟立法的倾向性来看,该法案符合欧盟一贯对互联网行业施以强监管的立法风格,即通过立法限制Google、ChatGPT这些外来互联网巨头在欧盟市场的无序扩张,并重点强调对个人自由与个体权利的保护。
当然,欧盟对于这一领域的立法倾向主要是因为其作为一个整体经济体在互联网时代的发展明显滞后于美国和中国,所以其对数据网络行业强监管的立法和执法风格可以在最大程度上保护欧盟单一市场免受来自域外互联网巨头的无序扩张和垄断,从而增加欧盟单一市场在全球经济和政治中的话语权。相比之下,英美对于该市场的监管风格则与欧盟略有不同,美国于2022年和2023年发布的《人工智能权利法案蓝图》、《国家人工智能研发战略计划》以及拜登政府于2023年10月发布的首个行政命令,均强调监管的科学性和灵活性,以扫清AI技术应用的障碍、促进技术创新为宗旨,坚持监管的前提是鼓励AI的创新和发展,而在具体监管细则上着重强调防止使用人工智能设计生物或核武器等威胁,以及强调针对域外数据交换的网络安全性,相反并未特别强调对个人自由和权利的保护。
英国对于AI相关的监管则非常具有传统的英国行业自治风格。英国政府于2023年3月发布《AI白皮书》,主张通过行业自治的方式形成非立法强制性的行业自治标准,最后视行业发展状况对行业标准进行立法转化,不过目前来看英国还没有形成一致意见的行业准则,因此英国在AI领域的立法将会以比较缓慢的步伐推进。通过以上几个主流经济体对于AI监管立法的态度,不难看出对于AI技术和数字经济发展相对落后的经济体,其立法理念主要是通过强监管减少AI技术对本土市场的冲击,故而采取先监管再发展的路径。而美国在AI技术领域已经拥有一定话语权和市场支配地位,因此其采取了先发展再监管的发展策略,而在监管中也主要着力于如何防止AI对公共安全发生威胁以及如何确保本土在与他国的人工智能发展中处于优势。
回到我国的情况,2023年7月13日七部委联合发布《生成式人工智能服务暂行管理办法》,系全球首部针对生成式人工智能的专门立法,因此在立法层面上,中国事实上已经走在了全球主流经济体的前列,但在监管落地过程中依然存在主管部门不明确、监管流程不透明的问题。事实上,我国在21世纪初期一直对数据相关的监管持相对放任的态度,虽然这在一定程度上带来很多监管方面的缺失,但客观上我国互联网行业也正是因为长时间以来较低的合规成本从而迅速崛起成为在世界上能够与美国分庭抗礼的互联网强国。当前生成式人工智能依然处于行业发展早期,一味地追求强监管降低风险反而会导致行业治理成本过快增长,阻碍科技的正常发展。
在监管上可以学习英国的做法,考虑由国家部委或智库型事业单位牵头制定非强制性行业标准的方式由市场对行业未来的监管方向进行探索,比如通过行业自愿准入的方式要求生成式人工智能服务商对AI生成内容可能侵犯的知识产权作出明确风险提示、标注AI生成作品与已知他人知识产权内容的相似度、以类似CC0协议的方式建立行业共享的AI模型训练数据库等。通过这种非强制性的行业规则进行弱监管,同时给予遵守这些行业规则的市场主体一定商誉上或政策上的奖励,让市场自己决定如何对某些生成式AI进行规制,为行业的发展提供一定程度的自主性。
而立法上当前阶段则应当保持谦抑性,着重对可能危及国家安全和公共安全的问题进行针对性立法,比如针对大量境内生成式人工智能服务商直接嵌套境外ChatGPT数据库和算法库提供服务的情况,应当明确要求所有类似机构对服务进行强制备案,并强制性要求这些机构对出境数据做出数据保护影响评估,同时定期对出境的数据进行抽查审计,防止敏感数据大量不受监管地外流。
© 北京嘉潍律师事务所 京ICP备18018264号-1