AI企业VS新闻出版机构版权第一案:数据属于谁?

 新闻资讯     |      2024-01-06 06:54

  AI企业VS新闻出版机构版权第一案:数据属于谁?产业和保护最大公约数如何划定?

  进入新的一年,人工智能开年大戏已拉开序幕。不久之前,《纽约时报》向曼哈顿联邦法院提起诉讼,指控OpenAI和微软未经许可使用该报数百万篇文章训练机器人。

  “被告(指OpenAI和微软,下同)……生成式人工智能(GenAI)工具依赖于大语言模型(LLMs),这些模型是通过复制和使用《纽约时报》的数百万篇受版权保护的新闻文章、深入调查、评论文章、评论、操作指南等而建立的。……被告试图在未经许可或支付的情况下,利用《纽约时报》对其新闻业的巨大投资来构建替代品。”

  在人工智能企业发展过程中,其中数据,尤其是高质量的数据,或者说是知识,成为一项必不可少的竞争要素。人工智能繁荣背后,数据知识产权相关问题成为AI发展隐忧。

  《纽约时报》起诉书列举的多个案例,似乎已经从事实层面证实OpenAI、微软未经许可使用其报道作为训练数据,同时输出内容构成实质性相似。在涉数据知识产权相关问题讨论仍无定论和共识的背景下,这起诉讼意味着相关讨论已进入实质探讨层面。

  这不是涉数据知识产权的第一期案例,也不会是最后一起案例。其中的关键在于,司法应该如何在技术、产业发展和权利保护之间找到最大公约数?

  《纽约时报》和OpenAI、微软的纠葛始于2023年4月。《纽约时报》联系微软和OpenAI,提出知识产权方面的担忧,并探讨了可能的友好解决方案,包括商业条款和技术保护措施,以便实现双方实现互利的价值交换。

  随后,《纽约时报》更新服务条款,明确禁止使用其内容进行人工智能训练。随后屏蔽了OpenAI的爬虫程序GPTBot。

  “这些努力未能产生解决方案。”起诉书写道,表示本诉讼旨在追究被告应承担的数十亿美元的法定和实际损害赔偿责任。

  起诉书表示,微软的BingChat(最近更名为“Copilot”)和OpenAI的ChatGPT,在未经许可或付款的情况下,利用《纽约时报》对新闻业的巨额投资来制造替代产品,属于搭便车行为。

  《纽约时报》认为,大模型的“幻觉”也被错误地归因于其。被告的模型错误地将《纽约时报》事实上没有发表的内容归于《纽约时报》,造成了商业和竞争损害。

  《纽约时报》并不认可被告构成“合理使用”。在它看来,被告的工具在未经许可或授权的情况下提供相关内容,削弱并损害了《纽约时报》与其读者的关系,同时剥夺了时报的订阅、许可、广告和关联收入。此外,GenAI模型的输出内容与用于训练它们的输入内容相竞争并紧密模仿,也并不属于合理使用范畴。

  《纽约时报》要求获得损害赔偿,但未提及最终数额;要求永久禁止被告从事所述的非法、不公平和侵权行为,删除包含《纽约时报》作品原理的训练集等。

  对于《纽约时报》的诉讼,OpenAI感到“惊讶和失望”,OpenAI发言人Lindsey Held表示,“我们尊重内容创作者和所有者的权利,并致力于与他们合作,确保他们从人工智能技术和新的收入模式中受益”。而微软拒绝就该诉讼发表评论。

  不完全梳理来看,2023年6月,OpenAI面临集体诉讼,称其窃听了“书籍、文章、网站和帖子——包括未经同意获得的个人信息”。同年9月,David Baldacci、Mary Bly等十六位作家以及作家协会,对OpenAI和微软提起诉讼。

  “这个诉讼是典型的人工智能技术对人类已有智力成果产生冲击导致权利冲突的案例,既关系到AI产业的发展,也涉及已有权利的保护,在人工智能发展史上具有标志性意义。”浙江垦丁律师事务所主任律师张延来说道。在他看来,今后类似的案例会越来越多,需要司法在技术和权利保护之间找到最大公约数。

  广东财经大学法学院教授姚志伟提示,此类案件的难点在于,一是证明权利人的作品被用于训练,发生在企业内部较难证实。二是证明输出的生成物与权利人作品存在“实质性相似”。

  就前者《纽约时报》提出OpenAI使用的公开数据集中含有纽约时报的作品进行证明;就后者《纽约时报》进行了多个生成物和其作品之间的比较,证明了生成物存在逐字复制其作品的现象。上述难题的解决使得这起诉讼从事实层面驳回提诉相对困难,将进入深入探讨实质性法律问题的层面。

  一般而言,人工智能企业的数据主要来源于厂商历史积累的数据、通过公开渠道爬取的数据以及各类免费或付费的第三方数据库与数据集等渠道。其中,数据知识产权相关问题已经成为当下人工智能发展的阿喀琉斯之踵,影响着产业发展。

  训练数据收集、使用阶段,不少企业呼吁通过数据的合理使用或法定许可解决数据相关问题。合理使用是指既不需要经过版权人许可,也不需要向其支付报酬的使用作品行为。

  “关于训练数据的合理使用问题,实质涉及是否应允许在训练阶段未经授权使用他人的版权作品,尤其是在海量数据即将用尽的背景下。此外,海量数据逐一获取版权人同意的成本极高甚至难以承受。”姚志伟点出AI企业当下发展可能面临的困境。

  中国政法法学法律硕士学院教授、知识产权法创新与竞争研究中心主任陶乾在“2023数字版权保护与发展论坛”上曾表示,数据采集阶段,数据集制作者和数据持有者因数据抓取产生的纠纷,本质上是数据使用问题,可通过反不正当竞争法来处理。数据训练阶段,生成式人工智能学习的是文字、元素和音符之间的分布规律,训练的是数据而非“享受”作品,不属于著作权法意义的作品使用行为。

  “解决生成式AI版权问题的本质在于数据提供者和数据集制作者在提供数据时的版权合规,而不是在大模型训练阶段的版权合规。”陶乾说道。

  与其他案例不同的是,《纽约时报》诉OpenAI、微软案例中,OpenAI被控采集数百万篇文章以训练人工智能,而且据称是“可以将原报道逐字逐句地复制给提问的用户”。

  “结合美国关于作品合理使用的立法以及司法实践,很难说此次OpenAI可以像谷歌一样得到司法支持。除非美国司法完全站在推动人工智能技术发展的角度,做出突破性的认定。”张延来表示。

  姚志伟提示,对于输入阶段,使用未经授权的数据是否构成合理使用,可能存在争议。但对于输出阶段,多数人认为实质相似则构成侵权。

  “在内容输出阶段,AIGC版权问题本质上是著作权法如何保护数据衍生品,以及权益归属的问题,可以通过引入AIGC强制标注,由市场判断相关商品是否具有财产价值,通过用户协议去确定数据衍生品的归属。”陶乾在上述会上表示。

  处于起步发展阶段的人工智能,当下对于数据,尤其是高质量的数据仍然十分渴求。

  记者梳理发现,针对涉数据知识产权相关问题,尤其是训练数据阶段,人工智能公司也在通过前期约定以避免版权纠纷。如OpenAI先后与美联社、AxelSpringe等达成协议。

  相关合同金额从媒体报道中隐约可见。《纽约时报》曾经报道,苹果公司正在与一些大型新闻出版商洽谈授权其新闻档案,“价值至少5000万美元的多年期交易”。1月4日,TheInformation报道称,OpenAI每年提供100万至500万美元的价格,以获得相关许可。

  在涉及数据知识产权方面,已有国家作出回应。如韩国表态允许使用各种出版物进行数据分析,日本政府表态不会对训练AI所使用的数据实施版权保护。

  对于美国政府来说,回应产业发展和利益保护的平衡问题,在此刻显得尤为重要。

  姚志伟表示, “相关案例,如《纽约时报》起诉OpenAI、微软,可能迫使美国重新思考其在产业利益、公共利益和权利人利益之间的平衡问题。平衡不是宽泛的,最后会落实到具体的制度设计上面,但是需要时间”。

  而在张延来看来,涉及数据相关知识产权问题在多方利益的平衡中,尤其需要关注两个方面。

  一是AI数据训练过程中对已有权利的保护。应当对原有的版权保护体系做出一定的突破,最大限度解除对技术发展的限制,毕竟不发展就是最大的不安全,但要注意对原权利人不可产生内容上的高度替代或者利益上的过分侵蚀。

  二是用户使用AI生成的内容,对其中基于用户所做的指令、筛选、判断、优化等智力成果,应当给予著作权保护,不能仅因为AI的介入,否定所有AIGC内容的可版权性。“因为今后的创作将进入人机协作时代,单纯的表达能力已经不再稀缺,重要的还是人的审美、创意和判断能力。”

  姚志伟表示,直接对模型进行调整较为困难,因为涉及到一些技术障碍,同时效果并不确定,而且实施成本较高。“未来或许在模型输出阶段,通过技术过滤等手段以防止侵权行为的发生”。