AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

首页 » AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

就算是 OpenAI 在舆论场也无法逃过版权保护的呼声。

GPT-4o内置声音模仿「寡姐」一案闹的沸沸扬扬，虽然以OpenAI发布声明暂停使用疑似寡姐声音的「SKY」的语音、否认曾侵权声音为阶段性结束。但是，一时间「即便是AI，也得保护人类版权」这一话题甚嚣尘上，更刺激起了人们本来就对AI是否可控这一现代迷思的焦虑。

近日，普林斯顿大学、哥伦比亚大学、哈佛大学和宾夕法尼亚大学共同推出了一项关于生成式AI版权保护的新方案，题为《An Economic Solution to Copyright Challenges of Generative AI》。

论文链接：https://arxiv.org/abs/2404.13964

生成式人工智能（AI）技术的快速进展已经深刻影响了文艺产业，带来了文学、视觉艺术和音乐等领域中由AI生成的内容时代。这些AI模型如大型语言模型和扩散模型能够创作出能够与人类艺术家的作品媲美乃至可能取代的高复杂性内容。

这种能力的迅速增长引发了关于大模型训练数据作者权利的法律和道德界限的重要问题，特别是在版权侵犯方面的争议。

版权保护一直以来都是各国法律中不可或缺的一部分。保护创作者的权益，可以更有利于调动创作者的积极性，使得文化事业更加繁华。版权保护为创作者不止提供了精神支持，也同时提供了物质支持（利益分配），这也是为创作者进一步提供了再创作的物质基础和精神动力。

另一方面，版权保护也更利于优秀作品的传播，因为版权保护也是在保护传播者的正当权益和保护公众对于分享知识文化成果的权利。诚然，一部作品的诞生，不是为了孤芳自赏，更多的是为了以某种形式分享给大众，为大众所用。而且, 版权保护也可以让创作者更加合理地使用他人的结果，避免引发剽窃等诸多麻烦。

因此，目前有几家AI公司因涉嫌生产侵犯版权的内容而卷入法律诉讼。比如说《纽约时报》起诉 Chatgpt的开发者 OpenAI [1]，控诉后者将数百万篇《纽约时报》的文章被用于训练智能聊天机器人（例如ChatGPT ）。这些机器人现在作为新闻消息源与《纽约时报》展开竞争。

《纽约时报》声称，OpenAI和微软大型语言模型 (LLM)能够模仿《纽约时报》的文字风格从而生成类似内容，有时候甚至能原封不动生成已有的内容，这种现象影响到《纽约时报》通过订阅和广告获得收入，并且有违版权许可。

起诉书中，《纽约时报》提及到一个例子 – 微软的「以必应浏览（Browse With Bing）」中的功能，能够几乎一字不差地重现《纽约时报》旗下网站「The Wirecutter」的内容，但完全没有为提供相关的链接进行引用。这个例子充分体现了AI 非法使用版权内容。

目前，针对OpenAI的类似诉讼案件正在不断增加，例如近来GPT-4o内置声音模仿「寡姐」一案 [2]。但由于对于AI 非常使用版权内容难以界定，诉讼案件尚在激烈讨论中。

^{图1：NY Times指控ChatGPT生成内容和NY Times文章高度一致。}

这种不确定性可能导致双方在法庭争议中浪费大量资源。

因此，需要一种新的框架来公平合理地处理这些新出现的版权问题，确保在鼓励创新的同时，也保护数据提供者的合法权益。

^{图2：该工作被Ethan Mollick宣传。}

Shapley版权分享框架

该文章的框架分为两步：

第一步是评估模型在整个数据集的每一个可能子集上训练的效用。直观上，如果在某数据子集上训练的模型能够有很大的可能性生成与部署模型相似的AI生成内容（例如艺术作品），那么该数据子集的效用就会很大。

第二步是根据第一步的效用使用合作博弈论工具（即Shapley值）来确定任何训练数据版权所有者的应得份额。简而言之，如果将其数据包括在模型训练中能够增加效用，那么版权所有者的份额就会大。

^{图3：基于Shapley值的版权分配框架。}

不同数据源组合的效用

的版权，其中i∈N≔{1,2,…n}。部署的模型训练在整个数据集

上，并生成内容

。考虑一个在数据子集

上训练的反事实模型，其中S⊆N表示数据所有者的一个子集。

该反事实模型生成同一内容

的概率密度函数由

表示。对于生成模型生成的内容，一个子集的效用最容易反映在该反事实模型生成目标内容的概率。当比较不同模型时，可以通过生成目标内容的概率比例衡量它们之间的效用差距。

因此，该文章定义此模型对内容的

效用为

，这样可以直接根据

来比较两个数据集之间的效用。

这种效用提供了一种衡量数据源S在生成内容方面的责任程度的方式。如果反事实模型不太可能生成与部署模型相同的内容，其效用就小，反之亦然。

Shapley值是博弈论中的一个解决方案概念，它提供了一种根据每个玩家组合作为联盟的效用分配收益的原则性方法。它是由诺贝尔奖获得者Lloyd Shapley (此后简称为Shapley) 提出的。

Shapley （1923-2016）是美国籍数学家和经济学家，并且由于对稳定分配理论和市场设计的实践做出突出贡献，而获得了2012年的经济学诺贝尔奖 [3]。Shapley是博弈论领域的传奇，并且在其博士工作和博士论文中引入了Shapley值。

美国经济学会称Shapley是「博弈论和经济学理论的巨人」。

Shapley值的具体计算如下：

参与者i的Shapley值计算为其在所有可能联盟中边际贡献的加权平均：

Shapley值是唯一满足几个重要经济属性的支付规则，并在机器学习模型的数据估值中获得了普及。利用Shapley值，该文章提出使用SRS（Shapley Royalty Share）来计算版权分配。

SRS定义如下：

这里，

SRS提供了一种经济学方法解决生成式AI环境中的版权和收益分配问题，支持公正的数据使用和创新激励。

该文章用一个简单的例子来解释Shapley值的计算过程。在这个例子中，有三个数据所有者（A, B, C），他们共同训练一个模型，使用模型对某生成内容的log-likelihood作为效用函数。假设使用不同的数据组合训练后的模型的log-likelihood如下：

可以根据以下量来计算A的Shapley值：

数据所有者A单独贡献：v({A})=5
数据所有者A和B的贡献：v({A,B})-v({B})=15-7=8
数据所有者A和C的贡献：v({A,C})-v({C})=10-3=7
数据所有者A、B和C的贡献：v({A,B,C})-v({B,C})=20-12=8

根据Shapley值公式，可以得到

计算考虑

为了减轻这种计算负担，可以采用两种方法：

第一种是使用蒙特卡洛方法来近似计算Shapley值，这种技术特别适用于版权所有者众多的情况。
第二种方法是通过从另一个在较小数据子集上训练的模型微调来训练模型。因此，可以通过对整个训练数据只训练一次，来近似在不同数据子集上训练的模型。具体来说，对于随机抽样的版权所有者排列，可以首先在第一个版权所有者上训练，然后是第二个，一直到最后一个版权所有者。这种技术可以与著名的Shapley值排列抽样估计器一起使用。

实验结果

该文章通过实验评估了所提出框架在分配AI生成内容版税方面的有效性，重点关注创意艺术和图像领域的标志设计。

评估使用了公开可获取的数据集：WikiArt和FlickrLogo-27。

评估SRS的有效性

对于WikiArt数据集，该文章选取了四位著名艺术家的四个不相交的画作子集。一个最初在更广泛的训练图像集（不包括这四位艺术家的作品）上训练的模型，作为基础模型。通过在选定艺术家的四组画作的各种组合上进一步微调基础模型，计算SRS。