Adobe 被诉用盗版书籍训练 AI 模型,SlimLM 陷版权风波
俄勒冈州作家伊丽莎白·莱昂(Elizabeth Lyon)对Adobe提起集体诉讼,指控其在训练名为 SlimLM 的小型语言模型时,使用了包含其盗版作品在内的非法数据集。
SlimLM是Adobe推出的一系列轻量化语言模型,专为移动设备上的文档辅助任务(如摘要、改写、问答)优化。Adobe官方称,该模型基于 SlimPajama-627B 数据集进行预训练——这是由AI芯片公司Cerebras于 2023 年 6 月发布的开源、去重、多来源语料库。
然而,莱昂的诉状指出,SlimPajama实际上是 RedPajama 数据集的衍生版本,而RedPajama又直接复制了臭名昭著的 Books3 数据集。Books3 包含约19. 1 万本受版权保护的图书,长期被指大量收录自网络盗版资源(如The Bibliotik)。
诉状强调:“SlimPajama因系RedPajama的衍生复制,故包含Books3 中的内容,其中包括原告及集体成员的受版权保护作品。”
莱昂本人是多本非虚构写作指南的作者,其作品据称就在被非法用于训练的数据之列。她指控Adobe在未获授权、未署名、未支付任何费用的情况下,将其文字用于商业AI产品的开发,侵犯了版权法赋予作者的专有权利。
这并非孤立事件。Books3 和RedPajama已成为AI行业版权诉讼的“高频词”:
- 2024 年 9 月,Apple被诉使用Books3 训练其Apple Intelligence;
- 同月,Anthropic就类似指控与作家群体达成 15 亿美元和解,被视为AI版权案的里程碑;
- 10 月,Salesforce也被指依赖RedPajama训练其AI系统。
