Adobe 被诉用盗版书籍训练 AI 模型,SlimLM 陷版权风波
俄勒冈州作家伊丽莎白·莱昂(Elizabeth Lyon)对Adobe提起集体诉讼,指控其在训练名为 SlimLM 的小型语言模型时,使用了包含其盗版作品在内的非法数据集。 SlimLM是Adobe推出的一系列轻量化语言模型,专为移动设备上的文档辅助任务(如摘要、改写、问答)优化。Adobe官方称,该模型基于 SlimPajama-627B 数据集进行预训练——这是由AI芯片公司Cerebras于 2023 年 6 月发布的开源、去重、多来源语料库。 然而,莱昂的诉状指出,SlimPajama实际上是 RedPajama 数据集的衍生版本,而RedPajama又直接复制了臭名昭著的 Books3 数据集。Books3 包含约19. 1 万本受版权保护的图书,长期被指大量收录自网络盗版资源(如The Bibliotik)。 诉状强调:“SlimPajama因系RedPajama的衍生复制,故包含Books3 中的内容,其中包括原告及集体成员的受版权保护作品。” 莱昂本人是多本非虚构写作指南的作者,其作品据称就在被非法用于训练的数据之列。她指控Adobe在未获授权、未署名、未支付任何费用的...

