【量子位 2025年12月24日讯】继Anthropic 15亿美元版权和解案后,AI训练数据版权争议再掀波澜。12月23日,以揭露Theranos欺诈丑闻闻名的调查记者、《坏血》作者约翰·卡雷鲁(John Carreyrou)牵头,联合多位作家向美国加州联邦法院提起诉讼,将Anthropic、谷歌、OpenAI、Meta、xAI及Perplexity六大AI公司告上法庭,指控其长期使用盗版书籍训练大语言模型(LLM),涉嫌大规模版权侵权。
此次诉讼的核心诉求并非“小额赔偿”,而是要求法院认定AI公司“使用盗版内容训练模型”的行为本身违法,并追究其商业获利与侵权行为的直接关联——这与此前Anthropic通过集体诉讼和解“低成本平息争议”的模式形成鲜明对抗,被业内视为“创作者对抗AI数据掠夺的关键一战”。
诉讼焦点:拒接“3000美元和解费”,作家要的是“侵权追责”
此次诉讼的导火索,源于2025年8月Anthropic与作家群体达成的15亿美元版权和解案。当时,参与集体诉讼的作家每人每部侵权作品仅能获得约3000美元赔偿,不足美国《版权法》法定最高赔偿额(15万美元/部)的2%。这一“低价和解”引发大量作家不满,卡雷鲁便是其中最核心的反对者。
“AI公司不能用‘清仓价’轻易抹去成千上万起高价值侵权索赔,回避其蓄意侵权的真实代价。”诉状中明确指出,Anthropic等公司通过盗版书籍训练的LLM已创造数十亿美元营收,但对创作者的补偿却“微不足道”,此前的和解协议“只服务于AI巨头利益,未真正维护创作者权益”。
值得注意的是,此次诉讼并未采用“集体诉讼”形式。原告方律师团队表示,集体诉讼模式下,AI公司只需与代表律师协商便能一次性平息所有争议,本质是“用金钱掩盖侵权事实”;而此次选择单独诉讼,旨在通过个案明确“AI训练使用盗版内容是否合法”的核心法律问题,为后续创作者维权树立标杆。
卡雷鲁在接受采访时强调:“偷窃书籍来构建AI技术是这些公司的‘原罪’。此前的和解协议只是权宜之计,我们要的不是一笔小钱,而是让AI行业明白,创作者的知识产权必须得到尊重,未经许可的掠夺式训练不能成为行业常态。”
原告背景:从“揭露硅谷骗局”到“守护创作权益”,卡雷鲁的“打假基因”
作为此次诉讼的领衔者,约翰·卡雷鲁的履历自带“对抗行业乱象”的标签——他不仅是《纽约时报》资深调查记者,更因2015年揭露Theranos血液检测骗局闻名全球。
2015年,卡雷鲁在《华尔街日报》发表系列报道,直指硅谷初创公司Theranos声称的“指尖滴血完成百项检测”技术存在严重欺诈,最终促使这家估值曾达90亿美元的公司破产,创始人伊丽莎白·霍尔姆斯(Elizabeth Holmes)被判刑。基于此调查的著作《坏血:硅谷创业骗局》(Bad Blood: Secrets and Lies in a Silicon Valley Startup)全球销量超百万册,斩获多项商业书籍大奖,更被改编为纪录片。
这种“深挖真相、对抗强权”的职业底色,让卡雷鲁对AI公司“掠夺式使用创作者内容”的行为尤为敏感。他在诉状中提到,自己的多部作品(包括《坏血》)被未经授权收录进AI公司的训练数据集,这些内容成为LLM生成“商业欺诈分析”“硅谷创业案例”等内容的核心素材,但他从未获得任何授权或补偿。
“当年揭露Theranos,是因为其用虚假技术欺骗投资者与消费者;如今起诉AI公司,是因为它们用偷来的创作成果构建商业帝国——本质都是对‘诚信与权益’的践踏。”卡雷鲁在诉讼声明中表示。
行业影响:AI数据合规再遇“生死考”,法律争议待解
此次诉讼将再次聚焦AI行业长期存在的“数据合规”痛点。目前,全球范围内关于“AI训练使用受版权保护内容是否需授权”的法律界定仍不清晰:
-
支持AI公司的一方认为,“数据用于训练”属于“合理使用”(Fair Use),类似人类阅读书籍后产生创作灵感,且AI模型并未直接复制原文,而是学习语言规律;
-
创作者与版权方则主张,LLM通过海量盗版内容训练获得商业价值,本质是“将他人智力成果转化为自身盈利工具”,若无需授权与补偿,将彻底摧毁创作生态。
此前,美国联邦地区法院法官威廉·阿尔苏普(William Alsup)在Anthropic集体诉讼听证会上曾暗示,“AI公司使用盗版内容训练的行为本身可能不违法,但获取盗版内容的过程违法”——这一模糊表述为行业留下了“灰色空间”。而此次诉讼的核心目标,正是推动法院明确“使用盗版内容训练模型”是否构成独立侵权,而非仅追究“获取盗版”的责任。
业内律师分析,若此次诉讼胜诉,将可能迫使AI公司重新审查训练数据集,要么投入巨资获取正版授权,要么调整模型训练方式,这将大幅增加AI研发成本;反之,若法院维持“合理使用”认定,则可能进一步加剧“AI数据掠夺”,导致更多创作者权益受损。
目前,六大被告AI公司中,仅有Perplexity回应称“将积极应诉,并坚信自身训练数据合规”,其余公司均未发表公开评论。案件预计将在2026年上半年进入庭审阶段,其结果或将深刻影响全球AI行业的发展路径。
延伸背景:xAI首次被列为被告,AI新贵也难逃“数据争议”
此次诉讼中,马斯克旗下的xAI成为首个被起诉的“新生代AI公司”,打破了“新兴AI企业数据合规压力较小”的行业认知。诉状指出,xAI的大模型Grok在训练过程中,同样收录了大量未经授权的书籍内容,包括卡雷鲁的《坏血》及其他原告的作品,且未采取任何版权过滤措施。
这一细节表明,数据侵权问题并非“老牌AI公司专属”,而是整个行业的共性挑战。随着AI赛道竞争加剧,无论是巨头还是新贵,都面临“训练数据需求量大”与“正版授权成本高”的矛盾,部分公司选择“铤而走险”使用盗版内容,最终引发法律争议。
“AI行业不能再以‘技术创新’为借口回避版权问题。”原告方律师凯尔·罗奇(Kyle Roche)表示,“无论是谷歌、OpenAI这样的行业龙头,还是xAI这样的新玩家,都必须遵守知识产权法律。此次诉讼将向整个行业传递明确信号:创作者的权益不容侵犯,合规训练才是AI发展的长久之道。”
从揭露硅谷医疗骗局,到牵头对抗AI数据掠夺,卡雷鲁的此次行动,不仅是个人维权,更代表了众多创作者对AI行业“无序扩张”的反抗。这场诉讼的结果,或将成为AI技术与知识产权保护平衡的“分水岭”——是AI公司继续“低成本掠夺数据”,还是创作者迎来“权益守护的春天”,2026年的庭审将给出关键答案。