爱思唯尔把Meta告了:拿Sci-Hub盗版论文训练大模型
西风 发自 凹非寺量子位 | 公众号 QbitAIAI版权大战再度升级了。手握《柳叶刀》《细胞》等顶刊掌控全球海量核心科研成果的学术出版巨头爱思唯尔Elsevier正式入局加入集体诉讼团硬刚Meta——控诉Meta非法爬取、复制受版权保护的科研论文用于训练自家大模型Llama。在此之前站出来起诉AI侵权的多是作家、媒体机构。此番是头一回顶级学术出版商下场打响版权维权之战。美国出版商协会也在声明中给定调这是主流出版集团首次发起针对AI企业的诉讼Meta明目张胆侵犯版权出版商们将还原全部事实。有意思的是这场官司明面上矛头对准Meta可证据一摊开与爱思唯尔纠缠十多年的两大盗版学术库——LibGen、Sci-Hub再度被摆上台面。只能说Meta树大钱多比追责盗版平台靠谱多了。多方原告组团上阵指控Meta侵权这场诉讼于5月5日在纽约南区法院正式提交被告直指Meta及其CEO扎克伯格。而原告不止爱思唯尔一家还包括法国第一大出版集团阿歇特、源自英国的百年全球综合性出版集团麦克米伦以及美国小说家、执业律师Scott Turow等。出版商方核心指控非常明确Meta为训练Llama大语言模型未经任何授权大量获取、复制、盗用受版权保护的学术论文与出版物内容。具体来看诉状里指出Meta训练Llama主要靠两大“不清白”的数据来源第一Common Crawl通用爬虫数据集。这份数据集通过全网抓取生成囊括数十亿网页内容。原告方称里面大概率混进了未经授权的版权内容比如付费期刊的摘要和全文。第二两大知名盗版学术平台LibGen、Sci-Hub。这两个网站常年免费传播海量付费论文、教材与学术著作长期深陷全球版权诉讼。出版商指控Meta通过磁力下载、文件共享等方式从这些网站盗用学术资源。值得一提的是本案很多证据还是从去年那桩“作家告Meta”Kadrey v. Meta案里流出来的内部员工邮件。面对诉讼Meta发言人表示将全力积极应诉。Meta这边抗辩逻辑也十分清晰打出了一张王牌合理使用Fair Use。据了解根据美国版权法“合理使用”属于版权豁免情形允许在特定条件下无需授权使用版权内容。Meta发言人称“AI正为个人与企业带来颠覆性创新、提升生产效率与创作活力已有法院判例认定使用版权内容训练AI可构成合理使用。”不得不说这几年AI圈的版权官司确实不少。像《纽约时报》、一堆知名作家都起诉过AI公司有些案子已经和解了。但整体而言利用版权作品训练大语言模型是否合法目前仍未形成明确司法判例。至于这次后续怎么发展……咱们先搬好小板凳再蹲一波。One More Thing“合理使用”这张牌之前确实被成功使用过。去年美国法院裁决允许Claude背后公司Anthropic在未经作者许可的情况下使用合法购买的已出版书籍训练AI。法院参考了美国版权法中的“合理使用”Fair Use原则认为AI训练属于“转化性使用”Transformative Use即对原作品的新用途未取代原作市场且有利于技术创新和公共利益。这也是美国法院首次认可AI公司对书籍的使用权。就在最近有网友称Anthropic正在大批量购入古籍扫描收录内容后就直接销毁原书。这一说法也引发了不少网友关注。参考链接[1]https://www.nature.com/articles/d41586-026-01481-0[2]https://x.com/sivori/status/2052567312088047754一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完—中国AIGC产业峰会最新嘉宾阵容来了从AI最新架构到应用生态从AI音乐、AI漫剧、AI浏览器再到世界模型、AI硬件... 这一次我们希望聚齐AI赛道的实战派百度、智谱、昆仑万维、模思智能、蚂蚁灵波都会来。了解详情5月20日北京·金茂万丽酒店所有人马上AI起来 报名参会一键关注 点亮星标