0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

学习村上春树、史蒂芬·金盗版书,AI巨头的数据训练能否被信任?

阿尔法工场研究院 来源:极客公园 2023-08-24 16:30 次阅读

导语:AI的狂飙突进,背后站着“数据原罪”的幽灵。

为了训练大型语言模型,OpenAI、Meta、谷歌、微软等公司未经许可,从互联网上收割了数百万受版权保护的作品,在版权法的灰色地带中游弋。

如今,OpenAI目前正面临大量的官司,原告称该公司训练数据集中的大多数书籍来自盗版来源和非授权网站。一旦被判侵权,公司有可能将面临巨额罚款或重构算法的局面。这也导致,如今AI公司越来越不愿意分享AI训练数据的详细信息

但一些公开的盗版语料库已经被盯上。

近日,有人发现一个叫Books3的数据集,包含近20万本书籍,囊括村上春树、史蒂芬·金等畅销书作家的著作,这个数据集被用在了训练AI模型上,最近遭到反盗版组织的反复攻击。

版权问题这把利刃,正悬在AI公司们的头上,有摇摇欲坠之势。

Books3,AI公司的秘密

一直以来,对于AI模型的训练数据并不完全透明。今年,多名美国作家针对OpenAI提起了集体诉讼,指控其使用盗版书籍来训练其语言模型,侵犯版权并违反了多项法律。

这些作家主张的证据很简单,因为些他们从未同意OpenAI使用他们的作品,然而ChatGPT却能提供他们作品的准确摘要,这让他们认为这些信息肯定是从某个地方获取的。

根据早期GPT版本的研究论文,其训练数据集有部分来自于“两个基于互联网的书籍语料库”,它们被简单地称为“Books1”和“Books2”,这些数据集具体包含哪些作品比较含糊。

Books1似乎是bookcorpus,里面有数百本书明确声明“不得以商业或非商业目的复制和分发”。Books2则成为一个谜团,大多人猜测它们来自于“臭名昭著的影子图书馆网站”,如Library Genesis、Z-Library、Sci-Hub和Bibliotik。

其中,Z-Library成立于2008年,是互联网最大的盗版电子书库之一。2022年11月,美国政府起诉两名运营该网站的俄罗斯公民,这两人在阿根廷被逮捕。

至于GPT-4的45TB训练数据,其中包含什么内容的信息更加有限,OpenAI多年来逐渐减少了其训练数据的披露。

尽管目前没有直接证据表明OpenAI使用盗版网站来培训ChatGPT,但一些AI模型此前已经明确在盗版书籍上进行了训练,包括使用“Books3”数据集的AI模型。

EleutherAI的Pythia研究论文中提到,Pythia是使用Pile数据集进行训练的,而Pile数据集包含多个英语文本集,其中之一就是名为“Books3”的数据集。

Books3是用于训练AI的最著名的盗版书籍库之一,最初是由AI开发人员和知名开源AI支持者Shawn Presser于2020年上传。它包含37 GB的文本,包括196640本纯文本格式的书籍,并在盗版网站bibliotik上托管。

“假设你想训练一个世界级的GPT模型,就像OpenAI一样。怎么做?你没有数据。现在你可以做到,现在每个人都这样做。为你呈现‘books3’,又名‘all of bibliotik’。”Shawn Presser最早在社交平台上写道。

992f5bf4-4214-11ee-a2ef-92fbcf53809c.png

开源AI支持者Shawn Presser于2020年上传“books3”,图片来源:X

然而,反盗版组织也在采取行动,代表相关利益群体,试图限制未经授权的AI训练数据的使用。

这段时间,反盗版组织Rights Alliance向相关站点发送删除通知后,相关站点已将Books3数据集下线,导致尝试访问该数据集的用户会看到404错误。

Rights Alliance还联系了AI模型托管平台Hugging Face(该站点托管了Books3下载链接)以及EleutherAI。然而,尽管一些链接被下架,该数据集的副本并未消失,仍然在其他地方出现。

遭到针对后,Shawn Presser继续发布新的下载链接,他称,除非反对者打算让ChatGPT下线,或者通过诉讼将其告到灭亡,否则,他希望每个人都能够制作自己的ChatGPT,他还称自己“很乐意入狱10个月(海盗湾创始人服过的最高刑期),因为我推动了科学进步并赋予了你们复制ChatGPT的能力。”

“复制ChatGPT这样的模型的唯一方法,是创建像Books3这样的数据集。”Shawn Presser称:“每个营利性公司都会秘密地这样做,不会将数据集发布给公众。”

“没有Books3,我们就生活在一个只有OpenAI和其他亿万美元公司才能访问这些书籍的世界中,这意味着你不能制作自己的ChatGPT。没有人能。只有亿万美元的公司才有资源做到这一点。”

包括Meta在内的一些公司曾经使用过Books3,另外,Meta、谷歌都使用过的C4训练数据集也被诟病过,现在这些公司对其语言模型中的内容更为保密。

Meta的Llama 2增加了40%的数据,但在其白皮书中,该公司对其最新的 大语言模型使用了什么数据更为犹豫,唯一提到的是“一个新的混合的公开可用在线数据”。随着AI和版权之间的摩擦升温,公司越来越不愿意分享AI训练数据的详细信息。

万名作家联名反对

超一万名作家敦促AI公司停止使用其作品。他们不希望AI模仿其作品并学会写作,除非科技公司为此付费。

美国的作家协会已经向巨头们发了一封公开信,包括OpenAI、谷歌、Meta、Stability AI、IBM和微软公司的各大CEO,要求他们停止未经许可使用他们的作品,或对使用作品进行补偿。

其中包括《达芬奇密码》作者丹·布朗、《饥饿游戏》作者苏珊·柯林斯、《使女的故事》作者玛格丽特·阿特伍德、《自由》作者乔纳森·弗兰岑等人都签署了这封公开信,签署的作家名单长达100多页。

996e2ca8-4214-11ee-a2ef-92fbcf53809c.png

一万名作家签署公开信 ,图片来源:美国作家协会

目前,该作家协会正尝试先在不提起诉讼的情况下解决争端,因为“诉讼需要大量的资金,而且需要很长时间。”

但也有一些文学界人士愿意直接在法庭上与科技公司对抗,控诉Meta或OpenAI等使用盗版来训练他们的AI。此外,文学经纪人们正在与出版商商讨,要更新出版合同条款,禁止未经授权的AI训练用途,大部分出版商都愿意限制AI使用他们的出版物。

根据美国作家协会的调查,90%的作家认为,作家应该获得对其作品用于训练生成式人工智能的补偿,65%的作家支持建立一个集体授权制度,以补偿作者的作品被用于训练生成式AI。

此外,69%的作家认为他们的职业受到生成式AI的威胁,70%的作家认为出版商将开始使用AI来完全或部分生成书籍,取代人类作者。

除了发公开信、打官司、完善合同,出版业还在进一步寻求立法。

美国作家协会的人正在游说制定相关法律、法规和政策:在同意方面,要求在生成式人工智能中使用作家作品时获得许可;在补偿方面,为那些希望允许其作品用于生成式人工智能培训的作家提供补偿;在透明度方面,要求人工智能开发者透明披露他们用于培训其人工智能的作品。

他们也期望,生成式AI的输出使用到作家的作品时,要获得许可并建立相应的补偿机制,或者当在提示中使用作家的姓名、身份或作品标题时,也应获得许可。此外,他们要求作者、出版商、平台和市场标明AI生成的作品,并在作品很大一部分(例如超过10-20%)由AI生成时进行标识。

“我们需要确保人类创作者得到补偿,这不仅是为了创作者本身,而是为了确保我们的书籍和艺术继续反映出我们的真实和想象的经验,开拓我们的思维方式,教导我们新的思维方式,并推动我们社会的发展,而不是重复旧观念。”该作家协会在官方声明中称。

NYT VS OpenAI

除了作家和艺术家,其他类型的内容创作者,也纷纷加入起诉 AI 公司的行列,一些新闻机构批评科技公司未经授权或补偿就使用他们的内容。

比如,纽约时报正在考虑对OpenAI提起诉讼,称OpenAI的ChatGPT使用了该报的数据进行训练,而未经纽约时报许可。在过去的几个月里,OpenAI和纽约时报一直在试图达成一项有关纽约时报内容的许可协议。但谈判还未有结果,存在破裂的可能。

在最近对其服务条款政策的更改中,纽约时报明确禁止将其庞大的媒体档案用于训练“任何软件程序,包括但不限于训练机器学习或人工智能(AI)系统”的目的。该政策适用于纽约时报的文本内容、照片、视频和元数据,并明确禁止网络爬虫访问这些数据来训练专有产品

这里做一个假设,如果法院判定OpenAI等AI公司的训练行为属于侵权,OpenAI可能会被迫停止使用受版权保护的数据,并在不使用受版权保护的数据的前提下,重新构建其算法,这会引发多大的麻烦?

科技公司也试图与新闻媒体建立关系。谷歌曾试图争取像纽约时报、华盛顿邮报等新闻机构的支持,试图向他们推销AI工具。还有AI公司向新闻非营利机构提供微薄的慈善捐款。

期间,也有新闻机构不那么强硬。美联社今年就与OpenAI达成了一项为期两年的许可协议,同意将美联社的内容授权给OpenAI使用训练。作为回报,OpenAI提供了美联社访问“OpenAI的技术和产品专业知识”的权利。

悬在AI公司头上的“达摩克利斯之剑”

AI公司抓取海量互联网数据,已经导致法律问题的出现,起诉AI公司的人正在变得越来越多。

今年,美国一律所相继对OpenAI、Meta等巨头提起诉讼,指控他们未经同意、未经授权或未经补偿地占用成千上万名作家的作品,来训练他们的大语言模型。行业预计诉讼规模将很庞大,因为其他内容创作者也有可能受此启发采取法律行动。

其他生成AI公司,如AI图像生成工具Stable Diffusion背后的Stability AI,也惹上版权官司。Stable Diffusion是在LAION-5B数据集上进行训练的,数据集包含58.5亿个图像文本对,大多数都受版权保护。Getty Images正在起诉Stability AI,指控其未经授权在超过1200万张Getty Images上训练AI图像生成模型。

许多艺术家和利益相关者也表示不满,对Stability AI、DeviantArt和Midjourney等公司提起诉讼,指控他们侵犯版权、侵犯肖像权、不正当竞争和不正当获利,寻求赔偿和禁令。

微软推出的编程工具Copilot也面临集体诉讼。Copilot是GitHub与OpenAI合作开发的基于人工智能的自动编程产品,主要利用GitHub上的公共代码库,在数十亿行公开可用的代码上进行了训练,能通过简单提示替用户编写代码。开源程序员和律师指控他们从事开源软件盗版,被告包括GitHub、微软及其人工智能技术合作伙伴OpenAI。

如果要打官司,AI公司可能会援引所谓的“公平使用原则”来为其辩护,该原则允许在某些情况下无需许可即可使用作品,包括教学、批评、研究和新闻报道。问题是,AI训练是否适用“公平使用原则”。

几年前,美国作家协会也曾起诉谷歌,理由是谷歌未购买其图书馆项目中收录的书籍,当时,联邦上诉法院判决认为,谷歌为其图书馆项目扫描了数百万本书的数字副本是合法的“公平使用”,而非侵犯版权。关键在于,谷歌的数字图书馆并没有为这些书创造出“重大市场替代品”,这意味着它与原作并无竞争关系。

目前,各国政府正努力将生成式AI纳入立法范畴。欧盟也在制定一项AI法案,该法案将迫使公司将训练模型信息透明化。上半年,美国作家协会已两次访问国会山,讨论生成式AI和作家保护措施的问题,涉及的问题包括集体授权和版权保护、反垄断豁免权以及AI标签和透明度要求。

“除非国会采取干预措施,以确保生成式人工智能技术的开发和使用受到监管,否则驱动原创表达并丰富我们文化交流的重要版权激励将变得毫无意义。”该作家协会在官方声明中称。

从现有舆论看,虽然一些人担心训练AI可能会引发版权问题,但也有人认为,OpenAI等AI公司不需要特别的许可协议来训练模型,版权担忧不利于AI发展进步;有人则认为,取得作者的同意是至关重要的,创作者应该有拒绝的权利,或者,AI公司至少应该购买训练数据的书籍。

技术正在做人类历史上从未发生过的事情,AI训练数据方面的开源精神应该有底线吗?未来的法律是掣肘还是保护?如何平衡AI的发展与尊重人类创作权益,可能是和“通用人工智能何时到来”同样重要的问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1777

    文章

    43920

    浏览量

    230839
  • 模型
    +关注

    关注

    1

    文章

    2709

    浏览量

    47723
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24366

原文标题:学习村上春树、史蒂芬·金盗版书,AI巨头的数据训练能否被信任?

文章出处:【微信号:alpworks,微信公众号:阿尔法工场研究院】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI推理,和训练有什么不同?

    如果要用一句话概括AI训练和推理的不同之处,我觉得用“台上一分钟,台下十年功”最为贴切。话说小明已经和心目中的女神交往数年,在邀约女神出门这件事上积累了大量的经验数据,但却依然捉摸不透其中的玄机
    的头像 发表于 04-29 08:06 47次阅读
    <b class='flag-5'>AI</b>推理,和<b class='flag-5'>训练</b>有什么不同?

    AI训练,为什么需要GPU?

    随着由ChatGPT引发的人工智能热潮,GPU成为了AI大模型训练平台的基石,甚至是决定性的算力底座。为什么GPU能力压CPU,成为炙手可热的主角呢?要回答这个问题,首先需要了解当前人工智能(AI
    的头像 发表于 04-24 08:05 715次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>训练</b>,为什么需要GPU?

    信任为基,围绕AI,美光推动存储革命

    为基础的存储革命。   在这场革命中,美光不仅提供高性能的存储产品,更是在AI时代构建起信任的基石,确保数据的安全、可靠和高效流通。在CFMS 2024上,美光企业副总裁暨存储部门总经理Jeremy Werner分享了美光的愿景
    发表于 04-01 09:15 538次阅读
    以<b class='flag-5'>信任</b>为基,围绕<b class='flag-5'>AI</b>,美光推动存储革命

    DocuSign拟用用户合同数据训练AI,引争议

    据了解,DocuSign计划借助微软Azure上的OpenAI工具,如GPT技术,以训练其所谓的“撰写协议”模型,并且从用户提供的大量数据中,训练出专属的人工智能(AI)模型,但这部分
    的头像 发表于 03-04 15:45 158次阅读

    如何使用Python进行图像识别的自动学习自动训练

    图像识别的自动学习和自动训练。 首先,让我们了解一下图像识别的基本概念。图像识别是指通过计算机程序识别和理解图像内容的过程。自动学习和自动训练是指计算机通过观察和
    的头像 发表于 01-12 16:06 224次阅读

    深度学习如何训练出好的模型

    算法工程、数据派THU深度学习在近年来得到了广泛的应用,从图像识别、语音识别到自然语言处理等领域都有了卓越的表现。但是,要训练出一个高效准确的深度学习模型并不容易。不仅需要有高质量的
    的头像 发表于 12-07 12:38 667次阅读
    深度<b class='flag-5'>学习</b>如何<b class='flag-5'>训练</b>出好的模型

    【KV260视觉入门套件试用体验】Vitis AI 通过迁移学习训练自定义模型

    【Vitis AI】 Vitis AI 通过迁移学习训练自定义模型 测评计划: 一、开箱报告,KV260通过网线共享PC网络 二、Zynq超强辅助-PYNQ配置,并使用XVC(Xili
    发表于 10-16 15:03

    视觉深度学习迁移学习训练框架Torchvision介绍

    Torchvision是基于Pytorch的视觉深度学习迁移学习训练框架,当前支持的图像分类、对象检测、实例分割、语义分割、姿态评估模型的迁移学习
    的头像 发表于 09-22 09:49 456次阅读
    视觉深度<b class='flag-5'>学习</b>迁移<b class='flag-5'>学习</b><b class='flag-5'>训练</b>框架Torchvision介绍

    基于机器学习的车位状态预测方法

    本发明公开一种基于机器学习的车位状态预测方法,基于历史数据,建立回归决策模型进而构建改进决策模型,对每个区域的停车率进行预测,基于停车率和用户喜好度为用户推荐相应的停车区域,获取相
    发表于 09-21 07:24

    深度学习框架区分训练还是推理吗

    深度学习框架区分训练还是推理吗 深度学习框架是一个非常重要的技术,它们能够加速深度学习的开发与部署过程。在深度学习中,我们通常需要进行两个关
    的头像 发表于 08-17 16:03 1037次阅读

    如何加速深度学习AI应用

    深度学习 AI 应用是解锁生产力新时代的关键,人类的创造力能够通过机器得到提高与增强。我们致力于将大量培训数据和海量数学运算用于全面训练每个神经网络。
    发表于 08-04 11:29 411次阅读

    训练好的ai模型导入cubemx不成功怎么解决?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 08-04 09:16

    Ai 部署的临界考虑电子指南

    虽然GPU解决方案对训练AI部署需要更多。 预计到2020年代中期,人工智能行业将增长到200亿美元,其中大部分增长是人工智能推理。英特尔Xeon可扩展处理器约占运行AI推理的处理器单元的70
    发表于 08-04 07:25

    NVIDIA Omniverse让AI训练变得更加简单易用

    Rendered.ai 将 NVIDIA Omniverse Replicator 集成到其合成数据生成平台,使 AI 训练变得更加简单易用。
    的头像 发表于 07-24 09:14 842次阅读
    NVIDIA Omniverse让<b class='flag-5'>AI</b><b class='flag-5'>训练</b>变得更加简单易用

    什么是预训练AI模型?

    训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用,也可以根据不同行业的应用需求进行自定义。
    的头像 发表于 05-25 17:10 641次阅读