OpenAI 想要改变版权规则,但研究表明它并未等待许可就开始行动

1个月前 科技 8观看
摘要 科技出版巨头 Tim O'Reilly 声称 OpenAI 在未经许可的情况下,使用其出版社受版权保护的图书作为训练数据,并将其全部输入到其顶级 GPT-4o 模型中。这一声明出现在生成式 AI 新秀 OpenAI 正面临

科技出版巨头 Tim O'Reilly 声称 OpenAI 在未经许可的情况下,使用其出版社受版权保护的图书作为训练数据,并将其全部输入到其顶级 GPT-4o 模型中。wk7喜好网-记录每日喜好的科技时尚娱乐生活

这一声明出现在生成式 AI 新秀 OpenAI 正面临多起诉讼的背景下,这些诉讼指控其在未经适当同意或补偿的情况下使用受版权保护的材料来训练其 GPT 系列神经网络。OpenAI 否认有任何不当行为。wk7喜好网-记录每日喜好的科技时尚娱乐生活

O'Reilly (个人) 是 AI Disclosures Project 发布的一项研究 [PDF] 的三位作者之一,该研究题为"超越大语言模型预训练数据中的公开访问:OpenAI 模型中的非公开图书内容"。wk7喜好网-记录每日喜好的科技时尚娱乐生活

所谓非公开,作者指的是需要付费才能阅读的图书,这些图书不能免费公开阅读,除非你去那些非法盗版网站。wk7喜好网-记录每日喜好的科技时尚娱乐生活

研究团队着手确定 GPT-4o 是否在未经出版商许可的情况下吸收了 34 本 O'Reilly Media 的受版权保护的图书。为了探测这个为著名的 ChatGPT 提供支持的模型,他们执行了 2024 年预印本论文中描述的所谓 DE-COP 推理攻击。wk7喜好网-记录每日喜好的科技时尚娱乐生活

具体操作如下:团队向 OpenAI 的模型提出了一系列多选题。每个问题要求软件从标记为 A 到 D 的一组段落中选择一个,这个段落应该是来自特定 O'Reilly (出版社) 图书的逐字引用。其中一个选项是直接从书中摘录的,其他则是原文的机器生成释义。wk7喜好网-记录每日喜好的科技时尚娱乐生活

如果 OpenAI 模型倾向于正确回答并识别出逐字引用的段落,这就表明它很可能是用这些受版权保护的文本进行过训练。wk7喜好网-记录每日喜好的科技时尚娱乐生活

更具体地说,模型的选择被用来计算所谓的接收者操作特征曲线下面积 (AUROC) 分数,分数越高表示神经网络更有可能接受过这 34 本 O'Reilly 图书段落的训练。而接近 50% 的分数则被认为表明模型未接受过该数据的训练。wk7喜好网-记录每日喜好的科技时尚娱乐生活

对 OpenAI 的 GPT-3.5 Turbo、GPT-4o Mini 以及 GPT-4o 模型进行了 13,962 个段落的测试,结果不一。wk7喜好网-记录每日喜好的科技时尚娱乐生活

2024 年 5 月发布的 GPT-4o 得分为 82%,这强烈暗示它很可能接受过该出版商材料的训练。研究人员推测 OpenAI 可能使用了包含所有 34 本测试图书的 LibGen 数据库来训练模型。你可能记得 Meta 也被指控使用这个臭名昭著的数据集训练其 Llama 模型。wk7喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 模型预训练数据中非公开数据的比重随时间显著增加。wk7喜好网-记录每日喜好的科技时尚娱乐生活

2022 年的 GPT-3.5 模型的 AUROC 分数仅略高于 50%。wk7喜好网-记录每日喜好的科技时尚娱乐生活

研究人员断言,GPT-4o 的更高分数证明了"OpenAI 模型预训练数据中非公开数据的比重随时间显著增加。"wk7喜好网-记录每日喜好的科技时尚娱乐生活

然而,研究三人组还发现,同样在 2024 年发布、训练过程与完整 GPT-4o 模型同时结束的较小型 GPT-4o Mini 模型似乎并未接受过 O'Reilly 图书的训练。他们认为这并不表明他们的测试有缺陷,而是较小的参数数量可能影响了迷你模型"记住"文本的能力。wk7喜好网-记录每日喜好的科技时尚娱乐生活

"这些结果突显了增加企业预训练数据来源透明度的紧迫需求,以此发展 AI 内容训练的正式许可框架,"作者写道。wk7喜好网-记录每日喜好的科技时尚娱乐生活

"虽然这里关于模型访问违规的证据特定于 OpenAI 和 O'Reilly Media 的图书,但这很可能是一个系统性问题,"他们补充道。wk7喜好网-记录每日喜好的科技时尚娱乐生活

这三人组(包括 Sruly Rosenblat 和 Ilan Strauss)还警告说,如果不能充分补偿创作者的作品,可能会导致整个互联网内容质量下降(原文用了"enshittification"这个术语)。wk7喜好网-记录每日喜好的科技时尚娱乐生活

"如果 AI 公司在不公平补偿创作者的情况下从其制作的材料中提取价值,他们就有可能耗尽其 AI 系统所依赖的资源,"他们论证道。"如果不解决这个问题,未经补偿的训练数据可能导致互联网内容质量和多样性的螺旋式下降。"wk7喜好网-记录每日喜好的科技时尚娱乐生活

AI 巨头似乎知道他们不能仅仅依靠互联网爬取来获取训练模型所需的材料,因为他们已经开始与出版商和社交网络签订内容许可协议。去年,OpenAI 与 Reddit 和时代杂志签订协议,获取其档案用于训练目的。Google 也与 Reddit 达成了协议。wk7喜好网-记录每日喜好的科技时尚娱乐生活

然而最近,OpenAI 敦促美国政府放宽版权限制,以便让 AI 模型的训练变得更容易。wk7喜好网-记录每日喜好的科技时尚娱乐生活

上个月,这家超级实验室向白宫科技政策办公室提交了一封公开信,其中认为"严格的版权规则正在抑制创新和投资",如果不采取行动改变这一点,中国的模型开发者可能会超过美国公司。wk7喜好网-记录每日喜好的科技时尚娱乐生活

虽然模型开发者显然在挣扎,但律师们却过得不错。正如我们最近报道的,Thomson Reuters 在美国法院裁定初创公司 Ross Intelligence 通过使用该通讯社的 Westlaw 判例摘要来训练其 AI 系统侵犯版权后,赢得了部分即决判决。wk7喜好网-记录每日喜好的科技时尚娱乐生活

当神经网络训练者推动无限制访问时,科技界的其他人正在引入路障来保护受版权保护的材料。上个月,Cloudflare 推出了一个打击机器人的 AI,旨在让那些忽视 robots.txt 指令的爬虫程序感到痛苦。wk7喜好网-记录每日喜好的科技时尚娱乐生活

Cloudflare 的"AI 迷宫"通过将流氓爬虫机器人引诱到诱饵页面的迷宫中,浪费它们的时间和计算资源,同时保护真实内容。wk7喜好网-记录每日喜好的科技时尚娱乐生活

刚刚获得另外 400 亿美元资金的 OpenAI 没有立即回应置评请求;如果我们收到任何回复,我们会让你知道。wk7喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
‌《半条命 2》发售 20 周年,Steam 限时免费领取‌

‌《半条命 2》发售 20 周年,Stea

11-19 63阅读
小米汽车发布智能底盘预研技术,实现多种高难度动作‌

小米汽车发布智能底盘预研技术,实

11-19 64阅读
“抽象”主播为何爆火?

“抽象”主播为何爆火?

前不

11-19 71阅读
“至少需要招聘90名投资经理”

“至少需要招聘90名投资经理”

VC/PE

11-19 68阅读
中银300亿母基金加速推进

中银300亿母基金加速推进

银行

11-19 67阅读
金鸡奖这一夜,人情冷暖、江湖职位,在王骁身上体现得极尽描摹

金鸡奖这一夜,人情冷暖、江

11-19 68阅读
远离“造神”陷阱,官媒发文辟谣,揭开了53岁刀郎的“真实近况”

远离“造神”陷阱,官媒发文

11-19 66阅读
吴秀波息影一年后首现身, 吴秀波出轨门怎么回事?

吴秀波息影一年后首现身,

吴秀波原本是圈中一线的演技派男

11-19 64阅读
ENHYPEN的第二张正规专辑后续《ROMANCE:UNTOLD-daydream-》刷新了历代K-POP后续专辑中创下了最高初动销量新纪录

ENHYPEN的第二张正规专辑

18日,据Hanteo Chart榜单数

11-19 66阅读
2024东方卫视跨年首发阵容,胡歌唐嫣代表《繁花》剧组亮相

2024东方卫视跨年首发阵容

12月25日,2024东方卫视跨年首发阵

11-19 62阅读
《模拟农场25》水稻种植终于实装 专业农户称赞超真实

《模拟农场25》水稻种植终

经典写实模拟农场游戏系列最新作《模

11-19 61阅读
无畏契约新手攻略_无畏契约攻略图文大全

无畏契约新手攻略_无畏契

拳头公司最新游戏《瓦罗亚特》国服版叫

11-19 66阅读
原子之心冰箱在哪?原子之心冰箱位置详细介绍

原子之心冰箱在哪?原子之

原子之心冰箱在哪?原子之心游戏里面那台

11-19 67阅读
饥荒理智怎么恢复?饥荒超全恢复理智值方法一览

饥荒理智怎么恢复?饥荒超

饥荒理智怎么恢复?在饥荒游戏的设定中,玩

11-19 68阅读
饥荒暖石制作方法详细介绍

饥荒暖石制作方法详细介绍

暖石是饥荒游戏里面的一个特殊道具,可以

11-19 133阅读