研究人员指出 OpenAI 在付费墙后的 O'Reilly 图书上训练 AI 模型

1个月前 科技 6观看
摘要 OpenAI 被多方指控在未经许可的情况下使用受版权保护的内容来训练其 AI。现在,一个 AI 监督组织发布的新研究报告提出了一个严重的指控,称该公司越来越依赖未获授权的非公开图书来训练更复杂的

OpenAI 被多方指控在未经许可的情况下使用受版权保护的内容来训练其 AI。现在,一个 AI 监督组织发布的新研究报告提出了一个严重的指控,称该公司越来越依赖未获授权的非公开图书来训练更复杂的 AI 模型。ekh喜好网-记录每日喜好的科技时尚娱乐生活

AI 模型本质上是复杂的预测引擎。通过大量数据的训练(包括书籍、电影、电视节目等),它们学习模式并找到从简单提示中推断的新方法。当模型"撰写"希腊悲剧的论文或"绘制" Ghibli 风格的图像时,它只是从其庞大的知识库中进行近似提取,而不是创造出全新的内容。ekh喜好网-记录每日喜好的科技时尚娱乐生活

虽然包括 OpenAI 在内的一些 AI 实验室已开始采用 AI 生成的数据来训练 AI(因为他们已经用尽了真实世界的数据源,主要是公共网络),但很少有实验室完全放弃使用真实世界的数据。这可能是因为仅使用合成数据进行训练会带来风险,比如可能降低模型的性能。ekh喜好网-记录每日喜好的科技时尚娱乐生活

这份新报告来自 AI Disclosures Project,这是一个由媒体大亨 Tim O'Reilly 和经济学家 Ilan Strauss 于 2024 年共同创立的非营利组织。报告得出结论,OpenAI 可能在 O'Reilly Media 的付费墙后的图书上训练了其 GPT-4o 模型。(O'Reilly 是 O'Reilly Media 的 CEO。)ekh喜好网-记录每日喜好的科技时尚娱乐生活

在 ChatGPT 中,GPT-4o 是默认模型。该报告指出,O'Reilly 与 OpenAI 之间并没有授权协议。ekh喜好网-记录每日喜好的科技时尚娱乐生活

报告的作者写道:"OpenAI 最新且能力更强的模型 GPT-4o,相比其早期模型 GPT-3.5 Turbo,展现出对付费墙后 O'Reilly 图书内容的强大识别能力...相比之下,GPT-3.5 Turbo 对公开可访问的 O'Reilly 图书样本表现出更高的相对识别能力。"ekh喜好网-记录每日喜好的科技时尚娱乐生活

该报告使用了一种称为 DE-COP 的方法,这种方法首次在 2024 年的一篇学术论文中提出,旨在检测语言模型训练数据中的版权内容。这种方法也被称为"成员推理攻击",它测试模型是否能可靠地区分人类创作的文本和同一文本的 AI 生成改写版本。如果模型能做到这一点,就表明它可能在训练数据中预先接触过这些文本。ekh喜好网-记录每日喜好的科技时尚娱乐生活

报告的合著者 - O'Reilly、Strauss 和 AI 研究员 Sruly Rosenblat 表示,他们探测了 GPT-4o、GPT-3.5 Turbo 和其他 OpenAI 模型对训练截止日期前后发布的 O'Reilly Media 图书的了解程度。他们使用了来自 34 本 O'Reilly 图书的 13,962 个段落摘录,以估计特定摘录被包含在模型训练数据集中的概率。ekh喜好网-记录每日喜好的科技时尚娱乐生活

根据报告结果,GPT-4o 对付费墙后的 O'Reilly 图书内容的"识别"能力远超 OpenAI 的旧模型,包括 GPT-3.5 Turbo。作者表示,即使考虑到可能的混淆因素,如新模型在判断文本是否为人类创作方面的能力提升,这一结论依然成立。ekh喜好网-记录每日喜好的科技时尚娱乐生活

作者写道:"GPT-4o [很可能] 识别并已预先了解了许多在其训练截止日期之前发布的非公开 O'Reilly 图书。"ekh喜好网-记录每日喜好的科技时尚娱乐生活

作者谨慎地指出,这并非确凿证据。他们承认他们的实验方法并非完美无缺,而且 OpenAI 可能是从用户复制粘贴到 ChatGPT 的内容中收集了这些付费墙后的图书摘录。ekh喜好网-记录每日喜好的科技时尚娱乐生活

使情况更加复杂的是,作者没有评估 OpenAI 最新的模型系列,包括 GPT-4.5 和"推理"模型如 o3-mini 和 o1。这些模型可能没有使用付费墙后的 O'Reilly 图书数据进行训练,或使用的数据量少于 GPT-4o。ekh喜好网-记录每日喜好的科技时尚娱乐生活

话虽如此,OpenAI 一直在寻求更高质量的训练数据这一点并不是秘密,该公司一直提倡放宽使用版权数据开发模型的限制。公司甚至雇佣记者来帮助微调其模型的输出。这是整个行业的一个趋势:AI 公司招募科学和物理等领域的专家,让这些专家将他们的知识输入到 AI 系统中。ekh喜好网-记录每日喜好的科技时尚娱乐生活

值得注意的是,OpenAI 确实为部分训练数据付费。该公司与新闻出版商、社交网络、图片媒体库等机构都有授权协议。OpenAI 还提供选择退出机制(尽管并不完善),允许版权所有者标记他们不希望公司用于训练目的的内容。ekh喜好网-记录每日喜好的科技时尚娱乐生活

然而,当 OpenAI 在美国法院就其训练数据做法和版权法处理方式应对多起诉讼时,这份 O'Reilly 报告无疑让其处境更加尴尬。ekh喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 没有回应置评请求。ekh喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
稳定7100MB/s!雷克沙ARES 8TB SSD评测:机箱里再也没有机械硬盘的位置了

稳定7100MB/s!雷克沙ARES 8TB SSD

一、前言:

11-19 68阅读
蘸拖鞋都好吃!六婆辣椒面官方狂促速囤:40包6.9元

蘸拖鞋都好吃!六婆辣椒面官方狂促

天猫【六

11-19 65阅读
中国联通:6G 70%技术与5G重合 将有6大典型应用

中国联通:6G 70%技术与5G重合 将有

时至今日,6

11-19 65阅读
“至少需要招聘90名投资经理”

“至少需要招聘90名投资经理”

VC/PE

11-19 68阅读
年入数百亿的米哈游,也开始“省钱”了

年入数百亿的米哈游,也开始“省钱

米哈

11-19 63阅读
金鸡奖这一夜,人情冷暖、江湖职位,在王骁身上体现得极尽描摹

金鸡奖这一夜,人情冷暖、江

11-19 68阅读
人民日报评代拍乱象, 代拍为何惹众怒?

人民日报评代拍乱象, 代拍

近期除了家暴一词被大家热议,代拍

11-19 66阅读
斗鱼第一土豪落天神身份曝光, 花钱如流水居然是这样的身份!

斗鱼第一土豪落天神身份曝

如果很早就看直播的网友,想必都听

11-19 62阅读
2024花田音乐节燃爆金乡卫城,重磅阵容嗨唱两天狂欢不停

2024花田音乐节燃爆金乡卫

  11月23至24日,金乡卫城·花

11-19 69阅读
微念称与李子柒的案件已完全和解:账号其本人运营 品牌由微念经营

微念称与李子柒的案件已完

11月13日消息,日

11-19 63阅读
传索尼正在研究如何在PS5主机上原生运行PS3游戏

传索尼正在研究如何在PS5

据最新传闻,索尼目前正在致力于让PS3游

11-19 68阅读
遥远未来的末世乌托邦,2D动作解谜游戏《默途》移动版即将上线

遥远未来的末世乌托邦,2D动

《默途》是由梦匠工作室开发的一款2D

11-19 67阅读
文明6秘籍大全_文明6秘籍代码及使用方法一览

文明6秘籍大全_文明6秘籍

文明6游戏支持秘籍功能,玩家可以通过在

11-19 67阅读
原子之心电脉冲枪在哪?电脉冲枪获取方法分享

原子之心电脉冲枪在哪?电

原子之心电脉冲枪在哪?电脉冲枪是原子之

11-19 68阅读
原子之心展览园地下区域死者位置介绍

原子之心展览园地下区域死

原子之心游戏里面玩家可以与所有死者对

11-19 66阅读