AI 机器人流量负担令维基百科管理者忧心忡忡

4个月前 科技 20观看
摘要 由于人工智能模型训练对在线内容有着无止境的需求,网络爬虫机器人已经成为维基媒体社区无法承受的负担。维基媒体基金会 (负责管理维基百科及类似社区项目) 的代表表示,自 2024 年 1 月以来,用

由于人工智能模型训练对在线内容有着无止境的需求,网络爬虫机器人已经成为维基媒体社区无法承受的负担。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

维基媒体基金会 (负责管理维基百科及类似社区项目) 的代表表示,自 2024 年 1 月以来,用于处理多媒体文件请求的带宽使用量增加了 50%。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

维基媒体基金会的 Birgit Mueller、Chris Danis 和 Giuseppe Lavagetto 在一份公开帖子中解释道:"这种增长并非来自人类读者,而主要来自自动化程序,这些程序在抓取维基共享资源中的开放许可图片,用于训练 AI 模型。"VOQ喜好网-记录每日喜好的科技时尚娱乐生活

"我们的基础设施本是为了应对重大事件期间人类用户造成的突发流量高峰而建立的,但爬虫机器人产生的流量规模前所未有,带来了日益增长的风险和成本。"VOQ喜好网-记录每日喜好的科技时尚娱乐生活

据维基媒体人士透露,维基媒体基金会数据中心处理的最耗资源内容中,至少 65% 的流量是由机器人产生的,尽管这些软件代理仅占页面访问量的约 35%。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

这是因为维基媒体基金会采用了缓存策略,将热门内容分发到全球各地的区域数据中心以提升性能。机器人访问页面时不考虑内容的热门程度,它们对冷门内容的请求意味着这些内容必须从核心数据中心获取,这会消耗更多计算资源。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

正如维基媒体人士通过引用我们最近的相关报告所指出的,在过去一年左右的时间里,行为不当的机器人一直是开源项目计算基础设施运营者的普遍抱怨。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

上个月,Git 托管服务 Sourcehut 公开批评了那些为 AI 公司疯狂抓取内容的网络爬虫。Diaspora 开发者 Dennis Schubert、维修网站 iFixit 以及 ReadTheDocs 等也都对激进的 AI 爬虫表示反对。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

大多数网站都认识到为机器人查询提供带宽是经营成本的一部分,因为这些脚本化访问通过为搜索引擎建立索引,有助于在线内容更容易被发现。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

但自从 ChatGPT 上线和生成式 AI 兴起以来,机器人变得更加肆无忌惮,大量抓取整个网站的内容用于训练 AI 模型。这些模型最终可能成为商业竞争对手,通过收费订阅或免费方式提供它们收集的聚合知识。这两种情况都可能减少对源网站的需求,或减少产生在线广告收入的搜索查询。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

维基媒体基金会在其 2025/2026 年度规划文件的"基础设施负责任使用"部分中提出了一个目标:"在请求率方面将爬虫产生的流量减少 20%,在带宽使用方面减少 30%。"VOQ喜好网-记录每日喜好的科技时尚娱乐生活

该规划文件指出,虽然维基百科及其多媒体库维基共享资源对训练机器学习模型来说是无价之宝,但"我们必须优先考虑为谁提供这些资源,我们希望优先考虑人类使用,并优先支持维基媒体项目和贡献者使用我们有限的资源。"VOQ喜好网-记录每日喜好的科技时尚娱乐生活

除了网站可靠性工程师已经采取的针对性干预措施来封禁最恶劣的机器人外,如何实现这一目标仍有待探索。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

由于对 AI 内容滥用性采集的担忧已存在一段时间,已经出现了许多用于阻止激进爬虫的工具。这些包括:数据投毒项目如 Glaze、Nightshade 和 ArtShield;以及基于网络的工具,包括 Kudurru、Nepenthes、AI Labyrinth 和 Anubis。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

去年,当网络对 AI 爬虫的不满传到主要的 AI 机器人赞助商 (如 Google、OpenAI 和 Anthropic 等) 耳中时,他们做出了一些努力,通过应用 robots.txt 指令来提供防止 AI 爬虫访问网站的方法。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

但这些存储在网站根目录供到访网络爬虫读取的指令并未得到普遍部署或遵守。而且,如果不使用通配符来覆盖所有可能性,这种可选的声明式防御协议也无法跟上仅需更改名称就能躲避封禁列表条目的步伐。网站运营者普遍反映,行为不当的机器人会将自己伪装成 Googlebot 或其他广泛容忍的爬虫,以避免被封禁。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

例如,Wikipedia.org 的 robots.txt 文件并没有封禁来自 Google、OpenAI 或 Anthropic 的 AI 爬虫。它封禁了一些因贪婪抓取整个网站而被认为有问题的机器人,但未能包括主要商业 AI 公司的条目。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

The Register 已就维基媒体基金会为何没有更全面地禁止 AI 爬虫一事向其询问。VOQ喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
联想VS中兴!专利大战谁将胜出?

联想VS中兴!专利大战谁将胜出?

【锋巢网】最近,通信圈又出了一个

11-19 107阅读
Redmi史上强旗舰!K80系列开启预约:下周发布

Redmi史上强旗舰!K80系列开启预约

11月19日

11-19 114阅读
iPhone 17 Pro Max外观曝光:灵动岛变小

iPhone 17 Pro Max外观曝光:灵动

11月19日

11-19 103阅读
苹果史上薄机型!曝iPhone 17 Air厚度仅6mm

苹果史上薄机型!曝iPhone 17 Air

11月19日

11-19 111阅读
‌努比亚Z70 Ultra定档11月21日发布‌

‌努比亚Z70 Ultra定档11月21日

11-19 122阅读
()

()

血珀,一直是很多玩琥珀的朋友的心

11-19 104阅读
NCT成员道英自2021年演出《玛丽・安东妮》之后睽违3年再度登上音乐剧舞台演出《笑面人》

NCT成员道英自2021年演出

NCT成员道英自2021年演出《玛

11-19 109阅读
腾讯的这部甜宠剧,高颜值cp让人沦陷,男二也让人心动

腾讯的这部甜宠剧,高颜值cp

2020年4月10日,甜宠剧《致我们甜甜

11-19 112阅读
关晓彤近况臃肿引热议!红发造型太显眼,网友大呼认不出

关晓彤近况臃肿引热议!红发

近日,关晓彤担任金鸡奖开奖嘉宾,在关晓

11-19 115阅读
肖战演郭靖!新《射雕》能复兴徐克的武侠梦吗 网友:肩负文化出海重任

肖战演郭靖!新《射雕》能复

11月18日消息,由

11-19 105阅读
非线性悬疑侦探新作《心灵警探》现已登陆PC、PS5和Switch

非线性悬疑侦探新作《心灵

2024年11月15日,法国·蒙彼利埃 – 发行

11-19 139阅读
2024年真实有效能赚钱的app有哪些?盘点赚钱软件app排行榜前十名!

2024年真实有效能赚钱的ap

随着移动互联网的快速发展,赚钱的方式也

11-19 354阅读
TGA:DLC、拓展包、新赛季、重制版等均可提名所有奖项

TGA:DLC、拓展包、新赛季、

今日(11月16日),TGA主创Geoff Keighley与

11-19 120阅读
饥荒超全影怪封印方法一览

饥荒超全影怪封印方法一览

在饥荒游戏的设定里面,玩家san值掉到0之

11-19 105阅读
原神缄默的求知者任务攻略|缄默的求知者具体流程

原神缄默的求知者任务攻略

缄默的求知者是原神须弥地区的魔神主线

11-19 127阅读