AI 爬虫尚未学会如何友好地与网站相处

1个月前 科技 14观看
摘要 SourceHut,一个开源代码托管服务,表示 AI 公司的网络爬虫通过过度索取数据正在拖慢其服务。"SourceHut 继续面临由于激进的 LLM 爬虫导致的服务中断,"该公司周一在其状态页面上报告。"我们正在

SourceHut,一个开源代码托管服务,表示 AI 公司的网络爬虫通过过度索取数据正在拖慢其服务。Izd喜好网-记录每日喜好的科技时尚娱乐生活

"SourceHut 继续面临由于激进的 LLM 爬虫导致的服务中断,"该公司周一在其状态页面上报告。"我们正在持续部署缓解措施。我们已经部署了多项缓解措施,目前能够控制住这个问题。然而,我们的一些缓解措施可能会影响终端用户。"Izd喜好网-记录每日喜好的科技时尚娱乐生活

SourceHut 表示已部署了 Nepenthes,这是一个用来捕获主要用于训练大语言模型的网络爬虫的陷阱,并指出这样做可能会降低用户对某些网页的访问质量。Izd喜好网-记录每日喜好的科技时尚娱乐生活

"我们已单方面屏蔽了多个云服务提供商,包括 GCP (Google Cloud) 和 (Microsoft) Azure,因为大量机器人流量来自它们的网络,"该公司表示,并建议与 SourceHut 集成的服务管理员联系安排例外情况以避免被屏蔽。Izd喜好网-记录每日喜好的科技时尚娱乐生活

这并非 SourceHut 第一次承担无限制网络请求的带宽负担。该组织在 2022 年对 Google 的 Go Module Mirror 提出了类似的反对意见,将流量超载比作拒绝服务攻击。其他开源项目如 GMP 也面临过这个问题。Izd喜好网-记录每日喜好的科技时尚娱乐生活

但在过去两年生成式 AI 热潮中,AI 爬虫表现得尤其不守规矩。OpenAI 在 2023 年 8 月宣布其网络爬虫将遵守 robots.txt 文件,这是网站提供的一组指令,用于告诉爬虫它们是否受欢迎。其他 AI 提供商也作出了类似承诺。Izd喜好网-记录每日喜好的科技时尚娱乐生活

尽管如此,滥用报告仍然继续。维修网站 iFixit 在去年 7 月提出了这个问题,当时 Anthropic 的 Claudebot 被指控过度爬取。Izd喜好网-记录每日喜好的科技时尚娱乐生活

2024 年 12 月,云托管服务 Vercel 表示 AI 爬虫已成为重要存在。在前一个月,该公司表示,OpenAI 的 GPTbot 在其网络上产生了 5.69 亿请求,而 Anthropic 的 Claude 则产生了 3.7 亿请求。在同一时期,这些 AI 爬虫的请求量约占 Googlebot (用于 Google 搜索索引) 45 亿请求的 20%。Izd喜好网-记录每日喜好的科技时尚娱乐生活

同月晚些时候,Diaspora 开发者 Dennis Schubert 也注意到 AI 机器人的激增。在一篇帖子中,他表示在过去 60 天内,他的服务器 70% 的流量来自 LLM 训练机器人。Izd喜好网-记录每日喜好的科技时尚娱乐生活

《The Register》在 1 月初询问了 Schubert 这件事。"有趣的是,在这篇帖子病毒式传播后的几天内,所有爬取都停止了,"他当时回应。"不仅是 Diaspora wiki,还有我的整个基础设施。我不完全确定为什么,但事实就是如此。"Izd喜好网-记录每日喜好的科技时尚娱乐生活

他表示,问题并没有完全消失,因为他的帖子的可见性激发了互联网上的恶作剧者创建自己的 wiki 爬虫,这些爬虫现在伪装成 OpenAI GPTbot。Izd喜好网-记录每日喜好的科技时尚娱乐生活

结果是日志分析变得更加困难。Izd喜好网-记录每日喜好的科技时尚娱乐生活

"例如,我现在在 robots.txt 中放置了一个 '金丝雀',现在它已经达到了近百万的点击量,包括使用 GPTBot 用户代理字符串的点击,"Schubert 解释道。"问题是这些请求绝对不是来自 OpenAI。OpenAI 似乎正在使用 Microsoft Azure 进行爬取。但所有这些金丝雀点击都来自 AWS IP 甚至一些美国住宅 ISP。所以这只是一些混蛋试图通过伪造他们的[用户代理]字符串来搞笑。"Izd喜好网-记录每日喜好的科技时尚娱乐生活

同时,关于 AI 爬虫行为不端的报告仍在继续,阻止它们的努力也在进行中。而且,在有人声称亚马逊的 Amazonbot 让开发者的服务器超载后,也有人报告称用户代理字符串被伪造。Izd喜好网-记录每日喜好的科技时尚娱乐生活

根据广告指标公司 DoubleVerify 的数据,由于 AI 爬虫的原因,2024 年下半年一般无效流量(GIVT,即不应计入广告浏览量的机器人)增长了 86%。Izd喜好网-记录每日喜好的科技时尚娱乐生活

该公司表示,"2024 年已知机器人印象中的 GIVT 记录中,有 16% 是由与 AI 抓取工具相关的机器人生成的,如 GPTBot、ClaudeBot 和 AppleBot。"Izd喜好网-记录每日喜好的科技时尚娱乐生活

这家广告公司还观察到,虽然一些机器人,如 Meta AI 机器人和 AppleBot,声明它们是为了收集数据来训练 AI,但其他爬虫服务于多种目的,这使得屏蔽变得更加复杂。例如,禁止 GoogleBot 访问(它既用于搜索也用于 AI)可能会降低网站的搜索可见性。Izd喜好网-记录每日喜好的科技时尚娱乐生活

为了避免这种情况,Google 在 2023 年实施了一个名为 Google-Extended 的 robots.txt 令牌,网站可以使用它来防止其网页内容被用于训练互联网巨头的 Gemini 和 Vertex AI 服务,同时仍允许这些网站被索引用于搜索。Izd喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
五环外接不住马拉松“泼天富贵”

五环外接不住马拉松“泼天富贵”

11月10日,这个寻常的周末,全国有十

11-19 67阅读
“至少需要招聘90名投资经理”

“至少需要招聘90名投资经理”

VC/PE

11-19 68阅读
LP周报丨珠海给去看展的投资人,送上了100亿大礼包

LP周报丨珠海给去看展的投资人,送

最近

11-19 65阅读
炒过Labubu,再也忘不掉日入2万的滋味

炒过Labubu,再也忘不掉日入2万的

“家

11-19 68阅读
割不动贵妇,燕窝盯上男总裁

割不动贵妇,燕窝盯上男总裁

消费

11-19 68阅读
贾乃亮帮清购物车, 网友没胆安利给自家老板!

贾乃亮帮清购物车, 网友没

今天双十二,大家剁手了吗!小编是没

11-19 62阅读
小舍得原著结局是什么?南俪和夏君山的结局好不好?

小舍得原著结局是什么?南俪

《小舍得》是一根据鲁引弓的同名

11-19 64阅读
郭晶晶霍启刚夫妇合体跑马拉松 结束后匆匆离去直言要回家带小孩

郭晶晶霍启刚夫妇合体跑马

11月17日,香港媒体报道,郭晶晶霍启刚

11-19 62阅读
炒股4年赚5千万的上海00后火了:我最近亏麻 舆论已影响自己生活

炒股4年赚5千万的上海00后

11月14日消息,近

11-19 61阅读
20岁大学生开车26天去上学引百万人围观:从中国南京开到英国杜伦

20岁大学生开车26天去上学

“我真的做到了!

11-19 65阅读
三国群英传2秘籍大全_三国群英传2秘籍代码一览

三国群英传2秘籍大全_三国

相信熟悉三国群英传系列游戏的朋友都不

11-19 69阅读
卧龙苍天陨落前期快速获取情谊酒杯的技巧分享

卧龙苍天陨落前期快速获取

情谊酒杯是卧龙苍天陨落游戏里面的特殊

11-19 63阅读
原神超越时间的虚影全流程解析|超越时间的虚影隐藏任务攻略

原神超越时间的虚影全流程

超越时间的虚影是原神须弥沙漠地区的隐

11-19 67阅读
原神5个战斗性隐藏成就攻略

原神5个战斗性隐藏成就攻

5个战斗性成就是原神须弥地区的隐藏任

11-19 68阅读
饥荒暖石制作方法详细介绍

饥荒暖石制作方法详细介绍

暖石是饥荒游戏里面的一个特殊道具,可以

11-19 135阅读