Anubis守护网站抵御大语言模型爬虫攻击

1个月前 科技 8观看
摘要 Anubis是一种类似CAPTCHA的测试,但作用相反:它不是验证访问者是人类,而是旨在让网络爬虫对那些试图喂养饥饿的大语言模型机器人的公司来说变得成本高昂。这是对一个日益严重问题的巧妙回应:越来

Anubis是一种类似CAPTCHA的测试,但作用相反:它不是验证访问者是人类,而是旨在让网络爬虫对那些试图喂养饥饿的大语言模型机器人的公司来说变得成本高昂。tqW喜好网-记录每日喜好的科技时尚娱乐生活

这是对一个日益严重问题的巧妙回应:越来越多的公司希望销售由大语言模型驱动的"AI"机器人。大语言模型基于"语料库"构建——一个包含大量人类编写文本的庞大数据库。为了持续更新模型,大语言模型的运营者需要为其"语料库"获取新鲜的文本内容。tqW喜好网-记录每日喜好的科技时尚娱乐生活

Anubis以古埃及胡狼头神命名,这位神灵负责称量死者的心脏以判断其品格。为了保护网站免受AI爬虫侵扰,Anubis软件通过所谓的工作量证明挑战来衡量爬虫的计算意愿。tqW喜好网-记录每日喜好的科技时尚娱乐生活

人类访问者只会看到一个胡狼风格的动漫女孩形象片刻,同时浏览器解决一个密码学问题。但对于运营大规模机器人农场的公司来说,这意味着整个数据中心的风扇全速运转的昂贵成本。理论上,当扫描网站变得如此密集时,爬虫会退缩。tqW喜好网-记录每日喜好的科技时尚娱乐生活

现有的阻止搜索引擎爬取网站的措施包括robots.txt文件。但正如Google的解释所说,仅有robots.txt文件并不能阻止网络爬虫爬取网站。这是一个荣誉系统,这就是它的弱点。如果运营爬虫的组织选择不遵守它——或者不尊重你的知识产权——那么他们可以随意获取任何想要的内容,频率不限。tqW喜好网-记录每日喜好的科技时尚娱乐生活

重复访问是一个大问题。反复抓取基本相同的材料比存储本地副本更便宜——或者如Drew DeVault所说,请停止将你的成本直接转嫁给我。tqW喜好网-记录每日喜好的科技时尚娱乐生活

一年前这已经是一个严重问题,当时The Register报道了ClaudeBot一天内爬取一百万次。一年后,尽管签署了协议,Reddit仍因此起诉Anthropic。这不仅影响论坛等网站:LWN也面临这个问题。技术手册发布工具ReadTheDocs报告称,某个爬虫一个月内下载了73TB数据。tqW喜好网-记录每日喜好的科技时尚娱乐生活

底层技术并不新颖。工作量证明作为反垃圾邮件措施的概念可以追溯到1997年的Hashcash。在Hacker News的评论中,Iaso也给出了应有的致谢:tqW喜好网-记录每日喜好的科技时尚娱乐生活

"我受到Hashcash的启发,它是用于电子邮件的工作量证明,用来阻止垃圾邮件。令我惊讶的是,它在我的git服务器上运行得很好,所以我将其作为开源项目发布。现在它已经成为独立项目,保护着像GNOME的GitLab这样的大型网站。"tqW喜好网-记录每日喜好的科技时尚娱乐生活

其他评论详细说明了工作量证明的实现方式,我们特别欣赏这个注释:tqW喜好网-记录每日喜好的科技时尚娱乐生活

"第二个原因是Chrome/Firefox/Safari的JIT和webcrypto本机C++的组合可能比我自己编写的代码更快。有趣的是,支持这一点意味着它可以在非常老旧/性能较弱的PC上运行,比如PowerMac G5(由于大端序,它不支持WebAssembly)。"tqW喜好网-记录每日喜好的科技时尚娱乐生活

Iaso表示Anubis确实有效,该帖子包含了一个令人印象深刻的用户列表,从UNESCO到WINE、GNOME和Enlightenment项目。其他人也表示赞同。上面提到的Drew DeVault现在使用它来保护他的SourceHut代码库。tqW喜好网-记录每日喜好的科技时尚娱乐生活

还有其他类似措施。Nepenthes是一个大语言模型机器人陷阱:它生成无数充满链接的无意义文本页面,困住机器人爬虫。Quixotic和Linkmaze工具的工作原理类似,而TollBit是商业化产品。tqW喜好网-记录每日喜好的科技时尚娱乐生活

一些观察者建议使用浏览器执行的工作来挖掘加密货币,但这可能被视为恶意行为。Coinhive近十年前尝试过这种做法,结果被封禁。在这里,我们尊重Iaso的回应:tqW喜好网-记录每日喜好的科技时尚娱乐生活

"这是为了浪费CPU周期。我不想碰加密货币,哪怕用二十英尺长的杆子。我意识到这样做会错失赚钱机会,但我不想疏远我想要保护的那些社区。"tqW喜好网-记录每日喜好的科技时尚娱乐生活

其他人,比如Reg FOSS部门最喜欢的互联网专家Jamie Zawinski,则不太认同:tqW喜好网-记录每日喜好的科技时尚娱乐生活

"我对可爱的kawaii废话以及某些可能的加密货币胡说八道介入我和读者之间100%过敏,所以统统滚蛋。"tqW喜好网-记录每日喜好的科技时尚娱乐生活

他的预测比较悲观:tqW喜好网-记录每日喜好的科技时尚娱乐生活

"工作量证明本质上是通胀性的、浪费的废话,永远不会成功,因为攻击者总是能够在支出上超过你。"tqW喜好网-记录每日喜好的科技时尚娱乐生活

确实很浪费——这就是重点——但这些喂养机器人的收割者产生的巨大流量同样浪费。有人会争论说,大语言模型机器人本身就是对资源和能源的更大浪费,我们对此表示赞同。因此,我们支持任何能够阻碍它们的措施。tqW喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
谷歌搜索涉嫌垄断:Chrome浏览器将被勒令出售

谷歌搜索涉嫌垄断:Chrome浏览器将

11月19日

11-19 117阅读
供应链称上游元器件要大降价:国产手机现涨价潮后会主动下调售价吗

供应链称上游元器件要大降价:国产

11月19日

11-19 122阅读
可栗口语完成数百万元天使轮融资

可栗口语完成数百万元天使轮融资

近日,A

11-19 100阅读
1元水,巨头们的游戏

1元水,巨头们的游戏

今年

11-19 126阅读
东方树叶们的「备胎上位史」

东方树叶们的「备胎上位史」

中国

11-19 118阅读
6年前,主持实习生弦子,为何诬告朱军性骚扰?如今她又怎样了?

6年前,主持实习生弦子,为何

11-19 102阅读
李诞真名叫什么? 误打误撞踏入演艺圈!

李诞真名叫什么? 误打误撞

《吐槽大会》第四季第一集播出之

11-19 107阅读
百部青少年教育公益微电影《星光好少年之少年王维》开机仪式在北京顺利举行

百部青少年教育公益微电影

  2024年11月9日,由泰安东升公益慈

11-19 100阅读
综艺《开播!短剧季》试镜最后一役!谁能夺得《包拯与公孙策》IP试播资格?

综艺《开播!短剧季》试镜最

  国内首档“微短剧+综艺”创新真人

11-19 109阅读
李子柒为何依然重要

李子柒为何依然重要

自从李子柒上次

11-19 104阅读
LUIDA’S BAR推出《DQIII》合作菜单

LUIDA’S BAR推出《DQIII

为纪念HD-

11-19 116阅读
三国群英传7秘籍大全_三国群英传7所有秘籍代码一览

三国群英传7秘籍大全_三国

三国群英传7游戏支持秘籍功能,玩家可以

11-19 136阅读
卧龙苍天陨落前期快速获取情谊酒杯的技巧分享

卧龙苍天陨落前期快速获取

情谊酒杯是卧龙苍天陨落游戏里面的特殊

11-19 100阅读
原神空幻回响的花神诞祭任务全流程一览

原神空幻回响的花神诞祭任

空幻回响的花神诞祭是须弥地区魔神主线

11-19 126阅读
功耗低+性能强 双十一AMD锐龙9000处理器省钱游戏套装推荐

功耗低+性能强 双十一AMD

11-19 118阅读