Custom Thumbnail

题图：ASSOCIATED PRESS

2024-07-04 14:53

AI爬虫机器人泛滥，Cloudflare推免费工具对抗

AI爬虫想抓网站数据，没那么容易了。

来源 | Engadget

作者 | Anna Washenko

编辑 | 从林

云服务提供商Cloudflare日前发布了一款新的免费工具，可以防止AI公司的机器人从其客户的网站上爬取内容以训练大型语言模型。该公司正将这一工具提供给所有客户，包括那些使用免费计划的客户。“随着我们识别出新的、广泛进行网络爬取的违规机器人的踪迹，这一功能将自动更新，”公司表示。

在宣布这一更新的博客文章中，开发团队表示，他们添加了一个全新的一键式阻止所有 AI 机器人的功能，要启用它，只需导航到Cloudflare 仪表板的“安全”>“机器人”部分，然后单击标记为“AI 抓取程序和爬虫程序”的切换按钮就可以了。

AI爬虫机器人泛滥，Cloudflare推免费工具对抗

值得注意的是，Cloudflare的团队还分享了一些关于AI爬虫机器人的相关数据。Cloudflare列出了过去一年中最活跃的爬虫机器人，其中，请求量最大的机器人是字节跳动的Bytespider，主要用于收集其大语言模型 (LLM) 的训练数据，该公司正在大力推广其AI产品“豆包”。Amazonbot和ClaudeBot在请求量方面紧随其后，亚马逊的机器人主要用于为 Alexa 问答系统索引内容，而Claude的机器人最近请求量有所增加。

AI爬虫机器人泛滥，Cloudflare推免费工具对抗

从网站访问和拦截数据来看，Bytespider机器人试图访问Cloudflare管理的40%的网站，而OpenAI的GPTBot则试图访问35%的网站。其中，Bytespider不仅在请求数量方面领先，而且在其互联网资产抓取范围和被阻止的频率方面也处于领先地位。

AI爬虫机器人泛滥，Cloudflare推免费工具对抗

对于如此频繁的访问和抓取，Cloudflare也分享了其客户应对爬虫机器人大量涌现的数据，其中，85.2%的客户选择阻止AI机器人访问他们的网站，即便有些机器人能够正确识别自己。

完全且一致地阻止AI机器人访问内容证明是非常困难的。为了更快地构建模型，一些公司绕过甚至直接破坏了现有的阻止爬虫的规则。最近，Perplexity AI被指控在未经许可的情况下爬取网站内容。但是，像Cloudflare这样规模的后端公司认真对待阻止这种行为，可能会带来一些结果。

“我们担心一些AI公司会采取措施规避检测以访问内容，”公司表示。“我们将继续保持监视，并在我们的AI爬虫和抓取器规则中添加更多机器人阻止措施，发展我们的机器学习模型，以帮助维护互联网成为一个内容创作者可以蓬勃发展的地方，并完全控制是否接受将其内容用于模型训练或运行推理。”

本文采用AI编译，模型训练：讯鸟云服，原文作者：Anna Washenko，审校排版：从林，点击查看原文链接

翻译作品，原文版权归原作者所有。未来学人仅提供翻译服务，不对原文内容或观点进行任何修改或代表。如有侵权，请联系我们删除。

赞赏

微信扫一扫

支付宝扫一扫

好文章值得赞赏

0

0 0

Engadget

0 0

评论

登录后才能评论