云服务提供商Cloudflare日前发布了一款新的免费工具,可以防止AI公司的机器人从其客户的网站上爬取内容以训练大型语言模型。该公司正将这一工具提供给所有客户,包括那些使用免费计划的客户。“随着我们识别出新的、广泛进行网络爬取的违规机器人的踪迹,这一功能将自动更新,”公司表示。
在宣布这一更新的博客文章中,开发团队表示,他们添加了一个全新的一键式阻止所有 AI 机器人的功能,要启用它,只需导航到Cloudflare 仪表板的“安全”>“机器人”部分,然后单击标记为“AI 抓取程序和爬虫程序”的切换按钮就可以了。
值得注意的是,Cloudflare的团队还分享了一些关于AI爬虫机器人的相关数据。Cloudflare列出了过去一年中最活跃的爬虫机器人,其中,请求量最大的机器人是字节跳动的Bytespider,主要用于收集其大语言模型 (LLM) 的训练数据,该公司正在大力推广其AI产品“豆包”。Amazonbot和ClaudeBot在请求量方面紧随其后,亚马逊的机器人主要用于为 Alexa 问答系统索引内容,而Claude的机器人最近请求量有所增加。
从网站访问和拦截数据来看,Bytespider机器人试图访问Cloudflare管理的40%的网站,而OpenAI的GPTBot则试图访问35%的网站。其中,Bytespider不仅在请求数量方面领先,而且在其互联网资产抓取范围和被阻止的频率方面也处于领先地位。
对于如此频繁的访问和抓取,Cloudflare也分享了其客户应对爬虫机器人大量涌现的数据,其中,85.2%的客户选择阻止AI机器人访问他们的网站,即便有些机器人能够正确识别自己。
完全且一致地阻止AI机器人访问内容证明是非常困难的。为了更快地构建模型,一些公司绕过甚至直接破坏了现有的阻止爬虫的规则。最近,Perplexity AI被指控在未经许可的情况下爬取网站内容。但是,像Cloudflare这样规模的后端公司认真对待阻止这种行为,可能会带来一些结果。
“我们担心一些AI公司会采取措施规避检测以访问内容,”公司表示。“我们将继续保持监视,并在我们的AI爬虫和抓取器规则中添加更多机器人阻止措施,发展我们的机器学习模型,以帮助维护互联网成为一个内容创作者可以蓬勃发展的地方,并完全控制是否接受将其内容用于模型训练或运行推理。”
本文采用AI编译,模型训练:讯鸟云服,原文作者:Anna Washenko,审校排版:从林,点击查看原文链接
翻译作品,原文版权归原作者所有。未来学人仅提供翻译服务,不对原文内容或观点进行任何修改或代表。如有侵权,请联系我们删除。