我们常常把互联网看得理所当然。它触手可及、蕴藏着浩瀚的信息,而且运作良好。但这个系统依赖于巨量的“爬虫”——这些漫游网络的机器人每天访问数以百万的网站,并记录它们所见的内容。这正是谷歌为其搜索引擎运作的方式,亚马逊设定竞争性价格的方式,以及Kayak汇总旅游信息的方式。除了商业用途外,爬虫对于监控网络安全、启用辅助工具和保存历史档案也至关重要。学者、记者和民间组织同样依靠它们进行重要的调查研究。
爬虫无处不在。它们目前占据了所有互联网流量的一半,很快就会超过人类流量。这条看不见的网络地铁昼夜不停地在各个站点之间传输信息。最近,它们又多了一个用途:像OpenAI这样的公司使用网络爬取的数据来训练其AI系统,例如ChatGPT。
可以理解,网站现在开始反击,因为它们担心这种入侵物种——AI爬虫会取代自己。但问题在于:这种反击也威胁着网络的透明度和开放性,而正是这些特质使得非AI应用程序得以蓬勃发展。除非我们认真思考如何解决这个问题,否则网络将越来越多地被登录系统、付费墙和准入费所封锁,这不仅会抑制人工智能,还会减少真实用户和有益爬虫的多样性。
AI正在破坏爬虫系统
要理解这个问题,我们需要了解直到最近,网络是如何在爬虫和网站相对和谐共处的情况下运作的。爬虫基本上没有造成破坏,反而可能带来益处,它们通过搜索引擎将访客引向网站,以此交换数据。相应地,网站对爬虫施加的限制很少,甚至会帮助它们浏览网站内容。网站一直使用名为robots.txt的机器可读文件来指定它们希望爬虫避开的内容。但几乎没有人努力去执行这些规则或识别那些无视规则的爬虫。由于风险似乎很低,网站也就没有投资于阻止这些爬虫。
但现在,AI的普及使爬虫生态系统陷入混乱。
就像入侵物种一样,AI爬虫对数据的需求既贪婪又不加选择,它们吞噬着维基百科文章、学术论文以及Reddit、评论网站和博客上的帖子。所有形式的数据都成了目标,包括文本、表格、图像、音频和视频。由此产生的AI系统可能(但不一定)会直接与其数据来源展开竞争。新闻网站担心AI聊天机器人会夺走读者;艺术家和设计师担心AI图像生成器会抢走客户;编程论坛则担心AI代码生成器会取代贡献者。
因此,网站开始拒绝爬虫访问。动机很简单:AI系统及其背后的爬虫可能会利用网站自身的数据,损害任何向网络发布内容者的经济利益。这种认识引发了一场正在暗流涌动的爬虫大战。
网站开始对爬虫发起反击
网络出版商对人工智能做出了三管齐下的回应:诉讼、立法和计算机科学。最初是一系列版权侵权诉讼,包括《纽约时报》的一起诉讼,现在已经演变成对网站数据使用的一系列限制,以及像欧盟人工智能法案这样的立法,以保护版权持有者选择退出人工智能训练的权利。
然而,法律和立法的判决可能需要数年时间,而采用AI的影响却是即时的。因此,数据创建者专注于从源头收紧数据阀门:网络爬虫。自2023年年中以来,网站已经对超过25%的最高质量数据设置了爬虫限制。虽然像OpenAI和Anthropic这样的主要AI开发者声称尊重网站的限制,但他们被指控忽视这些限制或积极地绕过网站的防护(主要的IT技术支持论坛iFixit就是提出此类指控的网站之一)。
现在,网站正在转向它们的最后一个选择:反爬虫技术。许多新兴初创公司(TollBit、ScalePost等)和网络基础设施公司,如Cloudflare(估计支持全球20%的网络流量),已经开始提供工具来检测、阻止和对非人类流量收费。这些工具设置了障碍,使网站更难导航,或要求爬虫注册。
这些措施确实提供了即时的保护。毕竟,AI公司无法使用它们无法获取的内容,无论法院如何裁决版权和合理使用。但其结果是,大型网络出版商、论坛和网站往往会对所有爬虫抬高吊桥,即使是那些无害的爬虫。即使在与希望保留数据独占权的AI公司签订了可获利的交易后,情况依然如此。最终,网络正在细分为更少爬虫能够访问的领域。
我们将损失什么
随着这场猫鼠游戏加速,大玩家往往比小玩家更有优势。大型网站和出版商能够在法庭上捍卫他们的内容或谈判合同。大型科技公司有能力负担许可大型数据集或开发强大的爬虫来规避限制。但小型创作者,如视觉艺术家、YouTube教育者或博主,可能只剩两个选择:将内容隐藏在登录和付费墙后面,或将其完全下线。对于普通用户来说,这使得访问新闻文章、查看喜爱的创作者内容以及网络浏览变得越来越困难,因为处处都是登录要求、订阅门槛和验证码。
更令人担忧的是AI公司的大型独家合同正在如何分割网络。每笔交易都会增强网站保持独家性和阻止他人访问数据的动机,无论访问者是否具有竞争意图。这可能导致权力进一步集中在少数AI开发者和数据发布商手中。在一个只有大型公司才能获得许可或爬取关键网络数据的未来,竞争将受到抑制,真实用户和众多版权持有者的利益也将受损。
简而言之,这条道路将减少网络的多样性。来自学术研究人员、记者和非AI应用程序的爬虫可能会越来越难以获得开放访问。除非我们能够建立一个针对不同数据用途制定不同规则的生态系统,否则我们最终可能会在网络上设置严格的界限,损害开放性和透明度。
虽然这种趋势难以避免,但开放互联网的捍卫者可以坚持制定法律、政策和技术基础设施,明确保护非竞争性网络数据的使用免受独家合同的影响,同时保护数据创建者和发布者的权益。这些权利并不冲突。在争取全网正当数据访问权的斗争中,我们有很多东西可以失去或获得。随着网站寻找应对之道,我们决不能为了商业AI而牺牲开放的网络。
本文由未来学人编译,原文作者:Shayne Longpre,审校排版:从林,点击查看原文链接
翻译作品,原文版权归原作者所有。未来学人仅提供翻译服务,不对原文内容或观点进行任何修改或代表。如有侵权,请联系我们删除。