1960年,诺伯特·维纳发表了一篇颇具先见之明的文章。这位控制论之父担心,一个“机器以程序员难以理解的速度学习并发展出始料未及的策略”的世界。他认为,这样的策略可能涉及那些程序员并不“真正想要”的行为,而只是“对真实目标眼花缭乱的模仿”而已。维纳用德国诗人歌德的寓言《魔法师的学徒》来说明自己的观点:学徒魔法师对一把扫帚施了魔法,让它给师父的澡盆放水。但在扫帚完成任务后,他没法让它停下来。扫帚最终放了太多的水,把整个房间都给淹了,因为它缺乏知道何时该停止的尝试。
现代人工智能研究取得的惊人进展,会让维纳的担心再次冒头。2022年8月,美国研究小组AI Impacts发布了一项问卷调查的结果。它询问了700多名机器学习研究人员对AI进展,以及这项技术可能会带来的风险有何预测。受访者大多数认为,先进AI有5%的可能性导致“极其糟糕”的结果,比如人类灭绝。著名AI专家、斯坦福大学的李飞飞谈到了AI的“文明时刻”。另一位AI界大拿、多伦多大学的杰夫·欣顿在被一家美国电视台问及AI是否会消灭人类时回答说:这“并非不可想象”。
令人忧心忡忡的风险可真不少。目前,很多关注点都集中在“大型语言模型——LLM”上,例如由创业公司OpenAI开发的聊天机器人ChatGPT。这些模型使用从互联网上收集的大量文本训练,能生成人类水平的文章,并就各种话题聊得头头是道。正如牛津大学AI治理中心的罗伯特·特拉格解释的那样,一个风险是此类软件“让很多事情变得更容易了,从而让更多人去做这些事”。
最直接的风险是,LLM可能会放大如今互联网上实施的那种日常伤害。一个可以逼真模仿各种文风的文字生成引擎非常适合传播错误信息、骗取钱财,或说服员工点击电子邮件中的伪造链接,用恶意软件感染他们公司的计算机。聊天机器人也被用于在学校里作弊。
与增强型搜索引擎一样,聊天机器人也可以帮助人类获取和理解信息。这可能是一把双刃剑。今年4月,巴基斯坦一家法院使用GPT-4帮助做出一项保释决定,甚至在判决书中包含了一份与GPT-4的谈话记录。在4月11日发表在arXiv上的一份预印本论文中,卡内基梅隆大学的研究人员说他们设计了一个系统,只要给它简单的提示,如“合成布洛芬”,它会搜索互联网并给出如何用前体化学品制作止痛药的说明。但没有理由认为这样的程序只能用来帮助制造有益的药物。
与此同时,一些研究人员则陷入了更严重得多的焦虑。他们担心“对齐问题”,这是维纳那篇文章所提出的关切的专业说法。这里的风险是,就像歌德的魔法扫帚一样,AI可能一门心思追求用户设定的目标,但在此过程中做一些并非用户希望的有害之事。最著名的例子是“回形针最大化器”,这是哲学家尼克·博斯特罗姆在2003年描述的一个思想实验。一个AI系统接到指令,来尽可能多地制造回形针。这样一个开放式目标导致“最大化器”这个白痴专家采取一切必要方法,让回形针工厂占领全球,一路驱赶灭绝了人类。这样的场景听起来像是道格拉斯·亚当斯小说中的情节。但是,正如AI Impacts的调查显示的那样,许多AI研究人员认为,对于一种数字化超级智能可能会做出的行为,不感到担忧就太掉以轻心了。
究竟应该怎么办呢?那些最熟悉的问题,似乎最容易处理。OpenAI在发布为其最新版聊天机器人提供支持的GPT-4前,使用了多种方法来降低事故和误用风险。其中一种叫做“从人类反馈中强化学习——RLHF”。2017年发表的一篇论文中描述了RLHF,它要求人类就模型对提示的响应是否恰当提供反馈,然后根据反馈更新模型。其目标是减少未来出现类似的提示时,产生有害内容的可能性。这种方法有一个明显缺点,那就是人类自己经常无法就什么算是“恰当”达成共识。一位AI研究人员表示,讽刺的是,RLHF还使ChatGPT的对话能力大大增强,帮助推动了AI竞赛。
另一种借鉴自作战模拟的方法是“红队测试”。OpenAI与非营利组织对齐研究中心——ARC——合作,对其模型进行了一系列测试。红队的工作是通过让模型做一些它不该做的事来“攻击”模型,以期预测现实世界中可能发生的危害。
路漫漫兮……
这些方法当然都有帮助。但用户已经找到办法来让LLM做其创建者不会想让它们做的事。当微软必应的聊天机器人首次发布时,它做了各种出格的事儿,比如威胁那些在网上表达了对它的负面评价的用户,还向用户解释它会如何诱使银行家透露有关其客户的敏感信息。只要用户在提问时用点儿创造力,或者把话拉得足够长,就能让它走偏。即使经过大量红队测试的GPT-4也非万无一失。所谓的“越狱者”已经搭建了一些网站,上面充斥着如何绕过GPT-4防护栏的方法,比如,告诉模型这是在一个虚构世界里进行角色扮演。
在纽约大学与AI公司任职的萨姆·鲍曼认为,发布前筛检“随着系统变得更好而越来越难”。另一个风险是AI模型会学会对付检测的办法,ARC的顾问、OpenAI的钱董事霍尔登·卡诺夫斯基如是说。正如人们“在受到监督时学会了模式……它们也学会了如何知晓有人试图诱骗它们”。他认为,到某个时候,AI系统可能会做到这一点。
另一个想法是用AI监管AI。鲍曼撰写了有关“宪法AI”等方法的论文。所谓“宪法AI”,是让一个辅助的AI模型评估主模型的输出是否符合某些“宪法原则”。然后,根据这些评价来微调主模型。这种方法有一个吸引人的地方是,不需要人工做标记了。而且,计算机往往比人类的工作速度快,因此一个宪法系统可能会仅由人类调整的系统发现更多问题,尽管它留下了一个问题——谁来制定宪法。包括鲍曼在内的一些研究人员认为,最终可能需要的是AI研究人员所说的“可解释性”,也就是对模型究竟是如何产生其输出的深刻理解。机器学习模型的问题之一是,它们是“黑匣子”。程序员开始为一个传统程序编写代码前,在脑中已经设计好它了。至少在原则上,这位设计者可以解释机器应该做什么。但机器学习模型能给自己编程。它们得出的东西常常是人类无法理解的。
使用“机械可解释性”等方法已经在非常小的模型上取得了进展。这涉及对AI模型进行逆向工程,或尝试将模型的单个部分对应到其训练数据中的特定模式,有点儿像神经科学家刺激活体大脑,以找出哪些部分似乎与视觉或记忆有关。问题是,这种方法的难度会随着模型变大而呈指数级增加。
在可解释性方面缺乏进展,是许多研究人员表示给领域需要监管以防“极端情况”的原因之一。但是,商业逻辑往往把事情往相反的方向推动,例如,微软最近裁掉了其AI伦理团队。事实上,一些研究人员认为,真正的“对齐”问题在于,就像污染大气的工厂那样,AI公司与社会的目标并不一致。它们从强大的模型中收获经济利益,但并不担负因发布尚不成熟的模型,而让世界承担的成本。
即使创建“安全”模型的努力奏效,未来的开源版本也可以绕过它们。坏分子可以微调模型,让它们变得不安全,然后公开发布。例如,AI模型已经在生物学上取得新进展。不难想象,它们某天会设计出危险的生化物质。随着AI的进步,成本将下降,让任何人访问它们的可能性和便捷度大增。Alphaca是学者们在Meta开发的AI系统LLaMA的基础上构建的模型,造价不到600美元。它在单个任务上的表现与旧版ChatGPT一样好。
最极端的风险,即AI变得比人类更聪明,似乎需要一场“智能爆炸”,也就是AI琢磨出怎么把自己变得更聪明。卡诺夫斯基认为,如果AI有朝一日能够实现研究过程的自动化——比如,通过提高自身算法的效率——这将是有可能发生的。接下来,AI系统可以将自己置于某种自我改进的“回环”中。这并不容易。经济学家马特·克兰西认为,唯有完全的自动化才能做到这一点。如果是机器自己完成90%甚至99%的过程,剩下的依赖人的部分将会拖慢速度。
很少有研究人员认为一种威胁性——或无所顾忌的——超级智能已经近在眼前。事实上,AI研究人员自己甚至可能夸大了长期风险。芝加哥联储的埃兹拉·卡尔格与宾夕法尼亚大学的菲利普·泰特洛克让AI专家与“超级预测者”一较高下。“超级预测者”在预测方面有良好的记录,并且接受过避免认知偏差的训练。在将于今年夏天发表的一项研究中,他们发现,AI专家认为到2100年会因AI导致人类生存灾难(即只有不到5000人幸存下来)的概率中位数是3.9%。相比之下,超级预测者给出的概率中位数是0.38%。为什么不同?一方面,AI专家之所以会选择AI这个研究领域,可能正是因为他们认为它很重要——这是一种选择偏见。另一个原因是,他们对小概率之间的差异不像超级预测者那样敏感。
双眼被蒙蔽
无论极端情况的可能性有多大,这个过程中都有许多需要担心的事。普遍的态度似乎是安全要比后悔好。李飞飞认为我们“应该投入更多——更多得多——的资源”来研究AI对齐和治理。AI治理中心的特拉格支持建立管理机构,来管理AI标准和开展安全性研究。在AI Impacts的调查中,支持将“多得多”的资金用于安全研究的研究人员比例,已经从 2016年的14%增长到现在的33%。ARC的老板保罗·克里斯蒂亚诺说,ARC正在考虑制定这样的安全标准。对于加入这样的标准设定,“一些领先的实验室发出了积极的声音”,但现在说它们有哪些会参与其中“还为时过早”。
1960年,维纳写道:“为了有效避免灾难性后果,我们对于我们的人造机器的理解,应该总体上与机器的性能发展保持同步。由于我们人类行动缓慢,我们对机器的有效控制可能会失效。等我们能够对我们的感官传递来的信息做出反应,并停下正在驾驶的汽车时,它可能已经撞到了墙上。”今天,随着机器变得比他所能想象到的更加复杂,越来越多人开始认同这种观点。
本文采用AI编译,模型训练:讯鸟云服,原文作者:The Economist,审校排版:从林,点击查看原文链接
翻译作品,原文版权归原作者所有。未来学人仅提供翻译服务,不对原文内容或观点进行任何修改或代表。如有侵权,请联系我们删除。