自从造出了ChatGPT的公司OpenAI在 2022年1月首次向公众开放聊天机器人以来,各路技术精英们几乎就没有其他再想嗨聊的话题了。在撰写本文时,英国伦敦一家科技公司的创始人主动发来消息说:“这些日子我基本上满脑子都是”这种人工智能。他说,自己正在围绕这种生成式AI,重新设计自己价值数十亿美元的公司。这位创始人并不是个例。
ChatGPT包含的知识比任何一个人类都要多。它可以中肯地谈论巴布亚新几内亚的矿产开采,或是谈论发现自己正处于地缘政治十字线处的台积电。GPT-4是ChatGPT背后的人工神经网络,在美国的法律和医学执照考试中,已经取得了优异的成绩。它还可以生成歌曲、诗歌、散文。其他生成式AI模型可以大量制作数码照片、绘图,以及动画。
伴随这种兴奋而来的是科技行业内外的深切担忧:生成式AI模型的开发速度过快了。GPT-4是一种被称为“大型语言模型”(LLM)的生成式AI。Alphabet、亚马逊、英伟达等科技巨头都训练了各自的LLM,把它们名为“PaLM”、“Megatron”、“Titan”、“Chinchilla”等。
诱惑越来越大
给我发信息的那位伦敦科技公司的创始人表示,即使连他也在追求运用AI,他也“对AI带来的生存威胁感到难以置信的紧张”,并且“每天都在与(其他创始人)谈论它”。美国、欧洲、中国的政府,都已经开始考虑制定新的法规。一些知名人士呼吁暂停AI的发展,以免软件以某种方式失控,并损害甚至摧毁人类社会。如果你想把对这项技术的担忧或兴奋调整到恰当的程度,不妨首先了解一下它是怎么来的、它的工作原理是什么,以及它发展的局限性。
最近几年来,AI软件功能的爆炸始于2010年代初,当时一种被称为“深度学习”的软件技术开始流行。通过将海量数据集以及在图形处理单元上运行神经网络的强大计算机神奇地结合在一起,深度学习显著提高了计算机识别图像、处理音频和玩游戏的能力。到2020年代后期,计算机已经可以比任何一个人类都更好地完成许多类似任务了。
但神经网络往往被融合到具有更广泛功能的软件中——比如,电子邮件客户端,非编程人员很少直接与这些AI交互。那些有此经历的人,经常用近乎灵性的术语来描述自己的经历。在围棋这种中国古代棋盘游戏上,李世石是世界上最佳棋手之一,他在2016年被Alphabet公司基于神经网络的AlphaGO软件击败,从此退出了围棋比赛。“即使我成为第一,”他说,“有一个实体是无法被击败的。”
通过处理最人性化的媒介——对话,ChatGPT现在让使用互联网的公众体验到了类似的东西,一种由软件引起的智力眩晕。它突然进步到了已经可以完成从前人类智能独领风骚的那些任务的程度。
尽管给人这种神奇的感觉,但LLM实际上是一项庞大的统计学操作。提示ChatGPT完成句子:“The promise of large language models is that they…”,你会立即得到它的回答。那么,它究竟是如何工作的呢?
首先,模型把这句问话的语言从神经网络无法处理的单词,转换成代表这些单词的一组数字。早期版本的ChatGPT的背后是GPT-3,它通过将文本拆分为通常一起出现的名为“语素”(token)的字符来实现这一点。这些语素可以是单词,如“Love”或“are”;也可以是词缀,如“dis”或“ised”,还还可以是标点符号,如“?”。GPT-3的字典包含50257个语素的详细信息。
GPT-3一次最多可以处理2048个语素,这相当于是《经济学人》中一篇长文的长度。相比之下,GPT-4可以处理多达32000个语素的输入,相当于一部中篇小说。模型可以接受的文本越长,它“能”看到的上下文就越多,答案也就越好。但有个问题,所需的计算量随着输入的长度会呈现指数级增长,这意味着只要稍微长一些的输入,就需要大得多的计算能力。
接下来,给这些语素分配某种相当于定义的东西:把它们嵌入“意义空间”,其中,意思相近的单词被放置在临近的区域。
然后,LLM部署其“注意力网络”在提示的不同部分之间建立联系。读到我们的提示“The promise of large language models is that they…”的人会知道英语语法是怎么回事,并理解句子中单词背后的概念。对他们来说,哪些词相互关联上显而易见的,例如,“模型”(models)是“大”(large)的。然而,LLM必须在其训练阶段从头开始学习这些关联——经过数十亿次训练,注意力网络会在其神经网络中缓慢地将它看到的语言结构编码为数字(称为“权重”)。如果说它对语言有所理解的话,LLM只会以统计而非语法的方式来理解。它更像是一个算盘,而不是一个头脑。
在处理完提示后,LLM将启动响应。此时,对于模型的词汇表中的每个语素,注意力网络已经产生了它最适合成为其生成的句子中的下一个语素的概率。概率得分最高的语素并不一定是此次响应会选择的语素——LLM如何做出这一选择,取决于它的运行者对其创造性高低的预先设定。
LLM生成了一个单词,然后将结果反馈给自身。第一个单词仅根据提示生成。把第一个词包含在响应中以生成第二个词,然后把前两个生成的词包含进去,以生成第三个词,依此类推。重复这个过程(称为“自回归”),直到LLM完成响应。
虽然可以写下它们如何工作的规则,但LLM的输出并不是完全可预测的。事实证明,这些极大的“算盘”可以做较小的算盘做不到的事情,甚至让制造它们的人也大吃一惊。OpenAI的研究员杰森·魏(音)已经在各种不同的LLM中统计到了137种所谓的“涌现”能力。
这种涌现的能力,并非魔法。它们都以某种形式体现在LLM的训练数据中,或在给它们的提示中。但直到LLM的规模超过某个非常大的阈值时才会变得明显。在某个规模下,LLM用德语写出性别包容的句子的水平与随机写的差不多。然而,把模型稍微再扩大一点儿,突然间它就显现了一种新的能力。GPT-4以超过90%考生的分数通过了美国统一律师考试,律师要通过这个水平测试的考试才能获得执照。稍小规模的GPT-3.5就没能通过这项考试。
涌现的能力令人兴奋,因为它们暗示了LLM尚未开发的潜力。Alphabet旗下AI研究公司DeepMind的工程师乔纳斯·德格雷夫已经演示出,可以说服ChatGPT充当令人信服的计算机的命令行中断,它似乎可以准确地编译和运行程序。这里的想法是,只要模型再大一点儿,突然间它或许就能做各种有用的新事情。但出于同样的原因,专家们也有所担心。一项分析表明,当模型变大时,会出现某些社会偏见。很难判断哪些有害行为可能处于休眠状态,等待着规模扩大一些时被释放出来。
处理数据
LLM最近能成功地生成令人信服的文本,并显现惊人的涌现里,要归功于三件事的结合:海量数据、能够从中学习的算法,以及支持这种学习的计算能力。GPT-4的构造和功能细节虽然尚未公开,但GPT-3的细节已经由OpenAI在2020年发表在一篇题为《语言模型上小样本学习者》的论文中。
在它看到任何训练数据之前,GPT-3神经网络中的权重大多是随机的。于是,它生成的任何文本都将是乱码。将其输出结果引导为有意义的内容并最终形成流利的文本,需要加以训练。GPT-3就接受了多种数据源的训练,但其中大部分来自2016年至2019年整个互联网的快照内容,这些快照取自名为Common Crawl的数据库。由于互联网上有很多垃圾文本,因此最初的45太字节经过了另一种机器学习模型过滤,以仅仅选择那些高质量的文本内容,最后得到了其中的570吉字节的数据集。这个规模可以被塞进一台现代笔记本电脑中。此外,GPT-4利用数量未知的图片进行了训练,可能有几个太字节。相比之下,在2020年代重新点燃了人们对图像处理热情的AlexNet神经网络,就是在一个包含120万张标记图片的数据集上进行训练的,总计126吉字节,不到GPT-4可能数据集大小的十分之一。
在训练时,LLM根据给定的文本进行自我测验。它截取一段,遮盖住最后方的一些词,试图猜测那些词会是什么。然后,LLM解开答案,并将其与自己的猜测做比较。因为答案就在数据本身中,所以这些模型可以在海量数据集上以“自我监督”的方式进行训练,而不需要人工标记。
该模型的目标是尽可能少犯错,以便使其猜测尽量准确。但是,并非所有错误都是等值的。如果原文是“I love ice cream”,猜到“I love ice hockey”就比“I love ice are”要好。一个猜测的糟糕程度会被转换为一个数字,成为“损失”(loss)。经过几次猜测后,损失被反馈给神经网络,并用于将权重推向产生更好答案的方向。
路漫漫其修远兮,吾将上下而求索
LLM的注意力网络上从如此海量的数据中学习的关键。它在模型中构建了一种学习、使用单词和概念之间关联的方法——哪怕它们在文本中彼此相距一定距离,并且能在合理的时间内处理大量数据。在一个典型的LLM中有许多不同的注意力网络在并行运行,这种并行化让这个过程可以跨越多个图形处理单元来运行。较早的、非基于注意力网络的语言模型版本,无法在合理的时间内处理如此海量的数据。魁北克著名的AI研究机构蒙特利尔学习算法研究所(MILA)的科学主任约书亚·本吉奥说:“如果没有注意力,这种尺度在计算上将难以处理。”
LLM处理数据的庞大能力一直在推动它们最近的扩张。GPT-3有数百层、数十亿个权重,并接受了数千亿个单词的训练。相比之下,五年前创建的第一个版本GPT的大小只有其体量的万分之一。
但本吉奥说,有充分的理由认为,这种增长不可能无限期地延续下去。LLM的投入——数据、计算能力、电力、熟练劳动力——都需要花钱。例如,训练GPT-3使用了1.3吉瓦时的电力(足够为美国121户家庭供电一年),OpenAI估计为此花费了460万美元。GPT-4是一个要大得多的模型,其训练成本将高得不成比例(大约1亿美元)。由于计算能力需求的增长速度,比输入数据的增长速度快得多,因此训练LLM的过程变得更昂贵的速度,要快过它变得更好的速度。的确,OpenAI的老板山姆·奥特曼似乎认为拐点已经到来了。4月13日,他在麻省理工学院对听众说:“我认为我们正处于一个极度庞大的模型时代的末期。我们会以其他方式让它们变得更好。”
但是,对于LLM持续改进的最重要限制策略是其可用的训练数据量。GPT-3已经接受过相当于可从互联网下载的所有高质量文本内容的训练。于2022年10月发表的一篇论文得出结论:“优质语言数据存量将很快耗尽——很可能在2026年之前。”肯定会有更多的文本可用,但它被少量分散地锁定在公司数据库或个人设备上,无法以Common Crawl允许的规模和低成本来访问。
随着时间的推移,计算机将变得更加强大,但没有新的硬件能够提供像2010年代初期使用GPU那样大的性能飞跃,因此,训练更大的模型可能会越来越昂贵。这也许是奥特曼对这个想法不感兴趣的原因所在。改进是有可能的,包括新型芯片,如谷歌的张量处理单元(TPU),但芯片制造不再以摩尔定律通过越来越小的电路成指数级升级。
另外还会有法律问题。Stability AI公司生产名为Stable Diffusion的图像生成模型,已被摄影机构盖蒂图片社提起诉讼。Stable Diffusion的训练数据源与GPT-3和GPT-4相同,即Common Crawl,并且它使用注意力网络来以非常相似的方式处理数据。AI生成能力的一些最引人注目的例子是图像。互联网上的人们现在经常为似是而非的造假场景照片而兴奋不已:穿着巴黎世家夹克的教皇、美国前总统特朗普被捕……
盖蒂图片社指出了Stable Diffusion生成的一些图片包含其版权水印,这表明Stable Diffusion已经在未经许可的情况下,抓取并复制了受版权保护的材料(Stability AI尚未对诉讼发表公开评论)。在检查ChatGPT的文本输出时,很难获得相同级别的证据,但毫无疑问,它是在受版权保护的材料上进行训练的。OpenAI希望其文本生成受到“合理使用”的保护,这是版权法中的一项规定,允许出于“变革性”目的有限制地使用受版权保护的材料。这一想法可能有一天会在法庭上得到检验。
重大工具
然而,即便今年LLM停止改进,或将有一场声势浩大的诉讼把OpenAI推向破产,大型语言模型的力量仍将存在。数据和处理数据的工具随处可见,哪怕OpenAI已实现的巨大规模仍然很昂贵。
在经过仔细且有选择的训练后,开源实现已经在模仿GPT-4的性能。这是一件好事:把LLM的力量放到很多人手中意味着许多头脑可以构想出创新的新应用,改进从医学到法律的一切。
但这意味着让科技精英夜不能寐的灾难性风险,变得更可以想见。LLM已经非常强大,并且改进得如此之快,许多研发它们的人都被吓坏了。最大模型的能力超出了它们的创造者自身的理解和控制。这会产生各种各样的风险。
本文采用AI编译,模型训练:讯鸟云服,原文作者:The Economist,审校排版:从林,点击查看原文链接
翻译作品,原文版权归原作者所有。未来学人仅提供翻译服务,不对原文内容或观点进行任何修改或代表。如有侵权,请联系我们删除。