当谈到诸如GPT之类的“大型语言模型”(LLM)时——为OpenaAI制造的一款流行聊天机器人ChatGPT提供技术支持——它的名字就已经说明了一切。这种现代的AI系统由庞大的人工神经网络驱动,这些神经网络用一种松耦合的方式模拟人类大脑的工作机制。GPT-3是2020年发布的LLM,是一个庞然大物。它有1750亿个“参数”。这些神经元之间的模拟连接被称为“参数”。它的训练方式是让数千个GPU(擅长AI计算的专用芯片)在几周内处理数千亿字的文本。据称,这些工作至少花费了460万美元。
然而,现代AI研究最为一致的共识是,“大即是好,且越大越好”。因此,AI模型的规模一直在以惊人的速度增长。今年3月份发布的GPT-4被认为有大约1万亿个参数,几乎是其上一代的六倍。OpenAI的老板萨姆·奥特曼估计,其开发成本超过了1亿美元。整个行业也存在类似的趋势。研究公司Epoch AI在2022年预测,训练尖端AI模型所需的计算能力每六到十个月就会翻一番。
这种巨人症正在成为一个问题。如果Epoch AI预测每十个月翻一番的数字是正确的,那么到2026年,训练成本可能会超过10亿美元——这还只是假设模型不会首先耗尽数据。2022 年10月发布的一项分析预测,用于训练的高质量文本库存很可能会在同一时间耗尽。即使训练完成后,实际使用得到的模型也可能很昂贵。模型越大,运行成本就越高。今年早些时候,摩根士丹利银行猜测,如果谷歌一半的搜索由当前的GPT式程序来处理,那么该公司每年可能会额外花费60亿美元。随着模型变得越来越大,这个数字可能还会增加。
量化紧缩
如此巨大的性能提升,可以从相对简单的更改(例如,四舍五入或切换编程语言)中获得,这似乎令人惊讶。但这反映了LLM的发展速度之快。多年来,它们都是被作为研究项目来看待的,让它们能够正常工作比让它们变得简洁、简练更为重要。直到最近,它们才升级为商业化、面向大众市场的产品。大多数专家认为仍有很大的改进空间。正如斯坦福大学计算机科学家克里斯·曼宁所说:“绝对没有理由相信……这就是终极的神经架构了,也许我们永远找不到更好的东西。”
本文采用AI编译,模型训练:讯鸟云服,原文作者:The Economist,审校排版:从林,点击查看原文链接
翻译作品,原文版权归原作者所有。未来学人仅提供翻译服务,不对原文内容或观点进行任何修改或代表。如有侵权,请联系我们删除。