众所周知,构建大型语言模型(LLM)需要大量的数据。在传统的训练中,LLM被灌输进大量的文本,并被鼓励在每个单词出现之前进行猜测。对于每次预测,LLM都会进行一些微小的调整,以提高猜测正确的几率。最终的结果是,对哪些是正确的、哪些不是正确的语言,有一定的数学统计层面上的 “理解”。
但是,仅仅经历过这种所谓的“预训练”的LLM还不是特别有用。例如,当被要求讲一个笑话来让人高兴时,预训练模型GPT-2只是将问题重复了三遍。当被问及美国总统是谁时,它回答说:“答案是否定的。总统不是总统。”显然,要让LLM能按照人类的意愿行事,现在所做得还远远不够。
要使这类大语言模型与用户期望保持一致的一个方法是,通过人类反馈进行强化学习(RLHF)。美国初创公司OpenAI在2022年3月发表的论文(未经同行审议)中介绍了这种技术,也是八个月后发布的聊天机器人ChatGPT的重要组成部分。
RLHF通常包括三个步骤。首先,人类志愿者被要求从两个潜在的LLM响应中选择一个,以便可以更准确地匹配所给定的提示。这一过程会被重复数千次。然后,该数据集被用来训练第二个LLM。实际上,第二个LLM是用以替代人类的。这个所谓的奖励模型,旨在给人类想要的响应分配更高的分数,给其他的响应分配更低的分数,然后用于训练原始(被选中的)的LLM。最后,用一种被称为强化学习的机器学习技术,来微调原始LLM,以帮助强化为其赢得奖励的行为。
这种RLHF方法相当复杂,使用两个独立的LLM需要耗费大量的时间和金钱,而用于强化学习的算法——用斯坦福大学拉斐尔·拉法洛夫的话来说——”相当费事费力”。这意味着,除了OpenAI、谷歌和它们的竞争对手外,没有人真正发掘出RLHF的全部潜力。
而现在事实证明,只需付出很小的努力,就能取得同样的效果。拉法洛夫博士和他的同事,包括阿基特·夏尔马和埃里克·米切尔,在2023年12月的人工智能大会NeurIPS上提出了一种替代方案。这种被称为“直接偏好优化(DPO)”的方法,依赖于一个讨喜的数学诀窍。
这个诀窍的基础是,对于每一种奖励模型都有一种特定的理论上的LLM可以获得满分,而每一种LLM同样也有一种理论上的奖励模型可以让它获得满分。通俗地来说,就是每条裤子在理论上都有一个最适合穿它的人,而每个人理论上都有一条最适合自己穿的裤子。每个LLM都隐藏了一个隐含的奖励模型,这一观察结果使研究人员可以直接修改这个模型。在以前的方法中,LLM从奖励模型中学习,而奖励模型则从数据中学习。而现在,LLM可以直接从数据中学习。
以上斯坦福的诸作者认为,去掉奖励模型这个中间环节后,DPO的效率是RLHF的三到六倍,在生成文本摘要等任务中的表现也更为出色。夏尔马博士说,DPO的易用性已经让较小的公司能够解决AI对齐问题。一年前,只有少数世界领先的大语言模型,如谷歌的Gemini和OpenAI的GPT-4,能够负担得起使用RLHF。但截至3月12日,在行业排行榜上排名最高的10个LLM中,有8个使用了DPO。寻求与OpenAI竞争的法国初创公司Mistral使用了它。社交媒体巨头Meta已将其整合到自己的LLM中。
未来肯定会有进一步的改进。首先,人们普遍认为,大型AI实验室自2022年停止发布细节以来,已经对其专有算法进行了改进。但是,让LLM做人类想要和期望的事情的问题,还远远没有解决。毕竟,即使是人类自己也偶尔会遇到困难。
本文采用AI编译,模型训练:讯鸟云服,原文作者:The Economist,审校排版:从林,点击查看原文链接
翻译作品,原文版权归原作者所有。未来学人仅提供翻译服务,不对原文内容或观点进行任何修改或代表。如有侵权,请联系我们删除。