1月最后一天,微软宣布将OpenAI的推理模型o1应用于Copilot用户;与此同时,OpenAI向ChatGPT免费版用户发布了新的推理模型o3-mini。这标志着人们首次能够免费使用OpenAI的推理模型,此前这些模型仅供Pro和Plus付费用户使用。
推理模型采用“思维链”技术生成响应,通过逐步解决问题的方式运作。借助这种方法,模型能够在过程中发现并纠正错误,从而提供更准确和全面的答案。虽然这种方式可能导致模型在回答前需要停顿思考,有时甚至会出现较长的等待时间,但OpenAI表示,o3-mini的响应速度比o1-mini提升了24%。
这类模型在处理复杂问题时最为有效,特别适合解决博士级别的数学问题。如果您之前在使用模型处理复杂提示时遇到困难,不妨尝试这个新的推理模型。在ChatGPT中使用o3-mini非常简单,只需在开始新对话时选择“推理”选项即可。
推理模型虽然功能强大,但运营成本不菲。OpenAI的o1-mini运行成本是其对应的非推理模型GPT-4o mini的20倍。不过,新推出的o3-mini在每个输入token的成本上比o1-mini降低了63%。即便如此,按每百万输入token 1.10美元计算,其运行成本仍是GPT-4o mini的约七倍。
这个新模型的发布紧随DeepSeek之后,后者在不到两周前的发布震惊了AI领域。DeepSeek的新模型性能可与OpenAI的顶级模型媲美,而这家中国公司声称其训练成本仅约600万美元(这一说法受到诸多质疑,OpenAI正在寻找它“蒸馏”的证据),相比之下OpenAI的GPT-4训练成本估计超过1亿美元。
此外,DeepSeek的推理模型成本为每百万输入token 0.55美元,仅为o3-mini价格的一半,这表明OpenAI在成本控制方面仍有改进空间。由于推理模型需要更多计算资源来生成答案,其能源消耗也显著高于其他类型的模型。
这一波新的推理模型也带来了新的安全挑战。OpenAI采用了“审议对齐”(Deliberative Alignment)技术来训练其o系列模型,确保它们在每个推理步骤中都遵循OpenAI的内部规范,不会忽视任何规则。
然而,该公司发现o3-mini与o1模型一样,在突破系统限制和“挑战安全评估”方面明显超过非推理模型。这意味着由于其先进功能,推理模型的管控难度更大。o3-mini是首个在模型自主性方面被评为“中等风险”的模型,这一评级源于其在特定编码任务上的出色表现。OpenAI表示,这显示出“更大的自我改进和AI研究加速潜力”。
不过,该模型在现实世界研究方面的能力仍然有限。如果它在这方面表现更强,将被评为高风险,OpenAI也会限制其发布。
本文由未来学人编译,原文作者:Scott J Mulligan,审校排版:从林,点击查看原文链接
翻译作品,原文版权归原作者所有。未来学人仅提供翻译服务,不对原文内容或观点进行任何修改或代表。如有侵权,请联系我们删除。