2024年9月,美国公司OpenAI发布了全球首个“推理模型”o1。这是一种先进的人工智能形式,运用“思维链”方法解答科学和数学难题:它将问题分解成多个步骤,在后台测试不同解决方案,最后向用户呈现结论。o1的成功迅速引发了技术竞争:12月,谷歌推出了“Gemini Flash Thinking”推理模型,而OpenAI随后发布了o1的升级版o3。
然而,资源雄厚的谷歌并非首个跟进者。在o1发布后不到三个月,中国电商巨头阿里巴巴就为其问答机器人Qwen推出了新版本QwQ,具备同样的推理能力。阿里巴巴在一篇精心撰写的博客中提出“思考、质疑、理解意味着什么?”并附上了该模型的免费版本链接。另一家中国企业DeepSeek(深度求索)紧随其后,推出了名为R1的推理模型预览版。尽管美国政府试图遏制中国人工智能产业的发展,这两家中国公司却将与美国同行的技术差距缩短到了短短几周。
中国公司的领先地位不仅体现在推理模型上。12月,DeepSeek发布了一款新的大型语言模型(LLM)。这个名为v3的AI文本分析与生成模型体积接近700GB,需要专用硬件才能运行,拥有6850亿个参数。这使其成为目前可免费下载的最大规模模型。相比之下,Meta在7月发布的旗舰LLM Llama 3.1仅有4050亿个参数。
DeepSeek的LLM不仅规模更大,性能也更优越,几乎可与谷歌和OpenAI的专有模型媲美。AI编码平台Aider创始人保罗·戈蒂耶对该模型进行编码基准测试,发现它的表现仅次于o1,超越了所有其他竞争对手。在聊天机器人排名网站Lmsys的评测中,v3位列第七,不仅领先所有开源模型,还是除谷歌和OpenAI之外排名最高的商业模型(见图表)。
本文由未来学人编译,原文作者:The Economist,审校排版:从林,点击查看原文链接
翻译作品,原文版权归原作者所有。未来学人仅提供翻译服务,不对原文内容或观点进行任何修改或代表。如有侵权,请联系我们删除。