OpenAI再扔出“王炸”！全新推理模型可达人类博士水平

Hawk Insight

2024-09-13 12:26:50

3.49W

9月12日，OpenAI宣布将推出一系列用于解决难题的全新推理模型，该系列的第一个模型名为OpenAI o1，其预览版即日起开始使用。

OpenAI表示，与之前推出模型相比，o1模型可以推理复杂的任务，解决比以前的科学、编码和数学模型更难的问题。

“这些模型花更多时间思考问题，然后再做出反应，就像人类一样。”OpenAI介绍道，“通过训练，它们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。”

o1模型有多强大？

o1模型有多厉害呢，该模型在编程能力比赛Codeforces中拿到89%百分位的成绩，在2024美国数学邀请赛（American Invitational Mathematics Examinatio，AIME）预选赛中获得83.3%的准确率，跻身美国前500名学生之列。

相比之下，GPT-4o在Codeforces仅拿到11%百分位的成绩，在AIME中的准确率只有13.4%。

此外，在一个研究生级别的谷歌问答基准测试——GPQA（Grade School Physics Question Answering）中，o1模型的表现也十分惊人。GPQA是一个具有挑战性的数据集，包含数百道生物学、物理学和化学领域专家编写的多项选择题。

通常来说，在相应领域拥有或正在攻读博士学位的专家在GPQA的准确率在70%上下，而o1模型在该测试中达到了78%的准确率，也就是说，o1模型已经达到人类博士生的水平。

除了上述这些高难度的测试，在一些广泛的基准测试中，o1模型的表现也要比GPT-4o好。比如在大规模多任务语言理解（MMLU）测试的57个子类别中，o1模型有54个子类别胜过GPT-4o。

得益于o1模型更强大的推理能力，其对编码和数学等推理能力较强的问题上的回答也更好。

OpenAI表示，在一项人类偏好评估中，对于o1-preview和GPT-4o提供的匿名回答，人类训练师更喜欢o1预览版的回答，特别是在数据分析、编码和数学等推理能力较强的类别中，o1预览版的受欢迎程度远远高于gpt-4o。不过，o1预览版在某些自然语言任务上表现略为逊色，这表明该模型并不适合所有的使用情况。