HawkInsight

  • 联系我们
  • App
  • 中文

OpenAI最强o3模型被曝造假,提前获取FrontierMath测试题库的特权访问权

网络报道,一位名为“Meemi”的EpochAI承包商在Less Wrong论坛透露,OpenAI不仅为FrontierMath基准测试提供资金支持,还获得了测试题库的特权访问权。EpochAI副主任兼联合创始人之一Tamay Besiroglu很快在X平台承认了此事。我们犯了一个错误,没有更早披露OpenAI在FrontierMath中的参与。我们的合同在o3发布前禁止我们这么做。事后看来,我们确实应该更努力地争取更早的透明性。我们承认这一点,并承诺未来做得更好。 EpochAI的首席数学家Elliot Glazer承认在项目过程中未主动披露行业资助方面的信息,并向那些如果事先知情可能不会参与的数学家道歉。关于o3成绩,他表示相信OpenAI报告的分数准确性,但强调EpochAI需要通过正在开发的独立保留测试集来验证,并承诺保留集评估分数将公开。当被质疑保留集状态时,Glazer澄清这个测试集仍在开发中,而不是已经完成。 据悉,FrontierMath是一个分量极重的高级数学推理能力评估基准。它由EpochAI联手60多位顶级数学家共同打造,参与者包括多位菲尔兹奖得主和国际数学奥林匹克竞赛的资深命题人。

免责声明:本文观点来自原作者,不代表Hawk Insight的观点和立场。文章内容仅供参考、交流、学习,不构成投资建议。如涉及版权问题,请联系我们删除。

最新快讯Hawk Insight
查看更多