o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里
开心田螺
2025-01-20 19:28:20
0

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

OpenAI o3还没上线,就被曝数学成绩是靠作弊得来?!

Benchmark发布机构内部人员爆料称, OpenAI给了他们经费赞助

就连包括陶哲轩在内参与出题的60余名数学家,在消息曝光之前也都 和普通公众一样蒙在鼓里

直到o3发布,这一消息才被公开。这意味着严格保密的题目,OpenAI提前拿到了手中。

这套数据集名叫 FrontierMath,包含了由陶哲轩等60多名权威数学家命制的高难度题目。

陶哲轩就表示,这些题目足够困扰AI几年的时间;1998年菲尔斯奖得主Gowers也说,能解决其中的一个问题就已经超越现在的能力范围了。

当时也正是因为在这一测试基准上大幅领先,o3的能力更进一步被得到认可。

Epoch.ai这边,联合创始人Tamay Besiroglu也回应并 承认了秘密赞助和OpenAI提前拿到题目的传闻,但否认题目被OpenAI拿来作弊

但有些网友并不买账,表示OpenAI如果不使用这些信息还要访问权限干什么,并推测有可能被用来训练。

专家被要求严格保密,但OpenAI却能拿到题

这家名叫Epoch.ai的机构,开发了一款名为FrontierMath的数学测试基准,论文第一版预印本于去年11月7日 (协调世界时,北京时间为8日凌晨)发布。

包括第一版在内,FrontierMath的论文在近两个月的时间里一共发布了五个版本,但 直到最后12月20日的第五版才披露了OpenAI的资助

不过也 只是在脚注中提了一句,感谢OpenAI对构建Benchmark的支持。

并且12月20日 刚好是OpenAI发布o3的日子,并且Besiroglu也透露,之前没有公开正是由于 OpenAI的保密要求

在o3推出之前,我们一直被限制披露合作关系,事后看来,我们应该更加努力地谈判,以便能够尽快向基准贡献者保持透明。

如果不看OpenAI这场风波,FrontierMath是一套含金量非常高的测试基准,由全球六十余位数学家联手命题,包括教授、IMO命题人、菲尔兹奖获得者,其中就有大牛陶哲轩等人。

而且难度也非常高,包括数百个极具挑战性的数学问题, 在o3之前的模型解决率不到2%

哪怕o3真的作了弊,得分也才20多分。

像下面的这道题目,在FrontierMath当中算是难度最低的一档:

正常来说,FrontierMath里的题目和答案是严格保密的,就连出题的数学家也被要求签订保密协议,甚至不能使用Overleaf、Colab或电子邮件传输有关题目的信息。

讽刺的是,这样“严格保密”的题目却被OpenAI拿到,而出题专家对OpenAI的情况毫不知情。

斯坦福博士、MIT罗德奖学金得主Carina Hong (洪乐潼)就表示,至少有六名专家能够证实这一点,并且大部分专家表示不确定如果知道(OpenAI的独家访问权)是否还会选择贡献。

后来她表示,(和出题人)签保密协议确实是为了防止数据污染,对OpenAI的目的则不做猜测。

联创承认错误,但否认OpenAI作弊

内部爆料和外部质疑之下,Epoch.ai联创Besiroglu也 承认了和OpenAI存在秘密协议,并表示没有公开透明确实是“犯了一个错误”。

但Epoch.ai否认了OpenAI作弊的说法,表示一方面 OpenAI拿到的数据并不是全部,另一方面 OpenAI也口头承诺拿到的数据不会用于模型训练

Besiroglu回应全文如下(中文为机翻):

但对于Besiroglu提到的“口头承诺”,有网友表示至少要有个书面的协议,但猜测OpenAI不会愿意提供,还有人补充说哪怕有书面材料也很难监督实施。

不过到现在,确实是所有的回应都来自Epoch.ai这边,OpenAI还没给出说明。

另外Epoch.ai首席数学家 Ellot Glazer也承诺,之后会对受到的资助进行说明。

对于o3的成绩,Ellot表示Epoch.ai无法给出承诺,但他个人相信OpenAI的报告是准确的,因为在他看来OpenAI“没有撒谎的动机”。

同时他说Epoch.ai正在开发一个保留数据集,能够确保OpenAI在测试之前无法事先接触。

不过有网友对“没有动机”的说法表示怀疑,Ellot也进行了解释,表示OpenAI没有傻到搬起石头砸自己的脚。

话又说回来,o3到现在依然是个黑盒,到底是名副其实还是炒作噱头,等到发布的那天就揭晓答案了。

参考链接:

[1] https://www.lesswrong.com/posts/cu2E8wgmbdZbqeWqb/meemi-s-shortform

[2]https://techcrunch.com/2025/01/19/ai-benchmarking-organization-criticized-for-waiting-to-disclose-funding-from-openai/

[3]https://www.reddit.com/r/singularity/comments/1i4n0r5/this_is_so_disappointing_epoch_ai_the_startup/

量子位智库年终发布 三大年度报告

带你一起回顾2024年 人工智能智能驾驶Robotaxi新趋势, 预见2025年科技行业新机遇

2024年度AI十大趋势报告

Robotaxi2024年度格局报告

智能驾驶2024年度报告

相关内容

热门资讯

河南省2026年度统一考试录用... 本次考试报名有关情况仅通过公布,请报考者予以关注,理性审慎选择职位,避免被虚假信息误导。 本次考试网...
2026新外研社版七年级英语(... 外研社版七年级英语(下册)电子课本可以方便大家随时随地预习或复习课本知识,为此,我们找到外研社版七年...
优化学科布局,同济大学成立2所... 调整优化学科布局,更好服务国家战略。昨天(1月10日),同济大学机械工程与机器人学院、汽车与能源学院...
新高考物理薄弱生选科指南:避开... 在新高考"选科定终身"的规则下,物理学科薄弱的学生常陷入选科焦虑:放弃物理是否意味着专业选择面大幅缩...
朝鲜“万套住宅”震撼亮相,金正... 朝鲜劳动党总书记、国务委员长金正恩1月10日莅临现场指导了进入完工阶段的朝鲜首都平壤和盛地区第四期一...
打着高校旗号的“教授内推”“付... 据央视新闻消息,寒假临近,一些打着高校名义的“教授内推”“‘寒假学堂’营”“招生咨询”等信息层出不穷...
数学薄弱高考生如何选专业?五大... 一、专业选择的核心逻辑:避开短板,聚焦优势 高考志愿填报中,数学能力常成为部分考生的“拦路虎”。数据...
火箭3连败球队到底咋啦?一场巨... 连续两场输给实力并不算突出的开拓者后,火箭队的排名已掉到了西部第6。 更悲催的是,这期间,火箭全队的...
大连8米高梦露雕像悄然被撤,商... 极目新闻记者 张皓 1月11日,网上有消息称,大连中央大道旅游文化购物中心8米高的梦露雕像已悄然撤除...
北京不要分的民办本科院校哪个好 民办本科教育技术革新与品牌解决方案深度分析 行业痛点分析 当前民办本科教育领域面临三大技术挑战:教...