豆包在山东能考上清北?AI“考生”分数集体猛涨,秘籍是啥
开心田螺
2025-06-30 15:13:22
0

如果AI参加今年高考,能考出什么样的成绩?近日,在2025年高考进入志愿填报阶段的同时,字节跳动Seed团队公布了豆包、DeepSeekGemini5款大模型的高考成绩单:文科总分均在625分以上,理科有3款大模型总成绩超600分,较去年实现跨越式提升,部分模型高考分数预估排名甚至可冲击清华北大。一年时间进步飞速,AI“考生”们有哪些涨分秘籍?

AI高考成绩单出炉

分数飙升,有望冲击清北

近日,各地高考成绩陆续公布,高考也进入志愿填报阶段。一份特殊的“考生”成绩单引发广泛关注——字节跳动Seed团队公布了包括豆包Seed 1.6-ThinkingDeepSeek-R1-0528Gemini-2.5-Pro-0605Claude-Sonnet-4OpenAI-o3-high-0416在内的5个知名大模型参加2025 年山东高考全科试卷的测评结果。若按照传统文理科划分,这5个大模型的文科总分均超过625,其中豆包“考”出了683的最高分。在理科考试中,也有3个大模型总分在600分以上,Gemini 2.5 Pro 655 分位列第一。

*字节跳动Seed团队公布的20255款大模型高考“成绩单”。

而去年极客公园使用2024年高考新课标Ⅰ卷的测试结果显示,9个大模型的文科成绩最高为562 分,理科成绩最高则只有478.5分,相比之下,今年AI“考生”们的分数集体大涨。参加了两次考试的豆包和ChatGPT的成绩均表现出明显进步,ChatGPT文科总分从562上涨至625,理科总分也从469.5涨至579,豆包的文科总分提高了140分,理科更是上涨超过180分。这意味着AI在高考测试中的表现,已经从勉强踩到一本线,进步至能够录取211,甚至重点985高校的水平。

AI“考生”们的分数究竟处于什么水平?山东高考目前采用“3+3”模式,考生自选的3门学科采用赋分制。以豆包的成绩为例,省内多位高三带班经验丰富的资深教师表示,根据过往经验,3门自选科目的赋分相比原始分会有一定程度的提高,预估豆包赋分成绩最高能超过690分。根据最新公布的山东高考成绩一分一段表,690分排名全省前80,而今年清华和北大两所高校在山东的招生总人数预计超过150名。

值得注意的是,高考是一个较好的评估大模型能力的测试场景。高考题目覆盖学科全面,任务形式多样,题型创新性强,能有效检验模型对未见过题目的泛化推理能力。此次大模型在高考成绩上的显著提升,是大模型综合能力进步直观体现。

从数学“学渣”逆袭“学霸”

文理“偏科”问题改善明显

今年AI“考生”们在哪些科目上“提分”显著?对比两年测试结果来看,语数英三门主科中,大模型在语文和英语两科依然发挥稳定,普遍较去年分数略有提升,除o3 由于语文作文跑题仅得95分外,其余模型成绩基本接近优秀考生水平。数学成绩上,大模型则展现出惊人进步,去年参与测试的9个大模型数学平均分不到47分,最高分仅66分;而今年5个大模型数学平均分已飙升至138分,其中豆包、DeepSeekGemini的分数均突破140分,彻底完成了从数学“学渣”到“学霸”的蜕变。

*AI“考生”两年高考成绩对比。

*高考数学新一卷单选第6题。

此外,今年测评的大模型在物理、化学、生物三门理科,以及地理这门“文科中的理科”上均提分明显。去年测试中,几乎参与测试的所有大模型的理科成绩都比文科成绩低7080 分,文科中的地理科目也仅ChatGPT、豆包等三个大模型达到了及格线。其主要原因可能是,物、化、生、地这四门科目较为考验逻辑推理、计算能力,且试题中含有较多的图片信息,这都是传统大语言模型的短板。而今年,随着多模态能力的提升,大模型们成功弥补了地理这一文科短板,豆包、ClaudeChatGPT地理分数均在90分及以上。理科成绩整体上也从“不及格”进步至“良好”水平,其中豆包和Gemini 的物理成绩甚至达到90分左右。

深度思考增强推理能力

多模态能力提升激发模型潜力

今年大模型“考生”们的成绩为何能突飞猛进?其提分秘籍是什么?

一方面,关键在于大模型普遍具备了深度思考能力。专家指出,大语言模型本质上是基于海量资料预测下一个最可能词句的“文字接龙”。这意味着AI是运用概率运算模拟推理,快速输出答案。然而,理科考试特别考验严谨的推理和计算能力,人类考生通常会在草稿纸上理清思路、分步计算,并具备回头检查、修正错误的能力;而传统大模型只是依次生成文本,缺乏这种“打草稿”和主动纠错的机制。而当大模型具备深度思考能力后,推理过程就更接近人类,并能够以每秒50-100字的速度写出上万字的“草稿”,利用长思维链,将复杂问题层层拆解为子问题,逐步进行推理、验证和反思,从而显著提升解题准确率。

目前,仍有一些因素制约大模型在高考场景中拿更高分数。例如部分试题对计算精度要求较高,而模型在多步骤连续计算过程中仍可能出错;大模型的上下文信息处理能力还存在一定局限性,可能出现前文计算结果在后文被错误引用的情况。随着技术的飞速迭代,明年高考时,AI或许又将迎来新突破。

出品:南都大数据研究院

采写:南都记者 陈袁

相关内容

中考开考!惠阳1.3万名考...
6月30日,2025年惠州市初中学业水平考试(中考)拉开序幕,为期...
2025-06-30 20:18:49
南大附中2025届毕业生交...
晨报讯(谢云 通讯员 郭嘉敏)在“弘毅励学,厚德载物”的校训精神熏...
2025-06-30 20:18:03
西交利物浦大学4+0难进吗...
写在前面: 西交利物浦大学“4+0”项目的录取门槛不低,需满足较高...
2025-06-30 20:16:43
探新校 │ 江苏省锡山高级...
无锡中招 2025 无锡市第一中学太湖新城分校、江苏省天一中学新吴...
2025-06-30 20:00:39
12月2日:全国交通安全日...
全国交通安全日是每年的12月2日。这个日子旨在提高公众的交通安全意...
2025-06-30 20:00:07
鲁迅论焦大与林黛玉:爱之界...
鲁迅先生的这句话实际上是对人物性格和社会地位之间关系的一种讽刺性描...
2025-06-30 20:00:03
关于2025年高唐县公开招...
根据《2025年高唐县公开招聘教师简章》(以下简称《简章》)要求,...
2025-06-30 19:45:22
想拿高分?在马来西亚留学一...
马来西亚留学,怎么保障高绩点? 你以为出国留学靠的是英语好、智商高...
2025-06-30 19:44:36
印度留学生在国内某高校集中...
据报道,印度留学生集中学习光伏特电压技术,并不代表东方大国企业停止...
2025-06-30 19:30:07

热门资讯

玩家最新攻略(八闽福建麻将有没... 有 亲,根据资深记者爆料八闽福建麻将是可以开挂的,确实有挂(咨询软件无需...
今日重大通报(海岛互娱到底是不... 有 亲,根据资深记者爆料海岛互娱是可以开挂的,确实有挂(咨询软件无需打开...
今日资讯(微乐陕西三代真的有挂... 有 亲,根据资深记者爆料微乐陕西三代是可以开挂的,确实有挂(咨询软件无需...
独家推荐(蛮王牛牛为什么一直输... 有 亲,根据资深记者爆料蛮王牛牛是可以开挂的,确实有挂(咨询软件无需打开...
实测分享(新众亿炸金花是不是有... 有 亲,根据资深记者爆料新众亿炸金花是可以开挂的,确实有挂(咨询软件无需...
玩家攻略科普(边锋老友麻将怎么... 有 亲,根据资深记者爆料边锋老友麻将是可以开挂的,确实有挂(咨询软件无需...
实测讲解(畅游贵州麻将开挂神器... 有 亲,根据资深记者爆料畅游贵州麻将是可以开挂的,确实有挂(咨询软件无需...
我来教教您(微信红包究竟有挂吗... 有 亲,根据资深记者爆料微信红包是可以开挂的,确实有挂(咨询软件无需打开...
实测分享(永盈棋牌怎么开挂)√... 有 亲,根据资深记者爆料永盈棋牌是可以开挂的,确实有挂(咨询软件无需打开...
今日重大消息(新九天炸金花开挂... 有 亲,根据资深记者爆料新九天炸金花是可以开挂的,确实有挂(咨询软件无需...