如果AI参加今年高考,能考出什么样的成绩?近日,在2025年高考进入志愿填报阶段的同时,字节跳动Seed团队公布了豆包、DeepSeek、Gemini等5款大模型的高考成绩单:文科总分均在625分以上,理科有3款大模型总成绩超600分,较去年实现跨越式提升,部分模型高考分数预估排名甚至可冲击清华北大。一年时间进步飞速,AI“考生”们有哪些涨分秘籍?
AI高考成绩单出炉
分数飙升,有望冲击清北
近日,各地高考成绩陆续公布,高考也进入志愿填报阶段。一份特殊的“考生”成绩单引发广泛关注——字节跳动Seed团队公布了包括豆包Seed 1.6-Thinking、DeepSeek-R1-0528、Gemini-2.5-Pro-0605、Claude-Sonnet-4、OpenAI-o3-high-0416在内的5个知名大模型参加2025 年山东高考全科试卷的测评结果。若按照传统文理科划分,这5个大模型的文科总分均超过625,其中豆包“考”出了683的最高分。在理科考试中,也有3个大模型总分在600分以上,Gemini 2.5 Pro 以655 分位列第一。
*字节跳动Seed团队公布的2025年5款大模型高考“成绩单”。
而去年极客公园使用2024年高考新课标Ⅰ卷的测试结果显示,9个大模型的文科成绩最高为562 分,理科成绩最高则只有478.5分,相比之下,今年AI“考生”们的分数集体大涨。参加了两次考试的豆包和ChatGPT的成绩均表现出明显进步,ChatGPT文科总分从562上涨至625,理科总分也从469.5涨至579,豆包的文科总分提高了140分,理科更是上涨超过180分。这意味着AI在高考测试中的表现,已经从勉强踩到一本线,进步至能够录取211,甚至重点985高校的水平。
AI“考生”们的分数究竟处于什么水平?山东高考目前采用“3+3”模式,考生自选的3门学科采用赋分制。以豆包的成绩为例,省内多位高三带班经验丰富的资深教师表示,根据过往经验,3门自选科目的赋分相比原始分会有一定程度的提高,预估豆包赋分成绩最高能超过690分。根据最新公布的山东高考成绩一分一段表,690分排名全省前80,而今年清华和北大两所高校在山东的招生总人数预计超过150名。
值得注意的是,高考是一个较好的评估大模型能力的测试场景。高考题目覆盖学科全面,任务形式多样,题型创新性强,能有效检验模型对未见过题目的泛化推理能力。此次大模型在高考成绩上的显著提升,是大模型综合能力进步直观体现。
从数学“学渣”逆袭“学霸”
文理“偏科”问题改善明显
今年AI“考生”们在哪些科目上“提分”显著?对比两年测试结果来看,语数英三门主科中,大模型在语文和英语两科依然发挥稳定,普遍较去年分数略有提升,除o3 由于语文作文跑题仅得95分外,其余模型成绩基本接近优秀考生水平。数学成绩上,大模型则展现出惊人进步,去年参与测试的9个大模型数学平均分不到47分,最高分仅66分;而今年5个大模型数学平均分已飙升至138分,其中豆包、DeepSeek、Gemini的分数均突破140分,彻底完成了从数学“学渣”到“学霸”的蜕变。
*AI“考生”两年高考成绩对比。
*高考数学新一卷单选第6题。
此外,今年测评的大模型在物理、化学、生物三门理科,以及地理这门“文科中的理科”上均提分明显。去年测试中,几乎参与测试的所有大模型的理科成绩都比文科成绩低70至80 分,文科中的地理科目也仅ChatGPT、豆包等三个大模型达到了及格线。其主要原因可能是,物、化、生、地这四门科目较为考验逻辑推理、计算能力,且试题中含有较多的图片信息,这都是传统大语言模型的短板。而今年,随着多模态能力的提升,大模型们成功弥补了地理这一文科短板,豆包、Claude、ChatGPT地理分数均在90分及以上。理科成绩整体上也从“不及格”进步至“良好”水平,其中豆包和Gemini 的物理成绩甚至达到90分左右。
深度思考增强推理能力
多模态能力提升激发模型潜力
今年大模型“考生”们的成绩为何能突飞猛进?其提分秘籍是什么?
一方面,关键在于大模型普遍具备了深度思考能力。专家指出,大语言模型本质上是基于海量资料预测下一个最可能词句的“文字接龙”。这意味着AI是运用概率运算模拟推理,快速输出答案。然而,理科考试特别考验严谨的推理和计算能力,人类考生通常会在草稿纸上理清思路、分步计算,并具备回头检查、修正错误的能力;而传统大模型只是依次生成文本,缺乏这种“打草稿”和主动纠错的机制。而当大模型具备深度思考能力后,推理过程就更接近人类,并能够以每秒50字-100字的速度写出上万字的“草稿”,利用长思维链,将复杂问题层层拆解为子问题,逐步进行推理、验证和反思,从而显著提升解题准确率。
目前,仍有一些因素制约大模型在高考场景中拿更高分数。例如部分试题对计算精度要求较高,而模型在多步骤连续计算过程中仍可能出错;大模型的上下文信息处理能力还存在一定局限性,可能出现前文计算结果在后文被错误引用的情况。随着技术的飞速迭代,明年高考时,AI或许又将迎来新突破。
出品:南都大数据研究院
采写:南都记者 陈袁