豆包在山东能考上清北?AI“考生”分数集体猛涨,秘籍是啥
开心田螺
2025-06-30 15:13:22
0

如果AI参加今年高考,能考出什么样的成绩?近日,在2025年高考进入志愿填报阶段的同时,字节跳动Seed团队公布了豆包、DeepSeekGemini5款大模型的高考成绩单:文科总分均在625分以上,理科有3款大模型总成绩超600分,较去年实现跨越式提升,部分模型高考分数预估排名甚至可冲击清华北大。一年时间进步飞速,AI“考生”们有哪些涨分秘籍?

AI高考成绩单出炉

分数飙升,有望冲击清北

近日,各地高考成绩陆续公布,高考也进入志愿填报阶段。一份特殊的“考生”成绩单引发广泛关注——字节跳动Seed团队公布了包括豆包Seed 1.6-ThinkingDeepSeek-R1-0528Gemini-2.5-Pro-0605Claude-Sonnet-4OpenAI-o3-high-0416在内的5个知名大模型参加2025 年山东高考全科试卷的测评结果。若按照传统文理科划分,这5个大模型的文科总分均超过625,其中豆包“考”出了683的最高分。在理科考试中,也有3个大模型总分在600分以上,Gemini 2.5 Pro 655 分位列第一。

*字节跳动Seed团队公布的20255款大模型高考“成绩单”。

而去年极客公园使用2024年高考新课标Ⅰ卷的测试结果显示,9个大模型的文科成绩最高为562 分,理科成绩最高则只有478.5分,相比之下,今年AI“考生”们的分数集体大涨。参加了两次考试的豆包和ChatGPT的成绩均表现出明显进步,ChatGPT文科总分从562上涨至625,理科总分也从469.5涨至579,豆包的文科总分提高了140分,理科更是上涨超过180分。这意味着AI在高考测试中的表现,已经从勉强踩到一本线,进步至能够录取211,甚至重点985高校的水平。

AI“考生”们的分数究竟处于什么水平?山东高考目前采用“3+3”模式,考生自选的3门学科采用赋分制。以豆包的成绩为例,省内多位高三带班经验丰富的资深教师表示,根据过往经验,3门自选科目的赋分相比原始分会有一定程度的提高,预估豆包赋分成绩最高能超过690分。根据最新公布的山东高考成绩一分一段表,690分排名全省前80,而今年清华和北大两所高校在山东的招生总人数预计超过150名。

值得注意的是,高考是一个较好的评估大模型能力的测试场景。高考题目覆盖学科全面,任务形式多样,题型创新性强,能有效检验模型对未见过题目的泛化推理能力。此次大模型在高考成绩上的显著提升,是大模型综合能力进步直观体现。

从数学“学渣”逆袭“学霸”

文理“偏科”问题改善明显

今年AI“考生”们在哪些科目上“提分”显著?对比两年测试结果来看,语数英三门主科中,大模型在语文和英语两科依然发挥稳定,普遍较去年分数略有提升,除o3 由于语文作文跑题仅得95分外,其余模型成绩基本接近优秀考生水平。数学成绩上,大模型则展现出惊人进步,去年参与测试的9个大模型数学平均分不到47分,最高分仅66分;而今年5个大模型数学平均分已飙升至138分,其中豆包、DeepSeekGemini的分数均突破140分,彻底完成了从数学“学渣”到“学霸”的蜕变。

*AI“考生”两年高考成绩对比。

*高考数学新一卷单选第6题。

此外,今年测评的大模型在物理、化学、生物三门理科,以及地理这门“文科中的理科”上均提分明显。去年测试中,几乎参与测试的所有大模型的理科成绩都比文科成绩低7080 分,文科中的地理科目也仅ChatGPT、豆包等三个大模型达到了及格线。其主要原因可能是,物、化、生、地这四门科目较为考验逻辑推理、计算能力,且试题中含有较多的图片信息,这都是传统大语言模型的短板。而今年,随着多模态能力的提升,大模型们成功弥补了地理这一文科短板,豆包、ClaudeChatGPT地理分数均在90分及以上。理科成绩整体上也从“不及格”进步至“良好”水平,其中豆包和Gemini 的物理成绩甚至达到90分左右。

深度思考增强推理能力

多模态能力提升激发模型潜力

今年大模型“考生”们的成绩为何能突飞猛进?其提分秘籍是什么?

一方面,关键在于大模型普遍具备了深度思考能力。专家指出,大语言模型本质上是基于海量资料预测下一个最可能词句的“文字接龙”。这意味着AI是运用概率运算模拟推理,快速输出答案。然而,理科考试特别考验严谨的推理和计算能力,人类考生通常会在草稿纸上理清思路、分步计算,并具备回头检查、修正错误的能力;而传统大模型只是依次生成文本,缺乏这种“打草稿”和主动纠错的机制。而当大模型具备深度思考能力后,推理过程就更接近人类,并能够以每秒50-100字的速度写出上万字的“草稿”,利用长思维链,将复杂问题层层拆解为子问题,逐步进行推理、验证和反思,从而显著提升解题准确率。

目前,仍有一些因素制约大模型在高考场景中拿更高分数。例如部分试题对计算精度要求较高,而模型在多步骤连续计算过程中仍可能出错;大模型的上下文信息处理能力还存在一定局限性,可能出现前文计算结果在后文被错误引用的情况。随着技术的飞速迭代,明年高考时,AI或许又将迎来新突破。

出品:南都大数据研究院

采写:南都记者 陈袁

相关内容

热门资讯

多学科赋能身心健康!这场论坛助... 12月12日,海淀区中小学生心理健康工作咨询委员会成立仪式在首都师范大学附属中学举行,标志着海淀区学...
以“陪餐制”为契机,全面优化校... 近日,广东省教育厅发布关于公开征求《广东省学校学生食堂陪餐工作指引(征求意见稿)》意见的公告(下称《...
载誉前行!细数兴智家庭教育那些... 荣誉,是实力最直观的注脚,也是信赖最坚实的基石。对于选择家庭教育服务的家长而言,机构的荣誉墙往往是最...
教育部要求减少日常考试测试频次 据教育部官网12月17日消息,近日,教育部印发《关于进一步加强中小学日常考试管理的通知》(以下简称《...
泰安留学机构口碑排名榜 一、泰安学生如何选择留学中介?这份口碑排名或许能给你答案 “泰安哪家留学中介比较靠谱?”“在泰安找...
澄江市:“党建+思政教育”激发... 近年来,澄江市以“党建+思政教育”模式推进中小学思政课课程体系建设,逐步构建起“小学抓启蒙、初中打基...
京山市绀弩小学英语课例亮相“荆... 12月18日,“荆门好课堂”小学英语课例展示研讨活动在荆门市掇刀区名泉小学圆满举行。湖北省京山市绀弩...
北京国际高中推荐:十大文书修改... 对于许多计划送孩子出国留学的北京家庭而言,申请季无疑是一场硬仗。除了优异的学术成绩,一份出色的个人文...
高中要严格控制考试次数!教育部... 近日,教育部办公厅印发《关于进一步加强中小学日常考试管理的通知》,要求减少日常考试测试频次,提升日常...
华师大教授戴建业:我老婆一盒药... 华师大教授戴建业,虽然学识渊博,但因频繁讲座和出版书籍,被一些学生批评缺乏文人风骨。对于这些非议,戴...