豆包在山东能考上清北？AI“考生”分数集体猛涨，秘籍是啥_考试资料

豆包在山东能考上清北？AI“考生”分数集体猛涨，秘籍是啥

开心田螺

2025-06-30 15:13:22

0次

如果AI参加今年高考，能考出什么样的成绩？近日，在2025年高考进入志愿填报阶段的同时，字节跳动Seed团队公布了豆包、DeepSeek、Gemini等5款大模型的高考成绩单：文科总分均在625分以上，理科有3款大模型总成绩超600分，较去年实现跨越式提升，部分模型高考分数预估排名甚至可冲击清华北大。一年时间进步飞速，AI“考生”们有哪些涨分秘籍？

AI高考成绩单出炉

分数飙升，有望冲击清北

近日，各地高考成绩陆续公布，高考也进入志愿填报阶段。一份特殊的“考生”成绩单引发广泛关注——字节跳动Seed团队公布了包括豆包Seed 1.6-Thinking、DeepSeek-R1-0528、Gemini-2.5-Pro-0605、Claude-Sonnet-4、OpenAI-o3-high-0416在内的5个知名大模型参加2025 年山东高考全科试卷的测评结果。若按照传统文理科划分，这5个大模型的文科总分均超过625，其中豆包“考”出了683的最高分。在理科考试中，也有3个大模型总分在600分以上，Gemini 2.5 Pro 以655 分位列第一。

*字节跳动Seed团队公布的2025年5款大模型高考“成绩单”。

而去年极客公园使用2024年高考新课标Ⅰ卷的测试结果显示，9个大模型的文科成绩最高为562 分，理科成绩最高则只有478.5分，相比之下，今年AI“考生”们的分数集体大涨。参加了两次考试的豆包和ChatGPT的成绩均表现出明显进步，ChatGPT文科总分从562上涨至625，理科总分也从469.5涨至579，豆包的文科总分提高了140分，理科更是上涨超过180分。这意味着AI在高考测试中的表现，已经从勉强踩到一本线，进步至能够录取211，甚至重点985高校的水平。

AI“考生”们的分数究竟处于什么水平？山东高考目前采用“3+3”模式，考生自选的3门学科采用赋分制。以豆包的成绩为例，省内多位高三带班经验丰富的资深教师表示，根据过往经验，3门自选科目的赋分相比原始分会有一定程度的提高，预估豆包赋分成绩最高能超过690分。根据最新公布的山东高考成绩一分一段表，690分排名全省前80，而今年清华和北大两所高校在山东的招生总人数预计超过150名。

值得注意的是，高考是一个较好的评估大模型能力的测试场景。高考题目覆盖学科全面，任务形式多样，题型创新性强，能有效检验模型对未见过题目的泛化推理能力。此次大模型在高考成绩上的显著提升，是大模型综合能力进步直观体现。

从数学“学渣”逆袭“学霸”

文理“偏科”问题改善明显

今年AI“考生”们在哪些科目上“提分”显著？对比两年测试结果来看，语数英三门主科中，大模型在语文和英语两科依然发挥稳定，普遍较去年分数略有提升，除o3 由于语文作文跑题仅得95分外，其余模型成绩基本接近优秀考生水平。数学成绩上，大模型则展现出惊人进步，去年参与测试的9个大模型数学平均分不到47分，最高分仅66分；而今年5个大模型数学平均分已飙升至138分，其中豆包、DeepSeek、Gemini的分数均突破140分，彻底完成了从数学“学渣”到“学霸”的蜕变。

*AI“考生”两年高考成绩对比。

*高考数学新一卷单选第6题。

此外，今年测评的大模型在物理、化学、生物三门理科，以及地理这门“文科中的理科”上均提分明显。去年测试中，几乎参与测试的所有大模型的理科成绩都比文科成绩低70至80 分，文科中的地理科目也仅ChatGPT、豆包等三个大模型达到了及格线。其主要原因可能是，物、化、生、地这四门科目较为考验逻辑推理、计算能力，且试题中含有较多的图片信息，这都是传统大语言模型的短板。而今年，随着多模态能力的提升，大模型们成功弥补了地理这一文科短板，豆包、Claude、ChatGPT地理分数均在90分及以上。理科成绩整体上也从“不及格”进步至“良好”水平，其中豆包和Gemini 的物理成绩甚至达到90分左右。

深度思考增强推理能力

多模态能力提升激发模型潜力

今年大模型“考生”们的成绩为何能突飞猛进？其提分秘籍是什么？

一方面，关键在于大模型普遍具备了深度思考能力。专家指出，大语言模型本质上是基于海量资料预测下一个最可能词句的“文字接龙”。这意味着AI是运用概率运算模拟推理，快速输出答案。然而，理科考试特别考验严谨的推理和计算能力，人类考生通常会在草稿纸上理清思路、分步计算，并具备回头检查、修正错误的能力；而传统大模型只是依次生成文本，缺乏这种“打草稿”和主动纠错的机制。而当大模型具备深度思考能力后，推理过程就更接近人类，并能够以每秒50字-100字的速度写出上万字的“草稿”，利用长思维链，将复杂问题层层拆解为子问题，逐步进行推理、验证和反思，从而显著提升解题准确率。

目前，仍有一些因素制约大模型在高考场景中拿更高分数。例如部分试题对计算精度要求较高，而模型在多步骤连续计算过程中仍可能出错；大模型的上下文信息处理能力还存在一定局限性，可能出现前文计算结果在后文被错误引用的情况。随着技术的飞速迭代，明年高考时，AI或许又将迎来新突破。

出品：南都大数据研究院

采写：南都记者陈袁

分数能力考生 ChatGPT 成绩理科模型高考秘籍集体原创新闻文科豆包

上一篇：玩家攻略科普(陕麻圈是不是有挂)√原来真的有挂

下一篇：玩家分享攻略(狂飙娱乐能不能开挂)√太坑了原来有挂

豆包在山东能考上清北？AI“考生”分数集体猛涨，秘籍是啥

相关内容

热门资讯