文科成绩683分,理科648分。
近日,豆包Seed1.6-Thinking模型测试了2025高考全科,交出一份成绩优异的答卷。该测试采用全国新一卷和山东省自主命题。
豆包多项考试成绩优异,高考成绩直逼“清北”
随着高考的结束,AI大模型也开启了一轮“竞技”。
2025年高考测试结果显示,豆包的语文、英语、物理、历史、地理、政治六门学科获最高分,数学成绩也超过140分;DeepSeek R1获得数学最高分145分;Gemini 2.5 Pro以82分获得化学最高分,并与OpenAI o3一起获得生物最高分,成绩为77分。
这样的成绩是什么水平?《半岛都市报》专门咨询了省内多位有着多年高三带班经验的资深教师:本次除化学成绩相对稍低外,预估豆包大模型1.6的其余科目组合的赋分成绩最高能超过690分,具备冲击“清北”的水平。
“因为根据过往经验判断,3门自选科目的赋分相比原始分会有一定程度的提高,尤其是在化学、物理等难度较大的科目上。”上述资深老师表示。
6月25日,山东高考公布一分一段表,690分排名全省前80左右。清华北大在山东的招生人数超过150名,这意味着豆包Seed1.6-Thinking模型测试成绩超过“清北”录取线。
在另一项国际测试中,豆包成绩依然拔得头筹。JEE Advanced是印度理工学院的第二阶段入学考试,每年数百万人参加第一阶段考试,其中前25万进入第二阶段考试。考试分两场,每场3小时,同时考查数学、物理、化学三科。
对比全印度人考生,第一名为332分,第10名为317分,Gemini-2.5-Pro 和 Seed1.6-Thinking 可取得全印度top 10的成绩。Gemini-2.5-Pro 物理/化学表现出色,Seed1.6-Thinking 在5次采样的数学测试中回答全部正确。
豆包不“偏科”,推理效果和性能更加平衡
细心的网友可能看到,豆包理科成绩怎么比文科差几十分?AI大模型是不是偏科呀?
Seed团队表示,首次测试时使用的网络版考卷清晰度较低,各大模型在化学、生物两门非常依赖图像的考试中丢分较多。该团队在获得更高清版本的高考试题图片后,采用图文交织的方式对化学和生物重新进行测试,发现豆包模型在这两科上能够提升近30分,理科总成绩可达到676分,验证了全模态推理可以更大程度激发模型的潜力。
这不但证明了豆包Seed1.6-Thinking模型并不偏科,同时也具备了较好的视觉推理能力。也说明结合文本和图片进行全模态推理可以更大程度激发模型的潜力,相信这也是未来值得投入的研究方向。
另外,Seed团队还提出了“动态思考能力”(AutoCoT),提供全思考、不思考、自适应思考三种推理模式,在保证效果的同时大幅压缩了CoT长度。为了实现动态思考能力,团队在RL训练中引入新的奖励函数——惩罚过度思考、奖励恰当思考。
“Seed1.6系列模型是Seed团队在推理效果和性能平衡上的一次较好尝试,同时模型从预训练到后训练融合了VLM多模态能力。”Seed团队表示。
AI在高考领域展现出的潜力引发关注,6月19日,清华大学沈阳教授团队发布的《AI赋能教育:高考志愿填报工具使用指南》分析了志愿填报中的常见误区与AI解决方案。其中,“唯分数论,忽视位次”“唯热门论,忽视发展性”“忽视地域因素影响”等,都可以通过AI功能有效规避和辅助决策。
豆包大模型Seed1.6是字节跳动Seed团队推出的最新通用模型系列,融合了多模态能力,支持自适应的深度思考、多模态理解、图形界面操作,且支持256K长上下文的深度推理。目前,Seed1.6系列已通过火山引擎对外开放API调用。
文/张帅