2025 年,七家主流大模型也加入了高考这场没有硝烟的 “战争”,本以为会是一场势均力敌的较量,却没想到 DeepSeek 和讯飞星火竟一骑绝尘,率先突破 140 分,让其他模型望尘莫及!
2025 年高考数学刚刚落下帷幕,关于试卷难度的讨论在网络上热度爆棚。而一场特别的 “考试” 也随之展开,七位 AI 大模型 “考生” 受邀参与,它们分别是 DeepSeek R10528、通义千问 Qwen3 - 235B - A22B、讯飞星火 X1 - 0420、豆包 Seed - Thinking - v1.5、文心 X1 Turbo、腾讯混元 Hunyuan T1 latest 以及 GPT o3。
为确保本次 “考试” 评测的准确性,不仅采用了多版本交叉验证,还邀请了拥有十年高中数学教研经验的专家汪鹏老师负责评分。
考试开始,在基础的选择题部分,各模型都表现不错,均顺利答对。然而,随着题目难度上升,差异逐渐显现。在涉及对数函数的选择题中,DeepSeek 和豆包出现了错误。
在解答题第 16 题中,DeepSeek、通义千问、讯飞星火和豆包表现优异,展示了清晰的解题过程,获得满分,而文心 X1 和腾讯混元则出现了不同程度的错误。
难度更高的第 18 题,讯飞星火、豆包、DeepSeek、通义千问和 GPT o3 获得满分,文心 X1 因答案错误失分。
最终成绩揭晓,DeepSeek 以 143 分的成绩勇夺榜首,讯飞星火以 141 分紧随其后,GPT o3 以 138 分位居第三。这场大模型的 “高考数学之战”,让我们看到了 AI 在数学领域的强大实力与无限潜力。
那么问题来了,随着 AI 技术不断发展,未来它们能否在教育领域彻底颠覆传统教学模式呢?让我们拭目以待。