AI“偏科”改善意味着什么
开心田螺
2025-05-31 09:37:33
0

维 辰

6位清华姚班学生与AI比赛做高考数学、物理压轴题,姚班学生10分钟内完成作答,1位同学做错了题目,AI则在输入确认后几秒就开始输出步骤,并答对了题目——最近,企业发布的一个视频让不少人大吃一惊。

犹记得去年7月,一道小学生难度的数学题“9.11和9.9哪个大”,难倒了一众海内外AI大模型。不少评测机构把高考题拿给大模型做,也发现大模型更擅长回答文科试题,而不太擅长回答数学、物理等理科题目,于是有了一个形象的说法:大模型更像文科生而不是理科生。

AI“偏科”,一方面与大模型的架构和运行机制有关,大模型的解答方式本质上是“预测下一个词”,即通过当前输入的文本预测下一个词出现的概率来进行训练和回答。文科推理预测有一两处错误,不影响长文本理解;理科推理则更考察因果性而非相关性,“比如一道数学题包含5步推理和5步计算,假设大语言模型每一步预测准确的概率都有90%,综合下来的准确率就只有35%”。另一方面,文科语料数据丰富多样,有利于训练大模型,理科语料主要是数字和符号,形式单一,数据资源少,不利于训练大模型。

通过“偏科”背后的运行机制,不难看出,大模型的数理能力之所以重要,甚至被认为是大模型“智力的直接体现”“实力的重要分水岭”,正因为它关系到落地应用时的可靠性和准确性。例如,在聊天场景下,智能客服一本正经地胡说八道,影响不大;而在金融、工业场景下,即便是一个数字出错,后果可能都让人吃不消。随着“人工智能+”持续推进,大模型加速赋能千行百业成为行业共识与竞争焦点,改善AI“偏科”,扩展应用场景,就成了必答题。

综合比较不同机构在不同时期的评测,绝大多数大模型的数理能力在提高,有的还能达到“博士”“清北”水平,速度之快让人惊叹。当然,正如专家所说,在真实业务场景中,AI要处理的信息远不止于语言,而是多模态数据的融合,随着多模态技术的发展,AI将从语言模型演进为推理模型,最终发展为世界模型,“在推理与理解能力提升的基础上,下一步的关键方向是智能体”。唯有具备完整决策与执行能力的AI智能体,才能真正实现商业价值的闭环。

去年,第一个具有“专家级数理能力”的大模型出现时,就有人担忧,人工智能的发展速度超过了人类对其认知的速度,人工智能治理将是一个巨大挑战。有学者就提到,“人类用了大概300万年才发展到现在的智力水平,现在的大模型几个月就从IQ 80飙升到130了,未来还会继续提升。这对教育意味着什么?”如今,大模型迭代速度越来越快,性能越来越强大,有望在数理能力等方方面面逼近甚至超过人类平均水平,除了要思考AI治理问题,人机共生时代,回答好如何实现AI与人类优势互补问题,也迫在眉睫。

相关内容

热门资讯

高考后2天挥霍母亲3个月工资,... 高考收卷铃声一响,学生卸下十二年压力。 可不少普通家庭的父母,反倒背上了沉重的经济包袱。 最近网上一...
守护数字时代的童年②|成都市青... 为深入落实《中华人民共和国学前教育法》,落地国家、四川省、成都市学前教育宣传月部署要求,青羊区紧扣“...
这一周,灯光为同一届年轻人亮起... 六月中下旬,高校毕业季进入最后的沸腾期。灯光秀、草坪音乐节、毕业集市、跳蚤市场,在同一周里密集铺排。...
2026年初中学业水平考试温馨... 各位考生: 时光不辍,岁月耕深;盛夏将至,少年逐光。云南省2026年初中学业水平考试将于6月16—2...
商丘市自然资源和规划局示范区分... 为弘扬中华民族优秀传统文化,深入挖掘传统节日蕴含的爱国主义教育资源,增强民族自豪感与文化自信,商丘市...
2025年印尼逾3万人参加汉语... 雅加达6月14日电 (记者 李志全)印度尼西亚中文学习热持续升温。中国驻印尼大使王鲁彤14日表示,2...
即将投用!西安新建一所优质公办... 日前 位于未央区团结片区的 新建九年一贯制公办学校 西安市未央区红旗学校 所有教学楼主体结构已经封顶...
高考落幕 法护青春|这些法律要... 盛夏执笔收官,少年奔赴新程。2026年高考圆满落下帷幕,学子们卸下多年备考压力,迎来最自由的暑期时光...
2026秋新北师大三年级上册电... 需电子版PDF,看昵称后字母,+绿色,备注电子课本 二升三家长注意啦,暑假预习的课本要用左上角有20...