AI“偏科”改善意味着什么
开心田螺
2025-05-31 09:37:33
0

维 辰

6位清华姚班学生与AI比赛做高考数学、物理压轴题,姚班学生10分钟内完成作答,1位同学做错了题目,AI则在输入确认后几秒就开始输出步骤,并答对了题目——最近,企业发布的一个视频让不少人大吃一惊。

犹记得去年7月,一道小学生难度的数学题“9.11和9.9哪个大”,难倒了一众海内外AI大模型。不少评测机构把高考题拿给大模型做,也发现大模型更擅长回答文科试题,而不太擅长回答数学、物理等理科题目,于是有了一个形象的说法:大模型更像文科生而不是理科生。

AI“偏科”,一方面与大模型的架构和运行机制有关,大模型的解答方式本质上是“预测下一个词”,即通过当前输入的文本预测下一个词出现的概率来进行训练和回答。文科推理预测有一两处错误,不影响长文本理解;理科推理则更考察因果性而非相关性,“比如一道数学题包含5步推理和5步计算,假设大语言模型每一步预测准确的概率都有90%,综合下来的准确率就只有35%”。另一方面,文科语料数据丰富多样,有利于训练大模型,理科语料主要是数字和符号,形式单一,数据资源少,不利于训练大模型。

通过“偏科”背后的运行机制,不难看出,大模型的数理能力之所以重要,甚至被认为是大模型“智力的直接体现”“实力的重要分水岭”,正因为它关系到落地应用时的可靠性和准确性。例如,在聊天场景下,智能客服一本正经地胡说八道,影响不大;而在金融、工业场景下,即便是一个数字出错,后果可能都让人吃不消。随着“人工智能+”持续推进,大模型加速赋能千行百业成为行业共识与竞争焦点,改善AI“偏科”,扩展应用场景,就成了必答题。

综合比较不同机构在不同时期的评测,绝大多数大模型的数理能力在提高,有的还能达到“博士”“清北”水平,速度之快让人惊叹。当然,正如专家所说,在真实业务场景中,AI要处理的信息远不止于语言,而是多模态数据的融合,随着多模态技术的发展,AI将从语言模型演进为推理模型,最终发展为世界模型,“在推理与理解能力提升的基础上,下一步的关键方向是智能体”。唯有具备完整决策与执行能力的AI智能体,才能真正实现商业价值的闭环。

去年,第一个具有“专家级数理能力”的大模型出现时,就有人担忧,人工智能的发展速度超过了人类对其认知的速度,人工智能治理将是一个巨大挑战。有学者就提到,“人类用了大概300万年才发展到现在的智力水平,现在的大模型几个月就从IQ 80飙升到130了,未来还会继续提升。这对教育意味着什么?”如今,大模型迭代速度越来越快,性能越来越强大,有望在数理能力等方方面面逼近甚至超过人类平均水平,除了要思考AI治理问题,人机共生时代,回答好如何实现AI与人类优势互补问题,也迫在眉睫。

相关内容

热门资讯

网友转发事故视频,交警致电要求... 12月18日,河北一网友转发高速公路事故视频后,有自称高速交警的人来电沟通删视频。他质疑对方获取自己...
跨域联动研衔接 幼小融合共成长... 跨域联动研衔接 幼小融合共成长 彭山区学前教育名师工作室联合研修活动 为深化学前与小学低年级数学教学...
英国重回欧盟学生交流项目 显示... 英国和欧盟17日宣布,双方同意英国重新加入欧盟的学生交流项目“伊拉斯谟+计划”,英国学生可从2027...
特别关注|教育部发文,进一步加... 近日,教育部印发《关于进一步加强中小学日常考试管理的通知》(以下简称《通知》),要求减少日常考试测试...
跑道上的风景线:吕楼小学跑操正... 为丰富校园体育生活,增强学生身体素质,沛县河口镇吕楼小学坚持开展第一节课后跑操活动。 下课铃响,...
枣庄科技职业学院召开第三次团代... 为确保共青团枣庄科技职业学院第三次代表大会暨第八次学生代表大会顺利召开,统一思想、明确任务、凝聚共识...
教育部20条举措,事关中小学生... 近日,教育部办公厅印发《关于进一步加强中小学日常考试管理的通知》,要求减少日常考试测试频次,提升日常...
AI加速重塑商业模式 专家学者... 来源:中国经营报 中经记者 方超 石英婧 上海报道 在人工智能(AI)浪潮风起云涌之时,其对千行百业...
2025中外青少年人文交流暨教... 中新网重庆12月20日电 (记者 钟旖)12月19日至20日,2025中外青少年人文交流暨教育年会(...
十大广州深圳英国留学精品指导中... 一、广州深圳地区如何挑选英国留学中介? 许多广州和深圳的学生及家长在搜索引擎中常会提出这样的问题:...