小模型逆袭!三星两层网络比四层好,推理能力强到离谱!
开心田螺
2025-10-14 21:20:11
0

咱先唠个AI圈的新鲜事,最近有个被誉为“AI界高考”的ARC-AGI测试火了,考的不是AI能聊多花哨,是抽象推理、学新东西的真本事

结果你猜怎么着?谷歌刚出的千亿级大模型Gemini 2.5 Pro,居然只考了2%!跟咱上学时没复习、瞎蒙选择题似的。

可这边大模型栽面儿,那边三星的一个“小不点儿”模型却杀出来了,就700万参数,连Gemini的零头都不到,愣是考了44.6%!相当于咱班里平时不显眼的学生,直接拿了年级前十。

更邪乎的是,这小模型可不是只会做卷子。

大模型翻车,小模型捡漏拿第一

比如玩数独,就给它1000个例子学规则,它能答对87.4%的题,比三星之前的老模型翻了一倍还多;走30×30的复杂迷宫,成功率也到了85.3%,比前代强出一截。

我身边搞AI的朋友都说:“这不是逆袭,是把大模型的‘面子’按在地上摩擦。”你说怪不怪?参数少那么多,咋就能比千亿级的大模型还聪明?

其实三星这模型,胜就胜在“脑子活”,它不像大模型那样“闷头蹦词儿”,而是学会了“自我改作业”

小模型赢的不是堆参数

咱先掰扯掰扯大模型的毛病:比如你让它解个数学题,它像写作文似的逐字蹦答案,前面算错个步骤,后面全歪。

就算你逼它“想想”,也得花老鼻子资源,还容易漏关键步骤。就跟咱上班赶方案,写完不检查,发出去全是错别字。

三星的模型不一样,它像个爱较真的学生:先试着答个题,然后反复琢磨16轮,先看推理过程对不对,再改改步骤,直到没问题才给你最终答案。

这就好比咱做完数学题,回头把草稿纸翻一遍,错的地方画叉改掉,自然不容易翻车。

还有个反常识的事儿:这模型只用了两层神经网络,比四层的还强。

以前大家都觉得“层数越多越牛”,跟房子盖得越高越高级似的。结果三星试了发现,层数多了反而容易“瞎猜”,学太多没用的细节,反而不会举一反三。不如简单点,把“推理”这事儿练扎实。

更省心的是,这小模型不费电

大模型跑起来像家里开了十台空调,它呢?能耗只有大模型的千分之一甚至万分之一。

以后往手机里装,能帮你算数独;放冰箱里,能提醒你“鸡蛋快没了”;进工厂,能帮机器手调整动作,都不用怕费电。

结语

其实三星这事,给咱普通老百姓提了个醒:AI不是越胖越好,是越“灵”越好

以前大家都在拼参数,跟邻居家孩子比报了多少补习班似的,结果可能忘了,学得多不如学得精,脑子活比块头大管用。

以后咱身边的AI,可能不是什么千亿级的“大怪物”,而是这种藏在手机、家电、工厂里的“小机灵鬼”:能帮你解决实际问题,不瞎扯淡,还不费电。

你说,这是不是比单纯堆参数更有意思?AI终于要从“烧钱秀肌肉”,变成“踏实干实事”了。咱就等着,以后日子肯定更省心。

相关内容

热门资讯

高台县总工会开展“玫瑰书香 阅... 为倡导全民阅读、高质量亲子陪伴理念,持续深化“玫瑰书香+”品牌内涵,6月13日,高台县总工会组织30...
送孩子去芬兰求学,能低成本撬动... 当人们谈论芬兰,脑海中浮现的往往是一幅北欧童话:PISA测试中名列前茅的“快乐教育”,覆盖终身的高福...
安徽中药科技学校激励学子以拼搏... 6月12日,安徽中药科技学校党委书记侯广宇为药学系全体师生作了一场题为《爱拼才会赢》主题报告,激励广...
【心理健康】同上一堂心理课 6月10日下午,安吉县首届“青心解码”心理剧展演在实验小学报告厅举行,经过征集选拔,代表小学、初中、...
上交大、北航、南大、中国农大、... 高考结束后,多所高校都于近期发布2026年本科生招生计划,向毕业生们抛出“橄榄枝”。上海交通大学、北...
我重新理解了专业的价值 对很多艺体生来说,高考的选择题,其实很早就开始了。 在很多同学还把全部精力放在文化课上的时候,我已经...
一文看懂实习期和试用期的区别。 试用期是用人单位和劳动者为相互了解、选择而约定的不超过六个月的考察期。 实习是人才培养的重要组成部分...
广东24所大学入围国内150强... 最近校友会2026年大学排行榜公布,很多家长、学生都在关注,讨论度很高,尤其是广东高校排名。根据最新...
康复大学校园开放日吸引千余考生... 齐鲁晚报·齐鲁壹点 翟元昊 通讯员 徐慧敏 实习生 史俊杰 6月14日,正值2026年山东高考结束后...
AI北语,我们的全新体验 近年来,学校持续推动教育技术普及、数字素养培育、智慧校园建设与智慧课程构建,常态化开展教育技术培训周...