咱先唠个AI圈的新鲜事,最近有个被誉为“AI界高考”的ARC-AGI测试火了,考的不是AI能聊多花哨,是抽象推理、学新东西的真本事。
结果你猜怎么着?谷歌刚出的千亿级大模型Gemini 2.5 Pro,居然只考了2%!跟咱上学时没复习、瞎蒙选择题似的。
可这边大模型栽面儿,那边三星的一个“小不点儿”模型却杀出来了,就700万参数,连Gemini的零头都不到,愣是考了44.6%!相当于咱班里平时不显眼的学生,直接拿了年级前十。
更邪乎的是,这小模型可不是只会做卷子。
大模型翻车,小模型捡漏拿第一
比如玩数独,就给它1000个例子学规则,它能答对87.4%的题,比三星之前的老模型翻了一倍还多;走30×30的复杂迷宫,成功率也到了85.3%,比前代强出一截。
我身边搞AI的朋友都说:“这不是逆袭,是把大模型的‘面子’按在地上摩擦。”你说怪不怪?参数少那么多,咋就能比千亿级的大模型还聪明?
其实三星这模型,胜就胜在“脑子活”,它不像大模型那样“闷头蹦词儿”,而是学会了“自我改作业”。
小模型赢的不是堆参数
咱先掰扯掰扯大模型的毛病:比如你让它解个数学题,它像写作文似的逐字蹦答案,前面算错个步骤,后面全歪。
就算你逼它“想想”,也得花老鼻子资源,还容易漏关键步骤。就跟咱上班赶方案,写完不检查,发出去全是错别字。
三星的模型不一样,它像个爱较真的学生:先试着答个题,然后反复琢磨16轮,先看推理过程对不对,再改改步骤,直到没问题才给你最终答案。
这就好比咱做完数学题,回头把草稿纸翻一遍,错的地方画叉改掉,自然不容易翻车。
还有个反常识的事儿:这模型只用了两层神经网络,比四层的还强。
以前大家都觉得“层数越多越牛”,跟房子盖得越高越高级似的。结果三星试了发现,层数多了反而容易“瞎猜”,学太多没用的细节,反而不会举一反三。不如简单点,把“推理”这事儿练扎实。
更省心的是,这小模型不费电!
大模型跑起来像家里开了十台空调,它呢?能耗只有大模型的千分之一甚至万分之一。
以后往手机里装,能帮你算数独;放冰箱里,能提醒你“鸡蛋快没了”;进工厂,能帮机器手调整动作,都不用怕费电。
结语
其实三星这事,给咱普通老百姓提了个醒:AI不是越胖越好,是越“灵”越好。
以前大家都在拼参数,跟邻居家孩子比报了多少补习班似的,结果可能忘了,学得多不如学得精,脑子活比块头大管用。
以后咱身边的AI,可能不是什么千亿级的“大怪物”,而是这种藏在手机、家电、工厂里的“小机灵鬼”:能帮你解决实际问题,不瞎扯淡,还不费电。
你说,这是不是比单纯堆参数更有意思?AI终于要从“烧钱秀肌肉”,变成“踏实干实事”了。咱就等着,以后日子肯定更省心。