小模型逆袭!三星两层网络比四层好,推理能力强到离谱!
开心田螺
2025-10-14 21:20:11
0

咱先唠个AI圈的新鲜事,最近有个被誉为“AI界高考”的ARC-AGI测试火了,考的不是AI能聊多花哨,是抽象推理、学新东西的真本事

结果你猜怎么着?谷歌刚出的千亿级大模型Gemini 2.5 Pro,居然只考了2%!跟咱上学时没复习、瞎蒙选择题似的。

可这边大模型栽面儿,那边三星的一个“小不点儿”模型却杀出来了,就700万参数,连Gemini的零头都不到,愣是考了44.6%!相当于咱班里平时不显眼的学生,直接拿了年级前十。

更邪乎的是,这小模型可不是只会做卷子。

大模型翻车,小模型捡漏拿第一

比如玩数独,就给它1000个例子学规则,它能答对87.4%的题,比三星之前的老模型翻了一倍还多;走30×30的复杂迷宫,成功率也到了85.3%,比前代强出一截。

我身边搞AI的朋友都说:“这不是逆袭,是把大模型的‘面子’按在地上摩擦。”你说怪不怪?参数少那么多,咋就能比千亿级的大模型还聪明?

其实三星这模型,胜就胜在“脑子活”,它不像大模型那样“闷头蹦词儿”,而是学会了“自我改作业”

小模型赢的不是堆参数

咱先掰扯掰扯大模型的毛病:比如你让它解个数学题,它像写作文似的逐字蹦答案,前面算错个步骤,后面全歪。

就算你逼它“想想”,也得花老鼻子资源,还容易漏关键步骤。就跟咱上班赶方案,写完不检查,发出去全是错别字。

三星的模型不一样,它像个爱较真的学生:先试着答个题,然后反复琢磨16轮,先看推理过程对不对,再改改步骤,直到没问题才给你最终答案。

这就好比咱做完数学题,回头把草稿纸翻一遍,错的地方画叉改掉,自然不容易翻车。

还有个反常识的事儿:这模型只用了两层神经网络,比四层的还强。

以前大家都觉得“层数越多越牛”,跟房子盖得越高越高级似的。结果三星试了发现,层数多了反而容易“瞎猜”,学太多没用的细节,反而不会举一反三。不如简单点,把“推理”这事儿练扎实。

更省心的是,这小模型不费电

大模型跑起来像家里开了十台空调,它呢?能耗只有大模型的千分之一甚至万分之一。

以后往手机里装,能帮你算数独;放冰箱里,能提醒你“鸡蛋快没了”;进工厂,能帮机器手调整动作,都不用怕费电。

结语

其实三星这事,给咱普通老百姓提了个醒:AI不是越胖越好,是越“灵”越好

以前大家都在拼参数,跟邻居家孩子比报了多少补习班似的,结果可能忘了,学得多不如学得精,脑子活比块头大管用。

以后咱身边的AI,可能不是什么千亿级的“大怪物”,而是这种藏在手机、家电、工厂里的“小机灵鬼”:能帮你解决实际问题,不瞎扯淡,还不费电。

你说,这是不是比单纯堆参数更有意思?AI终于要从“烧钱秀肌肉”,变成“踏实干实事”了。咱就等着,以后日子肯定更省心。

相关内容

热门资讯

严字当头守公正 温情服务暖人心... 10月12日,贵州考区2025年国家统一法律职业资格主观题考试圆满收官。这场考试不仅以严标准守住了公...
交卷!2025年国家统一法律职... 10月12日下午13时,随着考生准时交卷,2025年国家统一法律职业资格考试主观题考试忻州考区圆满结...
湖南江华:65名农机手参加资格... 近日,湖南江华瑶族自治县农机事务中心组织开展了2025年农机驾驶证资格考试。此次考试旨在为农机手提供...
科研赋能发展丨我县集中“把脉”... 为扎实推进教育科学研究工作,以科研赋能区域教育高质量发展,9月15日至10月10日,县教育和体育局组...
高校劳动教育“应有何为” 清华... 清华大学师生向农民学习“翻地机”使用。清华大学马克思主义学院供图 去年暑假,清华大学新开了一门夏季学...
清华大学技术转移硕士项目202... 来源:新浪科技 近年来,技术转移人才培养得到了政府、社会和教育界的充分重视。党中央、国务院2020年...
青岛留学中介公司 青岛留学中介公司众多,学生和家长在选择时常常感到困惑。作为沿海重要城市,青岛的留学市场呈现出多元化特...
“回炉”大学生薪资反超本科了吗... "回炉"大学生薪资反超本科了吗?职业教育的逆袭真相 在学历通胀的时代,一个特殊群体正在打破"本科至上...
温岭出国留学中介评测:2025... 温岭出国留学中介排行 温岭出国留学中介排行 近年来,温岭学子对海外优质教育资源的追求愈发强烈,留学市...
幼儿园选“公立”还是“私立”?... 引言 随着家庭生活水平的不断提高,越来越多的父母开始注重孩子的教育。从孩子进入幼儿园的那一刻起,许多...