小模型逆袭!三星两层网络比四层好,推理能力强到离谱!
开心田螺
2025-10-14 21:20:11
0

咱先唠个AI圈的新鲜事,最近有个被誉为“AI界高考”的ARC-AGI测试火了,考的不是AI能聊多花哨,是抽象推理、学新东西的真本事

结果你猜怎么着?谷歌刚出的千亿级大模型Gemini 2.5 Pro,居然只考了2%!跟咱上学时没复习、瞎蒙选择题似的。

可这边大模型栽面儿,那边三星的一个“小不点儿”模型却杀出来了,就700万参数,连Gemini的零头都不到,愣是考了44.6%!相当于咱班里平时不显眼的学生,直接拿了年级前十。

更邪乎的是,这小模型可不是只会做卷子。

大模型翻车,小模型捡漏拿第一

比如玩数独,就给它1000个例子学规则,它能答对87.4%的题,比三星之前的老模型翻了一倍还多;走30×30的复杂迷宫,成功率也到了85.3%,比前代强出一截。

我身边搞AI的朋友都说:“这不是逆袭,是把大模型的‘面子’按在地上摩擦。”你说怪不怪?参数少那么多,咋就能比千亿级的大模型还聪明?

其实三星这模型,胜就胜在“脑子活”,它不像大模型那样“闷头蹦词儿”,而是学会了“自我改作业”

小模型赢的不是堆参数

咱先掰扯掰扯大模型的毛病:比如你让它解个数学题,它像写作文似的逐字蹦答案,前面算错个步骤,后面全歪。

就算你逼它“想想”,也得花老鼻子资源,还容易漏关键步骤。就跟咱上班赶方案,写完不检查,发出去全是错别字。

三星的模型不一样,它像个爱较真的学生:先试着答个题,然后反复琢磨16轮,先看推理过程对不对,再改改步骤,直到没问题才给你最终答案。

这就好比咱做完数学题,回头把草稿纸翻一遍,错的地方画叉改掉,自然不容易翻车。

还有个反常识的事儿:这模型只用了两层神经网络,比四层的还强。

以前大家都觉得“层数越多越牛”,跟房子盖得越高越高级似的。结果三星试了发现,层数多了反而容易“瞎猜”,学太多没用的细节,反而不会举一反三。不如简单点,把“推理”这事儿练扎实。

更省心的是,这小模型不费电

大模型跑起来像家里开了十台空调,它呢?能耗只有大模型的千分之一甚至万分之一。

以后往手机里装,能帮你算数独;放冰箱里,能提醒你“鸡蛋快没了”;进工厂,能帮机器手调整动作,都不用怕费电。

结语

其实三星这事,给咱普通老百姓提了个醒:AI不是越胖越好,是越“灵”越好

以前大家都在拼参数,跟邻居家孩子比报了多少补习班似的,结果可能忘了,学得多不如学得精,脑子活比块头大管用。

以后咱身边的AI,可能不是什么千亿级的“大怪物”,而是这种藏在手机、家电、工厂里的“小机灵鬼”:能帮你解决实际问题,不瞎扯淡,还不费电。

你说,这是不是比单纯堆参数更有意思?AI终于要从“烧钱秀肌肉”,变成“踏实干实事”了。咱就等着,以后日子肯定更省心。

相关内容

热门资讯

航空港消防聚焦“开学第一课” ... 为扎实开展校园消防安全“开学第一课”,提升全体师生防灾避险和自防自救能力,筑牢校园安全防线,近日,航...
古浪四中:“健康第一”行动进行... 2026年春学期,古浪四中结合寄宿制学校实际,制定并实施《2026年“健康第一”专项行动实施方案》,...
法治宣讲进校园 安全守护伴成长 近日,公安高陵分局鹿苑派出所民警巩昊走进昭慧中学,用一场生动的法治安全教育专题讲座,助力同学们健康成...
校友会2026德阳市职业技术大... 1月12日,全国第三方大学评价机构艾瑞深校友会网(Cuaa.net)正式发布校友会2026中国大学排...
童心筑梦绘新春 指尖传情启新程... 本网讯(通讯员:任洁)春启新程,艺韵满园。澧县码头铺镇中小学以“传承传统、创意实践、亲子共育”为核心...
北京科技职业大学增8个新专业 北京科技职业大学昨天举办校园开放日,大批学生及家长到场咨询。 本报记者 金瑶摄 本报讯(记者 何蕊 ...
澳洲留学申请材料大全 近年来,随着澳大利亚留学政策持续优化,越来越多中国家庭将目光投向这片南半球教育热土。尤其在低龄留学趋...
校友会2026景德镇市职业技术... 1月12日,全国第三方大学评价机构艾瑞深校友会网(Cuaa.net)正式发布校友会2026中国大学排...
市教育局加强中职学校教材管理 ... 3月11日至12日,市教育局专项核查组到市直中职学校和县区职业学校开展全市中等职业学校教材管理全面核...
以总理发视频自证仍“在世”!伊... 美国和以色列对伊朗军事行动已进入第三周。 当地时间3月15日下午,伊朗发动“真实承诺-4”第54轮军...