9.11比9.9大?马斯克声称“天下最聪明”的Grok3“翻车了”
开心田螺
2025-02-20 14:13:08
0

近日,马斯克与xAI团队,在直播中正式发布了最新版本Grok3。

此前,马斯克将Grok-3描述为“地球上最聪明的AI”。他在X平台上表示:“自己整个周末都在和团队打磨产品。”

然而据媒体报道,有人测试了最新的Beta版Grok3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9哪个大?”遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的Grok3,仍然无法正确回答这个问题。

值得一提的是,用同样的问题询问DeepSeek时,无论是否开启深度思考(R1)模式,对方都给出了正确的答案:9.9大于9.11。

“9.11和9.9哪个大”是AI领域的一个经典问题。

艾伦研究机构(Allen Institute)成员林禹臣曾在社交媒体平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?这几家主流大模型通通答错,他也成功将此话题传播开来。

海外主流大模型答题。图源:第一财经

Grok-3发布会的背景板上,写着"our mission is to understand universe(我们的使命是了解宇宙)"。马斯克曾表示,xAI公司的目标就是“了解宇宙”。

在一周前,马斯克在直播中评论DeepSeek R1时,曾信心满满地表示“xAI即将推出更优秀的AI模型”。从现场展示的数据来看,Grok3在数学、科学与编程的基准测试上已经超越了目前所有的主流模型,马斯克甚至宣称Grok 3未来将用于SpaceX火星任务计算,并预测“三年内将实现诺贝尔奖级别突破”。

xAI在X平台直播,马斯克到场。图源:中国新闻周刊

马斯克强调,Grok-3可以减少AI幻觉,方法是通过来回检查数据并尝试实现逻辑一致性。他还透露,训练Grok-3所使用的算力远多于此前的版本,并使用了大量合成数据。

不同于DeepSeek的算法优化路径(DeepSeek-V3用2048个H800 GPU,训练2788千小时),xAI透露,Grok-3的开发的得益于用8个月时间建成的Colossus超级计算机,它由10万个英伟达的H100 GPU驱动,为训练提供了2亿个GPU小时,比Grok-2多十多倍。

此外,xAI宣布推出名为Deepsearch的Grok-3智能搜索引擎,名字和Deepseek颇有几分相似。

(九派新闻)

相关内容

热门资讯

别再自我感动!这3种溺爱行为,... 所有的父母都坚信,自己对孩子的爱,是世界上最无私、最纯粹的。 可很多时候,父母拼尽全力去爱,却在不知...
东台农商银行举办2026年度课... 本报讯 为深入贯彻落实东台农商银行2026年度“人才强基固本”工作部署,持续健全分层级、系统化、精准...
英伦滤镜之外:在不平等研究课堂... 选择去英国留学,对我来说,是一件自然而然的事。在成长过程中,我似乎总能接触到英国文化的各种痕迹。小时...
一个家庭,比贫穷更可怕的是饭桌... 作者:香克斯 很多人以为,家庭的幸福与否,取决于财富的多少,贫穷是摧毁家庭的最大元凶。 可实际上,比...
从被警告到成专家:我是如何在一... 有段时间,我差点被贴上“可替代”的标签。那种感觉很真实:流程越来越自动化,老板开始频繁提“提效”“降...
中考一模分数换算表:你的一模成... 怎样看懂一模的分数段统计表 昨天广州中考生在广州招考网可查到自己的中考一模成绩了,官方也公布了五分一...
专委会一周工作动态(2026年... 校园专委会 本周,市校园专委会紧盯“五一”前后、学生集中返校及高考备考关键节点,聚焦防溺水、隐患排查...
管理学方向学数据分析有用吗?对... 管理学专业的学生或从业者,面对数字化浪潮,常会思考一个问题:花精力去学习数据分析,到底值不值得? 这...
市五小:厨艺赛场砺成长 劳动育... 为深入落实“五育并举”育人理念,深耕劳动教育主阵地,引导学生在动手实践中锤炼生活技能、感悟劳动价值、...
拟招录1294人!今起报名 5月7日,据国家公务员局网站消息,中央机关及其直属机构2026年度补充录用公务员报名即将开始,报考者...