9.11比9.9大?马斯克声称“天下最聪明”的Grok3“翻车了”
开心田螺
2025-02-20 14:13:08
0

近日,马斯克与xAI团队,在直播中正式发布了最新版本Grok3。

此前,马斯克将Grok-3描述为“地球上最聪明的AI”。他在X平台上表示:“自己整个周末都在和团队打磨产品。”

然而据媒体报道,有人测试了最新的Beta版Grok3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9哪个大?”遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的Grok3,仍然无法正确回答这个问题。

值得一提的是,用同样的问题询问DeepSeek时,无论是否开启深度思考(R1)模式,对方都给出了正确的答案:9.9大于9.11。

“9.11和9.9哪个大”是AI领域的一个经典问题。

艾伦研究机构(Allen Institute)成员林禹臣曾在社交媒体平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?这几家主流大模型通通答错,他也成功将此话题传播开来。

海外主流大模型答题。图源:第一财经

Grok-3发布会的背景板上,写着"our mission is to understand universe(我们的使命是了解宇宙)"。马斯克曾表示,xAI公司的目标就是“了解宇宙”。

在一周前,马斯克在直播中评论DeepSeek R1时,曾信心满满地表示“xAI即将推出更优秀的AI模型”。从现场展示的数据来看,Grok3在数学、科学与编程的基准测试上已经超越了目前所有的主流模型,马斯克甚至宣称Grok 3未来将用于SpaceX火星任务计算,并预测“三年内将实现诺贝尔奖级别突破”。

xAI在X平台直播,马斯克到场。图源:中国新闻周刊

马斯克强调,Grok-3可以减少AI幻觉,方法是通过来回检查数据并尝试实现逻辑一致性。他还透露,训练Grok-3所使用的算力远多于此前的版本,并使用了大量合成数据。

不同于DeepSeek的算法优化路径(DeepSeek-V3用2048个H800 GPU,训练2788千小时),xAI透露,Grok-3的开发的得益于用8个月时间建成的Colossus超级计算机,它由10万个英伟达的H100 GPU驱动,为训练提供了2亿个GPU小时,比Grok-2多十多倍。

此外,xAI宣布推出名为Deepsearch的Grok-3智能搜索引擎,名字和Deepseek颇有几分相似。

(九派新闻)

相关内容

热门资讯

2026春沪教五四制版六年级数... 2026 春沪教五四制版六年级数学下册以 “数与代数拓展 + 几何直观培养” 为核心,涵盖分数运算深...
2026天津出国留学机构排名前... 随着2026年海外院校申请通道逐步开启,天津学子的留学规划进入关键阶段。在海量留学机构中,筛选出服务...
新年15岁少女“谷圈乱象”冲上... 这个世界越来越看不懂了。 最近刷到一条热搜,看得人满脸问号。 一个15岁的少女,竟然当着众人的面,死...
珲春成人高考招生专业 标题探索珲春成人高考招生专业,开启人生新篇章 在我国东北地区,有一个美丽的边境城市珲春。这里风光旖旎...
银发课堂还可以学点什么 近日,天津河北区消防救援支队联合区老年大学开设的消防安全培训课,以“趣味互动+实用教学”的形式吸引了...
2026年国考笔试成绩发布 来源:滚动播报 (来源:北京商报) 北京商报讯(记者 吴其芸)1月14日,据北京日报消息,2026年...
权威发布留学求职机构服务推荐:... 留学生求职服务作为连接海外学生与全球就业市场的专业桥梁,其核心价值在于整合企业招聘资源、导师辅导体系...
探索建筑的奇妙世界:联盟路小学... 为充分挖掘家长资源、拓展学生视野,推动家校共育、实现教育同频,联盟路小学“家长‘职’慧课堂”持续开展...
我市2025年冬季普通高中学业... 1月10日至11日,我市2025年冬季普通高中学业水平合格性考试在市第一中学标准化考点开考。本次考试...
中产家庭留学抉择:掏空家底换一... 最近后台收到不少家长的私信,核心问题都绕不开:“孩子该不该出国?这钱花得值不值?”作为一个在留学行业...