刚刚,马斯克发布“最强AI模型“Grok3,大佬亲测强于DeepSeek-R1

2个月前 科技 17观看
摘要 刚刚,马斯克发布了“地球最聪明的AI”——Grok3。从测评数据上看,这个模型很强,几乎所有领域都大幅领先其他模型,就连Grok-3-mini的表现都已经超过了其他的大模型。国外知名大模型排行榜ChatBot

刚刚,马斯克发布了“地球最聪明的AI”——Grok3。0nc喜好网-记录每日喜好的科技时尚娱乐生活

从测评数据上看,这个模型很强,几乎所有领域都大幅领先其他模型,就连Grok-3-mini的表现都已经超过了其他的大模型。0nc喜好网-记录每日喜好的科技时尚娱乐生活

国外知名大模型排行榜ChatBot Arena也宣布Grok 3登顶了,为这个成绩背书。0nc喜好网-记录每日喜好的科技时尚娱乐生活

但也有不少人,对Grok3很失望。0nc喜好网-记录每日喜好的科技时尚娱乐生活

因为Grok 3这次走得仍然是“大力出奇迹“路子,马斯克堆了20万张卡,用了比DeepSeek多几十倍的模型计算量,但与现有模型的性能没有拉开质的差距。0nc喜好网-记录每日喜好的科技时尚娱乐生活

这似乎也从侧面印证了Ilya说的预训练到头的结论。0nc喜好网-记录每日喜好的科技时尚娱乐生活

AI大佬亲测:Grok3思考能力与o1-pro相当,强于DeepSeek-R10nc喜好网-记录每日喜好的科技时尚娱乐生活

在这次发布会上,马斯克发布了两套模型:Grok-3和Grok-3 Reasoning(推理模型)。0nc喜好网-记录每日喜好的科技时尚娱乐生活

根据此前介绍,Grok-3其由一个包含约 20 万个 GPU 的数据中心训练,计算能力是上一代模型Grok 2的“10倍”,且使用了扩大的训练数据集。0nc喜好网-记录每日喜好的科技时尚娱乐生活

正如马斯克所说,Grok3是“地球最聪明的AI”。在测试成绩上,Grok-3的表现好于OpenA、DeepSeek发布的同类模型。0nc喜好网-记录每日喜好的科技时尚娱乐生活

在Math(数学)、Science(专业知识)和Coding(编程)任务上的测评结果,Grok基座模型分别领先DeepSeek-v3 Geminit和GPT4o。0nc喜好网-记录每日喜好的科技时尚娱乐生活

图片0nc喜好网-记录每日喜好的科技时尚娱乐生活

其中,在AIME'24数学能力测试中,Grok-3取得了52分,明显高于DeepSeek-V3的39分。而在GPQA科学知识评估中,Grok-3以75分的优异成绩领先DeepSeek-V3的65分。0nc喜好网-记录每日喜好的科技时尚娱乐生活

在推理模型上,Grok-3 Reasoning在benchmark 上得分也高于OpenAl+的o1/o3系列和deepseek-R1模型。0nc喜好网-记录每日喜好的科技时尚娱乐生活

图片0nc喜好网-记录每日喜好的科技时尚娱乐生活

发布后,Grok 3就迅速登上了在Chatbot Arena LLM排行榜上的榜首,而且全类型都是第一。0nc喜好网-记录每日喜好的科技时尚娱乐生活

图片0nc喜好网-记录每日喜好的科技时尚娱乐生活

图片0nc喜好网-记录每日喜好的科技时尚娱乐生活

此前,Grok 2排在20名左右,落后于OpenAI、DeepSeek、谷歌、阿里Qwen、智谱、阶跃星辰等一众国内外AI公司的模型。0nc喜好网-记录每日喜好的科技时尚娱乐生活

在发布会结束后,AI大神Andrej Karpathy发布了一则推文称,其提前测试了Grok3,Grok3的思考能力大约处于o1-pro的水平,略优于DeepSeek-R1和Gemini 2.0 Flash Thinking。0nc喜好网-记录每日喜好的科技时尚娱乐生活

第二,除了模型性能的领先,思维链是Grok 3的另一大亮点。0nc喜好网-记录每日喜好的科技时尚娱乐生活

Grok3升级的地方是思维链,其意义在于实现了从“执行指令”到“主动思考”的质变。通过1.8万亿参数的混合专家模型(MoE),它能够像人类专家一样拆解复杂问题。0nc喜好网-记录每日喜好的科技时尚娱乐生活

比如,当Grok 3被问及"如何设计火星移民基地的能源系统"时,AI没有直接给出方案,而是逐步拆解问题:先分析火星日照强度,再计算光伏板铺设面积,接着评估核能备用方案,最后整合建筑布局与储能需求。0nc喜好网-记录每日喜好的科技时尚娱乐生活

不过,Grok3会对模型的思考过程进行模糊化处理。对此,马斯克给出的解释是,防止被其他对手抄袭。0nc喜好网-记录每日喜好的科技时尚娱乐生活

第三,在这次发布会上,马斯克还发布了一个Agent工具——Grok DeepSearch。0nc喜好网-记录每日喜好的科技时尚娱乐生活

这是xAI对标OpenAI深度研究工具的产品。DeepSearch通能够生成针对各种研究性/查找性问题,扫描互联网和X平台上的信息生成高质量回答,类似于你在互联网上的文章中可能找到的答案。0nc喜好网-记录每日喜好的科技时尚娱乐生活

Andrej Karpathy对这一功能的评价是:大约在Perplexity DeepResearch功能的水平,但尚未达到OpenAI最近发布的“深度研究”水平,后者给人感觉更全面、更可靠。0nc喜好网-记录每日喜好的科技时尚娱乐生活

Scaling laws要失效了?0nc喜好网-记录每日喜好的科技时尚娱乐生活

看完Grok 3的发布会,大部分人都有一个疑惑:Scaling laws还存在吗?0nc喜好网-记录每日喜好的科技时尚娱乐生活

原因很简单,马斯克说服了投资人搞了十万卡进行预训练,现在更是升级到了二十万卡。但Grok 3的能力与现有模型的性能没有拉开。0nc喜好网-记录每日喜好的科技时尚娱乐生活

目前,xAI有全球最大的Al训练集群Colossus,搭载10万个NVIDIA Hopper GPU(现在提升至20万卡),Grok 3就是在Colossus上训练出来的,这是Grok3最大的竞争力。0nc喜好网-记录每日喜好的科技时尚娱乐生活

对比之下,根据市场人士透露,幻方真实的数字大概就在1万多张,而且主力还是A100和H800。0nc喜好网-记录每日喜好的科技时尚娱乐生活

也就是说,马斯克堆了10万张卡,用了比DeepSeek多几十倍的模型计算量,只换来了20%的性能提升。0nc喜好网-记录每日喜好的科技时尚娱乐生活

这基本上可以印证Ilya说的预训练到头的结论了。0nc喜好网-记录每日喜好的科技时尚娱乐生活

根据OpenAI最新发文,GPT-4.5会是他们最后一个非推理模型,也从侧面说明了预训练的Scaling Law已经到了一个瓶颈。0nc喜好网-记录每日喜好的科技时尚娱乐生活

而Grok3升级的思维链,本质上还是对目前主流技术路线的跟随,在预训练已经难以突破的情况下,通过提高test-time compute(测试时间计算)的方式提升模型表现。0nc喜好网-记录每日喜好的科技时尚娱乐生活

在技术路线没有太大突破的情况下,依靠提升模型参数和通用能力来构建差异化优势变得越来越困难。换句话说,OpenAI等头部模型的护城河正在不断缩小。0nc喜好网-记录每日喜好的科技时尚娱乐生活

比起Grok 3,马斯克的工程能力,倒给人留下了更深刻的影响。0nc喜好网-记录每日喜好的科技时尚娱乐生活

在这次发布上,马斯克透露,Colossus已经从10万卡提升到20万卡,而这仅仅花了92天时间。0nc喜好网-记录每日喜好的科技时尚娱乐生活

这样的速度还是很吓人的,也延续了马斯克雷厉风行的办事效率。当初,在建设超算中心“Colossus”的时候,也不过只花了122天,而业内平均建设周期需要4年。0nc喜好网-记录每日喜好的科技时尚娱乐生活

之前红杉美国合伙人David Cahn曾提到过一个观点:算力基建效率,将成为赢得AI下一轮竞争的关键条件。0nc喜好网-记录每日喜好的科技时尚娱乐生活

这个逻辑很简单,建设一个庞大的数据中心,是一项混乱而复杂的业务,不仅需要购买足够的土地、钢铁和电力,还需要完成从钢和混凝土,到工业部件和GPU安装漫长的建造过程。0nc喜好网-记录每日喜好的科技时尚娱乐生活

漫长的建设周期,给AI的竞争带来了更多变量。0nc喜好网-记录每日喜好的科技时尚娱乐生活

无论是探索智能,还是应用智能,虽然短期有质疑,中长期的算力需求也会爆炸,这也解释了为什么马斯克从第一性原理出发,xAI 坚持扩建集群。0nc喜好网-记录每日喜好的科技时尚娱乐生活

从这个角度上说,相比Grok3模型的微弱领先,Colossus或许才是马斯克竞争AGI最大的底气。0nc喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
苹果打算明年带来AirTag 2,或与M4 MacBook Air一起发布

苹果打算明年带来AirTag 2,或与M4

在202

11-19 70阅读
小米发布超级智能驾驶技术Hyper Autonomous Driving(HAD)

小米发布超级智能驾驶技术Hyper

11-19 65阅读
叮咚买菜上岸、巨头加码火拼,前置仓大战重启

叮咚买菜上岸、巨头加码火拼,前置

近年

11-19 65阅读
大模型公司们创业未半,技术主心骨们却先弃船回大厂了?

大模型公司们创业未半,技术主心骨

图片来源:由无界AI生成2024年下半

11-19 68阅读
Scaling Law遭遇瓶颈,OpenAI被曝押注智能体“Operator”

Scaling Law遭遇瓶颈,OpenAI被曝

文章来源:量子位图片来源:由无界AI

11-19 65阅读
被审判的麦琳和妖魔化的小红书

被审判的麦琳和妖魔化的小

作者 / 张   特编辑 / 朱   婷运

11-19 68阅读
Netflix,振奋时刻下的暗潮

Netflix,振奋时刻下的暗潮

作者 / 向   向运营 / 狮子座和202

11-19 68阅读
曾经家喻户晓的19位童星,现状却已今非昔比,可谓有人欢乐有人愁

曾经家喻户晓的19位童星,现

11-19 67阅读
老九门张副官是不是百岁山?饰演张副官的演员是谁?

老九门张副官是不是百岁山

在热门电视剧《老九门》中,张副官

11-19 74阅读
迪士尼儿童动画或因LGBT话题停播一集:变性少年参加女子排球赛

迪士尼儿童动画或因LGBT话

据多位参与制作

11-19 67阅读
《如龙8外传 夏威夷海盗》演员采访视频:谷田步篇

《如龙8外传 夏威夷海盗》

世嘉公开了《人中之龙8外传Pirates in

11-19 69阅读
斯宾塞不喜欢操纵性扩展内容:不能把本体砍掉单独卖

斯宾塞不喜欢操纵性扩展内

随着微软大力推动其游戏在首日即登陆G

11-19 67阅读
碧蓝航线ios反和谐教程_碧蓝航线ios反和谐2024

碧蓝航线ios反和谐教程_碧

碧蓝航线ios反和谐怎么弄?相信很多苹果

11-19 72阅读
原子之心电脉冲枪怎么用?原子之心电脉冲枪用不了的解决办法

原子之心电脉冲枪怎么用?

原子之心电脉冲枪怎么用?电脉冲枪是原子

11-19 69阅读
原子之心所有会说话的动物尸体所在位置分享

原子之心所有会说话的动物

在原子之心游戏里面,玩家可以通过找到所

11-19 66阅读