Grok 3:可能重新定义 AI 行业的模型剖析

5个月前 科技 29观看
摘要 自成立不到两年,xAI 就推出了可能是迄今为止最先进的 AI 模型。Grok 3 在所有关键基准测试以及用户评估的 Chatbot Arena 中都达到或超越了最先进的模型水平,而且其训练甚至还未完成。虽然 xAI

自成立不到两年,xAI 就推出了可能是迄今为止最先进的 AI 模型。Grok 3 在所有关键基准测试以及用户评估的 Chatbot Arena 中都达到或超越了最先进的模型水平,而且其训练甚至还未完成。Bem喜好网-记录每日喜好的科技时尚娱乐生活

虽然 xAI 团队尚未发布论文或技术报告,我们对 Grok 3 的细节了解还不多。但根据 xAI 在演示中分享的内容,以及 AI 专家们对该模型进行的各种实验,我们可以推测 Grok 3 在未来几个月可能对 AI 行业产生的影响。Bem喜好网-记录每日喜好的科技时尚娱乐生活

更快的发布节奏Bem喜好网-记录每日喜好的科技时尚娱乐生活

随着 AI 实验室之间竞争加剧 (比如 DeepSeek-R1 的发布),我们可以预期模型发布周期会变得更短。在 Grok 3 的演示中,xAI 创始人 Elon Musk 表示,用户可能会"几乎每天都注意到改进,因为我们在持续优化模型"。Bem喜好网-记录每日喜好的科技时尚娱乐生活

Allen Institute for AI 的机器学习科学家 Nathan Lambert 写道:"来自 DeepSeek 和 Grok 的竞争压力,加上国内外 AI 政治环境的变化,将促使established领先实验室加快发布速度。竞争加剧和监管减少意味着我们这些用户将在更快的时间线上获得更强大的 AI。"Bem喜好网-记录每日喜好的科技时尚娱乐生活

一方面,这对用户来说是好事,因为他们可以持续获取最新最强的模型,而不是等待长达数月的发布。另一方面,这可能对期望模型行为保持一致的开发者产生不稳定影响。之前的研究和用户经验表明,模型的不同版本对相同提示可能会有不同反应。Bem喜好网-记录每日喜好的科技时尚娱乐生活

企业应该开发自定义评估并定期运行,以确保新更新不会破坏他们的应用程序。Bem喜好网-记录每日喜好的科技时尚娱乐生活

扩展定律Bem喜好网-记录每日喜好的科技时尚娱乐生活

最近 DeepSeek-R1 的发布动摇了大公司在建立大型计算集群上的巨额投资。但 xAI 的突然崛起证明了科技公司在 AI 加速器上的巨额投资是正确的。由于 xAI 在孟菲斯的 Collosus 超级计算集群,Grok 3 创下了训练速度记录。Bem喜好网-记录每日喜好的科技时尚娱乐生活

Lambert 写道:"虽然我们没有具体细节,但可以合理地认为扩展仍然有助于提升性能 (但可能在成本上并非如此)。xAI 的方法和信息传达一直是尽快部署最大的集群。在我们获得更多细节之前,最简单的解释是扩展确实有帮助,但 Grok 的性能可能主要来自于简单扩展之外的技术。"Bem喜好网-记录每日喜好的科技时尚娱乐生活

其他分析师指出,xAI 扩展计算集群的能力是 Grok 3 成功的关键。然而,Musk 暗示这里不仅仅是简单的扩展。我们需要等待论文发布才能了解完整细节。Bem喜好网-记录每日喜好的科技时尚娱乐生活

开源文化Bem喜好网-记录每日喜好的科技时尚娱乐生活

大语言模型 (LLM) 正在向开源方向转变。xAI 已经开源了 Grok 1。根据 Musk 的说法,公司的总体政策是开源每个模型,除了最新版本。所以当 Grok 3 完全发布时,Grok 2 将被开源。(Sam Altman 也在考虑开源一些 OpenAI 的模型。)Bem喜好网-记录每日喜好的科技时尚娱乐生活

xAI 还将避免展示 Grok 3 推理的完整思维链 (CoT) tokens,以防止竞争对手复制。相反,它将展示模型推理过程的详细概述 (就像 OpenAI 对 o3-mini 所做的那样)。完整的 CoT 将只在 xAI 开源 Grok 3 时提供,这可能会在 Grok 4 发布之后。Bem喜好网-记录每日喜好的科技时尚娱乐生活

进行自己的体验评估Bem喜好网-记录每日喜好的科技时尚娱乐生活

尽管基准测试结果令人印象深刻,但对 Grok 3 的反应却褒贬不一。前 OpenAI 和 Tesla AI 科学家 Andrej Karpathy 认为其推理能力"处于最先进水平",与 o1-Pro 相当,但也指出它在某些任务上落后于其他最先进的模型,如创建可组合的可扩展矢量图形或处理伦理问题。Bem喜好网-记录每日喜好的科技时尚娱乐生活

其他用户指出了 Grok 3 在编码能力方面相比其他模型的缺陷,尽管也有很多 Grok 3 展现出令人印象深刻编码能力的例子。Bem喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
日本导演神山健治执导 动画电影《指环王:洛汗之战》内地定档12月14日

日本导演神山健治执导 动画电影

11月19日

11-19 98阅读
电池容量大了iPhone快一倍 今年国产手机咋突然悟了

电池容量大了iPhone快一倍 今年

不知道为

11-19 114阅读
小米汽车发布智能底盘预研技术,实现多种高难度动作‌

小米汽车发布智能底盘预研技术,实

11-19 104阅读
并购重组大潮AB面:有的“做大做强”有的“拉高出货”

并购重组大潮AB面:有的“做大做强

自证

11-19 111阅读
投中的播客栏目,叫“大北窑14F”

投中的播客栏目,叫“大北窑14F”

投中

11-19 125阅读
人民日报评代拍乱象, 代拍为何惹众怒?

人民日报评代拍乱象, 代拍

近期除了家暴一词被大家热议,代拍

11-19 109阅读
韩钢琴家任奫灿荣膺法国年度金音叉奖

韩钢琴家任奫灿荣膺法国年

韩国钢琴家任奫灿荣获法国权

11-19 101阅读
《令人心动的offer6》:职综天花板如何让英雄主义落地现实

《令人心动的offer6》:职综

  《令人心动的offer》第六季以豆瓣

11-19 104阅读
《好东西》豆瓣9.1,放映时观众数次鼓掌,导演:桥段全靠硬编

《好东西》豆瓣9.1,放映时

邵艺辉自编自导,宋佳、钟楚曦、章宇、

11-19 128阅读
扁鹊归宿地的怅惘(扁鹊归宿地的怅惘)

扁鹊归宿地的怅惘(扁鹊归宿

关键词:神医扁鹊 气死回生 讳疾忌医

11-19 109阅读
《暗喻幻想: ReFantazio》发布最新宣传片 “剧情预告片2”

《暗喻幻想: ReFantazio》

《暗喻幻想: ReFantazio》发布最新宣传

11-19 112阅读
遥远未来的末世乌托邦,2D动作解谜游戏《默途》移动版即将上线

遥远未来的末世乌托邦,2D动

《默途》是由梦匠工作室开发的一款2D

11-19 130阅读
三国群英传3秘籍大全_三国群英传3秘籍代码及使用方法一览

三国群英传3秘籍大全_三国

给大家分享三国群英传3秘籍大全,里面包

11-19 112阅读
360浏览器兼容模式怎么设置?360浏览器极速模式怎么开?一文看懂

360浏览器兼容模式怎么设

360浏览器是我们使用最多的一款浏览器

11-19 126阅读
烟雨江湖千机遗迹怎么开启?烟雨江湖千机遗迹攻略流程

烟雨江湖千机遗迹怎么开启

《烟雨江湖》是一款开放世界武侠冒险手

11-19 212阅读