Grok 3:可能重新定义 AI 行业的模型剖析

2个月前 科技 17观看
摘要 自成立不到两年,xAI 就推出了可能是迄今为止最先进的 AI 模型。Grok 3 在所有关键基准测试以及用户评估的 Chatbot Arena 中都达到或超越了最先进的模型水平,而且其训练甚至还未完成。虽然 xAI

自成立不到两年,xAI 就推出了可能是迄今为止最先进的 AI 模型。Grok 3 在所有关键基准测试以及用户评估的 Chatbot Arena 中都达到或超越了最先进的模型水平,而且其训练甚至还未完成。Mnv喜好网-记录每日喜好的科技时尚娱乐生活

虽然 xAI 团队尚未发布论文或技术报告,我们对 Grok 3 的细节了解还不多。但根据 xAI 在演示中分享的内容,以及 AI 专家们对该模型进行的各种实验,我们可以推测 Grok 3 在未来几个月可能对 AI 行业产生的影响。Mnv喜好网-记录每日喜好的科技时尚娱乐生活

更快的发布节奏Mnv喜好网-记录每日喜好的科技时尚娱乐生活

随着 AI 实验室之间竞争加剧 (比如 DeepSeek-R1 的发布),我们可以预期模型发布周期会变得更短。在 Grok 3 的演示中,xAI 创始人 Elon Musk 表示,用户可能会"几乎每天都注意到改进,因为我们在持续优化模型"。Mnv喜好网-记录每日喜好的科技时尚娱乐生活

Allen Institute for AI 的机器学习科学家 Nathan Lambert 写道:"来自 DeepSeek 和 Grok 的竞争压力,加上国内外 AI 政治环境的变化,将促使established领先实验室加快发布速度。竞争加剧和监管减少意味着我们这些用户将在更快的时间线上获得更强大的 AI。"Mnv喜好网-记录每日喜好的科技时尚娱乐生活

一方面,这对用户来说是好事,因为他们可以持续获取最新最强的模型,而不是等待长达数月的发布。另一方面,这可能对期望模型行为保持一致的开发者产生不稳定影响。之前的研究和用户经验表明,模型的不同版本对相同提示可能会有不同反应。Mnv喜好网-记录每日喜好的科技时尚娱乐生活

企业应该开发自定义评估并定期运行,以确保新更新不会破坏他们的应用程序。Mnv喜好网-记录每日喜好的科技时尚娱乐生活

扩展定律Mnv喜好网-记录每日喜好的科技时尚娱乐生活

最近 DeepSeek-R1 的发布动摇了大公司在建立大型计算集群上的巨额投资。但 xAI 的突然崛起证明了科技公司在 AI 加速器上的巨额投资是正确的。由于 xAI 在孟菲斯的 Collosus 超级计算集群,Grok 3 创下了训练速度记录。Mnv喜好网-记录每日喜好的科技时尚娱乐生活

Lambert 写道:"虽然我们没有具体细节,但可以合理地认为扩展仍然有助于提升性能 (但可能在成本上并非如此)。xAI 的方法和信息传达一直是尽快部署最大的集群。在我们获得更多细节之前,最简单的解释是扩展确实有帮助,但 Grok 的性能可能主要来自于简单扩展之外的技术。"Mnv喜好网-记录每日喜好的科技时尚娱乐生活

其他分析师指出,xAI 扩展计算集群的能力是 Grok 3 成功的关键。然而,Musk 暗示这里不仅仅是简单的扩展。我们需要等待论文发布才能了解完整细节。Mnv喜好网-记录每日喜好的科技时尚娱乐生活

开源文化Mnv喜好网-记录每日喜好的科技时尚娱乐生活

大语言模型 (LLM) 正在向开源方向转变。xAI 已经开源了 Grok 1。根据 Musk 的说法,公司的总体政策是开源每个模型,除了最新版本。所以当 Grok 3 完全发布时,Grok 2 将被开源。(Sam Altman 也在考虑开源一些 OpenAI 的模型。)Mnv喜好网-记录每日喜好的科技时尚娱乐生活

xAI 还将避免展示 Grok 3 推理的完整思维链 (CoT) tokens,以防止竞争对手复制。相反,它将展示模型推理过程的详细概述 (就像 OpenAI 对 o3-mini 所做的那样)。完整的 CoT 将只在 xAI 开源 Grok 3 时提供,这可能会在 Grok 4 发布之后。Mnv喜好网-记录每日喜好的科技时尚娱乐生活

进行自己的体验评估Mnv喜好网-记录每日喜好的科技时尚娱乐生活

尽管基准测试结果令人印象深刻,但对 Grok 3 的反应却褒贬不一。前 OpenAI 和 Tesla AI 科学家 Andrej Karpathy 认为其推理能力"处于最先进水平",与 o1-Pro 相当,但也指出它在某些任务上落后于其他最先进的模型,如创建可组合的可扩展矢量图形或处理伦理问题。Mnv喜好网-记录每日喜好的科技时尚娱乐生活

其他用户指出了 Grok 3 在编码能力方面相比其他模型的缺陷,尽管也有很多 Grok 3 展现出令人印象深刻编码能力的例子。Mnv喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
拼多多「隐身」双十一

拼多多「隐身」双十一

纵然是在互联互通的大背景下,双十

11-19 65阅读
超204万人预约华为Mate 70:纯血鸿蒙+麒麟芯自研完全体来了

超204万人预约华为Mate 70:纯血鸿

11月19日

11-19 67阅读
SVM频闪指标低的旗舰!iQOO Neo10系列屏幕参数出炉

SVM频闪指标低的旗舰!iQOO Neo10

11月18日

11-19 69阅读
‌星途星纪元E08预告图发布:奇瑞进军豪华MPV市场首款车型‌

‌星途星纪元E08预告图发布:奇瑞

11-19 57阅读
小米汽车发布智能底盘预研技术,实现多种高难度动作‌

小米汽车发布智能底盘预研技术,实

11-19 65阅读
中国电影家协会联合灯塔研究院发布《2024中国电影观众变化趋势报告》

中国电影家协会联合灯塔研

11月15日消息,11月15日,2024年中国金鸡百

11-19 68阅读
“骗”来30+喜剧人,《大话大话西游》好一场内容共创|Talk专访蒋龙

“骗”来30+喜剧人,《大话大

作者 / 张   特采访、编辑 / 朱 

11-19 67阅读
写意锦官城(写意锦官城)

写意锦官城(写意锦官城)

写意锦官城 作者:解朝侠 一直

11-19 62阅读
味道研究所 | 橘黄变棕红 这口Q糯甜香深深烙印在你心间(味道研究所橘黄变棕红)

味道研究所 | 橘黄变棕红

© |菜头 遂昌乡村有着独特的

11-19 70阅读
魔兽世界年卡来了 送筋肉鱼人 兔年坐骑,怀旧服幽冥幼龙(魔兽世界年卡来了)

魔兽世界年卡来了 送筋肉

暴雪今天早晨发布了魔兽世界最新的

11-19 64阅读
《严阵以待》DLC“深水”Steam页面开放 发售日待定

《严阵以待》DLC“深水”S

今日(11月16日),《严阵以待》DLC「Dark W

11-19 74阅读
原子之心电脉冲枪怎么用?原子之心电脉冲枪用不了的解决办法

原子之心电脉冲枪怎么用?

原子之心电脉冲枪怎么用?电脉冲枪是原子

11-19 69阅读
原子之心全部圆盘锁开锁方法详细介绍

原子之心全部圆盘锁开锁方

圆盘锁是原子之心游戏里面的一种特殊加

11-19 65阅读
双十一巅峰28小时超值硬件优惠盘点:2T PCIe4 SSD 599元 2K/180Hz电竞屏615元

双十一巅峰28小时超值硬件

11-19 70阅读
饥荒鱼竿怎么做?饥荒钓鱼竿制作材料详细介绍

饥荒鱼竿怎么做?饥荒钓鱼

饥荒鱼竿怎么做?在饥荒游戏里面,我们可以

11-19 79阅读