“地球上最聪明AI”Grok 3发布,头部大模型之争愈演愈烈

2个月前 科技 18观看
摘要 北京时间2月18日中午,埃隆·马斯克的人工智能初创公司xAI发布了Grok 3大模型,马斯克称之为“地球上最聪明的人工智能”。Grok 3的发布,势必将现在已经炙热的模型之战推向新的高潮。Grok3的现场演示在当天的

北京时间2月18日中午,埃隆·马斯克的人工智能初创公司xAI发布了Grok 3大模型,马斯克称之为“地球上最聪明的人工智能”。Grok 3的发布,势必将现在已经炙热的模型之战推向新的高潮。8sp喜好网-记录每日喜好的科技时尚娱乐生活

Grok3的现场演示8sp喜好网-记录每日喜好的科技时尚娱乐生活

在当天的直播中,马斯克与该公司的三位工程师一起进行了现场演示,包括使用Grok3帮助火星飞船计算航天发射窗口,以及把俄罗斯方块和消消乐两款游戏“融合成一款”等。8sp喜好网-记录每日喜好的科技时尚娱乐生活

尤其是工程师仅用“开发结合俄罗斯方块和宝石迷阵玩法的2D游戏”这一自然语言指令,Grok3完成核心代码生成与调试的演示令人印象深刻。8sp喜好网-记录每日喜好的科技时尚娱乐生活

在演示的过程中,马斯克要求使用Grok 3使用pygame组件设计一款游戏,把俄罗斯方块和宝石迷阵缝合到一起。8sp喜好网-记录每日喜好的科技时尚娱乐生活

同时还提示代码可能会很长,需要保存到一个文件当中,运行成功后,生成的游戏即保留了俄罗斯方块的经典玩法,而且还加入了“同色消除”的新规则。8sp喜好网-记录每日喜好的科技时尚娱乐生活

在发布会上,马斯克放话,今后Space X的发射任务,包括2026年火星探索任务,都将会借助Grok 3进行AI辅助。8sp喜好网-记录每日喜好的科技时尚娱乐生活

随后,在场的工程师要求Grok 3现场生成一段太空发射3D动画的代码,而在Grok-3生成代码后,马斯克团队运行这段代码,之后画面上显示出了飞船在地球和火星间往返的动画的演示,突出了Grok-3的编程能力,这对AI模型理解复杂物理知识的要求非常高。8sp喜好网-记录每日喜好的科技时尚娱乐生活

马斯克对此表示,我们非常高兴能够推出 Grok-3,我们认为,在很短的时间内,它的功能比Grok-2强大一个数量级。这要归功于一支不可思议的团队的辛勤工作,我很荣幸能与这样一支优秀的团队合作。此外,他还预测,三年内,计算机将在各方面打破人类水平,实现诺贝尔奖级别突破。8sp喜好网-记录每日喜好的科技时尚娱乐生活

推理能力超竞争对手8sp喜好网-记录每日喜好的科技时尚娱乐生活

发布会演示显示,在数学推理、科学逻辑推理等多方面的性能表现上,Grok3和Grok-3 mini都超过或媲美Gemini、DeepSeek和ChatGPT等对手,此外xAI还推出了功能更为强大的Grok3 Thinking推理模式。8sp喜好网-记录每日喜好的科技时尚娱乐生活

具体表现在Grok3 在 AIME'24(美国数学竞赛)、GPQA(研究生水平科学知识问答能力的基准测试)等测试中均取得了比 Gemini-2 pro、DeepSeek-v3、Claude 3.5 Sonnet 和 GPT-4o 更好的效果。8sp喜好网-记录每日喜好的科技时尚娱乐生活

尤其在推理方面 ,Grok 3 Reasoning 和 Grok 3 mini Reasoning 在 AIME'24、GPQA 等测试中取得了压倒性的优势,最高分达到 96 分,超过了 o3 mini(high)、o1 和 DeepSeek-R1 等前沿模型。甚至在最新的 AIME 2025 评测中 ,Grok3 推理系列模型更是达到了 90 及以上的分数,稍微领先 o3 mini(high) 的 87 分。8sp喜好网-记录每日喜好的科技时尚娱乐生活

此外,在 Chatbot Arena 评估中,Grok-3 的得分更是达到了 1400 分,同样超过了 Gemini 系列和 chatgpt-4o 和 DeepSeek-R1。8sp喜好网-记录每日喜好的科技时尚娱乐生活

值得一提的是,GPT-4o和Gemini相比,Grok 3在处理复杂问题时不仅能给出正确答案,还能详细解释解题思路,帮助用户理解背后的逻辑。8sp喜好网-记录每日喜好的科技时尚娱乐生活

除了数学、编程、推理能力超强外,Grok3的多模态能力也是提升明显,另外,Grok 3引入了DeepSearch,它能够扫描互联网和X平台(原Twitter),为用户提供信息摘要,帮助用户查找最新的科技信息。8sp喜好网-记录每日喜好的科技时尚娱乐生活

在发布会现场,xAI团队预测2025年NCAA“疯狂三月”篮球赛的全部胜负结果,最终Grok 3给出了它认为的2025年NCAA冠军,具体预测正确与否,答案即将在3月揭晓。8sp喜好网-记录每日喜好的科技时尚娱乐生活

xAI团队在直播中展示称,在训练Grok的过程中,团队搭建了大型算力集群,并克服了散热、电力等问题带来的挑战,用了122天让首批10万张GPU投入使用并正常运行,后续还计划将集群规模继续扩大一倍。8sp喜好网-记录每日喜好的科技时尚娱乐生活

最后,马斯克表示,未来,最快一周后Grok 将获得“语音模式”。几周后,Grok 3模型将与 DeepSearch功能一起出现在xAI企业的API中。而当下一个版本完全发布时,我们将开源Grok的上一个版本。8sp喜好网-记录每日喜好的科技时尚娱乐生活

颇具挑战意味的是,就在Grok 3发布前数小时,OpenAI首席执行官兼联合创始人SamAltman表示,对于高要求的测试者来说,试用GPT-4.5带来的AGI的感受体验,远比我预期的要深刻得多,看来GPT-4.5已经进入测试阶段,离正式发布也不远了。8sp喜好网-记录每日喜好的科技时尚娱乐生活

可以预见,随着Grok-3的发布,头部AI大模型的竞争将愈演愈烈。(御风)8sp喜好网-记录每日喜好的科技时尚娱乐生活

8sp喜好网-记录每日喜好的科技时尚娱乐生活

8sp喜好网-记录每日喜好的科技时尚娱乐生活

8sp喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
小杨哥缺席,抖音还能玩转双11吗?

小杨哥缺席,抖音还能玩转双11吗?

采写/尹冰雪‍编辑/万天南“

11-19 71阅读
消息称抖音正推进“V”项目,包括直播游戏互动、AI 分身功能等

消息称抖音正推进“V”项目,包括

11 月

11-19 72阅读
映泰推出 MT-N97 工业计算机:无风扇设计,配英特尔 N97 处理器

映泰推出 MT-N97 工业计算机:无风

11 月

11-19 65阅读
1.4万亿元,最长双11收官,五大电商平台幕后操盘手均为女高管

1.4万亿元,最长双11收官,五大电商

又一

11-19 70阅读
山东新起点完成2000万元A轮融资

山东新起点完成2000万元A轮融资

近日,

11-19 67阅读
雷佳音:再获金鸡影帝,拥抱四美台上哽咽,不忘向张艺谋要手机号

雷佳音:再获金鸡影帝,拥抱四

11-19 71阅读
《老舅》官宣开机,郭京飞、王佳佳领衔主演,重绘时代浪潮下的经典温暖记忆

《老舅》官宣开机,郭京飞、

  11月14日,由腾讯视频、鸣涧影业出

11-19 63阅读
中国第一网红李子柒:不希望青少年梦想当网红

中国第一网红李子柒:不希望

11月19日消息,近

11-19 73阅读
时隔3年正式回归连更2条作品 李子柒:还有存货正在剪

时隔3年正式回归连更2条作

11月12日消息,时

11-19 58阅读
AI技术将一峰大二原作动画《電人アロー》黑白影像彩色化

AI技术将一峰大二原作动画

由一峰大

11-19 71阅读
空洞骑士苍白矿石位置_空洞骑士苍白矿石所有位置(图片)

空洞骑士苍白矿石位置_空

《空洞骑士》是一款以探索和解谜为核心

11-19 70阅读
原神沙脂蛹怎么获得?原神沙脂蛹采集地点一览

原神沙脂蛹怎么获得?原神

沙脂蛹是原神游戏中须弥地区的特产之一

11-19 65阅读
原子之心冰箱在哪?原子之心冰箱位置详细介绍

原子之心冰箱在哪?原子之

原子之心冰箱在哪?原子之心游戏里面那台

11-19 70阅读
原神失物匿于繁华任务怎么做|失物匿于繁华任务攻略

原神失物匿于繁华任务怎么

失物匿于繁华是原神须弥地区魔神主线任

11-19 62阅读