马斯克发布了一款比 ChatGPT 更智能的 AI ― 这意味着什么

5个月前 科技 30观看
摘要 马斯克的人工智能初创公司 xAI 推出了其最新的 AI 模型 Grok 3,该公司声称该模型在关键技术基准测试中超越了主要竞争对手。这一发布标志着开发更强大 AI 系统竞赛的重大升级。此次发布恰逢马

马斯克的人工智能初创公司 xAI 推出了其最新的 AI 模型 Grok 3,该公司声称该模型在关键技术基准测试中超越了主要竞争对手。这一发布标志着开发更强大 AI 系统竞赛的重大升级。aml喜好网-记录每日喜好的科技时尚娱乐生活

此次发布恰逢马斯克以 974 亿美元收购 OpenAI 失败之后,他曾在 2015 年与山姆·奥特曼共同创立了该公司。在 X 平台的直播演示中,马斯克表示 Grok 3 的能力"比 Grok 2 强大一个数量级",并强调了其解决复杂问题的推理能力。aml喜好网-记录每日喜好的科技时尚娱乐生活

早期测试似乎支持了 xAI 的部分声明。该模型在影响力巨大的 Chatbot Arena 排行榜上名列榜首,在盲测中得分高于 OpenAI 的 GPT-4、Google 的 Gemini 和 DeepSeek 的 V3 模型。公布的基准测试显示,Grok 3 在数学 (AIME '24)、科学推理 (GPQA) 和编程任务方面取得了更优异的成绩。aml喜好网-记录每日喜好的科技时尚娱乐生活

在 Chatbot Arena 排行榜上,Grok 3 以约 1400 的分数领先,在盲测中明显优于其他主要 AI 模型。(来源:xAI)aml喜好网-记录每日喜好的科技时尚娱乐生活

Grok 3 的庞大计算基础设施:20 万个 GPU 和一个新数据中心aml喜好网-记录每日喜好的科技时尚娱乐生活

前 OpenAI 研究员 Andrej Karpathy 在早期测试后发布 X 帖子称:"Grok 3 明显具有最先进的思维能力。很少有模型能可靠地做到这一点。OpenAI 顶级思维模型也能做到,但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 都做不到。"aml喜好网-记录每日喜好的科技时尚娱乐生活

该模型的开发需要海量计算资源。xAI 将其 GPU 集群扩大一倍至 20 万块 Nvidia 芯片用于训练,这些设备位于孟菲斯的新数据中心。随着各公司竞相开发更强大的系统,这项基础设施投资凸显了先进 AI 开发对计算能力日益增长的需求。aml喜好网-记录每日喜好的科技时尚娱乐生活

DeepSearch 和高级推理:Grok 3 如何致力于超越 ChatGPT 和 Google Geminiaml喜好网-记录每日喜好的科技时尚娱乐生活

Grok 3 的一项关键创新是"DeepSearch"功能,它将网络搜索与推理能力相结合,可以分析来自多个来源的信息。该系统还包括用于复杂问题解决的专门模式,包括展示其推理过程的"Think"功能和为困难任务分配额外计算能力的"Big Brain"模式。aml喜好网-记录每日喜好的科技时尚娱乐生活

然而,测试过程中也发现了一些局限性。Karpathy 指出,该模型有时会编造引用来源,并且在处理某些类型的幽默和伦理推理任务时存在困难。这些挑战是当前 AI 系统的共同问题,突显了在开发真正类人工智能方面持续存在的困难。aml喜好网-记录每日喜好的科技时尚娱乐生活

Scale.ai 首席执行官 Alexandr Wang 在推特上称赞此次发布:"Grok 3 是来自 @xai 团队的全球最佳新模型!"他指出其在各种基准测试中的卓越表现,并对未来合作表示期待。aml喜好网-记录每日喜好的科技时尚娱乐生活

AI 行业竞争升温:Grok 3 的发布对 OpenAI、DeepSeek 和人工智能的未来意味着什么aml喜好网-记录每日喜好的科技时尚娱乐生活

该模型将通过 X 的 Premium+ 订阅服务 (每月 40 美元) 和新的独立"SuperGrok"服务 (每月 30 美元) 提供。企业级 API 访问计划将在未来几周内推出。aml喜好网-记录每日喜好的科技时尚娱乐生活

此次发布加剧了 AI 行业的竞争,特别是在中国初创公司 DeepSeek 最近展示了可比性能,据报道其计算需求更低的情况下。这一发展也引发了对 AI 计算军备竞赛可持续性的质疑,因为各公司正在投资数十亿美元用于越来越强大的硬件基础设施。aml喜好网-记录每日喜好的科技时尚娱乐生活

在关键性能基准测试中,Grok 3 及其迷你版本在数学、科学和编程测试中的得分均优于 Google、OpenAI、Anthropic 和 DeepSeek 的竞争模型。完整版 Grok 3 模型(深蓝色)在科学推理方面取得了特别出色的结果。(来源:xAI)aml喜好网-记录每日喜好的科技时尚娱乐生活

马斯克强调,Grok 3 仍处于测试阶段,预计"几乎每天"都会有改进。该公司计划在几周内添加语音交互功能,并将在新版本稳定后开源其前代模型 Grok 2。aml喜好网-记录每日喜好的科技时尚娱乐生活

然而,Grok 3 首次亮相最引人注目的也许不是其技术规格或基准测试分数,而是它所代表的含义:马斯克与其前 OpenAI 同事之间日益紧张的关系。就在以 974 亿美元收购 OpenAI 失败几天后,马斯克推出了一个挑战其霸主地位的模型 — 这表明在 AI 主导权的高风险竞赛中,即使是被拒绝的收购者也能成为一个强大的竞争对手。aml喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
问界理想的新擂台:问界M8 VS 理想L8

问界理想的新擂台:问界M8 VS 理想

要说近年来什么行业最“卷”,相信

11-19 107阅读
24小时动态血压监测!华为WATCH D2预售:到手价2888元

24小时动态血压监测!华为WATCH D2

11月19日

11-19 105阅读
轻薄手机用上潜望!曝vivo S20系列首次搭载潜望长焦镜头

轻薄手机用上潜望!曝vivo S20系列

11月1

11-19 125阅读
并购重组大潮AB面:有的“做大做强”有的“拉高出货”

并购重组大潮AB面:有的“做大做强

自证

11-19 111阅读
叮咚买菜上岸、巨头加码火拼,前置仓大战重启

叮咚买菜上岸、巨头加码火拼,前置

近年

11-19 114阅读
中国电影家协会联合灯塔研究院发布《2024中国电影观众变化趋势报告》

中国电影家协会联合灯塔研

11月15日消息,11月15日,2024年中国金鸡百

11-19 107阅读
金鸡奖这一夜,世态炎凉、江湖职位,在王骁身上体现得淋漓尽致

金鸡奖这一夜,世态炎凉、江

11-19 108阅读
《假日暖洋洋》姚晨与小11岁白宇演 姐弟恋 ,别说,还真甜(假日暖洋洋姚晨与小11岁白宇演)

《假日暖洋洋》姚晨与小11

有生之年,欣喜相逢。 我是温暖,欢迎

11-19 111阅读
魔兽世界年卡来了 送筋肉鱼人 兔年坐骑,怀旧服幽冥幼龙(魔兽世界年卡来了)

魔兽世界年卡来了 送筋肉

暴雪今天早晨发布了魔兽世界最新的

11-19 99阅读
童年女神归来!《猫眼三姐妹》动画将迎来重制

童年女神归来!《猫眼三姐妹

根据海外情报师

11-19 120阅读
特别好评《永恒天空》明年登陆PS5 试玩Demo现已上线

特别好评《永恒天空》明年

于 2023 年 6 月发售的开放世界科幻生

11-19 129阅读
僵尸生活2逃离僵尸岛全流程全角色超详细攻略分享(1.62版)

僵尸生活2逃离僵尸岛全流

僵尸生活2逃离僵尸岛是《僵尸生活》游

11-19 111阅读
原神终将结束的花神诞祭全任务攻略一览

原神终将结束的花神诞祭全

终将结束的花神诞祭是原神须弥地区主线

11-19 129阅读
原子之心能量不回复怎么办?原子之心恢复能量的方法分享

原子之心能量不回复怎么办

原子之心能量不回复怎么办?原子之心游戏

11-19 134阅读
饥荒南瓜可以做什么?饥荒超全南瓜食谱分享

饥荒南瓜可以做什么?饥荒

南瓜是饥荒游戏里面的一种蔬菜,玩家可以

11-19 112阅读