微软新的 AI 代理可以控制软件和机器人

2个月前 科技 16观看
摘要 周三,微软研究院推出了 Magma,这是一个集成的 AI 基础模型,结合了视觉和语言处理能力,可以控制软件界面和机器人系统。如果这些结果在微软内部测试之外依然有效,这可能标志着一个支持多模态的通用

周三,微软研究院推出了 Magma,这是一个集成的 AI 基础模型,结合了视觉和语言处理能力,可以控制软件界面和机器人系统。如果这些结果在微软内部测试之外依然有效,这可能标志着一个支持多模态的通用 AI 在现实和数字空间中进行交互操作的重要进展。mgC喜好网-记录每日喜好的科技时尚娱乐生活

微软声称,Magma 是第一个不仅能处理多模态数据 (如文本、图像和视频),还能对其进行原生操作的 AI 模型——无论是导航用户界面还是操控物理对象。该项目是微软、KAIST、马里兰大学、威斯康星麦迪逊大学和华盛顿大学研究人员合作的成果。mgC喜好网-记录每日喜好的科技时尚娱乐生活

我们已经见过其他基于大语言模型的机器人项目,如 Google 的 PALM-E 和 RT-2,或微软的 ChatGPT for Robotics,它们都将大语言模型用作接口。然而,与许多需要单独模型来进行感知和控制的传统多模态 AI 系统不同,Magma 将这些能力整合到一个基础模型中。mgC喜好网-记录每日喜好的科技时尚娱乐生活

微软将 Magma 定位为朝着代理式 AI 迈出的一步,这意味着系统可以代表人类自主制定计划并执行多步骤任务,而不仅仅是回答关于所见内容的问题。mgC喜好网-记录每日喜好的科技时尚娱乐生活

微软在其研究论文中写道:"给定一个描述性目标,Magma 能够制定计划并执行行动来实现它。通过有效地从免费获取的视觉和语言数据中转移知识,Magma 将语言、空间和时间智能结合起来,以应对复杂的任务和场景。"mgC喜好网-记录每日喜好的科技时尚娱乐生活

微软并不是唯一追求代理式 AI 的公司。OpenAI 一直在通过 Operator 等项目实验 AI 代理,该项目可以在网页浏览器中执行 UI 任务,而 Google 则通过 Gemini 2.0 探索多个代理项目。mgC喜好网-记录每日喜好的科技时尚娱乐生活

空间智能mgC喜好网-记录每日喜好的科技时尚娱乐生活

虽然 Magma 建立在基于 Transformer 的大语言模型技术之上,将训练 Token 输入神经网络,但它与传统的视觉语言模型 (如 GPT-4V) 不同,它超越了所谓的"语言智能",还包括"空间智能" (规划和行动执行)。通过对图像、视频、机器人数据和 UI 交互的混合训练,微软声称 Magma 是一个真正的多模态代理,而不仅仅是一个感知模型。mgC喜好网-记录每日喜好的科技时尚娱乐生活

Magma 模型引入了两个技术组件:Set-of-Mark,通过为交互元素(如 UI 中的可点击按钮或机器人工作空间中的可抓取物体)分配数字标签来识别可在环境中操作的对象;以及 Trace-of-Mark,用于从视频数据中学习移动模式。微软表示,这些功能使模型能够完成导航用户界面或指导机器人手臂抓取物体等任务。mgC喜好网-记录每日喜好的科技时尚娱乐生活

微软 Magma 研究员 Jianwei Yang 在 Hacker News 的评论中解释说,"Magma"代表"M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch)",这是因为有人指出"Magma"已经被一个现有的矩阵代数库使用,可能会在技术讨论中造成混淆。mgC喜好网-记录每日喜好的科技时尚娱乐生活

相比之前模型的改进mgC喜好网-记录每日喜好的科技时尚娱乐生活

在 Magma 的介绍中,微软声称 Magma-8B 在各项基准测试中表现出色,在 UI 导航和机器人操作任务中展现了强大的结果。mgC喜好网-记录每日喜好的科技时尚娱乐生活

例如,它在 VQAv2 视觉问答基准测试中得分为 80.0,高于 GPT-4V 的 77.2,但低于 LLaVA-Next 的 81.8。它在 POPE 测试中的得分为 87.4,领先所有对比模型。在机器人操作方面,Magma 据报道在多个机器人操作任务中表现优于开源视觉语言动作模型 OpenVLA。mgC喜好网-记录每日喜好的科技时尚娱乐生活

一如既往,我们对 AI 基准测试持谨慎态度,因为许多测试尚未经过科学验证,无法证明其能够测量 AI 模型的有用特性。一旦其他研究人员能够访问公开发布的代码,对微软的基准测试结果进行外部验证就成为可能。mgC喜好网-记录每日喜好的科技时尚娱乐生活

与所有 AI 模型一样,Magma 并非完美。根据微软的文档,它在需要随时间推移进行多个步骤的复杂决策方面仍然面临技术限制。该公司表示,将通过持续研究来改进这些能力。mgC喜好网-记录每日喜好的科技时尚娱乐生活

Yang 表示,微软将在下周在 GitHub 上发布 Magma 的训练和推理代码,允许外部研究人员在此基础上继续研究。如果 Magma 实现其承诺,它可能会推动微软的 AI 助手超越有限的文本交互,使其能够自主操作软件并通过机器人执行现实世界的任务。mgC喜好网-记录每日喜好的科技时尚娱乐生活

Magma 也表明 AI 文化可以如何快速变化。就在几年前,这种代理式的讨论还让许多人感到恐惧,他们担心这可能导致 AI 接管世界。虽然一些人仍然担心这种结果,但在 2025 年,AI 代理已成为主流 AI 研究的常见话题,而且这种研究的进行通常不会引发暂停所有 AI 开发的呼声。mgC喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
黄金价格高歌猛进,正在“逼死”金店?

黄金价格高歌猛进,正在“逼死”金

今年以来,国际黄金价格已经超过30

11-19 68阅读
联想VS中兴!专利大战谁将胜出?

联想VS中兴!专利大战谁将胜出?

【锋巢网】最近,通信圈又出了一个

11-19 67阅读
‌OPPO Reno13系列及IoT生态新品发布会定于11月25日

‌OPPO Reno13系列及IoT生态新品

11-19 65阅读
宇瞻发布NOX RGB DDR5电竞内存条,速度高达8000MT/s

宇瞻发布NOX RGB DDR5电竞内存条

11-19 76阅读
“鲶鱼”雷军:抖音粉丝突破3000万,换一种方式卷同行?

“鲶鱼”雷军:抖音粉丝突破3000万

在流

11-19 58阅读
“资源弃子”杨幂还是被踢出了局,和嘉行解约的背后是被闺蜜插刀

“资源弃子”杨幂还是被踢

11-19 69阅读
于谦因釜山行爆红, 啥梗真没想到讲相声的他竟出演过这么多作品

于谦因釜山行爆红, 啥梗真

于谦明明就是一个讲相声的人,怎么

11-19 62阅读
《山河之影》是耽改吗?谢铿然最后是不是下线了?

《山河之影》是耽改吗?谢铿

电视剧《山河之影》是你根据同名

11-19 73阅读
央视剧评|《西北岁月》:书写西北革命史的壮丽篇章

央视剧评|《西北岁月》:书写

  正在总台央视综合频道(CCTV-1)黄金

11-19 66阅读
金角大王与银角大王可动人偶开启预定:超逼真还原童年记忆

金角大王与银角大王可动人

近日haoyutoys官

11-19 70阅读
不能现实换钱的新型NFC?《宝可梦卡牌P》再创新热潮

不能现实换钱的新型NFC?《

近期《宝可梦卡牌P》APP正式推出,引发

11-19 65阅读
《GTA三部曲》开发者不满名字被删 实际只修改了开场

《GTA三部曲》开发者不满

《GTA三部曲》开发商 Grove Street Ga

11-19 69阅读
烟雨江湖千机遗迹怎么开启?烟雨江湖千机遗迹攻略流程

烟雨江湖千机遗迹怎么开启

《烟雨江湖》是一款开放世界武侠冒险手

11-19 151阅读
饥荒龙心怎么获得?饥荒快速获得龙心的技巧分享

饥荒龙心怎么获得?饥荒快

龙心是饥荒游戏里面的重要材料,可以从龙

11-19 67阅读
饥荒宠物洞召唤宠物所需物品一览

饥荒宠物洞召唤宠物所需物

宠物洞是饥荒游戏里面的一个特殊场景,在

11-19 68阅读