微软新的 AI 代理可以控制软件和机器人

5个月前 科技 31观看
摘要 周三,微软研究院推出了 Magma,这是一个集成的 AI 基础模型,结合了视觉和语言处理能力,可以控制软件界面和机器人系统。如果这些结果在微软内部测试之外依然有效,这可能标志着一个支持多模态的通用

周三,微软研究院推出了 Magma,这是一个集成的 AI 基础模型,结合了视觉和语言处理能力,可以控制软件界面和机器人系统。如果这些结果在微软内部测试之外依然有效,这可能标志着一个支持多模态的通用 AI 在现实和数字空间中进行交互操作的重要进展。lI0喜好网-记录每日喜好的科技时尚娱乐生活

微软声称,Magma 是第一个不仅能处理多模态数据 (如文本、图像和视频),还能对其进行原生操作的 AI 模型——无论是导航用户界面还是操控物理对象。该项目是微软、KAIST、马里兰大学、威斯康星麦迪逊大学和华盛顿大学研究人员合作的成果。lI0喜好网-记录每日喜好的科技时尚娱乐生活

我们已经见过其他基于大语言模型的机器人项目,如 Google 的 PALM-E 和 RT-2,或微软的 ChatGPT for Robotics,它们都将大语言模型用作接口。然而,与许多需要单独模型来进行感知和控制的传统多模态 AI 系统不同,Magma 将这些能力整合到一个基础模型中。lI0喜好网-记录每日喜好的科技时尚娱乐生活

微软将 Magma 定位为朝着代理式 AI 迈出的一步,这意味着系统可以代表人类自主制定计划并执行多步骤任务,而不仅仅是回答关于所见内容的问题。lI0喜好网-记录每日喜好的科技时尚娱乐生活

微软在其研究论文中写道:"给定一个描述性目标,Magma 能够制定计划并执行行动来实现它。通过有效地从免费获取的视觉和语言数据中转移知识,Magma 将语言、空间和时间智能结合起来,以应对复杂的任务和场景。"lI0喜好网-记录每日喜好的科技时尚娱乐生活

微软并不是唯一追求代理式 AI 的公司。OpenAI 一直在通过 Operator 等项目实验 AI 代理,该项目可以在网页浏览器中执行 UI 任务,而 Google 则通过 Gemini 2.0 探索多个代理项目。lI0喜好网-记录每日喜好的科技时尚娱乐生活

空间智能lI0喜好网-记录每日喜好的科技时尚娱乐生活

虽然 Magma 建立在基于 Transformer 的大语言模型技术之上,将训练 Token 输入神经网络,但它与传统的视觉语言模型 (如 GPT-4V) 不同,它超越了所谓的"语言智能",还包括"空间智能" (规划和行动执行)。通过对图像、视频、机器人数据和 UI 交互的混合训练,微软声称 Magma 是一个真正的多模态代理,而不仅仅是一个感知模型。lI0喜好网-记录每日喜好的科技时尚娱乐生活

Magma 模型引入了两个技术组件:Set-of-Mark,通过为交互元素(如 UI 中的可点击按钮或机器人工作空间中的可抓取物体)分配数字标签来识别可在环境中操作的对象;以及 Trace-of-Mark,用于从视频数据中学习移动模式。微软表示,这些功能使模型能够完成导航用户界面或指导机器人手臂抓取物体等任务。lI0喜好网-记录每日喜好的科技时尚娱乐生活

微软 Magma 研究员 Jianwei Yang 在 Hacker News 的评论中解释说,"Magma"代表"M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch)",这是因为有人指出"Magma"已经被一个现有的矩阵代数库使用,可能会在技术讨论中造成混淆。lI0喜好网-记录每日喜好的科技时尚娱乐生活

相比之前模型的改进lI0喜好网-记录每日喜好的科技时尚娱乐生活

在 Magma 的介绍中,微软声称 Magma-8B 在各项基准测试中表现出色,在 UI 导航和机器人操作任务中展现了强大的结果。lI0喜好网-记录每日喜好的科技时尚娱乐生活

例如,它在 VQAv2 视觉问答基准测试中得分为 80.0,高于 GPT-4V 的 77.2,但低于 LLaVA-Next 的 81.8。它在 POPE 测试中的得分为 87.4,领先所有对比模型。在机器人操作方面,Magma 据报道在多个机器人操作任务中表现优于开源视觉语言动作模型 OpenVLA。lI0喜好网-记录每日喜好的科技时尚娱乐生活

一如既往,我们对 AI 基准测试持谨慎态度,因为许多测试尚未经过科学验证,无法证明其能够测量 AI 模型的有用特性。一旦其他研究人员能够访问公开发布的代码,对微软的基准测试结果进行外部验证就成为可能。lI0喜好网-记录每日喜好的科技时尚娱乐生活

与所有 AI 模型一样,Magma 并非完美。根据微软的文档,它在需要随时间推移进行多个步骤的复杂决策方面仍然面临技术限制。该公司表示,将通过持续研究来改进这些能力。lI0喜好网-记录每日喜好的科技时尚娱乐生活

Yang 表示,微软将在下周在 GitHub 上发布 Magma 的训练和推理代码,允许外部研究人员在此基础上继续研究。如果 Magma 实现其承诺,它可能会推动微软的 AI 助手超越有限的文本交互,使其能够自主操作软件并通过机器人执行现实世界的任务。lI0喜好网-记录每日喜好的科技时尚娱乐生活

Magma 也表明 AI 文化可以如何快速变化。就在几年前,这种代理式的讨论还让许多人感到恐惧,他们担心这可能导致 AI 接管世界。虽然一些人仍然担心这种结果,但在 2025 年,AI 代理已成为主流 AI 研究的常见话题,而且这种研究的进行通常不会引发暂停所有 AI 开发的呼声。lI0喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
拼多多「隐身」双十一

拼多多「隐身」双十一

纵然是在互联互通的大背景下,双十

11-19 122阅读
小杨哥缺席,抖音还能玩转双11吗?

小杨哥缺席,抖音还能玩转双11吗?

采写/尹冰雪‍编辑/万天南“

11-19 129阅读
睿蓝8七座纯电MPV上市,起售价13.78万元

睿蓝8七座纯电MPV上市,起售价13.7

11-19 108阅读
灵宝 CASBOT 01 人形机器人发布:52自由度,头部配屏,获联想投资

灵宝 CASBOT 01 人形机器人发布:5

11-19 103阅读
一单只挣几块钱,年轻人追捧的代炒是门好生意吗?

一单只挣几块钱,年轻人追捧的代炒

杭州

11-19 125阅读
“骗”来30+喜剧人,《大话大话西游》好一场内容共创|Talk专访蒋龙

“骗”来30+喜剧人,《大话大

作者 / 张   特采访、编辑 / 朱 

11-19 109阅读
中国世界电影学会|2024·法国优秀影片展映圆满落幕

中国世界电影学会|2024·法

  由中国世界电影学会、中国文联电

11-19 105阅读
《山河之影》是耽改吗?谢铿然最后是不是下线了?

《山河之影》是耽改吗?谢铿

电视剧《山河之影》是你根据同名

11-19 112阅读
《大梦归离》迎来大结局,用热血群像展现悲凉内核探讨生命的意义

《大梦归离》迎来大结局,用

  由爱奇艺出品,最世文化、奥羽工作

11-19 125阅读
郭德纲外甥大婚排场大!岳云鹏张云雷引人关注,新娘面相惹争议

郭德纲外甥大婚排场大!岳云

11月18日,德云社相声演员王九龙大婚,他

11-19 114阅读
特别好评《永恒天空》明年登陆PS5 试玩Demo现已上线

特别好评《永恒天空》明年

于 2023 年 6 月发售的开放世界科幻生

11-19 128阅读
饥荒联机版怎么调中文?饥荒联机版中文设置方法

饥荒联机版怎么调中文?饥荒

饥荒联机版是目前很多玩家在玩的一个版

11-19 119阅读
原神超越时间的虚影全流程解析|超越时间的虚影隐藏任务攻略

原神超越时间的虚影全流程

超越时间的虚影是原神须弥沙漠地区的隐

11-19 107阅读
原神赤王时代的沙漠与大赤沙海任务全流程攻略

原神赤王时代的沙漠与大赤

赤王时代的沙漠与大赤沙海是原神须弥地

11-19 126阅读
硬件情报站第156期:AMD锐龙9800X3D黄牛价翻倍 网友14900K送保被拒

硬件情报站第156期:AMD锐龙

11-19 132阅读