微软Windows Agent Arena:教AI助手操作PC设备

8个月前 科技 57观看
摘要 微软发布一项突破性的基准测试,名为Windows Agent Arena(WAA),用于在真实的Windows操作系统环境下测试AI智能体。这套新平台旨在加快开发出能够在各类应用程序当中执行复杂计算机任务的AI助手。

微软发布一项突破性的基准测试,名为Windows Agent Arena(WAA),用于在真实的Windows操作系统环境下测试AI智能体。这套新平台旨在加快开发出能够在各类应用程序当中执行复杂计算机任务的AI助手。Ysc喜好网-记录每日喜好的科技时尚娱乐生活

微软Windows Agent Arena:教AI助手操作PC设备Ysc喜好网-记录每日喜好的科技时尚娱乐生活

这项研究成果发表在arXiv.org上,解决了评估AI智能体性能的一系列关键挑战。研究人员写道:“大语言模型已经显示出作为计算机智能体的非凡潜力,在需要规划和推理的多模态任务中提高了人类的生产力与软件可及性。然而,在现实环境中衡量智能体性能,则仍是一项严峻的挑战。”Ysc喜好网-记录每日喜好的科技时尚娱乐生活

Windows Agent Arena:AI助手的虚拟训练场Ysc喜好网-记录每日喜好的科技时尚娱乐生活

Windows Agent Arena提供一个可重复的测试场地,AI智能体可以在这里与常见的Windows应用程序、网络浏览器及系统工具交互,从而反映人类的用户体验。该平台包含150多项不同任务,涵盖文档编辑、网络浏览、编码和系统配置等等。Ysc喜好网-记录每日喜好的科技时尚娱乐生活

微软Windows Agent Arena:教AI助手操作PC设备Ysc喜好网-记录每日喜好的科技时尚娱乐生活

WAA的一项关键创新,在于它能在微软Azure云端的多个虚拟机上并行测试。论文指出:“我们的基准测试具有可扩展性,能够在Azure中实现无缝并行化,在短短20分钟内实现完整的基准测试评估。”与往往需要数天时间的传统按序测试相比,这大大加快了智能体项目的开发周期。Ysc喜好网-记录每日喜好的科技时尚娱乐生活

Navi:微软新AI智能体可执行人类级别任务Ysc喜好网-记录每日喜好的科技时尚娱乐生活

为了展示该平台的功能,微软还一并发布了一款名为Navi的新型多模态AI智能体。在测试中,Navi在WAA任务中的成功率为19.5%,而无需任何协助的人类成功率则为74.5%。这些结果展现出业界在开发能够与人类计算机操作能力相匹敌的AI方面,已经取得的当前进展与仍然面临的现实挑战。Ysc喜好网-记录每日喜好的科技时尚娱乐生活

该项研究的主要作者Rogerio Bonatti表示:“Windows Agent Arena为突破AI代理的边界提供了一个现实且全面的环境。通过推动这项基准测试的开源,我们希望加快整个AI社区对这一关键领域的研究进展。”Ysc喜好网-记录每日喜好的科技时尚娱乐生活

WAA的发布,正值科技巨头之间竞争加剧之际。各方都在努力开发能够自动执行复杂计算机任务且更加强大的AI助手。微软之所以专注于当前Windows环境,是因为这款操作系统仍是企业场景下占主导地位的系统类型,有望在企业级应用环境中获得接纳。Ysc喜好网-记录每日喜好的科技时尚娱乐生活

在AI智能体开发中平衡创新与道德Ysc喜好网-记录每日喜好的科技时尚娱乐生活

虽然Navi等AI智能体有望带来巨大的潜在助益,但此类技术的发展中同样蕴藏着影响深远的道德考量。随着这些智能体变得越来越复杂,它们将以前所未有的方式访问用户的数字生活,进而与各种应用程序中敏感的个人及专业信息进行交互。Ysc喜好网-记录每日喜好的科技时尚娱乐生活

微软Windows Agent Arena:教AI助手操作PC设备Ysc喜好网-记录每日喜好的科技时尚娱乐生活

AI智能体将能够在Windows环境中自由运行——包括访问文件、发送电子邮件或者修改系统设置——这也强调了对于强大安全措施及明确用户同意协议的需求。在赋予AI有效协助用户能力的同时,开发商也必须高度关注维护用户隐私,特别是在对数字领域的控制当中寻求微妙平衡这一核心议题。Ysc喜好网-记录每日喜好的科技时尚娱乐生活

此外,随着AI智能体越来越多地模仿人类与计算机系统的交互,透明度与问责制问题也随之而来。用户可能需要在与AI、而非人类交互时得到明确告知,这一点在专业或者高风险场景中显得尤其重要。AI代理后续可能会代表用户做出重大决策或者行动,这又引发了责任问题。随着技术的发展成熟,这些新情况必须要有可靠的答案。Ysc喜好网-记录每日喜好的科技时尚娱乐生活

微软对Windows Agent Arena进行开源的决定,无疑是朝着协作开发并审查这些技术迈出的积极一步。然而,这也意味着鲁莽甚至秉持恶意的行为者可能会利用该平台开发出具有负面影响的AI智能体。这也凸显出在这个快速发展的领域,保持持续警惕与监管制度的重要意义。Ysc喜好网-记录每日喜好的科技时尚娱乐生活

随着WAA加速开发出更强大的AI智能体,研究人员、伦理学家、政策制定者以及公众必须就这些技术的现实影响开展持续对话。该项基准不仅能够衡量技术进步,同时也提醒我们必须对复杂的道德环境抱有心理预期,未来AI技术将必然成为我们数字生活当中不可或缺的组成部分。Ysc喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
小米发布超级智能驾驶技术Hyper Autonomous Driving(HAD)

小米发布超级智能驾驶技术Hyper

11-19 116阅读
中国大模型要用Infra“降本增效”

中国大模型要用Infra“降本增效

今年7

11-19 92阅读
海马体的“中年危机”

海马体的“中年危机”

写真

11-19 109阅读
生成式AI热潮之下,应届毕业生的机会何在?

生成式AI热潮之下,应届毕业生的机

图片来源:由无界AI生成“互联网充

11-19 117阅读
腾讯的AI困局

腾讯的AI困局

文章来源:科技新知图片来源:由无界

11-19 114阅读
戈壁和江百丽结局,男方不爱女方,女生到最后一无所有

戈壁和江百丽结局,男方不爱

《暗恋橘生淮南》中江百丽和戈壁

11-19 203阅读
《好东西》豆瓣9.1,放映时观众数次鼓掌,导演:桥段全靠硬编

《好东西》豆瓣9.1,放映时

邵艺辉自编自导,宋佳、钟楚曦、章宇、

11-19 121阅读
琼瑶 与诗经《木瓜》的不解之缘(与诗经木瓜的不解之缘)

琼瑶 与诗经《木瓜》的不

投我以木瓜,报之以琼琚。匪报也,永以

11-19 105阅读
20岁大学生开车26天去上学引百万人围观:从中国南京开到英国杜伦

20岁大学生开车26天去上学

“我真的做到了!

11-19 112阅读
泰森宣布自己赢了

泰森宣布自己赢了

泰森在赛后感言

11-19 99阅读
木内ラムネ作品《月のお気に召すまま》在别册玛格丽特完結

木内ラムネ作品《月のお気

木内ラム

11-19 119阅读
《Amerzone:探险家的记忆传承》跳票至明年第二季度

《Amerzone:探险家的记忆传

Microids已将重制版游戏《Amerzone:探

11-19 125阅读
传索尼正在研究如何在PS5主机上原生运行PS3游戏

传索尼正在研究如何在PS5

据最新传闻,索尼目前正在致力于让PS3游

11-19 119阅读
《星空》DLC差评托德后悔:不该太早更新地面载具

《星空》DLC差评托德后悔:

《星空:破碎空间》DLC 发布后,玩家给出

11-19 99阅读
原子之心医院区域所有死者位置详细介绍

原子之心医院区域所有死者

在原子之心游戏里面想要达成招魂问卜奖

11-19 111阅读