微软Windows Agent Arena:教AI助手操作PC设备

5个月前 科技 41观看
摘要 微软发布一项突破性的基准测试,名为Windows Agent Arena(WAA),用于在真实的Windows操作系统环境下测试AI智能体。这套新平台旨在加快开发出能够在各类应用程序当中执行复杂计算机任务的AI助手。

微软发布一项突破性的基准测试,名为Windows Agent Arena(WAA),用于在真实的Windows操作系统环境下测试AI智能体。这套新平台旨在加快开发出能够在各类应用程序当中执行复杂计算机任务的AI助手。SX9喜好网-记录每日喜好的科技时尚娱乐生活

微软Windows Agent Arena:教AI助手操作PC设备SX9喜好网-记录每日喜好的科技时尚娱乐生活

这项研究成果发表在arXiv.org上,解决了评估AI智能体性能的一系列关键挑战。研究人员写道:“大语言模型已经显示出作为计算机智能体的非凡潜力,在需要规划和推理的多模态任务中提高了人类的生产力与软件可及性。然而,在现实环境中衡量智能体性能,则仍是一项严峻的挑战。”SX9喜好网-记录每日喜好的科技时尚娱乐生活

Windows Agent Arena:AI助手的虚拟训练场SX9喜好网-记录每日喜好的科技时尚娱乐生活

Windows Agent Arena提供一个可重复的测试场地,AI智能体可以在这里与常见的Windows应用程序、网络浏览器及系统工具交互,从而反映人类的用户体验。该平台包含150多项不同任务,涵盖文档编辑、网络浏览、编码和系统配置等等。SX9喜好网-记录每日喜好的科技时尚娱乐生活

微软Windows Agent Arena:教AI助手操作PC设备SX9喜好网-记录每日喜好的科技时尚娱乐生活

WAA的一项关键创新,在于它能在微软Azure云端的多个虚拟机上并行测试。论文指出:“我们的基准测试具有可扩展性,能够在Azure中实现无缝并行化,在短短20分钟内实现完整的基准测试评估。”与往往需要数天时间的传统按序测试相比,这大大加快了智能体项目的开发周期。SX9喜好网-记录每日喜好的科技时尚娱乐生活

Navi:微软新AI智能体可执行人类级别任务SX9喜好网-记录每日喜好的科技时尚娱乐生活

为了展示该平台的功能,微软还一并发布了一款名为Navi的新型多模态AI智能体。在测试中,Navi在WAA任务中的成功率为19.5%,而无需任何协助的人类成功率则为74.5%。这些结果展现出业界在开发能够与人类计算机操作能力相匹敌的AI方面,已经取得的当前进展与仍然面临的现实挑战。SX9喜好网-记录每日喜好的科技时尚娱乐生活

该项研究的主要作者Rogerio Bonatti表示:“Windows Agent Arena为突破AI代理的边界提供了一个现实且全面的环境。通过推动这项基准测试的开源,我们希望加快整个AI社区对这一关键领域的研究进展。”SX9喜好网-记录每日喜好的科技时尚娱乐生活

WAA的发布,正值科技巨头之间竞争加剧之际。各方都在努力开发能够自动执行复杂计算机任务且更加强大的AI助手。微软之所以专注于当前Windows环境,是因为这款操作系统仍是企业场景下占主导地位的系统类型,有望在企业级应用环境中获得接纳。SX9喜好网-记录每日喜好的科技时尚娱乐生活

在AI智能体开发中平衡创新与道德SX9喜好网-记录每日喜好的科技时尚娱乐生活

虽然Navi等AI智能体有望带来巨大的潜在助益,但此类技术的发展中同样蕴藏着影响深远的道德考量。随着这些智能体变得越来越复杂,它们将以前所未有的方式访问用户的数字生活,进而与各种应用程序中敏感的个人及专业信息进行交互。SX9喜好网-记录每日喜好的科技时尚娱乐生活

微软Windows Agent Arena:教AI助手操作PC设备SX9喜好网-记录每日喜好的科技时尚娱乐生活

AI智能体将能够在Windows环境中自由运行——包括访问文件、发送电子邮件或者修改系统设置——这也强调了对于强大安全措施及明确用户同意协议的需求。在赋予AI有效协助用户能力的同时,开发商也必须高度关注维护用户隐私,特别是在对数字领域的控制当中寻求微妙平衡这一核心议题。SX9喜好网-记录每日喜好的科技时尚娱乐生活

此外,随着AI智能体越来越多地模仿人类与计算机系统的交互,透明度与问责制问题也随之而来。用户可能需要在与AI、而非人类交互时得到明确告知,这一点在专业或者高风险场景中显得尤其重要。AI代理后续可能会代表用户做出重大决策或者行动,这又引发了责任问题。随着技术的发展成熟,这些新情况必须要有可靠的答案。SX9喜好网-记录每日喜好的科技时尚娱乐生活

微软对Windows Agent Arena进行开源的决定,无疑是朝着协作开发并审查这些技术迈出的积极一步。然而,这也意味着鲁莽甚至秉持恶意的行为者可能会利用该平台开发出具有负面影响的AI智能体。这也凸显出在这个快速发展的领域,保持持续警惕与监管制度的重要意义。SX9喜好网-记录每日喜好的科技时尚娱乐生活

随着WAA加速开发出更强大的AI智能体,研究人员、伦理学家、政策制定者以及公众必须就这些技术的现实影响开展持续对话。该项基准不仅能够衡量技术进步,同时也提醒我们必须对复杂的道德环境抱有心理预期,未来AI技术将必然成为我们数字生活当中不可或缺的组成部分。SX9喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
年轻人的失眠症,正在被包装成“熬夜经济”

年轻人的失眠症,正在被包装成“熬

最近一段时间,各大奶茶店纷纷开启

11-19 68阅读
电池容量大了iPhone快一倍 今年国产手机咋突然悟了

电池容量大了iPhone快一倍 今年

不知道为

11-19 68阅读
凯迪拉克公布2026款Vistiq电动SUV细节,明年上市

凯迪拉克公布2026款Vistiq电动SU

11-19 66阅读
趁iPhone16的AI还没落地,国产手机卷疯了

趁iPhone16的AI还没落地,国产手机

乔布

11-19 65阅读
生成式AI热潮之下,应届毕业生的机会何在?

生成式AI热潮之下,应届毕业生的机

图片来源:由无界AI生成“互联网充

11-19 63阅读
THE BOYZ金善旴遭私生殴打 警方已经逮捕私生

THE BOYZ金善旴遭私生殴打

  11月14日,据韩媒报道称,男

11-19 63阅读
不愧是中国第一网红!李子柒油管日收入预估超8万:停更期间单月广告分成超78万

不愧是中国第一网红!李子柒

11月14日消息,据

11-19 62阅读
20岁大学生开车26天去上学引百万人围观:从中国南京开到英国杜伦

20岁大学生开车26天去上学

“我真的做到了!

11-19 65阅读
“重温经典”电视频道火爆:超6000万户 稳居收视率首位

“重温经典”电视频道火爆

11月18日消息,根

11-19 61阅读
迪士尼儿童动画或因LGBT话题停播一集:变性少年参加女子排球赛

迪士尼儿童动画或因LGBT话

据多位参与制作

11-19 66阅读
真人互动恋爱影游《欢迎光临!心动咖啡厅》Steam页面开放 发行日期待定

真人互动恋爱影游《欢迎光

今日(11月16日),真人互动恋爱影游《欢迎

11-19 68阅读
重装机兵4失落密码大全_重装机兵4所有失落密码一览

重装机兵4失落密码大全_重

失落密码是《重装机兵4》游戏里面的一

11-19 188阅读
重装机兵3大破坏密码大全_重装机兵3所有密码一览

重装机兵3大破坏密码大全_

大破坏密码是《重装机兵3》游戏里面用

11-19 194阅读
保卫萝卜4太空穿越4关通关攻略

保卫萝卜4太空穿越4关通关

保卫萝卜4是最新发布的游戏,相信喜欢保

11-19 66阅读
原神八个探索性成就任务攻略|八个探索性隐藏成就做法

原神八个探索性成就任务攻

八个探索性成就是原神须弥地区的隐藏任

11-19 70阅读