OpenAI 推出 Operator 代理:自动化网络任务的新尝试

3个月前 科技 23观看
摘要 OpenAI 于周四推出了一款名为 Operator 的人工智能代理,这款由人类指导的 AI 代理能够自主使用网络浏览器完成各种在线任务,尽管其完成效果可能参差不齐。根据 OpenAI CEO Sam Altman、软件工

OpenAI 于周四推出了一款名为 Operator 的人工智能代理,这款由人类指导的 AI 代理能够自主使用网络浏览器完成各种在线任务,尽管其完成效果可能参差不齐。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

根据 OpenAI CEO Sam Altman、软件工程师 Yash Kumar、研究员 Casey Chu 和技术人员 Reiichiro Nakano 的演示,Operator 代理可以执行需要多个步骤且具有特定参数的在线活动,比如通过 OpenTable 在指定时间段内预订餐厅,或在给定价格范围内查找特定演出者的音乐会门票。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

就像用户向 ChatGPT 提问一样,用户可以向 Operator 发出指令,让它作为个人助手在网络上执行任务。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

虽然个人可以自己完成这些任务而无需额外费用,但每月支付 200 美元的美国 ChatGPT Pro 订阅用户可以使用 Operator,尽管其可靠性相对较低。OpenAI 的 Plus、Team 和 Enterprise 层级的订阅用户将在系统完善后获得访问权限。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

Operator 类似于 Anthropic 的计算机使用 API,它结合了 Playwright 和 Selenium 等软件框架实现的浏览器自动化功能,以及用于评估网站文字和图像的文本机器学习模型和计算机视觉模型。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

其总体目标是实现网络任务自动化,使人们从枯燥的工作中解放出来...或者彻底摆脱就业。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 在一份说明中解释道:"Operator 可以处理各种重复性浏览器任务,如填写表格、订购杂货,甚至创建表情包。能够使用与人类日常交互相同的界面和工具扩展了 AI 的实用性,帮助人们在日常任务上节省时间,同时为企业开启新的互动机会。"Gu6喜好网-记录每日喜好的科技时尚娱乐生活

这些互动机会目前需要与 OpenAI 进行协商。该公司表示正在与 "DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作,确保 Operator 能够满足现实需求,同时尊重既定规范。"Gu6喜好网-记录每日喜好的科技时尚娱乐生活

换句话说,OpenAI 的 Operator 可能无法很好地与那些不期望频繁自动化接触的网络服务进行交互。但随着基于代理的交互变得普及,OpenAI 和类似的代理提供商可能会降低搜索作为营销和销售渠道的价值,因为自动化连接服务和通过 API 建立的合作伙伴优先关系有可能减少人工查询的需求。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 的代理基于一个名为 Computer-Using Agent (CUA) 的模型,该模型结合了 GPT-4o 的计算机视觉功能和关于如何处理图形用户界面 (GUI) 的训练。TikTok 母公司字节跳动最近发布了一个类似的开源项目 UI-TARS,用于实现 GUI 交互自动化。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

根据 OpenAI 的数据,CUA 在 OSWorld 基准测试中完整计算机使用任务的成功率为 38.1%,在 WebArena 上的成功率为 58.1%,在 WebVoyager 上基于网络任务的成功率为 87%。因此,在使用 Operator 时要做好可能无法成功预订餐厅或订购杂货的心理准备。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

CUA 的计算机视觉模式通过捕获和存储屏幕截图工作,它利用这些截图执行链式思维"推理"来完成请求的任务。熟悉 Microsoft 最新版 Windows 中 Recall 功能屏幕捕获争议的人可能会对 OpenAI 如何处理截图数据有所担忧。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

The Register 向 OpenAI 询问以寻求澄清,但尚未收到回复。该公司表示,在 ChatGPT 设置中禁用"为所有人改进模型"(默认开启)将阻止 Operator 中的数据用于训练其模型。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

用户通过文本提示输入任务,AI 代理会尝试完成该任务,将其分解为一系列步骤,并在需要用户登录、提供支付详细信息或解决验证码时等待用户干预——如果允许的话,当前的计算机视觉模型可以相当有效地完成这些任务。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 表示:"我们知道不法分子可能会试图滥用这项技术。这就是为什么我们设计 Operator 拒绝有害请求并阻止不允许的内容。我们的审核系统可以对重复违规发出警告,甚至撤销访问权限,我们还集成了额外的审查流程来检测和处理滥用行为。"Gu6喜好网-记录每日喜好的科技时尚娱乐生活

根据 ChatGPT 制造商的说法,Operator 被设计用来防范可能试图通过隐藏提示、恶意代码或网络钓鱼企图误导 AI 代理的对抗性网站。据称该 AI 代理被设计成能够检测并忽略提示注入攻击。据说它在"监控模型"的监督下运行,该模型监视可疑行为,并辅以涉及人工审查和自动化流程的异常检测。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

尽管如此,OpenAI 承认,"没有系统是完美的,这仍然是一个研究预览版。"Gu6喜好网-记录每日喜好的科技时尚娱乐生活

Operator 的推出正值 AI 行业领袖所称的"代理时代",在这个时代,生成式 AI 模型应用多模态文本、音频和视觉能力与其他计算系统交互,以处理需要某种形式推理和进度评估的多步骤任务。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

虽然 AI 代理在理论上听起来很有前景,但在实践中却有些令人失望——可能是因为复杂任务中的每一步都增加了失败的机会。例如,最近对 AI 代码助手 Devin 的评估表明,要使这些系统可靠还需要做更多工作。Gu6喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
雷军再回应小米SU7 Ultra车模难抢:行业自动化程度较低,产能严重不足

雷军再回应小米SU7 Ultra车模难

11 月

11-19 65阅读
宝马全新纯电动BMW i4上市,eDrive40售46.99万

宝马全新纯电动BMW i4上市,eDrive

11-19 65阅读
‌华为、OPPO、vivo、小米联手打造统一链接平台:简化App下载流程‌

‌华为、OPPO、vivo、小米联手打

11-19 70阅读
‌2026款本田Passport硬派越野车亮相:外观硬朗,搭载V6发动机‌

‌2026款本田Passport硬派越野车

11-19 68阅读
国家级基金、江苏省级母基金押注人形机器人

国家级基金、江苏省级母基金押注

近日,

11-19 66阅读
后台被这剧催爆了

后台被这剧催爆了

11-19 73阅读
TXT迷你七辑《The Star Chapter: SANCTUARY》进入专辑主榜"Billboard 200"(11月23日次)第2位

TXT迷你七辑《The Star Ch

17日,据美国Billboard榜单

11-19 66阅读
高燃励志电影《倒数回击》定档11月20日 甜妹热辣“爆改”逆袭浴火人生

高燃励志电影《倒数回击》

  由洪子烜导演,温贞菱、丁宁主演的

11-19 59阅读
《逆天奇案》寡佬是谁?钟嘉瑜最后和谁在一起了?

《逆天奇案》寡佬是谁?钟嘉

在《逆天奇案》中,寡佬是一名警察,

11-19 57阅读
《角斗士2》横扫国际票房

《角斗士2》横扫国际票房

《角斗士2》在欧

11-19 66阅读
与柴犬开启治愈探险之旅!异世界动作冒险新游《妖怪之国》登陆Steam

与柴犬开启治愈探险之旅!异

在这个繁忙喧嚣的现代社会,我们时常渴

11-19 74阅读
和平精英跳伞怎么快速落地?和平精英跳伞技巧

和平精英跳伞怎么快速落地

《和平精英》游戏中玩家将通过跳伞进入

11-19 67阅读
饥荒存档在哪个文件夹?饥荒存档位置一览

饥荒存档在哪个文件夹?饥

饥荒存档在哪个文件夹?饥荒游戏里面玩家

11-19 164阅读
饥荒辣椒酱制作方法及制作材料分享

饥荒辣椒酱制作方法及制作

辣椒酱是饥荒游戏里面的一个特殊食物,不

11-19 70阅读