OpenAI 推出 Operator 代理:自动化网络任务的新尝试

6个月前 科技 39观看
摘要 OpenAI 于周四推出了一款名为 Operator 的人工智能代理,这款由人类指导的 AI 代理能够自主使用网络浏览器完成各种在线任务,尽管其完成效果可能参差不齐。根据 OpenAI CEO Sam Altman、软件工

OpenAI 于周四推出了一款名为 Operator 的人工智能代理,这款由人类指导的 AI 代理能够自主使用网络浏览器完成各种在线任务,尽管其完成效果可能参差不齐。gzV喜好网-记录每日喜好的科技时尚娱乐生活

根据 OpenAI CEO Sam Altman、软件工程师 Yash Kumar、研究员 Casey Chu 和技术人员 Reiichiro Nakano 的演示,Operator 代理可以执行需要多个步骤且具有特定参数的在线活动,比如通过 OpenTable 在指定时间段内预订餐厅,或在给定价格范围内查找特定演出者的音乐会门票。gzV喜好网-记录每日喜好的科技时尚娱乐生活

就像用户向 ChatGPT 提问一样,用户可以向 Operator 发出指令,让它作为个人助手在网络上执行任务。gzV喜好网-记录每日喜好的科技时尚娱乐生活

虽然个人可以自己完成这些任务而无需额外费用,但每月支付 200 美元的美国 ChatGPT Pro 订阅用户可以使用 Operator,尽管其可靠性相对较低。OpenAI 的 Plus、Team 和 Enterprise 层级的订阅用户将在系统完善后获得访问权限。gzV喜好网-记录每日喜好的科技时尚娱乐生活

Operator 类似于 Anthropic 的计算机使用 API,它结合了 Playwright 和 Selenium 等软件框架实现的浏览器自动化功能,以及用于评估网站文字和图像的文本机器学习模型和计算机视觉模型。gzV喜好网-记录每日喜好的科技时尚娱乐生活

其总体目标是实现网络任务自动化,使人们从枯燥的工作中解放出来...或者彻底摆脱就业。gzV喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 在一份说明中解释道:"Operator 可以处理各种重复性浏览器任务,如填写表格、订购杂货,甚至创建表情包。能够使用与人类日常交互相同的界面和工具扩展了 AI 的实用性,帮助人们在日常任务上节省时间,同时为企业开启新的互动机会。"gzV喜好网-记录每日喜好的科技时尚娱乐生活

这些互动机会目前需要与 OpenAI 进行协商。该公司表示正在与 "DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作,确保 Operator 能够满足现实需求,同时尊重既定规范。"gzV喜好网-记录每日喜好的科技时尚娱乐生活

换句话说,OpenAI 的 Operator 可能无法很好地与那些不期望频繁自动化接触的网络服务进行交互。但随着基于代理的交互变得普及,OpenAI 和类似的代理提供商可能会降低搜索作为营销和销售渠道的价值,因为自动化连接服务和通过 API 建立的合作伙伴优先关系有可能减少人工查询的需求。gzV喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 的代理基于一个名为 Computer-Using Agent (CUA) 的模型,该模型结合了 GPT-4o 的计算机视觉功能和关于如何处理图形用户界面 (GUI) 的训练。TikTok 母公司字节跳动最近发布了一个类似的开源项目 UI-TARS,用于实现 GUI 交互自动化。gzV喜好网-记录每日喜好的科技时尚娱乐生活

根据 OpenAI 的数据,CUA 在 OSWorld 基准测试中完整计算机使用任务的成功率为 38.1%,在 WebArena 上的成功率为 58.1%,在 WebVoyager 上基于网络任务的成功率为 87%。因此,在使用 Operator 时要做好可能无法成功预订餐厅或订购杂货的心理准备。gzV喜好网-记录每日喜好的科技时尚娱乐生活

CUA 的计算机视觉模式通过捕获和存储屏幕截图工作,它利用这些截图执行链式思维"推理"来完成请求的任务。熟悉 Microsoft 最新版 Windows 中 Recall 功能屏幕捕获争议的人可能会对 OpenAI 如何处理截图数据有所担忧。gzV喜好网-记录每日喜好的科技时尚娱乐生活

The Register 向 OpenAI 询问以寻求澄清,但尚未收到回复。该公司表示,在 ChatGPT 设置中禁用"为所有人改进模型"(默认开启)将阻止 Operator 中的数据用于训练其模型。gzV喜好网-记录每日喜好的科技时尚娱乐生活

用户通过文本提示输入任务,AI 代理会尝试完成该任务,将其分解为一系列步骤,并在需要用户登录、提供支付详细信息或解决验证码时等待用户干预——如果允许的话,当前的计算机视觉模型可以相当有效地完成这些任务。gzV喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 表示:"我们知道不法分子可能会试图滥用这项技术。这就是为什么我们设计 Operator 拒绝有害请求并阻止不允许的内容。我们的审核系统可以对重复违规发出警告,甚至撤销访问权限,我们还集成了额外的审查流程来检测和处理滥用行为。"gzV喜好网-记录每日喜好的科技时尚娱乐生活

根据 ChatGPT 制造商的说法,Operator 被设计用来防范可能试图通过隐藏提示、恶意代码或网络钓鱼企图误导 AI 代理的对抗性网站。据称该 AI 代理被设计成能够检测并忽略提示注入攻击。据说它在"监控模型"的监督下运行,该模型监视可疑行为,并辅以涉及人工审查和自动化流程的异常检测。gzV喜好网-记录每日喜好的科技时尚娱乐生活

尽管如此,OpenAI 承认,"没有系统是完美的,这仍然是一个研究预览版。"gzV喜好网-记录每日喜好的科技时尚娱乐生活

Operator 的推出正值 AI 行业领袖所称的"代理时代",在这个时代,生成式 AI 模型应用多模态文本、音频和视觉能力与其他计算系统交互,以处理需要某种形式推理和进度评估的多步骤任务。gzV喜好网-记录每日喜好的科技时尚娱乐生活

虽然 AI 代理在理论上听起来很有前景,但在实践中却有些令人失望——可能是因为复杂任务中的每一步都增加了失败的机会。例如,最近对 AI 代码助手 Devin 的评估表明,要使这些系统可靠还需要做更多工作。gzV喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
当代年轻人,仍然想要“接盘”房地产

当代年轻人,仍然想要“接盘”房地

10月份,住建部数据显示,本月商品房

11-19 121阅读
纯电210km 奇瑞风云T9超长续航版上市:限时国补14.89万元

纯电210km 奇瑞风云T9超长续航版

11月19日

11-19 128阅读
小米米家智能蒸烤箱 S1 30L 预售:1599 元享蒸烤炸炖四合一

小米米家智能蒸烤箱 S1 30L 预售

11-19 124阅读
焦虑的开发者,涌向“纯血鸿蒙”培训班

焦虑的开发者,涌向“纯血鸿蒙”培

有两

11-19 105阅读
致命错误!Sam Altman发一张对比图,遭到大量吐槽

致命错误!Sam Altman发一张对比图

图片来源:由无界AI生成OpenAI联合

11-19 131阅读
丁禹兮vs范丞丞,偶像演员演技大赏

丁禹兮vs范丞丞,偶像演员演

作者 / 张   特编辑 / 阿   笔运

11-19 103阅读
人民日报评代拍乱象, 代拍为何惹众怒?

人民日报评代拍乱象, 代拍

近期除了家暴一词被大家热议,代拍

11-19 109阅读
腾讯的这部甜宠剧,高颜值cp让人沦陷,男二也让人心动

腾讯的这部甜宠剧,高颜值cp

2020年4月10日,甜宠剧《致我们甜甜

11-19 113阅读
天生戏剧人!小演员田芯语乌镇首秀,领衔戏剧节唯一入围儿童剧《乐园》

天生戏剧人!小演员田芯语乌

  深秋,一场淅淅沥沥的小雨为江南带

11-19 110阅读
最美《变形金刚》女主梅根福克斯怀孕登热搜 网友谈样貌:咋成卡戴珊了...

最美《变形金刚》女主梅根

11月12日消息,知

11-19 107阅读
《天穗之咲稻姬外传》确定制作 本篇Steam平台限时促销中

《天穗之咲稻姬外传》确定

Marvelous Inc.(代表取缔役社长:佐藤澄宣

11-19 129阅读
空洞骑士苍白矿石位置_空洞骑士苍白矿石所有位置(图片)

空洞骑士苍白矿石位置_空

《空洞骑士》是一款以探索和解谜为核心

11-19 112阅读
原子之心3826设施啁啾表全收集攻略

原子之心3826设施啁啾表全

啁啾表是原子之心游戏里面的一个特殊收

11-19 117阅读
界面设计全面升级 NVIDIA app实际体验:五大靓点堪称N卡必备搭档

界面设计全面升级 NVIDIA

11-19 119阅读
饥荒暖石制作方法详细介绍

饥荒暖石制作方法详细介绍

暖石是饥荒游戏里面的一个特殊道具,可以

11-19 186阅读