OpenAI 推出 Operator:一款可在网络上执行任务的 AI 代理

2个月前 科技 17观看
摘要 OpenAI 于周四发布了名为 "Operator" 的研究预览版,这是一款网络自动化工具,使用名为计算机使用代理 (Computer-Using Agent, CUA) 的新型 AI 模型来控制网络浏览器的可视化界面。该系统通过查

OpenAI 于周四发布了名为 "Operator" 的研究预览版,这是一款网络自动化工具,使用名为计算机使用代理 (Computer-Using Agent, CUA) 的新型 AI 模型来控制网络浏览器的可视化界面。该系统通过查看和交互屏幕上的按钮和文本框等元素来执行任务,其方式类似于人类操作。0YW喜好网-记录每日喜好的科技时尚娱乐生活

Operator 现已向每月支付 200 美元的 ChatGPT Pro 计划订阅用户开放,可在 operator.chatgpt.com 使用。公司计划稍后将服务扩展到 Plus、Team 和 Enterprise 用户。OpenAI 打算将这些功能直接集成到 ChatGPT 中,并在后续通过其 API 向开发者开放 CUA。0YW喜好网-记录每日喜好的科技时尚娱乐生活

Operator 在其虚拟环境中监视屏幕内容,同时使用内部浏览器并通过模拟键盘和鼠标输入来执行任务。计算机使用代理通过处理浏览器界面的截图来理解浏览器状态,然后根据观察结果决定点击、输入和滚动等操作。0YW喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 的这次发布紧随其他科技公司进军所谓的"代理式" AI 系统的步伐,这类系统可以代表用户执行操作。Google 在 2024 年 12 月宣布了 Project Mariner,该项目可通过 Chrome 浏览器执行自动化任务。而在两个月前的 2024 年 10 月,Anthropic 推出了面向开发者的网络自动化工具 "Computer Use",可以控制用户的鼠标光标并在计算机上执行操作。0YW喜好网-记录每日喜好的科技时尚娱乐生活

AI 研究员 Simon Willison 在其博客中写道:"Operator 的界面与 Anthropic 在 10 月份展示的 Claude Computer Use 演示非常相似,甚至到左侧的聊天面板和右侧可交互界面的布局都一样。"0YW喜好网-记录每日喜好的科技时尚娱乐生活

观察并采取行动0YW喜好网-记录每日喜好的科技时尚娱乐生活

为了像人类一样使用浏览器,计算机使用代理分多个步骤工作。首先,它通过截图监控进度,然后分析这些图像 (使用 GPT-4 的视觉能力和额外的强化学习) 来处理原始像素数据。接着,它确定要采取的行动,并执行虚拟输入来控制浏览器。这种迭代循环设计据称使系统能够从错误中恢复,并处理跨不同应用程序的复杂任务。0YW喜好网-记录每日喜好的科技时尚娱乐生活

在工作时,Operator 会显示其浏览器窗口视图和正在进行的操作。0YW喜好网-记录每日喜好的科技时尚娱乐生活

Operator 背后的技术仍然相对较新,远非完美。据报道,该模型在创建购物清单或播放列表等重复性网络任务方面表现最佳。根据 OpenAI 的内部测试数据,它在处理表格和日历等不熟悉的界面时会遇到更多困难,在复杂的文本编辑方面表现较差 (成功率为 40%)。0YW喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 报告称,该系统在 WebVoyager 基准测试中达到了 87% 的成功率,该基准测试涉及 Amazon 和 Google Maps 等实际网站。在使用离线测试站点训练自主代理的 WebArena 测试中,Operator 的成功率降至 58.1%。对于计算机操作系统任务,CUA 在 OSWorld 基准测试中创下了 38.1% 的成功率记录,超过了以前的模型,但仍低于人类 72.4% 的表现。0YW喜好网-记录每日喜好的科技时尚娱乐生活

通过这个不完美的研究预览版,OpenAI 希望收集用户反馈并改进系统功能。该公司承认 CUA 不会在所有场景中都能可靠运行,但计划通过用户测试来提高其在更广泛任务范围内的可靠性。0YW喜好网-记录每日喜好的科技时尚娱乐生活

安全和隐私问题0YW喜好网-记录每日喜好的科技时尚娱乐生活

目前,所有浏览和活动都在 Operator 的虚拟环境中进行。OpenAI 表示,它在 Operator 中建立了多重安全控制,在完成发送电子邮件或进行购买等敏感操作之前需要用户确认。Operator 还有 OpenAI 设置的浏览限制,它不能访问某些网站类别,包括赌博和成人内容。0YW喜好网-记录每日喜好的科技时尚娱乐生活

为了捕获通过越狱和提示注入来破坏 Operator 的尝试 (这些尝试可能被嵌入到 AI 模型浏览的网站中),OpenAI 表示它已实施实时审核和检测系统。OpenAI 报告称,在早期内部红队测试期间,该系统识别出了除一个以外的所有提示注入尝试。0YW喜好网-记录每日喜好的科技时尚娱乐生活

然而,经常报道 AI 安全问题的 Willison 并不相信 Operator 不会被破坏,特别是当新的威胁出现时。他在博客文章中写道:"我持怀疑态度。我想一旦世界其他地方开始探索它,我们会看到各种新颖的成功提示注入式攻击。"0YW喜好网-记录每日喜好的科技时尚娱乐生活

正如 Willison 指出的,OpenAI 在其系统卡文档中承认了这些风险:"尽管进行了主动测试和缓解努力,由于模拟现实世界场景复杂性和对抗性威胁的动态性质的困难,某些挑战和风险仍然存在。"0YW喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 表示已实施多项隐私控制:用户可以通过 ChatGPT 设置选择不将其数据用于模型训练,在 Operator 设置中一键删除所有浏览数据,并同时登出所有站点。当用户需要输入密码或支付详细信息等敏感信息时,会激活"接管模式",此时 Operator 停止收集截图。0YW喜好网-记录每日喜好的科技时尚娱乐生活

即使有这些预防措施,Willison 在他的博客中提供了自己的 Operator 隐私建议:"为每个委托给 Operator 的任务启动新会话,以确保它无法访问你过去通过该工具使用过的任何网站的凭据。如果你让它代表你花钱,让它到达结账页面,然后提供你的支付详细信息,之后立即清除会话。"0YW喜好网-记录每日喜好的科技时尚娱乐生活

本文于 2025 年 1 月 25 日更新,以明确 Operator 在其自己的虚拟浏览器环境中工作。0YW喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
消息称抖音正推进“V”项目,包括直播游戏互动、AI 分身功能等

消息称抖音正推进“V”项目,包括

11 月

11-19 72阅读
奔驰新款EQE 500 4MATIC纯电轿车上市:售47.8万起,全系四驱

奔驰新款EQE 500 4MATIC纯电轿车

11-19 62阅读
收到500万份垄断诉讼,谷歌要被拆分?

收到500万份垄断诉讼,谷歌要被拆

谷歌

11-19 67阅读
投中的播客栏目,叫“大北窑14F”

投中的播客栏目,叫“大北窑14F”

投中

11-19 66阅读
叮咚买菜上岸、巨头加码火拼,前置仓大战重启

叮咚买菜上岸、巨头加码火拼,前置

近年

11-19 65阅读
《小巷人家》:街坊邻里的当代理想化图示

《小巷人家》:街坊邻里的当

作者 / 耳东陈运营 / 狮子座先说一桩

11-19 65阅读
人民日报评代拍乱象, 代拍为何惹众怒?

人民日报评代拍乱象, 代拍

近期除了家暴一词被大家热议,代拍

11-19 70阅读
ENHYPEN的第二张正规专辑后续《ROMANCE:UNTOLD-daydream-》刷新了历代K-POP后续专辑中创下了最高初动销量新纪录

ENHYPEN的第二张正规专辑

18日,据Hanteo Chart榜单数

11-19 67阅读
我们都在等待,等待钟声响起的那一刻。那是我生命最后的一刻,那也是最好的时刻

我们都在等待,等待钟声响起

  一段民族不可遗忘的历史,一个隐蔽

11-19 55阅读
火热气氛拉满!超级音雄·巨星演唱会-汕头站12/22重磅来袭

火热气氛拉满!超级音雄·巨

  在全国收获无数好评、演出场场爆

11-19 66阅读
《天穗之咲稻姬外传》确定制作 本篇Steam平台限时促销中

《天穗之咲稻姬外传》确定

Marvelous Inc.(代表取缔役社长:佐藤澄宣

11-19 67阅读
PS5 Pro在美国的首发销量与PS4 Pro相近

PS5 Pro在美国的首发销量

PS5 Pro 于本月早些时候发行,虽然这款

11-19 70阅读
帝国时代4秘籍大全2024_帝国时代4国家崛起秘籍作弊码大全(含隐藏秘籍)

帝国时代4秘籍大全2024_帝

帝国时代4是帝国时代4系列游戏的最新版

11-19 107阅读
饥荒联机版怎么调中文?饥荒联机版中文设置方法

饥荒联机版怎么调中文?饥荒

饥荒联机版是目前很多玩家在玩的一个版

11-19 72阅读
饥荒辣椒酱制作方法及制作材料分享

饥荒辣椒酱制作方法及制作

辣椒酱是饥荒游戏里面的一个特殊食物,不

11-19 70阅读