OpenAI 的 Codex 是新一代 agentic 编程工具的一部分

3周前 科技 10观看
摘要 近期,OpenAI 推出了一种名为 Codex 的新型编程系统,旨在通过自然语言指令执行复杂的编程任务。Codex 将 OpenAI 带入了一类全新的 agentic 编程工具,目前这类工具正处于初步成型阶段。从 GitHub

近期,OpenAI 推出了一种名为 Codex 的新型编程系统,旨在通过自然语言指令执行复杂的编程任务。Codex 将 OpenAI 带入了一类全新的 agentic 编程工具,目前这类工具正处于初步成型阶段。k4D喜好网-记录每日喜好的科技时尚娱乐生活

从 GitHub 早期的 Copilot 到 Cursor 和 Windsurf 等当代工具,大多数 AI 编程助手都表现为一种异常智能的自动补全形式。这些工具通常嵌入在集成开发环境中,用户直接与 AI 生成的代码交互。而仅仅分派一个任务,然后稍后回来取结果的设想仍然遥不可及。k4D喜好网-记录每日喜好的科技时尚娱乐生活

但这些由 Devin、 SWE-Agent、 OpenHands 以及前述 OpenAI Codex 等产品引领的新型 agentic 编程工具,设计上不要求用户查看代码。目标是扮演工程团队经理的角色,通过 Asana 或 Slack 等工作系统分派问题,并在解决方案达成后进行核查。k4D喜好网-记录每日喜好的科技时尚娱乐生活

对于信奉高能力 AI 形态的人来说,这标志着自动化逐步接管越来越多软件工作量的下一个合理阶段。k4D喜好网-记录每日喜好的科技时尚娱乐生活

普林斯顿大学研究员、 SWE-Agent 团队成员 Kilian Lieret 解释说:“起初,人们是通过每一个按键来编写代码的。GitHub Copilot 是第一个真正提供自动补全功能的产品,这是第二阶段。你仍然完全参与其中,但有时你可以走捷径。”k4D喜好网-记录每日喜好的科技时尚娱乐生活

agentic 系统的目标则是完全跳出开发者环境,将问题直接交给编码代理,然后让它们自行解决。“我们把流程提升到管理层面,我只需要分派一个 bug 报告,而机器人就会尝试完全自主地修复它,”Lieret 说道。k4D喜好网-记录每日喜好的科技时尚娱乐生活

这是一个雄心勃勃的目标,到目前为止,其推进过程仍充满困难。k4D喜好网-记录每日喜好的科技时尚娱乐生活

在 Devin 于 2024 年底普及后,它遭到了 YouTube 评论员的严厉批评,同时 Answer.AI 的一位早期客户也提出了较为冷静的批评。总体印象与许多熟悉 vibe-coding 的资深人士所经历的情形类似:错误频出,监督模型所花费的精力几乎与手动完成任务无异。(尽管 Devin 的推出来得有些波折,但这并未阻止投资者看好其潜力 —— 据报道,Devin 的母公司 Cognition AI 在 3 月份以 40 亿美元估值成功募集了数亿美元。)k4D喜好网-记录每日喜好的科技时尚娱乐生活

即便是技术支持者也警告,不要对 vibe-coding 采取无监督的方式,将这些新型编码代理视为需要人类监督的开发过程中的强大组成部分。k4D喜好网-记录每日喜好的科技时尚娱乐生活

All Hands AI(负责维护 OpenHands)的 CEO Robert Brennan 表示:“目前,且在可预见的未来,代码审查时总需要人类介入,亲自检查生成的代码。我见过好几个人因为自动批准代理写出的每一行代码而陷入混乱,事情一旦失控就很快变糟。”k4D喜好网-记录每日喜好的科技时尚娱乐生活

幻觉问题仍然存在。Brennan 回忆起一次事件,当被询问一个在 OpenHands 代理训练数据截止之后发布的 API 时,代理竟编造出一些符合描述的 API 细节。All Hands AI 表示,他们正在开发系统以在这些幻觉造成损害之前捕捉到它们,但目前并没有简单的解决办法。k4D喜好网-记录每日喜好的科技时尚娱乐生活

可以说,衡量 agentic 编程进展的最佳标尺是 SWE-Bench 排行榜,在这个排行榜上,开发者可以测试其模型对 GitHub 开源仓库中尚未解决问题的处理能力。目前,OpenHands 在经过验证的排行榜上名列榜首,解决了 65.8% 的问题集。OpenAI 宣称支撑 Codex 的某一模型 codex-1 表现更优,并在公告中列出了 72.1% 的得分 —— 尽管这一分数附带了一些限制,且尚未经过独立验证。k4D喜好网-记录每日喜好的科技时尚娱乐生活

许多科技业内人士担忧,高基准得分不一定意味着真正实现了完全无干预的 agentic 编程。如果 agentic 编码器每解决四个问题中只有三个成功,那么在面对具有多阶段复杂系统时,就必然需要人类开发者大量监督。k4D喜好网-记录每日喜好的科技时尚娱乐生活

与大多数 AI 工具类似,人们希望基础模型的不断改进能推动 agentic 编程系统逐渐演变成可靠的开发工具。但要达到这一目标,找到管理幻觉及其他可靠性问题的方法将至关重要。k4D喜好网-记录每日喜好的科技时尚娱乐生活

Brennan 指出:“我认为目前存在一种类似音障的效应。关键问题是,你能将多少信任转移给这些代理,从而在最终减轻你的工作负担呢?”k4D喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
华为放出预热视频:暗示Mate 70系列将搭载全新AI手势

华为放出预热视频:暗示Mate 70系

11月19日

11-19 84阅读
小米发布超级智能驾驶技术Hyper Autonomous Driving(HAD)

小米发布超级智能驾驶技术Hyper

11-19 82阅读
‌2026款本田Passport硬派越野车亮相:外观硬朗,搭载V6发动机‌

‌2026款本田Passport硬派越野车

11-19 83阅读
1.4万亿元,最长双11收官,五大电商平台幕后操盘手均为女高管

1.4万亿元,最长双11收官,五大电商

又一

11-19 84阅读
年入数百亿的米哈游,也开始“省钱”了

年入数百亿的米哈游,也开始“省钱

米哈

11-19 76阅读
“骗”来30+喜剧人,《大话大话西游》好一场内容共创|Talk专访蒋龙

“骗”来30+喜剧人,《大话大

作者 / 张   特采访、编辑 / 朱 

11-19 82阅读
网络电影《浴血无名·奔袭》入选“五个一工程” 海空雄鹰文化传媒再创主旋律佳作

网络电影《浴血无名·奔袭

  11月18日,中共中央宣传部公布第十

11-19 76阅读
安徽省歌曲《徽风皖韵》原唱项亮月受邀出席第八届长三角地区道教论坛暨道教音乐会

安徽省歌曲《徽风皖韵》原

  从安徽省道教协会获悉,第八届长三

11-19 79阅读
李子柒为何依然重要

李子柒为何依然重要

自从李子柒上次

11-19 85阅读
三傻变劳拉

三傻变劳拉

跨度太大,玩家一

11-19 78阅读
与柴犬开启治愈探险之旅!异世界动作冒险新游《妖怪之国》登陆Steam

与柴犬开启治愈探险之旅!异

在这个繁忙喧嚣的现代社会,我们时常渴

11-19 91阅读
咸鱼之王兑换码2024,咸鱼之王礼包码100连抽兑换码最新分享

咸鱼之王兑换码2024,咸鱼

咸鱼之王是一款非常魔性的放置挂机手游

11-19 92阅读
原神终将结束的花神诞祭全任务攻略一览

原神终将结束的花神诞祭全

终将结束的花神诞祭是原神须弥地区主线

11-19 88阅读
饥荒萤火虫怎么捕捉?饥荒捕捉萤火虫的技巧分享

饥荒萤火虫怎么捕捉?饥荒

在饥荒游戏里面,我们可以通过捕捉萤火虫

11-19 83阅读