号称"首个 AI 软件工程师"的工具被测试者认为表现不佳

3个月前 科技 24观看
摘要 根据最近的评估,一个被称为"首个 AI 软件工程师"的服务似乎在工作表现上相当糟糕。这个自动编码工具名为 "Devin",于 2024 年 3 月推出。其创造者 Cognition AI 声称 "Devin 可以端到端地构建

根据最近的评估,一个被称为"首个 AI 软件工程师"的服务似乎在工作表现上相当糟糕。MAI喜好网-记录每日喜好的科技时尚娱乐生活

这个自动编码工具名为 "Devin",于 2024 年 3 月推出。其创造者 Cognition AI 声称 "Devin 可以端到端地构建和部署应用程序",并且"能够自主发现和修复代码库中的 bug"。该工具于 2024 年 12 月正式发布,起价为每月 500 美元。MAI喜好网-记录每日喜好的科技时尚娱乐生活

根据 Cognition 的文档描述:"Devin 是一个自主的 AI 软件工程师,能够编写、运行和测试代码,帮助软件工程师处理个人任务或团队项目。" 它"可以审查 PR、支持代码迁移、响应随叫随到的问题、构建网络应用程序,甚至可以执行个人助理任务,比如通过 DoorDash 帮你订午餐,让你专注于代码开发。"MAI喜好网-记录每日喜好的科技时尚娱乐生活

该服务主要通过 Slack 接收命令,这些命令会被发送到其计算环境中 - 一个包含终端、浏览器、代码编辑器和规划器的 Docker 容器。这个 AI 代理支持与外部服务的 API 集成,例如,它可以通过 SendGrid 代表用户发送电子邮件。MAI喜好网-记录每日喜好的科技时尚娱乐生活

Devin 是一个"复合 AI 系统",这意味着它依赖于多个底层 AI 模型,包括 OpenAI 的 GPT-4,且这些模型可能会随时间演变。MAI喜好网-记录每日喜好的科技时尚娱乐生活

理论上,你应该能够要求它执行诸如将代码迁移到 nbdev(一个 Jupyter Notebook 开发平台)之类的任务,并期望它成功完成。但这可能要求过高了。MAI喜好网-记录每日喜好的科技时尚娱乐生活

Devin 的早期评估发现了一些问题。Cognition AI 发布了一段宣传视频,声称展示了 AI 编码器在自由职业者平台 Upwork 上自主完成项目的过程。软件开发者 Carl Brown 在他的 Internet of Bugs YouTube 频道上分析并揭露了该视频的问题。MAI喜好网-记录每日喜好的科技时尚娱乐生活

该软件代理还被另一位 YouTube 代码评论员指出据称存在严重的安全问题。MAI喜好网-记录每日喜好的科技时尚娱乐生活

现在,三位隶属于 Answer.AI(由 Jeremy Howard 和 Eric Ries 创立的 AI 研究和开发实验室)的数据科学家对 Devin 进行了测试,发现它在 20 个任务中仅成功完成了 3 个。MAI喜好网-记录每日喜好的科技时尚娱乐生活

Hamel Husain、Isaac Flath 和 Johno Whitaker 在本月早些时候进行的分析中发现,Devin 开始表现不错,成功地将数据从 Notion 数据库导入到 Google Sheets。这个 AI 代理还成功创建了一个用于检查木星和土星历史位置的行星追踪器。MAI喜好网-记录每日喜好的科技时尚娱乐生活

但随着三位研究人员继续测试,他们遇到了问题。MAI喜好网-记录每日喜好的科技时尚娱乐生活

研究人员在报告中解释道:"看似简单的任务往往需要花费数天而不是数小时,Devin 要么陷入技术死胡同,要么产生过于复杂、无法使用的解决方案。更令人担忧的是,Devin 倾向于继续推进实际上不可能完成的任务。"MAI喜好网-记录每日喜好的科技时尚娱乐生活

例如,当要求 Devin 在基础设施部署平台 Railway 上部署多个应用程序时,它没有意识到这是不支持的功能,花费了超过一天的时间尝试无效的方法,并臆想出不存在的功能。MAI喜好网-记录每日喜好的科技时尚娱乐生活

在提供给 Devin 的 20 个任务中,这个 AI 软件工程师只令人满意地完成了 3 个 - 上面提到的两个以及第三个用 Python 研究如何构建 Discord 机器人的任务。另外 3 个任务结果不确定,14 个项目彻底失败。MAI喜好网-记录每日喜好的科技时尚娱乐生活

研究人员表示,Devin 提供了一个精致的用户体验,在正常工作时令人印象深刻。MAI喜好网-记录每日喜好的科技时尚娱乐生活

"但问题在于 - 它很少能正常工作,"他们写道。MAI喜好网-记录每日喜好的科技时尚娱乐生活

"更令人担忧的是我们无法预测哪些任务会成功。即使是与早期成功案例类似的任务,也会以复杂且耗时的方式失败。最初看似有前途的自主性反而成了一个负担 - Devin 会花费数天时间追求不可能的解决方案,而不是认识到根本性的障碍。"MAI喜好网-记录每日喜好的科技时尚娱乐生活

Cognition AI 没有回应置评请求。MAI喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
年轻人的失眠症,正在被包装成“熬夜经济”

年轻人的失眠症,正在被包装成“熬

最近一段时间,各大奶茶店纷纷开启

11-19 68阅读
外媒:英伟达新款Blackwell AI芯片面临过热问题,或致数据中心部署延期

外媒:英伟达新款Blackwell AI芯片

11月1

11-19 63阅读
海马体的“中年危机”

海马体的“中年危机”

写真

11-19 69阅读
贝恩投资宣布完成全球特殊机会基金的超额认购

贝恩投资宣布完成全球特殊机会基

贝恩

11-19 64阅读
山东新起点完成2000万元A轮融资

山东新起点完成2000万元A轮融资

近日,

11-19 67阅读
中国电影家协会联合灯塔研究院发布《2024中国电影观众变化趋势报告》

中国电影家协会联合灯塔研

11月15日消息,11月15日,2024年中国金鸡百

11-19 68阅读
Netflix,振奋时刻下的暗潮

Netflix,振奋时刻下的暗潮

作者 / 向   向运营 / 狮子座和202

11-19 68阅读
柯震东吸毒后复出, 出演台湾剧《乩身》网友抵制!

柯震东吸毒后复出, 出演台

柯震东当年凭借着《那些年,我们一

11-19 56阅读
赵薇再陷风波被强制执行8488元 公司涉400余起证券纠纷案

赵薇再陷风波被强制执行84

企查查APP显示,近日,浙江祥源文旅股份

11-19 66阅读
苦等七年终于来了!《白夜破晓》长丰集结海报出炉:潘粤明主演

苦等七年终于来了!《白夜破

11月17日消息,时

11-19 59阅读
重装机兵4失落密码大全_重装机兵4所有失落密码一览

重装机兵4失落密码大全_重

失落密码是《重装机兵4》游戏里面的一

11-19 189阅读
和平精英灵敏度怎么调最稳?和平精英灵敏度设置2024最新版

和平精英灵敏度怎么调最稳

《和平精英》是一款全民枪战竞技手游,采

11-19 95阅读
原子之心医院区域所有死者位置详细介绍

原子之心医院区域所有死者

在原子之心游戏里面想要达成招魂问卜奖

11-19 74阅读
功耗低+性能强 双十一AMD锐龙9000处理器省钱游戏套装推荐

功耗低+性能强 双十一AMD

11-19 65阅读
饥荒石头怎么大量获得?饥荒快速获得大量石头的技巧分享

饥荒石头怎么大量获得?饥

饥荒石头怎么大量获得?石头是饥荒游戏里

11-19 67阅读