让AI编程去干活能挣到40万美元?!OpenAI推出最新评估测试基准,结果令人诧异

2个月前 科技 16观看
摘要文章来源:头部科技图片来源:由无界AI生成大型语言模型 (LLM)正在改变软件开发方式,AI现在能不能大规模替代人类程序员成为一个备受行业关注的话题。在短短两年时间里,AI大模型已经从解决基础计算机科学问题,发展到在国际编

文章来源:头部科技B7W喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:由无界AI生成图片来源:由无界AI生成

大型语言模型 (LLM)正在改变软件开发方式,AI现在能不能大规模替代人类程序员成为一个备受行业关注的话题。B7W喜好网-记录每日喜好的科技时尚娱乐生活

在短短两年时间里,AI大模型已经从解决基础计算机科学问题,发展到在国际编程竞赛中与人类高手一较高下的程度,例如OpenAI o1曾在与人类参赛者相同的条件下参加2024国际信息学奥林匹克竞赛(IOI)并成功获得金牌,展现了强大的编程潜力。B7W喜好网-记录每日喜好的科技时尚娱乐生活

同时,AI迭代速率也在加快。在代码生成评估基准SWE-Bench Verified上,2024年8月GPT-4o的得分是33%,但到了新一代o3模型得分已翻倍为72%。B7W喜好网-记录每日喜好的科技时尚娱乐生活

为了更好衡量AI模型在现实世界中的软件工程能力,今天,OpenAI开源推出了一个全新的评估基准SWE-Lancer,首次将模型性能与货币价值挂上了钩。B7W喜好网-记录每日喜好的科技时尚娱乐生活

SWE-Lancer是一个包含1400多个来自Upwork平台自由软件工程任务的基准测试,这些任务在现实世界中的总报酬价值约100万美元,让AI去编程能挣到多少钱?B7W喜好网-记录每日喜好的科技时尚娱乐生活


B7W喜好网-记录每日喜好的科技时尚娱乐生活

新基准的“特色”


B7W喜好网-记录每日喜好的科技时尚娱乐生活

SWE-Lancer基准任务价格反映真实的市场价值情况,任务越难,报酬越高。B7W喜好网-记录每日喜好的科技时尚娱乐生活

其中既包括独立工程任务,也包括管理任务,可在技术实施方案之间进行选择,该基准不仅针对程序员,也针对整个开发团队,包括架构师和管理人员。B7W喜好网-记录每日喜好的科技时尚娱乐生活

相较于此前的软件工程测试基准,SWE-Lancer具有多项优势,例如:B7W喜好网-记录每日喜好的科技时尚娱乐生活

1、全部1488个任务代表了雇主向自由工程师支付的真实报酬,提供了自然的、由市场决定的难度梯度,报酬从250美元到3.2万美元不等,可谓相当可观。B7W喜好网-记录每日喜好的科技时尚娱乐生活

其中35%的任务价值超过1000美元,34%的任务价值在500美元到1000美元之间。个体贡献者(IC)软件工程(SWE)任务这一组包含了764个任务,总价值41.4775万美元;SWE管理任务这一组包含724个任务,总价值58.5225万美元。B7W喜好网-记录每日喜好的科技时尚娱乐生活

2、现实世界中的大规模软件工程,不仅需要具体敲代码可开发,还需要有能力的技术统筹管理,该基准测试使用真实世界的数据评估模型充当SWE“技术主管的”角色。B7W喜好网-记录每日喜好的科技时尚娱乐生活

3、具备高级全栈工程评测能力。SWE-Lancer代表现实世界的软件工程,因为其任务来自拥有数百万真实用户的平台。B7W喜好网-记录每日喜好的科技时尚娱乐生活

其中的任务涉及移动和网页端的工程开发、与API、浏览器和外部应用程序的交互,以及复杂问题的验证和复现。B7W喜好网-记录每日喜好的科技时尚娱乐生活

例如,有的任务是花费250美元提高可靠性(修复双触发的API调用问题)、1000美元修复漏洞(解决权限差异问题)和1.6万美元实现新功能(在网页、iOS、安卓和桌面端添加应用内视频播放支持等)。B7W喜好网-记录每日喜好的科技时尚娱乐生活

4、领域多样性。74%的IC SWE任务和76%的SWE管理任务都涉及应用逻辑,而17%的IC SWE任务和18%的SWE管理任务涉及UI/UX开发。B7W喜好网-记录每日喜好的科技时尚娱乐生活

就任务难度而言,SWE-Lancer选取的任务非常具有挑战性,开源数据集中的任务平均需要26天才能在Github上解决。B7W喜好网-记录每日喜好的科技时尚娱乐生活

此外,OpenAI表示无偏数据收集情况,它们从Upwork上选择了具有代表性的任务样本,并聘请了100名专业软件工程师为所有任务编写和验证了端到端测试。B7W喜好网-记录每日喜好的科技时尚娱乐生活


B7W喜好网-记录每日喜好的科技时尚娱乐生活

AI编码赚钱能力PK


B7W喜好网-记录每日喜好的科技时尚娱乐生活

尽管很多科技大佬不断在宣传中声称AI模型可以取代“低级”工程师,但企业是否完全能用LLM取代人类软件工程师仍然要打个大大的问号。B7W喜好网-记录每日喜好的科技时尚娱乐生活

首批评测结果显示,在完整的SWE-Lancer数据集上,目前被测试的AI金牌选手模型收益都远低于100万美元的潜在总报酬。B7W喜好网-记录每日喜好的科技时尚娱乐生活

整体来看,所有模型在SWE管理任务上的表现都会优于IC SWE任务,而IC SWE任务在很大程度上仍未被AI模型充分攻克,目前受测模型表现最好是OpenAI竞争对手Anthropic开发的Claude 3.5 Sonnet。B7W喜好网-记录每日喜好的科技时尚娱乐生活

在IC SWE任务上,所有模型单次通过率和收益率均低于30%,在SWE管理任务上,表现最佳的模型Claude 3.5 Sonnet得分是45%。B7W喜好网-记录每日喜好的科技时尚娱乐生活

Claude 3.5 Sonnet在IC SWE和SWE管理任务上均表现出强劲性能,在IC SWE任务上比表现第二好的模型o1高出路9.7%,在SWE管理任务上高出3.4%。B7W喜好网-记录每日喜好的科技时尚娱乐生活

如果转换成收益,表现最佳的Claude 3.5 Sonnet在完整数据集上总收入超过40万美元。B7W喜好网-记录每日喜好的科技时尚娱乐生活

值得关注的一点是,更高的推理计算量会对“AI赚钱”大有帮助。B7W喜好网-记录每日喜好的科技时尚娱乐生活

IC SWE任务上,研究人员对启用了深度推理工具的o1模型进行的实验表明,更高的推理计算量能将单次通过率从9.3%提升至16.5%,收益也相应从1.6万美元增至2.9万美元,收益率从6.8%提高到12.1%。B7W喜好网-记录每日喜好的科技时尚娱乐生活

研究人员总结,最佳模型Claude 3.5 Sonnet虽然解决了26.2%的IC SWE问题,但剩下的大多数解决方案仍存在错误,想实现可靠部署还需要许多完善工作。其次是o1,然后是GPT-4o,并且管理任务的单次通过率通常是IC SWE任务单次通过率的两倍以上。B7W喜好网-记录每日喜好的科技时尚娱乐生活

这也意味着,即便AI代理取代人类软件工程师的观点被炒作得非常火,但企业当下仍需三思而行,AI模型可以解决一些“低级”编码问题,但还不能取代“低级”软件工程师,因为它们无法理解一些代码错误存在的原因,并继续犯了更多延伸错误。B7W喜好网-记录每日喜好的科技时尚娱乐生活

目前的评估框架尚不支持多模态输入,此外,研究人员还没有对“投资回报率”进行评估,例如完成一项任务时,对支付给自由职业者的报酬与使用API的成本进行对比,这会是该基准下一步完善的重点。B7W喜好网-记录每日喜好的科技时尚娱乐生活


B7W喜好网-记录每日喜好的科技时尚娱乐生活

做一个“AI增强型”程序员


B7W喜好网-记录每日喜好的科技时尚娱乐生活

就目前来看,AI要真正替代人类程序员还有很长一段路要走,毕竟开发一个软件工程项目,不光是按要求生成代码那么简单。B7W喜好网-记录每日喜好的科技时尚娱乐生活

例如,程序员常常会遇到极为复杂、抽象、模糊的客户需求问题,这需要对各种技术原理、业务逻辑和系统架构有深入理解,在优化复杂的软件架构时,人类程序员能够综合考虑系统未来的可扩展性、可维护性和性能等因素,而AI可能难以做出全面的分析判断。B7W喜好网-记录每日喜好的科技时尚娱乐生活

此外,编程不仅仅是实现现有逻辑,还需要大量的创造力和创新思维,程序员需要构思新算法、设计独特的软件界面和交互方式等,这种真正新颖的想法和解决方案是AI的短板。B7W喜好网-记录每日喜好的科技时尚娱乐生活

程序员通常还需要与团队成员、客户及其他利益相关者进行沟通与协作,需要理解各方需求和可实现程度,清晰表达自己的观点,并与他人协同完成项目,此外,人类程序员具备持续学习并适应新变化的能力,他们能快速掌握新知识和技能,并将其应用到实际项目中,而一款成功的AI模型还需要各种训练测试。B7W喜好网-记录每日喜好的科技时尚娱乐生活

软件开发行业也受到各种法律和监管约束,如知识产权、数据保护和软件许可等,人工智能可能难以完全理解并遵守这些法律法规要求,从而埋下法律风险或责任纠纷。B7W喜好网-记录每日喜好的科技时尚娱乐生活

长期来看,AI技术进步带来的程序员岗位替代性依然存在,但短期来看,“AI增强型程序员”才是主流,掌握对最新AI工具的使用是优秀程序员的核心技能之一。B7W喜好网-记录每日喜好的科技时尚娱乐生活

AI AI编程
展开全文
猜你感兴趣
研究人员开发自动识别古代楔形文字片的AI软件

研究人员开发自动识别古代楔形文

11月2

11-19 72阅读
华为强机皇!Mate 70系列关键信息汇总:外观/性能/影像揭秘

华为强机皇!Mate 70系列关键信息

华为Mate

11-19 64阅读
大佬喊话,AI寒冬已来?

大佬喊话,AI寒冬已来?

OpenA

11-19 58阅读
大模型公司们创业未半,技术主心骨们却先弃船回大厂了?

大模型公司们创业未半,技术主心骨

2024

11-19 65阅读
又一百亿独角兽申请破产了

又一百亿独角兽申请破产了

近日,

11-19 71阅读
中国电影家协会联合灯塔研究院发布《2024中国电影观众变化趋势报告》

中国电影家协会联合灯塔研

11月15日消息,11月15日,2024年中国金鸡百

11-19 68阅读
“嫖娼门”王全安:前任个个赛西施,花800元睡站台女,终遭报应

“嫖娼门”王全安:前任个个

11-19 68阅读
莎拉波娃涉嫌欺诈? 网球巨星竟有这样的污点究竟是怎么回事

莎拉波娃涉嫌欺诈? 网球巨

如果是非常关注体育界的话,莎拉波

11-19 66阅读
刘学义吴谨言新剧《春花厌》官宣,原著小说三观炸裂超虐

刘学义吴谨言新剧《春花厌

此前有消息传小说《春花厌》影视

11-19 68阅读
虞书欣林一新剧演情侣,《嘘,国王在冬眠》改编自哪部小说?

虞书欣林一新剧演情侣,《嘘

12月22日是冬至,在这天,虞书欣和林

11-19 61阅读
2024年真实有效能赚钱的app有哪些?盘点赚钱软件app排行榜前十名!

2024年真实有效能赚钱的ap

随着移动互联网的快速发展,赚钱的方式也

11-19 219阅读
三国群英传7秘籍大全_三国群英传7所有秘籍代码一览

三国群英传7秘籍大全_三国

三国群英传7游戏支持秘籍功能,玩家可以

11-19 64阅读
帝国时代2秘籍大全_帝国时代2征服者/高清版秘籍(含隐藏秘籍)

帝国时代2秘籍大全_帝国时

帝国时代2秘籍是很多玩帝国时代2游戏玩

11-19 157阅读
卧龙苍天陨落怎么提升武将好感度?提升武将好感度的方法分享

卧龙苍天陨落怎么提升武将

卧龙苍天陨落怎么提升武将好感度?在卧龙

11-19 66阅读
原神赤王时代的沙漠与大赤沙海任务全流程攻略

原神赤王时代的沙漠与大赤

赤王时代的沙漠与大赤沙海是原神须弥地

11-19 68阅读