Hugging Face 24 小时内复刻 OpenAI 的 Deep Research

2个月前 科技 15观看
摘要 周二,Hugging Face 的研究人员发布了一个名为 "Open Deep Research" 的开源 AI 研究代理,这是由其内部团队在 OpenAI 发布 Deep Research 功能后的 24 小时内完成的挑战。该代理能够自主浏览网

周二,Hugging Face 的研究人员发布了一个名为 "Open Deep Research" 的开源 AI 研究代理,这是由其内部团队在 OpenAI 发布 Deep Research 功能后的 24 小时内完成的挑战。该代理能够自主浏览网络并创建研究报告。这个项目旨在匹配 Deep Research 的性能,同时让这项技术免费提供给开发者使用。l5N喜好网-记录每日喜好的科技时尚娱乐生活

Hugging Face 在其公告页面中写道:"虽然现在强大的大语言模型已经在开源领域freely可用,但 OpenAI 并未透露太多关于 Deep Research 底层代理框架的信息。所以我们决定展开一个 24 小时的任务,重现他们的结果并同时开源所需的框架!"l5N喜好网-记录每日喜好的科技时尚娱乐生活

与 OpenAI 的 Deep Research 和 Google 使用 Gemini 实现的 "Deep Research" (最早在 12 月推出,早于 OpenAI) 类似,Hugging Face 的解决方案在现有 AI 模型基础上添加了一个"代理"框架,使其能够执行多步骤任务,比如收集信息并在过程中构建最终呈现给用户的报告。l5N喜好网-记录每日喜好的科技时尚娱乐生活

这个开源克隆版本已经在基准测试中取得了相当的成绩。仅用一天时间,Hugging Face 的 Open Deep Research 在通用 AI 助手 (GAIA) 基准测试中达到了 55.15% 的准确率。该基准测试用于评估 AI 模型从多个来源收集和综合信息的能力。相比之下,OpenAI 的 Deep Research 在单次响应中获得了 67.36% 的准确率 (当使用共识机制组合 64 个响应时,OpenAI 的分数上升到 72.57%)。l5N喜好网-记录每日喜好的科技时尚娱乐生活

正如 Hugging Face 在其文章中指出,GAIA 包含了复杂的多步骤问题,例如:l5N喜好网-记录每日喜好的科技时尚娱乐生活

2008 年的画作《来自乌兹别克斯坦的刺绣》中显示的水果中,哪些被作为后来用作电影《最后的航程》道具的远洋客轮 1949 年 10 月早餐菜单的一部分?请按照画作中水果的顺时针排列顺序 (从 12 点位置开始) 用逗号分隔列出这些水果。使用每种水果的复数形式。l5N喜好网-记录每日喜好的科技时尚娱乐生活

要正确回答这类问题,AI 代理必须寻找多个不同的信息来源并将它们组合成一个连贯的答案。GAIA 中的许多问题即使对人类来说也不容易,因此它们很好地测试了代理型 AI 的能力。l5N喜好网-记录每日喜好的科技时尚娱乐生活

选择合适的核心 AI 模型l5N喜好网-记录每日喜好的科技时尚娱乐生活

没有某种现有的 AI 模型作为核心,AI 代理就无法工作。目前,Open Deep Research 通过 API 建立在 OpenAI 的大语言模型 (如 GPT-4o) 或模拟推理模型 (如 o1 和 o3-mini) 之上。但它也可以适配开放权重的 AI 模型。这里的创新之处在于代理结构将所有组件连接在一起,使 AI 语言模型能够自主完成研究任务。l5N喜好网-记录每日喜好的科技时尚娱乐生活

我们采访了领导 Open Deep Research 项目的 Hugging Face 研究员 Aymeric Roucher,询问了团队的 AI 模型选择。他告诉 Ars Technica:"这并不是'开放权重'的,因为我们使用了封闭权重模型,只是因为它运行良好,但我们解释了所有开发过程并展示了代码。它可以切换到任何其他模型,所以支持完全开放的管道。"l5N喜好网-记录每日喜好的科技时尚娱乐生活

Roucher 补充道:"我尝试了很多大语言模型,包括 (Deepseek) R1 和 o3-mini。对于这个用例,o1 效果最好。但随着我们发起的 open-R1 计划,我们可能会用更好的开放模型取代 o1。"l5N喜好网-记录每日喜好的科技时尚娱乐生活

虽然研究代理核心的大语言模型或模拟推理模型很重要,但 Open Deep Research 表明构建正确的代理层是关键,因为基准测试显示多步骤代理方法大大提高了大语言模型的能力:单独使用 OpenAI 的 GPT-4o (没有代理框架) 在 GAIA 基准测试中平均得分为 29%,而 OpenAI Deep Research 达到 67%。l5N喜好网-记录每日喜好的科技时尚娱乐生活

根据 Roucher 的说法,Hugging Face 复制版本的一个核心组件使项目运行得如此之好。他们使用了 Hugging Face 的开源 "smolagents" 库来快速起步,该库使用他们称之为"代码代理"而不是基于 JSON 的代理。这些代码代理用编程代码编写它们的动作,据报道在完成任务时效率提高了 30%。这种方法使系统能够更简洁地处理复杂的动作序列。l5N喜好网-记录每日喜好的科技时尚娱乐生活

开源 AI 的发展速度l5N喜好网-记录每日喜好的科技时尚娱乐生活

与其他开源 AI 应用程序一样,Open Deep Research 的开发者在设计迭代方面毫不懈怠,这部分要归功于外部贡献者。而且像其他开源项目一样,团队借鉴了他人的工作,这缩短了开发时间。例如,Hugging Face 使用了借鉴自 2024 年底 Microsoft Research 的 Magnetic-One 代理项目的网页浏览和文本检查工具。l5N喜好网-记录每日喜好的科技时尚娱乐生活

虽然这个开源研究代理的性能还未能匹配 OpenAI,但其发布让开发者可以免费访问、研究和修改这项技术。该项目展示了研究社区能够快速复制并公开分享之前只能通过商业提供商获得的 AI 功能。l5N喜好网-记录每日喜好的科技时尚娱乐生活

"我认为 (基准测试) 对于困难问题来说相当具有指示性,"Roucher 说。"但在速度和用户体验方面,我们的解决方案还远未达到他们那样的优化程度。"l5N喜好网-记录每日喜好的科技时尚娱乐生活

Roucher 表示,未来对其研究代理的改进可能包括支持更多文件格式和基于视觉的网页浏览功能。Hugging Face 已经在着手克隆 OpenAI 的 Operator,后者可以在网页浏览器环境中执行其他类型的任务 (如查看计算机屏幕和控制鼠标键盘输入)。l5N喜好网-记录每日喜好的科技时尚娱乐生活

Hugging Face 已经在 GitHub 上公开发布了其代码,并开放了工程师职位以帮助扩展项目功能。l5N喜好网-记录每日喜好的科技时尚娱乐生活

"反响非常好,"Roucher 告诉 Ars。"我们有很多新的贡献者加入并提出建议。有点像在冲浪时抓住浪头的感觉,社区真的提供了强大的动力!"l5N喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
北上广深一线城市爱买啥车 北京喜欢比亚迪、上海广州更爱特斯拉

北上广深一线城市爱买啥车 北京

11月19日

11-19 67阅读
供应链称上游元器件要大降价:国产手机现涨价潮后会主动下调售价吗

供应链称上游元器件要大降价:国产

11月19日

11-19 73阅读
撑起“北方第二城”,凭什么是它?

撑起“北方第二城”,凭什么是它?

全国

11-19 70阅读
Scaling Law遭遇瓶颈,OpenAI被曝押注智能体“Operator”

Scaling Law遭遇瓶颈,OpenAI被曝

文章来源:量子位图片来源:由无界AI

11-19 65阅读
刚刚,OpenAI发布Windows版ChatGPT,高级语音能用了

刚刚,OpenAI发布Windows版ChatGPT

图片来源:由无界AI生成今天凌晨2

11-19 67阅读
6年前,主持实习生弦子,为何诬告朱军性骚扰?如今她又怎样了?

6年前,主持实习生弦子,为何

11-19 66阅读
千古玦尘凤染和是凤焰什么关系?白烁是月弥的转世吗?

千古玦尘凤染和是凤焰什么

《千古诀尘》中凤染和是凤焰什么

11-19 66阅读
《大梦归离》迎来大结局,用热血群像展现悲凉内核探讨生命的意义

《大梦归离》迎来大结局,用

  由爱奇艺出品,最世文化、奥羽工作

11-19 68阅读
我们都在等待,等待钟声响起的那一刻。那是我生命最后的一刻,那也是最好的时刻

我们都在等待,等待钟声响起

  一段民族不可遗忘的历史,一个隐蔽

11-19 55阅读
要钱干嘛!比尔盖茨支持对富豪加税:我愿放弃62%的财富

要钱干嘛!比尔盖茨支持对富

11月11日消息,据

11-19 66阅读
360浏览器兼容模式怎么设置?360浏览器极速模式怎么开?一文看懂

360浏览器兼容模式怎么设

360浏览器是我们使用最多的一款浏览器

11-19 61阅读
Skinseed怎样上传到我的世界?Skinseed皮肤导入方法

Skinseed怎样上传到我的世

《Skinseed》是一款专为游戏《我的世界

11-19 71阅读
空洞骑士地图探索顺序_空洞骑士速通地图探索顺序

空洞骑士地图探索顺序_空

《空洞骑士》是一款以探索为核心的2D动

11-19 66阅读
空洞骑士苍白矿石位置_空洞骑士苍白矿石所有位置(图片)

空洞骑士苍白矿石位置_空

《空洞骑士》是一款以探索和解谜为核心

11-19 70阅读
饥荒中毒了怎么解毒?饥荒解除中毒状态的详细操作方法

饥荒中毒了怎么解毒?饥荒

饥荒中毒了怎么解毒?在饥荒游戏中玩家偶

11-19 65阅读