谷歌DeepMind推QuestBench基准,测试AI模型的“补漏”能力

3个月前 科技 25观看
摘要 4 月 26 日消息,科技媒体 marktechpost 昨日(4 月 25 日)发布博文,报道称谷歌 DeepMind 团队推出 QuestBench 新基准,通过约束满足问题(CSPs)框架,评估模型在推理任务中识别和获取缺失信息的能力。

4 月 26 日消息,科技媒体 marktechpost 昨日(4 月 25 日)发布博文,报道称谷歌 DeepMind 团队推出 QuestBench 新基准,通过约束满足问题(CSPs)框架,评估模型在推理任务中识别和获取缺失信息的能力。s6l喜好网-记录每日喜好的科技时尚娱乐生活

现实挑战与信息获取需求s6l喜好网-记录每日喜好的科技时尚娱乐生活

大型语言模型(LLMs)在推理任务中广受关注,涵盖数学、逻辑、规划和编码等领域。然而,现实世界的应用场景常常充满不确定性。s6l喜好网-记录每日喜好的科技时尚娱乐生活

用户在提出数学问题时常忽略重要细节,机器人等自主系统也必须在部分可观测的环境中工作。这种理想化完整信息设定与现实不完备问题之间的矛盾,迫使 LLMs 发展主动信息获取能力。s6l喜好网-记录每日喜好的科技时尚娱乐生活

IT之家援引博文介绍,识别信息缺口并生成针对性地澄清问题,成为模型在模糊场景中提供准确解决方案的关键。s6l喜好网-记录每日喜好的科技时尚娱乐生活

QuestBench:评估信息缺口的新框架s6l喜好网-记录每日喜好的科技时尚娱乐生活

为应对信息获取挑战,研究者推出了 QuestBench 基准,专门评估 LLMs 在推理任务中识别缺失信息的能力。s6l喜好网-记录每日喜好的科技时尚娱乐生活

该基准将问题形式化为约束满足问题(CSPs),聚焦于“1-sufficient CSPs”,即只需知道一个未知变量值即可解决目标变量的问题。s6l喜好网-记录每日喜好的科技时尚娱乐生活

s6l喜好网-记录每日喜好的科技时尚娱乐生活

QuestBench 覆盖逻辑推理(Logic-Q)、规划(Planning-Q)和小学数学(GSM-Q / GSME-Q)三个领域,按变量数量、约束数量、搜索深度和暴力搜索所需猜测次数四个难度轴分类,精准揭示模型的推理策略和性能瓶颈。s6l喜好网-记录每日喜好的科技时尚娱乐生活

s6l喜好网-记录每日喜好的科技时尚娱乐生活

s6l喜好网-记录每日喜好的科技时尚娱乐生活

模型性能与未来改进空间s6l喜好网-记录每日喜好的科技时尚娱乐生活

QuestBench 测试了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等领先模型,覆盖零样本、思维链和四样本设置。测试于 2024 年 6 月至 2025 年 3 月间进行,涉及 288 个 GSM-Q 和 151 个 GSME-Q 任务。s6l喜好网-记录每日喜好的科技时尚娱乐生活

s6l喜好网-记录每日喜好的科技时尚娱乐生活

结果表明,思维链提示普遍提升了模型性能,而 Gemini 2.0 Flash Thinking Experimental 在规划任务中表现最佳。开源模型在逻辑推理上具竞争力,但在复杂数学问题上表现不佳。s6l喜好网-记录每日喜好的科技时尚娱乐生活

研究指出,当前模型在简单代数问题上表现尚可,但随着问题复杂性增加,性能显著下降,凸显了在信息缺口识别和澄清能力上的改进空间。s6l喜好网-记录每日喜好的科技时尚娱乐生活

【来源:IT之家】s6l喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
星驿付与慧徕店亮相金融界“奥运会”—Sibos2024年会,与国际金融大咖齐聚北京,共话全球金融发展

星驿付与慧徕店亮相金融界“奥运

【锋巢网】导读:10月21日至24日,

11-19 105阅读
小米第三季度研发费用60亿 雷军:小米坚持技术为本的铁律

小米第三季度研发费用60亿 雷军:

11月19日

11-19 119阅读
大佬喊话,AI寒冬已来?

大佬喊话,AI寒冬已来?

OpenA

11-19 107阅读
炒过Labubu,再也忘不掉日入2万的滋味

炒过Labubu,再也忘不掉日入2万的

“家

11-19 123阅读
腾讯的AI困局

腾讯的AI困局

文章来源:科技新知图片来源:由无界

11-19 116阅读
龙波 始终亲力亲为,哪个岗位有需要就扑在哪里 优秀新闻工作者 编辑⑨(龙波始终亲力亲为)

龙波 始终亲力亲为,哪个岗

为激励全市新闻战线认真践行“四向

11-19 107阅读
长安十二时辰龙波是好是坏 龙波扮演者是谁资料作品介绍(长安十二时辰龙波是好是坏)

长安十二时辰龙波是好是坏

《长安十二时辰》这部剧正在热播,在

11-19 100阅读
贾乃亮帮清购物车, 网友没胆安利给自家老板!

贾乃亮帮清购物车, 网友没

今天双十二,大家剁手了吗!小编是没

11-19 106阅读
天生戏剧人!小演员田芯语乌镇首秀,领衔戏剧节唯一入围儿童剧《乐园》

天生戏剧人!小演员田芯语乌

  深秋,一场淅淅沥沥的小雨为江南带

11-19 107阅读
零容忍!税务部门公布3起网络主播偷税被处罚案件

零容忍!税务部门公布3起网

11月15日消息,近

11-19 108阅读
和平精英国际服怎么选择国家?和平精英国际服改国籍方法

和平精英国际服怎么选择国

《和平精英国际服》是蓝洞和腾讯联合出

11-19 196阅读
原子之心激光模块解谜攻略

原子之心激光模块解谜攻略

原子之心游戏里面有一个被动安保激光模

11-19 115阅读
原子之心医院区域所有死者位置详细介绍

原子之心医院区域所有死者

在原子之心游戏里面想要达成招魂问卜奖

11-19 113阅读
饥荒体温过高怎么办?饥荒所有降低体温的方法分享

饥荒体温过高怎么办?饥荒

饥荒体温过高怎么办?饥荒游戏里面拥有体

11-19 112阅读
饥荒石头怎么大量获得?饥荒快速获得大量石头的技巧分享

饥荒石头怎么大量获得?饥

饥荒石头怎么大量获得?石头是饥荒游戏里

11-19 115阅读