微软清华北大联手推出AI动态分配模型:AI任务不再一刀切,资源分配更合理

2个月前 科技 20观看
摘要 微软清华北大联手推出AI动态分配模型:AI任务不再一刀切,资源分配更合理随着科技的飞速发展,人工智能(AI)已成为我们生活的重要组成部分。近日,微软研究院联合清华大学、北京大学共同推出了一种全新的AI动态分配模型—

微软清华北大联手推出AI动态分配模型:AI任务不再一刀切,资源分配更合理YtN喜好网-记录每日喜好的科技时尚娱乐生活

随着科技的飞速发展,人工智能(AI)已成为我们生活的重要组成部分。近日,微软研究院联合清华大学、北京大学共同推出了一种全新的AI动态分配模型——奖励推理模型(RRMs),这一创新性的研究成果将有望解决当前AI任务资源分配不均的问题,为AI领域的发展注入新的活力。YtN喜好网-记录每日喜好的科技时尚娱乐生活

RRMs模型的核心在于通过显式推理过程动态分配计算资源,以提升复杂任务评估效果。这一方法通过“思维链”(Chain-of-Thought)推理,针对奖励不明显的复杂查询投入更多测试时计算资源,从而实现对不同任务类型的自适应分配,使得资源利用更为合理。YtN喜好网-记录每日喜好的科技时尚娱乐生活

强化学习(RL)已成为大语言模型(LLM)后训练的核心方法,而人类反馈(RLHF)或可验证奖励(RLVR)则为强化学习提供了有效的监督信号。然而,RLVR在数学推理中虽有潜力,却因其依赖可验证答案的训练查询而受限,难以应用于通用领域的大规模训练。为了解决这一问题,RRMs提出了新的解决方案。YtN喜好网-记录每日喜好的科技时尚娱乐生活

RRMs基于Qwen2模型,采用Transformer-decoder架构,将奖励建模转化为文本补全任务,生成推理过程后给出最终判断。这一设计思路使得奖励推理模型能够更好地适应各种任务场景,同时也提高了模型的泛化能力。YtN喜好网-记录每日喜好的科技时尚娱乐生活

为了评估RRMs的性能,研究团队利用RewardBench库进行系统分析。RewardBench库包含多个评估指标,如指令遵循性、帮助性、准确性、无害性和细节水平等,这些指标能够全面地评估AI系统的性能。通过RewardBench库的评估,RRMs在多个基准测试中表现突出,尤其是在推理类别中达到了98.6%的准确率。这一成果无疑证明了RRMs在复杂查询中的有效性。YtN喜好网-记录每日喜好的科技时尚娱乐生活

值得一提的是,随着模型规模的扩大,RRMs的性能得到了进一步提升。从7B到32B的模型规模扩展,带来了更长的推理时间,但准确性却始终保持增长。这一特性使得RRMs在面对大规模任务时能够更加高效地利用计算资源,为传统标量奖励模型提供了强大替代方案。YtN喜好网-记录每日喜好的科技时尚娱乐生活

此外,RRMs还支持多响应评估,通过ELO评分系统和淘汰赛机制,结合多数投票提升计算资源利用率。这一机制能够更好地适应不同场景下的评估需求,提高计算资源的利用率,从而更好地服务于各类AI任务。YtN喜好网-记录每日喜好的科技时尚娱乐生活

总的来说,微软清华北大联手推出的RRMs模型为AI领域带来了全新的视角和解决方案。通过动态分配计算资源,RRMs有效提升了复杂任务评估效果,为AI任务提供了更为合理和高效的资源分配方式。这一创新性的研究成果将有望推动AI领域的发展,为未来的科技应用带来更多可能性。YtN喜好网-记录每日喜好的科技时尚娱乐生活

YtN喜好网-记录每日喜好的科技时尚娱乐生活

YtN喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
回归即顶流,时代变了,李子柒没变

回归即顶流,时代变了,李子柒没变

热搜第一、播放第一、讨论第一,李

11-19 126阅读
OPPO Reno 13 系列手机外观公布,代言人宋雨琦

OPPO Reno 13 系列手机外观公布,

11 月

11-19 111阅读
苹果史上薄机型!曝iPhone 17 Air厚度仅6mm

苹果史上薄机型!曝iPhone 17 Air

11月19日

11-19 108阅读
洋咖啡,为何卖不动了?

洋咖啡,为何卖不动了?

近日,

11-19 109阅读
大模型的效率腾飞,彩云科技做对了什么?

大模型的效率腾飞,彩云科技做对了

对于绝大多数AI创业者来说,AGI的

11-19 102阅读
于谦因釜山行爆红, 啥梗真没想到讲相声的他竟出演过这么多作品

于谦因釜山行爆红, 啥梗真

于谦明明就是一个讲相声的人,怎么

11-19 113阅读
泫雅&龙俊亨婚后首次公开近况:日本甜蜜旅行中!捧爱心蛋糕紧贴合影

泫雅&龙俊亨婚后首次

歌手泫雅和龙俊亨结婚一个月

11-19 98阅读
演员许文广《故乡的泥土》央八开播 首演农民角色获赞好真实

演员许文广《故乡的泥土》

  近日,由原著作者田运章担任总编剧,

11-19 102阅读
董明珠称训员工被指霸道很好笑:企业管理者声音大点还没这个话语权了

董明珠称训员工被指霸道很

11月16日消息,之

11-19 116阅读
越南模仿李子柒的博主也停更了三年:前段时间刚回归

越南模仿李子柒的博主也停

11月14日消息,中

11-19 110阅读
LUIDA’S BAR推出《DQIII》合作菜单

LUIDA’S BAR推出《DQIII

为纪念HD-

11-19 119阅读
遥远未来的末世乌托邦,2D动作解谜游戏《默途》移动版即将上线

遥远未来的末世乌托邦,2D动

《默途》是由梦匠工作室开发的一款2D

11-19 119阅读
特别好评《永恒天空》明年登陆PS5 试玩Demo现已上线

特别好评《永恒天空》明年

于 2023 年 6 月发售的开放世界科幻生

11-19 124阅读
碧蓝航线ios反和谐教程_碧蓝航线ios反和谐2024

碧蓝航线ios反和谐教程_碧

碧蓝航线ios反和谐怎么弄?相信很多苹果

11-19 143阅读
饥荒石头怎么大量获得?饥荒快速获得大量石头的技巧分享

饥荒石头怎么大量获得?饥

饥荒石头怎么大量获得?石头是饥荒游戏里

11-19 113阅读