ByteDance 推出全新推理型 AI 模型:Seed-Thinking-v1.5

4个月前 科技 24观看
摘要 如今,TikTok 母公司字节跳动也推出了一款推理 AI:启思-v1.5!
最初始于 2024 年 9 月 OpenAI 发布的 o1 模型宣告,但真正起飞则是 2025 年 1 月 DeepSeek R1 的推出。 如今,似乎大多数主要 AI

如今,TikTok 母公司字节跳动也推出了一款推理 AI:启思-v1.5!  OdR喜好网-记录每日喜好的科技时尚娱乐生活
最初始于 2024 年 9 月 OpenAI 发布的 o1 模型宣告,但真正起飞则是 2025 年 1 月 DeepSeek R1 的推出。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

如今,似乎大多数主要 AI 模型提供商和训练者都投入到了一个新的竞赛中,目标是提供更好、更快、更便宜的“推理” AI 语言模型——也就是说,这些模型在响应人类用户时可能会花费更长时间,但理想情况下能够给出更好、更全面、更有“逻辑推理”能力的答案。这类模型通过执行“链式思考”,即在回答前反思自身结论并验证其准确性,从而获得优异表现。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

字节跳动,这家中国网络媒体巨头(TikTok 的母公司),最新加入这一行列,公布并发布了支撑即将推出大语言模型(LLM)启思-v1.5 的技术论文。该模型旨在提升科学、技术、数学与工程(STEM)领域以及通用领域的推理性能。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

目前,该模型尚未提供下载或使用,其许可条款也尚未明确——无论它是专有/闭源、开源/免费供所有人使用和随意修改,还是介于两者之间。不过,技术论文中已经提供了一些值得提前了解的重要细节。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

基于日益流行的 Mixture-of-Experts (MoE) 架构构建  OdR喜好网-记录每日喜好的科技时尚娱乐生活
与 Meta 新的 Llama 4 和 Mistral 之前推出的 Mixtral 类似,启思-v1.5 同样采用了 Mixture-of-Experts (MoE) 架构。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

这种架构旨在提升模型效率,基本上将多个模型的能力整合到一起,每个模型专注于不同领域。在这种情况下,MoE 架构意味着启思-v1.5 在任一时刻仅使用 2000 亿参数中的 200 亿。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

字节跳动在其发布于 GitHub 的技术论文中表示,启思-v1.5 优先考虑结构化推理和深思熟虑的回答生成。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

测试结果几乎不言自明:在众多第三方基准测试中,启思-v1.5 不仅超越了 DeepSeek R1,而且在推理性能上接近 Google 最新发布的 Gemini 2.5 Pro 和 OpenAI 的 o3-mini-high reasoner。在 ARC-AGI 基准测试——这项被视为实现人工通用智能(AI 的“圣杯”)目标的指标中,它甚至超越了上述两种模型。按照 OpenAI 的定义,该模型在大多数经济价值较高的任务中均表现优于人类。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

作为一种紧凑而功能强大的替代大型最先进模型的方案,启思-v1.5 取得了具有竞争力的基准测试成绩。它还引入了强化学习(RL)的创新、训练数据策划及 AI 基础设施改进。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

性能基准与模型重点  OdR喜好网-记录每日喜好的科技时尚娱乐生活
启思-v1.5 在一系列具有挑战性的任务中展现出不俗表现:在 AIME 2024 上得分 86.7%,在 Codeforces 上的 pass@8 达到 55.0%,而在 GPQA 科学基准测试中得分 77.3%。这些成绩使其在特定推理指标上接近甚至匹敌 OpenAI 的 o3-mini-high 与 Google 的 Gemini 2.5 Pro。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

在非推理任务中,通过人工偏好比较评估时,该模型胜率比 DeepSeek R1 高出 8.0%,这表明它的优势不仅仅局限于逻辑或数学密集型挑战。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

为应对 AIME 等标准基准测试日益趋同的情况,字节跳动引入了 BeyondAIME —— 一项全新且更具挑战性的数学基准测试,其精心策划的问题旨在防止死记硬背,并更好地区分模型性能。BeyondAIME 与 Codeforces 的评测集预计将公开发布,以支持未来的相关研究。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

数据策略  OdR喜好网-记录每日喜好的科技时尚娱乐生活
训练数据在该模型开发过程中扮演了核心角色。针对监督性微调(SFT),团队策划了 400,000 个样本,其中包括 300,000 个可验证的问题(涵盖 STEM、逻辑及编程任务)和 100,000 个不可验证的问题,如创意写作与角色扮演。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

对于强化学习训练,数据被分为以下两类:  OdR喜好网-记录每日喜好的科技时尚娱乐生活
  可验证问题:100,000 个经过严格筛选的 STEM 问题与逻辑谜题,这些问题均来源于精英竞赛和专家评审并附有标准答案;  OdR喜好网-记录每日喜好的科技时尚娱乐生活
  不可验证任务:侧重开放式提示的人类偏好数据集,通过成对奖励模型进行评估。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

其中,STEM 数据主要依赖于高级数学,占据问题集的 80% 以上;额外的逻辑数据则包括数独和 24 点谜题等,其难度可根据模型进展灵活调整。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

强化学习方法  OdR喜好网-记录每日喜好的科技时尚娱乐生活
启思-v1.5 的强化学习采用了定制的 actor-critic(VAPO)和 policy-gradient(DAPO)框架,这两种框架均为解决强化学习训练中的不稳定性问题而开发。这些技术有效减少了奖励信号的稀疏性,并提升训练稳定性,尤其在长链式思考(CoT)场景中表现尤为突出。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

奖励模型在监督强化学习输出中发挥了关键作用。字节跳动推出了两项重要工具:  OdR喜好网-记录每日喜好的科技时尚娱乐生活
  Seed-Verifier:基于规则的大语言模型,用于检查生成答案与参考答案在数学上是否等效;  OdR喜好网-记录每日喜好的科技时尚娱乐生活
  Seed-Thinking-Verifier:基于逐步推理的评判器,旨在提升判断一致性并防止奖励作弊。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

这一两层奖励系统使评估既能应对简单任务,也能细致衡量复杂任务。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

基础设施与扩展性  OdR喜好网-记录每日喜好的科技时尚娱乐生活
为了支持高效的大规模训练,字节跳动基于其 HybridFlow 框架构建了一个系统,执行由 Ray 集群承担,同时训练与推理过程共处一处以降低 GPU 空闲时间。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

Streaming Rollout System(SRS)是一项显著创新,其将模型演进与运行时执行分离,通过异步管理跨模型版本的部分完成生成过程,从而加速了迭代速度。据称,这种架构可实现最高达 3 倍的强化学习循环速度。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

此外,其他基础设施技术还包括:  OdR喜好网-记录每日喜好的科技时尚娱乐生活
  - 采用混合精度(FP8)以节省内存;  OdR喜好网-记录每日喜好的科技时尚娱乐生活
  - 利用专家并行和内核自动调优来提高 MoE 效率;  OdR喜好网-记录每日喜好的科技时尚娱乐生活
  - 通过 ByteCheckpoint 实现稳健且灵活的检查点;  OdR喜好网-记录每日喜好的科技时尚娱乐生活
  - 使用 AutoTuner 优化并行性及内存配置。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

人工评估与实际影响  OdR喜好网-记录每日喜好的科技时尚娱乐生活
为评估模型与以人为本的偏好之间的一致性,字节跳动在多个领域进行了人工测试,包括创意写作、人文学科知识及日常对话。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

在各个测试环节中,启思-v1.5 始终优于 DeepSeek R1,这进一步证明了它对实际用户需求的适用性。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

开发团队指出,主要在可验证任务上训练的推理模型在创意领域同样表现出较强的泛化能力,这一成果归功于数学训练工作流程中所体现的结构性和严谨性。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

这对技术领导、数据工程师和企业决策者意味着什么  OdR喜好网-记录每日喜好的科技时尚娱乐生活
对于管理大语言模型全生命周期(从数据策划到部署)的技术负责人来说,启思-v1.5 提供了一个重新思考如何将推理能力整合到企业 AI 技术栈中的契机。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

其模块化的训练流程不仅包括可验证的推理数据集,还引入了多阶段强化学习,特别吸引那些希望在扩展大语言模型开发同时保持精细控制的团队。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

字节跳动推出的 Seed-Verifier 和 Seed-Thinking-Verifier 可视为更值得信赖的奖励建模机制,这在将模型部署于面向客户或受监管环境时尤为关键。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

对于在紧迫截止日期和资源有限的条件下运行的团队来说,启思-v1.5 在强化学习下表现出的稳定性(得益于 VAPO 和动态采样等创新)有望缩短迭代周期并简化针对特定任务的微调流程。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

从编排和部署角度来看,该模型的混合基础设施方法——包括 Streaming Rollout System (SRS) 和 FP8 优化支持——预示着训练吞吐量和硬件利用率将获得显著提升,这对于负责在云端和本地系统中扩展大语言模型操作的工程师来说颇具价值。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

此外,启思-v1.5 在训练时采用了基于运行时动态调整奖励反馈的机制,直接应对了管理异构数据流水线和在各领域保持一致性所带来的挑战。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

对于那些负责确保新工具可靠性、可重复性与持续集成的团队而言,启思-v1.5 的系统级设计可作为构建稳健多模态编排系统的蓝图。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

而对于数据工程专业人士来说,这种结构化训练数据的方法——包括严格过滤、数据增强及专家验证——进一步强化了数据质量作为模型性能倍增器的重要性,并可能激发更加有意识的数据集开发与验证流程。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

未来展望  OdR喜好网-记录每日喜好的科技时尚娱乐生活
启思-v1.5 是字节跳动 Seed LLM Systems 团队内部协作的成果,该团队由吴永辉领导,长期 AI 贡献者林海斌对此项目进行了公开展示。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

该项目还借鉴了此前的努力,如 Doubao 1.5 Pro,并融合了 RLHF 以及数据策划中的共用技术。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

团队计划继续改进强化学习技术,重点提升训练效率及不可验证任务的奖励建模。他们还计划公开 BeyondAIME 等内部基准,旨在推动以推理为重点的 AI 研究更广泛的发展。  OdR喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
董宇辉终究难逃宿命

董宇辉终究难逃宿命

直播带货业已进入到一场深度洗牌

11-19 132阅读
奔驰新款EQE 500 4MATIC纯电轿车上市:售47.8万起,全系四驱

奔驰新款EQE 500 4MATIC纯电轿车

11-19 117阅读
一家早期科技基金,今年投了10个亿

一家早期科技基金,今年投了10个亿

周期

11-19 104阅读
长沙缓过来了

长沙缓过来了

2024

11-19 101阅读
腾讯的AI困局

腾讯的AI困局

文章来源:科技新知图片来源:由无界

11-19 118阅读
小舍得原著结局是什么?南俪和夏君山的结局好不好?

小舍得原著结局是什么?南俪

《小舍得》是一根据鲁引弓的同名

11-19 102阅读
虞书欣林一新剧演情侣,《嘘,国王在冬眠》改编自哪部小说?

虞书欣林一新剧演情侣,《嘘

12月22日是冬至,在这天,虞书欣和林

11-19 99阅读
2024花田音乐节燃爆金乡卫城,重磅阵容嗨唱两天狂欢不停

2024花田音乐节燃爆金乡卫

  11月23至24日,金乡卫城·花

11-19 110阅读
迪士尼儿童动画或因LGBT话题停播一集:变性少年参加女子排球赛

迪士尼儿童动画或因LGBT话

据多位参与制作

11-19 108阅读
《白夜追凶》续集来了 白夜破晓全阵容官宣:潘粤明等原班人马

《白夜追凶》续集来了 白

11月16日消息,“

11-19 102阅读
特别好评《永恒天空》明年登陆PS5 试玩Demo现已上线

特别好评《永恒天空》明年

于 2023 年 6 月发售的开放世界科幻生

11-19 127阅读
玩转无忧传奇行会系统,成就宏图霸业

玩转无忧传奇行会系统,成就

行会是无忧传奇中一个非常重要的组成部

11-19 117阅读
CS1.6怎么加机器人?CS1.6加机器人方法

CS1.6怎么加机器人?CS1.6

《CS1.6》也就是大家都玩过的反恐精英

11-19 192阅读
原神终将到来的花神诞祭任务流程|终将到来的花神诞祭任务攻略

原神终将到来的花神诞祭任

终将到来的花神诞祭是原神须弥地区魔神

11-19 158阅读
饥荒龙心怎么获得?饥荒快速获得龙心的技巧分享

饥荒龙心怎么获得?饥荒快

龙心是饥荒游戏里面的重要材料,可以从龙

11-19 109阅读