研发成本不足 50 美元的新型大语言模型性能超越 OpenAI 的 o1-preview

3个月前 科技 19观看
摘要 来自斯坦福大学和华盛顿大学的研究人员开发出了一个大语言模型,在某些任务上的表现优于 OpenAI 的 o1-preview,且开发成本仅为后者的一小部分。研究团队于上周五发表了相关论文,TechCrunch 今天

来自斯坦福大学和华盛顿大学的研究人员开发出了一个大语言模型,在某些任务上的表现优于 OpenAI 的 o1-preview,且开发成本仅为后者的一小部分。2L8喜好网-记录每日喜好的科技时尚娱乐生活

研究团队于上周五发表了相关论文,TechCrunch 今天对该项目进行了报道。这个名为 s1-32B 的算法已在 GitHub 上开源。2L8喜好网-记录每日喜好的科技时尚娱乐生活

去年 9 月,OpenAI 推出了一个专注于推理能力的大语言模型 o1-preview。该算法的主要创新在于采用了一项称为测试时计算 (test-time compute) 的技术,在 s1-32B 模型中则被称为测试时扩展 (test-time scaling)。这项技术通过增加生成回答时的时间和硬件资源来提升大语言模型的输出质量。2L8喜好网-记录每日喜好的科技时尚娱乐生活

在 o1-preview 发布后,多个研究团队着手复制测试时扩展技术。s1-32B 的开发者在论文中表示,他们的模型是首个公开成功复制"明确测试时扩展行为"的尝试。2L8喜好网-记录每日喜好的科技时尚娱乐生活

研究人员在论文中写道:"我们的 s1-32B 模型展现出测试时扩展特性。此外,s1-32B 是样本效率最高的推理模型,其性能超过了 OpenAI 的 o1-preview 等闭源模型。"2L8喜好网-记录每日喜好的科技时尚娱乐生活

项目的起点是阿里巴巴集团去年发布的开源大语言模型 Qwen2.5-32B-Instruct。研究人员使用包含 1,000 个提示词和 AI 生成答案的数据集对其进行定制,从而创建了 s1-32B。这些答案来自 Google LLC 的 Gemini Thinking Experimental LLM。2L8喜好网-记录每日喜好的科技时尚娱乐生活

Gemini Thinking Experimental 不仅会回答用户的提示,还会展示得出答案的思考过程。该模型会用自然语言总结思考过程的每个步骤。这些总结与 1,000 个样本提示词和相应的 AI 生成答案一起被添加到 s1-32B 的训练数据集中。2L8喜好网-记录每日喜好的科技时尚娱乐生活

研究人员通过多个步骤创建数据集。首先,他们从公开来源收集了 59,029 个涵盖数学、物理和化学等主题的问题。然后删除了包含错误的问题。随后,研究人员再次筛选数据集,只保留了 1,000 个最具挑战性的问题。2L8喜好网-记录每日喜好的科技时尚娱乐生活

在用该数据集训练 s1-32B 后,研究人员应用了一种名为预算强制 (budget forcing) 的新机器学习方法。该方法通过向大语言模型提供提示,指示它比平常花更多时间思考问题,或相反地缩短推理过程。研究人员表示,这种方法解决了在大语言模型中实现测试时扩展的两个主要障碍。2L8喜好网-记录每日喜好的科技时尚娱乐生活

第一个挑战是大语言模型有时花费太少时间思考任务,从而导致错误。当 s1-32B 处理查询的时间不够时,预算强制通过输入"wait"来解决这个问题。根据 s1-32B 的创建者说法,这个提示会让模型增强其推理工作流程。2L8喜好网-记录每日喜好的科技时尚娱乐生活

在一次测试中,s1-32B 试图显示一个错误答案。在研究人员指示它等待后,模型发现了错误并生成了正确答案。2L8喜好网-记录每日喜好的科技时尚娱乐生活

研究人员的预算强制方法解决的第二个问题是大语言模型有时花费太多时间思考提示。这可能会降低输出质量。例如,大语言模型可能找到正确答案,但在后续处理步骤中改变它。预算强制通过要求大语言模型跳过这些后续处理步骤来避免这个问题。2L8喜好网-记录每日喜好的科技时尚娱乐生活

研究人员在 MATH 和 AIME24 数学基准测试中将 s1-32B 与 o1-preview 进行了比较。前者的得分比 OpenAI 的模型高出最多 27%。在另一个涉及数学问题的测试中,s1-32B 成功利用测试时计算将得分从 50% 提高到 57%。2L8喜好网-记录每日喜好的科技时尚娱乐生活

预算强制使 s1-32B 不仅在某些任务上超越 o-1,而且成本更低。参与该模型开发的研究人员之一 Niklas Muennighoff 今天告诉 TechCrunch,开发成本约为 20 美元的硬件费用。研究人员在论文中详细说明,s1-32B 使用 16 块 Nvidia Corp. 的 H100 显卡训练了 26 分钟。2L8喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
疑遭猎杀 泰海域发现无头“美人鱼”:只因毫无科学依据的传说

疑遭猎杀 泰海域发现无头“美人

11月19日

11-19 63阅读
‌星途星纪元E08预告图发布:奇瑞进军豪华MPV市场首款车型‌

‌星途星纪元E08预告图发布:奇瑞

11-19 57阅读
《无限暖暖》12月5日全球公测

《无限暖暖》12月5日全球公测

11-19 66阅读
李子柒:反商业化「顶流」

李子柒:反商业化「顶流」

沉寂1

11-19 65阅读
腾讯的AI困局

腾讯的AI困局

文章来源:科技新知图片来源:由无界

11-19 65阅读
TXT迷你七辑《The Star Chapter: SANCTUARY》进入专辑主榜"Billboard 200"(11月23日次)第2位

TXT迷你七辑《The Star Ch

17日,据美国Billboard榜单

11-19 66阅读
我们都在等待,等待钟声响起的那一刻。那是我生命最后的一刻,那也是最好的时刻

我们都在等待,等待钟声响起

  一段民族不可遗忘的历史,一个隐蔽

11-19 55阅读
曝何炅KTV陪大姐喝酒视频,被搂肩一脸不悦,知情者曝真相

曝何炅KTV陪大姐喝酒视频,

11月18日,主持人何炅成为备受热议的对

11-19 66阅读
时隔3年正式回归连更2条作品 李子柒:还有存货正在剪

时隔3年正式回归连更2条作

11月12日消息,时

11-19 58阅读
金角大王与银角大王可动人偶开启预定:超逼真还原童年记忆

金角大王与银角大王可动人

近日haoyutoys官

11-19 70阅读
英国独立游戏展会WASD宣布无力维持 将永久停办

英国独立游戏展会WASD宣布

由于举办英国游戏行业展会WASD的公司

11-19 74阅读
Skinseed怎样上传到我的世界?Skinseed皮肤导入方法

Skinseed怎样上传到我的世

《Skinseed》是一款专为游戏《我的世界

11-19 71阅读
原神流转存续的花神诞祭主线任务攻略

原神流转存续的花神诞祭主

流转存续的花神诞祭是原神须弥地区魔神

11-19 62阅读
原神大走廊的尽头隐藏成就|大走廊的尽头任务攻略

原神大走廊的尽头隐藏成就

大走廊的尽头是原神须弥沙漠地区的隐藏

11-19 70阅读
双十一巅峰28小时超值硬件优惠盘点:2T PCIe4 SSD 599元 2K/180Hz电竞屏615元

双十一巅峰28小时超值硬件

11-19 70阅读