新型 AI 文本扩散模型突破速度瓶颈,从噪声中提取文字

5个月前 科技 28观看
摘要 周四,Inception Labs 发布了 Mercury Coder,这是一款采用扩散技术生成文本的新型 AI 语言模型。与传统的逐字生成文本的模型(如 ChatGPT 所使用的)不同,Mercury 这类基于扩散的模型能够同时产生完

周四,Inception Labs 发布了 Mercury Coder,这是一款采用扩散技术生成文本的新型 AI 语言模型。与传统的逐字生成文本的模型(如 ChatGPT 所使用的)不同,Mercury 这类基于扩散的模型能够同时产生完整的响应,将初始遮蔽状态逐步优化成连贯的文本。ISW喜好网-记录每日喜好的科技时尚娱乐生活

传统大语言模型使用"自回归"技术,从左到右一次生成一个 token。每个词都必须等待前面所有词生成后才能出现。受 Stable Diffusion、DALL-E 和 Midjourney 等图像生成模型的启发,LLaDA (由人民大学和蚂蚁集团的研究人员开发) 和 Mercury 等文本扩散语言模型采用了基于遮蔽的方法。这些模型从完全遮蔽的内容开始,通过逐步"去噪",同时显示响应的所有部分。ISW喜好网-记录每日喜好的科技时尚娱乐生活

虽然图像扩散模型对像素值添加连续噪声,但文本扩散模型无法对离散 token (文本数据块) 应用连续噪声。相反,它们使用特殊的遮蔽 token 来替代文本,作为噪声的等效物。在 LLaDA 中,遮蔽概率控制噪声水平,高遮蔽代表高噪声,低遮蔽代表低噪声。扩散过程从高噪声过渡到低噪声。尽管 LLaDA 使用遮蔽术语而 Mercury 使用噪声术语,但两者都将类似的概念应用于基于扩散的文本生成。ISW喜好网-记录每日喜好的科技时尚娱乐生活

与创建图像合成模型类似,研究人员通过训练神经网络处理部分遮蔽的数据来构建文本扩散模型,让模型预测最可能的补全内容,然后将结果与实际答案进行比较。如果模型预测正确,导致正确答案的神经网络连接会得到强化。经过足够多的示例后,模型就能生成足够准确或合理的输出。ISW喜好网-记录每日喜好的科技时尚娱乐生活

据 Inception Labs 称,由于其方法不局限于仅考虑先前生成的文本,因此模型可以优化输出并纠正错误。这种并行处理使 Mercury 在 Nvidia H100 GPU 上实现了每秒超过 1,000 个 token 的生成速度。ISW喜好网-记录每日喜好的科技时尚娱乐生活

这些扩散模型保持着比同等规模的传统模型更快或相当的性能。LLaDA 的研究人员报告称,他们的 80 亿参数模型在各种基准测试中表现与 LLaMA3 8B 相似,在 MMLU、ARC 和 GSM8K 等任务上取得了具有竞争力的结果。ISW喜好网-记录每日喜好的科技时尚娱乐生活

然而,Mercury 声称在速度上有显著提升。他们的 Mercury Coder Mini 在 HumanEval 上得分 88.0%,在 MBPP 上得分 77.1%—与 GPT-4o Mini 相当—同时据报告运行速度达到每秒 1,109 个 token,而 GPT-4o Mini 为每秒 59 个 token。这表明在保持相似编码基准性能的同时,速度优势约为 GPT-4o Mini 的 19 倍。ISW喜好网-记录每日喜好的科技时尚娱乐生活

Mercury 的文档指出,其模型在 Nvidia H100 上运行速度"超过每秒 1,000 个 token,这种速度此前只能通过 Groq、Cerebras 和 SambaNova 等专业硬件提供商的定制芯片实现"。与其他优化速度的模型相比,其优势仍然显著—Mercury Coder Mini 据报告比 Gemini 2.0 Flash-Lite (每秒 201 个 token) 快约 5.5 倍,比 Claude 3.5 Haiku (每秒 61 个 token) 快 18 倍。ISW喜好网-记录每日喜好的科技时尚娱乐生活

开启大语言模型的新前沿ISW喜好网-记录每日喜好的科技时尚娱乐生活

扩散模型确实需要权衡取舍。与传统模型每个 token 只需一次网络前向传递不同,它们通常需要多次前向传递才能生成完整响应。但由于扩散模型并行处理所有 token,尽管有这种开销,它们仍能实现更高的吞吐量。ISW喜好网-记录每日喜好的科技时尚娱乐生活

Inception 认为,速度优势可能影响代码补全工具(即时响应可能影响开发者生产力)、会话 AI 应用、移动应用等资源受限环境,以及需要快速响应的 AI 代理。ISW喜好网-记录每日喜好的科技时尚娱乐生活

如果基于扩散的语言模型在提高速度的同时保持质量,可能会改变 AI 文本生成的发展方向。到目前为止,AI 研究人员对新方法持开放态度。ISW喜好网-记录每日喜好的科技时尚娱乐生活

独立 AI 研究员 Simon Willison 告诉 Ars Technica:"我很高兴看到人们在尝试 Transformer 之外的替代架构,这再次说明我们对大语言模型的探索才刚刚开始。"ISW喜好网-记录每日喜好的科技时尚娱乐生活

前 OpenAI 研究员 Andrej Karpathy 在 X 上写道:"这个模型有可能与众不同,可能展示出新的、独特的心理特征,或新的优势和劣势。我鼓励大家尝试使用它!"ISW喜好网-记录每日喜好的科技时尚娱乐生活

关于更大的扩散模型是否能够匹配 GPT-4o 和 Claude 3.7 Sonnet 等模型的性能,以及这种方法是否能够处理日益复杂的模拟推理任务,仍有待观察。目前,这些模型为小型 AI 语言模型提供了一种不牺牲性能换取速度的替代方案。ISW喜好网-记录每日喜好的科技时尚娱乐生活

 ISW喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
稳定7100MB/s!雷克沙ARES 8TB SSD评测:机箱里再也没有机械硬盘的位置了

稳定7100MB/s!雷克沙ARES 8TB SSD

一、前言:

11-19 114阅读
外媒:英伟达新款Blackwell AI芯片面临过热问题,或致数据中心部署延期

外媒:英伟达新款Blackwell AI芯片

11月1

11-19 105阅读
超204万人预约华为Mate 70:纯血鸿蒙+麒麟芯自研完全体来了

超204万人预约华为Mate 70:纯血鸿

11月19日

11-19 136阅读
小米发布超级智能驾驶技术Hyper Autonomous Driving(HAD)

小米发布超级智能驾驶技术Hyper

11-19 122阅读
收到500万份垄断诉讼,谷歌要被拆分?

收到500万份垄断诉讼,谷歌要被拆

谷歌

11-19 108阅读
脱离海马后,他们的那段故事就像是一场梦

脱离海马后,他们的那段故事

11-19 126阅读
毒铁锅 遭央视多次曝光,把美食变成 毒药 ,大家应提高警惕(遭央视多次曝光)

毒铁锅 遭央视多次曝光,把

前言 前一段时间,我国市面上出现了

11-19 105阅读
电影《朝花夕拾》将映   张珊萌担任制片人及主演

电影《朝花夕拾》将映

  “积谷防饥,养儿防老”,关注乡村“

11-19 109阅读
《大梦归离》迎来大结局,用热血群像展现悲凉内核探讨生命的意义

《大梦归离》迎来大结局,用

  由爱奇艺出品,最世文化、奥羽工作

11-19 125阅读
扁鹊归宿地的怅惘(扁鹊归宿地的怅惘)

扁鹊归宿地的怅惘(扁鹊归宿

关键词:神医扁鹊 气死回生 讳疾忌医

11-19 108阅读
非线性悬疑侦探新作《心灵警探》现已登陆PC、PS5和Switch

非线性悬疑侦探新作《心灵

2024年11月15日,法国·蒙彼利埃 – 发行

11-19 142阅读
万代魂系高端钢普拉大展 解体匠机第三弹高达Mk-II再参展

万代魂系高端钢普拉大展

万代高端模玩魂系列展会《TAMASHII NA

11-19 123阅读
特别好评《永恒天空》明年登陆PS5 试玩Demo现已上线

特别好评《永恒天空》明年

于 2023 年 6 月发售的开放世界科幻生

11-19 128阅读
原子之心3826设施所有死者所在位置一览

原子之心3826设施所有死者

在原子之心游戏设定中,死者在生命体征消

11-19 129阅读
原神痼疾任务图文攻略|原神痼疾全流程攻略

原神痼疾任务图文攻略|原

痼疾是原神须弥地区魔神主线任务的第三

11-19 103阅读