Mistral 和 Ai2 发布新的开源大语言模型

6个月前 科技 43观看
摘要 Mistral AI 和艾伦人工智能研究所 (Allen Institute for AI) 今天发布了新的大语言模型,他们声称这些模型在各自类别中都属于最先进的水平。Mistral 的新模型名为 Mistral Small 3。而艾伦人

Mistral AI 和艾伦人工智能研究所 (Allen Institute for AI) 今天发布了新的大语言模型,他们声称这些模型在各自类别中都属于最先进的水平。Ykp喜好网-记录每日喜好的科技时尚娱乐生活

Mistral 的新模型名为 Mistral Small 3。而艾伦人工智能研究所 (通常简称为 Ai2) 的新大语言模型则被命名为 Tülu 3 405B。这两个模型都采用开源许可证发布。Ykp喜好网-记录每日喜好的科技时尚娱乐生活

Mistral Small 3 包含 240 亿参数,比市场上最先进的大语言模型的参数量要少得多。这意味着在启用量化后,它小到足以在某些 MacBook 上运行。量化是一种配置大语言模型的方法,通过牺牲一些输出质量来换取更低的硬件资源使用。Ykp喜好网-记录每日喜好的科技时尚娱乐生活

在内部评估中,Mistral 将 Mistral Small 3 与 Meta Platforms Inc. 开发的开源大语言模型 Llama 3.3 70B Instruct 进行了对比,后者的参数量是前者的三倍多。结果显示 Mistral Small 3 在提供相当输出质量的同时,响应速度明显更快。在另一项测试中,这个新模型相比 OpenAI 的 GPT-4 mini 展现出更高的输出质量和更低的延迟。Ykp喜好网-记录每日喜好的科技时尚娱乐生活

开发者通常通过创建基础模型,然后使用多种训练方法来提升其输出质量来构建大语言模型。在开发 Mistral Small 3 时,公司只开发了基础模型,跳过了后续的优化过程。这使用户可以根据自己的项目需求对 Mistral Small 3 进行个性化微调。Ykp喜好网-记录每日喜好的科技时尚娱乐生活

该公司认为开发者可以将这个大语言模型应用于多种任务。据 Mistral 称,该模型适用于需要低延迟在外部应用程序中执行任务的 AI 自动化工具。公司表示,他们的多个客户正在机器人、金融服务和制造业等领域将 Mistral Small 3 应用于特定行业场景。Ykp喜好网-记录每日喜好的科技时尚娱乐生活

"Mistral Small 3 是一个预训练和指令型模型,专注于满足生成式 AI 任务中的'80%'需求——那些需要强大的语言能力和指令遵循能力,且要求极低延迟的任务,"Mistral 的研究人员在博客文章中写道。Ykp喜好网-记录每日喜好的科技时尚娱乐生活

Mistral Small 3 的发布同时,非营利 AI 机构 A2I 也发布了新的大语言模型。Tülu 3 405B 是 Meta 去年 6 月推出的开源模型 Llama 3.1 405B 的定制版本。在 Ai2 进行的测试中,Tülu 3 405B 在超过半打基准测试中的表现都优于原始 Llama 模型。Ykp喜好网-记录每日喜好的科技时尚娱乐生活

研究团队使用了他们在 11 月首次详细介绍的开发流程来创建这个大语言模型。该工作流程整合了多种大语言模型训练方法,包括 Ai2 自主研发的一种方法。Ykp喜好网-记录每日喜好的科技时尚娱乐生活

工作流程的第一步是专注于监督式微调。这是一种向大语言模型提供样本提示和相应答案的训练方法,有助于模型学习如何响应用户查询。接下来,Ai2 使用了另一种称为 DPO 的训练技术,使 Tülu 3 405B 的输出与一组用户偏好保持一致。Ykp喜好网-记录每日喜好的科技时尚娱乐生活

Ai2 还使用内部开发的名为 RLVR 的训练方法进一步提升了模型的能力。这是一种强化学习的变体,而强化学习是一种广泛使用的 AI 训练技术。Ai2 表示,RLVR 能够提升 AI 模型在解决数学问题等任务上的表现。Ykp喜好网-记录每日喜好的科技时尚娱乐生活

Tülu 3 405B 代表了"首次将完全开放的后训练方案应用于最大的开放权重模型",Ai2 的研究人员在博客文章中写道。"通过这次发布,我们展示了我们的后训练方案在 4050 亿参数规模上的可扩展性和有效性。"Ykp喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
戴森设计大奖国际20强名单出炉

戴森设计大奖国际20强名单出炉

【锋巢网】首次有两支中国大陆赛

11-19 126阅读
华为放出预热视频:暗示Mate 70系列将搭载全新AI手势

华为放出预热视频:暗示Mate 70系

11月19日

11-19 129阅读
天玑9400性能之神!iQOO Neo10系列前瞻

天玑9400性能之神!iQOO Neo10系列

今天,iQOO

11-19 109阅读
“知春路时代”的创业者,被回购条款绊了一跤

“知春路时代”的创业者,被回购条

这次

11-19 128阅读
徐工集团CVC基金备案成功

徐工集团CVC基金备案成功

2024

11-19 113阅读
一夜新娘袁昊年龄, 袁昊扮演的秦尚城和花溶在一起了吗

一夜新娘袁昊年龄, 袁昊扮

网剧《一夜新娘》热播,男主袁昊圈

11-19 107阅读
NCT成员道英自2021年演出《玛丽・安东妮》之后睽违3年再度登上音乐剧舞台演出《笑面人》

NCT成员道英自2021年演出

NCT成员道英自2021年演出《玛

11-19 109阅读
山东卫视《中华家庭诗词擂台赛》 共品大宋“战狼”辛弃疾的峥嵘岁月

山东卫视《中华家庭诗词擂

  “品诗词之美,传诗礼家风”,由山东

11-19 108阅读
赵薇再陷风波被强制执行8488元 公司涉400余起证券纠纷案

赵薇再陷风波被强制执行84

企查查APP显示,近日,浙江祥源文旅股份

11-19 104阅读
肖战演郭靖!新《射雕》能复兴徐克的武侠梦吗 网友:肩负文化出海重任

肖战演郭靖!新《射雕》能复

11月18日消息,由

11-19 105阅读
海龟汤恐怖题目和答案全套汇总推荐(2024)

海龟汤恐怖题目和答案全套

《海龟汤》是年轻人之间最新的热门社交

11-19 502阅读
原子之心展览园啁啾表位置_展览园所有啁啾表所在位置一览

原子之心展览园啁啾表位置

啁啾表是原子之心游戏里面的一个特殊收

11-19 137阅读
原子之心展览馆四个学生所在位置详细介绍

原子之心展览馆四个学生所

在原子之心游戏的展览馆中,有一个寻找四

11-19 121阅读
饥荒猪皮怎么获得?饥荒猪皮获得方法详细介绍

饥荒猪皮怎么获得?饥荒猪

饥荒猪皮怎么获得?猪皮是饥荒游戏里面的

11-19 113阅读
饥荒超全影怪封印方法一览

饥荒超全影怪封印方法一览

在饥荒游戏的设定里面,玩家san值掉到0之

11-19 105阅读