新模型推理:工程师的视角

3个月前 科技 23观看
摘要 模型正以快速且猛烈的速度不断涌现 - 似乎每次回头,我们都会看到新形式的大语言模型操作和 AI 引擎需要理解。但这些变化实际上在行业中产生了什么影响?我看到了一篇来自 Machine Learning Str

模型正以快速且猛烈的速度不断涌现 - 似乎每次回头,我们都会看到新形式的大语言模型操作和 AI 引擎需要理解。HXa喜好网-记录每日喜好的科技时尚娱乐生活

但这些变化实际上在行业中产生了什么影响?HXa喜好网-记录每日喜好的科技时尚娱乐生活

我看到了一篇来自 Machine Learning Street Talk 的 Tim Scarfe 博士在 X (原 Twitter) 上的帖子,这位显然具有相关技术经验的专家讨论了 o1-pro 模型的突破性及其原因。HXa喜好网-记录每日喜好的科技时尚娱乐生活

本质上,Scarfe 表示,新模型改变了工程师提示大语言模型执行复杂任务的迭代过程。HXa喜好网-记录每日喜好的科技时尚娱乐生活

"o1-pro 最显著的变化是它在'单次处理'中能够处理的复杂性," 他写道。"此前,大语言模型在单次前向传递中只能做'有限的工作',由于自注意力线性化技巧的限制,我们不得不下意识地接受一些奇怪的限制,即你只能要求大语言模型在上下文中处理和完成一个模糊有限的子空间内的工作。"HXa喜好网-记录每日喜好的科技时尚娱乐生活

他还指出,传统过程实际上并非"单次处理",而是一个并行化的搜索树过程在运行。HXa喜好网-记录每日喜好的科技时尚娱乐生活

注意力的邮票比喻HXa喜好网-记录每日喜好的科技时尚娱乐生活

此外,Scarfe 使用邮票的比喻来讲述上一代注意力机制的受限能力。HXa喜好网-记录每日喜好的科技时尚娱乐生活

"想象你有一张世界地图," 他写道,"在大语言模型的每次前向传递中,你只能执行'一枚邮票大小'的计算,而作为提示者,你需要决定将这枚邮票放在地图的什么位置。这基本上就是 o 系列之前大语言模型的工作方式。因此,我们工程师设计了放置更多邮票的方法,或者将地图细分并将结果汇总成连贯的内容。"HXa喜好网-记录每日喜好的科技时尚娱乐生活

他解释了工程团队如何试图通过多智能体协作等技术来克服这些限制。HXa喜好网-记录每日喜好的科技时尚娱乐生活

"o1-pro 现在为我们自动化了这个过程,减少了我们对提示技巧和工程的需求," 他补充道。HXa喜好网-记录每日喜好的科技时尚娱乐生活

他还将 Transformer 称为"有限状态自动机",再次说明它们在单次前向传递中能够执行的计算类型极其有限。HXa喜好网-记录每日喜好的科技时尚娱乐生活

撇开自动机的语义不谈,这是有道理的。(严格来说,ChatGPT 是这样说的:"(Transformer) 是一个连续的参数化计算框架,因此超出了经典的离散自动机模型。")HXa喜好网-记录每日喜好的科技时尚娱乐生活

这里有一定的主观性;我只是觉得这很有趣。总之,那些发现这些模型能力(并使用它们)的人正在帮助 AI 系统以不同方式组织资源,使其变得更强大、更灵活。HXa喜好网-记录每日喜好的科技时尚娱乐生活

有什么不同?HXa喜好网-记录每日喜好的科技时尚娱乐生活

Scarfe 还这样描述新模型给用户带来的变化:- "更多的细节表述、更多的多样性和更少的平庸"。HXa喜好网-记录每日喜好的科技时尚娱乐生活

而且,最终带来更高的准确性。HXa喜好网-记录每日喜好的科技时尚娱乐生活

让我们更详细地看看这些标准。HXa喜好网-记录每日喜好的科技时尚娱乐生活

细节表述与模型如何与我们对话和回答问题有关。你可以这样理解:这个大语言模型是莎士比亚还是幼儿园学生?至于多样性,当模型能够在推理时进行更好的搜索,它就能提供更广泛的结果。而平庸 - 这与恐怖谷效应有些关联。我曾写过早期大语言模型结果如何"简单"、"泛泛而谈",用一个词来说,就是"平庸"。换句话说,结果的细微差别和复杂性能否通过更深层次的图灵测试。HXa喜好网-记录每日喜好的科技时尚娱乐生活

关于准确性:HXa喜好网-记录每日喜好的科技时尚娱乐生活

"(新模型) 现在能在地图上分布 1000 个邮票,准确捕捉与我的提示相匹配的信息," Scarfe 写道。"这种差异就像黑夜和白天一样明显。"HXa喜好网-记录每日喜好的科技时尚娱乐生活

Francois Chollet 的深度思考HXa喜好网-记录每日喜好的科技时尚娱乐生活

在帖子最后,Scarfe 提到了 Francois Chollet,这位从 Google 离职去研究 Arc 奖项的 AI 研究领域知名人士。我在之前的文章中曾介绍过他的工作,其中 AI 引擎试图解决人类能够轻松完成的模式识别问题。HXa喜好网-记录每日喜好的科技时尚娱乐生活

查看 Chollet 自己的 X 主页,你可以看到他对最近模型在解决 Arc 问题上的进展持乐观态度。HXa喜好网-记录每日喜好的科技时尚娱乐生活

"今天 OpenAI 发布了其下一代推理模型 o3," Chollet 在 12 月 20 日写道。"我们与 OpenAI 合作测试了它在 ARC-AGI 上的表现,我们认为这代表着 AI 适应新任务能力的重大突破。在低计算模式下(每个任务计算成本 20 美元)它在半私有评估中得分 75.7%,在高计算模式下(每个任务数千美元)得分 87.5%。虽然成本很高,但这不仅仅是蛮力计算 - 这些能力开创了新领域,值得认真的科学关注。"HXa喜好网-记录每日喜好的科技时尚娱乐生活

以下是 Chollet 最近对 AI 行业现状的一些其他有趣观点。HXa喜好网-记录每日喜好的科技时尚娱乐生活

"计算曾经感觉很快 - 所有东西都在本地运行,软件主要用 C/C++ 编写,并受制于需要在各种旧硬件上运行的限制。现在我的任何一个 Chrome 标签页使用的内存都是 NeXT 工作站总内存的 100 倍。" - 2024 年 9 月 3 日HXa喜好网-记录每日喜好的科技时尚娱乐生活

"AI 的当前气氛与 2021 年的 web3 有太多相似之处,让我感到不安。基于零数据的叙事被认为是不言而喻的。每个人都确信'改变文明'的影响...将在未来 2-3 年内到来。" - 2023 年 1 月 8 日HXa喜好网-记录每日喜好的科技时尚娱乐生活

这句话与市场特别相关:HXa喜好网-记录每日喜好的科技时尚娱乐生活

"软件是一个奇怪的领域,你可以几乎不花钱创造十亿美元的价值,也可以花十亿美元却几乎创造不出任何价值," 2022 年 2 月 1 日HXa喜好网-记录每日喜好的科技时尚娱乐生活

结论HXa喜好网-记录每日喜好的科技时尚娱乐生活

以上是我认为与当今工程界相关的一些内容,因为我们正在发现新的模型能力。我说发现而不是构建,是因为这些系统本身就具有让人类惊叹的能力。请继续关注未来新模型将带来的更多可能。HXa喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
小米手机快速占领高端:4000-6000元份额大涨

小米手机快速占领高端:4000-6000

11月18日

11-19 68阅读
93亿并购,“弟弟”成了“爹”

93亿并购,“弟弟”成了“爹”

11月1

11-19 62阅读
灵初智能完成天使轮融资

灵初智能完成天使轮融资

近日,

11-19 66阅读
一单只挣几块钱,年轻人追捧的代炒是门好生意吗?

一单只挣几块钱,年轻人追捧的代炒

杭州

11-19 68阅读
点名小杨哥、贾乃亮,美邦创始人不走寻常路

点名小杨哥、贾乃亮,美邦创始人不

11月1

11-19 69阅读
Netflix,振奋时刻下的暗潮

Netflix,振奋时刻下的暗潮

作者 / 向   向运营 / 狮子座和202

11-19 68阅读
高基才个人资料, 深扒小鲜肉高基才家庭背景

高基才个人资料, 深扒小鲜

电视剧《一夜新娘》正在热播中,剧

11-19 67阅读
吴秀波息影一年后首现身, 吴秀波出轨门怎么回事?

吴秀波息影一年后首现身,

吴秀波原本是圈中一线的演技派男

11-19 64阅读
泰妍将在今天(18日)下午6点发布迷你六辑《Letter To Myself》

泰妍将在今天(18日)下午6

凭借《To. X》创造热潮的少

11-19 68阅读
浪胃仙IP创始人“游絮”犯职务侵占罪被判8年:罚100万 归还账号

浪胃仙IP创始人“游絮”犯

11月13日消息,据

11-19 66阅读
城市天际线秘籍代码及使用方法详细介绍

城市天际线秘籍代码及使用

《城市:天际线》是以建造和管理城市为题

11-19 65阅读
卧龙苍天陨落前期快速获取情谊酒杯的技巧分享

卧龙苍天陨落前期快速获取

情谊酒杯是卧龙苍天陨落游戏里面的特殊

11-19 64阅读
饥荒无消耗驯服猪人的详细操作方法

饥荒无消耗驯服猪人的详细

猪人是饥荒游戏里面的特殊生物,因为数量

11-19 70阅读
《荒野大镖客:救赎》PC版显卡性能实测:缺乏诚意的移植!帧生成效果开倒车

《荒野大镖客:救赎》PC版显

11-19 68阅读
饥荒金色腰带有什么用?饥荒金色腰带用途详细介绍

饥荒金色腰带有什么用?饥

饥荒金色腰带有什么用?金色腰带是饥荒游

11-19 68阅读