新模型推理:工程师的视角

6个月前 科技 36观看
摘要 模型正以快速且猛烈的速度不断涌现 - 似乎每次回头,我们都会看到新形式的大语言模型操作和 AI 引擎需要理解。但这些变化实际上在行业中产生了什么影响?我看到了一篇来自 Machine Learning Str

模型正以快速且猛烈的速度不断涌现 - 似乎每次回头,我们都会看到新形式的大语言模型操作和 AI 引擎需要理解。FYM喜好网-记录每日喜好的科技时尚娱乐生活

但这些变化实际上在行业中产生了什么影响?FYM喜好网-记录每日喜好的科技时尚娱乐生活

我看到了一篇来自 Machine Learning Street Talk 的 Tim Scarfe 博士在 X (原 Twitter) 上的帖子,这位显然具有相关技术经验的专家讨论了 o1-pro 模型的突破性及其原因。FYM喜好网-记录每日喜好的科技时尚娱乐生活

本质上,Scarfe 表示,新模型改变了工程师提示大语言模型执行复杂任务的迭代过程。FYM喜好网-记录每日喜好的科技时尚娱乐生活

"o1-pro 最显著的变化是它在'单次处理'中能够处理的复杂性," 他写道。"此前,大语言模型在单次前向传递中只能做'有限的工作',由于自注意力线性化技巧的限制,我们不得不下意识地接受一些奇怪的限制,即你只能要求大语言模型在上下文中处理和完成一个模糊有限的子空间内的工作。"FYM喜好网-记录每日喜好的科技时尚娱乐生活

他还指出,传统过程实际上并非"单次处理",而是一个并行化的搜索树过程在运行。FYM喜好网-记录每日喜好的科技时尚娱乐生活

注意力的邮票比喻FYM喜好网-记录每日喜好的科技时尚娱乐生活

此外,Scarfe 使用邮票的比喻来讲述上一代注意力机制的受限能力。FYM喜好网-记录每日喜好的科技时尚娱乐生活

"想象你有一张世界地图," 他写道,"在大语言模型的每次前向传递中,你只能执行'一枚邮票大小'的计算,而作为提示者,你需要决定将这枚邮票放在地图的什么位置。这基本上就是 o 系列之前大语言模型的工作方式。因此,我们工程师设计了放置更多邮票的方法,或者将地图细分并将结果汇总成连贯的内容。"FYM喜好网-记录每日喜好的科技时尚娱乐生活

他解释了工程团队如何试图通过多智能体协作等技术来克服这些限制。FYM喜好网-记录每日喜好的科技时尚娱乐生活

"o1-pro 现在为我们自动化了这个过程,减少了我们对提示技巧和工程的需求," 他补充道。FYM喜好网-记录每日喜好的科技时尚娱乐生活

他还将 Transformer 称为"有限状态自动机",再次说明它们在单次前向传递中能够执行的计算类型极其有限。FYM喜好网-记录每日喜好的科技时尚娱乐生活

撇开自动机的语义不谈,这是有道理的。(严格来说,ChatGPT 是这样说的:"(Transformer) 是一个连续的参数化计算框架,因此超出了经典的离散自动机模型。")FYM喜好网-记录每日喜好的科技时尚娱乐生活

这里有一定的主观性;我只是觉得这很有趣。总之,那些发现这些模型能力(并使用它们)的人正在帮助 AI 系统以不同方式组织资源,使其变得更强大、更灵活。FYM喜好网-记录每日喜好的科技时尚娱乐生活

有什么不同?FYM喜好网-记录每日喜好的科技时尚娱乐生活

Scarfe 还这样描述新模型给用户带来的变化:- "更多的细节表述、更多的多样性和更少的平庸"。FYM喜好网-记录每日喜好的科技时尚娱乐生活

而且,最终带来更高的准确性。FYM喜好网-记录每日喜好的科技时尚娱乐生活

让我们更详细地看看这些标准。FYM喜好网-记录每日喜好的科技时尚娱乐生活

细节表述与模型如何与我们对话和回答问题有关。你可以这样理解:这个大语言模型是莎士比亚还是幼儿园学生?至于多样性,当模型能够在推理时进行更好的搜索,它就能提供更广泛的结果。而平庸 - 这与恐怖谷效应有些关联。我曾写过早期大语言模型结果如何"简单"、"泛泛而谈",用一个词来说,就是"平庸"。换句话说,结果的细微差别和复杂性能否通过更深层次的图灵测试。FYM喜好网-记录每日喜好的科技时尚娱乐生活

关于准确性:FYM喜好网-记录每日喜好的科技时尚娱乐生活

"(新模型) 现在能在地图上分布 1000 个邮票,准确捕捉与我的提示相匹配的信息," Scarfe 写道。"这种差异就像黑夜和白天一样明显。"FYM喜好网-记录每日喜好的科技时尚娱乐生活

Francois Chollet 的深度思考FYM喜好网-记录每日喜好的科技时尚娱乐生活

在帖子最后,Scarfe 提到了 Francois Chollet,这位从 Google 离职去研究 Arc 奖项的 AI 研究领域知名人士。我在之前的文章中曾介绍过他的工作,其中 AI 引擎试图解决人类能够轻松完成的模式识别问题。FYM喜好网-记录每日喜好的科技时尚娱乐生活

查看 Chollet 自己的 X 主页,你可以看到他对最近模型在解决 Arc 问题上的进展持乐观态度。FYM喜好网-记录每日喜好的科技时尚娱乐生活

"今天 OpenAI 发布了其下一代推理模型 o3," Chollet 在 12 月 20 日写道。"我们与 OpenAI 合作测试了它在 ARC-AGI 上的表现,我们认为这代表着 AI 适应新任务能力的重大突破。在低计算模式下(每个任务计算成本 20 美元)它在半私有评估中得分 75.7%,在高计算模式下(每个任务数千美元)得分 87.5%。虽然成本很高,但这不仅仅是蛮力计算 - 这些能力开创了新领域,值得认真的科学关注。"FYM喜好网-记录每日喜好的科技时尚娱乐生活

以下是 Chollet 最近对 AI 行业现状的一些其他有趣观点。FYM喜好网-记录每日喜好的科技时尚娱乐生活

"计算曾经感觉很快 - 所有东西都在本地运行,软件主要用 C/C++ 编写,并受制于需要在各种旧硬件上运行的限制。现在我的任何一个 Chrome 标签页使用的内存都是 NeXT 工作站总内存的 100 倍。" - 2024 年 9 月 3 日FYM喜好网-记录每日喜好的科技时尚娱乐生活

"AI 的当前气氛与 2021 年的 web3 有太多相似之处,让我感到不安。基于零数据的叙事被认为是不言而喻的。每个人都确信'改变文明'的影响...将在未来 2-3 年内到来。" - 2023 年 1 月 8 日FYM喜好网-记录每日喜好的科技时尚娱乐生活

这句话与市场特别相关:FYM喜好网-记录每日喜好的科技时尚娱乐生活

"软件是一个奇怪的领域,你可以几乎不花钱创造十亿美元的价值,也可以花十亿美元却几乎创造不出任何价值," 2022 年 2 月 1 日FYM喜好网-记录每日喜好的科技时尚娱乐生活

结论FYM喜好网-记录每日喜好的科技时尚娱乐生活

以上是我认为与当今工程界相关的一些内容,因为我们正在发现新的模型能力。我说发现而不是构建,是因为这些系统本身就具有让人类惊叹的能力。请继续关注未来新模型将带来的更多可能。FYM喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
明星为何争做探店顶流?

明星为何争做探店顶流?

采写/陈纪英编辑/万天南明星的尽头

11-19 140阅读
‌星途星纪元E08预告图发布:奇瑞进军豪华MPV市场首款车型‌

‌星途星纪元E08预告图发布:奇瑞

11-19 98阅读
睿蓝8七座纯电MPV上市,起售价13.78万元

睿蓝8七座纯电MPV上市,起售价13.7

11-19 110阅读
“知春路时代”的创业者,被回购条款绊了一跤

“知春路时代”的创业者,被回购条

这次

11-19 128阅读
“一听别人说‘清华系’,我就感觉压力山大”

“一听别人说‘清华系’,我就感觉

自从

11-19 106阅读
于谦因釜山行爆红, 啥梗真没想到讲相声的他竟出演过这么多作品

于谦因釜山行爆红, 啥梗真

于谦明明就是一个讲相声的人,怎么

11-19 117阅读
情场失意事业受创,《幸福触手可及》周放变身女强人重振威风

情场失意事业受创,《幸福触

周放是一位有实力的年轻服装女设

11-19 108阅读
长江文化艺术季闭幕式圆满落幕 平安携手金莎合唱《何以家国》

长江文化艺术季闭幕式圆满

  4日晚,长江文化艺术季闭幕式在宜昌

11-19 106阅读
马斯克赌大赢大 部分广告商准备重返推特

马斯克赌大赢大 部分广告

多位媒体高管透

11-19 108阅读
最美《变形金刚》女主梅根福克斯怀孕登热搜 网友谈样貌:咋成卡戴珊了...

最美《变形金刚》女主梅根

11月12日消息,知

11-19 107阅读
AI技术将一峰大二原作动画《電人アロー》黑白影像彩色化

AI技术将一峰大二原作动画

由一峰大

11-19 132阅读
20年后焕发新生 《半条命2》在线玩家人数冲上巅峰

20年后焕发新生 《半条命2

根据SteamDB的数据显示,围绕《半条命2

11-19 134阅读
博德之门3怎么装MOD?手把手教你博德之门3MOD安装方法

博德之门3怎么装MOD?手把

博德之门3怎么装MOD?博德之门3游戏是支

11-19 142阅读
卧龙苍天陨落在哪强化装备?卧龙苍天陨落强化装备位置介绍

卧龙苍天陨落在哪强化装备

卧龙苍天陨落在哪强化装备?卧龙苍天陨落

11-19 119阅读
原神训练有素的考古学家隐藏成就任务攻略

原神训练有素的考古学家隐

训练有素的考古学家是须弥沙漠地区的隐

11-19 114阅读