Writer 推出 Palmyra X5,以 75% 降低的成本提供接近 GPT-4.1 水平的表现

3个月前 科技 20观看
摘要 Writer 是一家估值 19 亿美元的企业级生成式 AI 公司,今日推出了 Palmyra X5,这是一款全新的大语言模型 (LLM),拥有高达 1 百万 Token 的上下文窗口,有望加速企业环境中自主 AI 代理的采用。这家

Writer 是一家估值 19 亿美元的企业级生成式 AI 公司,今日推出了 Palmyra X5,这是一款全新的大语言模型 (LLM),拥有高达 1 百万 Token 的上下文窗口,有望加速企业环境中自主 AI 代理的采用。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

这家总部位于旧金山的公司,其数百家企业客户中包括 Accenture, Marriott, Uber 和 Vanguard,该模型被定位为与 OpenAI 和 Anthropic 等行业巨头产品相比具有成本效益的替代方案,定价为每百万输入 Token 0.60 美元,每百万输出 Token 6 美元。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

Writer 产品总监 Matan-Paul Shetrit 在接受 VentureBeat 采访时表示:“这一模型真正开启了代理世界。它比市场上类似 GPT-4.1 的大上下文窗口模型运行得更快、更经济,而且结合了大上下文窗口以及模型进行工具或函数调用的能力,使得实现多步代理流程等任务成为可能。”Ubm喜好网-记录每日喜好的科技时尚娱乐生活

对 AI 模型效率的比较显示,Writer 的 Palmyra X5 在 OpenAI 的 MRCR 基准测试中达到了将近 20% 的准确率,每百万 Token 的成本约为 0.60 美元,相较于成本超过每百万 Token 2.00 美元的更昂贵型号如 GPT-4.1 和 GPT-4o (right) ,占据明显优势。(Credit: Writer)Ubm喜好网-记录每日喜好的科技时尚娱乐生活

AI 经济学突破:Writer 如何仅花 100 万美元训练出一款强大模型Ubm喜好网-记录每日喜好的科技时尚娱乐生活

与许多竞争对手不同,Writer 使用合成数据训练 Palmyra X5,仅在 GPU 成本上花费了约 100 万美元,而这仅是其他领先模型所需费用的一小部分。这种成本效益标志着在模型开发上远离花费数千万或数亿美元的传统行业做法。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

Shetrit 解释道:“我们相信总体而言,Token 的成本正在变得越来越低,计算资源的成本也在不断下降。我们的目标是解决实际问题,而不是在定价上对客户斤斤计较。”Ubm喜好网-记录每日喜好的科技时尚娱乐生活

该公司的成本优势源于多年来开发的专有技术。2023 年,Writer 发表了关于 “becoming self-instruct” 的研究,提出了用于最小化指导调优的早停标准。据 Shetrit 表示,这一举措显著降低了训练过程中的成本。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

Shetrit 说道:“与其他基础模型研发团队不同,我们认为需要做到既有效又高效。我们必须为客户提供最快、最经济的模型,因为在这些场景中投资回报率 (ROI) 十分关键。”Ubm喜好网-记录每日喜好的科技时尚娱乐生活

百万 Token 奇迹:驱动 Palmyra X5 速度与准确率的技术架构Ubm喜好网-记录每日喜好的科技时尚娱乐生活

Palmyra X5 能够在约 22 秒内处理完整的百万 Token 提示,并在大约 300 毫秒内执行多轮函数调用 —— 这一性能指标使得 Writer 声称可以实现此前受到成本或时间限制的代理行为。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

该模型的架构融合了两项关键技术创新:混合注意力机制和专家混合方法。Shetrit 表示:“该混合注意力机制在模型内部引入了一种注意力机制,使其在生成每个输出时能够聚焦于输入的相关部分。”这一方法在加快响应速度的同时,也保障了广泛上下文窗口内的准确性。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

Palmyra X5 的混合注意力架构通过专门的解码器模块处理海量输入,从而实现对百万 Token 上下文的高效处理。(Credit: Writer)Ubm喜好网-记录每日喜好的科技时尚娱乐生活

在基准测试中,Palmyra X5 在 OpenAI 的 MRCR 8 针测试中——该测试要求模型在海量对话中寻找隐藏的八个相同请求——得分 19.1%,而 GPT-4.1 的得分为 20.25%,GPT-4o 为 17.63%。在 BigCodeBench 编码测试中,它以 48.7 的分数位列第八。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

这些基准测试表明,虽然 Palmyra X5 在所有性能类别中未必都居于领先地位,但它以显著降低的成本提供了近旗舰级的能力 —— Writer 相信这一权衡将符合关注投资回报率 (ROI) 的企业客户的需求。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

从聊天机器人到业务自动化:AI 代理如何改变企业工作流程Ubm喜好网-记录每日喜好的科技时尚娱乐生活

在本月初 Writer 发布 AI HQ —— 一款供企业构建、部署和监管 AI 代理的集中式平台之后不久,Palmyra X5 随之问世。这一双产品策略使得 Writer 能够抓住企业日益增长的对能够自主执行业务流程的 AI 的需求。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

Writer 首席技术官暨联合创始人 Waseem AlShikh 在一份声明中表示:“在代理时代,提供不到 100 万 Token 上下文的模型很快将变得与业务关键用例无关。”Ubm喜好网-记录每日喜好的科技时尚娱乐生活

Shetrit 进一步阐述说:“长期以来,AI 代理的承诺与其实际能够提供的效果之间存在着巨大差距。但在 Writer,我们现在正看到与大型企业客户合作的真实代理实现。而当我说真实客户时,并不是指旅游代理类的场景,我说的是全球 2000 强公司,帮助他们解决最棘手的业务问题。”Ubm喜好网-记录每日喜好的科技时尚娱乐生活

早期采用者正在将 Palmyra X5 部署于多种企业工作流程中,包括财务报告、投标响应、支持文档以及客户反馈分析。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

其中一个特别引人注目的用例涉及多步代理工作流程,在该流程中,AI 代理能够标记过时内容、生成建议修改、将其提交供人工批准,并自动将批准后的更新推送到内容管理系统。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

这种从简单文本生成到流程自动化的转变,代表了企业部署 AI 的根本演进 —— 从辅助人力工作转为自动化整个业务功能。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

Writer 的 Palmyra X5 相较于其前代产品,提供了 8 倍的上下文窗口扩展,使其能够一次性处理相当于 1,500 页的内容。(Credit: Writer)Ubm喜好网-记录每日喜好的科技时尚娱乐生活

云扩展战略:AWS 合作将 Writer 的 AI 带给数百万企业开发者Ubm喜好网-记录每日喜好的科技时尚娱乐生活

在发布新模型的同时,Writer 宣布 Palmyra X5 及其前代产品 Palmyra X4 现已在 Amazon Web Services (AWS) 的全托管基础模型服务 Amazon Bedrock 中上线。AWS 成为首家提供 Writer 全托管模型的云服务商,大幅扩展了公司潜在的触达范围。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

AWS 的 Amazon Bedrock 主管 Atul Deo 在公告中表示:“无缝访问 Writer 的 Palmyra X5 将使开发者和企业能够构建和扩展 AI 代理,并改变他们对海量企业数据的推理方式 —— 同时利用 AWS 的安全性、可扩展性和性能优势。”Ubm喜好网-记录每日喜好的科技时尚娱乐生活

AWS 的整合解决了企业采用 AI 的关键障碍:大规模部署和管理模型所涉及的技术复杂性。通过在 Bedrock 的简化 API 中提供 Palmyra X5,Writer 有望触及数百万缺乏直接操作基础模型专门知识的开发者。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

自学习 AI:Writer 对无需人工干预即可自我提升模型的愿景Ubm喜好网-记录每日喜好的科技时尚娱乐生活

Writer 对上下文窗口提出了大胆承诺,宣布未来所有发布的模型最小上下文窗口均为 100 万 Token。这一承诺反映了公司认为大规模上下文对于与多个系统和数据源交互的企业级 AI 代理至关重要的观点。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

展望未来,Shetrit 将自我演进模型视为企业 AI 的下一个重大进步。他表示:“现实是,如今代理的表现未达到我们期望和需求的水平。我认为现实的情况是,当用户进入 AI HQ 后,他们会开始进行流程映射……然后在此基础上,或融入其中,部署能够从公司内部运作方式中学习的自我演进模型。”Ubm喜好网-记录每日喜好的科技时尚娱乐生活

这种自我演进能力将从根本上改变 AI 系统随时间提升的方式。模型不再需要 AI 专家定期重新训练或微调,而是能够通过不断的交互持续学习,逐步提升在特定企业用例中的表现。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

Shetrit 在讨论不同业务团队的多样需求时指出:“一个代理可以统治一切的想法并不现实。即便是两个不同的产品团队,他们各自的工作方式都存在太多不同之处,连产品经理自身也是如此。”Ubm喜好网-记录每日喜好的科技时尚娱乐生活

企业 AI 的新算法:Writer 的 19 亿美元战略如何挑战 OpenAI 和 AnthropicUbm喜好网-记录每日喜好的科技时尚娱乐生活

Writer 的方法与 OpenAI 和 Anthropic 大相径庭,后者虽筹集了数十亿美元资金,却更多关注通用 AI 开发。而 Writer 则致力于构建企业专用模型,并具备有利于广泛部署的成本特性。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

这一战略吸引了大量投资者关注,去年 11 月该公司在 C 轮融资中融资 2 亿美元,估值达到 19 亿美元。本轮融资由 Premji Invest, Radical Ventures 和 ICONIQ Growth 联合领投,Salesforce Ventures, Adobe Ventures 和 IBM Ventures 等战略投资者亦参与其中。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

据 Forbes 报道,Writer 拥有惊人的 160% 净留存率,这表明客户在初次采用后通常会将合同规模扩大 60%。据称,该公司已签订合同总额超过 5000 万美元,预计今年将翻倍至 1 亿美元。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

对于评估生成式 AI 投资的企业来说,Writer 的 Palmyra X5 提供了引人注目的价值主张:以竞争对手仅一小部分成本带来强大能力。随着 AI 代理生态系统的不断成熟,这家企业对成本高效、面向企业的模型的押注,可能使其在面对那些资金雄厚但未必关注企业投资回报率要求的竞争对手时取得优势。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

Shetrit 强调:“我们的目标是尽快在客户群体中推动代理的广泛采用。经济因素很简单 —— 如果我们的解决方案定价过高,企业将直接比较 AI 代理和人力成本,可能无法看到足够的价值。为了加速采用,我们必须提供出色的速度和显著更低的成本。这是实现这些代理在大型企业中大规模部署的唯一途径。”Ubm喜好网-记录每日喜好的科技时尚娱乐生活

在一个常常被技术能力和理论性能上限吸引的行业中,Writer 对成本效率的务实关注最终可能比再提升一个小数点的基准成绩更具革命性。随着企业在衡量 AI 商业影响上变得愈加成熟,问题可能会从“你的模型有多强大?”转变为“你的智能有多经济实惠?” —— 而 Writer 正在押注,未来决定企业 AI 成败的不仅仅是能力,而是经济性。Ubm喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
那些大牌商场,正被本土商超“摁在地上摩擦”

那些大牌商场,正被本土商超“摁在

几大高奢商场在上半年的业绩都不

11-19 116阅读
宝马全新纯电动BMW i4上市,eDrive40售46.99万

宝马全新纯电动BMW i4上市,eDrive

11-19 120阅读
LP周报丨珠海给去看展的投资人,送上了100亿大礼包

LP周报丨珠海给去看展的投资人,送

最近

11-19 115阅读
点名小杨哥、贾乃亮,美邦创始人不走寻常路

点名小杨哥、贾乃亮,美邦创始人不

11月1

11-19 122阅读
川普赢了,马斯克能当上 AI 部部长吗?

川普赢了,马斯克能当上 AI 部部长

图片来源:由无界AI生成2018 年,扎

11-19 110阅读
余凯宁个人资料, 余凯宁原名余天翊

余凯宁个人资料, 余凯宁原

余凯宁,原名余天翊,演员。1994年9月

11-19 120阅读
林青霞谢娜同框, 竟是为了张杰?

林青霞谢娜同框, 竟是为了

张杰的首部舞台剧《曾经如是》正

11-19 104阅读
《神隐》澜丰帝君第几集被杀?澜丰帝君是被谁杀的?

《神隐》澜丰帝君第几集被

电视剧《神隐》在热播中,此前在预

11-19 104阅读
释彦能:银幕硬汉,反派巅峰——正邪交锋,票房破亿传奇!

释彦能:银幕硬汉,反派巅峰—

  在当今动作电影的舞台上,释彦能以

11-19 117阅读
要钱干嘛!比尔盖茨支持对富豪加税:我愿放弃62%的财富

要钱干嘛!比尔盖茨支持对富

11月11日消息,据

11-19 102阅读
《燕云十六声》PC版不锁帧 1060可畅玩中画质

《燕云十六声》PC版不锁帧

《燕云十六声》官博发布新的文章,主要

11-19 113阅读
城市天际线秘籍代码及使用方法详细介绍

城市天际线秘籍代码及使用

《城市:天际线》是以建造和管理城市为题

11-19 104阅读
饥荒联机版怎么调中文?饥荒联机版中文设置方法

饥荒联机版怎么调中文?饥荒

饥荒联机版是目前很多玩家在玩的一个版

11-19 117阅读
饥荒无消耗驯服猪人的详细操作方法

饥荒无消耗驯服猪人的详细

猪人是饥荒游戏里面的特殊生物,因为数量

11-19 113阅读
功耗低+性能强 双十一AMD锐龙9000处理器省钱游戏套装推荐

功耗低+性能强 双十一AMD

11-19 121阅读