云服务商如何吞噬你的AI利润:推理陷阱解析

1个月前 科技 8观看
摘要 AI已成为现代企业的"圣杯"。无论是客户服务还是管道维护等细分领域,各行各业的组织都在部署AI技术——从基础模型到视觉语言模型——以提高效率。目标很明确:通过自动化任

AI已成为现代企业的"圣杯"。无论是客户服务还是管道维护等细分领域,各行各业的组织都在部署AI技术——从基础模型到视觉语言模型——以提高效率。目标很明确:通过自动化任务来更高效地交付成果,同时节省资金和资源。UMP喜好网-记录每日喜好的科技时尚娱乐生活

然而,当这些项目从试点阶段过渡到生产阶段时,团队遇到了意想不到的障碍:云成本正在侵蚀他们的利润。成本冲击如此严重,以至于曾经被视为创新和竞争优势最快路径的云服务,瞬间变成了不可持续的预算黑洞。UMP喜好网-记录每日喜好的科技时尚娱乐生活

这促使CIO们重新思考一切——从模型架构到部署模式——以重新控制财务和运营方面。有时,他们甚至完全关闭项目,从头开始。UMP喜好网-记录每日喜好的科技时尚娱乐生活

但事实是:虽然云服务可能将成本推高到难以承受的水平,但它并非罪魁祸首。你只需要了解选择什么样的载体(AI基础设施)来走哪条路(工作负载)。UMP喜好网-记录每日喜好的科技时尚娱乐生活

**云服务的故事——及其适用场景**UMP喜好网-记录每日喜好的科技时尚娱乐生活

云服务很像公共交通(地铁和公交车)。你通过简单的租赁模式搭乘,立即获得所有资源——从GPU实例到跨地域的快速扩展——将你送达目的地,而且工作和设置量极少。UMP喜好网-记录每日喜好的科技时尚娱乐生活

通过服务模式的快速便捷访问确保了无缝启动,为项目落地和快速实验铺平道路,而无需购买专用GPU的巨额前期资本支出。UMP喜好网-记录每日喜好的科技时尚娱乐生活

大多数早期初创公司发现这种模式很有吸引力,因为他们最需要的是快速周转,特别是在他们仍在验证模型和确定产品市场契合度时。UMP喜好网-记录每日喜好的科技时尚娱乐生活

语音AI公司Speechmatics的产品负责人Rohan Sarin告诉VentureBeat:"你创建账户,点击几个按钮,就能访问服务器。如果需要不同的GPU规格,你关闭并重启新规格的实例,只需几分钟。如果想同时运行两个实验,你初始化两个独立实例。在早期阶段,重点是快速验证想法。使用大多数云平台提供的内置扩展和实验框架有助于缩短里程碑之间的时间。"UMP喜好网-记录每日喜好的科技时尚娱乐生活

**"便利"的代价**UMP喜好网-记录每日喜好的科技时尚娱乐生活

虽然云服务对早期使用完全合理,但当项目从测试验证转向实际应用量时,基础设施成本变得严峻。工作负载规模使账单变得残酷——成本可能一夜之间飙升超过1000%。UMP喜好网-记录每日喜好的科技时尚娱乐生活

这在推理方面尤其明显,不仅需要24/7运行以确保服务正常运行,还要随客户需求扩展。UMP喜好网-记录每日喜好的科技时尚娱乐生活

Sarin解释说,在大多数情况下,推理需求高峰期正好是其他客户也在请求GPU访问时,增加了资源竞争。在这种情况下,团队要么保持预留容量以确保获得所需资源——导致非高峰时段GPU空闲——要么遭受延迟,影响下游体验。UMP喜好网-记录每日喜好的科技时尚娱乐生活

AI合规平台EasyAudit AI的CEO Christian Khoury将推理描述为新的"云税",他告诉VentureBeat,他见过公司仅因推理流量就从每月5,000美元一夜之间增长到50,000美元。UMP喜好网-记录每日喜好的科技时尚娱乐生活

值得注意的是,涉及大语言模型的推理工作负载采用基于令牌的定价,可能引发最陡峭的成本增长。这是因为这些模型是非确定性的,在处理长期运行任务(涉及大型上下文窗口)时可能产生不同输出。随着持续更新,预测或控制LLM推理成本变得非常困难。UMP喜好网-记录每日喜好的科技时尚娱乐生活

训练这些模型往往是"突发性的"(集群式发生),这确实为容量规划留下了一些空间。然而,即使在这些情况下,特别是随着日益激烈的竞争迫使频繁重训练,企业可能因过度配置导致的GPU空闲时间而产生巨额账单。UMP喜好网-记录每日喜好的科技时尚娱乐生活

Sarin解释说:"云平台上的训练额度很昂贵,快速迭代周期中的频繁重训练可能迅速推高成本。长期训练运行需要访问大型机器,大多数云提供商只有在你预留一年或更长时间容量时才保证访问。如果你的训练运行只持续几周,你仍需为一年的剩余时间付费。"UMP喜好网-记录每日喜好的科技时尚娱乐生活

不仅如此,云锁定是真实存在的。假设你做了长期预留并从提供商购买了额度,你就被锁定在他们的生态系统中,必须使用他们提供的任何服务,即使其他提供商已转向更新更好的基础设施。最后,当你能够迁移时,可能需要承担巨额出口费用。UMP喜好网-记录每日喜好的科技时尚娱乐生活

Sarin强调:"这不仅仅是计算成本。你还会遇到...不可预测的自动扩展,以及在区域或供应商之间移动数据时的疯狂出口费用。有一个团队移动数据的费用比训练模型还高。"UMP喜好网-记录每日喜好的科技时尚娱乐生活

**解决方案是什么?**UMP喜好网-记录每日喜好的科技时尚娱乐生活

鉴于扩展AI推理的持续基础设施需求和训练的突发性质,企业正在转向拆分工作负载——将推理转移到托管或本地堆栈,同时将训练留在云端使用现货实例。UMP喜好网-记录每日喜好的科技时尚娱乐生活

这不仅仅是理论——这是工程领导者试图将AI投入生产而不烧钱的日益增长的运动。UMP喜好网-记录每日喜好的科技时尚娱乐生活

Khoury补充说:"我们帮助团队使用他们控制的专用GPU服务器转向托管进行推理。虽然不性感,但它将月度基础设施支出削减了60-80%。混合不仅更便宜——更聪明。"UMP喜好网-记录每日喜好的科技时尚娱乐生活

他说,在一个案例中,一家SaaS公司通过将推理工作负载从云端迁移出来,将月度AI基础设施账单从约42,000美元减少到仅9,000美元。转换在不到两周内就收回了成本。UMP喜好网-记录每日喜好的科技时尚娱乐生活

另一个需要AI客户支持工具一致的50毫秒以下响应的团队发现,基于云的推理延迟不够。通过托管将推理转移到更接近用户的位置,不仅解决了性能瓶颈——还将成本减半。UMP喜好网-记录每日喜好的科技时尚娱乐生活

设置通常是这样工作的:始终在线且对延迟敏感的推理在专用GPU上运行,要么在本地要么在附近数据中心(托管设施)。同时,计算密集但间歇性的训练留在云端,你可以按需启动强大集群,运行几小时或几天,然后关闭。UMP喜好网-记录每日喜好的科技时尚娱乐生活

广泛估计,从超大规模云提供商租赁每GPU小时的成本可能比与较小提供商合作高出三到四倍,与本地基础设施相比差异更加显著。UMP喜好网-记录每日喜好的科技时尚娱乐生活

另一个重大好处?可预测性。UMP喜好网-记录每日喜好的科技时尚娱乐生活

通过本地或托管堆栈,团队还完全控制他们想要为预期推理工作负载基线配置或添加的资源数量。这为基础设施成本带来了可预测性——并消除了意外账单。它还减少了调优扩展和保持云基础设施成本合理的积极工程努力。UMP喜好网-记录每日喜好的科技时尚娱乐生活

混合设置还有助于减少时间敏感AI应用的延迟,并实现更好的合规性,特别是对于在金融、医疗保健和教育等高度监管行业运营的团队——在这些行业中,数据驻留和治理是不可协商的。UMP喜好网-记录每日喜好的科技时尚娱乐生活

**混合复杂性是真实的——但很少成为交易破坏者**UMP喜好网-记录每日喜好的科技时尚娱乐生活

一如既往,转向混合设置带来了自己的运营税。建立自己的硬件或租用托管设施需要时间,在云外管理GPU需要不同类型的工程能力。UMP喜好网-记录每日喜好的科技时尚娱乐生活

然而,领导者认为,复杂性通常被夸大,通常可以通过内部或外部支持管理,除非在极端规模下运营。UMP喜好网-记录每日喜好的科技时尚娱乐生活

Sarin解释说:"我们的计算显示,本地GPU服务器的成本大约相当于从AWS、Azure或Google Cloud租用等效实例六到九个月的费用,即使是一年预留费率。由于硬件通常至少持续三年,通常超过五年,这在前九个月内就变得成本积极。一些硬件供应商还为资本基础设施提供运营定价模式,因此如果现金流是问题,你可以避免预付款项。"UMP喜好网-记录每日喜好的科技时尚娱乐生活

**按需求优先排序**UMP喜好网-记录每日喜好的科技时尚娱乐生活

对于任何公司,无论是初创公司还是企业,在架构——或重新架构——AI基础设施时成功的关键在于根据手头的具体工作负载工作。UMP喜好网-记录每日喜好的科技时尚娱乐生活

如果你不确定不同AI工作负载的负荷,从云开始,通过为每个资源标记负责团队来密切关注相关成本。你可以与所有经理分享这些成本报告,深入了解他们使用什么及其对资源的影响。这些数据将提供清晰度,并帮助为推动效率铺平道路。UMP喜好网-记录每日喜好的科技时尚娱乐生活

话虽如此,记住这不是完全抛弃云;而是优化其使用以最大化效率。UMP喜好网-记录每日喜好的科技时尚娱乐生活

Khoury补充说:"云仍然非常适合实验和突发训练。但如果推理是你的核心工作负载,摆脱租赁跑步机。混合不仅更便宜...更聪明。将云视为原型,而非永久家园。计算数学。与你的工程师交谈。云永远不会告诉你什么时候它是错误的工具。但你的AWS账单会。"UMP喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
OPPO Reno 13 系列手机外观公布,代言人宋雨琦

OPPO Reno 13 系列手机外观公布,

11 月

11-19 110阅读
TGA 2024 提名名单将于 11 月 19 日北京时间公布

TGA 2024 提名名单将于 11 月 19

11-19 131阅读
2025款宝骏悦也Plus发布:配备灵眸智驾2.0 Max,定价10.38万

2025款宝骏悦也Plus发布:配备灵眸

11-19 114阅读
雷神G50 Ultra手柄预售:TMR摇杆+扳机震动,179元起

雷神G50 Ultra手柄预售:TMR摇杆+

11-19 119阅读
慢热的腾讯,上火的AI搜索

慢热的腾讯,上火的AI搜索

11月1

11-19 111阅读
金鸡奖这一夜,人情冷暖、江湖职位,在王骁身上体现得极尽描摹

金鸡奖这一夜,人情冷暖、江

11-19 108阅读
“资源弃子”杨幂还是被踢出了局,和嘉行解约的背后是被闺蜜插刀

“资源弃子”杨幂还是被踢

11-19 106阅读
《逆天奇案》寡佬是谁?钟嘉瑜最后和谁在一起了?

《逆天奇案》寡佬是谁?钟嘉

在《逆天奇案》中,寡佬是一名警察,

11-19 98阅读
虞书欣林一新剧演情侣,《嘘,国王在冬眠》改编自哪部小说?

虞书欣林一新剧演情侣,《嘘

12月22日是冬至,在这天,虞书欣和林

11-19 95阅读
徐克执导!新《射雕英雄传》官宣定档2025大年初一 肖战饰演郭靖

徐克执导!新《射雕英雄传》

11月15日消息,今

11-19 100阅读
LUIDA’S BAR推出《DQIII》合作菜单

LUIDA’S BAR推出《DQIII

为纪念HD-

11-19 117阅读
咸鱼之王兑换码2024,咸鱼之王礼包码100连抽兑换码最新分享

咸鱼之王兑换码2024,咸鱼

咸鱼之王是一款非常魔性的放置挂机手游

11-19 113阅读
空洞骑士苍白矿石位置_空洞骑士苍白矿石所有位置(图片)

空洞骑士苍白矿石位置_空

《空洞骑士》是一款以探索和解谜为核心

11-19 108阅读
原子之心武器蓝图攻略_全武器蓝图获取方法详细介绍

原子之心武器蓝图攻略_全

原子之心游戏里面玩家可以通过获取武器

11-19 109阅读
饥荒制作刷肉机快速刷肉的详细操作方法

饥荒制作刷肉机快速刷肉的

大肉是饥荒游戏里面的重要食物,主要是猪

11-19 118阅读