WEKA推出NeuralMesh架构支持超大规模AI工作负载

1个月前 科技 11观看
摘要 WEKA宣布推出NeuralMesh并行文件系统软件转型方案,用于加速大规模AI应用。该方案基于这样的认识:传统存储架构无法满足新型分布式AI代理训练和推理环境在规模、延迟敏感性和并发性方面的需求。

WEKA宣布推出NeuralMesh并行文件系统软件转型方案,用于加速大规模AI应用。g8o喜好网-记录每日喜好的科技时尚娱乐生活

该方案基于这样的认识:传统存储架构无法满足新型分布式AI代理训练和推理环境在规模、延迟敏感性和并发性方面的需求。NeuralMesh由运行在动态连接节点网格中的微服务组成,连接数据、存储、计算和AI。它能够提供保证微秒级延迟的SLA,并随着规模扩展变得更具弹性,更多节点参与从故障节点重建广泛分布的数据条带。g8o喜好网-记录每日喜好的科技时尚娱乐生活

WEKA表示:"当硬件故障时,系统能在几分钟内重建,而不是几小时。随着数据增长到EB级,性能会提升而不是下降。"g8o喜好网-记录每日喜好的科技时尚娱乐生活

WEKA联合创始人兼CEO Liran Zvibel表示:"AI创新继续以惊人的速度发展。推理时代已经到来。我们过去依赖的数据解决方案和架构无法支持代理AI和推理工作负载所需的巨大性能密度和规模。在我们的客户群中,我们看到PB级客户环境正在以难以理解的速度增长到EB级。未来是超大规模的。"g8o喜好网-记录每日喜好的科技时尚娱乐生活

NeuralMesh可在本地、数据中心和边缘站点、裸机或虚拟机上运行,也可在公有云和新型云(如Nebius等GPU服务器集群)中运行,具有统一命名空间。它可以从小规模开始,容量从TB增长到PB再到EB,在此过程中提升整体性能和弹性。g8o喜好网-记录每日喜好的科技时尚娱乐生活

Zvibel告诉B&F:"我们从很早就开始容器化,但现在我们让它更加正式化。我们让外界更容易看到它。我们添加了更多容器和服务类型。此外,我们让部署更加灵活,我们的一些容器也在客户端运行。基本上我们提供端到端的完整解决方案,我们已经开始在当前实现中这样做。当我们在许多大型新型云中运行时,我们开发了Kubernetes操作器,你可以将我们的操作器与他们的Kubernetes集成,然后我们就作为他们基础设施的一部分运行。"g8o喜好网-记录每日喜好的科技时尚娱乐生活

他谈到新型云时说:"很多新型云都使用我们的基础设施。所以他们的客户可能不知道这是WEKA,有些会公开说明。我们刚刚宣布了Nebius,但我们拥有的Nvidia NCP云可能比任何人都多。"NCP代表Nvidia云合作伙伴。g8o喜好网-记录每日喜好的科技时尚娱乐生活

NeuralMesh在所有节点间分布数据和元数据,通过内置的自愈合、自扩展和快速重建功能动态平衡I/O。WEKA表示,一家基因组学研究机构从2PB扩展到12PB,无需停机或重新平衡,实现了一致的I/O延迟并消除了周末维护窗口。g8o喜好网-记录每日喜好的科技时尚娱乐生活

该软件支持并发模型训练和推理,"消除了传统存储层的性能瓶颈"。它提供实时的PB级可观测性,覆盖所有数据路径,提供性能指标和基础设施健康状况的洞察,集成了仪表板、警报和遥测API。g8o喜好网-记录每日喜好的科技时尚娱乐生活

它还支持TLC/QLC NVMe SSD和对象存储之间的分层,以及容器存储集成,加上传输中和静态加密、快照、快照到对象和基于角色的访问控制(RBAC)。g8o喜好网-记录每日喜好的科技时尚娱乐生活

NeuralMesh支持Nvidia、AMD和其他供应商的GPU和加速器硬件。Stability AI的HPC工程主管Chad Wood表示:"使用WEKA,我们现在在AI模型训练期间实现了93%的GPU利用率,并以80%的先前成本将云存储容量增加了1.5倍。"g8o喜好网-记录每日喜好的科技时尚娱乐生活

网格架构详情g8o喜好网-记录每日喜好的科技时尚娱乐生活

在回答关于网格节点构成的问题时,WEKA解释道:NeuralMesh的网格架构有两个部分——微服务和节点。这两个概念协同工作,提供本质上是软件定义结构的网格,以模块化和可组合的方式互连数据、计算和AI服务。g8o喜好网-记录每日喜好的科技时尚娱乐生活

系统中的每个节点运行一个或通常多个微服务,每个微服务处理特定的功能集,如数据访问、元数据、审计、协议通信或可观测性。这些服务通过定义明确的API相互通信,实现整个基础设施的动态编排。g8o喜好网-记录每日喜好的科技时尚娱乐生活

与绑定到刚性硬件架构的传统存储系统不同,NeuralMesh的完全容器化、面向服务的设计允许每个功能独立扩展。这提供了:弹性扩展到EB级及以上而不损失性能;适合安全多租户环境的细粒度资源隔离;跨裸机、云和混合部署的云原生灵活性。g8o喜好网-记录每日喜好的科技时尚娱乐生活

关于扩展性能提升,WEKA提供了具体数据:NeuralMesh随着扩展变得更强大和有弹性,因为数据以小块形式跨所有故障域进行条带化,所以丢失一个节点只影响每个条带的微小部分。集群越大,条带分布越广,故障暴露度越小。例如:对于条带大小18(16+2)和集群大小20,可能的条带组合数量是190,增加一个服务器使集群大小达到21,可能的组合数量增加到1330。当集群大小增长到25时,可能的条带组合数量现在是480,700。g8o喜好网-记录每日喜好的科技时尚娱乐生活

此外,每个可用的计算核心都参与重建的纠删码计算,即使它不拥有数据。例如,在50节点集群中1个节点故障,其他49个节点的核心参与恢复。在100节点集群中,99个节点的核心提供帮助——有效地将重建速度提高一倍。g8o喜好网-记录每日喜好的科技时尚娱乐生活

NeuralMesh是获得WEKA软件的新方式。WARRP(WEKA AI RAG参考平台)包含在NeuralMesh中,增强内存网格(AMG)也是如此。关于这一点,Zvibel告诉我们:"当我们运行这些工作负载并在后端网络上连接WEKA时,我们实际上可以访问8个NIC用于AUG。总共是128个PCIe通道。这实际上比CPU拥有的PCIe通道还要多。"g8o喜好网-记录每日喜好的科技时尚娱乐生活

NeuralMesh软件目前以有限发布形式提供给企业和大规模AI部署,正式发布计划在2025年秋季。g8o喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
戴森设计大奖国际20强名单出炉

戴森设计大奖国际20强名单出炉

【锋巢网】首次有两支中国大陆赛

11-19 119阅读
首发1999元 华硕ROG新款25寸显示器上市:FHD 310Hz屏

首发1999元 华硕ROG新款25寸显示

11月19日

11-19 107阅读
苹果史上薄机型!曝iPhone 17 Air厚度仅6mm

苹果史上薄机型!曝iPhone 17 Air

11月19日

11-19 107阅读
年入上百亿,海尔旗下独角兽终止IPO

年入上百亿,海尔旗下独角兽终止IP

今年

11-19 109阅读
高端餐饮的苦日子还在后头

高端餐饮的苦日子还在后头

近日,

11-19 120阅读
雷佳音:再获金鸡影帝,拥抱四美台上哽咽,不忘向张艺谋要手机号

雷佳音:再获金鸡影帝,拥抱四

11-19 119阅读
消失三年的李子柒,要跟全网“唱反调”!

消失三年的李子柒,要跟全网

11-19 108阅读
《藏海花之暗巢汹涌》定档11月14日 古穴探险再寻迷踪嗜血凶怪惊悚升级

《藏海花之暗巢汹涌》定档

  改编自南派三叔原著小说《藏海花

11-19 107阅读
综艺《开播!短剧季》试镜最后一役!谁能夺得《包拯与公孙策》IP试播资格?

综艺《开播!短剧季》试镜最

  国内首档“微短剧+综艺”创新真人

11-19 109阅读
最美《变形金刚》女主梅根福克斯怀孕登热搜 网友谈样貌:咋成卡戴珊了...

最美《变形金刚》女主梅根

11月12日消息,知

11-19 102阅读
《战神:诸神黄昏》6.001补丁发布 优化手柄和显卡支持

《战神:诸神黄昏》6.001补

《战神:诸神黄昏》6.001更新版本着重解

11-19 111阅读
TGA:DLC、拓展包、新赛季、重制版等均可提名所有奖项

TGA:DLC、拓展包、新赛季、

今日(11月16日),TGA主创Geoff Keighley与

11-19 116阅读
CE修改器怎么用?使用CE修改器进行游戏修改的详细操作方法分享

CE修改器怎么用?使用CE修

CE修改器怎么用?对于很多游戏玩家来说CE

11-19 121阅读
原子之心电脉冲枪怎么用?原子之心电脉冲枪用不了的解决办法

原子之心电脉冲枪怎么用?

原子之心电脉冲枪怎么用?电脉冲枪是原子

11-19 112阅读
原子之心巴浦洛夫综合体区域死者位置分享

原子之心巴浦洛夫综合体区

原子之心游戏中的巴浦洛夫综合体区域里

11-19 107阅读