AI 时代下存储阵列的极致规模与并行化转型

1个月前 科技 11观看
摘要 分析:存储阵列行业正在经历一场巨大的转型,朝着支持 AI 训练和推理的极致规模化和并行、多协议数据传输方向发展。双控制器阵列和横向扩展文件集群正逐渐成为过时的技术。AI 训练的存储需求最

分析:存储阵列行业正在经历一场巨大的转型,朝着支持 AI 训练和推理的极致规模化和并行、多协议数据传输方向发展。双控制器阵列和横向扩展文件集群正逐渐成为过时的技术。KSK喜好网-记录每日喜好的科技时尚娱乐生活

AI 训练的存储需求最初与以 DDN 的 ExaScaler 和 IBM 的 Storage Scale 为代表的 HPC 并行文件系统技术相撞,但效果并不理想。因为 AI 训练团队不想深入学习复杂的并行文件系统,他们只需要能够访问基本的文件数据和对象数据。他们需要低访问延迟 (意味着全闪存系统而非基于磁盘的系统)、快速的大小文件性能,以及超越数百 PB 甚至达到 EB 级别的超大容量。KSK喜好网-记录每日喜好的科技时尚娱乐生活

VAST Data 是这场变革的领军者之一,六年前就宣布了其技术。此后,它在为如 xAI 等 AI 训练公司以及 CoreWeave 和 Lambda Labs 等 GPU 云运营商提供存储和 AI 数据栈 (包括 Data Space、Data Base、Data Engine、Insight Engine) 方面建立了领先优势。KSK喜好网-记录每日喜好的科技时尚娱乐生活

另一个领导者是 WEKA,其并行化的 WekaFS 使用标准 NFS 和 SMB,在文件和 S3 对象数据传输速度上超过了 Dell PowerScale 和 Qumulo 等横向扩展文件系统供应商,直到 Qumulo 在云端最终追赶上来。Dell 在 2021 年就为 PowerScale 添加了 GPUDirect 支持。NetApp 在 2023 年 4 月跟进。日立 Vantara 在去年 3 月宣布支持 GPUDirect。GPUDirect 支持已成为基本要求,但仅靠它还不足以提供完整的 AI 存储能力。KSK喜好网-记录每日喜好的科技时尚娱乐生活

Hammerspace 凭借其数据编排技术给传统厂商带来了更大压力。这项技术结合其 GPUDirect 支持、并行 NFS 支持以及对 GPU 服务器本地零层 SSD 存储的支持,使其能够从相对较慢的双控制器文件阵列和任何其他 NAS 及对象存储中快速传输数据到 GPU 服务器,将其视为通用数据空间。KSK喜好网-记录每日喜好的科技时尚娱乐生活

VAST、WEKA 和 Hammerspace 的成功给传统的文件、对象阵列和并行文件系统供应商带来了挑战。作为回应,NetApp 宣布了 ONTAP Data Platform for AI 项目。Dell 表示将使 PowerScale 并行化。HPE OEM 了 VAST Data 的文件技术并开发了自己的 Alletra Storage MP 分离式计算和存储硬件。KSK喜好网-记录每日喜好的科技时尚娱乐生活

DDN 在 2023 年底发布了提供快速访问块、文件和对象存储的 Infinia 软件,并在今年 2 月发布了 v2.0 更新,声称在 AI 数据加速方面提升了最多 100 倍,数据中心和云成本效率提高了 10 倍。这实际上表明其基于 Lustre 并行文件系统的 ExaScaler 技术面临局限,需要新的解决方案。KSK喜好网-记录每日喜好的科技时尚娱乐生活

华为在 2024 年 5 月推出了 A800 AI 存储系统,称其具有分离数据和控制平面的横向扩展架构,以及支持 NFS、SMB、HDFS、S3、POSIX 和 MP-IO 的 OceanFS 高性能并行文件系统。A800 可提供 1 亿 IOPS 和 PB 级每秒带宽。这不会影响北美组织,但将在世界其他地区发挥作用。KSK喜好网-记录每日喜好的科技时尚娱乐生活

Pure Storage 上周发布了 FlashBlade//EXA,其公告材料确定了快速文件和对象访问的三个技术阶段,从 Lustre 类型的并行文件系统开始:KSK喜好网-记录每日喜好的科技时尚娱乐生活

这将文件元数据与底层对象数据分离,提供双层系统:对象数据节点和独立的元数据节点。访问客户端系统会从元数据节点获知所需数据的存储位置,文件会被分条存储在多个数据节点上,然后多个数据节点会并行传输其所存储的文件部分以加快传输速度。Pure 表示,当存在大量小文件时,这种方式会遇到问题,因为元数据节点会成为瓶颈。此外,客户端系统软件也很复杂。KSK喜好网-记录每日喜好的科技时尚娱乐生活

下一阶段是将元数据和数据都存储在数据或存储节点中,同时使用独立的横向扩展计算节点进行数据访问计算 - 这是 VAST 风格的方法:KSK喜好网-记录每日喜好的科技时尚娱乐生活

在最初的营销材料中,VAST 表示最多可以有 10,000 个无状态计算节点和 1,000 个数据节点,强调其提供的扩展容量。Pure 也指出了这种方式的问题,表示数据节点上可能出现写入瓶颈,导致性能不稳定,网络复杂性也可能成为问题。KSK喜好网-记录每日喜好的科技时尚娱乐生活

让我们退一步思考,Pure Storage 现在是一个拥有众多 FlashBlade 客户的传统厂商,需要引入 VAST 类型的分离式计算和存储技术,同时不能放弃现有客户基础。联合创始人 John Colgrove 天才般地决定采用独立的元数据和数据存储节点 (类似于 Lustre),但将 FlashBlade 阵列作为元数据节点:KSK喜好网-记录每日喜好的科技时尚娱乐生活

Pure 的 Fusion 凭借其舰队级全局存储池,可以将现有的 FlashBlade 数据移至 EXA 的数据节点。这些是简单的 JBOF,使用 24 个 Pure 专有的 Direct Flash Module,容量为 75 TB 和 150 TB,后续将推出 300 TB 及更大容量。它们提供相对低成本、高密度的存储。KSK喜好网-记录每日喜好的科技时尚娱乐生活

Pure 表示,访问客户端系统 (如 GPU 服务器) 具有更简单的代理软件,并能在规模扩展时保持一致的写入性能。EXA 系统元数据节点使用 pNFS (基于 TCP 的 NFSv4.1) 与计算集群客户端通信,数据传输使用基于 RDMA 的 NFSv3。KSK喜好网-记录每日喜好的科技时尚娱乐生活

EXA 系统可扩展至 EB 级别,带宽超过 10 TBps,单机架可达 3.4 TBps。该系统将在今年夏季正式上市,之后将推出基于 RDMA 的 S3、Nvidia 认证和 Fusion 集成。KSK喜好网-记录每日喜好的科技时尚娱乐生活

现在 Pure 拥有了能够支持 AI 训练的存储系统,可以与 DDN 的 Infinia、Hammerspace、HPE 的 Alletra Storage MP、华为的 A800、VAST Data 和 WEKA 竞争。KSK喜好网-记录每日喜好的科技时尚娱乐生活

VDURA 将在今年晚些时候提供 RDMA 和 GPUDirect 优化。对象存储供应商 MinIO 宣布支持基于 RDMA 的 S3,而 Cloudian 和 Scality 也宣布了向 Nvidia GPU 服务器快速传输对象的功能。KSK喜好网-记录每日喜好的科技时尚娱乐生活

还有四家存储供应商在观望:Dell 的未来 PowerScale 并行化和 NetApp 的 ONTAP for AI 项目都尚未交付成果。Qumulo 虽然表示可以快速实现,但尚未承诺提供 GPUDirect 支持。Infinidat 也是如此。一旦 Infinidat 被联想收购,它可能会在现有的生成式 AI 推理工作负载 RAG 工作流部署架构之外支持 GPUDirect。KSK喜好网-记录每日喜好的科技时尚娱乐生活

值得注意的是,Dell 一直在积极支持其服务器和 AI Factory 计划的 AI 工作负载。KSK喜好网-记录每日喜好的科技时尚娱乐生活

除了这四家公司,其他主流传统文件和对象存储供应商都已经大幅重塑了他们的技术,以支持生成式 AI 对极致 EB 级存储容量、RDMA 级延迟和并行式读写数据访问的需求。KSK喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
董宇辉终究难逃宿命

董宇辉终究难逃宿命

直播带货业已进入到一场深度洗牌

11-19 74阅读
联想VS中兴!专利大战谁将胜出?

联想VS中兴!专利大战谁将胜出?

【锋巢网】最近,通信圈又出了一个

11-19 67阅读
广汽传祺S7大五座SUV全球首秀,预计明年上半年上市

广汽传祺S7大五座SUV全球首秀,预

11-19 66阅读
并购重组大潮AB面:有的“做大做强”有的“拉高出货”

并购重组大潮AB面:有的“做大做强

自证

11-19 66阅读
哪个正常人能拒绝一只毛茸茸的「电子猫咪」?

哪个正常人能拒绝一只毛茸茸的「

猫咪

11-19 69阅读
6年前,主持实习生弦子,为何诬告朱军性骚扰?如今她又怎样了?

6年前,主持实习生弦子,为何

11-19 65阅读
章子怡人称国际章, 被巩俐压了这么多年却被称心机婊!

章子怡人称国际章, 被巩俐

今年国际章章子怡可以说是从一众

11-19 73阅读
韩钢琴家任奫灿荣膺法国年度金音叉奖

韩钢琴家任奫灿荣膺法国年

韩国钢琴家任奫灿荣获法国权

11-19 64阅读
20岁大学生开车26天去上学引百万人围观:从中国南京开到英国杜伦

20岁大学生开车26天去上学

“我真的做到了!

11-19 65阅读
苦等七年终于来了!《白夜破晓》长丰集结海报出炉:潘粤明主演

苦等七年终于来了!《白夜破

11月17日消息,时

11-19 59阅读
传索尼正在研究如何在PS5主机上原生运行PS3游戏

传索尼正在研究如何在PS5

据最新传闻,索尼目前正在致力于让PS3游

11-19 69阅读
《星刃》开发商否认《胜利女神》将改编动画的传言

《星刃》开发商否认《胜利

《星刃》对于开发商Shift Up而言是一

11-19 70阅读
ePSXe模拟器安卓版怎么导入游戏?ePSXe模拟器安卓版导入游戏教程

ePSXe模拟器安卓版怎么导

ePSXe模拟器安卓版是一款非常棒的可以

11-19 98阅读
原子之心全部圆盘锁开锁方法详细介绍

原子之心全部圆盘锁开锁方

圆盘锁是原子之心游戏里面的一种特殊加

11-19 65阅读
原子之心医院区域所有死者位置详细介绍

原子之心医院区域所有死者

在原子之心游戏里面想要达成招魂问卜奖

11-19 74阅读