Databricks 开源声明式 ETL 框架,实现流程构建加速90%

6天前 科技 3观看
摘要 今天,在其年度 Data + AI Summit 上,Databricks 宣布将其核心声明式 ETL 框架以 Apache Spark Declarative Pipelines 的名义开源,并将在即将发布的版本中向整个 Apache Spark 社区提供。Databr

今天,在其年度 Data + AI Summit 上,Databricks 宣布将其核心声明式 ETL 框架以 Apache Spark Declarative Pipelines 的名义开源,并将在即将发布的版本中向整个 Apache Spark 社区提供。2kv喜好网-记录每日喜好的科技时尚娱乐生活

Databricks 于 2022 年推出了该框架,命名为 Delta Live Tables(DLT),并自那时起不断扩展其功能,帮助团队从头到尾构建和运行可靠、可扩展的数据流程。此次开源举措进一步彰显了公司对开放生态系统的承诺,同时也是为了在数据工程这一关键领域上力压竞争对手 Snowflake(近期推出了用于数据集成的 Openflow 服务)。2kv喜好网-记录每日喜好的科技时尚娱乐生活

Snowflake 的方案借助 Apache NiFi 将来自任何数据源的数据集中导入其平台,而 Databricks 则将其内部的数据流程工程技术开源,使用户能够在任何支持 Apache Spark 的环境中运行,而不仅仅局限于其自有平台。2kv喜好网-记录每日喜好的科技时尚娱乐生活

声明数据流程,让 Spark 负责其余部分2kv喜好网-记录每日喜好的科技时尚娱乐生活

传统上,数据工程一直面临三个主要挑战:复杂的数据流程编写、人工操作负担以及需要维护批处理与流处理工作负载的独立系统。2kv喜好网-记录每日喜好的科技时尚娱乐生活

借助 Spark Declarative Pipelines,工程师可以使用 SQL 或 Python 描述数据流程应执行的任务,而 Apache Spark 则负责具体执行。该框架会自动跟踪表之间的依赖关系,管理表的创建与演变,并处理诸如并行执行、检查点和生产环境中重试等操作任务。2kv喜好网-记录每日喜好的科技时尚娱乐生活

“你只需声明一系列数据集和数据流,Apache Spark 会找出合适的执行计划,”Databricks 著名软件工程师 Michael Armbrust 在接受 VentureBeat 采访时表示。2kv喜好网-记录每日喜好的科技时尚娱乐生活

该框架开箱即支持批处理、流处理以及半结构化数据,包括来自 Amazon S3、ADLS 或 GCS 等对象存储系统的文件。工程师只需通过统一的 API 定义实时和定期处理,且在执行前对流程定义进行验证,以便尽早发现问题——无需维护独立系统。2kv喜好网-记录每日喜好的科技时尚娱乐生活

“它的设计适应了现代数据的实际情形,例如变更数据源、消息总线及驱动 AI 系统的实时分析。如果 Apache Spark 能处理这些数据,这些数据流程同样可以应对,”Armbrust 解释道。他补充道,这种声明式方法标志着 Databricks 在简化 Apache Spark 方面的最新努力。2kv喜好网-记录每日喜好的科技时尚娱乐生活

“首先,我们利用 RDD(弹性分布式数据集)使分布式计算具备了功能性;接着,我们通过 Spark SQL 让查询执行变得声明式;随后,我们将这一模型应用于 Structured Streaming 实现流处理,并借助 Delta Lake 赋予云存储事务性。如今,我们正迈出下一步,使端到端的数据流程也变得声明式,”他说。2kv喜好网-记录每日喜好的科技时尚娱乐生活

在大规模环境中的验证2kv喜好网-记录每日喜好的科技时尚娱乐生活

虽然声明式数据流程框架即将在 Apache Spark 代码库中落地,但其强大功能已为数千家企业所验证,这些企业利用它作为 Databricks Lakeflow 解决方案的一部分,来应对从日常批量报告到亚秒级流处理应用的各种工作负载。2kv喜好网-记录每日喜好的科技时尚娱乐生活

总体来说,其好处十分显著:极大降低了开发数据流程或维护任务所消耗的时间,同时在性能、延迟或成本上实现了显著提升,具体取决于用户的优化目标。2kv喜好网-记录每日喜好的科技时尚娱乐生活

金融服务公司 Block 利用该框架将开发时间缩短了 90% 以上,而 Navy Federal Credit Union 则将数据流程维护时间减少了 99%。构建声明式数据流程的基础是 Spark Structured Streaming 引擎,使团队可以根据自己的特定延迟要求(直至实时流处理)对数据流程进行定制。2kv喜好网-记录每日喜好的科技时尚娱乐生活

“作为工程经理,我很欣喜于我的工程师们可以专注于对业务最重要的事物,”Navy Federal Credit Union 的高级工程经理 Jian Zhou 说道。“看到这一层次的创新如今被开源,使得更多团队也能受益,真令人振奋。”2kv喜好网-记录每日喜好的科技时尚娱乐生活

84.51° 的高级数据工程师 Brad Turnbaugh 也指出,该框架“使得同时支持批处理与流处理变得更加容易,无需将独立系统拼凑在一起”,同时还减少了其团队需要维护的代码量。2kv喜好网-记录每日喜好的科技时尚娱乐生活

与 Snowflake 的不同策略2kv喜好网-记录每日喜好的科技时尚娱乐生活

作为 Databricks 最大的竞争对手之一,Snowflake 也在近期的会议上采取了一些措施来应对数据挑战,推出了一款名为 Openflow 的数据摄取服务。然而,在范围上,他们的做法与 Databricks 略有不同。2kv喜好网-记录每日喜好的科技时尚娱乐生活

基于 Apache NiFi 构建的 Openflow 主要侧重于数据集成和将数据传送到 Snowflake 平台。用户在数据进入 Snowflake 后仍需进行数据清洗、转换和聚合;而 Spark Declarative Pipelines 则进一步优化,从数据源直达可用数据。2kv喜好网-记录每日喜好的科技时尚娱乐生活

“Spark Declarative Pipelines 的构建旨在赋能用户轻松启动端到端的数据流程——专注于数据转换的简化以及支撑这些转换的复杂数据流程操作,”Armbrust 表示。2kv喜好网-记录每日喜好的科技时尚娱乐生活

Spark Declarative Pipelines 的开源特性也使其有别于专有解决方案。用户无需成为 Databricks 客户即可利用这项技术,这与公司过去将 Delta Lake、MLflow 和 Unity Catalog 等重大项目贡献给开源社区的历史相一致。2kv喜好网-记录每日喜好的科技时尚娱乐生活

发布时间表2kv喜好网-记录每日喜好的科技时尚娱乐生活

Apache Spark Declarative Pipelines 将在即将发布的 Apache Spark 版本中提交到代码库中。不过,具体的发布时间尚未明确。2kv喜好网-记录每日喜好的科技时尚娱乐生活

“自从推出我们的声明式数据流程框架以来,我们就一直对其开源前景充满期待,”Armbrust 说。“在过去的三年中,我们深入学习了最有效的模式,并对需要调整的部分进行了修正。如今,该框架已被充分验证,准备好在开源社区中大放异彩。”2kv喜好网-记录每日喜好的科技时尚娱乐生活

此次开源发布还与 Databricks Lakeflow Declarative Pipelines 的正式上线同步,该商业版技术包含了额外的企业功能和支持。2kv喜好网-记录每日喜好的科技时尚娱乐生活

Databricks Data + AI Summit 将于 2025 年 6 月 9 日至 12 日举行。2kv喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
华为Mate 70已经到店:数量有限 抢到赚到

华为Mate 70已经到店:数量有限 抢

11月19日

11-19 91阅读
超204万人预约华为Mate 70:纯血鸿蒙+麒麟芯自研完全体来了

超204万人预约华为Mate 70:纯血鸿

11月19日

11-19 81阅读
2025款宝骏悦也Plus发布:配备灵眸智驾2.0 Max,定价10.38万

2025款宝骏悦也Plus发布:配备灵眸

11-19 80阅读
焦虑的开发者,涌向“纯血鸿蒙”培训班

焦虑的开发者,涌向“纯血鸿蒙”培

有两

11-19 78阅读
一单只挣几块钱,年轻人追捧的代炒是门好生意吗?

一单只挣几块钱,年轻人追捧的代炒

杭州

11-19 84阅读
“嫖娼门”王全安:前任个个赛西施,花800元睡站台女,终遭报应

“嫖娼门”王全安:前任个个

11-19 83阅读
吴秀波息影一年后首现身, 吴秀波出轨门怎么回事?

吴秀波息影一年后首现身,

吴秀波原本是圈中一线的演技派男

11-19 77阅读
徐璐发文疑似分, 原来是误会一场!

徐璐发文疑似分, 原来是误

徐璐和张铭恩的恋情自从搬上节目

11-19 80阅读
百部青少年教育公益微电影《星光好少年之少年王维》开机仪式在北京顺利举行

百部青少年教育公益微电影

  2024年11月9日,由泰安东升公益慈

11-19 81阅读
综艺《开播!短剧季》试镜最后一役!谁能夺得《包拯与公孙策》IP试播资格?

综艺《开播!短剧季》试镜最

  国内首档“微短剧+综艺”创新真人

11-19 87阅读
《星刃》开发商否认《胜利女神》将改编动画的传言

《星刃》开发商否认《胜利

《星刃》对于开发商Shift Up而言是一

11-19 84阅读
空洞骑士苍白矿石位置_空洞骑士苍白矿石所有位置(图片)

空洞骑士苍白矿石位置_空

《空洞骑士》是一款以探索和解谜为核心

11-19 84阅读
原子之心芭蕾舞者谜题攻略_芭蕾舞者舞姿调整攻略

原子之心芭蕾舞者谜题攻略

原子之心游戏里面玩家会在剧院中碰到一

11-19 93阅读
饥荒所有魔杖制作方法详细介绍

饥荒所有魔杖制作方法详细

饥荒游戏里面拥有非常丰富的魔杖种类,不

11-19 90阅读
原神终将到来的花神诞祭任务流程|终将到来的花神诞祭任务攻略

原神终将到来的花神诞祭任

终将到来的花神诞祭是原神须弥地区魔神

11-19 104阅读