《Streaming Data Mesh》是由 Hubert Dulay 和 Stephen Mooney 合著的一本专注于构建和理解流式数据网格(Streaming Data Mesh)的指南。本书由 O’Reilly Media 在 2023 年 6 月出版,旨在帮助读者全面了解数据网格架构,并将其应用于实时流式数据处理,以加速企业数字化转型。
作者简介
- Hubert Dulay 是 StarTree 的开发关系和数据工程师,拥有超过 20 年的大数据和 MLOps 经验。
- Stephen Mooney 是独立数据科学家和数据工程师,为多个客户提供服务,具有超过 20 年的大数据、MLOps 和数据科学经验。
核心内容概述
数据网格与流式数据网格
- 本书首先介绍了数据网格(Data Mesh)的概念,这是一种将数据平台分解为多个去中心化、自治的“域”的架构,每个域负责管理其数据并提供数据产品。
- 流式数据网格(Streaming Data Mesh)则是将数据网格的理念与流式处理技术相结合,实现了数据在生产者和消费者之间的实时传递,避免了数据在中间存储阶段的停留,从而支持实时分析和处理。
基础架构与技术
- 作者详细探讨了流式数据网格的四大支柱:数据所有权(Domain Ownership)、数据作为产品(Data as a Product)、自服务平台(Self-Service Data Platform)和联合计算数据治理(Federated Computational Data Governance)。
- 介绍了 Apache Kafka、AsyncAPI 等支持流式数据网格的关键技术,包括如何利用 Kafka 的消息传递能力以及 AsyncAPI 的标准化接口定义,来构建和管理数据产品的消费点。
数据产品的开发与治理
- 书中强调了数据产品的重要性,数据产品应具备高质量、可互操作性、安全性、易用性,并且支持历史数据的查询。作者还讨论了如何通过数据治理确保数据的可信度和合规性。
- 探讨了如何通过数据血统图(Data Lineage Graph)和元数据管理,提供数据产品的完整历史记录,增强数据使用者的信任。
架构设计与实施
- 作者提供了流式数据网格的架构设计指导,包括基础设施的搭建、资源管理、数据目录的组织等。同时,还讨论了如何通过自服务平台和 CLI(命令行接口)简化数据产品的开发和部署流程。
- 书中介绍了不同的架构解决方案,如专用基础设施和多租户基础设施的优缺点,并提供了关于如何在不同架构中实现数据复制和容灾的建议。
团队与角色
- 讨论了如何构建去中心化的数据团队,以支持流式数据网格的开发和维护。书中提出了一系列新的角色,如领域数据工程师(Streaming Data Engineer)、领域产品负责人(Data Product Owner)和数据科学工程师(Data Science Engineer),并阐述了这些角色在数据产品生命周期中的作用。
实际案例
- 通过一个具体的流式数据网格示例,作者展示了如何在实际场景中构建、发布和消费数据产品。这个示例涵盖了从数据的采集、转换、丰富到最终发布的整个过程。
- 还讨论了如何利用现有的 SaaS 服务来简化流式数据网格的实现,以及如何通过工具和平台的集成,减少对专业技能的需求。
适用人群
本书适合对流式数据网格感兴趣的技术人员、数据工程师、数据分析师、软件架构师以及产品负责人。无论是希望提升数据管理能力的企业,还是需要处理大规模实时数据的团队,都能从本书中获得宝贵的指导和启发。
《Streaming Data Mesh》不仅是一本技术指南,更是一本关于如何通过创新的数据架构来推动企业数据战略和业务增长的实践手册。