作者: | Marco Tranquillin, Valliappa Lakshmanan and Firat Tekiner |
语言: | 英文 |
出版年份: | 2023 |
其他分类: | 人工智能 |
下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Architecting Data and Machine Learning Platforms: Enable Analytics and AI-Driven Innovation in the Cloud》是一本由 Marco Tranquillin、Valliappa Lakshmanan 和 Firat Tekiner 共同撰写,于 2023 年 10 月由 O’Reilly Media 出版的专业书籍。该书为读者提供了关于如何在云端构建、设计和现代化数据及机器学习平台的全面指导,主要面向架构师、数据工程师、数据分析师、数据科学家和机器学习工程师等专业人士。
本书围绕数据平台的构建展开,强调数据平台对于企业基于数据做出决策、推动创新的关键作用。全书共包含 12 章,内容涵盖从数据平台的基础概念、战略规划步骤,到数据团队的设计、数据迁移框架,以及各种常见数据架构(如数据湖、企业数据仓库和湖仓一体架构)的详细讨论,最后还通过模型案例展示了数据现代化的实践过程。
书中首先阐述了构建数据平台的必要性,指出数据是企业的宝贵资产,能够帮助企业提升决策质量、发现新机会并优化运营。传统的数据架构已难以满足现代企业的需求,而云计算的出现为数据平台的构建带来了新的机遇。云平台的优势在于能够降低技术门槛,实现数据的快速访问、大规模查询以及利用云服务提供的分析和 AI 能力。此外,云平台还支持数据的民主化,即让不同部门和用户都能便捷地访问和利用数据,从而推动企业范围内的数据驱动决策。
作者们详细介绍了数据生命周期的五个阶段:收集、存储、处理 / 转换、分析 / 可视化和激活。每个阶段都对应着特定的技术挑战和架构模式。例如,在数据收集阶段,需要考虑数据的 3V(体积、速度和多样性)特性,并根据这些特性选择合适的批量或流式数据摄取方式。在数据存储阶段,则需根据数据类型和使用场景选择对象存储系统、关系型数据库管理系统、数据仓库或数据湖等存储方式。书中还探讨了如何通过湖仓一体架构实现数据湖和数据仓库的融合,以满足不同类型用户的需求,同时提升数据治理和优化能力。
本书深入分析了传统数据生态系统中存在的问题,如数据孤岛的形成、ETL 工具的局限性以及集中控制带来的挑战。作者们指出,这些传统方法导致数据质量问题、延迟、资源瓶颈以及维护开销等。为了解决这些问题,书中提出了现代云数据平台的构建方法,强调了云平台所提供的弹性、可扩展性和成本效益等优势,并通过实际案例展示了如何利用云服务实现数据平台的现代化。
书中提供了七个战略步骤,指导企业构建创新的数据平台。这些步骤包括制定战略和规划、降低总拥有成本、打破数据孤岛、加快基于上下文的决策速度、利用打包的 AI 解决方案实现跨越式发展、实现 AI 驱动的工作流自动化以及将数据作为产品进行管理。作者们建议,在规划过程中要明确战略目标、识别关键利益相关者,并制定有效的变革管理计划。
在设计数据团队时,作者们根据组织的类型(分析驱动型、数据工程驱动型或数据科学驱动型)提出了相应的策略和建议。书中强调了不同团队成员(如数据分析师、数据工程师、数据科学家等)的角色和技能要求,并探讨了如何通过产品管理原则来指导数据团队的策略制定。
本书还提供了一个四步数据迁移框架,涵盖准备与发现、评估与规划、执行和优化等阶段。该框架旨在帮助组织顺利地从传统数据平台迁移到现代化的云架构。同时,书中还讨论了如何在迁移过程中确保数据安全和治理,以及如何进行模式、数据管道和数据迁移。
书中详细讨论了数据湖和企业数据仓库的架构设计。对于数据湖,作者们探讨了其在云端的优势,如降低总体拥有成本、提高可扩展性和弹性、改善数据治理等,并介绍了如何利用云服务实现数据湖的现代化。在企业数据仓库方面,书中提出了枢纽辐射架构,强调了数据仓库作为企业数据平台核心的优势,并讨论了如何通过预构建连接器、实时数据捕获和联邦查询等方式实现数据的高效摄取。
最后,书中探讨了湖仓一体架构的融合,指出这种架构结合了数据湖和数据仓库的优点,能够为用户提供实现灵活且可扩展的数据存储和分析解决方案。作者们分析了湖仓一体架构的两种形式,并提供了选择合适架构的评估标准。
《Architecting Data and Machine Learning Platforms》是一本全面而深入的指南,为读者提供了构建现代数据和机器学习平台所需的架构模式、技术工具和战略规划方法。无论读者是希望构建新的数据平台,还是对现有数据平台进行现代化改造,本书都能提供宝贵的指导和参考。通过阅读本书,读者将能够更好地理解和应对数据驱动创新的挑战,并为企业在数字化转型的道路上提供有力支持。