一、书籍背景
《Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale》由Jan Kunigk、Ian Buss、Paul Wilkinson和Lars George共同撰写,由O'Reilly Media于2018年12月出版。本书是一本专注于企业级Hadoop平台架构设计的权威指南,旨在帮助读者深入理解和掌握如何在大规模企业环境中构建、部署和管理现代数据平台。
二、主要内容概述
第一部分:基础设施
- 第1章:大数据技术入门:介绍了Hadoop生态系统的核心组件,包括HDFS、YARN、HBase、Hive等,以及它们在大数据处理中的作用。
- 第2章:集群:探讨了企业环境中部署多个集群的原因,如弹性、软件开发、工作负载隔离等,并讨论了集群的大小估算和增长策略。
- 第3章:计算与存储:深入分析了Hadoop集群中计算和存储的硬件架构,包括服务器设计、CPU与内存配置、存储技术选择等。
- 第4章:网络:讨论了网络在Hadoop集群中的作用,包括远程过程调用(RPC)、数据传输、监控、备份和共识机制等。
- 第5章:组织挑战:分析了Hadoop在企业中落地时面临的组织架构挑战,提出了新的团队设置和角色分工建议。
- 第6章:数据中心考量:从数据中心的视角出发,讨论了Hadoop集群的部署对数据中心冷却、电力、网络等方面的影响。
第二部分:平台
- 第7章:集群配置:介绍了操作系统的选择与配置、服务数据库的集成以及Hadoop部署的详细过程。
- 第8章:平台验证:探讨了测试方法、硬件验证、Hadoop组件验证以及操作验证等关键环节。
- 第9章:安全性:全面覆盖了数据传输加密、身份验证、授权、集中式安全管理和各种Hadoop服务的安全配置。
- 第10章:与身份管理提供商集成:讨论了与LDAP、Kerberos等身份管理系统的集成方法和场景。
- 第11章:访问和交互集群:介绍了访问机制、程序化访问、命令行访问、Web UIs以及访问安全等内容。
- 第12章:高可用性:定义了高可用性的概念,探讨了实现高可用性的构建块,如仲裁机制、负载均衡、数据库高可用性等。
- 第13章:备份和灾难恢复:讨论了备份和灾难恢复的背景、策略、适用数据源、一致性验证等。
第三部分:将Hadoop迁移到云端
- 第14章:虚拟化基础:介绍了计算虚拟化、存储虚拟化和网络虚拟化的基本概念,以及它们在Hadoop中的应用。
- 第15章:私有云解决方案:探讨了OpenStack、OpenShift等私有云解决方案在Hadoop部署中的应用。
- 第16章:公有云解决方案:分析了AWS、Azure、Google Cloud等公有云平台对Hadoop的支持,以及在公有云中部署Hadoop的注意事项。
- 第17章:自动化配置:讨论了长生命周期集群和短暂集群的自动化配置方法,以及安全配置和资源扩展策略。
- 第18章:云中的安全性:评估了云环境中的风险,探讨了身份提供商选项、对象存储安全、审计、加密等安全措施。
三、书籍特色
- 实战性强:本书不仅涵盖了理论知识,还提供了大量的实践指南和案例分析,帮助读者将理论应用于实际场景。
- 全面覆盖:从基础设施到平台架构,再到云迁移,全面覆盖了企业级Hadoop平台的各个方面。
- 权威指导:作者均为Hadoop领域的资深专家,他们的经验和见解为读者提供了极具价值的参考。
四、适用人群
- IT经理:负责企业Hadoop集群的部署和运营。
- 企业架构师:需要确保Hadoop集群与企业其他系统集成,并符合企业标准。
- 应用架构师和数据工程师:设计和开发基于Hadoop的数据驱动应用。
- 系统管理员和数据库管理员:负责集群的日常运维和监控。
本书是一本不可多得的Hadoop架构设计指南,无论是对于初学者还是资深从业者,都具有重要的参考价值。