Architecting Modern Data Platforms
作者: Jan Kunigk, Ian Buss, Paul Wilkinson, and Lars George
语言: 英文
出版年份: 2018
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

一、书籍背景

《Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale》由Jan Kunigk、Ian Buss、Paul Wilkinson和Lars George共同撰写,由O'Reilly Media于2018年12月出版。本书是一本专注于企业级Hadoop平台架构设计的权威指南,旨在帮助读者深入理解和掌握如何在大规模企业环境中构建、部署和管理现代数据平台。

二、主要内容概述

第一部分:基础设施

  • 第1章:大数据技术入门:介绍了Hadoop生态系统的核心组件,包括HDFS、YARN、HBase、Hive等,以及它们在大数据处理中的作用。
  • 第2章:集群:探讨了企业环境中部署多个集群的原因,如弹性、软件开发、工作负载隔离等,并讨论了集群的大小估算和增长策略。
  • 第3章:计算与存储:深入分析了Hadoop集群中计算和存储的硬件架构,包括服务器设计、CPU与内存配置、存储技术选择等。
  • 第4章:网络:讨论了网络在Hadoop集群中的作用,包括远程过程调用(RPC)、数据传输、监控、备份和共识机制等。
  • 第5章:组织挑战:分析了Hadoop在企业中落地时面临的组织架构挑战,提出了新的团队设置和角色分工建议。
  • 第6章:数据中心考量:从数据中心的视角出发,讨论了Hadoop集群的部署对数据中心冷却、电力、网络等方面的影响。

第二部分:平台

  • 第7章:集群配置:介绍了操作系统的选择与配置、服务数据库的集成以及Hadoop部署的详细过程。
  • 第8章:平台验证:探讨了测试方法、硬件验证、Hadoop组件验证以及操作验证等关键环节。
  • 第9章:安全性:全面覆盖了数据传输加密、身份验证、授权、集中式安全管理和各种Hadoop服务的安全配置。
  • 第10章:与身份管理提供商集成:讨论了与LDAP、Kerberos等身份管理系统的集成方法和场景。
  • 第11章:访问和交互集群:介绍了访问机制、程序化访问、命令行访问、Web UIs以及访问安全等内容。
  • 第12章:高可用性:定义了高可用性的概念,探讨了实现高可用性的构建块,如仲裁机制、负载均衡、数据库高可用性等。
  • 第13章:备份和灾难恢复:讨论了备份和灾难恢复的背景、策略、适用数据源、一致性验证等。

第三部分:将Hadoop迁移到云端

  • 第14章:虚拟化基础:介绍了计算虚拟化、存储虚拟化和网络虚拟化的基本概念,以及它们在Hadoop中的应用。
  • 第15章:私有云解决方案:探讨了OpenStack、OpenShift等私有云解决方案在Hadoop部署中的应用。
  • 第16章:公有云解决方案:分析了AWS、Azure、Google Cloud等公有云平台对Hadoop的支持,以及在公有云中部署Hadoop的注意事项。
  • 第17章:自动化配置:讨论了长生命周期集群和短暂集群的自动化配置方法,以及安全配置和资源扩展策略。
  • 第18章:云中的安全性:评估了云环境中的风险,探讨了身份提供商选项、对象存储安全、审计、加密等安全措施。

三、书籍特色

  • 实战性强:本书不仅涵盖了理论知识,还提供了大量的实践指南和案例分析,帮助读者将理论应用于实际场景。
  • 全面覆盖:从基础设施到平台架构,再到云迁移,全面覆盖了企业级Hadoop平台的各个方面。
  • 权威指导:作者均为Hadoop领域的资深专家,他们的经验和见解为读者提供了极具价值的参考。

四、适用人群

  • IT经理:负责企业Hadoop集群的部署和运营。
  • 企业架构师:需要确保Hadoop集群与企业其他系统集成,并符合企业标准。
  • 应用架构师和数据工程师:设计和开发基于Hadoop的数据驱动应用。
  • 系统管理员和数据库管理员:负责集群的日常运维和监控。

本书是一本不可多得的Hadoop架构设计指南,无论是对于初学者还是资深从业者,都具有重要的参考价值。

期待您的支持
捐助本站