| 作者: | Chuck Lam |
| 语言: | 英文 |
| 出版年份: | 2010 |
| 下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Hadoop in Action》是 Manning 出版社"In Action"系列中的 Hadoop 入门实战指南,由 Chuck Lam 撰写,2010 年出版。本书面向需要处理大规模离线数据的程序员和架构师,从零教授 Hadoop 安装配置、MapReduce 编程模型及周边生态工具。全书以美国专利数据集为贯穿案例,强调"动手实践",帮助读者跨越从入门到生产级应用的中间学习鸿沟。
全书分三部分共 12 章。第一部分(第 1-3 章)介绍 Hadoop 分布式框架基础,涵盖 MapReduce 原理、集群组件(NameNode/DataNode/JobTracker/TaskTracker)及 HDFS 操作。第二部分(第 4-8 章)是核心实战篇,以专利数据为对象,逐步讲解 MapReduce 编程、链式作业、数据连接、Bloom 过滤器等进阶技术,并涵盖开发调试、性能调优和集群管理。第三部分(第 9-12 章)拓展到 Hadoop 生态,包括 EC2 云端部署、Pig 和 Hive 高层抽象编程,以及纽约时报、中国移动、StumbleUpon 和 IBM 的真实案例。
| 章节 | 标题 | 要点 |
|---|---|---|
| 第1章 | Introducing Hadoop | Hadoop 概述、分布式系统概念、与 SQL 对比、MapReduce 原理、词频统计入门 |
| 第2章 | Starting Hadoop | 核心组件、SSH 配置、本地/伪分布式/全分布式三种运行模式 |
| 第3章 | Components of Hadoop | HDFS 文件操作与编程接口、MapReduce 剖析(Mapper/Reducer/Partitioner/Combiner)、InputFormat/OutputFormat |
| 第4章 | Writing Basic MapReduce Programs | 专利数据集、程序模板、计数统计、Hadoop Streaming、Combiner 优化 |
| 第5章 | Advanced MapReduce | 链式作业编排、Reduce-side Join/Replicated Join/Semijoin、Bloom 过滤器 |
| 第6章 | Programming Practices | 开发调试、Counter 监控、坏记录跳过、压缩、JVM 复用、推测执行 |
| 第7章 | Cookbook | 任务参数传递、多输出分区、数据库读写、输出全局排序 |
| 第8章 | Managing Hadoop | 参数配置、健康检查、权限配额、DataNode 管理、NameNode 恢复、机架感知、多用户调度 |
| 第9章 | Running Hadoop in the Cloud | AWS 搭建、EC2 部署 Hadoop、Elastic MapReduce 服务 |
| 第10章 | Programming with Pig | Pig Latin 数据流语言、Grunt Shell、关系运算符、UDF、专利相似度实例 |
| 第11章 | Hive and the Hadoop Herd | Hive 安装与 HiveQL、HBase/ZooKeeper/Cascading/Mahout 等工具概览 |
| 第12章 | Case Studies | 纽约时报图像转换、中国移动数据挖掘、StumbleUpon 推荐、IBM ES2 企业搜索 |
适合具备基本 Java 能力的开发者、数据工程师和技术管理者。初学者可通过本书快速上手 Hadoop 集群搭建与 MapReduce 编程,有经验者也能从进阶技巧(Bloom 过滤器、链式作业)和真实案例中获益。了解基本统计概念(直方图、相关性)有助于理解高级数据处理示例。
作为 Hadoop 早期经典,《Hadoop in Action》以清晰逻辑和丰富实战弥补了当时学习资源的断层。最大特色是"做中学"——围绕专利数据集贯穿多章,让读者在真实场景中掌握 MapReduce。虽生态已历经演进,但书中关于 MapReduce 范式、分布式设计思维和性能调优的讨论仍有参考价值,是一本扎实的 Hadoop 入门读物。