Hadoop in Action
作者: Chuck Lam
语言: 英文
出版年份: 2010
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

核心定位

《Hadoop in Action》是 Manning 出版社"In Action"系列中的 Hadoop 入门实战指南,由 Chuck Lam 撰写,2010 年出版。本书面向需要处理大规模离线数据的程序员和架构师,从零教授 Hadoop 安装配置、MapReduce 编程模型及周边生态工具。全书以美国专利数据集为贯穿案例,强调"动手实践",帮助读者跨越从入门到生产级应用的中间学习鸿沟。

内容主线

全书分三部分共 12 章。第一部分(第 1-3 章)介绍 Hadoop 分布式框架基础,涵盖 MapReduce 原理、集群组件(NameNode/DataNode/JobTracker/TaskTracker)及 HDFS 操作。第二部分(第 4-8 章)是核心实战篇,以专利数据为对象,逐步讲解 MapReduce 编程、链式作业、数据连接、Bloom 过滤器等进阶技术,并涵盖开发调试、性能调优和集群管理。第三部分(第 9-12 章)拓展到 Hadoop 生态,包括 EC2 云端部署、Pig 和 Hive 高层抽象编程,以及纽约时报、中国移动、StumbleUpon 和 IBM 的真实案例。

章节内容

章节 标题 要点
第1章 Introducing Hadoop Hadoop 概述、分布式系统概念、与 SQL 对比、MapReduce 原理、词频统计入门
第2章 Starting Hadoop 核心组件、SSH 配置、本地/伪分布式/全分布式三种运行模式
第3章 Components of Hadoop HDFS 文件操作与编程接口、MapReduce 剖析(Mapper/Reducer/Partitioner/Combiner)、InputFormat/OutputFormat
第4章 Writing Basic MapReduce Programs 专利数据集、程序模板、计数统计、Hadoop Streaming、Combiner 优化
第5章 Advanced MapReduce 链式作业编排、Reduce-side Join/Replicated Join/Semijoin、Bloom 过滤器
第6章 Programming Practices 开发调试、Counter 监控、坏记录跳过、压缩、JVM 复用、推测执行
第7章 Cookbook 任务参数传递、多输出分区、数据库读写、输出全局排序
第8章 Managing Hadoop 参数配置、健康检查、权限配额、DataNode 管理、NameNode 恢复、机架感知、多用户调度
第9章 Running Hadoop in the Cloud AWS 搭建、EC2 部署 Hadoop、Elastic MapReduce 服务
第10章 Programming with Pig Pig Latin 数据流语言、Grunt Shell、关系运算符、UDF、专利相似度实例
第11章 Hive and the Hadoop Herd Hive 安装与 HiveQL、HBase/ZooKeeper/Cascading/Mahout 等工具概览
第12章 Case Studies 纽约时报图像转换、中国移动数据挖掘、StumbleUpon 推荐、IBM ES2 企业搜索

适用读者

适合具备基本 Java 能力的开发者、数据工程师和技术管理者。初学者可通过本书快速上手 Hadoop 集群搭建与 MapReduce 编程,有经验者也能从进阶技巧(Bloom 过滤器、链式作业)和真实案例中获益。了解基本统计概念(直方图、相关性)有助于理解高级数据处理示例。

总评

作为 Hadoop 早期经典,《Hadoop in Action》以清晰逻辑和丰富实战弥补了当时学习资源的断层。最大特色是"做中学"——围绕专利数据集贯穿多章,让读者在真实场景中掌握 MapReduce。虽生态已历经演进,但书中关于 MapReduce 范式、分布式设计思维和性能调优的讨论仍有参考价值,是一本扎实的 Hadoop 入门读物。

期待您的支持
捐助本站