MapReduce Design Patterns

作者：	Donald Miner and Adam Shook
语言：	英文
出版年份：	2012
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

核心定位

本书是 MapReduce 领域的设计模式参考手册，由 Donald Miner 与 Adam Shook 合著，O'Reilly 2012 年出版。受"GoF"设计模式经典启发，将 MapReduce 编程中反复出现的通用解决方案归纳为可复用的模式模板，涵盖汇总、过滤、数据组织、连接、元模式及输入输出六大类别。全书以 Hadoop 为运行平台，统一使用 StackOverflow 公开数据集贯穿所有示例。

内容主线

每个模式遵循统一模板：Intent（问题描述）、Motivation（应用动机）、Applicability（适用条件）、Structure（Map/Reduce 阶段设计）、Consequences（输出形态）、Resemblances（SQL/Pig 对照）、Known Uses（典型场景）、Performance Analysis（性能剖析）。这种结构使本书既是学习路径，也是日常速查手册。代码示例基于 Hadoop 1.0.3 的 Java MapReduce API，同时提供 Pig 和 Hive/SQL 的等效写法，帮助读者在不同抽象层次间建立映射。

章节内容

章节	核心内容
第1章：Design Patterns and MapReduce	设计模式方法论、MapReduce 历史脉络、Hadoop 架构速览（Word Count 示例）、Pig 与 Hive 生态位介绍
第2章：Summarization Patterns	数值汇总（计数、最值、均值、中位数）、倒排索引构建、计数器计数——将海量数据压缩为高层摘要视图
第3章：Filtering Patterns	简单过滤、Bloom Filter 预过滤减少数据移动、Top N 选取、去重（Distinct）——从大数据集中精准提取子集
第4章：Data Organization Patterns	结构化数据转分层结构、分区（Partitioning）、分箱（Binning）、全排序（Total Order Sorting）、随机打乱（Shuffling）
第5章：Join Patterns	Reduce Side Join（含 Bloom Filter 优化）、Replicated Join（Map 端小表广播）、Composite Join、笛卡尔积
第6章：Metapatterns	作业链（Job Chaining）：Driver/Shell/JobControl 三种编排方式；链折叠（Chain Folding）；作业合并（Job Merging）
第7章：Input and Output Patterns	自定义 InputFormat/OutputFormat、数据生成、外部数据源读写、分区裁剪（Partition Pruning）
第8章：Final Thoughts and the Future	数据形态趋势（图像/音频/视频/流式）、YARN 架构影响、模式库化与社区贡献展望
附录A：Bloom Filters	Bloom Filter 数据结构原理、误判率分析及在 MapReduce 中的应用细节

适用读者

面向已掌握 Hadoop/MapReduce 基础操作、希望从"能写代码"进阶到"会做设计"的中级开发者。也适合技术管理者了解 MapReduce 的能力边界。读者需具备 Java 基础，所有示例均为 Java 实现。初学者建议先阅读 Tom White 的 Hadoop: The Definitive Guide 作为前置。

总评

本书是 MapReduce 领域的"设计模式"开山之作，精准填补了从 API 使用到方案设计之间的方法论空白。统一模板让查阅高效，SQL/Pig 对照显著降低学习曲线，StackOverflow 数据集贯穿全书增强了示例的连贯性。局限在于基于 Hadoop 1.x 和旧版 mapreduce API，YARN、Tez、Spark 等后续演进未覆盖。作为 2012 年的作品，其模式分类思想至今仍有参考价值，但具体代码实现需适配新版 API。