| 作者: | Edward Capriolo, Dean Wampler, and Jason Rutherglen |
| 语言: | 英文 |
| 出版年份: | 2012 |
| 下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Programming Hive》是 O'Reilly 于 2012 年出版的 Apache Hive 权威指南,由三位 Hive 核心贡献者 Edward Capriolo、Dean Wampler 和 Jason Rutherglen 联合撰写。Hive 是 Hadoop 生态中的 SQL 数据仓库基础设施,将类 SQL 查询(HiveQL)自动翻译为 MapReduce 作业,让熟悉 SQL 的分析师无需学习 Java 即可处理 PB 级数据。本书填补了 Hive 文档匮乏的空白,是当时唯一系统讲解 Hive 的专著。
全书以"从入门到生产"为主线,先介绍 Hadoop 与 MapReduce 基础,再逐步深入 Hive 安装配置、数据类型、HiveQL 语法(DDL/DML/查询/视图/索引),然后转向模式设计、性能调优、文件格式与压缩、自定义函数、流式处理、Thrift 服务、NoSQL 集成、安全与锁机制,最后覆盖 Oozie 工作流、AWS EMR 部署及企业案例。
| 章节 | 核心内容 |
|---|---|
| 第1~2章 Introduction & Getting Started | Hadoop/MapReduce 概述,安装配置,Metastore JDBC,CLI |
| 第3章 Data Types and File Formats | 基本与集合类型,Schema on Read |
| 第4~5章 HiveQL: Data Definition & Manipulation | DDL/DML,分区管理,数据加载导出 |
| 第6~8章 HiveQL: Queries, Views, Indexes | SELECT/JOIN/GROUP BY,视图,索引 |
| 第9章 Schema Design | 分区策略,分桶存储,列式表 |
| 第10章 Tuning | EXPLAIN,Join 优化,并行/严格模式 |
| 第11章 Other File Formats and Compression | 压缩编解码器,SequenceFile |
| 第12章 Developing | 源码构建,Maven 集成,单元测试 |
| 第13章 Functions | UDF/UDAF/UDTF 开发,宏定义 |
| 第14~15章 Streaming & Custom Formats | 流式处理,SequenceFile/RCFile,SerDe |
| 第16章 Hive Thrift Service | Thrift 服务,HiveServer,Metastore |
| 第17章 Storage Handlers and NoSQL | HBase/Cassandra/DynamoDB |
| 第18~19章 Security & Locking | 认证授权,ZooKeeper 锁机制 |
| 第20~21章 Oozie & AWS | Oozie 工作流,EMR 集群,S3 集成 |
| 第22章 HCatalog | 架构,数据读写 API |
| 第23章 Case Studies | NASA JPL、Photobucket、M6D |
面向两类读者:熟悉 SQL 的数据分析师和 DBA,希望将数据仓库技能迁移到 Hadoop 平台,Hive 的 SQL 方言使其几乎零成本上手;Hadoop 开发者,需深入掌握调优、UDF 开发、存储格式定制及生产部署。需具备基本 SQL 知识,了解 Hadoop 和 Java 有助于进阶章节。
《Programming Hive》是 Hive 早期生态中里程碑式的著作。三位作者均为 Hive 项目深度参与者,内容兼具权威性与实操性,覆盖从基础查询到生产调优的完整链路。作为 2012 年的作品,部分内容已随版本迭代而过时,但 HiveQL 语法、模式设计原则、调优方法论等核心知识至今仍具指导意义。