Programming Hive
作者: Edward Capriolo, Dean Wampler, and Jason Rutherglen
语言: 英文
出版年份: 2012
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

核心定位

《Programming Hive》是 O'Reilly 于 2012 年出版的 Apache Hive 权威指南,由三位 Hive 核心贡献者 Edward Capriolo、Dean Wampler 和 Jason Rutherglen 联合撰写。Hive 是 Hadoop 生态中的 SQL 数据仓库基础设施,将类 SQL 查询(HiveQL)自动翻译为 MapReduce 作业,让熟悉 SQL 的分析师无需学习 Java 即可处理 PB 级数据。本书填补了 Hive 文档匮乏的空白,是当时唯一系统讲解 Hive 的专著。

内容主线

全书以"从入门到生产"为主线,先介绍 Hadoop 与 MapReduce 基础,再逐步深入 Hive 安装配置、数据类型、HiveQL 语法(DDL/DML/查询/视图/索引),然后转向模式设计、性能调优、文件格式与压缩、自定义函数、流式处理、Thrift 服务、NoSQL 集成、安全与锁机制,最后覆盖 Oozie 工作流、AWS EMR 部署及企业案例。

章节内容

章节 核心内容
第1~2章 Introduction & Getting Started Hadoop/MapReduce 概述,安装配置,Metastore JDBC,CLI
第3章 Data Types and File Formats 基本与集合类型,Schema on Read
第4~5章 HiveQL: Data Definition & Manipulation DDL/DML,分区管理,数据加载导出
第6~8章 HiveQL: Queries, Views, Indexes SELECT/JOIN/GROUP BY,视图,索引
第9章 Schema Design 分区策略,分桶存储,列式表
第10章 Tuning EXPLAIN,Join 优化,并行/严格模式
第11章 Other File Formats and Compression 压缩编解码器,SequenceFile
第12章 Developing 源码构建,Maven 集成,单元测试
第13章 Functions UDF/UDAF/UDTF 开发,宏定义
第14~15章 Streaming & Custom Formats 流式处理,SequenceFile/RCFile,SerDe
第16章 Hive Thrift Service Thrift 服务,HiveServer,Metastore
第17章 Storage Handlers and NoSQL HBase/Cassandra/DynamoDB
第18~19章 Security & Locking 认证授权,ZooKeeper 锁机制
第20~21章 Oozie & AWS Oozie 工作流,EMR 集群,S3 集成
第22章 HCatalog 架构,数据读写 API
第23章 Case Studies NASA JPL、Photobucket、M6D

适用读者

面向两类读者:熟悉 SQL 的数据分析师和 DBA,希望将数据仓库技能迁移到 Hadoop 平台,Hive 的 SQL 方言使其几乎零成本上手;Hadoop 开发者,需深入掌握调优、UDF 开发、存储格式定制及生产部署。需具备基本 SQL 知识,了解 Hadoop 和 Java 有助于进阶章节。

总评

《Programming Hive》是 Hive 早期生态中里程碑式的著作。三位作者均为 Hive 项目深度参与者,内容兼具权威性与实操性,覆盖从基础查询到生产调优的完整链路。作为 2012 年的作品,部分内容已随版本迭代而过时,但 HiveQL 语法、模式设计原则、调优方法论等核心知识至今仍具指导意义。

期待您的支持
捐助本站