Learning Apache Drill

作者：	Charles Givre and Paul Rogers
语言：	英文
出版年份：	2018
开源软件：	Apache项目
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

一、书籍概述

《Learning Apache Drill》是由Charles Givre和Paul Rogers合著的一本专注于Apache Drill的书籍，由O’Reilly Media于2018年出版。本书全面介绍了Apache Drill这一强大的大数据查询工具，旨在帮助读者快速掌握如何使用Drill查询和分析分布式数据源。它不仅适合数据分析师、系统管理员，也适合希望扩展Drill功能的开发人员。

二、Apache Drill简介

Apache Drill是一个开源的SQL查询引擎，专为大数据分析而设计。它具有高度的灵活性和易用性，能够查询多种数据格式（如CSV、JSON、Parquet等）和多种数据存储系统（如Hadoop、HBase、MongoDB等），无需预先定义数据模式。Drill通过其独特的“schema-on-read”机制，能够直接从数据中推断结构，极大地简化了数据查询和分析的过程。

三、书籍内容结构

第一部分：Drill基础

第1章：介绍Apache Drill的基本概念，包括其在大数据生态系统中的位置、与其他工具的比较以及Drill的性能优势。
第2章：详细讲解如何在不同操作系统上安装和运行Drill，包括Windows、macOS和Linux，并介绍了Drill的嵌入式和分布式运行模式。

第二部分：使用Drill查询数据

第3章：深入剖析Drill的架构和工作原理，包括其与Hadoop生态系统的关系、分布式处理机制以及低延迟查询的特点。
第4章：通过具体示例，展示如何使用Drill查询分隔符数据，包括数据源的选择、工作区的定义、数据类型的处理以及常见问题的解决方法。
第5章：探讨如何分析复杂和嵌套数据，如JSON和Parquet格式的数据，以及如何处理日志文件等特殊数据源。

第三部分：连接和扩展Drill

第6章：讲解如何将Drill连接到多种数据源，包括关系型数据库、Hadoop、Kafka等，并介绍了如何配置和使用各种存储插件。
第7章：介绍如何通过JDBC、ODBC和REST接口连接到Drill，并提供了使用Python、R、Java等语言与Drill交互的方法。
第8章：深入探讨Drill的“schema-on-read”特性，包括数据生命周期、模式推断、存储插件和格式配置等内容。

第四部分：生产环境部署与开发

第9章：详细阐述了在生产环境中部署Drill的步骤，包括安装、配置ZooKeeper、内存配置、日志配置以及监控等内容。
第10章：为开发人员提供设置开发环境的指南，包括安装Maven、克隆Drill源代码、构建Drill以及安装集成开发环境（IDE）。
第11章：介绍如何编写Drill用户自定义函数（UDF），包括简单UDF和聚合UDF的开发方法。
第12章：讲解如何编写格式插件，扩展Drill对不同数据格式的支持。

第五部分：高级应用与案例

第13章：通过多个实际案例，展示Drill在不同领域的独特应用，如地理数据查询、Excel文件分析、网络数据包分析以及与机器学习的结合等。

四、书籍特色

实用性：提供了丰富的示例和代码，帮助读者快速上手并解决实际问题。
全面性：涵盖了从安装部署到高级开发的各个方面，适合不同层次的读者。
权威性：作者均为Drill项目的贡献者，内容具有高度的准确性和权威性。

五、总结

《Learning Apache Drill》是一本全面、实用且易于理解的书籍，无论是对于初学者还是有一定经验的开发人员，都能从中获得宝贵的指导和启发。通过学习本书，读者将能够充分利用Apache Drill的强大功能，高效地查询和分析大规模分布式数据。