Learning Spark 2nd Edition

作者：	Jules S. Damji, Brooke Wenig, Tathagata Das, and Denny Lee
语言：	英文
出版年份：	2020
下载链接：	PDF 城通网盘 EPUB 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

《Learning Spark: Lightning-Fast Data Analytics》是由 Jules S. Damji、Brooke Wenig、Tathagata Das 和 Denny Lee 共同撰写的关于 Apache Spark 的权威指南，由 O’Reilly Media 出版。这本书是 Spark 领域的经典之作，旨在帮助开发者快速掌握 Apache Spark 的核心概念、架构设计以及在大数据处理中的应用。

一、书籍背景与目标读者

本书的第二版在 2020 年出版，全面更新了 Spark 从 1.x 到 3.0 版本的最新发展。它不仅涵盖了 Spark 的基础架构和 API，还深入探讨了 Spark 在机器学习、流处理、数据湖构建等领域的应用。目标读者包括数据工程师、数据科学家以及机器学习工程师，旨在帮助他们利用 Spark 处理大规模数据集，构建高效的数据处理流程和机器学习模型。

二、Spark 的核心特性与架构

Apache Spark 是一个高性能的分布式大数据处理引擎，以其速度快、易用性强、模块化和可扩展性著称。它支持多种编程语言（如 Scala、Python、Java 和 SQL），并提供了丰富的 API，包括 DataFrame、Dataset 和 RDD 等。Spark 的架构设计包括 Spark Driver、SparkSession、Spark Executors 和 Cluster Manager 等关键组件，能够高效地在集群环境中运行。

三、主要内容概述

第一部分：Spark 基础

第 1 章：介绍了 Spark 的起源、设计理念以及其在大数据处理中的地位。
第 2 章：详细讲解了如何下载和安装 Spark，并通过本地模式快速上手。
第 3 章：深入探讨了 Spark 的 Structured APIs，包括 DataFrame 和 Dataset 的使用方法。

第二部分：Spark 的核心组件

第 4 章：介绍了 Spark SQL 和 DataFrame 的内置数据源，包括 Parquet、JSON、CSV 等格式的读写操作。
第 5 章：探讨了 Spark 如何与外部数据源（如 JDBC、MySQL、PostgreSQL 等）交互。
第 6 章：详细讲解了 Dataset API 的使用，包括如何通过 Scala 和 Java 的强类型特性进行数据处理。

第三部分：高级应用与优化

第 7 章：提供了优化和调整 Spark 应用程序的策略，包括配置调整、资源分配和性能监控。
第 8 章：深入探讨了 Structured Streaming 的设计哲学和编程模型。
第 9 章：介绍了如何使用 Spark 和 Delta Lake 构建可靠的数据湖。

第四部分：机器学习与部署

第 10 章：讲解了 Spark 的机器学习库 MLlib，包括常见算法的使用和模型评估。
第 11 章：探讨了如何管理和部署机器学习模型，包括使用 MLflow 进行模型管理。
第 12 章：总结了 Spark 3.0 的新特性，包括动态分区裁剪、自适应查询执行等。

四、总结

《Learning Spark: Lightning-Fast Data Analytics》是一本全面且深入的 Spark 学习指南。它不仅适合初学者快速上手，也适合有经验的开发者深入了解 Spark 的高级特性和优化技巧。通过丰富的代码示例和实战案例，读者可以快速掌握如何利用 Spark 处理大规模数据集，构建高效的数据处理流程和机器学习模型。无论是数据工程师、数据科学家还是机器学习工程师，都能从这本书中获得宝贵的指导。