Spark in Action

作者：	Petar Zecevic and Marko Bonaci
语言：	英文
出版年份：	2016
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

一、书籍概述

《Spark in Action》是一本全面深入的Apache Spark实战指南，由Petar Zecević和Marko Bonać共同撰写。本书详细介绍了Spark的核心组件、API以及与其他大数据技术的集成应用，旨在帮助读者掌握如何使用Spark进行高效的大数据处理。全书内容丰富，涵盖从基础到高级的Spark应用开发，适合从初学者到有一定经验的开发者阅读。

二、Spark简介

Apache Spark是一个高性能的分布式计算平台，专为大规模数据处理而设计。它通过内存计算技术，相比传统的Hadoop MapReduce大幅提升了数据处理速度，能够实现10到100倍的性能提升。Spark提供了丰富的API，支持多种编程语言（如Scala、Java、Python和R），并集成了机器学习、SQL查询、实时流处理和图计算等多种功能，成为大数据处理领域的强大工具。

三、书籍内容结构

第一部分：Spark基础

第1章：介绍Spark的基本概念、优势以及与Hadoop MapReduce的比较，帮助读者快速了解Spark的核心价值。
第2章：深入讲解Spark的基本组件，如Spark Core、Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX，并通过简单示例展示如何使用Spark Shell进行交互式编程。
第3章：指导读者如何在Eclipse中搭建Spark开发环境，并通过分析GitHub日志的案例，展示如何编写和提交Spark应用程序。
第4章：深入探讨Spark Core API，包括键值对RDD的使用、数据分区与Shuffle优化、数据的分组、排序与连接操作，以及如何使用累加器和广播变量。

第二部分：Spark组件详解

第5章：详细讲解Spark SQL，包括DataFrame和DataSet的使用、SQL查询执行、数据加载与保存，以及Catalyst优化器和Tungsten性能改进。
第6章：介绍Spark Streaming，讲解如何使用离散化流（DStream）处理实时数据，包括从文件和Kafka等数据源读取数据、保存计算状态、使用窗口操作以及性能优化。
第7章：聚焦于Spark MLlib，涵盖机器学习算法（如线性回归、逻辑回归、决策树等）的使用，以及如何进行特征缩放、正则化和模型评估。
第8章：进一步探讨机器学习，包括分类、聚类算法的实现，以及Spark ML库的Estimators、Transformers和Evaluators等概念。
第9章：探索Spark GraphX，介绍如何构建和操作图结构数据，包括图算法（如最短路径、PageRank等）的实现和A*搜索算法的实现。

第三部分：Spark部署与运维

第10章：讲解Spark的运行架构、作业和资源调度机制，以及如何配置Spark和使用Spark Web UI。
第11章：详细说明如何在Spark独立集群、YARN和Mesos上运行Spark应用程序，包括集群组件、启动集群和使用Web UI监控应用程序。
第12章：介绍在YARN和Mesos集群上运行Spark的具体配置和操作，以及如何使用Docker部署Spark。

第四部分：综合案例与拓展

第13章：通过一个实时仪表板案例，展示如何综合使用Spark Streaming、Spark SQL和机器学习算法，实现对日志文件的实时分析和可视化。
第14章：介绍如何将H2O深度学习框架与Spark集成，使用Sparkling Water在Spark平台上运行深度学习模型。

四、总结

《Spark in Action》是一本系统全面的Spark学习指南，不仅涵盖了Spark的基础知识和核心组件，还深入探讨了Spark在实际应用中的各种高级功能和优化技巧。通过丰富的案例和实战项目，读者能够快速掌握如何使用Spark解决实际问题，无论是进行批处理、实时流处理还是机器学习和图计算。本书适合对Spark感兴趣的技术人员、数据工程师以及希望在大数据领域深入发展的开发者阅读。