Spark in Action
作者: Petar Zecevic and Marko Bonaci
语言: 英文
出版年份: 2016
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

一、书籍概述

《Spark in Action》是一本全面深入的Apache Spark实战指南,由Petar Zecević和Marko Bonać共同撰写。本书详细介绍了Spark的核心组件、API以及与其他大数据技术的集成应用,旨在帮助读者掌握如何使用Spark进行高效的大数据处理。全书内容丰富,涵盖从基础到高级的Spark应用开发,适合从初学者到有一定经验的开发者阅读。

二、Spark简介

Apache Spark是一个高性能的分布式计算平台,专为大规模数据处理而设计。它通过内存计算技术,相比传统的Hadoop MapReduce大幅提升了数据处理速度,能够实现10到100倍的性能提升。Spark提供了丰富的API,支持多种编程语言(如Scala、Java、Python和R),并集成了机器学习、SQL查询、实时流处理和图计算等多种功能,成为大数据处理领域的强大工具。

三、书籍内容结构

第一部分:Spark基础

  • 第1章:介绍Spark的基本概念、优势以及与Hadoop MapReduce的比较,帮助读者快速了解Spark的核心价值。
  • 第2章:深入讲解Spark的基本组件,如Spark Core、Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX,并通过简单示例展示如何使用Spark Shell进行交互式编程。
  • 第3章:指导读者如何在Eclipse中搭建Spark开发环境,并通过分析GitHub日志的案例,展示如何编写和提交Spark应用程序。
  • 第4章:深入探讨Spark Core API,包括键值对RDD的使用、数据分区与Shuffle优化、数据的分组、排序与连接操作,以及如何使用累加器和广播变量。

第二部分:Spark组件详解

  • 第5章:详细讲解Spark SQL,包括DataFrame和DataSet的使用、SQL查询执行、数据加载与保存,以及Catalyst优化器和Tungsten性能改进。
  • 第6章:介绍Spark Streaming,讲解如何使用离散化流(DStream)处理实时数据,包括从文件和Kafka等数据源读取数据、保存计算状态、使用窗口操作以及性能优化。
  • 第7章:聚焦于Spark MLlib,涵盖机器学习算法(如线性回归、逻辑回归、决策树等)的使用,以及如何进行特征缩放、正则化和模型评估。
  • 第8章:进一步探讨机器学习,包括分类、聚类算法的实现,以及Spark ML库的Estimators、Transformers和Evaluators等概念。
  • 第9章:探索Spark GraphX,介绍如何构建和操作图结构数据,包括图算法(如最短路径、PageRank等)的实现和A*搜索算法的实现。

第三部分:Spark部署与运维

  • 第10章:讲解Spark的运行架构、作业和资源调度机制,以及如何配置Spark和使用Spark Web UI。
  • 第11章:详细说明如何在Spark独立集群、YARN和Mesos上运行Spark应用程序,包括集群组件、启动集群和使用Web UI监控应用程序。
  • 第12章:介绍在YARN和Mesos集群上运行Spark的具体配置和操作,以及如何使用Docker部署Spark。

第四部分:综合案例与拓展

  • 第13章:通过一个实时仪表板案例,展示如何综合使用Spark Streaming、Spark SQL和机器学习算法,实现对日志文件的实时分析和可视化。
  • 第14章:介绍如何将H2O深度学习框架与Spark集成,使用Sparkling Water在Spark平台上运行深度学习模型。

四、总结

《Spark in Action》是一本系统全面的Spark学习指南,不仅涵盖了Spark的基础知识和核心组件,还深入探讨了Spark在实际应用中的各种高级功能和优化技巧。通过丰富的案例和实战项目,读者能够快速掌握如何使用Spark解决实际问题,无论是进行批处理、实时流处理还是机器学习和图计算。本书适合对Spark感兴趣的技术人员、数据工程师以及希望在大数据领域深入发展的开发者阅读。

期待您的支持
捐助本站