Scaling Machine Learning with Spark
作者: Adi Polak
语言: 英文
出版年份: 2023
其他分类: 人工智能
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

《Scaling Machine Learning with Spark》是由Adi Polak撰写的一本专注于如何使用Apache Spark进行大规模机器学习的书籍,于2023年3月由O’Reilly Media出版。这本书为机器学习从业者提供了一站式的指南,帮助他们深入理解如何在分布式环境中高效地构建、训练和部署机器学习模型。

书籍简介

本书的目标读者是具有机器学习行业经验的专业人士,包括数据科学家、机器学习工程师、MLOps工程师以及对分布式机器学习感兴趣的软件工程师。作者Adi Polak凭借其在机器学习算法研究、大规模数据分析基础设施建设以及与社区成员和客户合作积累的丰富经验,为读者提供了一种全面且实用的方法,以应对机器学习系统在分布式环境中的挑战。

核心内容

书中内容涵盖了从基础概念到高级实践的多个方面,分为以下几个主要部分:

第一部分:基础与工具

  • 第1章:介绍了分布式机器学习的基本术语和概念,包括机器学习工作流程、分布式计算模型和网络拓扑结构。
  • 第2章:详细介绍了Apache Spark及其Python接口PySpark的基础知识,包括其分布式架构、软件抽象和数据结构。
  • 第3章:探讨了如何使用MLflow管理机器学习实验生命周期,包括实验的跟踪、模型的版本控制和部署。

第二部分:数据处理与特征工程

  • 第4章:讲解了如何使用Spark进行数据的摄取、预处理和描述性统计分析,特别强调了如何避免“小文件问题”。
  • 第5章:深入讨论了特征工程的重要性,包括如何从原始数据中提取有用特征,并利用Spark的MLlib库进行特征转换和选择。

第三部分:模型训练与优化

  • 第6章:通过实例展示了如何使用Spark MLlib训练模型、评估模型性能、构建机器学习管道,并将模型持久化保存。
  • 第7章:介绍了如何将Spark与深度学习框架(如PyTorch和TensorFlow)桥接,包括Petastorm、Horovod和Spark的Project Hydrogen等工具的使用。
  • 第8章:深入探讨了TensorFlow的分布式机器学习方法,包括其内部架构和训练模式。
  • 第9章:详细介绍了PyTorch的分布式机器学习方法,包括其内部架构和训练模式。

第四部分:模型部署与监控

  • 第10章:讨论了机器学习模型的部署模式、推理和监控,包括批处理和实时推理的示例,以及如何使用MLflow部署模型。

特色与亮点

  • 实用性强:书中不仅介绍了理论知识,还提供了大量的代码示例和实践指南,帮助读者快速上手。
  • 覆盖面广:涵盖了从数据预处理到模型部署的整个机器学习工作流程,适合不同层次的读者。
  • 行业洞察:作者结合了自己在机器学习领域的多年经验,提供了许多行业最佳实践和实用建议。

总结

《Scaling Machine Learning with Spark》是一本全面且深入的指南,适合那些希望在分布式环境中高效构建和部署机器学习系统的专业人士。通过阅读本书,读者可以获得宝贵的理论知识和实践经验,从而在实际工作中更好地应对机器学习的挑战。

期待您的支持
捐助本站