Scaling Python with Dask
作者: Holden Karau and Mika Kimmins
语言: 英文
出版年份: 2023
编程语言: Python
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

《Scaling Python with Dask》是一本由Holden Karau和Mika Kimmins共同撰写的实用指南,旨在帮助数据科学家和Python程序员利用Dask开源库实现Python代码的并行化扩展,从而应对大规模数据分析和机器学习任务。本书由O’Reilly Media于2023年出版,是一本专注于数据科学和机器学习领域中Python并行计算的权威著作。

作者简介

Holden Karau是一位在分布式计算领域有着丰富经验的专家,曾就职于Apple、Google等知名公司,同时也是Apache Spark的Committer和Apache软件基金会成员。Mika Kimmins是一位数据工程师、分布式系统研究员以及机器学习顾问,曾在Apple担任Siri数据工程师,并在学术界和非营利组织中参与过多个大规模机器学习项目。

内容概述

本书内容丰富,涵盖了从Dask的基本概念到高级应用的各个方面,适合不同层次的读者学习和参考。

第一部分:Dask基础

  • 第1章介绍了Dask的背景、它在数据科学生态系统中的位置以及为何需要Dask。Dask能够将Python代码扩展到多核CPU和GPU,甚至数千台机器的数据中心,适用于处理大数据和复杂计算任务。
  • 第2章详细介绍了如何在本地安装和使用Dask,包括通过conda环境安装Dask以及使用Dask的“Hello World”示例,如任务并行化和分布式集合的使用。
  • 第3章深入探讨了Dask的工作原理,包括执行后端、数据分区、任务图和懒加载等关键概念,帮助读者理解Dask如何实现并行计算。

第二部分:Dask的高级应用

  • 第4章重点介绍了Dask DataFrame的使用方法,它是Pandas DataFrame的分布式版本,能够处理比单机内存更大的数据集。本章还讨论了如何加载、写入数据,以及如何进行分区和索引操作。
  • 第5章探讨了Dask的其他集合类型,如Dask Array和Dask Bag,这些集合适用于不同类型的数据和计算任务。
  • 第6章第7章分别介绍了Dask的高级任务调度机制,包括Futures和Actors,这些功能允许用户更精细地控制任务的执行和状态管理。

第三部分:Dask与机器学习

  • 第11章详细介绍了如何将Dask应用于机器学习任务,包括特征工程、模型选择、训练和推理。Dask-ML库提供了与scikit-learn类似的接口,使得在分布式环境中进行机器学习变得简单易行。
  • 第12章探讨了如何将Dask应用于生产环境,包括部署、监控和性能调优。本章还介绍了如何在Kubernetes、Ray和YARN等不同平台上部署Dask。

适用人群

本书适合以下人群:

  • 数据科学家和Python程序员,希望扩展其数据分析和机器学习项目的规模。
  • 对分布式计算和并行处理感兴趣的开发者。
  • 希望在生产环境中部署和优化Dask应用的工程师。

特色与优势

  • 实用性强:书中提供了大量实际案例和代码示例,帮助读者快速上手。
  • 覆盖面广:从基础到高级应用,涵盖Dask的各个方面。
  • 权威性:由Dask领域的专家撰写,内容经过严格审核。
  • 社区支持:Dask拥有活跃的社区,读者可以在学习过程中获得技术支持。

总之,《Scaling Python with Dask》是一本全面、实用且易于理解的指南,能够帮助读者充分利用Dask的强大功能,提升其数据处理和机器学习任务的效率和可扩展性。

期待您的支持
捐助本站