作者: | Chi Wang |
语言: | 英文 |
出版年份: | 2023 |
其他分类: | 人工智能 |
下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Designing Deep Learning Systems》是一本面向软件工程师的深度学习系统设计指南,由Chi Wang和Donald Szeto合著,Yan Xue编写代码示例,Silvio Savarese和Caiming Xiong作序。本书旨在帮助工程师设计、构建和优化高效的深度学习系统,以支持从研究到生产的全流程开发。
随着深度学习技术的快速发展,越来越多的公司开始将深度学习应用于实际产品中。然而,深度学习系统的构建并非易事,它需要综合考虑数据管理、模型训练、超参数优化、模型部署等多个复杂环节。作者们凭借在Salesforce Einstein团队的丰富经验,总结了一套系统的深度学习系统设计方法,并通过本书分享给广大读者。
本书共分为10章,内容涵盖深度学习系统的核心组件及其设计原则。每一章都围绕一个特定的系统组件展开,从理论到实践,详细介绍了组件的功能、设计要点以及与其他组件的协作方式。
介绍了深度学习开发周期的各个阶段,包括产品启动、数据探索、模型原型开发、生产化以及应用集成。同时,阐述了深度学习系统的基本架构和关键组件,如数据集管理、模型训练、模型服务等。
数据是深度学习的核心,数据集管理服务负责收集、组织、描述和存储数据。本章介绍了数据集管理的重要性、设计原则以及如何实现数据集的版本控制和可重复性。
模型训练服务是深度学习系统的核心组件之一,负责管理计算资源和执行训练代码。本章讨论了训练服务的设计原则、如何支持多种训练框架以及如何实现高效的资源利用。
随着模型规模的增长,分布式训练成为提高训练效率的关键。本章介绍了数据并行、模型并行和流水线并行等分布式训练方法,并提供了实现这些方法的代码示例。
超参数优化(HPO)对模型性能至关重要。本章介绍了HPO的基本概念、常见算法以及如何设计一个自动化的HPO服务。
模型服务是将训练好的模型部署到生产环境中的关键环节。本章讨论了模型服务的定义、挑战以及常见的模型服务策略,如直接模型嵌入、模型服务和模型服务器。
通过具体案例,展示了如何构建和部署模型服务,包括单模型应用、多租户应用以及如何支持多种模型类型。
元数据和工件存储是深度学习系统的重要组成部分,用于记录和跟踪模型训练过程中的各种信息。本章介绍了元数据存储的设计原则和实现方法。
工作流编排是深度学习系统中用于自动化任务执行的关键组件。本章讨论了工作流编排的设计原则和实现方法,并介绍了Airflow、Argo Workflows等开源工具。
最后一章聚焦于如何将深度学习模型从研究阶段推向生产环境。讨论了生产化前的准备工作、模型生产化策略以及模型部署的实践。
本书适合以下几类读者:
《Designing Deep Learning Systems》是一本全面、实用的深度学习系统设计指南。它不仅涵盖了深度学习系统设计的理论基础,还提供了丰富的实践案例和代码示例。通过阅读本书,读者可以快速掌握深度学习系统的设计要点,构建高效、可扩展的深度学习系统,加速深度学习技术在实际产品中的应用。