Kubeflow for Machine Learning

作者：	Trevor Grant, Holden Karau, Boris Lublinsky, Richard Liu and Ilan Filonenko
语言：	英文
出版年份：	2020
其他分类：	人工智能
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

《Kubeflow for Machine Learning》是一本由 Trevor Grant、Holden Karau、Boris Lublinsky、Richard Liu 和 Ilan Filonenko 联合撰写的实用指南，旨在帮助数据科学家和数据工程师将机器学习模型从实验室环境顺利迁移到生产环境。本书详细介绍了 Kubeflow 这一开源工具集，它为机器学习生命周期的各个阶段提供了全面支持，包括数据探索、特征准备、模型训练、模型服务等。

书籍内容概述

第一章：Kubeflow 介绍

本书开篇介绍了 Kubeflow 的设计理念和核心组件，强调了其在机器学习生命周期中的作用。Kubeflow 通过容器化和 Kubernetes 的强大功能，实现了模型的可移植性和可扩展性。作者通过案例研究展示了 Kubeflow 在不同数据集上的应用，包括 MNIST 数据集、邮件列表数据、产品推荐系统和 CT 扫描图像等。

第二章：Kubeflow 入门

本章为读者提供了快速上手 Kubeflow 的方法，包括在本地或云环境中安装 Kubeflow 的步骤。通过一个简单的 MNIST 模型训练和部署示例，读者可以快速了解 Kubeflow 的基本功能和操作流程。

第三章：Kubeflow 的设计与核心组件

深入探讨了 Kubeflow 的架构设计，包括 JupyterHub、训练操作符、Kubeflow Pipelines、超参数调优工具 Katib 等。这些组件共同支持了从数据探索到模型部署的全流程。

第四章：Kubeflow Pipelines

详细介绍了 Kubeflow Pipelines 的使用方法，包括如何构建、编译和运行机器学习工作流。通过 Python SDK 和 Argo Workflows 的结合，读者可以轻松创建和管理复杂的机器学习管道。

第五章：数据和特征准备

数据和特征准备是机器学习的关键步骤。本章探讨了如何使用 Kubeflow Pipelines 进行数据清洗、特征提取和数据转换。作者还介绍了如何结合 Apache Spark 和 TensorFlow Extended 等工具进行分布式数据处理。

第六章：模型元数据管理

模型元数据管理对于模型的可重复性和生产部署至关重要。本章介绍了 Kubeflow ML Metadata 和 MLflow 等工具，帮助读者记录和管理模型的创建过程和相关数据。

第七章：模型训练

本章通过 TensorFlow 和 Scikit-learn 的示例，展示了如何在 Kubeflow 上训练机器学习模型。作者详细介绍了如何使用 Kubeflow 的 TFJob 和 PyTorchJob 等操作符进行分布式训练。

第八章：模型推理

模型推理是将训练好的模型部署到生产环境并提供预测服务的过程。本章探讨了 TensorFlow Serving、Seldon Core 和 KFServing 等工具，帮助读者实现模型的高效服务和监控。

第九章：多工具案例研究

通过一个低剂量 CT 扫描图像去噪的案例，展示了如何结合 Python、Apache Spark 和 Kubeflow 等多种工具构建复杂的机器学习管道。

第十章：超参数调优与自动化机器学习

介绍了 Kubeflow Katib 的使用方法，帮助读者通过超参数调优和自动化机器学习技术优化模型性能。

适用读者

本书适合有一定机器学习基础的数据科学家和数据工程师，尤其是那些希望将模型从实验室迁移到生产环境的读者。通过本书，读者可以系统地学习 Kubeflow 的使用方法，并掌握如何在 Kubernetes 环境中构建和管理机器学习工作流。

总结

《Kubeflow for Machine Learning》是一本全面且实用的指南，涵盖了从数据准备到模型部署的整个机器学习生命周期。通过丰富的案例和详细的步骤说明，本书帮助读者快速掌握 Kubeflow 的核心功能，并在实际项目中应用这些知识。无论是初学者还是有一定经验的从业者，都能从本书中获得宝贵的参考。