Data Preparation for Machine Learning

Data Preparation for Machine Learning

作者：	Jason Brownlee
语言：	英文
出版年份：	2020
编程语言：	Python
其他分类：	人工智能
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

《Data Preparation for Machine Learning》是由机器学习领域的专家 Jason Brownlee 所著的一本专注于数据准备的实用指南。本书深入探讨了在机器学习项目中数据准备的各个环节，旨在帮助读者掌握如何高效地处理和优化数据，从而提升模型的性能。

一、书籍背景与目的

在机器学习项目中，数据准备是至关重要却又常被忽视的环节。数据质量直接影响模型的性能，而数据准备的目的是将原始数据转换为适合建模的形式。本书的编写旨在填补数据准备领域的资源空白，为机器学习从业者提供一套系统、实用的数据处理方法，帮助他们在实际项目中更好地应对数据相关的挑战。

二、主要内容概述

本书内容丰富，涵盖了数据准备的多个方面，主要包括以下几个部分：

（一）数据准备的基础知识

介绍了数据准备在机器学习项目中的重要性，以及如何选择合适的数据准备技术。
强调了数据准备的目的是为了更好地揭示问题的底层结构，使其更易于被学习算法理解和处理。

（二）数据清理

详细讲解了如何识别和处理数据中的异常值、缺失值等问题。
提供了基本的数据清理方法，例如删除单一值列、处理重复数据行等，这些方法是每个机器学习项目中都应执行的基础操作。

（三）特征选择

探讨了特征选择的重要性，包括如何从大量输入变量中筛选出对目标变量最相关的特征。
介绍了多种特征选择方法，如基于统计的过滤方法、基于模型的包装方法以及递归特征消除（RFE）等。
针对不同类型的输入变量（数值型、分类型）和目标变量（分类、回归），提供了相应的特征选择策略和案例分析。

（四）数据转换

讲解了如何对数据进行各种转换，以满足机器学习算法的要求或提升模型性能。
包括数值数据的标准化、归一化，分类数据的编码，以及如何通过幂变换等方法使数据分布更接近高斯分布等。

（五）高级转换

涉及处理混合数据类型、转换目标变量以及保存数据转换对象等内容。
例如，如何使用 ColumnTransformer 对不同类型的特征进行不同的转换操作，以及如何在模型最终确定后保存这些转换对象以便后续应用。

（六）降维技术

介绍了降维的概念和重要性，以及常见的降维方法，如主成分分析（PCA）、奇异值分解（SVD）和线性判别分析（LDA）。
通过实例展示了如何应用这些降维技术来减少输入变量的数量，同时保留数据的主要结构和信息。

三、书籍特色与适用人群

实用性强：书中提供了大量基于 Python 的代码示例，读者可以直接复制和粘贴这些代码到自己的项目中，快速上手实践。
结构清晰：内容按照数据准备的不同阶段和任务进行组织，逻辑连贯，便于读者系统学习和查找特定主题。
案例丰富：通过多个实际数据集的案例分析，展示了不同数据准备技术的应用场景和效果，帮助读者更好地理解和掌握知识点。

本书适合有一定机器学习基础的开发者阅读，尤其是那些熟悉 Python 编程语言和常用机器学习库（如 scikit-learn）的读者。无论是初学者还是有一定经验的从业者，都可以从本书中获得关于数据准备的宝贵知识和技巧，从而在自己的机器学习项目中取得更好的成果。

期待您的支持

捐助本站