Machine Learning in Action

作者：	Peter Harrington
语言：	英文
出版年份：	2012
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

核心定位

本书是一本面向实践者的机器学习入门指南，以"重代码、轻数学"为核心理念，用 Python 从零实现经典算法。全书围绕数据挖掘十大算法展开，涵盖分类、回归、无监督学习和辅助工具四大板块，每个算法都配有真实场景案例。作者 Peter Harrington 的目标很明确：填补"懂理论的人不会写代码，会写代码的人不懂理论"之间的鸿沟，帮助读者跨越从数学公式到可运行程序的最后一公里。

内容主线

全书分四部分、15 章，另附 4 个附录。第一部分（第 1–7 章）聚焦分类问题，从 k-近邻、决策树、朴素贝叶斯到逻辑回归、支持向量机和 AdaBoost 集成方法，逐步深入，并在第 7 章专门讨论分类不平衡这一实际痛点。第二部分（第 8–9 章）转向回归预测，涵盖线性回归、岭回归、Lasso 及树回归（CART），并引入偏差-方差权衡这一核心概念。第三部分（第 10–12 章）进入无监督学习，讲解 k-均值聚类、Apriori 关联分析和 FP-growth 高效频繁项集挖掘。第四部分（第 13–15 章）介绍降维工具 PCA 与 SVD，以及 MapReduce 分布式计算框架在大数据场景下的应用。附录补充 Python、线性代数和概率论基础。

章节内容

章	标题	核心内容
1	机器学习基础	术语定义、任务分类、算法选择策略、NumPy 入门
2	k-近邻算法	距离度量分类、约会网站匹配、手写数字识别
3	决策树	信息增益、递归构建树、Matplotlib 可视化、隐形眼镜类型预测
4	朴素贝叶斯	条件概率分类、词袋模型、垃圾邮件过滤、RSS 源态度分析
5	逻辑回归	Sigmoid 函数、梯度上升与随机梯度上升、缺失值处理、马疝病预测
6	支持向量机	最大间隔分类、SMO 优化算法、核函数映射、手写识别再探
7	AdaBoost 元算法	决策树桩弱分类器、分类不平衡处理、ROC 曲线与代价函数
8	回归预测	线性回归、局部加权回归、岭回归与 Lasso、偏差-方差权衡、乐高价格预测
9	树回归	CART 算法、预剪枝与后剪枝、模型树、Tkinter 构建回归 GUI
10	k-均值聚类	聚类原理、二分 k-均值、地理坐标聚类
11	Apriori 关联分析	频繁项集挖掘、关联规则生成、国会投票模式分析
12	FP-growth 算法	FP 树构建、条件模式基挖掘、Twitter 共现词与点击流分析
13	主成分分析	降维技术、坐标轴旋转、半导体制造数据降维
14	奇异值分解	协同过滤推荐、图像压缩、餐厅菜品推荐引擎
15	大数据与 MapReduce	Hadoop Streaming、AWS EMR、mrjob 框架、分布式 Pegasos SVM

适用读者

适合具备基础 Python 编程能力、希望动手实现机器学习算法的开发者与数据爱好者。对数学要求不高，了解基本线性代数和概率论即可跟上。不适合追求理论深度或前沿深度学习的研究者，也不适合完全零编程基础的读者。

总评

本书的最大价值在于"手把手"的教学方式——每个算法都遵循"简单数据验证 → 真实数据格式化 → 完整场景应用"的三步流程，代码完整可运行。2012 年出版使其略显陈旧，未涉及深度学习，但作为经典算法的工程实现参考，至今仍有实用意义。适合作为机器学习入门的第一本实践书，尤其推荐给那些看了很多理论却不知如何落地的学习者。