Machine Learning in Action
作者: Peter Harrington
语言: 英文
出版年份: 2012
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

核心定位

本书是一本面向实践者的机器学习入门指南,以"重代码、轻数学"为核心理念,用 Python 从零实现经典算法。全书围绕数据挖掘十大算法展开,涵盖分类、回归、无监督学习和辅助工具四大板块,每个算法都配有真实场景案例。作者 Peter Harrington 的目标很明确:填补"懂理论的人不会写代码,会写代码的人不懂理论"之间的鸿沟,帮助读者跨越从数学公式到可运行程序的最后一公里。

内容主线

全书分四部分、15 章,另附 4 个附录。第一部分(第 1–7 章)聚焦分类问题,从 k-近邻、决策树、朴素贝叶斯到逻辑回归、支持向量机和 AdaBoost 集成方法,逐步深入,并在第 7 章专门讨论分类不平衡这一实际痛点。第二部分(第 8–9 章)转向回归预测,涵盖线性回归、岭回归、Lasso 及树回归(CART),并引入偏差-方差权衡这一核心概念。第三部分(第 10–12 章)进入无监督学习,讲解 k-均值聚类、Apriori 关联分析和 FP-growth 高效频繁项集挖掘。第四部分(第 13–15 章)介绍降维工具 PCA 与 SVD,以及 MapReduce 分布式计算框架在大数据场景下的应用。附录补充 Python、线性代数和概率论基础。

章节内容

标题 核心内容
1 机器学习基础 术语定义、任务分类、算法选择策略、NumPy 入门
2 k-近邻算法 距离度量分类、约会网站匹配、手写数字识别
3 决策树 信息增益、递归构建树、Matplotlib 可视化、隐形眼镜类型预测
4 朴素贝叶斯 条件概率分类、词袋模型、垃圾邮件过滤、RSS 源态度分析
5 逻辑回归 Sigmoid 函数、梯度上升与随机梯度上升、缺失值处理、马疝病预测
6 支持向量机 最大间隔分类、SMO 优化算法、核函数映射、手写识别再探
7 AdaBoost 元算法 决策树桩弱分类器、分类不平衡处理、ROC 曲线与代价函数
8 回归预测 线性回归、局部加权回归、岭回归与 Lasso、偏差-方差权衡、乐高价格预测
9 树回归 CART 算法、预剪枝与后剪枝、模型树、Tkinter 构建回归 GUI
10 k-均值聚类 聚类原理、二分 k-均值、地理坐标聚类
11 Apriori 关联分析 频繁项集挖掘、关联规则生成、国会投票模式分析
12 FP-growth 算法 FP 树构建、条件模式基挖掘、Twitter 共现词与点击流分析
13 主成分分析 降维技术、坐标轴旋转、半导体制造数据降维
14 奇异值分解 协同过滤推荐、图像压缩、餐厅菜品推荐引擎
15 大数据与 MapReduce Hadoop Streaming、AWS EMR、mrjob 框架、分布式 Pegasos SVM

适用读者

适合具备基础 Python 编程能力、希望动手实现机器学习算法的开发者与数据爱好者。对数学要求不高,了解基本线性代数和概率论即可跟上。不适合追求理论深度或前沿深度学习的研究者,也不适合完全零编程基础的读者。

总评

本书的最大价值在于"手把手"的教学方式——每个算法都遵循"简单数据验证 → 真实数据格式化 → 完整场景应用"的三步流程,代码完整可运行。2012 年出版使其略显陈旧,未涉及深度学习,但作为经典算法的工程实现参考,至今仍有实用意义。适合作为机器学习入门的第一本实践书,尤其推荐给那些看了很多理论却不知如何落地的学习者。

期待您的支持
捐助本站