Bad Data Handbook

作者：	Q. Ethan McCallum
语言：	英文
出版年份：	2012
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

核心定位

《Bad Data Handbook》不是一本教材或教程，而是一本"问题图鉴"——19 位数据从业者各自讲述被"坏数据"咬到的真实经历及脱身之道。编者 Q. Ethan McCallum 将"坏数据"定义为"任何妨碍你获取洞察的东西"：不只是缺失值或格式错误，还包括无法访问的数据、随时间漂移的数据、被组织政策锁死的数据。本书覆盖从手工清洗（编码陷阱、电子表格提取、网页抓取）到基础设施选型（文件 vs 数据库、云端神话）、再到数据政策（溯源、社交媒体归属、质量框架）的完整光谱。

内容主线

全书按"战术→战略"递进。前半部分聚焦具体技术：嗅探陌生数据集（Ch2）、从人类阅读格式提取数据（Ch3）、文本编码陷阱（Ch4）、网页抓取意外（Ch5）。中段转向数据行为：NLP 检测谎言（Ch6）、金融标识符不可靠（Ch9）、统计偏差隐蔽来源（Ch10）、学术统计与现实碰撞（Ch11）。后半部分上升到基础设施与组织：文件系统 vs 数据库（Ch12）、关系表中的隐藏图结构（Ch13）、云计算七个迷思（Ch14）、数据科学组织反模式（Ch15）、ML 外包指南（Ch16），最后以数据溯源（Ch17）、社交媒体数据归属（Ch18）和数据质量四 C 框架（Ch19）收尾。

章节内容

章节	主题
第一章什么是坏数据	编者定义"坏数据"边界：不只是技术问题，更是时间、政策和访问层面的障碍
第二章数据嗅探	面对来源不明数据集，通过结构检查、字段验证、可视化和统计快速评估质量
第三章人类可读格式	从电子表格和多文件布局提取数据：awkward format 解析、跨文件整合策略
第四章纯文本中的陷阱	字符编码识别与规范化、应用特定字符泄漏、Python 文本处理管线
第五章重组 Web 数据	网页抓取全流程：robots.txt、模式识别、离线存储、表单与 Flash 的坑
第六章检测虚假评论	用 NLP 和情感分类识别在线评论中的矛盾型谎言，语料构建与分类器验证
第七~八章质疑与工程实践	Ch7 三个案例质疑"坏数据"标签（制造缺陷、来电识别、均值≠典型）；Ch8 从化学实验室数据管理看软件工程规范
第九章数据与现实不匹配	金融 ticker 陷阱：拆股、分红、重新缩放导致数据失真
第十章偏差与误差的隐蔽来源	插补偏差、报告误差、topcoding、seam bias、代理报告、样本选择偏差
第十一章别让完美成为敌人	政府数据实战：从理想统计到市政服务数据的现实妥协
第十二~十三章存储选型与隐藏图结构	Ch12 文件系统替代数据库的理由（简单性、工具链、局部损坏隔离）；Ch13 识别困在关系库中的图结构，用 Gremlin 遍历替代 SQL
第十四章云计算迷思	通过虚构案例 Fred 拆解云的七个迷思：成本、IO 性能、水平扩展、地理冗余
第十五章数据科学的阴暗面	组织级反模式：不了解数据、清洗不一致、单一工具强制、为分析而分析
第十六章机器学习专家养护指南	外包 ML 流程：问题定义、伪造原型、训练集构建、特征选择、集成
第十七~十八章溯源与社交数据	Ch17 不可变快照、来源加权、数据回退、阶段分离、根因定位；Ch18 社交数据归属权、用户控制、商业再分发、删除/更新 API
第十九章数据质量分析揭秘	四 C 框架（Complete/Coherent/Correct/aCcountable）评估数据是否"足够好"

适用读者

适合有一定编程和数据处理基础的数据分析师、数据工程师和数据科学家——尤其是已发现教科书里的干净数据在现实中不存在的人。也适合管理数据团队的技术负责人，帮助理解一线人员的真实困境。不太适合零基础初学者，也不适合寻找系统性教程或算法教材的读者——本书是案例集，不是教科书。

总评

一本诚实的书。它不兜售"最佳实践"，而是展示实践中的真实困境。19 位作者来自金融、政府、电商、社交网络、化学实验室等不同领域，视角多元。缺点是成书于 2012 年，部分工具和平台已过时，但核心问题——编码陷阱、数据溯源、组织反模式、统计偏差——至今高度相关。篇幅适中（约 260 页），每章独立，可按需跳读。推荐给所有与"不完美数据"长期共存的人。