| 作者: | Q. Ethan McCallum |
| 语言: | 英文 |
| 出版年份: | 2012 |
| 下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Bad Data Handbook》不是一本教材或教程,而是一本"问题图鉴"——19 位数据从业者各自讲述被"坏数据"咬到的真实经历及脱身之道。编者 Q. Ethan McCallum 将"坏数据"定义为"任何妨碍你获取洞察的东西":不只是缺失值或格式错误,还包括无法访问的数据、随时间漂移的数据、被组织政策锁死的数据。本书覆盖从手工清洗(编码陷阱、电子表格提取、网页抓取)到基础设施选型(文件 vs 数据库、云端神话)、再到数据政策(溯源、社交媒体归属、质量框架)的完整光谱。
全书按"战术→战略"递进。前半部分聚焦具体技术:嗅探陌生数据集(Ch2)、从人类阅读格式提取数据(Ch3)、文本编码陷阱(Ch4)、网页抓取意外(Ch5)。中段转向数据行为:NLP 检测谎言(Ch6)、金融标识符不可靠(Ch9)、统计偏差隐蔽来源(Ch10)、学术统计与现实碰撞(Ch11)。后半部分上升到基础设施与组织:文件系统 vs 数据库(Ch12)、关系表中的隐藏图结构(Ch13)、云计算七个迷思(Ch14)、数据科学组织反模式(Ch15)、ML 外包指南(Ch16),最后以数据溯源(Ch17)、社交媒体数据归属(Ch18)和数据质量四 C 框架(Ch19)收尾。
| 章节 | 主题 |
|---|---|
| 第一章 什么是坏数据 | 编者定义"坏数据"边界:不只是技术问题,更是时间、政策和访问层面的障碍 |
| 第二章 数据嗅探 | 面对来源不明数据集,通过结构检查、字段验证、可视化和统计快速评估质量 |
| 第三章 人类可读格式 | 从电子表格和多文件布局提取数据:awkward format 解析、跨文件整合策略 |
| 第四章 纯文本中的陷阱 | 字符编码识别与规范化、应用特定字符泄漏、Python 文本处理管线 |
| 第五章 重组 Web 数据 | 网页抓取全流程:robots.txt、模式识别、离线存储、表单与 Flash 的坑 |
| 第六章 检测虚假评论 | 用 NLP 和情感分类识别在线评论中的矛盾型谎言,语料构建与分类器验证 |
| 第七~八章 质疑与工程实践 | Ch7 三个案例质疑"坏数据"标签(制造缺陷、来电识别、均值≠典型);Ch8 从化学实验室数据管理看软件工程规范 |
| 第九章 数据与现实不匹配 | 金融 ticker 陷阱:拆股、分红、重新缩放导致数据失真 |
| 第十章 偏差与误差的隐蔽来源 | 插补偏差、报告误差、topcoding、seam bias、代理报告、样本选择偏差 |
| 第十一章 别让完美成为敌人 | 政府数据实战:从理想统计到市政服务数据的现实妥协 |
| 第十二~十三章 存储选型与隐藏图结构 | Ch12 文件系统替代数据库的理由(简单性、工具链、局部损坏隔离);Ch13 识别困在关系库中的图结构,用 Gremlin 遍历替代 SQL |
| 第十四章 云计算迷思 | 通过虚构案例 Fred 拆解云的七个迷思:成本、IO 性能、水平扩展、地理冗余 |
| 第十五章 数据科学的阴暗面 | 组织级反模式:不了解数据、清洗不一致、单一工具强制、为分析而分析 |
| 第十六章 机器学习专家养护指南 | 外包 ML 流程:问题定义、伪造原型、训练集构建、特征选择、集成 |
| 第十七~十八章 溯源与社交数据 | Ch17 不可变快照、来源加权、数据回退、阶段分离、根因定位;Ch18 社交数据归属权、用户控制、商业再分发、删除/更新 API |
| 第十九章 数据质量分析揭秘 | 四 C 框架(Complete/Coherent/Correct/aCcountable)评估数据是否"足够好" |
适合有一定编程和数据处理基础的数据分析师、数据工程师和数据科学家——尤其是已发现教科书里的干净数据在现实中不存在的人。也适合管理数据团队的技术负责人,帮助理解一线人员的真实困境。不太适合零基础初学者,也不适合寻找系统性教程或算法教材的读者——本书是案例集,不是教科书。
一本诚实的书。它不兜售"最佳实践",而是展示实践中的真实困境。19 位作者来自金融、政府、电商、社交网络、化学实验室等不同领域,视角多元。缺点是成书于 2012 年,部分工具和平台已过时,但核心问题——编码陷阱、数据溯源、组织反模式、统计偏差——至今高度相关。篇幅适中(约 260 页),每章独立,可按需跳读。推荐给所有与"不完美数据"长期共存的人。