97 Things Every Data Engineer Should Know
作者: Tobias Macey
语言: 英文
出版年份: 2021
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

一、书籍定位

面向数据工程师、数据架构师、数据科学家、机器学习工程师和软件工程师的实务手册。由 Tobias Macey 主编,汇集全球 90 余位一线专家经验,用 97 篇短文给出可落地的最佳实践、常见误区与职业建议。

二、核心结构

  • 97 篇独立章节:每章 1-3 页,可碎片化阅读
  • 六大主题
    1. 数据管道与架构设计
    2. 数据质量、测试与安全
    3. 存储、计算与成本优化
    4. 团队协作与职业发展
    5. 工具选型与演进策略
    6. 伦理、隐私与治理

三、关键洞察

3.1 数据管道设计

  • ETL → ELT → IDT 演进:传统 ETL 正被“Intentional Data Transfer”取代,通过事件驱动架构(Kafka、SNS/SQS)实现实时、低延迟的数据同步。
  • 批流合一:用“数据时间窗口 DTW”与“到达时间窗口 ATW”混合策略,兼顾准确性与时效性。
  • 模块化与可扩展性:通过 DAG、设计模式(Factory、Decorator、Facade)将日志、监控、验证等横切关注点解耦,提升复用率。

3.2 数据质量与测试

  • 测试金字塔:单元测试(schema、空值)、业务规则(指标一致性、分布异常)、端到端回归。
  • 失败响应四步法:自动隔离 → 日志告警 → 根因定位 → 与利益相关者透明沟通。
  • 开源工具链:Great Expectations、Soda SQL、OpenLineage 可在数日内落地数据质量监控。

3.3 存储与计算

  • 对象存储优先:S3 兼容层 + 列式格式(Parquet/ORC)+ 压缩,解决小文件与成本问题。
  • 数据湖 ACID 缺口:用 Hudi、Iceberg、Delta Lake 或 lakeFS 提供版本控制、回滚与并发隔离。
  • 云原生成本观:从“优化执行时间”转向“优化单位成本”,利用 Lambda、Step Functions 实现秒级弹性伸缩。

3.4 元数据与治理

  • 元数据 ≥ 数据:统一的元数据服务(schema、血缘、权限、审计)是数据平台核心,避免“表格爆炸”与重复劳动。
  • 数据网格(Data Mesh):按业务域自服务,配套标准化接口、SLA、监控和自助门户,破解中央数据团队瓶颈。

3.5 团队与职业

  • 两类数据工程师:SQL/ETL 型 vs 大数据/编程型,技能栈与项目类型需匹配。
  • 从软件工程转型:关注可扩展性、可观测性、DevOps 文化,将代码质量、CI/CD、SRE 实践带入数据领域。
  • 获得认可:用业务语言量化价值(减少决策时间、提升收入),让数据工程从幕后走到台前。

3.6 伦理与隐私

  • 隐私即功能:默认加密、差分隐私、k-匿名化、联邦学习,把 GDPR/CCPA 要求编码到管道。
  • 数据使用透明度:建立数据字典、FAQ、可视化血缘,帮助下游理解字段含义与限制。

四、实用清单

  • 10 个必问问题:数据源、粒度、Schema、算法需求、回填范围、截止日期、SLA、交接人……
  • 5 个稳定处理最佳实践:事务回滚、公平处理时长、质量监控、事务安全、外部系统依赖。
  • 3R 原则:Reliability(可靠)、Reproducibility(可复现)、Repeatability(可重建)。

五、一句话总结

无论你是初创公司还是跨国巨头,这本书都像一位随身顾问,提醒你在数据洪流中保持简洁、可维护、可解释,并以业务价值为中心,持续交付可信的数据产品。

期待您的支持
捐助本站