Learning pandas 2nd Edition
作者: Michael Heydt
语言: 英文
出版年份: 2017
编程语言: Python
其他分类: 人工智能
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

一、定位与目标读者

  • 定位:系统讲解 Python 数据分析核心库 pandas 的实战型教程,兼顾“入门-进阶-实战”三个层次。
  • 目标读者:数据分析师、数据科学家、量化研究员、Python 程序员;也适合具备基础 Python 语法、希望快速切入数据工程与建模的读者。

二、内容总览

全书 15 章,按“数据生命周期”展开:获取→清洗→建模→可视化→汇报→复现。各章可独立查阅,也可循序通读。

阶段 对应章节 关键能力
认识 pandas Ch1-2 安装、Jupyter、Series & DataFrame 快速体验
数据表示 Ch3-4 一维 Series、二维 DataFrame 的创建、索引、切片
结构调整 Ch5 增删行列、重命名、拼接、合并、重塑
索引体系 Ch6 RangeIndex、DatetimeIndex、CategoricalIndex、MultiIndex
类别变量 Ch7 Categorical 类型;有序分类;分箱映射
数值统计 Ch8 描述性统计、缺失处理、滚动窗口、随机采样
数据接入 Ch9 CSV/Excel/JSON/HDF5/SQL/WebAPI 一站式读写
数据清洗 Ch10 缺失值、重复值、异常值、单位转换、插值
整合重塑 Ch11 连接(concat)、合并(merge)、透视(pivot)、长宽表互转
分组聚合 Ch12 split-apply-combine 模式;agg/transform/filter
时间序列 Ch13 DateTimeIndex、频率转换、重采样、滑动窗、假期处理
可视化 Ch14 pandas+matplotlib/seaborn;常用统计图、时序图、热力图
综合案例 Ch15 股票价格分析:获取、收益率、波动率、相关性、风险指标

三、章节亮点提炼

  1. Ch1 数据科学流程
    将 CRISP-DM 抽象为“七步循环”:构思→获取→准备→探索→建模→呈现→复现,并指出 pandas 在各步的价值,帮助读者建立“大图景”。

  2. Ch3-4 数据结构的“ pandas 之道”

    • Series 不仅是“带索引的数组”,更是对齐、广播、时间轴的基础。
    • DataFrame = 多个共享索引的 Series,天然支持“列式类型异构+行级对齐”。
  3. Ch5 结构调整“30 法”
    系统演示 .insert.assign.loc enlarge、.drop.rename.concat.pivot 等 30 余种常用 API,解决“列顺序、重复列、链式赋值”等日常痛点。

  4. Ch6 索引“性能加速器”
    用 10 万行随机数据对比布尔筛选与索引定位,量化展示索引查询 5× 提速;并给出 RangeIndex vs Int64Index vs DatetimeIndex 的内存差异。

  5. Ch7 类别变量的“工业级”用法
    pd.Categorical 将字符串映射为紧凑整数,内存下降 50%+;有序分类支持 bronze < silver < gold 直接比较,避免手写映射表。

  6. Ch8 统计+滚动窗口“一行代码”

    • .describe() 一键输出 count/mean/std/min/25%/50%/75%/max。
    • .rolling(window=20).agg(['mean','std','skew']) 同时计算多指标,为后续量化交易案例奠基。
  7. Ch9 数据接入“瑞士军刀”
    同一 read_* 接口支持本地、HTTP、FTP、S3;parse_dates+index_col 自动将“日期字符串”转为 DatetimeIndex;dtype 字典强制指定类型,避免二次转换。

  8. Ch10 清洗“六板斧”
    缺失值六策略:删除(dropna)、填充(fillna)、前后填充(ffill/bfill)、插值(interpolate)、均值填充、模型预测;配合 df.pipe() 链式清洗,代码可复现。

  9. Ch11-12 重塑与聚合“组合拳”
    pd.merge 实现 SQL 风格连接(one-to-one / one-to-many / many-to-many);groupby+transform 实现“组内归一化”“组内缺失均值填充”等高级操作。

  10. Ch13 时间序列“一站式”
    支持“日、交易、小时、分钟、毫秒”频率;resample('M').agg({'Open':'first','Close':'last','Volume':'sum'}) 一句生成月度 K 线;shift/lag/diff/pct_change 快速计算收益率。

  11. Ch14 可视化“零配置出图”
    df.plot() 默认调用 matplotlib,自动识别索引类型生成阶梯图、面积图;seaborn 风格一行切换;plot.hexbinplot.kde 探索高维分布。

  12. Ch15 股票案例“从数据到决策”
    以 Google Finance 实时接口为例,完整演示:
    ① 拉取 2016-2017 MSFT 日线 → ② 计算日收益、累计收益 → ③ 滚动 30 天波动率 → ④ Beta、夏普比率 → ⑤ 相关性热力图 → ⑥ Jupyter Notebook 分享。案例代码可直接复用。

四、写作特色

  • “代码即注释”:每段示例均给出可运行 Jupyter Notebook,GitHub 同步。
  • “性能提示”专栏:对比 RangeIndex 与 Int64Index、eval/query 提速、内存视图 vs 复制。
  • “坑点预警”.ix 已废弃、SettingWithCopyWarning 原因、浮点索引切片闭开区间差异。
  • “金融场景”贯穿:时间序列、滑动窗、收益率、波动率、风险指标,量化读者可直接套用。

五、第二版更新

  1. 代码全面迁移至 Python 3.6+ & pandas 0.20+,移除过时 .ix、引入 RangeIndex、Categorical 新接口。
  2. 新增 pandas-datareader 实战,替代老版 pandas.io.data;覆盖 FRED、WorldBank、Kenneth French 等公开数据源。
  3. 新增“滑动窗口+多指标聚合”“HDF5 压缩存储”“ExcelWriter 多工作表”等高性能方案。
  4. 全彩图表、注释更细,每章末附“速查表”总结核心 API。

六、阅读路径建议

需求 速读路线 深读路线
只想上手清洗 Excel Ch2→Ch4→Ch5→Ch9→Ch10 完成课后“航班延误清洗”练习
量化策略回测 Ch2→Ch3-4→Ch6→Ch8→Ch11→Ch13→Ch15 复现 Ch15 并替换标的,比较沪深 300 与标普 500
数据管道工程化 Ch2→Ch5→Ch6→Ch9→Ch10→Ch12→Ch14 .pipe+HDF5+schedule 搭建每日自动 ETL

七、一句话总结

《Learning pandas 2nd Edition》用“金融+商业”真实数据贯穿始终,把 pandas 从“API 说明书”升级为“数据工程思维”,是一本可以放在键盘边随时翻阅的 Python 数据分析“红宝书”。

期待您的支持
捐助本站