Learning pandas 2nd Edition

作者：	Michael Heydt
语言：	英文
出版年份：	2017
编程语言：	Python
其他分类：	人工智能
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

一、定位与目标读者

定位：系统讲解 Python 数据分析核心库 pandas 的实战型教程，兼顾“入门-进阶-实战”三个层次。
目标读者：数据分析师、数据科学家、量化研究员、Python 程序员；也适合具备基础 Python 语法、希望快速切入数据工程与建模的读者。

二、内容总览

全书 15 章，按“数据生命周期”展开：获取→清洗→建模→可视化→汇报→复现。各章可独立查阅，也可循序通读。

阶段	对应章节	关键能力
认识 pandas	Ch1-2	安装、Jupyter、Series & DataFrame 快速体验
数据表示	Ch3-4	一维 Series、二维 DataFrame 的创建、索引、切片
结构调整	Ch5	增删行列、重命名、拼接、合并、重塑
索引体系	Ch6	RangeIndex、DatetimeIndex、CategoricalIndex、MultiIndex
类别变量	Ch7	Categorical 类型；有序分类；分箱映射
数值统计	Ch8	描述性统计、缺失处理、滚动窗口、随机采样
数据接入	Ch9	CSV/Excel/JSON/HDF5/SQL/WebAPI 一站式读写
数据清洗	Ch10	缺失值、重复值、异常值、单位转换、插值
整合重塑	Ch11	连接(concat)、合并(merge)、透视(pivot)、长宽表互转
分组聚合	Ch12	split-apply-combine 模式；agg/transform/filter
时间序列	Ch13	DateTimeIndex、频率转换、重采样、滑动窗、假期处理
可视化	Ch14	pandas+matplotlib/seaborn；常用统计图、时序图、热力图
综合案例	Ch15	股票价格分析：获取、收益率、波动率、相关性、风险指标

三、章节亮点提炼

Ch1 数据科学流程
将 CRISP-DM 抽象为“七步循环”：构思→获取→准备→探索→建模→呈现→复现，并指出 pandas 在各步的价值，帮助读者建立“大图景”。
Ch3-4 数据结构的“ pandas 之道”
- Series 不仅是“带索引的数组”，更是对齐、广播、时间轴的基础。
- DataFrame = 多个共享索引的 Series，天然支持“列式类型异构+行级对齐”。
Ch5 结构调整“30 法”
系统演示 .insert、.assign、.loc enlarge、.drop、.rename、.concat、.pivot 等 30 余种常用 API，解决“列顺序、重复列、链式赋值”等日常痛点。
Ch6 索引“性能加速器”
用 10 万行随机数据对比布尔筛选与索引定位，量化展示索引查询 5× 提速；并给出 RangeIndex vs Int64Index vs DatetimeIndex 的内存差异。
Ch7 类别变量的“工业级”用法
用 pd.Categorical 将字符串映射为紧凑整数，内存下降 50%+；有序分类支持 bronze < silver < gold 直接比较，避免手写映射表。
Ch8 统计+滚动窗口“一行代码”
- .describe() 一键输出 count/mean/std/min/25%/50%/75%/max。
- .rolling(window=20).agg(['mean','std','skew']) 同时计算多指标，为后续量化交易案例奠基。
Ch9 数据接入“瑞士军刀”
同一 read_* 接口支持本地、HTTP、FTP、S3；parse_dates+index_col 自动将“日期字符串”转为 DatetimeIndex；dtype 字典强制指定类型，避免二次转换。
Ch10 清洗“六板斧”
缺失值六策略：删除(dropna)、填充(fillna)、前后填充(ffill/bfill)、插值(interpolate)、均值填充、模型预测；配合 df.pipe() 链式清洗，代码可复现。
Ch11-12 重塑与聚合“组合拳”
用 pd.merge 实现 SQL 风格连接（one-to-one / one-to-many / many-to-many）；groupby+transform 实现“组内归一化”“组内缺失均值填充”等高级操作。
Ch13 时间序列“一站式”
支持“日、交易、小时、分钟、毫秒”频率；resample('M').agg({'Open':'first','Close':'last','Volume':'sum'}) 一句生成月度 K 线；shift/lag/diff/pct_change 快速计算收益率。
Ch14 可视化“零配置出图”
df.plot() 默认调用 matplotlib，自动识别索引类型生成阶梯图、面积图；seaborn 风格一行切换；plot.hexbin、plot.kde 探索高维分布。
Ch15 股票案例“从数据到决策”
以 Google Finance 实时接口为例，完整演示：
① 拉取 2016-2017 MSFT 日线 → ② 计算日收益、累计收益 → ③ 滚动 30 天波动率 → ④ Beta、夏普比率 → ⑤ 相关性热力图 → ⑥ Jupyter Notebook 分享。案例代码可直接复用。

四、写作特色

“代码即注释”：每段示例均给出可运行 Jupyter Notebook，GitHub 同步。
“性能提示”专栏：对比 RangeIndex 与 Int64Index、eval/query 提速、内存视图 vs 复制。
“坑点预警”：.ix 已废弃、SettingWithCopyWarning 原因、浮点索引切片闭开区间差异。
“金融场景”贯穿：时间序列、滑动窗、收益率、波动率、风险指标，量化读者可直接套用。

五、第二版更新

代码全面迁移至 Python 3.6+ & pandas 0.20+，移除过时 .ix、引入 RangeIndex、Categorical 新接口。
新增 pandas-datareader 实战，替代老版 pandas.io.data；覆盖 FRED、WorldBank、Kenneth French 等公开数据源。
新增“滑动窗口+多指标聚合”“HDF5 压缩存储”“ExcelWriter 多工作表”等高性能方案。
全彩图表、注释更细，每章末附“速查表”总结核心 API。

六、阅读路径建议

需求	速读路线	深读路线
只想上手清洗 Excel	Ch2→Ch4→Ch5→Ch9→Ch10	完成课后“航班延误清洗”练习
量化策略回测	Ch2→Ch3-4→Ch6→Ch8→Ch11→Ch13→Ch15	复现 Ch15 并替换标的，比较沪深 300 与标普 500
数据管道工程化	Ch2→Ch5→Ch6→Ch9→Ch10→Ch12→Ch14	用 `.pipe`+`HDF5`+`schedule` 搭建每日自动 ETL

七、一句话总结

《Learning pandas 2nd Edition》用“金融+商业”真实数据贯穿始终，把 pandas 从“API 说明书”升级为“数据工程思维”，是一本可以放在键盘边随时翻阅的 Python 数据分析“红宝书”。