| 作者: | Michael Heydt |
| 语言: | 英文 |
| 出版年份: | 2017 |
| 编程语言: | Python |
| 其他分类: | 人工智能 |
| 下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
全书 15 章,按“数据生命周期”展开:获取→清洗→建模→可视化→汇报→复现。各章可独立查阅,也可循序通读。
| 阶段 | 对应章节 | 关键能力 |
|---|---|---|
| 认识 pandas | Ch1-2 | 安装、Jupyter、Series & DataFrame 快速体验 |
| 数据表示 | Ch3-4 | 一维 Series、二维 DataFrame 的创建、索引、切片 |
| 结构调整 | Ch5 | 增删行列、重命名、拼接、合并、重塑 |
| 索引体系 | Ch6 | RangeIndex、DatetimeIndex、CategoricalIndex、MultiIndex |
| 类别变量 | Ch7 | Categorical 类型;有序分类;分箱映射 |
| 数值统计 | Ch8 | 描述性统计、缺失处理、滚动窗口、随机采样 |
| 数据接入 | Ch9 | CSV/Excel/JSON/HDF5/SQL/WebAPI 一站式读写 |
| 数据清洗 | Ch10 | 缺失值、重复值、异常值、单位转换、插值 |
| 整合重塑 | Ch11 | 连接(concat)、合并(merge)、透视(pivot)、长宽表互转 |
| 分组聚合 | Ch12 | split-apply-combine 模式;agg/transform/filter |
| 时间序列 | Ch13 | DateTimeIndex、频率转换、重采样、滑动窗、假期处理 |
| 可视化 | Ch14 | pandas+matplotlib/seaborn;常用统计图、时序图、热力图 |
| 综合案例 | Ch15 | 股票价格分析:获取、收益率、波动率、相关性、风险指标 |
Ch1 数据科学流程
将 CRISP-DM 抽象为“七步循环”:构思→获取→准备→探索→建模→呈现→复现,并指出 pandas 在各步的价值,帮助读者建立“大图景”。
Ch3-4 数据结构的“ pandas 之道”
Ch5 结构调整“30 法”
系统演示 .insert、.assign、.loc enlarge、.drop、.rename、.concat、.pivot 等 30 余种常用 API,解决“列顺序、重复列、链式赋值”等日常痛点。
Ch6 索引“性能加速器”
用 10 万行随机数据对比布尔筛选与索引定位,量化展示索引查询 5× 提速;并给出 RangeIndex vs Int64Index vs DatetimeIndex 的内存差异。
Ch7 类别变量的“工业级”用法
用 pd.Categorical 将字符串映射为紧凑整数,内存下降 50%+;有序分类支持 bronze < silver < gold 直接比较,避免手写映射表。
Ch8 统计+滚动窗口“一行代码”
.describe() 一键输出 count/mean/std/min/25%/50%/75%/max。.rolling(window=20).agg(['mean','std','skew']) 同时计算多指标,为后续量化交易案例奠基。Ch9 数据接入“瑞士军刀”
同一 read_* 接口支持本地、HTTP、FTP、S3;parse_dates+index_col 自动将“日期字符串”转为 DatetimeIndex;dtype 字典强制指定类型,避免二次转换。
Ch10 清洗“六板斧”
缺失值六策略:删除(dropna)、填充(fillna)、前后填充(ffill/bfill)、插值(interpolate)、均值填充、模型预测;配合 df.pipe() 链式清洗,代码可复现。
Ch11-12 重塑与聚合“组合拳”
用 pd.merge 实现 SQL 风格连接(one-to-one / one-to-many / many-to-many);groupby+transform 实现“组内归一化”“组内缺失均值填充”等高级操作。
Ch13 时间序列“一站式”
支持“日、交易、小时、分钟、毫秒”频率;resample('M').agg({'Open':'first','Close':'last','Volume':'sum'}) 一句生成月度 K 线;shift/lag/diff/pct_change 快速计算收益率。
Ch14 可视化“零配置出图”
df.plot() 默认调用 matplotlib,自动识别索引类型生成阶梯图、面积图;seaborn 风格一行切换;plot.hexbin、plot.kde 探索高维分布。
Ch15 股票案例“从数据到决策”
以 Google Finance 实时接口为例,完整演示:
① 拉取 2016-2017 MSFT 日线 → ② 计算日收益、累计收益 → ③ 滚动 30 天波动率 → ④ Beta、夏普比率 → ⑤ 相关性热力图 → ⑥ Jupyter Notebook 分享。案例代码可直接复用。
.ix 已废弃、SettingWithCopyWarning 原因、浮点索引切片闭开区间差异。.ix、引入 RangeIndex、Categorical 新接口。| 需求 | 速读路线 | 深读路线 |
|---|---|---|
| 只想上手清洗 Excel | Ch2→Ch4→Ch5→Ch9→Ch10 | 完成课后“航班延误清洗”练习 |
| 量化策略回测 | Ch2→Ch3-4→Ch6→Ch8→Ch11→Ch13→Ch15 | 复现 Ch15 并替换标的,比较沪深 300 与标普 500 |
| 数据管道工程化 | Ch2→Ch5→Ch6→Ch9→Ch10→Ch12→Ch14 | 用 .pipe+HDF5+schedule 搭建每日自动 ETL |
《Learning pandas 2nd Edition》用“金融+商业”真实数据贯穿始终,把 pandas 从“API 说明书”升级为“数据工程思维”,是一本可以放在键盘边随时翻阅的 Python 数据分析“红宝书”。