| 作者: | Oswald Campesato |
| 语言: | 英文 |
| 出版年份: | 2023 |
| 编程语言: | Python |
| 其他分类: | 人工智能 |
| 下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
| 章次 | 英文标题 | 中文关键词 | 所占篇幅 |
|---|---|---|---|
| 1 | Introduction to Python | 环境、语法、异常、CLI | 15 % |
| 2 | Working with Data | 数据类型、缺失、异常、样本不平衡 | 18 % |
| 3 | Probability & Statistics | 期望、方差、基尼、熵、贝叶斯 | 12 % |
| 4 | Introduction to Pandas(1) | DataFrame、CSV、日期、HTML、列处理 | 15 % |
| 5 | Introduction to Pandas(2) | 合并、行列操作、缺失值填充 | 12 % |
| 6 | Introduction to Pandas(3) | groupby、pipe、query、时窗、JSON、Profiling | 15 % |
| 7 | Data Visualization | Matplotlib、Seaborn、Bokeh 图表库 | 11 % |
astype、to_datetime、cat.codes 一键把字符/日期/分类变量变成模型可吃的数值。isna→dropna/fillna/interpolate(线性/多项式)→再统计分布;提供 0、均值、中位数、前后向填充等策略对比。map、replace、apply、regex 四种写法,把 {male,female}→{0,1}。parse_dates + date_range + asfreq 补齐缺失日期,再按年/季/月重采样。P(h|d) 拆解为“似然×先验/证据”,并给出 MAP 估计示例。pipe 把自定义函数串进 DataFrame,避免中间变量。@变量 插值,长条件过滤可读性↑。rolling().mean() 滑动均值 vs expanding().mean() 累积均值,一行代码画出趋势对比图。pandas_profiling 一键生成 16 栏 HTML 报告(缺失、分位数、相关系数热力图),省去手动 describe()。sns.swarmplot/factorplot/heatmap 三行出图;内置 Tips、Iris、Titanic 数据集即拿即用。line_color RGB 渐变画“彩虹正弦波”,展示前端友好性。pip3 install xxx 与文件结构,保证可复制。iterrows 慢,推荐向量化;apply 可用但优先 NumPy ufunc。建议阅读顺序: 环境搭建 → 第 4 章整体通读 → 按业务需求跳第 2/6 章(清洗)→ 第 7 章出图 → 第 3 章统计理论补漏。
《Pandas Basics》以“最小可用代码集”带你在 300 页内完成数据读取→清洗→统计→可视化的全流程,是 Python 数据人手边必备的“速查+速跑”手册。