Advancing into Analytics

作者：	George Mount
语言：	英文
出版年份：	2021
下载链接：	PDF 城通网盘 EPUB 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

一、书籍定位与目标

全书分 三大部分，共 14 章，循序渐进、由浅入深：

部分	主题	关键章节	关键产出
Part I	用 Excel 夯实统计与数据分析基础	1–5 章	掌握变量类型、描述统计、概率、推断统计、相关与回归
Part II	从 Excel 到 R	6–9 章	用 R 复现并超越 Excel 的分析能力，完成 t 检验与线性回归
Part III	从 Excel 到 Python	10–13 章	在 Python 中完成同样的分析流程，并体验机器学习初步

第 14 章为总结与进阶指引。

探索性数据分析（EDA）
- 用真实数据集 star.xlsx 学习变量分类、频数表、描述统计、直方图与箱线图
- 建立“输入-处理-输出”可复现思维
概率基础
- 用 Excel 模拟骰子、轮盘赌，直观理解离散/连续分布、正态分布与中心极限定理
推断统计框架
- 系统梳理“抽样 → 假设 → 检验 → 结论”四步流程
- 住房价格案例实战独立样本 t 检验与置信区间
相关与回归
- 用 mpg.xlsx 讲解皮尔逊相关系数、线性回归、R²、残差、虚假相关
- 强调“相关 ≠ 因果”，并示范如何在 Excel 中完成回归诊断
数据技术栈全景图
- 梳理统计、数据分析、商业分析、数据科学、机器学习之间的边界与重叠
- 介绍数据库、BI 平台、编程语言、Excel 四栈协同思想

环境搭建
- 安装 R 与 RStudio；解释 CRAN、包（package）、项目（.Rproj）机制
- 首次体验 R 作为“可编程计算器”
数据结构
- 向量、因子、数据框（data.frame）与 tibble 对比 Excel 区域与表
- 读写 CSV/Excel，掌握工作目录与文件路径
数据操作与可视化
- dplyr 核心动词：select、filter、arrange、mutate、group_by、summarize、left_join
- tidyr 重塑：pivot_longer / pivot_wider 实现“长宽表”互转
- ggplot2 语法：数据、映射、几何对象三层结构，快速绘制条形图、直方图、箱线图、散点图
综合案例：R 数据科学小试
- 复用 mpg 数据集，完成
  1. EDA（描述统计、分面直方图、箱线图）
  2. 独立样本 t 检验（美系 vs 欧系汽车油耗差异）
  3. 线性回归（重量预测油耗）
  4. 训练/测试集划分与模型验证（tidymodels 入门）

环境搭建
- Anaconda + Jupyter Notebook 一键安装
- 解释 .ipynb 文件、Kernel、Cell 概念，演示 Markdown 与代码混合写作
Python 数据结构
- NumPy 数组、Pandas DataFrame 与 Excel 区域/表的映射
- 读写 CSV、Excel，缺失值（NaN）处理
数据操作与可视化
- Pandas 核心：选取、过滤、排序、分组、合并、透视表
- Matplotlib / Seaborn 快速绘图：条形图、直方图、箱线图、散点图
- 与 Excel Power Query / Power Pivot 功能对应关系
综合案例：Python 数据科学小试
- 复现 Part II 全流程：
  1. EDA（Pandas describe、Seaborn 分面图）
  2. SciPy 独立样本 t 检验
  3. StatsModels / scikit-learn 线性回归
  4. 训练/测试划分与 RMSE 评估

速读路线：1 → 5 → 6 → 7 → 8 → 9（先用 R 跑通全流程）
精修路线：顺序阅读，每章末尾完成练习题，仓库对答案
扩展阅读：
- 数据库 & SQL：《Learning SQL》
- 机器学习：《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow》
- R 进阶：《R for Data Science》
- Python 与 Excel 联动：《Python for Excel》

一句话总结：
Advancing into Analytics 用“Excel → R → Python”的渐进路径，把统计学、数据分析与编程语言第一次真正“拼”成一张可落地的技术地图，帮助商务分析师迈出通往数据科学的第一步。