一、书籍定位与目标
- 适用人群:已熟练使用 Excel、希望系统过渡到数据编程的分析师、商务人员及初学者
- 学习成果:学完即可用 R 或 Python 独立完成探索性数据分析(EDA)与假设检验,并理解统计学核心概念
- 核心理念:Excel 不是“原罪”,而是通往更高阶工具的桥梁;R 与 Python 也并非 Excel 的替代品,而是互补的“数据技术栈”一环。
二、内容框架速览
全书分 三大部分,共 14 章,循序渐进、由浅入深:
| 部分 | 主题 | 关键章节 | 关键产出 |
|---|---|---|---|
| Part I | 用 Excel 夯实统计与数据分析基础 | 1–5 章 | 掌握变量类型、描述统计、概率、推断统计、相关与回归 |
| Part II | 从 Excel 到 R | 6–9 章 | 用 R 复现并超越 Excel 的分析能力,完成 t 检验与线性回归 |
| Part III | 从 Excel 到 Python | 10–13 章 | 在 Python 中完成同样的分析流程,并体验机器学习初步 |
第 14 章为总结与进阶指引。
三、章节精要提炼
Part I:Excel 作为教学利器(第 1–5 章)
-
探索性数据分析(EDA)
- 用真实数据集 star.xlsx 学习变量分类、频数表、描述统计、直方图与箱线图
- 建立“输入-处理-输出”可复现思维
-
概率基础
- 用 Excel 模拟骰子、轮盘赌,直观理解离散/连续分布、正态分布与中心极限定理
-
推断统计框架
- 系统梳理“抽样 → 假设 → 检验 → 结论”四步流程
- 住房价格案例实战独立样本 t 检验与置信区间
-
相关与回归
- 用 mpg.xlsx 讲解皮尔逊相关系数、线性回归、R²、残差、虚假相关
- 强调“相关 ≠ 因果”,并示范如何在 Excel 中完成回归诊断
-
数据技术栈全景图
- 梳理统计、数据分析、商业分析、数据科学、机器学习之间的边界与重叠
- 介绍数据库、BI 平台、编程语言、Excel 四栈协同思想
Part II:平滑迁移到 R(第 6–9 章)
-
环境搭建
- 安装 R 与 RStudio;解释 CRAN、包(package)、项目(.Rproj)机制
- 首次体验 R 作为“可编程计算器”
-
数据结构
- 向量、因子、数据框(data.frame)与 tibble 对比 Excel 区域与表
- 读写 CSV/Excel,掌握工作目录与文件路径
-
数据操作与可视化
- dplyr 核心动词:
select
、filter
、arrange
、mutate
、group_by
、summarize
、left_join
- tidyr 重塑:pivot_longer / pivot_wider 实现“长宽表”互转
- ggplot2 语法:数据、映射、几何对象三层结构,快速绘制条形图、直方图、箱线图、散点图
-
综合案例:R 数据科学小试
- 复用 mpg 数据集,完成
- EDA(描述统计、分面直方图、箱线图)
- 独立样本 t 检验(美系 vs 欧系汽车油耗差异)
- 线性回归(重量预测油耗)
- 训练/测试集划分与模型验证(tidymodels 入门)
Part III:无缝衔接 Python(第 10–13 章)
-
环境搭建
- Anaconda + Jupyter Notebook 一键安装
- 解释 .ipynb 文件、Kernel、Cell 概念,演示 Markdown 与代码混合写作
-
Python 数据结构
- NumPy 数组、Pandas DataFrame 与 Excel 区域/表的映射
- 读写 CSV、Excel,缺失值(NaN)处理
-
数据操作与可视化
- Pandas 核心:选取、过滤、排序、分组、合并、透视表
- Matplotlib / Seaborn 快速绘图:条形图、直方图、箱线图、散点图
- 与 Excel Power Query / Power Pivot 功能对应关系
-
综合案例:Python 数据科学小试
- 复现 Part II 全流程:
- EDA(Pandas describe、Seaborn 分面图)
- SciPy 独立样本 t 检验
- StatsModels / scikit-learn 线性回归
- 训练/测试划分与 RMSE 评估
四、特色与价值
- 零基础友好:假设读者仅会 Excel,所有代码均提供“Excel 思维”对照
- 真·可复现:每章附数据集与完整代码(GitHub 仓库),步骤可一键重跑
- 桥梁式写法:先 Excel 手动体验概念,再 R/Python 自动化,降低“编程恐惧”
- 商业导向:强调“统计显著 ≠ 商业显著”,配合置信区间、效应量、成本收益思维
- 技术栈视角:帮助读者根据场景灵活组合 Excel、BI、数据库、R、Python,而非“单点崇拜”
五、阅读与进阶路线
- 速读路线:1 → 5 → 6 → 7 → 8 → 9(先用 R 跑通全流程)
- 精修路线:顺序阅读,每章末尾完成练习题,仓库对答案
- 扩展阅读:
- 数据库 & SQL:《Learning SQL》
- 机器学习:《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow》
- R 进阶:《R for Data Science》
- Python 与 Excel 联动:《Python for Excel》
一句话总结:
Advancing into Analytics 用“Excel → R → Python”的渐进路径,把统计学、数据分析与编程语言第一次真正“拼”成一张可落地的技术地图,帮助商务分析师迈出通往数据科学的第一步。