Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython 2nd Edition

作者：	Wes McKinney
语言：	英文
出版年份：	2017
编程语言：	Python
下载链接：	PDF 百度网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

《Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython》是由 Wes McKinney 编写的经典数据科学书籍，第二版于 2017 年出版。本书是 Python 数据分析领域的权威指南，专注于使用 Python 及其相关库（如 Pandas、NumPy 和 IPython）进行数据处理、清洗、分析和可视化。

一、书籍背景

随着数据科学的兴起，Python 成为数据处理和分析的首选语言之一。本书旨在为读者提供一个全面的指南，帮助他们掌握使用 Python 进行数据清洗、转换、分析和可视化的技能。书中不仅介绍了 Python 的基础语法和数据结构，还深入探讨了 Pandas、NumPy 等库的高级用法。

二、内容概览

第一部分：基础篇

第 1 章：介绍了 Python 数据分析的背景、优势以及相关库（如 Pandas、NumPy、Matplotlib 等）的基本功能。
第 2 章：详细讲解了 Python 的语言基础，包括数据类型、控制流、函数定义等，并介绍了 IPython 和 Jupyter Notebook 的使用方法。
第 3 章：深入探讨了 Python 内置数据结构（如列表、元组、字典、集合）的使用方法，以及如何通过函数式编程提高代码的可读性和效率。

第二部分：核心工具篇

第 4 章：全面介绍了 NumPy 的核心功能，包括多维数组（ndarray）的创建、索引、切片、布尔索引、花式索引等，以及 NumPy 的通用函数（ufunc）和线性代数运算。
第 5 章：详细讲解了 Pandas 的基本数据结构（Series 和 DataFrame），以及如何使用 Pandas 进行数据索引、选择、过滤、排序和基本统计分析。
第 6 章：探讨了数据加载、存储和文件格式的处理方法，包括读取和写入文本文件、JSON 数据、XML 数据、HTML 数据等。

第三部分：进阶篇

第 7 章：专注于数据清洗和准备，包括处理缺失数据、数据转换、字符串操作、异常值检测等。
第 8 章：介绍了数据整理和重塑的方法，如层次化索引、数据合并、数据透视表等。
第 9 章：讲解了数据可视化的基本方法，包括使用 Matplotlib、Seaborn 等库绘制图表。
第 10 章：深入探讨了数据聚合和分组操作，包括 GroupBy 的使用、数据聚合、分组转换等。

第四部分：高级应用篇

第 11 章：详细介绍了时间序列数据的处理方法，包括日期时间数据类型、时间序列基础、时间范围生成、时间序列重采样等。
第 12 章：介绍了 Pandas 的高级用法，如分类数据处理、高级 GroupBy 应用、方法链式调用等。
第 13 章：简要介绍了 Python 中的建模库，如 Patsy、statsmodels 和 scikit-learn 的基本用法。

第五部分：实战篇

第 14 章：通过多个实际案例（如 USA.gov 数据分析、MovieLens 数据集分析、US Baby Names 数据分析等），展示了如何应用前面章节的知识解决实际问题。

三、适用人群

本书适合以下人群：

数据分析师和数据科学家，希望使用 Python 进行高效的数据处理和分析。
Python 开发者，希望扩展在数据分析和科学计算方面的技能。
数据科学初学者，希望通过实践学习 Python 数据分析的核心技能。

四、总结

《Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython》是一本内容丰富、实用性强的书籍，涵盖了从基础到高级的数据分析技能。通过阅读本书，读者将能够掌握使用 Python 及其相关库进行数据处理、分析和可视化的完整流程，为解决实际数据科学问题打下坚实的基础。