作者: | Brian Caffo |
语言: | 英文 |
出版年份: | 2016 |
下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Statistical Inference for Data Science》是由Brian Caffo撰写的一本关于统计推断的书籍,作为Coursera上统计推断课程的配套教材。本书旨在为数据科学或统计学领域的学生提供一个低成本的入门资源,帮助他们理解统计推断的基本概念和方法。
本书首先定义了统计推断,即从一个有噪声的样本中生成关于总体的结论。作者通过选举预测、天气预报和大脑激活等实际例子,说明了统计推断在现实生活中的应用,并强调了样本代表性、变量污染、系统偏差和数据随机性等问题的重要性。
本章介绍了概率的基础知识,包括Kolmogorov的三条规则及其推论。通过硬币翻转和骰子滚动等例子,作者帮助读者理解概率的基本概念,并介绍了概率质量函数(PMF)和概率密度函数(PDF)。
本章讨论了条件概率的概念,包括贝叶斯规则和诊断似然比。通过医学诊断测试的例子,作者解释了如何使用条件概率来更新对某个事件发生概率的估计。
本章介绍了期望值的概念,包括离散和连续随机变量的期望值计算。作者通过模拟实验,展示了样本均值如何估计总体均值,并讨论了样本均值的无偏性。
本章讨论了变异的概念,包括方差和标准差的计算。通过模拟实验,作者展示了样本方差如何估计总体方差,并讨论了样本均值的标准误。
本章介绍了几种常见的概率分布,包括伯努利分布、二项分布、正态分布和泊松分布。作者通过具体例子,展示了这些分布在实际问题中的应用。
本章讨论了渐近理论,包括大数定律和中心极限定理(CLT)。通过模拟实验,作者展示了样本均值的分布如何随着样本量的增加而趋近于正态分布。
本章介绍了小样本置信区间的构造方法,特别是Gosset的t分布。作者通过具体例子,展示了如何使用t分布来构造置信区间。
本章讨论了假设检验的基本概念,包括零假设和备择假设的设定,以及I型和II型错误的定义。作者通过具体例子,展示了如何使用Z检验和t检验来进行假设检验。
本章介绍了P值的概念及其在统计显著性中的应用。作者通过具体例子,展示了如何计算和解释P值。
本章讨论了统计检验的功效,即在备择假设为真时拒绝零假设的概率。作者通过具体例子,展示了如何计算功效,并讨论了功效与样本量、效应量和显著性水平之间的关系。
本章介绍了自助法(bootstrap)和重采样技术,包括自助法的基本原理和应用。作者通过具体例子,展示了如何使用自助法来构造置信区间和计算标准误。
本书通过大量的实例和模拟实验,帮助读者直观地理解统计推断的概念和方法。书中还提供了许多练习题,帮助读者巩固所学知识。此外,本书还提供了相关的YouTube视频和R代码,方便读者进一步学习和实践。
本书适合对数据科学或统计学感兴趣的学生,特别是那些具有一定的数学和计算能力,并希望在数据科学或统计学领域应用这些技能的读者。本书也可以作为Coursera上统计推断课程的配套教材,帮助学生更好地理解和掌握课程内容。