前 言
每个实证学科的从业者都必须学会分析数据。绝大多数学生的第一次,可能也是唯一一次数据分析方面的培训来自学校提供的课程。在这样的课程中,前几周教师通常教授学生阅读数据和汇总数据的技能。余下的课程用于讨论与从业者所在领域相关的一系列统计检验:心理学的课程可能会侧重于t检验和方差分析(ANOVA);经济学的课程可能会教授线性回归和一些旨在进行因果推断的扩展;未来的医生可能会学习生存分析和Cox模型。这种教学方法至少有三个优点。第一,考虑到学生可能只学习一门数据分析课程,尽快教授他们成为函数型数据分析师所需的技能是合理的。第二,侧重教授学生相关专业方法的课程很有用,教师能够挑选引发学生兴趣的相关例子。第三,学生只需要具备算术的数学基础就能学习数据分析。
但是,在课程的后半段引入一个又一个检验也有很多缺点。首先,正如教师经常会从学生口中听到的那样,一次又一次的检验可能会让人难以理解。此外,将这些方法统一起来的知识被压缩在很短的时间里教授。因此,从学生的角度看,每一个方法都是一个独立的主题,很难形成整体统计思维。其次,对于有积极性的学生来说,标准入门课程可能会给人这样的印象:尽管数据可能是令人兴奋的,但统计学却是无趣的。对这些学生来说,掌握统计学就是记住一棵有众多假设和检验的大树,在满足某些条件时可以从一堆方法中选出适当的检验。对学习这种数据分析风格的学生,不能责怪他们没有看到统计学这门学科令人兴奋的地方,甚至没有看到统计学在思维上的根深蒂固。最后,应用精心选择的统计方法的能力可能会让学生成为一个函数型研究者,但这对于数据分析师的成长来说,基础根本不够。我们已经传授了一套“食谱”,而且是多功能且有针对性的“食谱”,但我们没有培养出“大厨”。当新方法出现时,对我们的学生来说,学习这些方法并不比他们学习第一套方法更容易。也就是说,这是一个大工程,成功与否将取决于一个人能否将统计语言翻译成其领域的语言。
大多数大学的统计专业以不同的方式培养未来的统计学家。首先,他们要求学生在开始统计学课程之前学习尽可能多的大学水平的数学。微积分是必需的,通常还需要多变量微积分和线性代数,也许还需要一门实分析的课程。在满足了数学上的要求后,未来的统计学家要学习一到两门完整的严格意义上的概率论课程,然后再学数理统计课程。在这至少一年的大学水平数学的准备和一年的统计学课程中,未来的统计学家从未被要求应用甚至从未听说过(比如)未来的心理学家入门课程中应用的方法。
在这一阶段,训练有素的统计学专业的学生可能没有应用过三因素方差分析,但他深刻理解自己所知道的技术,他领略到了统计学作为一门学科的趣味性和相通性。此外,如果需要使用三因素方差分析,他将能够在很少或没有外部帮助的情况下迅速学会它。
初出茅庐的研究人员时间紧迫,可能只接受过少量的数学训练,却需要应用和解释各种统计技术,如何才能获得统计学家那种理解能力和扩展能力?本书建议,研究人员应该“从头开始”深入学习至少一种方法。这种练习将使人们了解统计方法是如何设计的,对在研究中应用统计学时隐含的哲学思维有所了解,对统计技术的优势和劣势有更清晰的认识。
虽然本书不能把一个非统计学家变成统计学家, 但它将为统计学家的培养提供概念框架,对读者已经知道如何应用的技术,则增加其深度,激发读者的学习兴趣。本书可用作高级入门课程的主要教材或补充教材,例如,为低年级研究生或高年级本科生开设的相关课程,或数据分析的高级教程。本书假设读者对理解统计方法的基本推导有兴趣,对从数据中学习的重要性有认识,对基本数据显示和描述性统计有一定的了解。以前接触过微积分和编程是有帮助的,但不是必需的——涉及的主要概念将在第2章以及附录A和附录B中做简要介绍。概率论是根据需要讲授的,而不求全。在一些院系,本书适合作为入门教材,但对数学的要求有点高,教师可能会发现他们更愿意将这本书用于决心从事实证研究的学生。另一种可能的调整是将本书分成两个学期使用,将插叙作为高级教程的序言,用学生研究领域的数据实例作为补充。本书也可作为研究人员的自学指导书,以提高他们对日常所用技术的理解,或提高对研究结果的解释能力。
有许多优秀的统计学教科书可供非统计学家使用,因此任何新书都必须明确说明它与其他书的不同之处。本书有几个不具普遍性的特点,结合起来可能是独一无二的。
第一,本书的重点是只说明一种统计方法,即简单线性回归。本书的目的是:通过从零开始学习一种方法,考虑在这一背景下的估计和推断的整个概念框架,获得适用于其他背景的工具、理解和直觉。在大数据时代,我们一直用小数据——两个变量,在最常使用的数据集中,只有11个观测值——并对其做认真的思考。说“从零开始”,意思是不把任何事情当作理所当然,而是用数学、模拟、思想实验和例子的组合来探索尽可能多的基本问题。我选择简单线性回归作为分析方法,一方面是因为它在数学上很简单,另一方面是因为许多应用广泛的统计技术——