前言
本书旨在鼓励、启发和激发学生对社会科学数据分析的兴趣。其根本前提是学生通过做数据分析来学数据分析。为此,本书从简单的图形工具开始,探索数据并对数据提出有意义的问题。重点是用于发现深埋于回归表整洁外表之下的问题的那些方法。最后,读者会熟悉基本的数据分析技术,并形成数据分析方法,理解所做出的概念、分析乃至哲学的选择。在我看来,一个重要的目标是激发读者对所做事情的兴趣。本书的案例旨在让我们用真实的数据来面对现实世界的议题和问题。数据下载完成后,确保在开始前执行installD() 和libraries() 指令,第一个指令安装所有需要用到的包,而第二个指令加载这些包。installD() 指令只需要执行一次;libraries() 指令需要在每次重新启动R 后都执行。
本书为谁而写
本书面向多种读者,但主要还是为初学者准备的。本书假设读者事先没有统计学或微积分的相关知识,而扎实的统计学或微积分背景并不会使这些练习毫无收获。本书源于我在科罗拉多大学教授的大型课程——“定量方法导论(Introduction toQuantitative Methods)”。这是政治学专业学生的必修课,学生需要阅读、理解并审慎地考察越来越多的定量证据。我们真诚地希望在课堂上用一套技能武装学生,帮助他们解决问题。
数据分析师使用R 就像生物学家使用电子显微镜一样,这种面向对象的统计语言已经被广泛使用,主要是在数据科学家中间站稳了脚跟。虽然从教学的角度来讲,用纸笔学习统计学令人赞赏且有好处,但在这个大数据时代,学生必须掌握最先进的工具。本书充分为读者考虑,读者可下载配套数据并跟着一起做。这套代码根据我的经验提供了一组优秀的指令,初级、中级和高级的分析师都能用上。
对于那些经验更丰富的读者来说,本书提出了一种方法,强调简单的分析如何通过描述、理论和证据之间的来回往复迭代产生更好的议题。本书鼓励提出假设,查看证据,然后由这些证据产生新的假设。在我看来,为了提出下一个议题而构建假设时,读者就会展现出对案例的深刻理解。比起学习代码,比起理解概率论,本书设法形成一个永无止境的发现循环,体现为描述我们之所见,提出假设,根据经验检验它,然后产生下一个议题或假设。从这个意义上讲,即使是技术能力较高的读者,也能从中受益。
组织
大多数统计学教材都是从概率论的基础知识开始的,然后是抽样和假设检验,最后是相关性和回归分析。虽然概念上是连贯的,但学生首先要在学期之初克服对概率论的恐惧,必须解读标准正态分布表或t-分布表,然后在最后两周掌握二元或多元回归分析。这里存在两种思想流派,本书兼顾两者。一些人坚持认为,支撑回归理论的概率基础必须出现在首条数据拟合线之前。另一些人喜欢一开始就拟合曲线,构建模型。他们认为,学生只有在面对构建模型、生成估计以及评估模型拟合的挑战之后,才会有强烈的动机去理解用于生成t-比率、R2 统计量和置信区间的概率机制。
本书的设计是:在描述数据和进行比较之后,可以跳过第8章和第9章,直接进行回
归分析。关于诊断的章节,为支撑线性回归的高斯- 马尔可夫假设提供了直观的感受。还有一章专门介绍数据的展示(第7章)。如何向受众展示发现,往往连这样最基本的原则我们都不肯花时间。我将爱德华·塔夫特(Edward Tufte)的开创性工作与一些侧重于叙事过程的资料结合起来。
在掌握了多元回归分析的机制后,本书以逻辑回归作为结束——社会科学中的许多问题都涉及二元选择(是否投票)、所处的二元状态(是否大学毕业)以及二元环境(是否住在某个城市)。鉴于社会科学中这些问题的重要性和普遍性,本书会向学生介绍逻辑回归,如何分析以及报告其结果。
基本理念
在学术生涯的早期,我受到了我非常敬重的两位资深学者之间的争论的影响。我不记得主题了,但那是在两位教授的研究生研讨会上。当我们着手评估和审查一篇指定的文章时,其中一位教授显然介意其缺乏理论的严谨性。论文的论点似乎在随着每个新证据的出现而改变。面对论文中一个相当明显的事后推理的实例,两位教授开始争论这篇文章到底有没有做出什么贡献。虽然两人关系很好,但争论非常激烈,当其中一人强调“我不相信为了符合事实而不断改变理论的工作!”的时候,争论达到了顶点。我们等待着回应,房间里变得鸦雀无声。沉默片刻后,另一位教授笑着反讽道:“我不相信为了符合理论而不断改变事实的工作!”
正是如此。那天,关于如何打磨我的技艺,我的脑海中画出了清晰的线路。意识到“事实”从来都不是独立于我们的理解、背景和生活经历之外的,对我而言,这比用来解释它们的理论更为坚实。
话虽如此,我们还是得从某个地方开始,在我看来,最好的数据集是用有意义的、强效且重要的理论和问题构建的。因此,就像警察队长(《龙虎少年队》中由艾斯·库伯饰演)告诫下属(查宁·塔图姆和乔纳·希尔饰演)先打入毒品贩内部,然后找出供货商一样,本书鼓励学生先提出一个假设,然后根据经验去检验它。最后,关于社会科学是一种推演过程还是数据挖掘工作,本书不参与这场论战(毕竟,查宁·塔图姆确实问过他的队长,他们能否直接先找到供货商)。介于推演过程和数据挖掘工作之间,我希望能证明最好的实证研究有赖于二者之间开诚布公的讨论。
译者序
2021年底,机缘巧合下,了解到有一本R可视化方面的书需要翻译。看过目录之后,发现主要是介绍统计学的。虽然自诩是R十余年的老用户,也有过相关培训班的教学经验,但统计学并不是我的强项。不过,觉得趁这个机会把统计学知识再捋一捋也不错。回想起当年学习R 的时候,几乎没有什么中文资料,只能边啃官方文档,边被R 与众不同的诡谲语法蹂躏。好在后来觅得丁国徽前辈翻译的《R导论》,以及他和王学枫、谢益辉、李军焘翻译的R for beginners,仿佛在黑暗中摸索寻得一个火种,照亮了前路。想到这里,就决定应承下来,希望把优秀的R 内容传播给更多的人,将火种传递下去。于是便请好友牵线搭桥,几番辗转找到了张慧敏编辑。读了原版书,更加确信这是一本值得翻译的好书。
本书对初学者十分友好,作者提供了大量社会科学领域的实际案例,并仔细地将这些案例的分析思路拆解,逐步列出了所需要用到的R 代码。读者只需要利用本书提供的数据跟着代码同步练习,便能看到作者思考的过程,无痛掌握统计学知识。包装在典雅文笔之下的,是不断提问、反复迭代、持续获得新发现的思维模式——探索性数据分析。而可视化在这个过程中扮演了极其重要的角色。人脑在图形模式识别方面具有得天独厚的优势,作者利用这个优势,将数据可视化贯穿全书,引导读者从图中发现数据的各种模式,并将其与议题结合起来以获得洞见。干巴巴的统计量,其说服力远比不上恰到好处的数据可视化。至于怎样算恰到好处,作者也给出了十分具有操作性的建议和原则,劝谏读者不要过犹不及。
本书并不完美,存在一些小问题。但瑕不掩瑜,本书用大量案例辅以数据可视化,将统计学知识融汇其中,循循善诱,帮助读者避坑排雷,培养正确的数据分析思维方式,是一本不可多得的好书。希望读者能在本书的指引下,以探索性数据分析为道,以统计学知识为术,以R 为器,解决实际问题。
平时看惯了平铺直叙的软件文档,面对作者雅致的文风,想要原汁原味地翻译出来着实有难度。加上文章引经据典,大量使用了俚语,以及担心文化差异会带来理解偏差,我不得不花大力气查阅书中提及的文化典故,力求还原作者的本意。在这个过程中了解到不少地道的俚语表达和文化典故,还挺有意思的。
在翻译过程中,有些优秀的工具值得称道。首先是非常优秀的老牌译文管理软件OmegaT,大大提高了翻译的效率。其次是清华出品,能够据意查词的WantWords反向词典。此外,为了提高翻译的准确性和效率,我边译边开发了一款配合OmegaTBrower 插件使用的小工具,作用是快速同时查询多个在线词典并以最简洁的方式呈现出来(感兴趣的同行及读者可以自行到GitHub 搜索minimalist_browser_for_omegat获取)。本书如有翻译不当、疏漏之处,还请邮件联系指正:lijiaping@sr.gxmu.edu.cn。
在完美主义和拖延症的双重夹击下,本书的翻译时间大大超出预期。感谢我最喜欢的出版社之一,电子工业出版社和张慧敏编辑将这本好书交给我翻译,包容了我这个“拖稿大魔王”。感谢好友杨锦徐荣牵线搭桥提供了这个机会。感谢家人的陪伴与支持。最后,愿世界和平。
李嘉平
广西医科大学第一附属医院
广西心脑血管疾病防治精准医学重点实验室
j***f 2023-09-19 23:45:45
物流很快,包装完好,质量不错!