(特价书)统计模型:理论和实践(原书第2版)

更多详情


内容简介: 本书是一本优秀的统计模型教材,着重讲解线性模型的应用问题,包括广义最小二乘和两步最小二乘模型,以及二分变量的probit及logit模型的应用.本书还包括关于研究设计、二分变量回归及矩阵代数的背景知识.此外,本书附有大量的练习,并且其中多数练习题在书后都有答案,便于读者学习、巩固和提高.
本书适合作为统计专业高年级本科生和低年级研究生线性模型课程的教材,同时也适合作为相关领域研究人员的参考书.

目录: 译者序
引言
第2版序
前言
第1章观测研究和实验1
1.1引言1
1.2HIP试验2
1.3关于霍乱的研究4
1.4Yule关于贫困原因的研究6
1.5札记9
第2章回归线12
2.1引言12
2.2回归线12
2.3胡克定律14
2.4复杂性15
2.5比较简单回归和多元回归17
2.6札记19
第3章矩阵代数20
3.1引言20
3.2行列式及逆21
3.3随机向量24
3.4正定矩阵25
3.5正态分布27
3.6关于矩阵代数的书28
第4章多元回归29
4.1引言29
4.2标准误差32
4.3多元回归中被解释的方差35
4.4如果假定不满足,OLS将会如何37
4.5供讨论的问题37
4.6札记41
第5章多元回归:特别主题42
5.1引言42
5.2OLS是BLUE42
5.3广义最小二乘43
5.4GLS的例子44
5.5如果假定不满足,GLS将会如何46
5.6正态理论46
5.7F检验49
5.8数据窥视51
5.9供讨论的问题52
5.10札记54
第6章路径模型56
6.1分层56
6.2再看胡克定律59
6.3麦卡锡时代的政治回归60
6.4用回归对因果关系做推断62
6.5路径图的响应方案64
6.6哑变量70
6.7供讨论的问题71
6.8札记75
第7章最大似然78
7.1引言78
7.2probit模型82
7.3logit模型86
7.4天主教学校的效应88
7.5供讨论的问题96
7.6札记101
第8章自助法105
8.1引言105
8.2为能源需求模型做自助法112
8.3札记117
第9章联立方程119
9.1引言119
9.2工具变量122
9.3估计黄油模型124
9.4什么是两步125
9.5社会科学例子:教育和生育126
9.6协变量129
9.7线性概率模型130
9.8关于IVLS更多的讨论132
9.9供讨论的问题134
9.10札记139
第10章统计建模中的问题141
10.1引言141
10.2批评的文献143
10.3响应方案146
10.4评估第7~9章的模型147
10.5总结147
参考文献148
部分练习答案163
计算机实验204
附录MATLAB代码样本216
参考论文220

译者序: 读这本书是一种完完全全的享受。自从伯克利加利福尼亚大学统计系郁彬教授在2008年向我推荐这本书之后,我一开始期望的是一本数学味很强的标准回归分析教材。后来,完全出乎意外,这本书竟然是我多年来企图寻找却又不可得的涉及回归分析甚至统计领域核心问题的一本以不寻常的清楚明白方式写的传奇式的读物。 一眼就可以看出该书是出自大家的手笔。在应用统计于科学、医学和社会科学等领域方面,几十年来,本书作者David Freedman都一直被誉为统计的良心。该书是他在研究生命最旺盛的时期写的,代表了当代应用回归教科书的最高水平。作者不仅在伯克利,而且在世界许多高校都使用该教材讲过回归。多年的应用经验和教学实践使得该书内容丰富,语言平易近人,易教易学。该书的实际例子和练习题是精心挑选的,对掌握该书的内容不可或缺。
通常的回归或统计模型教材,无论标以理论或是应用的标签,往往对模型附加了很多假定,但又从来不解释如果这些假定不满足,则会发生什么问题或灾难。这本书不但不回避这些一般教师避之唯恐不及的关于模型的设置和假定等敏感问题,而且专门对各个领域最著名的、最有影响的文章的模型设置及各种假定进行认真的剖析。读这本书对于教师、学生,特别是实际工作者皆是一种心灵的震撼。我相信,任何有心人读了这本书之后,都会在未来涉及回归的课题上倍加小心,避免发生各种根本意想不到的错误。这本书会使许多人受益不浅,功德无量。
我对这本书的翻译是在2009年David Freedman去世之后,当时还不知道他在去世前已经定稿了修订版。因此,我先翻译了初版,后来又翻译了这一版。我恐怕是本书最忠实的中国读者之一。我希望那些在中国大学教本科生或者研究生回归模型课程的教师,能够以本书作为教材或者主要参考书,使得学生能够直接受益于国际一流统计大师的经验与智慧。
吴喜之
2010年4月

前言: 这本书主要是为统计学专业的高年级本科生和低年级研究生准备的.社会科学和医疗卫生领域的学生和专业人员也会对本书感兴趣.虽然我把它写得像一本教科书,但是它其实自成体系.本书着重讲解线性模型的应用问题,包括广义最小二乘和两步最小二乘模型,以及二分变量的probit及logit模型.自助法是作为估计偏倚和计算标准误差的方法来讲解的.
恰当地说,要想开始阅读利用统计模型的经验性文章,本书的内容是必须知道的.全书所强调的是在模型和实际现象之间的联系或缺乏联系.多数讨论是围绕着已发表的研究成果进行的,为了易于参考,关键的文章重新印在书后.一些读者可能发现作者以怀疑的态度作为本书讨论的基调.若您也在这部分读者之中,那么我会做出一个不同寻常的建议,即在您读完本书之前,请保持这种怀疑态度.(一般来说,作者都要求读者暂时相信书中的结论,但本书不做如此要求.)
第1章对比了观测研究和实验研究,并引进了回归方法,这种方法有助于理清观测研究中的繁杂关系.本书中,有一章用来解释回归线,而另一章快速地复习了矩阵代数(在伯克利,半数主修统计的学生需要学习这些章节),知道这些内容,学生们会轻松很多.另外一个重要的附加课程是坚实的概率论和统计基础知识.
方法是通过实践来发展的.在伯克利,我们有实验室上机环节,在那里,学生利用计算机来分析数据.书后面有13个这样的实验(lab),一些我们给出了要点,此外,还附上了几个计算机程序样例.若想获取数据以及程序代码,教师可发邮件至solutions@cambridge.org索取.
好课本应该有好的练习,书中有大量的课后练习.这些练习题中有些是关于数学的,有些是假想的,它们是对一些引理和传统方法中的反例的模拟练习.另一方面,许多练习题都是基于实际研究.这里有数据的概括和分析,还有特别的一点:你如何下手?多数练习题的答案附在本书后.除了做练习和实验外,伯克利的学生在学期中还要完成一些课题的研究报告.
作为教材,一方面要确定选择什么来讨论,而另一方面要确定选择什么来忽略.无论一本书有多厚,都无法覆盖所有感兴趣的内容.我的目标是解释实际工作者如何从关联中推断出因果关系,而自助法则用来替代通常使用的渐近方法.检查该领域的逻辑性是至关重要的,而且需要时间.如果我们忽视了一种广受欢迎的方法,或许这种检查可以对比做出修正.
本书的内容足够用于本科生15~20周或研究生10~15周的课程和讨论.对大学期的本科生课程,我讲授第1~7章,并同时介绍9.1~9.4节.这通常需要13周.如果时间允许,我还会讲自助法(第8章)和第9章的例子.在10周的小学期,我将跳过学生的演示和第8~9章,以及第7章中二分变量的probit模型.
在学期的最后两周,学生展示他们的课程,或者在答疑时间和我讨论这些课题.我常常在最后一次课中总结一下.对于研究生课程,我增加了附加的案例分析和方法讨论.
本版的内容在安排上与前版稍有不同,这样使得教学更容易.我已经以某些其他方式对内容讲解做出了改进,(希望)没有引进新的困难.本版增加了许多新的例子和练习.
致谢
多年来,基于本书内容,我在伯克利,也在斯坦福和雅典教授过研究生和本科生课程.这些课上的学生给予了我很大的帮助和支持.我还要感谢Dick Berk、M'aire N'Bhrolch'ain、Taylor Boas、Derek Briggs、David Collier、Persi Diaconis、Thad Dunning、Mike Finkelstein、Paul Humphreys、Jon McAuliffe、Doug Rivers、Mike Roberts、Don Ylvisaker、Peng Zhao及多位匿名的评审人的非常有益的意见.Ross Lyons和Roger Purves是本书的合作者.David Tranah是位出色的编辑.

序言: 有些书是正确的,有些书是清楚的,有些书是有用的,有些书是给人以享受的。即使是上面的两个优点,也很少有书全部具备,而这本书具有全部上面4项优点。本书明晰、公正而且具有深刻见解,读起来令人愉快。幸运的是,David Freedman在2008年末去世之前完成了这个新的版本。我们为他的逝世深感哀悼,并非常钦佩他在最后的日子里带给这本书及许多其他计划的活力和振奋。
这本书清楚地介绍了应用统计中最常用的6种工具,这里没有难懂的行话及夸张之言。它解剖实际应用:该书的四分之一篇幅重印了依赖于统计模型的社会和生命科学的文章。它清楚地阐明了使这些工具正常运作所必需的假定,并且确定了这些假定的作用。这种清楚的表达使得学生及实际工作者可以较容易地看到:这些方法在什么情况下会是可靠的;在什么情况下有可能失败,并且有多么糟糕;在什么情况下另一种方法可能行得通;在什么情况下,无论用何种被人试图推销的工具,都不可能做出推断。
很多这个层次的教科书比“方法大全”好不到哪里,展示了几十种工具,缺乏说明及见解,像一本菜谱,是一种数目仅仅是数目的方式。“如果左边是连续的,利用线性模型,用最小二乘法来拟合。如果左边是离散的,利用logit或probit模型,用最大似然法来拟合。”以这种方式来教统计,诱使学生相信得到的参数估计、标准误差及显著性检验是有意义的,甚至可能揭开复杂的因果关系。他们教导学生把科学推断看成纯粹的运算法则。代人数字,就是科学了。这既低估了实体知识,也低估了统计知识。
选择一个适当的统计方法实际上需要认真思考数据收集的方法及其所度量的对象。数据并不“仅仅是数目”。在背后的假定是错误的情况下使用统计方法,既能产生金子,也能产生渣滓,但多半是渣滓。
本书通过展示有重大影响的研究所使用的好的和有问题的统计工具来给出上面的信息。这些研究包括:关于麦卡锡(McCarthy)时代的政治不容忍性的研究,就学于天主教学校对完成中学学业和进人大学的影响,生育力和教育之间的关系,政府机构在重组社会资产中的角色。其他例子来源于医学和流行病学,包括JohnSnow的关于霍乱病因的经典之作,这是简单统计工具加上实质性的知识及脚踏实地的工作而获得成功的闪闪发光的例子。这些实际应用给予理论以活力并给练习以动力。
高年级本科生和低年级研究生均能读懂本书。高年级研究生和成熟的研究工作者还会得到新的收获。我们三个人从阅读和教授这本书的过程中确实学到了不少东西。
仅仅读这本书并不能完全覆盖Freedman在这个领域的所有可以找到的研究。他的许多研究文章收集在《Statistical Models and Causal Inference:A Dialogue with the Social Sciences》(Cambridge University Press,2009)之中,它是本书有用的补充。该文集对本书提到的某些应用进行了更深入的探讨,比如霍乱病因以及激素替代疗法的健康效果等。此外,还涵盖从调整不足的普查到量化地震的风险等应用。有些文章涉及本书提到的一些理论问题。比如,实验中的随机分配不足以说明回归是正当的:没有更进一步的假定,处理效果的多元回归估计是有偏的。该文集还包括了统计的哲学基础和本书没有的一些方法,比如生存分析。
本书展示了重要应用和背后的理论,但没有丧失掉清晰易懂的特点。Freedman以其智慧和明白的表述说明了统计分析如何能够揭示知识以及如何能够行骗。这本书与众不同,它是一个宝藏:它是一本人门的书,具有做出可靠统计推断所要求的某些智慧。它是Freedman传奇的一个重要部分。
David Collier,Jasjeet Singh Sekhon,Philip B.Stark
加利福尼亚大学,伯克利

媒体评论: “统计的第二门课是严肃的、正确的和有趣的。本书讲授了回归、因果建模、最大似然和自助法。分析现实数据的每个人都应该阅读本书,并且我们也很荣幸现在能有第2版。”
——Persi Diaconis,斯坦福大学数学与统计学教授
“在本书中,作者解释了因果建模中主要使用的统计方法,通过有趣的实例,清晰而生动地描述了复杂的统计思想。初学者和实践者都将从本书中获益。”
——Alan Krueger,普林斯顿大学经济与公共政策学教授
“回归方法经常应用于观测数据,目的是获得因果结论。在什么环境下这是合理的?分析背后的假定是什么?本书回答了这些问题。对于不仅仅使用回归来总结数据的任何人,本书都是必读的。本书的写作风格非常好,对于社会科学中相关研究论文的讨论极具洞察力。对于从事统计建模或者讲授回归的每个人,我强烈推荐此书。”
——Aad van der Vaart,阿姆斯特丹自由大学统计学教授
“本书是该学科的一个现代导论,讨论了图形模型和联立方程等主题。书中有许多富有启发性的练习和计算机实验。特别有价值的是关于应用统计中主要‘哲人石’的关键评论。这是一本鼓舞人心而又易读的书,无论是老师还是学生都会从中受益。”
——Gesine Reinert,牛津大学统计学教授

书摘: 在观测研究中,对象把自己安排到不同的组中。研究人员仅仅观测发生了什么。例如,吸烟效应的研究必须是观测性的。然而,这里仍然使用处理一控制这一术语。研究人员通过比较属于处理组(也称为暴露组(exposed group))的吸烟者及属于控制组的非吸烟者来确定吸烟的效应。这些行话有些令人迷惑,因为“控制”这个词有两个意思:
  (1)控制是没有得到处理的对象。
  (2)控制试验是研究人员决定谁将在处理组的研究。
  和非吸烟者比较,吸烟者结果很糟糕。心脏病、肺癌等疾病在吸烟者中要更加常见。在吸烟和疾病之间有很强的关联(association)。如果香烟造成疾病,这就解释了这个关联,即吸烟者死亡率高是因为香烟有害。一般来说,关联是因果关系的情况证据(circumstance evi-dence)。然而,证明是不完全的。可能会有某种隐藏的混杂因素,使得人们又吸烟又得病。如果是这样,没有必要停止研究:这不会改变隐藏的因素。关联和因果关系不同。