统计
统计学术语
统计是汉语中的“统计”原有合计或汇总计算的意思。英语中的“统计”(Statistics)一词来源于拉丁语status,是指各种现象的状态或状况。现今,统计一词有三种含义:(1)统计资料,是反映大量现象的状态和规律性的数字资料及有关文字说明;(2)统计工作,是关于搜集、整理、分析统计资料并进行推论以探求事物本质和规律性的活动;(3)统计科学,是研究如何搜集、整理和分析研究大量现象的数量资料并推论其本质和规律性的理论和方法,如社会经济统计学、数理统计学。
历史沿革
夏禹时代(公元前22世纪)中国分为九州,有人口约1352万,土地约2438万公顷。《书经·禹贡篇》记述了九州的基本土地情况,被西方经济学家推崇为“统计学最早的萌芽”。西周建立了较为系统的统计报告制度。秦时《商君书》中提出“强国知十三数,欲强国,不知国十三数,地虽利,民虽众,国欲弱至削”,其中包括粮食储备、各国人数、农业生产资料及自然资源等等。
公元前3050年,埃及为了建造金字塔和大型农业灌溉系统,曾进行过全国人口和财产调查。公元前15世纪,犹太人为了战争的需要进行了男丁的调查。
公元前约6世纪,罗马帝国规定每5年进行一次人口、土地、牲畜和家奴的调查,并以财产总额作为划分贫富等级和征丁课税的依据。
其学理研究始于古希腊的亚里斯多德时代,迄今已有两千三百多年的历史。希腊的亚里斯多德撰写“城邦政情”或“城邦纪要”。“城邦政情”式的统计研究延续了一两千年。直至十七世纪中叶才逐渐被“政治算数”这个名词所替代,并且很快被演化为“统计学”(Statistics)。统计学依然保留了城邦(state)这个词根。
15至18世纪,欧洲出现了许多以报导国情为内容的统计著作。
德国的斯勒兹曾说过:“统计是动态的历史,历史是静态的统计。”可见统计学的产生与发展是和生产的发展、社会的进步紧密相联的。
学术流派
17世纪以后,随着统计实践的发展,客观上要求总结丰富的实践经验,使之上升为理论,并进一步指导实践。当时也出现了某些统计理论的著作。由于历史条件、研究领域的不同,产生了不同的学派。主要的学派有:
政治算术学派
政治算术学派产生于17世纪中叶的资本主义英国,创始人是威廉·配第(W.Petty, 1623—1687),其代表作是他于1676年完成的《政治算术》一书。在撰写该部代表作时,正值第三次英荷战争战争,国内经济困难,国外面临着荷、法两国的威胁。配第为了让人们知道和确信“英国的事业和各种问题,并非处于可悲的状态”,在《政治算术》中用数字比较分析了英、荷、法三国的经济实力和造成这种实力差异的原因,并从贸易、税制、分工、资本和利用闲散劳动力等多方面提出了英国的强盛之道。这种用数字来表述,为统计学的形成和发展奠定了方法论基础。配弟在书中使用的数字有三类:第一类是对社会经济现象进行统计调查和经验观察得到的数字。第二类是运用某种数学方法推算出来的数字。第三类是为了进行理论性推理而采用的例示性的数字。因此,马克思说:“威廉·佩第——政治经济学之父,在某种程度上也是统计学的创始人。”
政治算术学派的另一个代表人物是约翰·格朗特(1620—1674)。他以1604年伦敦教会每周一次发表的“死亡公报”为研究资料,在1662年发表了《关于死亡公报的自然和政治观察》的论著。书中分析了60年来伦敦居民死亡的原因及人口变动的关系,首次提出通过大量观察,可以发现新生儿性别比例具有稳定性和不同死因的比例等人口规律;并且第一次编制了“生命表”,对死亡率与人口寿命作了分析,从而引起了普遍的关注。
17世纪,在英格兰居住的人们开始对“政治算术”产生兴趣。1662年,John Graunt发表了《natural and politics observations upon the bills of mortality》,分析了生男孩和女孩的比例,发展了保险公司所用的那种类型的死亡率表。
但遗憾的是,该学派的学者都还没有使用“统计学”这个名称,他们的著作有统计学之实,却没有统计学之名,存在名不副实的缺陷。
国势学派
国势学派又称记述学派,产生于17世纪的德国。由于该学派主要以文字记述国家的显著事项,故称记述学派。其主要代表人物是海尔曼·康令和阿亨华尔。康令(H.Conring, 1606—1681)第一个在德国黑尔姆斯太特大学以“国势学”为题讲授政治活动家应具备的知识。
主要继承人阿亨华尔(Gottfried Achenwall, 1719—1772)在格丁根大学开设“国家学”课程,其主要著作是《近代欧洲各国国势学纲要》。统计学的英文statistics最早是源于现代拉丁文statisticum collegium(国会)以及意大利文statista(国民或政治家)。因在外文中“国势”与“统计”词义相通,1749年阿亨华尔用德文Statistik正式命名为“统计学”代替“国势学”。代表对国家的资料进行分析的学问,也就是“研究国家的科学”。在19世纪统计学在广泛的数据以及资料中探究其意义,英文的statistic是由约翰·辛克莱(John Sinclair)由状态(status)和德文的政治算术联合推导,第一次出现于1797年的Encyclopaedia Britannica。(早期还有一个单词publicitics和statistics竞争“统计”这一含义,就开始流行publicitical learning)。
但该学派在进行国势比较分析中,偏重用文字描述事物性质的解释,而不注重数量对比和数量计算,因而对后人所认为的统计学,存在“实不符名”的缺陷,但却为统计学的发展奠定了经济理论基础。但随着资本主义市场经济的发展,对事物量的计算和分析显得越来越重要,该学派后来发生了分裂,分化为图表学派和比较学派。政治算术学派和记述学派共存了将近两百年,两派互相影响,互相争论,但总的来说,政治算术学派的影响要大得多。
18世纪末至19世纪末是统计学的发展时期。在这时期,各种学派的学术观点已经形成,并且形成了两主要学派,即数理统计学派和社会统计学派
数理统计学派
现代统计学的理论基础概率论始于研究赌博的机遇问题,大约开始于1477年。数学家为了解释支配机遇的一般法则进行了长期的研究,逐渐形成了概率论理论框架。在概率论进一步发展的基础上,到19世纪初,数学家们逐渐建立了观察误差理论,正态分布理论和最小平方法则。于是,现代统计方法便有了比较坚实的理论基础。
在18世纪,由于概率理论日益成熟,为统计学的发展奠定了基础,在统计分析中经常使用的一些基本方法和术语都始于这一个时期,例:最小平方法正态分布曲线、误差计算等。数理统计学派奠基人是比利时的阿道夫·凯特勒(A.Quetelet, 1796—1874),其主要著作有:《论人类》、《概率论书简》、《社会制度》和《社会物理学》等。
19世纪中叶,他把概率论引入统计学,使统计学在“政治算术”所建立的“算术”方法的基础上,促进了统计的精确化。他最先提出,用数学中的大数定律——平均数定理,作为分析社会经济现象的一种工具。他提出,社会现象的发展并非偶然,而是具有其内在规律性的。但他在解释社会规律时,不能正确地把社会规律与自然规律区分开,提出社会规律与自然规律一样永恒不变的错误观点。凯特勒写过不少运用概率论的著作,到19世纪60年代,他又进一步将国势学、政治算术、概率论的科学方法结合起来,使之形成近代应用数理统计学。十九世纪末,欧洲大学开设的“国情纪要”或“政治算数”等课程名称逐渐消失,代之而起的是“统计分析科学”课程。当时的“统计分析科学”课程的内容仍然是分析研究社会经济问题。在1830年—1849年,出现了所谓“统计狂热时代‘’,各国相继成立了统计机关和统计研究。
其后,经过多方面的研究,特别是数理统计学吸取生物中的有益结果,由葛尔登、皮尔生、戈赛特和费雪等统计学家,提出并发展了回归和相关、假设检验、x2分布和t分布等理论,数理统计学逐渐发展成为一门完整的学科。1908年,“学生”氏(William Sleey Gosset的笔名Student)发表了关于t分布的论文。它创立了小样本代替大样本的方法,开创了统计学的新纪元。
社会统计学派
社会统计学派产生于19世纪后半叶,创始人是德国经济学家、统计学家克尼斯(1821—1889),主要代表人物主要有恩格尔(1821—1896)、梅尔(1841—1925)等人。他们融合了国势学派与政治算术学派的观点,沿着凯特勒的“基本统计理论”向前发展,但在学科性质上认为统计学是一门社会科学,是研究社会现象变动原因和规律性的实质性科学,以此同数理统计学派通用方法相对立。社会统计学派在研究对象上认为统计学是研究体而不是个别现象,而且认为由于社会现象的复杂性和整体性,必须地总体进行大量观察和分析,研究其内在联系,才能揭示现象内在规律。这是社会统计学派的“实质性科学”的显著特点。
社会经济的发展,要求统计学提供更多的统计方法;社会科学本身也不断地向细分化和定量化发展,也要求统计学能提供更有效的调查整理、分析资料的方法。因此,社会统计学派也日益重视方法论的研究,出现了从实质性方法论转化的趋势。但是,社会统计学派仍然强调在统计研究中必须以事物的质为前提和认识事物质的重要性,这同数理统计学派的计量不计质的方法论性质是有本质区别的。
近代统计学的发展过程中,这两学派的矛盾是比较大的。
近代统计学
20世纪初以来,科学技术迅猛发展,社会发生了巨大变化,统计学进入了快速发展时期。归纳起来有以下几个方面。
1.由记述统计向推断统计发展。记述统计是对所搜集的大量数据资料进行加工整理、综合概括,通过图示、列表和数字,编制次数分布表、绘制直方图、计算各种特征数等,对资料进行分析和描述。而推断统计,则是在搜集、整理观测的样本数据基础上,对有关总体作出推断。其特点是根据带随机性的观测样本数据以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。西方国家所指的科学统计方法,主要就是指推断统计来说的。
2.由社会、经济统计向多分支学科发展。在20世纪以前,统计学的领域主要是人口统计、生命统计、社会统计和经济统计。随着社会、经济和科学技术的发展,统计的范畴已覆盖了社会生活的领域,成为通用的方法论科学。它被广泛用于研究社会和自然界的各个方面,并发展成为有着许多分支学科的科学。
3.统计预测和决策科学的发展。传统的统计是对已经发生和正在发生的事物进行统计,提供统计资料和数据。20世纪30年代以来,特别是第二次世界大战以来,由于经济、社会、军事等方面的客观需要,统计预测和统计决策科学有了进一步发展。
4.信息论、控制论、系统论与统计学的相互渗透和结合,使统计科学进一步得到发展和日趋完善。信息论、控制论、系统论在许多基本概念、基本思想、基本方法等方面有着共同之处,三者从不同角度、侧面提出了解决共同问题的方法和原则。三论的创立和发展,改变了世界的科学图景和科学家的思维方式,也使统计科学和统计工作出现了新的发展趋势。
5.计算技术和一系列新技术、新方法在统计领域不断得到开发和应用。伴随着计算机技术的不断发展,使统计数据的搜集、处理、分析、存贮、传递、印制等过程日益现代化,提高了统计工作的效能。计算机技术的发展,日益扩大了传统的和先进的统计技术的应用领域,促使统计科学和统计工作发生了革命性的变化。而今,计算机科学已经成为统计科学不可分割组成部分。随着科学技术的发展,统计理论和实践深度和广度方面也在不断发展。
6.统计在现代化管理和社会生活中的地位日益重要。英国统计学家哈斯利特说:“统计方法在生活和习惯中的应用是这样普遍,应当重视统计的作用。”后来,甚至有的科学有还叫作“统计时代”。
统计学现状
伴随着科学技术的飞速发展,通过吸收和融合相关学科的新理论,开发应用新技术和新方法,深化和丰富统计学传统领域的理论与方法,统计学拓展了新的领域。在国家,社会主义市场经济体制的逐步建立,实践发展的需要对统计学提出了新的更多要求。随着社会主义市场经济的成长和不断完善,统计学的潜在功能将得到更进一步的开掘。
第一,对系统性及系统复杂性的认识为统计学的未来发展增加了新的思路。随着科学融合趋势的兴起,统计学的研究触角已经向新的领域延伸,开始探索性数据的统计方法的研究。研究的领域向复杂客观现象扩展。21世纪统计学研究的重点将由确定性现象和随机现象转移到对复杂现象的研究,向模糊现象、突变现象及混沌现象等领域拓展。
第二,定性与定量相结合的综合集成法将为统计分析方法的发展提供新的思想。定性与定量相结合的综合集成方法是钱学森教授于1990年提出的。这一方法的实质就是将科学理论、经验知识和专家判断相结合,提出经验性的假设,再用经验数据和资料以及模型对它的确实性进行检测,经过定量计算及反复对比,最后形成结论。
第三,统计科学与其他科学渗透将为统计学的应用开辟新的领域。模糊论、突变论及其他新的边缘学科的出现为统计学的进一步发展提供了新的科学方法和思想。将一些尖端科学成果引入统计学,使统计学与其交互发展将成为统计学发展的趋势。已经有一些学者开始将控制论、信息论、系统论以及图论、混沌理论、模糊理论等方法和理论引入统计学。
统计学产生于应用,在应用过程中发展壮大。随着经济社会的发展、各学科相互融合趋势的发展和计算机技术的迅速发展,统计学的应用领域、统计理论与分析方法也将不断发展。
特征
数量性
统计学的认识力首先表现它以精确的和无可争辩的事实作为基础,同时,这些事实用数字加以表现,具有简短性和明显性。数量性是统计学对象的重要对象特点,这一特点也可把它和其他实质性的社会科学(如政治经济学)区别开来。
社会经济统计的认识对象是社会经济现象的数量方面,包括现象的数量表现、现象之间的数量关系和质量互变的数量界限。
总体性
统计学的认识对象是社会经济现象的总体的数量方面。从总体上研究社会经济现象的数量方面,是统计学区别于其他社会科学的一个主要特点。如国民经济总体的数量方面、社会总体的数量方面、地区国民经济和社会总体的数量方面、各企事业单位总体数量方面等等。
具体性
社会经济统计的认识对象是具体事物的数量方面,而不是抽象的数量关系。这是统计与数学的区别。
社会性
社会经济现象是人类有意识的社会活动,是人类社会活动的条件、过程和结果,社会经济统计以社会经济现象作为研究对象,具有明显的社会性。统计学研究社会经济现象,这一点与自然技术统计学有所区别。
职能
统计要达到认识社会的目的,不仅需要科学的方法,而且需要强有力的组织领导。因此统计兼有信息、咨询、监督三种职能。
信息职能
是统计部门根据科学的统计指标体系和统计调查方法,灵敏、系统的采集、处理、传输、贮存和提供大量的以数据描述为基本特征的社会经济信息。
咨询职能
指利用已经掌握的丰富的统计信息资源,运用科学的分析方法和先进的技术手段,深入开展综合分析和专题研究,为科学决策和管理提供各种可供选择的咨询建议与对策方案。
监督职能
指根据统计调查和分析,及时、准确地从总体上反映经济、社会和科技的运行状态,并对其实行全面、系统的定量检查、监测和预警,以促使国民经济按照客观规律的要求,持续、稳定、协调地发展。
这三种职能是相互联系、相辅相成的。统计信息职能是保证咨询和监督职能有效发挥的基础;统计咨询职能是统计薪资职能的延续和深化;而统计监督职能则是信息、咨询职能基础上进一步拓展并促进统计信息和咨询职能的优化。
分析
1)测量的尺度
统计学一共有四种测量的尺度或是四种测量的方式。这四种测量(名目,顺序,等距,等比)在统计过程中具有不等的实用性。等比尺度(Ratio measurements)拥有零值及资料间的距离是相等被定义的,等距尺度(Interval measurements)资料间的距离是相等被定义的但是它的零值并非绝对的无而是自行定义的(智力或温度的测量)。(Ordinal measurements)顺序尺度的意义并非在其值而是在其顺序之上。名目尺度(Nominal measurements)的测量值则不具量的意义。
2)统计技术
以下列出一些有名的统计检定方法以及可供验证实验数据的程序
费雪最小显著差异法(Fisher's Least Significant Difference test)
学生t检验(Student's t-test)
曼-惠特尼 U 检定(Mann-Whitney U)
回归分析(regression analysis)
相关性(correlation)
皮尔森积矩相关系数(Pearson product-moment correlation coefficient)
史匹曼等级相关系数(Spearman's rank correlation coefficient)
卡方分配(chi-square)
3)分析方法总结
1.1 连续性资料的两组独立样本比较
1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。
1.1.2 资料不符合正态分布,(1)可进行数据转换、对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验、Wilcoxon检验。
1.1.3 资料方差不齐,(1)采用Satterthwate的t’检验;(2)采用非参数检验、Wilcoxon检验。
1.2 两组配对样本的比较
1.2.1 两组差值服从正态分布,采用配对t检验。
1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。
1.3 多组完全随机样本比较
1.3.1 资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。检验结果首先有统计学意义,进一步作两两比较,两两比较的方法有LSD检验、Bonferroni法、tukey法、Scheffe法、SNK法等。
1.3.2 资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。检验结果首先有统计学意义,采用Bonferroni法校正P,然后用成组的Wilcoxon检验。
1.4 多组随机区组样本比较
1.4.1 资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。检验结果如果有统计学意义,进一步作两两那么比较。
1.4.2 资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。检验结果为有统计学意义,那么进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。
1.5 需要注意的问题
(1)一般来说是大样本,各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。
(2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,上面提到的LSD检验、Bonferroni法、tukey法、Scheffe法、SNK法等。绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确。
(3)关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差别。常用的设计:完全随即设计、随机区组设计析因设计、裂区设计、嵌套设计等。
学科分支
一些学科大量地利用了应用统计学,以至它们自己已经各自独立成为一门学科。
1.统计学的分支学科有:
2.延伸学科
有些科学广泛的应用统计的方法使得他们拥有各自的统计术语,这些学科包括:
统计对于商业以及工业是一个基本的关键,被用来了解与测量系统变异性,程序控制,对资料作出结论,并且完成资料取向的决策。
理论渊源
1.正态曲线
1733年,德-莫佛(De Moivre)在给友人分发的一篇文章中给出了正态曲线1783年,拉普拉斯建议正态曲线方程适合于表示误差分布的概率。
1809年,高斯发表了他的关于天体运行论的伟大著作,在这一著作的第二卷第三节中,他导出正态曲线适宜于表示误差规律,同时承认拉普拉斯较早的推导。
正态分布在十九世纪前叶因高斯的工作而加以推广,所以通常称作高斯分布。卡尔-皮尔逊指出德-莫佛是正态曲线的创始人,第一个称它为正态分布,但人们仍习惯称之高斯分布。
1805年,Legendre提出最小二乘法,Gauss声称自己在1794年用过,并在1809年基于误差的高斯分布假设,给出了严格推导。
3.总体和样本
在早期文献中可找到由某个总体中抽样的明确例子,然而从总体中只能取得样本的认识常常是缺乏的。 ----K.皮尔逊时代
到十九世纪末,对样本和总体的区别已普遍知道,然而这种区分并不一定总被坚持。----1910年Yule在自己的教科书中指出。
在 1900年代的早期,区分变的更清楚,并在1922年被Fisher特别强调。----Fisher在1922年发表的论文《On the mathematical foundation of theoretical statistics》,说明了总体和样本的联系和区别,以及其他概念,奠定了“理论统计学”的基础。
4.期望、标准差和方差
期望是一个比概率更原始的概念,在十七世纪帕斯卡费马时代,期望概念已被公认了。K.皮尔逊最早定义了标准差的概念。1918年,Fisher引入方差的概念。
力学中的矩和统计学中的中数两者之间的相似性已被概率领域的早期工作者注意到,而K.皮尔逊在1893年第一次在统计意义下使用“矩”。
5.卡方统计量
卡方统计量,是卡-皮尔逊提出用于检验已知数据是否来自某一特定的随机模型,或已知数据是否与已给定的假设一致。卡方检验被誉为自1900年以来在科学技术所有分支中20个尖端发明之一,甚至敌人Fisher都对此有极高评价。
6.矩估计与最大似然
卡-皮尔逊提出了使用矩来估计参数的方法。
Fisher则在1912年到1922年间提出了最大似然估计方法,基于直觉,提出了估计的一致性、有效性和充分性的概念。
7.概率的公理化
1933年,前苏联数学家柯尔莫格洛夫(Kolmogorov)发表了《概率论的基本概念》,奠定了概率论的严格数学基础。
贝叶斯对统计学几乎没有什么贡献,然而贝叶斯的一篇文章成为贝叶斯学派统计学的思想模式的焦点,这一篇文章发表于1763年,由贝叶斯的朋友、著名人寿保险原理的开拓者Richard Price在贝叶斯死后提出来的----贝叶斯定理。
概率思想的两种方法,(1)作为一个物理系统内在的一种物理特性,(2)对某一陈述相信程度的度量。 在1950年代后期止,多数统计学家采取第一种观点,即概率的相对频数解释,这一时期贝叶斯定理仅应用在概率能在频数框架内解释的场合。
9.其他
在十九世纪中叶,三个不同领域产生的重要发展都是基于随机性是自然界固有的这个前提上的。
阿道夫·凯特莱特(A. Quetlet,1869)利用概率性的概念来描述社会学和生物学现象孟德(G.Mendel,1870)通过简单的随机性结构公式化了他的遗传法则。
玻尔兹曼(Boltzmann,1866)对理论物理中最重要的基本命题之一的热力学第二定律给出了一个统计学的解释。
1859 年,达尔文发表了《物种起源》,达尔文的表兄弟高尔登爵士开始利用概率工具分析生物现象,对生物计量学的基础做出了重要贡献(可以称他为生物信息学之父),高尔登爵士是第一个使用相关和回归这两个重要概念的人,他还是中位数和百分位数这种概念的创始人。
受高尔登工作影响,在伦敦的大学学院工作的卡尔-皮尔逊开始把数学和概率论应用于达尔文进化论,从而开创了现代统计时代,赢得了统计之父的称号,1901年Biometrika第一期出版(卡-皮尔逊是创始人之一)。
参考资料
最新修订时间:2024-03-24 11:39
目录
概述
历史沿革
参考资料