多元统计分析是从经典
统计学中发展起来的一个分支,是一种
综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的
统计规律,很适合
农业科学研究的特点。主要内容包括
多元正态分布及其
抽样分布、多元
正态总体的均值向量和
协方差阵的
假设检验、
多元方差分析、
直线回归与相关、
多元线性回归与相关(Ⅰ)和(Ⅱ)、
主成分分析与
因子分析、
判别分析与
聚类分析、Shannon
信息量及其应用。简称
多元分析。当总体的分布是多维(多元)
概率分布时,处理该总体的
数理统计理论和方法。
数理统计学中的一个重要的分支学科。
概念
研究
客观事物中多个变量(或多个因素)之间相互依赖的
统计规律性。它的重要基础之一是多元正态分析。又称
多元分析 。 如果每个个体有多个
观测数据,或者从数学上说, 如果个体的观测数据能表为 P维
欧几里得空间的点,那么这样的数据叫做多元数据,而分析多元数据的
统计方法就叫做多元统计分析 。 它是
数理统计学中的一个重要的分支学科。20世纪30年代,R.A.费希尔,H.
霍特林,
许宝碌以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到迅速发展。50年代中期,随着电子
计算机的发展和普及 ,多元统计分析在地质 、气象、生物、医学、
图像处理、
经济分析等许多领域得到了广泛的应用 ,同时也促进了理论的发展。各种
统计软件包如
SAS,SPSS等,使实际工作者利用多元统计分析方法
解决实际问题更简单方便。重要的多元统计分析方法有:多重
回归分析(简称回归分析)、
判别分析、聚类分析、
主成分分析、
对应分析、
因子分析、典型相关分析、多元
方差分析等。
早在19世纪就出现了处理二维正态总体(见
正态分布)的一些方法,但系统地处理多维
概率分布总体的
统计分析问题,则开始于20世纪。人们常把1928年
维夏特分布的导出作为多元分析成为一个独立学科的标志。20世纪30年代,R.A.费希尔、H.霍特林、
许宝禄以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到了迅速的进展。40年代,多元分析在心理、教育、生物等方面获得了一些应用。由于应用时常需要大量的计算,加上
第二次世界大战的影响,使其发展停滞了相当长的时间。50年代中期,随着电子计算机的发展和普及,它在地质、气象、标准化、生物、图像处理、经济分析等许多领域得到了广泛的应用,也促进了理论的发展。
多元分析发展的初期,主要讨论如何把一元正态总体的统计理论和方法推广到多元正态总体。多元正态总体的分布由两组参数,即均值向量μ(见
数学期望)和协方差矩阵(简称协差阵)∑ (见矩)所决定,记为Np(μ,∑)(p为分布的
维数,故又称p维正态分布或p 维正态总体)。设X1,X2,…,Xn为来自正态总体Np(μ,∑)的样本,则μ和∑的
无偏估计(见
点估计)分别是
和
分别称之为
样本均值向量和样本协差阵,它们是在各种多元分析问题中常用的统计量。样本相关阵R 也是一个重要的统计量,它的元素为
其中υij为样本协差阵S的元素。S的分布是维夏特分布,它是一元统计中的Ⅹ2分布的推广。
另一典型问题是:假定两个多维
正态分布协差阵相同,检验其均值向量是否相同。设样本X1,X2,…,Xn抽自正态总体Np(μ1,∑),而Y1,Y2,…,Ym抽自Np(μ2,∑),要检验假设H 0:μ1=μ2(见
假设检验)。在一元统计中使用t统计量(见
统计量)作检验;在多元分析中则用T2统计量,
,其中,
,
·
,T2的分布称为T2分布。这是H.霍特林在1936年提出来的。
在上述问题中的多元与一元相应的统计量是类似的,但并非都是如此。例如,要检验k个正态总体的均值是否相等,在一元统计中是导致
F统计量,但在多元分析中可导出许多统计量,最著名的有
威尔克斯Λ统计量和最大相对特征根统计量。研究这些统计量的精确分布和优良性是近几十年来多元统计分析的重要理论课题。
多元统计分析有狭义与广义之分,当假定
总体分布是
多元正态分布时,称为狭义的,否则称为广义的。近年来,狭义多元分析的许多内容已被推广到更广的分布之中,特别是推广到一种称为椭球等高分布族之中。
按多元分析所处理的实际问题的性质分类,重要的有如下几种。
多重回归分析
简称回归分析。其特点是同时处理多个
因变量。
回归系数和常数的
计算公式与通常的情况相仿,只是由于因变量不止一个,原来的每个回归系数在此都成为一个向量。因此,关于回归系数的检验要用T2统计量;对
回归方程的
显著性检验要用Λ统计量。
回归分析在
地质勘探的应用中发展了一种特殊的形式,称为
趋势面分析,它以各种元素的含量作为因变量,把它们对
地理坐标进行回归(选用一次、二次或高次的多项式),回归方程称为趋势面,反映了含量的趋势。
残差分析是趋势面分析的重点,找出正的残差异常大的点,在这些点附近,元素的含量特别高,这就有可能形成可采的矿位。这一方法在其他领域也有应用。
判别分析
由 k个不同总体的样本来构造
判别函数,利用它来决定新的未知类别的样品属于哪一类,这是判别分析所处理的问题。它在
医疗诊断、天气预报、
图像识别等方面有广泛的应用。例如,为了判断某人是否有
心脏病,从健康的人和有心脏病的人这两个总体中分别抽取样本,对每人各测两个指标X1和X2,
点绘如图1 。可用直线A将平面分成g1和g2两部分,落在g1的绝大部分为健康者,落在g2的绝大部分为心脏病人,利用A的
垂线方向l=(l1,l2)来建立判别函数
y=l1X1+l2X2,可以求得一常数с,使 y<с 等价于(X1,X2)落在g1,y>с等价于(X1,X2)落在g2。由此得
判别规则:若,l1X1+l2X2
判,即此人为健康者;若,l1X1+l2X2>C
判,
即此人为心脏病人;若,l1X1+l2X2=c则为待判。此例的
判别函数是
线性函数,它简单方便,在实际问题中经常使用。但有时也用非线性判别函数,特别是二次判别函数。建立判别函数和判别规则有不少准则和方法,常用的有贝叶斯准则、
费希尔准则、距离判别、回归方法和
非参数方法等。
无论用哪一种准则或方法所建立的判别函数和判别规则,都可能产生错判,错判所占的比率用错判概率来度量。当总体间区别明显时,错判概率较小;否则错判概率较大。判别函数的选择直接影响到错判概率,故错判概率可用来比较不同方法的优劣。
变量(如上例中的X1和X2)选择的好坏是使用判别分析的最重要的问题,常用逐步判别的方法来筛选出一些确有判别作用的变量。利用
序贯分析的思想又产生了
序贯判别分析。例如医生在诊断时,先确定是否有病,然后确定是哪个系统有病,再确定是什么性质的病等等。
聚类分析
又称
数值分类。聚类分析和判别分析的区别在于,判别分析是已知有多少类和样本来自哪一类,需要判别新抽取的样本是来自哪一类;而聚类分析则既不知有几类,也不知样本中每一个来自哪一类。例如,为了制定服装标准,对 N个成年人,测量每人的身高(x1)、胸围(x2)、
肩宽(x3)、上体长(x4)、手臂长(x5)、前胸(x6)、后背(x7)、
腰围(x8)、
臀围(x9)、下体长(x10)等部位,要将这N个人进行分类,每一类代表一个号型;为了使用和裁剪的方便,还要对这些变量(x1,x2,…,x10)进行分类。聚类分析就是解决上述两种分类问题。
设已知N个
观测值X1,X2,…,Xn,每个观测值是一个p维向量(如上例中人的身高、胸围等)。聚类分析的思想是将每个观测值Xi看成p维空间的一个点,在p维空间中引入“距离”的概念,则可按各点间距离的远近将各点(观测值)归类。若要对 p个变量(即指标)进行分类,常定义一种“
相似系数”来衡量变量之间的亲密程度,按各变量之间相似系数的大小可将变量进行分类。根据实际问题的需要和变量的类型,对距离和相似系数有不同的
定义方法。
按距离或相似系数分类,有下列方法。①凝聚法:它是先将每个观察值{Xi}看成一类,逐步归并,直至全部观测值并成一类为止,然后将上述并类过程画成一
聚类图(或称谱系图),利用这个图可方便地得到分类。②
分解法:它是先将全部观测值看成一类,然后逐步将它们分解为2类、3类、…、N类,它是凝聚法的逆过程。③
动态聚类法:它是将观测值先粗糙地分类,然后按适当的
目标函数和规定的程序逐步调整,直至不能再调为止。
若观察值X1,X2,…,Xn之间的次序在分类时不允许打乱,则称为有序分类。例如在地质学中将地层进行分类,只能将互相邻接的地层分成一类,不能打乱上下的次序。用于这一类问题中的重要方法是费希尔于1958年提出的最优
分割法。
聚类分析也能用于预报洪水、暴雨、地震等灾害性问题,其效果比其他统计方法好。但它在理论上还很薄弱,因为它不象其他方法那样有确切的
数学模型。
主成分分析
又称
主分量分析,是将多个变量通过
线性变换以选出较少个数重要变量的一种方法。设原来有p个变量x1,x2,…,
xp,为了简化问题,选一个新变量z,
,
要求z尽可能多地反映p个变量的信息,以此来选择l1,l2,…,lp,当l1,l2,…,lp选定后,称z为x1,x2,…,xp的
主成分(或主分量)。有时仅一个主成分不足以代表原来的p个变量,可用q(
的约束下,选择l1,l2,…,lp使z的方差达到最大。
在根据样本进行主成分分析时又可分为R型分析与Q型分析。前者是用样本协差阵(或相关阵)的
特征向量作为线性函数的系数来求主成分;后者是由样品之间的
内积组成的内积阵来进行类似的处理,其目的是寻找出有
代表性的“典型”样品,这种方法在地质结构的分析中常使用。
对应分析
这是70年代
地质学家提出的方法。对非负值指标的样本资料矩阵作适当的处理后,同时进行R型与Q型的主成分分析,将结果综合在图上进行解释,可以得到指标随时间、
空间位置变化的规律。它的理论正在引起多方面的重视。
因子分析
它是由样本的资料将一组变量
y2,……yp)
分解为一些
公共因子f与
特殊因子s的
线性组合,即有常数矩阵A使у=Af+s。公共因子f 的客观内容有时是明确的,如在心理研究中,根据学生的测验成绩(指标)来分析他的反应快慢、理解深浅(公共因子);有时则是不明确的。为了寻求易于解释的公共因子,往往对
因子轴进行旋转,旋转的方法有正交旋转,斜旋转,极大变差旋转等。
从样本协差阵或相关阵求公共因子的方法有广义
最小二乘法、
最大似然法与不加权的最小二乘法等。通常在应用中,最方便的是直接利用主成分分析所得的头几个主成分,它们往往是对各个指标影响都比较大的公共因子。
典型相关分析
它是寻求两组变量各自的线性函数中
相关系数达到
最大值的一对,这称为第一对典型变量,还可以求第二对,第三对,等等,这些成对的变量,彼此是不相关的。各对的相关系数称为
典型相关系数。通过这些典型变量所代表的实际含意,可以找到这两组变量间的一些内在联系。典型相关分析虽然30年代已经出现,但未能广泛应用。
上述的各种方法可以看成广义
多元分析的内容,在有些方法中,如加上
正态性的假定,就可以讨论一些更深入的问题,例如
线性模型中有关
线性假设检验的问题,在正态的假定下,就有比较系统的结果。 多元分析也可按指标是离散的还是连续的来区分,
离散值的多元分析实质上与
列联表分析有很大部分是类似的,甚至是一样的。
非
数量指标数量化的理论和方法也是广义多元分析的一个重要的研究课题。
图书信息
作 者:王力宾
出版时间: 2010年03月
开本: 16开
定价: 35.00 元
书 名: 多元统计分析
作 者:张润楚
出版时间: 2010年8月2日
开本: 16开
定价: 46.00元
内容简介
《多元统计分析:模型、案例及SPSS应用》在编写上的基本特点是,尽可能叙述各种方法的统计思想及方法的本身操作,尽量避开
数学证明或公式推导等内容;通过案例讲述各种方法在
SPSS软件中的实现过程,以达到深入浅出、通俗易懂的目标;每章后都配有一定量的习题,以方便自学之用;最后给出两份综合模拟试题,用于检验读者的
学习效果。
本教材的适用对象主要是
财经类院校的统计专业本科生和经济与管理类学科的
硕士研究生,也适用于社会上各个领域中需要数据分析处理的广大统计工作者。
作者简介
王力宾,汉族,教授。先后于1985年和1988年毕业于
云南大学经济系
企业管理专业和
统计学专业,获
经济学学士和硕士学位。1988年8月到
云南财贸学院任教,2001年
破格晋升为教授。1992年8,q至1993年10月赴英国
格拉斯哥大学进修统计学,1998年1月至7月以教育部公派访问学者身份赴
荷兰提尔堡大学进修
西方经济学。2002年7月考入
天津财经大学统计系攻读博士,2006年12月获经济学博士学位。历任云南财贸学院计划统计系副主任、成教院常务副院长和教务处处长等职。现任
云南财经大学副校长、统计学学科带头人、
硕士生导师、
云南省统计学会副会长、
中国统计教育学会常务理事等职。
先后在《
数量经济技术经济研究》、《
数理统计与管理》、《预测》、《
云南财经大学学报》等学术刊物上发表论文30余篇,其中《中国大城市土地增值问题研究——对昆明市城区土地增值的实证分析》获
云南省第五次
社会科学优秀成果一等奖;《特征
价格理论与住房
价格指数编制方法》、《住房特征价格指数编制方法与实证分析》是我国经济学界较早介绍和研究特征价格指数编制方法的论文。主持、参与完成国家和省部级
科研课题10余项,其中“基于特征价格理论的价格指数与
商品质量变动研究”(09BTJ014)、“技术创新和
产品质量变化对云南省经济增长的影响-基于特征价格理论的研究”、“云南县城经济发展研究”、“多层次
多主题抽样
调查研究”、“云南省城镇
土地市场现状、问题与对策研究”等课题获得政府部门奖励,并产生一定的社会影响。
张润楚,
南开大学数学科学学院教授,
博士生导师,1966年毕业于
南开大学数学系并留校任教,长期担任概率
信息统计教研室副任、统计学系主任、
学校数学学科语言组委员等职。现兼任教育部数学与统计学教学指导委员会委员、
天津市统计学副会长、
中国现场统计研究会常务理事、
中国统计学会理事等职。多元统计,
数据分析,统计理论推断以及
概率统计在
保险精算中的应用等。先后主持承担国家自然
科学基金项目5项,教育部
博士点学科基金项目1项,天津市科学基金项目1项,现正在主持承担
国家自然科学基金项目“
试验设计若干最新问题研究”。先后在“
应用数学学报”和“
科学通报”等国内外学术刊物发表论文50多篇。
图书目录
第1章 统计软件概述
1.1 SPSS统计软件的特点
1.2 SPSS的主要窗口及其功能
1.2.1
数据编辑窗口(SPSS Data Editor)
1.2.2 结果输出窗口(SPSS Viewer)
1.2.3 程序语句窗口(SPSSS yntax Editor)
1.3 SPSS的帮助窗口(SPSS help)
1.3.1 Help菜单中的Topics命令
1.3.2 Help菜单中的Tutorial命令
1.3.3 Help菜单中的Statistics Coach命令
1.3.4 Help菜单中的Syntax Guide命令
1.4.2 建立数据文件
1.5 基于Compute功能建立新变量
1.5.1 生成新的变量
习题一
2.1
集中趋势(Central Tendency)分析
2.1.1 集中趋势
2.2
离散趋势(Dispersion Tendency)分析
2.2.1 离散趋势
2.3 分布特征(Distribution Tendency)分析
2.3.1 分布特征
2.3.2 SPSS中分布特征分析的实现过程
2.4
频数(Frequency)分析及
数据标准化2.4.1 频数(Frequency)
2.4.2 数据标准化
2.4.3 SPSS中频数分析的实现过程
2.5.1 相关系数概述
2.5.3 SPSS中相关分析的实现过程
习题二
3.1 统计假设检验的基本问题
3.1.1 统计假设检验的基本思想
3.1.2 统计假设检验的基本步骤
3.2 Mean过程
3.2.1 基本思想和数学模型
3.2.2 SPSS中Mean的实现过程
3.3 T检验
3.3.1 基本思想和数学模型
3.3.2 SPSS中T检验的实现过程
3.4 方差分析
3.4.1 基本思想和数学模型
3.4.2 SPSS中方差分析的实现过程
习题三
4.1.1 多元线性回归模型的一般形式
4.1.2 多元线性回归模型的基本假定
4.1.3 多元线性回归方程
4.2 多元线性回归方程的估计
4.2.1 回归参数的最小二乘估计
4.3.3 回归系数的显著性检验
4.4 残差分析
4.4.2 异常值的识别
4.4.3 自相关与DW检验
4.4.4 异方差检验
习题四
5.1 逐步回归分析概述
5.1.1 逐步回归分析的基本思想和步骤
5.1.2 引入和剔除变量的标准
5.2 计算方法和步骤
5.3 逐步回归分析在SPSS软件中的实现
习题五
6.1.2 曲线回归的数据要求与假设
6.2 曲线回归在SPSS软件中的实现
6.3.2 非线性模型的拟合原则、参数约束及确定初始值的原则
6.3.3 例题分析
6.4 非线性迭代回归在SPSS软件中的实现
6.5 Box-Cox变换
6.5.1 Box-Cox变换的提出
6.5.2 Box-Cox变换的基本思想
6.5.4 Box-Cox变换在Matlab软件中的实现
习题六
第7章 聚类分析
7.矍聚类分析的概述
7.1.1 聚类分析的概念和基本思想
7.1.2 聚类分析的种类
7.1.3 聚类方式
7.1.4 聚类分析的基本步骤
7.2.1 距离类
7.2.2 相关类,
7.2.3 数据的标准化变换
7.3 系统聚类法
7.3.2 系统聚类法的基本算法步骤
7.3.3 例题分析
7.4 聚类分析在SPSS软件中的实现
7.4.1 SPSS中Q型聚类分析的实现过程
7.4.2 SPSS中R型聚类分析的实现过程
7.5 快速聚类分析
7.5.1 快速聚类分析的基本思想
7.5.2 快速聚类分析的基本步骤
习题七
第8章 判别分析
8.直距离判别
8.1.1 两类总体的距离判别
8.1.2 多类总体的距离判别
8.2 费歇判别
8.2.1 两类总体的费歇判别
8.2.2 多类总体的费歇判别
8.3.2 多元正态总体的贝叶斯判别
8.4 判别分析在SPSS中的实现
习题
第9章 主成分分析
9.1 主成分的基本思想及其数学模型与数学推导
9.1.1 主成分的基本思想及其数学模型
9.1.2 主成分的数学推导
9.1.3 样本主成分
9.2 主成分的性质、提取及其求解步骤
9.2.1 主成分的性质
9.2.2 主成分的选取
9.2.3 主成分的求解步骤
9.3 主成分分析在SPSS软件中的实现
9.4.1 主成分回归的基本原理
9.4.2 主成分回归的实例分析
习题九
第10章 因子分析
10.1 因子分析的基本原理及其数学模型
10.1.1 因子分析的基本原理
10.1.2 因子分析的数学模型
10.1.3 因子分析模型的性质
10.2 因子分析模型参数的估计
10.3.2 方差最大正交旋转法的计算方法
10.4 因子得分
10.4.1 汤姆生因子得分
10.4.2 综合因子得分
10.5 因子分析在SPSS软件中的实现
习题十
模拟试题A
模拟试题B
参考文献
……
《大学数学科学丛书》序
前言
符号表
§1.1 随机向量及有关概念
§1.2 多元正态分布
§1.4 正态随机阵的若干性质
§1.6 指数型分布族
§1.7 其他一些多元分布
习题一
第二章 Wishart分布, T2分布, 多元Beta和Λ分布
§2.2 Wishart分布及其性质
§2.3 Hotelling T2分布
§2.5 附注
习题二
§3.3 多元分布参数估计的某些一般理论
§3.4 附注
习题三
§4.3 协方差阵Σ未知时正态总体均值向量的检验
§4.4 正态总体均值向量受约束情形的检验
§4.6 正态总体协方差阵的检验
§4.8 其他基本检验策略原则
习题四
§5.1 引言和基本模型
§5.4 广义线性回归模型的参数估计及其性质
§5.8 回归变量的选择
习题五
§6.2 Bayes判别
习题六
§7.1 引言
§7.3 主成分分析的应用
习题七
§8.1 引言
§8.3 因子模型的基本性质
§8.4 因子模型的求解
§8.7 总体因子分析模型及其参数估计和假设检验
习题八
第九章 相应分析
§9.1 引言
§9.2 相应分析的一般提法
§9.3 相应分析的求解
习题九
§10.1 相似和距离
§10.3 一次形成聚类法
§10.4 K水准逐步形成聚类法
§10.5 有序样品的聚类方法
§10.6 移动中心聚类法
习题十
§11.1 问题的阐述和记号
§11.4 典型得分和预测
习题十一
§12.1 引言
§12.3 经典解的优良性质
§12.4 非度量方法
习题十二
参考文献
附录A 代数补充知识
§A.1 矩阵运算
§A.2 分块求逆和广义逆
习题A
附录B 几种常用分布表
表B.1 正态分布上尾概率
表B.2 t分布上侧分位点tα(n)
表B.4 F分布上侧分位点Fα(ν1, ν2)
表B.5 WilksΛ分布上侧分位点Λα(p, n, m)
* * *
《大学数学科学丛书》已出版书目
作 者:符想先,靳刘蕊,王兢 著
出版时间:2009-12-1
版 次:1
页 数:316
字 数:365000
印刷时间:2009-12-1
开 本:16开
印 次:1
I S B N:9787564501709
包 装:平装