多元统计分析
从经典统计学中发展起来的一个分支
多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律,很适合农业科学研究的特点。主要内容包括多元正态分布及其抽样分布、多元正态总体的均值向量和协方差阵假设检验多元方差分析直线回归与相关、多元线性回归与相关(Ⅰ)和(Ⅱ)、主成分分析因子分析判别分析聚类分析、Shannon信息量及其应用。简称多元分析。当总体的分布是多维(多元)概率分布时,处理该总体的数理统计理论和方法。数理统计学中的一个重要的分支学科。
概念
研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律性。它的重要基础之一是多元正态分析。又称多元分析 。 如果每个个体有多个观测数据,或者从数学上说, 如果个体的观测数据能表为 P维欧几里得空间的点,那么这样的数据叫做多元数据,而分析多元数据的统计方法就叫做多元统计分析 。 它是数理统计学中的一个重要的分支学科。20世纪30年代,R.A.费希尔,H.霍特林许宝碌以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到迅速发展。50年代中期,随着电子计算机的发展和普及 ,多元统计分析在地质 、气象、生物、医学、图像处理经济分析等许多领域得到了广泛的应用 ,同时也促进了理论的发展。各种统计软件包SAS,SPSS等,使实际工作者利用多元统计分析方法解决实际问题更简单方便。重要的多元统计分析方法有:多重回归分析(简称回归分析)、判别分析、聚类分析、主成分分析对应分析因子分析、典型相关分析、多元方差分析等。
早在19世纪就出现了处理二维正态总体(见正态分布)的一些方法,但系统地处理多维概率分布总体的统计分析问题,则开始于20世纪。人们常把1928年维夏特分布的导出作为多元分析成为一个独立学科的标志。20世纪30年代,R.A.费希尔、H.霍特林、许宝禄以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到了迅速的进展。40年代,多元分析在心理、教育、生物等方面获得了一些应用。由于应用时常需要大量的计算,加上第二次世界大战的影响,使其发展停滞了相当长的时间。50年代中期,随着电子计算机的发展和普及,它在地质、气象、标准化、生物、图像处理、经济分析等许多领域得到了广泛的应用,也促进了理论的发展。
多元分析发展的初期,主要讨论如何把一元正态总体的统计理论和方法推广到多元正态总体。多元正态总体的分布由两组参数,即均值向量μ(见数学期望)和协方差矩阵(简称协差阵)∑ (见矩)所决定,记为Np(μ,∑)(p为分布的维数,故又称p维正态分布或p 维正态总体)。设X1,X2,…,Xn为来自正态总体Np(μ,∑)的样本,则μ和∑的无偏估计(见点估计)分别是
分别称之为样本均值向量和样本协差阵,它们是在各种多元分析问题中常用的统计量。样本相关阵R 也是一个重要的统计量,它的元素为
其中υij为样本协差阵S的元素。S的分布是维夏特分布,它是一元统计中的Ⅹ2分布的推广。
另一典型问题是:假定两个多维正态分布协差阵相同,检验其均值向量是否相同。设样本X1,X2,…,Xn抽自正态总体Np(μ1,∑),而Y1,Y2,…,Ym抽自Np(μ2,∑),要检验假设H 0:μ1=μ2(见假设检验)。在一元统计中使用t统计量(见统计量)作检验;在多元分析中则用T2统计量,
,其中,
,
·
,T2的分布称为T2分布。这是H.霍特林在1936年提出来的。
在上述问题中的多元与一元相应的统计量是类似的,但并非都是如此。例如,要检验k个正态总体的均值是否相等,在一元统计中是导致F统计量,但在多元分析中可导出许多统计量,最著名的有威尔克斯Λ统计量和最大相对特征根统计量。研究这些统计量的精确分布和优良性是近几十年来多元统计分析的重要理论课题。
多元统计分析有狭义与广义之分,当假定总体分布多元正态分布时,称为狭义的,否则称为广义的。近年来,狭义多元分析的许多内容已被推广到更广的分布之中,特别是推广到一种称为椭球等高分布族之中。
按多元分析所处理的实际问题的性质分类,重要的有如下几种。
多重回归分析
简称回归分析。其特点是同时处理多个因变量回归系数和常数的计算公式与通常的情况相仿,只是由于因变量不止一个,原来的每个回归系数在此都成为一个向量。因此,关于回归系数的检验要用T2统计量;对回归方程显著性检验要用Λ统计量。
回归分析在地质勘探的应用中发展了一种特殊的形式,称为趋势面分析,它以各种元素的含量作为因变量,把它们对地理坐标进行回归(选用一次、二次或高次的多项式),回归方程称为趋势面,反映了含量的趋势。残差分析是趋势面分析的重点,找出正的残差异常大的点,在这些点附近,元素的含量特别高,这就有可能形成可采的矿位。这一方法在其他领域也有应用。
判别分析
由 k个不同总体的样本来构造判别函数,利用它来决定新的未知类别的样品属于哪一类,这是判别分析所处理的问题。它在医疗诊断、天气预报、图像识别等方面有广泛的应用。例如,为了判断某人是否有心脏病,从健康的人和有心脏病的人这两个总体中分别抽取样本,对每人各测两个指标X1和X2,点绘如图1 。可用直线A将平面分成g1和g2两部分,落在g1的绝大部分为健康者,落在g2的绝大部分为心脏病人,利用A的垂线方向l=(l1,l2)来建立判别函数
y=l1X1+l2X2,可以求得一常数с,使 y<с 等价于(X1,X2)落在g1,y>с等价于(X1,X2)落在g2。由此得判别规则:若,l1X1+l2X2
判,即此人为健康者;若,l1X1+l2X2>C
判,
即此人为心脏病人;若,l1X1+l2X2=c则为待判。此例的判别函数线性函数,它简单方便,在实际问题中经常使用。但有时也用非线性判别函数,特别是二次判别函数。建立判别函数和判别规则有不少准则和方法,常用的有贝叶斯准则、费希尔准则、距离判别、回归方法和非参数方法等。
无论用哪一种准则或方法所建立的判别函数和判别规则,都可能产生错判,错判所占的比率用错判概率来度量。当总体间区别明显时,错判概率较小;否则错判概率较大。判别函数的选择直接影响到错判概率,故错判概率可用来比较不同方法的优劣。
变量(如上例中的X1和X2)选择的好坏是使用判别分析的最重要的问题,常用逐步判别的方法来筛选出一些确有判别作用的变量。利用序贯分析的思想又产生了序贯判别分析。例如医生在诊断时,先确定是否有病,然后确定是哪个系统有病,再确定是什么性质的病等等。
聚类分析
又称数值分类。聚类分析和判别分析的区别在于,判别分析是已知有多少类和样本来自哪一类,需要判别新抽取的样本是来自哪一类;而聚类分析则既不知有几类,也不知样本中每一个来自哪一类。例如,为了制定服装标准,对 N个成年人,测量每人的身高(x1)、胸围(x2)、肩宽(x3)、上体长(x4)、手臂长(x5)、前胸(x6)、后背(x7)、腰围(x8)、臀围(x9)、下体长(x10)等部位,要将这N个人进行分类,每一类代表一个号型;为了使用和裁剪的方便,还要对这些变量(x1,x2,…,x10)进行分类。聚类分析就是解决上述两种分类问题。
设已知N个观测值X1,X2,…,Xn,每个观测值是一个p维向量(如上例中人的身高、胸围等)。聚类分析的思想是将每个观测值Xi看成p维空间的一个点,在p维空间中引入“距离”的概念,则可按各点间距离的远近将各点(观测值)归类。若要对 p个变量(即指标)进行分类,常定义一种“相似系数”来衡量变量之间的亲密程度,按各变量之间相似系数的大小可将变量进行分类。根据实际问题的需要和变量的类型,对距离和相似系数有不同的定义方法
按距离或相似系数分类,有下列方法。①凝聚法:它是先将每个观察值{Xi}看成一类,逐步归并,直至全部观测值并成一类为止,然后将上述并类过程画成一聚类图(或称谱系图),利用这个图可方便地得到分类。②分解法:它是先将全部观测值看成一类,然后逐步将它们分解为2类、3类、…、N类,它是凝聚法的逆过程。③动态聚类法:它是将观测值先粗糙地分类,然后按适当的目标函数和规定的程序逐步调整,直至不能再调为止。
若观察值X1,X2,…,Xn之间的次序在分类时不允许打乱,则称为有序分类。例如在地质学中将地层进行分类,只能将互相邻接的地层分成一类,不能打乱上下的次序。用于这一类问题中的重要方法是费希尔于1958年提出的最优分割法
聚类分析也能用于预报洪水、暴雨、地震等灾害性问题,其效果比其他统计方法好。但它在理论上还很薄弱,因为它不象其他方法那样有确切的数学模型
主成分分析
又称主分量分析,是将多个变量通过线性变换以选出较少个数重要变量的一种方法。设原来有p个变量x1,x2,…,xp,为了简化问题,选一个新变量z,
,
要求z尽可能多地反映p个变量的信息,以此来选择l1,l2,…,lp,当l1,l2,…,lp选定后,称z为x1,x2,…,xp的主成分(或主分量)。有时仅一个主成分不足以代表原来的p个变量,可用q(
的约束下,选择l1,l2,…,lp使z的方差达到最大。
在根据样本进行主成分分析时又可分为R型分析与Q型分析。前者是用样本协差阵(或相关阵)的特征向量作为线性函数的系数来求主成分;后者是由样品之间的内积组成的内积阵来进行类似的处理,其目的是寻找出有代表性的“典型”样品,这种方法在地质结构的分析中常使用。
对应分析
这是70年代地质学家提出的方法。对非负值指标的样本资料矩阵作适当的处理后,同时进行R型与Q型的主成分分析,将结果综合在图上进行解释,可以得到指标随时间、空间位置变化的规律。它的理论正在引起多方面的重视。
因子分析
它是由样本的资料将一组变量
y2,……yp)
分解为一些公共因子f与特殊因子s的线性组合,即有常数矩阵A使у=Af+s。公共因子f 的客观内容有时是明确的,如在心理研究中,根据学生的测验成绩(指标)来分析他的反应快慢、理解深浅(公共因子);有时则是不明确的。为了寻求易于解释的公共因子,往往对因子轴进行旋转,旋转的方法有正交旋转,斜旋转,极大变差旋转等。
从样本协差阵或相关阵求公共因子的方法有广义最小二乘法最大似然法与不加权的最小二乘法等。通常在应用中,最方便的是直接利用主成分分析所得的头几个主成分,它们往往是对各个指标影响都比较大的公共因子。
典型相关分析
它是寻求两组变量各自的线性函数中相关系数达到最大值的一对,这称为第一对典型变量,还可以求第二对,第三对,等等,这些成对的变量,彼此是不相关的。各对的相关系数称为典型相关系数。通过这些典型变量所代表的实际含意,可以找到这两组变量间的一些内在联系。典型相关分析虽然30年代已经出现,但未能广泛应用。
上述的各种方法可以看成广义多元分析的内容,在有些方法中,如加上正态性的假定,就可以讨论一些更深入的问题,例如线性模型中有关线性假设检验的问题,在正态的假定下,就有比较系统的结果。  多元分析也可按指标是离散的还是连续的来区分,离散值的多元分析实质上与列联表分析有很大部分是类似的,甚至是一样的。
数量指标数量化的理论和方法也是广义多元分析的一个重要的研究课题。
图书信息
作 者:王力宾
出版时间: 2010年03月
ISBN: 9787505891029
开本: 16开
定价: 35.00 元
书 名: 多元统计分析
作 者:张润楚
出版社: 科学出版社
出版时间: 2010年8月2日
ISBN: 9787030177797
开本: 16开
定价: 46.00元
内容简介
《多元统计分析:模型、案例及SPSS应用》在编写上的基本特点是,尽可能叙述各种方法的统计思想及方法的本身操作,尽量避开数学证明或公式推导等内容;通过案例讲述各种方法在SPSS软件中的实现过程,以达到深入浅出、通俗易懂的目标;每章后都配有一定量的习题,以方便自学之用;最后给出两份综合模拟试题,用于检验读者的学习效果
本教材的适用对象主要是财经类院校的统计专业本科生和经济与管理类学科的硕士研究生,也适用于社会上各个领域中需要数据分析处理的广大统计工作者。
本书讲述多元统计的基础理论多元数据的分析方法。
作者简介
王力宾,汉族,教授。先后于1985年和1988年毕业于云南大学经济系企业管理专业统计学专业,获经济学学士和硕士学位。1988年8月到云南财贸学院任教,2001年破格晋升为教授。1992年8,q至1993年10月赴英国格拉斯哥大学进修统计学,1998年1月至7月以教育部公派访问学者身份赴荷兰提尔堡大学进修西方经济学。2002年7月考入天津财经大学统计系攻读博士,2006年12月获经济学博士学位。历任云南财贸学院计划统计系副主任、成教院常务副院长和教务处处长等职。现任云南财经大学副校长、统计学学科带头人、硕士生导师云南省统计学会副会长、中国统计教育学会常务理事等职。
先后在《数量经济技术经济研究》、《数理统计与管理》、《预测》、《云南财经大学学报》等学术刊物上发表论文30余篇,其中《中国大城市土地增值问题研究——对昆明市城区土地增值的实证分析》获云南省第五次社会科学优秀成果一等奖;《特征价格理论与住房价格指数编制方法》、《住房特征价格指数编制方法与实证分析》是我国经济学界较早介绍和研究特征价格指数编制方法的论文。主持、参与完成国家和省部级科研课题10余项,其中“基于特征价格理论的价格指数与商品质量变动研究”(09BTJ014)、“技术创新和产品质量变化对云南省经济增长的影响-基于特征价格理论的研究”、“云南县城经济发展研究”、“多层次多主题抽样调查研究”、“云南省城镇土地市场现状、问题与对策研究”等课题获得政府部门奖励,并产生一定的社会影响。
张润楚,南开大学数学科学学院教授,博士生导师,1966年毕业于南开大学数学系并留校任教,长期担任概率信息统计教研室副任、统计学系主任、学校数学学科语言组委员等职。现兼任教育部数学与统计学教学指导委员会委员、天津市统计学副会长、中国现场统计研究会常务理事、中国统计学会理事等职。多元统计,数据分析,统计理论推断以及概率统计保险精算中的应用等。先后主持承担国家自然科学基金项目5项,教育部博士点学科基金项目1项,天津市科学基金项目1项,现正在主持承担国家自然科学基金项目“试验设计若干最新问题研究”。先后在“应用数学学报”和“科学通报”等国内外学术刊物发表论文50多篇。
图书目录
第1章 统计软件概述
1.1 SPSS统计软件的特点
1.2 SPSS的主要窗口及其功能
1.2.1 数据编辑窗口(SPSS Data Editor)
1.2.2 结果输出窗口(SPSS Viewer)
1.2.3 程序语句窗口(SPSSS yntax Editor)
1.3 SPSS的帮助窗口(SPSS help)
1.3.1 Help菜单中的Topics命令
1.3.2 Help菜单中的Tutorial命令
1.3.3 Help菜单中的Statistics Coach命令
1.3.4 Help菜单中的Syntax Guide命令
1.4 定义变量及建立数据文件
1.4.2 建立数据文件
1.5 基于Compute功能建立新变量
1.5.1 生成新的变量
1.5.2 Functions框中分布函数的功能
习题一
第2章 数据描述性分析
2.1 集中趋势(Central Tendency)分析
2.1.1 集中趋势
2.1.2 SPSS中集中趋势分析实现过程
2.2 离散趋势(Dispersion Tendency)分析
2.2.1 离散趋势
2.2.2 SPSS中离散趋势分析实现过程
2.3 分布特征(Distribution Tendency)分析
2.3.1 分布特征
2.3.2 SPSS中分布特征分析的实现过程
2.4 频数(Frequency)分析及数据标准化
2.4.1 频数(Frequency)
2.4.2 数据标准化
2.4.3 SPSS中频数分析的实现过程
2.4.4 SPSS中Z分数的实现过程
2.5.1 相关系数概述
2.5.3 SPSS中相关分析的实现过程
习题二
第3章 假设检验与方差分析
3.1 统计假设检验的基本问题
3.1.1 统计假设检验的基本思想
3.1.2 统计假设检验的基本步骤
3.2 Mean过程
3.2.1 基本思想和数学模型
3.2.2 SPSS中Mean的实现过程
3.3 T检验
3.3.1 基本思想和数学模型
3.3.2 SPSS中T检验的实现过程
3.4 方差分析
3.4.1 基本思想和数学模型
3.4.2 SPSS中方差分析的实现过程
习题三
第4章 多元线性回归分析
4.1.1 多元线性回归模型的一般形式
4.1.2 多元线性回归模型的基本假定
4.1.3 多元线性回归方程
4.1.4 多元线性回归方程的解释
4.2 多元线性回归方程的估计
4.2.1 回归参数的最小二乘估计
4.2.2 误差项方差的估计
4.3.1 回归方程的拟合优度检验
4.3.2 回归方程的整体显著性检验
4.3.3 回归系数的显著性检验
4.4 残差分析
4.4.1 残差图
4.4.2 异常值的识别
4.4.3 自相关与DW检验
4.4.4 异方差检验
4.4.5 多重共线性检验
4.5 多元线性回归分析在SPSS软件中的实现
习题四
5.1 逐步回归分析概述
5.1.1 逐步回归分析的基本思想和步骤
5.1.2 引入和剔除变量的标准
5.2 计算方法和步骤
5.3 逐步回归分析在SPSS软件中的实现
习题五
第6章 非线性回归分析
6.1.1 曲线回归的基本思想和方法
6.1.2 曲线回归的数据要求与假设
6.1.3 曲线回归的基本类型及线性化方法
6.2 曲线回归在SPSS软件中的实现
6.3.1 非线性模型的迭代估计法
6.3.2 非线性模型的拟合原则、参数约束及确定初始值的原则
6.3.3 例题分析
6.4 非线性迭代回归在SPSS软件中的实现
6.5 Box-Cox变换
6.5.1 Box-Cox变换的提出
6.5.2 Box-Cox变换的基本思想
6.5.3 变换参数的极大似然估计
6.5.4 Box-Cox变换在Matlab软件中的实现
习题六
第7章 聚类分析
7.矍聚类分析的概述
7.1.1 聚类分析的概念和基本思想
7.1.2 聚类分析的种类
7.1.3 聚类方式
7.1.4 聚类分析的基本步骤
7.2 聚类统计量
7.2.1 距离类
7.2.2 相关类,
7.2.3 数据的标准化变换
7.3 系统聚类法
7.3.1 常用系统聚类法
7.3.2 系统聚类法的基本算法步骤
7.3.3 例题分析
7.4 聚类分析在SPSS软件中的实现
7.4.1 SPSS中Q型聚类分析的实现过程
7.4.2 SPSS中R型聚类分析的实现过程
7.5 快速聚类分析
7.5.1 快速聚类分析的基本思想
7.5.2 快速聚类分析的基本步骤
7.5.3 SPSS中快速聚类的实现过程
习题七
第8章 判别分析
8.直距离判别
8.1.1 两类总体的距离判别
8.1.2 多类总体的距离判别
8.2 费歇判别
8.2.1 两类总体的费歇判别
8.2.2 多类总体的费歇判别
8.3.1 贝叶斯判别准则
8.3.2 多元正态总体的贝叶斯判别
8.4 判别分析在SPSS中的实现
习题
第9章 主成分分析
9.1 主成分的基本思想及其数学模型与数学推导
9.1.1 主成分的基本思想及其数学模型
9.1.2 主成分的数学推导
9.1.3 样本主成分
9.2 主成分的性质、提取及其求解步骤
9.2.1 主成分的性质
9.2.2 主成分的选取
9.2.3 主成分的求解步骤
9.3 主成分分析在SPSS软件中的实现
9.4.1 主成分回归的基本原理
9.4.2 主成分回归的实例分析
习题九
第10章 因子分析
10.1 因子分析的基本原理及其数学模型
10.1.1 因子分析的基本原理
10.1.2 因子分析的数学模型
10.1.3 因子分析模型的性质
10.1.4 因子载荷矩阵中的几个统计特征
10.2 因子分析模型参数的估计
10.3.1 方差最大正交旋转法的基本原理
10.3.2 方差最大正交旋转法的计算方法
10.4 因子得分
10.4.1 汤姆生因子得分
10.4.2 综合因子得分
10.5 因子分析在SPSS软件中的实现
习题十
模拟试题A
模拟试题B
参考文献
……
《大学数学科学丛书》序
前言
符号表
§1.1 随机向量及有关概念
§1.2 多元正态分布
§1.3 正态向量的条件分布相关性
§1.4 正态随机阵的若干性质
§1.5 椭球等高分布族
§1.6 指数型分布族
§1.7 其他一些多元分布
习题一
第二章 Wishart分布, T2分布, 多元Beta和Λ分布
§2.1 正态向量的二次型
§2.2 Wishart分布及其性质
§2.3 Hotelling T2分布
§2.4 多元Beta分布及有关统计量
§2.5 附注
习题二
第三章 多元分布的参数估计
§3.1 正态分布均值向量和协差阵的估计
§3.3 多元分布参数估计的某些一般理论
§3.4 附注
习题三
§4.1 一般假设检验问题和似然比检验统计量
§4.2 协方差阵已知时正态总体均值向量的检验
§4.3 协方差阵Σ未知时正态总体均值向量的检验
§4.4 正态总体均值向量受约束情形的检验
§4.5 一般总体均值大样本推断
§4.6 正态总体协方差阵的检验
§4.7 多个正态总体的参数检验问题
§4.8 其他基本检验策略原则
习题四
第五章 多元线性统计模型
§5.1 引言和基本模型
§5.2 正态回归模型的参数MLE估计及预测
§5.3 线性回归模型参数的最小二乘估计及其性质
§5.4 广义线性回归模型的参数估计及其性质
§5.5 正态回归模型参数的假设检验
§5.6 设计阵X降秩情形的回归
§5.8 回归变量的选择
习题五
第六章 判别分析
§6.2 Bayes判别
习题六
第七章 主成分分析
§7.1 引言
§7.2 数据拟合思想
§7.3 主成分分析的应用
§7.4 对多元总体的主成分分析及其估计与检验
习题七
第八章 因子分析
§8.1 引言
§8.2 基本因子分析模型
§8.3 因子模型的基本性质
§8.4 因子模型的求解
§8.6 方差最大正交旋转
§8.7 总体因子分析模型及其参数估计和假设检验
习题八
第九章 相应分析
§9.1 引言
§9.2 相应分析的一般提法
§9.3 相应分析的求解
§9.4 相应分析的适用性检验
习题九
第十章 聚类分析
§10.1 相似和距离
§10.3 一次形成聚类法
§10.4 K水准逐步形成聚类法
§10.5 有序样品的聚类方法
§10.6 移动中心聚类法
习题十
第十一章 典型相关分析
§11.1 问题的阐述和记号
§11.2 求解方法和典型变量的性质
§11.3 典型分析的几何解释
§11.4 典型得分和预测
§11.5 定性数据的典型分析
习题十一
§12.1 引言
§12.2 距离阵和经典解
§12.3 经典解的优良性质
§12.4 非度量方法
习题十二
参考文献
附录A 代数补充知识
§A.1 矩阵运算
§A.2 分块求逆和广义逆
§A.3 几种特殊矩阵及其性质
§A.4 矩阵微分及变换Jacobi行列式
习题A
附录B 几种常用分布表
表B.1 正态分布上尾概率
表B.2 t分布上侧分位点tα(n)
表B.3 χ2分布上侧分位点χ2α(ν)
表B.4 F分布上侧分位点Fα(ν1, ν2)
表B.5 WilksΛ分布上侧分位点Λα(p, n, m)
* * *
《大学数学科学丛书》已出版书目
作 者:符想先,靳刘蕊,王兢 著
出 版 社:郑州大学出版社
出版时间:2009-12-1
版 次:1
页 数:316
字 数:365000
印刷时间:2009-12-1
开 本:16开
纸 张:胶版纸
印 次:1
I S B N:9787564501709
包 装:平装
参考资料
最新修订时间:2024-07-14 09:18
目录
概述
概念
参考资料