线性判别分析
统计学术语
线性判别分析(linear discriminant analysis,LDA)是对费舍尔的线性鉴别方法的归纳,这种方法使用统计学模式识别和机器学习方法,试图找到两类物体或事件的特征的一个线性组合,以能够特征化或区分它们。所得的组合可用来作为一个线性分类器,或者,更常见的是,为后续的分类做降维处理。
简介
线性判别分析是一种经典的线性学习方法,在二分类问题上最早由Fisher在1936年提出,亦称Fisher线性判别。线性判别的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异样样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的直线上,再根据投影点的位置来确定新样本的类别。
LDA与方差分析(ANOVA)和回归分析紧密相关,这两种分析方法也试图通过一些特征或测量值的线性组合来表示一个因变量。然而,方差分析使用类别自变量和连续数因变量,而判别分析连续自变量和类别因变量(即类标签)。逻辑回归和概率回归比方差分析更类似于LDA,因为他们也是用连续自变量来解释类别因变量的。
LDA的基本假设是自变量是正态分布的,当这一假设无法满足时,在实际应用中更倾向于用上述的其他方法。LDA也与主成分分析(PCA)和因子分析紧密相关,它们都在寻找最佳解释数据的变量线性组合。LDA明确的尝试为数据类之间不同建立模型。 另一方面,PCA不考虑类的任何不同,因子分析是根据不同点而不是相同点来建立特征组合。判别的分析不同因子分析还在于,它不是一个相互依存技术:即必须区分出自变量和因变量(也称为准则变量)的不同。在对自变量每一次观察测量值都是连续量的时候,LDA能有效的起作用。当处理类别自变量时,与LDA相对应的技术称为判别反应分析。
优点
Fisher提出LDA距今已近七十年,仍然是降维和模式分类领域应用中最为广泛采用而且极 为有效的方法之一,其典型应用包括人脸检测、人脸识别、基于视觉飞行的地平线检测、目标跟踪和检测、信用卡欺诈检测和图像检索、语音识别等。之所以有如此广泛的应用,其 主要原因是,LDA(包括其多类推广)具有以下优点:可以直接求得基于广义特征值问题的解析解,从而避免了在一般非线性算法中,如多层感知器,构建中所常遇到的局部最小问题无需对模式的输出类别进行人为的编码,从而使 LDA 对不平衡模式类的处理表现出尤其明显的优势。与神经网络方法相比,LDA 不需要调整参数,因而也不存在学习参数和优化权重以及神经元激活函数的选择等问题;对模式的归一化或随机化不敏感,而这在基于梯度 下降的各种算法中则显得比较突出。在某些实际情形中,LDA 具有与基于结构风险最小化原理的支持向量机(SVM)相当的甚至更优的推广性能,但其计算效率则远优于SVM。正则判别分析法(CDA)寻找最优区分类别的坐标轴(k-1个正则坐标,k为类别的数量)。 这些线性函数是不相关的,实际上,它们通过n维数据云定义了一个最优化的k-1个空间,能够最优的区分k个类(通过其在空间的投影)。。
多类LDA:当出现超过两类的情况时,可以使用由费舍尔判别派生出的分析方法,它延伸为寻找一个保留了所有类的变化性的子空间。这是由 C.R.Rao 总结出来的。假设,C个类中每一个类都有均值和相同的协方差。
要实现典型的LDA技术前提是所有的样本都必须提前准备完毕。但有些情况下,没有现成的完整数据集或者输入观察数据是流的形式。这样,就要求LDA的特征提取有能力随着观察新样本的增加而更新LDA的特征,而不是在整个数据集上运行算法。例如,在移动机器人或实时脸部识别等实时应用中,提取的LDA特征能随着新观察值实时更新是非常重要的。这种能够通过简单观察新样本来更新LDA特征的技术就叫做增量LDA算法,在过去二十年里,它已经被广泛的研究过。Catterjee和Roychowdhury提出了一种增量自组织LDA算法来更新LDA特征。另外,Demir和Ozmehmet提出利用误差改正和赫布学习规则的线上本地学习算法来更新LDA特征。最后,Aliyari等人提供了快速增量LDA算法。
应用领域
破产预测
在基于财务比率和其他金融变量的破产预测中,LDA是第一个用来系统解释公司进入破产或存活的统计学工具。尽管受到财务比率不遵守LDA正态分布假设的限制,Edward Altman的1968年模型仍然是实际应用的领先者。
脸部识别
在计算机化的脸部识别中,每一张脸由大量像素值表达。 LDA在这里的主要作用是把特征的数量降到可管理的数量后再进行分类。每一个新的维度都是模板里像素值的线性组合。使用费舍尔线性判别得到的线性组合称为费舍尔脸,而通过主成分分析(PCA)得到称为特征脸。
市场营销
市场营销,判别分析曾经常用于通过市场调查或其他数据收集手段,找出那些能区分不同客户或产品类型的多个因素。如今用的更多的是逻辑回归或其他方法。在市场营销中使用判别分析的具体步骤如下描述:
制定问题并收集数据 -- 识别消费者评估产品的一些显著属性 一 用定量市场研究技术(例如市场调查)从潜在消费者中收集关于他们对产品所有属性的评分数据。数据收集阶段通常是由专业的市场调查公司完成的。调查人员选择一系列属性,请参与者对他们给出1到5(或者1到7,1到10)的评分。通常选5到20个属性。通常包括:易用度,重量,准确度,耐用性,色彩度,价格,或尺寸。根据研究的产品选择不同的属性。在调查中对所有的产品都问相同的问题。多个产品的数据编码后,输入统计分析程序,比如R,SPSS或SAS。。
估计的判别函数的系数并确定统计显著水平和有效性 -- 选择适当的判别分析方法。直接的方法涉及估计判别函数,以便所有的预测器同时被评估。逐步的方法顺序进入的预测器。当因变量只有两类或状态时,适用两组的方法。因变量多于三个是,用多类判别方法。在SPSS或者SAS里的F统计包,用Wilks's Lambda检验显著水平。最常用的有效性检验方法是,将样本分为两组:估计/分析样本和验证样本。估计样本用来构建判别函数,验证样本构建分类矩阵,其中包括正确分类和不正确分类的数量。正确分类案例的百分比称为命中率。将结果画在二维图里,定义维度,并解释结果。统计程序(或相关模块)会将结果做出图,包括每个产品(通常为二维空间)。每个产品之间的距离表明他们不同的程度。研究者必须给每个维度注明标签。整个过程需要主观判断,非常具有挑战性。。
生物医学研究
判别分析在医学的主要应用是评估患者的严重程度和对疾病结果的预后判断。比如,在回顾分析中,根据患者的病情分为几组:轻微,中度和严重。通过对临床和实验室分析结果的研究,揭示被研究组中哪些变量是统计上不同的。使用这些变量建立判别函数,帮助将未来的患者客观的划分到轻微,中度和严重的类别里。在生物学中,类似的原则被用以划分和定义不同的生物对象。例如,用傅立叶变换红外光谱定义沙门氏菌的噬菌体类别 检测大肠杆菌的动物来源以研究它的毒力因子等。
地球科学
这种方法可用于区分蚀变带。例如,当很多带的不同数据都现成时,判别分析可以从数据中找到模式并有效的对它分类。
参考资料
最新修订时间:2023-02-26 09:43
目录
概述
简介
参考资料