在
机器学习领域,分类的目标是指将具有相似特征的对象聚集。而一个线性分类器则透过特征的
线性组合来做出分类决定,以达到此种目的。对象的特征通常被描述为特征值,而在向量中则描述为特征向量。
其中 是一个权重向量,而f是一个函数,该函数可以通过预先定义的功能块,映射两个向量的
点积,得到希望的输出。权重向量
对于一个二元分类问题,可以设想成是将一个线性分类利用
超平面作为最快分类器,线性分类器通常应用于对分类速度有较高要求的情况下,特别是当 为稀疏向量时。虽然如此,
决策树可以更快。此外,当 的维度很大时,线形分类器通常表现良好。如
文本分类时,传统上, 中的一个元素是文章所使用到的某个辞汇的出现的次数。在这种情况下,分类器应被适当地
正则化。
第二种方式则称为
判别模型(discriminative models),这种方法是试图去最大化一个
训练集(training set)的输出值。在训练的成本函数中有一个额外的项加入,可以容易地表示
正则化。例子包含:
注意:相对于名字,线性判别分析在
分类学并不属于判别模型这类。然而,当我们比较线性判别分析和另一主要的线性
降维算法:
主成分分析,它的名字则是有意义的。线性判别分析是一个
监督式学习算法,会使用资料中的标签。而主成分分析是一个不考虑标签的
非监督式学习算法。简而言之,这个名字是一个历史因素。
统计分类考虑一个集合,每一个元素是一个对物件或事件观察后所得的向量x,每一个都被分成y。 这个集合一般被称为训练资料。 问题是在于,要如何决定一个新的观察项目其最好的类别应是哪一种。 对一个二次分类器,它假设其解会成二次关系,所以y是由以下来决定:
在特列的情况下,每个观察牵涉到两个测量项。 这意味着,这切分的平面将是
圆锥曲线之一(如:
直线、
圆、
椭圆、
抛物线、
双曲线)。