核函数,统计学术语,
支持向量机通过某非线性变换 φ( x) ,将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算,而在低维输入空间又存在某个函数 K(x, x′) ,它恰好等于在高维空间中这个内积,即K( x, x′) =φ( x) ⋅φ( x′) ; 。那么支持向量机就不用计算复杂的非线性变换,而由这个函数 K(x, x′) 直接得到非线性变换的内积,使大大简化了计算。这样的函数 K(x, x′) 称为核函数。
历史
早在1964年Aizermann等在势函数方法的研究中就将该技术引入到机器学习领域,但是直到1992年Vapnik等利用该技术成功地将线性SVMs推广到非线性SVMs时其潜力才得以充分挖掘。而核函数的理论则更为古老,
Mercer定理可以追溯到1909年,再生核
希尔伯特空间(ReproducingKernel Hilbert Space, RKHS)研究是在20世纪40年代开始的。
定义
核函数包括线性核函数、多项式核函数、
高斯核函数等,其中高斯核函数最常用,可以将数据映射到无穷维,也叫做
径向基函数(Radial Basis Function 简称 RBF),是某种沿
径向对称的
标量函数。通常定义为空间中任一点x到某一中心xc之间
欧氏距离的
单调函数,可记作 k(||x-xc||), 其作用往往是局部的,即当x远离xc时函数取值很小。
分类
核函数的选择要求满足
Mercer定理(Mercer's theorem),即核函数在样本空间内的任意
格拉姆矩阵(Gram matrix)为
半正定矩阵(semi-positive definite)。常用的核函数有:
线性核函数,
多项式核函数,径向基核函数,Sigmoid核函数和
复合核函数,
傅立叶级数核,B样条核函数和张量积核函数等。
平稳和各向同性核函数
具有平稳性(stationarity)的核函数仅是特征空间下样本间向量的函数,对指数集的平移变换保持不变(translation invariant)。若样本的协方差与其向量的方向无关,即仅与距离有关,则可使用具有
各向同性(isotropy)的核函数。很多核函数同时满足平稳性和各向同性,这里给出其常见例子:
式中,为RBF核的超参数,定义了学习样本间相似性的特征长度尺度(characteristic length-scale),即权重空间视角下特征空间映射前后样本间距离的比例。
2. 马顿核(Matérn kernel)
式中为核函数的超参数,为修正
贝塞尔函数(modified Bessel function)。由修正贝塞尔函数的定义可知,马顿核是指数函数与多项式函数的乘积,其可导性,或平滑程度与有关,的常见选择为1.5和2.5。当时,马顿核等价于以为特征尺度的RBF核。
3. 指数函数核(exponential kernel)
指数函数核是马顿核在的特殊形式,通常对应奥恩斯坦-乌伦贝克过程(Ornstein-Uhlenbeck Process, OU)。OU过程是一个连续但不平滑(均方不可导)的随机过程。其对应的数学模型是
维纳过程(Wiener process)下质点运动的速度。
4. 二次有理函数核(rational quadratic kernel, RQ kernel)
式中为超参数。可以证明,RQ核是无穷个RBF核的线性叠加,当趋于无穷时,RQ核等价于以为特征尺度的RBF核。
其它
1. 周期核函数(periodickernel)
平稳核函数可以用于构建周期核函数:式中,表示该核函数具有的周期,例如由RBF核得到的周期核的形式为:。
2. 内积核函数(dot product kernel)
内积核函数也被称为多项式核函数,其形式为:,式中表示多项式的阶数。
3. 各向异性核函数
对各向同性核函数,定义可将各向同性核函数转化为各向异性核函数,式中是表征各向异性的函数,其格拉姆矩阵的对角元素表示对不同维度所取的不同尺度。
理论
根据模式识别理论,低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分,但是如果直接采用这种技术在高维空间进行分类或回归,则存在确定非线性映射函数的形式和参数、特征空间维数等问题,而最大的障碍则是在高维特征空间运算时存在的“维数灾难”。采用核函数技术可以有效地解决这样问题。
设x,z∈X,X属于R(n)空间,非线性函数Φ实现输入空间X到特征空间F的映射,其中F属于R(m),n<
K(x,z) =<Φ(x),Φ(z) > (1)
其中:<, >为内积,K(x,z)为核函数。从式(1)可以看出,核函数将m维高维空间的
内积运算转化为n维低维输入空间的核函数计算,从而巧妙地解决了在高维特征空间中计算的“
维数灾难”等问题,从而为在高维特征空间解决复杂的分类或回归问题奠定了理论基础。
性质
核函数具有以下性质:
(1)核函数的引入避免了“维数灾难”,大大减小了计算量。而输入空间的维数n对核函数矩阵无影响,因此,核函数方法可以有效处理高维输入。
(2)无需知道非线性变换函数Φ的形式和参数.
(3)核函数的形式和参数的变化会隐式地改变从输入空间到特征空间的映射,进而对特征空间的性质产生影响,最终改变各种核函数方法的性能。
(4)核函数方法可以和不同的算法相结合,形成多种不同的基于核函数技术的方法,且这两部分的设计可以单独进行,并可以为不同的应用选择不同的核函数和算法。