分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
分类器的构造和实施
分类器的构造和实施大体会经过以下几个步骤:
几种基本的分类器
1.决策树分类器
提供一个属性集合,决策树通过在属性集的基础上作出一系列的决策,将数据分类。这个过程类似于通过一个植物的特征来辨认植物。可以应用这样的分类器来判定某人的信用程度,比如,一个决策树可能会断定“一个有家、拥有一辆价值在1.5 万到2.3 万美元之间的轿车、有两个孩子的人”拥有良好的信用。决策树生成器从一个“训练集”中生成决策树。SGI 公司的数据挖掘工具MineSet 所提供的可视化工具使用树图来显示决策树分类器的结构,在图中,每一个决策用树的一个节点来表示。图形化的表示方法可以帮助用户理解分类算法,提供对数据的有价值的观察视角。生成的分类器可用于对数据的分类。
2. 选择树分类器
选择树分类器使用与决策树分类器相似的技术对数据进行分类。与决策树不同的是,选择树中包含特殊的选择节点,选择节点有多个分支。比如,在一棵用于区分汽车产地的选择树中的一个选择节点可以选择马力、汽缸数目或汽车重量等作为信息属性。在决策树中,一个节点一次最多可以选取一个属性作为考虑对象。在选择树中进行分类时,可以综合考虑多种情况。选择树通常比决策树更准确,但是也大得多。选择树生成器使用与决策树生成器生成决策树同样的算法从训练集中生成选择树。MineSet 的可视化工具使用选择树图来显示选择树。树图可以帮助用户理解分类器,发现哪个属性在决定标签属性值时更重要。同样可以用于对数据进行分类。
3. 证据分类器
分类器的准确度评估方法