聚类和分类
情报学中管理信息和进行情报分析研究的手段
聚类和分类,情报学中管理信息和进行情报分析研究的重要手段,并且聚类是指利用计算机根据样本之间的相似度将整个样本集合聚集成若干个类的过程。
解释
聚类是指利用计算机根据样本之间的相似度将整个样本集合聚集成若干个类的过程。其目标是使得属于同一个类的样本尽量相似,而属于不同类的样本差别明显。系统聚类法和k-Means算法是目前聚类分析中应用最多的两种方法。
分类(这里仅指自动分类)是根据已经掌握的每类若干样本的数据信息,总结出分类的规律性,建立判别公式和判别规则。当遇到新的样本时,只需根据判别公式和判别规则,就能判别该样本所属的类别。
分类技术包括统计、模式识别、人工智能、神经网络等多个领域。目前常用的分类方法有Bayes判别法、k最近邻(kNN)方法、支持向量机(SVM)方法、决策树方法等。
区别
聚类是一种无指导的学习过程,而分类则是有指导的学习过程。聚类和分类的区别还在于:聚类事先没有类表,完全是按照样本间的相似度来进行,即先有样本后有类;而分类则是基于某种预定的类表,将类表中的条目赋给样本,即先有类后有样本。
参考资料
聚类和分类.中国大百科全书.
最新修订时间:2024-05-21 15:23
目录
概述
解释
区别
参考资料