文档分类是图书馆学, 信息学和
计算机科学中的一个问题。其任务是将一个文档分配到一个或者多个类别中。它可以是通过人工分类完成的,也可以是通过
计算机算法实现的。多数通过人工的文档分类问题一直属于图书馆学的领域,而通过算法实现的文档分类问题则多属于信息学和计算机科学的领域。这些问题之间是有相同的部分的,所以有一些对文档分类的跨学科研究。
基于内容的分类方法是通过特殊主题上的不同权重来决定该文档被分到哪个类别中的。一般来说,在图书馆中,当一个文档被划分到某个类别时,这个文档中至少要有20%的内容是关于这个类的。在自动分类的领域,这个标准可能是一些给定单词在文档中出现的频率。
面向请求的分类(或者索引) 是通过向用户获得请求后,根据用户的请求将文档进行分类。一个形象的比喻,好比分类器会问自己:“我应该通过哪种特征找到这些文档呢”,或者“通过哪些本质特征能够让我找出我身边相关的文档呢?”
面向请求的分类主要的适用对象是一个特定的用户或群体。比方说,一个需要一定数据去研究女权主义的信息库与一个研究历史的信息库相比就是一个特定的用户。有一种更好的理解面向请求的分类,就是把它理解成为“基于策略的分类”:基于特殊群体的请求,通过一定的想法和策略进行分类,从而达到目的。在这种方式下,分类方式就不一定是100%基于用户研究的领域了,可以通过一些共性的策略,加以组合或修改,来实现用户的请求。只有从用户和应用中获得的经验使用了,面向请求的分类才可以被认为是一种基于用户的实现方法。
文档自动分类的任务可以分为三类:
监督式学习的文档分类,这需要人工反馈数据的一些外在机制。非监督式学习的文档分类(也被称作文档聚类),这类任务完全不依靠外在人工机制。和半监督式学习的文档分类,是前两类的结合,它其中有一部分的文档是由人工标注的,这有一些相关方面的具有许可证的软件。