文本检索(Text Retrieval)与图象检索、声音检索、图片检索等都是信息检索的一部分,是指根据文本内容,如关键字、语意等对文本集合进行检索、分类、过滤等。
文本检索,亦称为自然语言检索,指不对文献进行任何标引,直接通过计算机以自然语言中的语词匹配查找的系统。文本检索进行匹配的对象,可以是整个出版的文本,包括文章、报告甚整本图书,也可以是它的部分,如文摘、摘录或只是文献的题名。以整个文献正文为对象进行的匹配查找,称为全文检索。这种方式无需标引,数据库制作快,可以很快投入运行
最早最典型的文本检索是图书馆的图书
索引,根据书名、作者、出版社、出版时间、书号等信息对馆藏图书进行索引,读者只需根据索引即可很快的查到所需要的书存放在图书馆的什么地方。
随着计算机的出现,人们借助计算机可以更加方便的管理更多的文档,计算机硬盘甚至可以装下全世界所有图书馆藏书。为了快速查找计算机所管理的文档,出现了第一代文本检索技术,即根据
关键字匹配,将包含关键字的文档挑出来作为检索结果呈现给用户。
随着文档数量的增加,运用第一代文本检索技术已经很难检索出精确的检索结果,于是根据文本内容的第二代文本检索技术应运而生。即根据系统对文本和检索语句的理解,计算文本和检索语句的相似度,根据相似度对检索结果排序,将相似度最高的检索结果呈现给用户。
随着互联网的出现和发展,文本文献在互联网上的数量发展更加迅猛,文本的数量级和文本的结构都发生了变化:文本数量大幅度增长、互联网上的文本成为半结构化的。这给文本检索技术提出了更大的挑战和机遇。于是在基于相似度的检索技术基础上,出现了结合文本结构信息(如文本的
网络地址、大小写、文本在页面中所处的位置、所指向的其他文本、指向自己的其他文本等)对检索结果集进行再排序的第三代文本检索技术,Google就是最经典的例子。
现代的文本检索技术逐渐向语意理解、特定领域等方向发展。全世界科学家都在不遗余力的建设“本体库”,如WordNet、HowNet等本体字典。通过本体库将文本转化为语义集合,从提炼文本的语义,以提供语义层次的检索。此外,对于生物、医学、法律、新闻、以及新出现的Blog等领域,都出现了专门针对单个领域的检索技术,并且得到了迅猛发展。