标引,顾名思义,标是标记,引是指引,就是通过标记指引人们方便、快捷地找到所需要的信息。通过对文献的分析,选用确切的
检索标识(类号、
标题词、叙词、
关键词、人名、地名等),用以反映该文献的内容的过程。主要指选用
检索语言词或自然语言词反映文献主题内容,并以之作为检索标识的过程。Indexing一词,音译为引得法或意译为索引法,系指索引的编制技术与方法。现代外语辞典中则说明此词有2解,一指索引法,一指标引。
标引是
文献加工中的重要环节。通过标引,文献工作者赋予文献以
检索标识,指明其内容特征的主题类属,而后用以配合书目信息编制出各种目录和索引,或存储于计算机内,以实现文献的检索。
标引可按使用检索语言的类型区分,使用
分类检索语言时 ,称为分类标引 ;使用主题检索语言时,称为
主题标引。
主题标引又分为
受控标引与非控标引。
受控标引指须由事先指定的
叙词表(
主题词表)中选用相应规范词,对文献进行标引。非控标引又称自由词标引,指不设规范词表而由标引人员直接选用文献内自然语言词,对文献进行标引。标引的实质,是按文献的内容特征对其进行主题类属的划分与区分。F.W.兰开斯特认为,
主题标引包括两个很不相同的智力工作步骤,即主题分析与用词的转换。所谓用词的转换,指选用相应的
检索语言规范词标明文献的主题类属。因此,标引是主题分析与用词表达两个步骤的结合。
标引的质量,对文献的
检索效果有直接的决定性影响。衡量标引的质量,一般采用两个客观上可比的指标,即:穷举度与一致性。标引穷举度,指标
引时是否将文献所讨论的全部主题反映出来;标引一致性,是指不同标引人员或同一标引人员在不同时期,对同一主题文献标引时,对其主题归属的一致程度。从文献检索的角度看,穷举度高,有利于提高查全率,一致性强,则有利于提高查准率。
由于计算机化
检索系统的建立和文献数据库的应用,出现了自动标引。自动标引是指利用计算机对文献自动进行标引,以代替人的脑力劳动。自动标引有两种形式:抽词标引与赋词标引。无论抽词标引或赋词标引,首先都需要将文献转化为机读形式。抽词标引以文献内
词的出现频率作为是否取为标引词(用作
检索标识的检索词,亦称索引词)的判据。设立频率阈时,一般以相对频率代替绝对频率效果较好。赋词标引则须将词表存入机内,作为计算机对比选用标引词的依据。为了解决汉语文献的自动标引,须解决汉语中词的自动切分问题。