查全率
数据库内检出的相关的信息量与总量的比率
查全率(Recall Ratio)是指从数据库内检出的相关的信息量与总量的比率。查全率绝对值很难计算,只能根据数据库内容、数量来估算。
影响因素
影响查全率的因素从文献存贮来看,主要有:
①数据库收录文献信息不全;
②索引词汇缺乏控制和专指性;
③词表结构不完整;
④词间关系模糊或不正确;
⑤标引不详;
⑥标引前后不一致;
⑦标引人员遗漏了原文的重要概念或用词不当等。
此外,从信息检索来看,主要有:
①检索策略过于简单;
②选词和进行逻辑组配不当;
③检索途径和方法太少;
④检索人员业务不熟练和缺乏耐心;
⑤检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。
评估方法
查全率的评估至少包括:
①初步查全结束时。当初步查全工作结束时,必须对初步查全专利文献库的查全率进行评估,该查全率是表明能否结束查全工作的依据。若此时查全率不够理想(例如不足50%),则需要继续进行查全工作,反之若达到预期的查全率,则可结束查全工作。
②去噪过程结束时。去噪过程也被称为“查准”的过程,其是对查全数据库进行去除与分析主题无关的专利文献的过程,该过程中不可避免地误删有效文献,为了检验去噪过程中是否误删了过多的有效文献,在去噪工作结束时必须对去噪之后的专利文献集合进行查全率的评估。
局限性
查全率的局限性主要表现在:它是检索出的相关信息量与存储在检索系统中的全部相关信息量之比,但系统中相关信息量究竟有多少一般是不确知的,只能估计;另外,查全率或多或少具有“假设”的局限性,这种“假设”是指检索出的对关信息对用户具有同等价值,但实际并非如此,对于用户来说,信息的相关程度在某种意义上比它的数量重要得多。
提高方法
1.扩大检索课题的目标。使用主要概念,排除次要概念。
2.跨库检索。如使用CNKI的跨库检索功能实现对不同类型文献的一次性检索。
3.逐步扩大检索途径的范围。依次选择题名、关键词、文摘、主题、任意字段(全文)往往能逐步提高查全率。通常用分类号也可检索到更多信息。例如,在某馆藏文献中以题名“素描”为检索途径,结果为798种;而以素描的分类号“J214”为检索途径,结果为865种。显然,用分类检索结果更全。
4.取消或者放宽限定条件。例如,避免使用或者放宽信息类型、语种、地理范围、年代范围等检索途径。
5.降低检索词的专指度.可以从词表或检出文献中选一些上位词或相关词补充到检索式。
6.外文单词使用截词检索,可以采用前截断、后截断、前后截断等截词方法。在中文类数据库可以使用更简短的检索词。例如,在CNKI的中文期刊数据库检索有关国内英语等级考试的期刊文章,在题名途径输入“英语”、“级”和“考试”。用逻辑运算条件“并且”连接。检索结果有“等级”、“四级”、“五级”、“六级”和“A级”等词。
7.逐步扩大算符的检索范围,逐步提高查全率的算符依次是:位置算符(w→nw→near)→逻辑算符(and→or)。
参考资料
最新修订时间:2024-03-08 18:03
目录
概述
影响因素
评估方法
参考资料