CiteSeer(又名ResearchIndex),是NEC研究院在自动引文索引(Autonomous Citation Indexing, ACI)机制的基础上建设的一个学术论文数字图书馆。这个引文索引系统提供了一种通过引文链接的检索文献的方式,目标是从多个方面促进学术文献的传播和反馈。
概况
CiteSeer检索WEB上的PostScript和PDF两种格式的学术论文。在CiteSeer数据库中可检索超过500万篇论文,这些论文涉及的内容主要是计算机领域。这个系统能够在网上提供完全免费的服务(包括下载PostScript或PDF格式的论文的全文)。该系统的主要功能有:①检索相关文献,浏览并下载论文全文;②查看某一具体文献的“引用”与“被引”情况;③查看某一篇论文的相关文献;④图表显示某一主题文献(或某一作者、机构所发表的文献)的时间分布。
索引原理
(1) 装裁文献。CiteSeer使用WEB搜索引擎(如AltaVista、HotBot和Excite)及
启发式方法爬行网络,搜索信息,下载PostScript或PDF格式文档,运用“新西兰数字图书馆工程(the New Zealand Digital Library Project)”中的PreScript,进行文本转换。转换后,检查文档的引文状况,如引文的形式、出现的位置。最后按印刷页逆序排列文档。
(2) 处理和分析文献。一旦CiteSeer发现有可用形式的文档,它定会定位到参考文献,或通过识别头部来定位引文。引文位置及形式确定之后,CiteSeer开始抽取引文,并通过引文识别符、向量空间或缩进来描述引文。CiteSeer分析每一篇引文,使用“Heuristics”模块抽取字段,如题名、作者、出版年、页码或引文识别符。CiteSeer使用4种方法来识别和组织论文中的引文:①串位距或编辑位距测量;②词频或词出现测量;③使用子字段或数据结构知识;④概率方法。
(3) 提问和浏览。CiteSeer使用关键词方式供用户进行提问,搜索文献,搜索后返回一个与提问相匹配的引文列表(被索引文献的列表)。列表中,引证文献和被引文献之间建立了关联链接,而且索引了引证文献和被引证文献的全文。检索式是布尔检索。用户搜索到文献后,可使用引文链接进行浏览。
Citegeer与传统引文索引比较分析
与传统引文索引相比,Citeseer在费用、全文性、综合性、效率和即时方面有着更大的优势,同时也存在明显的差距。
4.1 更新更快地揭示引文的网络信息影响。传统引文索引的来源文献都是正式出版物,从研究人员的构思出稿到文章发表到编入索引需要一段相当长的时间,虽然论文内容较成熟,但很多观点可能已过时。互联网的发展已深刻地改变着人们的阅读习惯,研究人员已习惯在网络上查找文献并利用文献,网络文献正逐渐地进入各种学术论文的参考文献目录,网络文献成为引文已是不争的事实。Citeseer是自动引文索引系统,文献源自网络,一旦有学术性文献的全文在网络上出现,CiteSeer就能自动找出文章的引文并标引进索引系统,即时把所有网上学术文献类型(包括预印本、技术报告、会议录等)的引证脉络突显出来,更新更快地反映引文的启息影响。这样对于一些前沿学科(如计算机学科)的研究人员来说,能迅速找到更新的引用文献比按部就班地使用商用索引系统更有吸引力。
4.2 发挥了引文索引的原有功能。网上的全文数据库难见到有不收费的,SCI更是Dialog数据库中最昂贵的文档之一,从数据库中调出一条文献题录高达5—6美金。因此,国内用户使用SCI绝大部分是为了某种功名而检索,谁也不敢花如此高额的费用来检索文献(极少有实力引进了数据库的单位用户除外)。Citeseer在网上免费提供服务,会极大地发挥引文索引原本的文献检索功能。
4.3 提供友好的学术探讨环境。CiteSeer除了有引文索引和全文下载功能外,还有一些附加的网络服务,提供宽松自由的学术探讨环境。例如,文章或研究课题会连接到讨论区,研究人员可贴出正式或非正式的评论、综述、意见以及新的研究结果。每篇论文设有l i~-(Correct)链接,供看到文章的研究人员发现错误可在线改正某些项目,如题名、著者姓名、出版年、文摘等,以弥补机器操作的错误。这在封闭式的传统商用数据库中,很难获取一些非正式的自由交流的信息。
4.4 收录文献学科范围窄,学术评价功能尚不成熟。由于许多出版物发表的文献不能在线获得以及CiteSeer的非盈利性目的,Citeseer还不能象商用数据库那样提供综合性学科内容的引文索引;自然,CiteSeer的学术评估价值还不可能取代SCI这样历史悠久的传统引文索引系统。
4.5 机器识别技术有待完善。由于依靠机器完全自动操作,CiteSeer还存在不能准确地分辨子字段;无法消除不同作者相同名字的歧义;引文在文献中若无标识则不会被标引等情况。NEC研究所的三位研究人员Steve Lawrence,C.Lee Giles与Kurt Bollacker研制成功CiteSeer并在互联网上提供服务,使广大的科研人员和图书情报工作者多了一种获取文献的渠道。虽然依赖网络学术文献生存的CiteSeer仍存在许多不足和要改进完善的地方,但是,其非盈利性的目的足以令我们每一位使用者向这三位创建者致以崇高的敬意和真诚的感谢。我们有理由相信,科学技术发展的需要以及网络技术的广泛应用,D.R.Cameron的学术梦想AUniversal Citation Database’在不久的将来一定能够实现。