《同义词词林》是梅家驹等人[1]于1983年编纂而成,初衷是希望提供较多的同义词语,对创作和翻译工作有所帮助。但在我们发现,这本
词典中不仅包括了一个词语的同义词,也包含了一定数量的同类词,即广义的相关词,可以参考表1.1中的词条示例。
由于《同义词词林》著作时间较为久远,且之后没有更新,所以原书中的某些词语成为生僻词,而很多新词又没有加入。有鉴于此,
哈尔滨工业大学信息检索实验室利用众多词语相关资源,并投入大量的人力和物力,完成了一部具有汉语大词表的《哈工大信息检索研究室同义词词林扩展版》[2]。扩展版剔除了原版中的14,706个罕用词和非常用词,最终的词表包含77,343条词语。表1.2列出了扩展前后的《同义词词林》的主要特征。扩展后的《同义词词林》,含有比较丰富的语义信息。但是由于种种原因,《同义词词林》完整版并没有共享,而只是共享了其中的词典文件。期待着哈工大信息检索实验室能够在不久的将来能够将完整版进行共享,以满足研究和实际应用的需要。
在最新的改进版中,《哈工大信息检索研究室同义词词林扩展版》中加入了较高层次的集合,譬如说,Ab000002 男女老少。其中编码的长度与哈工大扩展版相同,为8位。Ab000002之中,Ab仍然表示的是大类和中类名,00000表示该集合是一个中类的标题,而2表示的该类的深度为2。 同时,参考WordNet的保存格式,创建了新的索引文件和数据文件。