知识搜索引擎
知识管理的实现理念与工具
知识搜索引擎(Knowledge search engine)并非单纯的是一种搜索工具,它首先是知识管理的一种实现理念与工具,承担了“知识汇聚、知识发现、知识分类、知识聚类、知识门户的构建”,通过搜索引擎技术完成知识管理的使命。知识搜索引擎、知识分类体系、知识专家网络共同构成了当今世界上先进知识管理系统的主要内涵。
互联网数据
根据统计,企业数据每年以200%的速度增长,其中80%以上的数据以文件、邮件、图片等非结构化数据存放在企业内计算机系统中的各个角落。而且这些数据总量远远超过了互联网信息的总量。有数字表明,企业发布到互联网的信息只占到信息量的1%-2%,而98%以上的信息是存储在企业内部的。
缺点问题
互联网搜索引擎近年来获得快速发展,以及其覆盖互联网人口面积的迅速扩张,使得我们一提起搜索引擎就想到了百度、谷歌这样的互联网搜索引擎,有什么疑难问题在互联网上就可以找到答案。然而,实际上互联网搜索引擎不能解决全部的问题,如企业内部的规章制度、项目文档、工作经验等,作为企业的知识财富,是不可能通过互联网获得完美答案的。
核心能力
企业或组织经过多年的运作,积累了大量的运营、工作、生产、研发的经验与知识,这些信息内容散落在企业的各个服务器、IT系统,甚至个人的电脑中,这些宝贵的知识财富日益成为指导企业员工行动、减少操作失误、提升工作效率、降低运营成本的重要依托,如何快速、准确的让员工获得工作所需知识,已经成为企业是否能够建立快速响应机制、快捷低成本运作的重要一环。
搜索引擎
知识搜索是在搜索引擎发展进入智能化阶段的过程,是建立在明确的知识来源基础上,根据明确的用户身份与诉求,回馈恰当知识结果的搜索引擎,更为强调知识的准确、标准,强调通过互动机制如评价、交流、修改、维护等进行搜索结果的自我学习,以达到知识搜索的智能化。
深蓝海域在知识管理和知识管理技术领域拥有多年积累,依据知识管理理念推出的知识搜索引擎正是为了解决“汇聚多类知识源,依据用户身份与诉求,回馈准确知识,指导用户行动”这一命题而生,知识搜索引擎作为搜索引擎的一个分支,在为企业提供准确知识获取方面将起到不可或缺的作用。
CICADA知识搜索引擎与其他搜索引擎辨析与任何市场和工具一样,细分是搜索引擎的未来不可避免的趋势,就目前市场范围而言,搜索引擎大概可以分为如下几类:
互联网搜索引擎:通过索引全球互联网上的信息,为互联网用户提供快速检索、查找、推荐的服务,其核心诉求是为用户提供更全、更快、更准的信息。
垂直搜索引擎:互联网搜索引擎的一个市场分支,通过索引特定的细分网站类型,为用户提供专业领域的信息查询服务,其核心诉求是为用户提供专业、全面、快速的信息。
企业搜索引擎:通过索引企业内部的信息源,为企业内部或企业关联的用户群提供特定的信息查询服务,其核心诉求是为用户提供企业内部信息的准确、快速定位。
知识搜索引擎:是企业搜索引擎的一个分支,不仅仅是要实现企业范围的信息搜索引擎,更重要的是实现企业的知识管理以及知识发现,并将这些知识应用于协助、指导企业运作。
下面我们通过一个对比表格了解一下这几种搜索的特征区别:
CICADA知识搜索引擎介绍
产品介绍
CICADA,蝉,同“禅”出自佛家,故称“知了”,意即知道、理解、开悟。对于知识管理或搜索引擎而言,能够达到让使用者“知了”的地步是一个最重要、最核心的目的。
CICADA是一款面向企业和组织应用,以知识(knowledge)源、信息(information)源为依据对象,以获取准确的、具有指导和决策意义知识信息为目的,通过知识搜索结果指导人正确行动(action)的新一代知识搜索引擎。基于CICADA核心引擎构建,由国内著名知识管理软件企业深蓝海域公司耗时3年研发,拥有自主知识产权并取得了国家颁发的软件著作权(登记号:2009SRBJ0243)。
CICADA系统技术架构采用标准的轻量级J2EE架构,核心引擎采用深蓝海域自主开发的企业级多介质搜索引擎。能够在多种数据媒介中搜索数据,并进行合理比对,筛选,排序,结合我们知识管理方面累积多年的专业词库,能为客户定制出更人性化、智能化的搜索引擎。
CICADA已经广泛应用于金融、银行、制造、电信、汽车、电子政务、快速消费品、医药、能源、化工、房地产、服务业等行业和领域,为客户提供稳定、快速、准确的知识搜索服务。
核心理念
CICADA的核心理念
CICADA的构建理论基于“全文搜索+数据库检索+搜索应用”。全文搜索的诞生和数据库在大文本检索时的效率不高有极大的关系,在这个角度全文搜索成为了数据库搜索的有力补充。但是全文搜索并不能完全代替数据库检索在企业级应用里的作用,比如在准确检索所属部门、分布时间段、作者这样的精确字段时,或者要求按照某一字段逻辑进行结果的排序,全文搜索的模糊性就会带来很大的困扰和不精确性。在应用互联网搜索时,我们可能不存在也不可能做到这样精准的字段要求,但在企业级应用中这种需求就比比皆是。从理论角度上来说,全文搜索和数据库搜索两者在应用条件不同的情况下表现互有优劣,其中一方不会被另一方完全代替,而是应该相辅相成互为补充,为用户呈现最精准的知识和信息获取。
对于企业级用户而言,仅仅是搜索结果集的呈现还远远不够,因此CICADA提供了丰富的搜索应用,通过丰富多彩的应用形式,为用户提供不同角度、不同体验的搜索方式,如搜索引擎时光隧道、个人搜索年轮、知识关联、个性化查询器等,通过这些应用提升用户感受,强化系统和用户之间的互动关系。
CICADA的搜索流程示意图
基于以上,CICADA提出并采用了全新的“全文搜索+数据库检索+搜索应用”三位一体技术与产品理念,既保证了系统通过全文搜索获取快速、准确的结果,又通过结合数据库搜索的方式实现时间、来源、好评度等多种数据库字段的查询,这两者的结合使搜索结果更为符合用户的搜索诉求。同时加入搜索应用的诸多功能从应用的角度为用户提供了更为得心应手的应用,从而让系统更为智能的为用户提供服务。而这一知识搜索引擎的技术创新,也成为CICADA的产品发展方向与核心能力。
可维护、学习式分词技术
与英文的自然分词不同,中文分词存在着众所周知的难度,把中文的句子切分成有意义的词,就是中文分词,也称切词。目前还是一个难题———对于需要上下文区别的词以及新词(人名、地名等)很难完美的划分。国际上将同样存在分词问题的中国、日本和韩国并称为CJK(Chinese Japanese Korean)。分词机制的好坏,直接影响到用户对搜索结果的满意度,所以如何分词是搜索引擎的重中之重。
到目前为止,中文分词包括三种方法:(1)基于字符串匹配的分词;(2)基于理解的分词;(3)基于统计的分词。以下是三种分词方法的比较:
Cicada知识搜索引擎系统采用“Cicada's wings knife”作为分词器,取其分词快捷、细致之意。这套分词系统采用了“基于字符串匹配统计算法结合起来。除了通过自主学习获得新词以外,也可以通过手工维护的方式对专业词库进行维护。目前,Cicada的基本分词词库已经达到50万条,金融、税务、制造、咨询等专业词库达到了20万条左右。
与目前流行的算法相比,Cicada's wings knife分词器在准确率召回率,分词效率综合平衡上有明显优势。具体对比如下。
多数据源跨域搜索
经过多年的IT建设后,组织中会存在各种IT系统,如OA、HR、ERP、CRM、PM、财务系统等,这些系统因为建设时期、项目的不同,平台异构、数据分散等特征非常明显,形成了数据孤岛,彼此之间无法通过一个有效的纽带联系起来,无法同时获取多个系统中的信息,Cicada知识搜索引擎通过跨域、跨库的索引能力,实现跨库搜索,一举构建出一个融会贯通的企业信息渠道,消除信息孤岛。
基于跨域搜索的知识门户
基于CICADA的企业(知识)门户示意图
基于知识搜索引擎,可以对多种数据源进行索引和查询,同时通过搜索规则的建立可以将有指定特征的条件信息,返回到信息门户界面上,这就形成了统一的企业(知识)门户,用户可以在这个门户上获取最新的各个IT系统和数据源的规则性信息。
基于身份与权限的识别
知识库系统或其他系统中,在企业级应用系统中,用户都有自己明确的身份与权限,这决定了我们可以通过判断他们不同的身份和权限,为其提供适合身份和权限的搜索应用,返回适合其身份和权限的结果,避免越权获取信息的情况产生,而且对其身份权限的判断能够更好的为用户推送准确信息,避免信息集合过大。
互动学习式搜索引擎
在知识管理或企业IT应用过程中,我们对各类知识与信息的应用效果有明确的感知与评价,在CICADA中,我们将这种感知与评价通过系统的方式记录下来,反馈给搜索引擎进行合理化处理,经过这样的互动点评知识可以综合热度、好评度、命中率等因素进行加权计算,从而提供给用户合理的结果排序,让常用的、好评度高的知识自动往前排。
基于搜索引擎统计的决策支持
知识搜索引擎对用户的搜索行为,关键词的分布等进行统计分析,对知识库的重点建设、发展方向从用户的需求角度给予数据支持和决策信息。这样形成企业知识在组织层面的增值利用与决策支持。
个性化搜索应用功能
定制搜索范围:用户可以根据自己的要求,选择想要搜索的知识范围,而不是每次都搜索全部数据库,这样可以大大减少搜索误差,可以根据业务或知识分类,定义出不同的个性化搜索项。
搜索推荐服务:根据搜索过程的监控,推荐搜索的热点词汇;搜索行为推荐可以推荐搜索当前词汇的用户,还搜索了哪些词汇;推荐跟当前关键词相关联的关键词。通过主动的推荐服务,让用户可以快速的找到自己所需。
搜索联想词。记录搜索人员常用的搜索关键词,当用户输入关键词的时候,自动联想提示其他用户常用频率较高的搜索关键词,以供选择。以高频率的关键词引导用户使用,提高命中率。
文件服务器全文搜索:对于文件服务器,进行数据索引,并定制出一个全文搜索引擎,能够对文件夹中的文档名称和内容进行搜索。
多格式附件全文搜索:对知识发布时所带的附件进行全文搜索,可以搜索附件名称和内容,按照附件格式进行搜索,并实现附件的html格式快照,打开快照可以预览附件的内容。
逻辑关系高级搜索功能:支持包含、完全包含、至少包含一个、不包含等搜索的逻辑关系,便于用户根据自己的查询条件,设计查询公式。
在结果中搜索功能:在搜索的结果中,进行二次筛选式搜索,实现递进式的搜索命中。
个性化查询器:用户可以根据自己的使用习惯,将系统提供的查询条件进行组合后,保存为一个个性化查询器,输入关键词后,系统会按照查询器的条件组合进行搜索。
时光隧道:用户可以按照时间轨迹对搜索结果进行排序,查找到距离自己最近或者某个时间段的具体信息,排除其他非所需时间段的信息。
性能指标
深蓝海域知识搜索引擎系统基于JAVA内核,解决海量信息检索,在民生、光大等银行知识库应用中表现出优异的性能,在普通部门级单台服务器环境下,其主要性能指标项如下:
在系统集成方面,CICADA可以通过系统集成的方式,与其他IT系统进行界面、数据、通讯层面的集成交互,从而实现无缝集成。本搜索引擎单独部署为一个应用.通过特定的信道监听,实现索引的更新。采用webservice方式提供搜索服务,与原知识系统解耦,避免对原有系统造成冲击,也能够更好的发挥搜索引擎效能。
CICADA的核心采用深蓝自主研发的高性能搜索引擎,与常见的开源搜索引擎如luncen等对比,我们具有以下几个方面优势:
一索引效率.我们采用R-Tree数据结构和R-Tree空间索引的算法.支持高维数据空间;有效分割数据空间,来适应索引的组织;高效的实现多种查询方式系统中的统一。故在索引效率和查询效率上略优与Lucene.
二智能搜索. CICADA 具备关系查询、布尔邻近查询、文档相似度比较、以及文档的自动分类等特性。Lucene要在下一个版本才提供相关支持。
分词技术.深蓝在知识管理领域有多年的经验积累和完善专业词库的建设。CICADA采用基于字符串匹配分词和统计分词相结合的方式,对歧义识别,新词学习有独到的技术实现。
使用技巧
简单查询
在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。
给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。
使用加号+
在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。
使用减号-
在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。
使用通配符*和问号
通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。
使用布尔检索
所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。
and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computer和book。
or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computer和book。
not,称为逻辑“非”,它表示所连接的两个关键词中应从第一个关键词概念中排除第二个关键词,例如输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不能包含car(小汽车)。
near,它表示两个关键词之间的词距不能超过n个单词。
在实际的使用过程中,你可以将各种逻辑关系综合运用,灵活搭配,以便进行更加复杂的查询。
使用括号
当两个关键词用另外一种操作符连在一起,而你又想把它们列为一组时,就可以对这两个词加上圆括号。
使用元词检索
大多数搜索引擎都支持“元词”(metawords)功能,依据这类功能用户把元词放在关键词的前面,这样就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。例如,你在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。在键入的关键词后加上“domainrg”,就可以查到所有以org为后缀的网站。
其他元词还包括:image:用于检索图片,link:用于检索链接到某个选定网站的页面,URL:用于检索地址中带有某个关键词的网页。
区分大小写
这是检索英文信息时要注意的一个问题,许多英文搜索引擎可以让用户选择是否要求区分关键词的大小写,这一功能对查询专有名词有很大的帮助,例如:Web专指万维网或环球网,而web则表示蜘蛛网.
参考资料
最新修订时间:2024-08-17 16:57
目录
概述
互联网数据
缺点问题
核心能力
参考资料