在当今信息爆炸的时代,每个单位或个人都在为信息的快速增长做出了各种贡献。信息的种类也在不断的扩展,越来越多的非结构化信息不断出现,包括企业的各种报表、帐单、电子文档、网站的各种元素、图片、传真、扫描影像,以及大量的多媒体的音频、视频信息等等。所有的存储数据中,有85%采用的是非结构化格式的,非结构化信息每三个月增长一倍。 由于信息格式的差异很大,所以基本无法整合为统一的接口供政府工作人员或广大群众方便使用。
全文检索是
计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的
软件系统。全文检索系统的核心则具有建立索引、处理查询返回
结果集、增加索引、优化索引结构等功能。Goonie全文检索系统的主要目标是实现文本索引的快速构建(Index Construction),
动态文档集的索引维护(Index Maintenance),短语查询(Phrase Query),Top-k查询的快速处理(Top-k Query Process)以及各种检索模型(IR Model)等。高性能和灵活的架构也使Goonie全文检索系统可以应用在内外网检索、专业系统资料检索、行业专业
数据库检索。
全文检索系统是以先进的搜索技术为核心,并针对专业用户所要求的搜索深度深、采集精度高和抓取速度快等进行了专门的优化,采用了分布式
多线程并发指令执行体系结构,95%信息分钟级到达本地。能够采集多种动态和静态网页类型、多种文档、数据库类型,同时网页实时增量采集技术实现分秒监测网站信息变化动态,使网站随时获取最新的信息资源。
全文检索系统可实现全文检索,完全支持
布尔逻辑检索、支持n阶渐进检索、支持同义词检索、支持自定义用户词典,
模糊检索,相关检索等,并可以由
系统管理员人工过滤不当网页,为用户提供最为适当的检索结果。
全文检索系统采用智能
中文切词技术,避免中文检索的歧义与多义现象,同时采用相关性算法对网页进行排序,保证检索相关性最高的页面放在最前面。
全文检索系统为用户提供丰富的检索结果展示,能够根据每个网站的不同风格和要求定制结果显示模版。检索结果包括智能
动态摘要、独有的
网页快照,以及多种检索结果排序方式等等。能够极大的方便用户对检索结果的浏览查看,提高用户对检索效果的满意度。
全文检索系统采用标准的B/S架构,
系统管理员可以随时随地通过
浏览器登陆Web管理界面对整个系统的各项功能进行管理和系统维护,操作简单易用,无需专业培训即可迅速上手。