检索速度
衡量检索技术好坏最重要的指标之一
互联网时代的到来开启了信息革命,掌握了大量信息就能在日常、商务生活中处于不败之地,但是信息量是如此巨大,如何甄选出有用的关键信息就成为了人们一直以来讨论的焦点。在用户的信息处理中,普遍会用到检索技术来获取关键信息。检索速度是衡量一个检索技术好坏最重要的指标之一。
简介
检索速度简单地来说就是人们检索相关信息的的快慢(时间消耗)。互联网时代的到来开启了信息革命,随着大数据时代到来,我们要面对的信息量达到一个我们无法想象的量级。但是在这些信息中快速找出个人或者公司所需要的一直都是我们所期望的。检索在计算机的应用中无所不在。检索速度是衡量一个检索技术最重要的指标之一。检索速度主要受检索算法和硬件影响。
检索技术的主要内容
将索引和检索放到一个进程中。由于二者在一个进程中同时存在,未剥离各·自的处理,因此,会互相影响彼此的性能。也就是说,在索引时由于占用较多的CPU,会导致检索性能存在瓶颈。
一个检索只唯一对应一个索引库。由于索引和检索不分离,并且没有同步切换机制,因此,在同步索引时,当前的检索不能进行服务,即:索引时会导致检索服务中断;并且每次哪怕只更新一篇数据,也需要对整个索引进行重建、更新,会对数据更新的速度有所限制。
单线程检索一个数据量较大的索引库或多个索引库。由于倒排表过大会导致运算量的增加,因此,导致单次检索的响应时间相应增加,从而导致整体检索性能不高。
检索算法
检索算法一般分为传统的搜索算法和搜索引擎算法
搜索算法是利用计算机的高性能来有目的的穷举一个问题解空间的部分或所有的可能情况,从而求出问题的解的一种方法。现阶段一般有枚举算法、深度优先搜索广度优先搜索A*算法回溯算法、蒙特卡洛树搜索、散列函数等算法。在大规模实验环境中,通常通过在搜索前,根据条件降低搜索规模;根据问题的约束条件进行剪枝;利用搜索过程中的中间解,避免重复计算这几种方法进行优化。例如散列函数(或散列算法,又称哈希函数,英语:Hash Function)是一种从任何一种数据中创建小的数字“指纹”的方法。散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。该函数将数据打乱混合,重新创建一个叫做散列值(hash values,hash codes,hash sums,或hashes)的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。好的散列函数在输入域中很少出现散列冲突。在散列表数据处理中,不抑制冲突来区别数据,会使得数据库记录更难找到。
搜索引擎算法: 获得网站网页资料,建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。搜索引擎的数据库是依靠一个叫“网络机器人(crawlers)”或叫“网络蜘蛛(Spider)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按一定的规则分析整理形成的。Google、百度都是比较典型的搜索引擎系统。 为了更好的服务网络搜索,搜索引擎的分析整理规则---即搜索引擎算法是变化的。
应用
现代互联网的使用已经离不开搜索引擎,而搜索引擎的使用会消耗大量能源,造成巨大的碳排放量。运行用户计算机需要电力,运行遍布世界各地的服务器和控制庞大的数据中心的温度更要消耗大量的电力。谷歌称,通过谷歌搜索引擎的每一次搜索会产生0.2克的二氧化碳排放量,而美国哈佛大学的物理学家阿历克斯·维兹纳尔-格罗斯则称,每一次搜索所产生的二氧化碳排放量高达7克。信息和通信技术领域造成的二氧化碳排放量已占全球二氧化碳排放总量的大约2%。因此,世界各信息技术公司都在研究如何减少信息处理技术对环境的影响。
格拉斯哥大学科学家将研究目标放在了提高搜索速度上,希望通过提升速度来减少耗能。研究小组的维姆·范德鲍维德博士指出,人们会思考运行信息技术的碳成本,他们可能对使用计算机的耗电量很清楚,但未必会留意使用网络搜索时所消耗的能源。虽然有很多方式可以降低数据中心的能耗,减少搜索所需时间则是他们的关注重点。通过提高搜索速度,服务器在等量工作中消耗的能源就会减少。
研究小组使用双赛灵思现场可编程逻辑门阵列(Xilinx FPGAs),执行信息检索和数据库文档过滤算法。结果发现,FPGA系统的搜索速度比英特尔安腾-2双核处理器要快20倍。不仅如此,FPGA芯片所耗电能也很小,每个芯片只需要消耗1.25瓦特的电能,而安腾处理器则需消耗130瓦特。
研究小组的另一位成员阿兹沃帕迪博士表示,FPGAs能够降低能耗,提升运行速度,极具潜力,有望带来巨大的经济效益。如果将几个FPGAs连接到一个处理器上,将会极大提升运算速度,而只留下很少的碳足迹。
科学家希望能进一步发展该系统,并将其最终应用到网络服务器上,以加快网络搜索速度,从而降低搜索引擎工作所需的能源和碳成本。他们正致力于进一步提高原型机的表现,进行数据中心环境测试。
参考资料
最新修订时间:2022-08-25 12:32
目录
概述
简介
检索技术的主要内容
参考资料