顾名思义,所谓语义搜索,是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉到用户所输入语句后面的真正意图,并以此来进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。
工作原理
举例来说吧,当一个用户在搜索框中输入“孟字去掉子”时,深谙语义搜索的搜索引擎就能够判断出,用户想要找的并不是含有“孟”、“去掉子”等字眼的内容,而是想要查找与“皿”这个字相关的内容;同样,当用户搜索“表现春天的图片”时,搜索引擎会向其呈现出各种与春天相关的图片,而不仅仅局限于该图片的标题是否包含“春天”字样。
知识库是
语义搜索引擎进行推理和知识积累的基础和关键,而Ontology则是知识库的基础。一般来说,本体提供一组术语和概念来描述某个领域,知识库则使用这些术语来表达该领域的事实。例如医药本体可能包含“
白血病”、“皮肤病”等术语的定义,但它不会包含具体某一病人的诊断结果,而这正是知识库所要表达的内容。比如张三患有皮肤病、李四患有皮肤病和白血病、王五患有白血病,其中的皮肤病、白血病就是本体。而各个病症的实例(张三、李四、王五)及其病症描述就是知识库的内容。
本体和知识库的关系有几个要点:
★ Ontology为知识库的建立提供一个基本的结构;
★ Ontology提供一套概念和术语来描述某一领域,并且获取该领域的本质的概念结构;
★ 知识库就运用这些术语去表达现实或者虚拟世界中的正确知识。
因此,建设一个知识库的第一步就是对该领域进行有效的Ontology分析。通过本体支持语义,支持人机之间的交流,从而实现机器智能,为web的发展带来了新的契机。而本体在搜索引擎中的应用,必将对搜索引擎的易用性和效率,产生极大的改进,从而使得web用户能够更好的在浩如烟海的信息海洋中遨游。
应用领域
语义搜索的实质是
自然语言处理技术,这正是百度自推出
框计算概念以来一直重点投入的研发领域——早在去年,百度就曾与在该领域非常权威的
哈尔滨工业大学建立联合实验室,着手自然语言相关技术的研发。
相关阐述
当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。
举个例子,电脑和计算机这两个词在人们写文章时经常混用,这两个词在大量的网页中同时出现,搜索引擎就会认为这两个词是极为语义相关的。
要注意的是,潜在语义索引并不依赖于语言,所以SEO和
搜索引擎优化虽然一个是英语,一个是中文,但这两个词大量出现在相同的网页中,虽然搜索引擎还不能知道搜索引擎优化或SEO指的是什么,但是却可以从语义上把”SEO”,”搜索引擎优化”,”search engine optimization”,”SEM”等词紧紧的连在一起。
再比如苹果和橘子这两个词,也是大量出现在相同文档中,不过紧密度低于同义词。
搜索引擎有没有使用潜在语义索引,至今没有定论,因为搜索引擎既不承认也不否认。
这种
语义分析技术可以给我们在搜索引擎优化上一些提示。
网站主题的形成
通常逻辑和结构适当的网站都会分成不同的频道或栏目。在不同的频道中谈论有些区别但紧密相关的话题,这些话题共同形成网站的主题。搜索引擎在把整个网站的页面收录进去后,能够根据这些
主题词之间的语义
相关度判断出网站的主题。
网页内容写作
从两年前开始,
搜索引擎排名有一个现象,搜索某个
关键词,排在靠前面的网页有时甚至并不含有所搜索的关键词,这很有可能是潜在语义索引在起作用。
比如搜索电脑,排在前面的网页有可能出现一篇只提到计算机却没提到电脑。因为搜索引擎通过
语义分析知道这两个词是紧密相关的。
还有一个要注意的是,在进行网页写作的时候,不要局限于
目标关键词,应该包含与主关键词语义相关相近的词汇,以支持主关键词。
这在搜索结果中也有体现,有的文章虽然大量出现主关键词,但缺少其他支撑词汇,排名往往不好。