分词技术就是
搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。
我们要理解分词技术先要理解一个
概念。那就是查询处理,当用户向
搜索引擎提交查询后,搜索引擎接收到用户的信息要做一系列的处理。步骤如下所示:
那么查询处理又是如何工作的呢?很简单,把用户提交的字符串没有超过3个的中文字,就会直接到
数据库索引词汇。超过4个中文字的,首先用
分隔符比如空格,标点符号,将查询串分割成若干
子查询串。
举个例子。“什么是
百度分词技术” 我们就会把这个词分割成“ 什么是,百度,分词技术。”这种分词方法叫做反向匹配法。
而有一种特殊的情况,就是关键词前后组合内容被认为粘性相差不大,而搜索结果中也同时包含这两组词的话,百度会进行正反向同时
进行分词匹配。
就是一种机器语音判断的分词方法。很简单,进行句法、
语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,还不成熟,处在测试阶段。
根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的
分隔符,这样来分词。