检索历史
保存某次登录后的历史
检索历史是指保存某次登录后的检索历史,并提供选项以编辑、重新运行、保存检索策略或将检索策略另存为提醒提示,可分为基于短期历史和长期历史两种方法。
挖掘检索历史
挖掘检索历史的方法可分为基于短期历史和长期历史两种。短期历史针对单个的查询会话(query session)中用户的反馈来修正查询模型。这类方法优点是反馈直接针对当前查询,噪声较少,缺点是可获得的信息有限。与之相比,基于长期历史的方法则以用户为中心,收集从不同来源获取的用户信息,建立长期用户模型对当前查询模型进行重构。这类方法优点是无需进行查询会话划分,能够全面刻画用户兴趣。缺点是长期历史包含多个主题,存在大量噪声。从中发现与当前查询相关的信息,利用这些信息预测用户的检索意图是高效利用长期历史进行个性化检索的关键。
基于检索历史上下文的查询重构
检索历史包含不同的主题,其中多数与当前查询无关。同时,一篇文章中仅有部分词语能够反映其主题,其余词语起辅助作用。检索历史中与当前查询无关的词语形成噪声,其来源可分为两类:一类为不相关主题中的词语,另一类为在各种主题中广泛存在的起辅助作用的词语,随着检索历史不断增加,此类噪声不断累积。
以用户当前查询为中心,基于相关词语在检索历史上下文中的共现及用户点击信息,选择检索历史中与当前查询最相关的词语重构查询模型。
设当前查询为Q={},其中是查询关键词。在用户检索历史中,每个历史查询可对应一组信息,这些信息可用一个元组<查询输入,结果集,点击页面>来表示,结果集包括返回结果中所有网页的标题、摘要以及正文链接。查询模型重构过程如下:
1、将用户检索历史中的网页摘要进行索引,用当前查询从中检索,得到相关的历史查询网页摘要并提取其中的词语形成候选词语集。
2、选取候选词语的一个子集来重构查询模型,称该子集中的词语为扩展词语。以网页摘要作为上下文语境,计算每个候选词语与当前整个查询的相似度并依此对候选词语进行排序,选取前k个候选词语作为扩展词语。
3、利用得到的扩展词语重构查询模型。最后,利用新的查询模型对初始的检索结果进行重排序。
参考资料
最新修订时间:2022-08-25 12:30
目录
概述
挖掘检索历史
基于检索历史上下文的查询重构
参考资料