Web挖掘是
数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、
计算机语言学、信息学等多个领域,是一项综合技术。Web内容挖掘。Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。
应用简介
Web内容挖掘。Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。同时还可以对Web的组织结构和
链接关系进行挖掘,从人为的链接结构中获取有用的知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行
排序,发现重要的页面。
·Web使用记录挖掘。Web使用记录挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者的行为模式,获取有价值的信息的过程。
Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。虽然Web挖掘使用了许多
数据挖掘技术,但它并不仅仅是传统数据挖掘的一个简单应用。在过去20年中,许多新的挖掘任务和算法被相继发明。依据在挖掘过程中使用的数据类别,Web挖掘任务可以被划分为三种主要类型:Web结构挖掘、Web内容挖掘和Web使用挖掘。
实现方法
Web挖掘发展自
数据挖掘。数据挖掘方法通常可以分为两类:一类是建立在统计模型的基础上,采用的技术有
决策树、分类、
聚类、
关联规则等;另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、
自然法则计算方法等。
Web内容挖掘实现技术
Web上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似。利用Web文档中部分标记,如Title、Head等包含的额外信息,可以提高Web文本挖掘的性能。
·文本总结。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。其目的是对文本信息进行浓缩,给出它的紧凑描述。这样,用户不需要浏览全文就可以了解文档或
文档集合的总体内容。
·文本分类。分类是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即通常所说的
分类器。
·
文本聚类。文本聚类把一组文档按照相似性归成若干类别。方法大致可分为层次
凝聚法和平面划分法两种类型。
·关联规则。发现
关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持度和最小可信度,利用
数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则。
Web使用记录挖掘实现技术
在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。
发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式:一是先进行预处理,即将日志数据映射为关系表并采用相应的
数据挖掘技术来访问日志数据;二是直接访问日志数据以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。
WEB挖掘-能挖到什么
· 获取竞争对手和客户信息。Web不仅由页面组成,而且还包含了从一个页面指向另一个页面的
超链接。一个Web页面的作者建立指向另一个页面的指针,就可以看作是作者对另一页面的认可。把另一页面的来自不同作者的注解收集起来,就可以用来反映该页面的重要性,并可以很自然地用于权威页面的发现。另外一种重要的Web页面是一个或多个Web页面,它提供了指向权威页面的
链接集合,称为
Hub。Hub页面本身可能并不突出,或者说可能没有几个链接指向它们,但是 Hub页面却提供了指向就某个话题而言最为突出的站点的链接。通过分析这类信息,企业可以获得零售商、中间商、合作商以及竞争对手的信息。
· 发现用户访问模式。通过分析和探究Web日志记录中的规律,可以识别电子商务的潜在客户,提高对最终用户的服务质量,并改进Web
服务器系统的性能。 Web日志记录数据库提供了有关Web动态的,基于
URL、时间、
IP地址和Web页面内容的丰富信息,对它们进行分析,有助于发现潜在客户、用户和市场,有助于
聚类用户并将用户分门别类,以实现个性化的市场服务。
·反竞争情报活动。
反竞争情报是企业竞争情报活动的重要组成部分。忽视竞争对手的
竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。Web站点是企业与外界进行交流的窗口,同时也是竞争对手获取竞争情报的一个重要信息源。在竞争情报计算机系统中,可以充分利用Web挖掘技术,通过运用分析访问者的
IP地址、客户端所属域、信息访问路径,统计敏感信息访问率等方法识别竞争对手,保护企业敏感性信息。