交易数据库(Transactional Database)是指实时的,面向应用的数据库,响应及时性要求很高,只关注最近一段时间的数据库,又称事务数据库。
交易数据库
一般地说,交易数据库由一个文件组成,其中每个记录代表一个事务.通常,一个事务包含一个唯一的事务标识号,和一个组成事务的项的列表(如,在商店购买的商品),交易数据库可能有一些与之相关联的附加表,包含关于销售的其他信息,如事务的日期、顾客的ID号、销售者的ID号、销售分店等等。
如果我们想更深地挖掘数据,在商业营运中,问“哪些商品适合一起销售?”这种“购物篮数据分析”使我们能够将商品捆绑成组,作为一种扩大销售的策略.例如,给定打印机与计算机经常一起销售的知识,你可以向购买选定计算机的顾客提供对一种很贵的打印机打折销售,希望销售更多较贵的打印机。常规的数据检索系统不能回答上面这种查询.然而,通过识别频繁地一起销售的商品,事务数据的数据挖掘系统可以做到。在这里我们主要是研究事务性数据库的数据挖掘的统计方法。
交易数据库和分析数据库的区别
交易型数据库主要是实时的,面向应用的
数据库,响应
及时性要求很高,只关注最近一段时间的数据。就是平时搭建的服务都叫事务型数据库。分析型数据库主要是用于在大量数据中分析规律的,一般存储的数据时间跨度长,数据量大,对实时性要求不高,通过查询分析规律趋势,用于产品决策等。
事务数据库的属性项压缩
基于重要性的属性压缩
在研究问题时基于不同的目的,属性具有不同的重要性,从统计学的角度看,这种重要性可在辅助信息的基础上事先假设,并用“权数”表示.利用Rough集理论我们就可以对属性项的重要性进行量度,这个量度是根据论域中样例来得到的,不依赖于人的先验的知识。如用症状描述某医院的患者时,有些症状对患者的诊断有较大的影响。为了计算这些属性的重要度,可以采取逐个属性项被去掉后,检测这个系统在作决策或数据分类时,是否会因为移掉了这个属性而被改变?如果去掉了这个属性后将改变作决策和分类,则说明该属性的强度大,即重要性高;反之说明,该属性的强度小,即重要性低。
基于相依性的属性压缩
上面的方法在属性的压缩中,进行了逻辑推理,并没有考虑论域U中的事务项(样例)的分布情况,再者该方法利用重要度μA,B(n)只描述了对B的方法分类个体的正区域的影响情况,对于决策的结果没有直接考虑。
关联规则问题的提出
数据采掘是当今数据库技术和
人工智能研究中最富有活力的新兴研究方向,其主要目标是从大型的数据库中采掘出对用户有价值的模式。一直以来,关联规则的研究都是数据采掘研究领域中的一个重要的课题,1999年在北京召开的第三届PAKDD-99数据采掘国际会议中就展示了近来对关联规则研究所取得的一批丰硕成果、关联规则采掘的一般对象是事务( Transactional )数据库,这种数据库的一个主要的应用是零售业(交易数据库),譬如,超级市场的销售管理,条码技术的应用使得数据的收集更加容易和完整,因而存储了大量的交易资料,关联规则就是辩别这些项目(Item),指交易中的内容,如:牛奶、面包等都是项目)之间是否存在某种关联关系,
例如,关联规则可以表示“购买了项目A,B的顾客有95%的人又买了c和w,从交易数据库中采掘出大量的关联规则可以用作商品的销售目录设计、商场布置、生产安排、针一对性的市场营销。
交易数据库中数据结构分析
在交易数据库中通常都存在一张商品的销售表,该表主要用于描述商场中商品的销售情况,而关联规则采掘的主要对象也就是商品销售表,商品销售表一般形式的数据结构是:
当然,不同的系统中商品销售表的内容可能不同,但是上述的基本信息是应该包含的。这种数据结构的特点是:
数据库(表)的每一行只描述了某次交易(交易号)中的一种商品(项目)的销售情况,一次完整的交易通常由数据库的多行记录组成,这种数据结构将一次交易中的项目信息分散了,这是不利于关联规则采掘吮因为,为了知道每次交易中的项目信息,我们需要多次访问数据库另外,关联规则所描述的只是不同项目之间的关系,它只关注一次交易中有哪些项目(商品),对于价格、单位等信息没有必要知道为了能够提高关联规则的效率,我们应该对交易数据库中的数据事先进行处理使之能够比较容易满足关联规则采掘的要求,我们称这个过程为关联规则采掘的预处理过程
注意到交易数据库中关联规则的本质上是要反映出各种项目(商品)之间的关联关系,因而,我们可以将上述的数据结构转换成如下结构形式:
数据结构的特点
数据库中的一行就是一次交易中的所有项目信息,并且去掉了一些不相关信息如数量等,这样我们就能很容易知道每次交易中所包含的具体项目信息了。
实现步骤
我们利用PowerBuilder6. 0实现了上面的预处理过程具体的实现步骤如下:
(1)利用PB中的交叉报表格式,生成原事务数据库的数据窗口d_ Source,选择销售表中的交易号、商品(项目工销售数量,其中行是交易号,列是项目(商品),交叉值是销售数量
(2)通过PB中的函数dw. SaveAs( file,sql, true),将上述的数据窗口d_ Source转换为SQL语句,保存在文件file中
(3)在程序中可以利用EXECUTE IMMEDIATE SQLStatement{U SIN G Transaction Object}执行上述生成的SQL语句,或者利用PB中的DB Administration工具(在DataBase画板中)即可生成表2所示的数据库。
举例
例:假设有一副食品超级市场的销售事务数据库中存在如下的商品销售记录表:
根据上面我们所提出的步骤可生成表2,由于篇幅有限步骤中所生成的数据窗口及SQL语句略。
每一行就是一个交易,该行所对应的列即是该交易中所包含的项目,这样,我们就很容易获得某次交易中所包含的具体项目,减少了访问数据库的次数另外,预处理后的数据库记录个数比原交易数据库中的记录个数减少了很多,这对交易数据库中关联规则采掘的效率有一定的提高。
关联规则模型
带有空间性约束的关联规则模型
交易数据库中基本关联规则具有以下特点:是一个逻辑蕴涵式X=>I、X,Y∈I,并且X∩Y=∅。因为项目集I中的项目其实就是商品,所以具有上述特点的关联规则只是反映了整个交易数据库中不同商品(项目)之间的关联,它不能刻画带有不同时态性和空间性约束的商品之间的关联。
基本
关联规则之所以存在上述不足是因为规则的逻辑蕴涵式X=>Y中没有包含空间性的约束条件信息。基于这种考虑,将项目的空间性约束条件包含于关联规则中,提出了带有空间性约束的关联规则模型
定义I:瑕设X,I∈ I,并且XnY=∅,I的定义同基本关联规则,CX,CY是X,Y的空间约束,CX,CY∈C,C={C1,C2...Cn},C是空间性约束条件集合,如果交易中同时包含空间约束条件Cx中的x和空间约束CY中的Y,称X,Y具有空间性约束关联,并将这种规则称为交易数据库中带有空间性约柬的关联规则考虑到在实际中X,Y可能存在于同一空间中,如:同一柜台可能出售不同的商品,所以Cx∩CY,可以不为∅。
带有空间性约束的关联规则采掘
通过扩展
Apriori算法实现了上述模型〕从上面的模型可以看出,带有空间性约束的关联规则中增加了一个项目的空间位置约束条件,因此,在产生侯选项集((Apriori-gen)扫描数据库时除了要比较不同交易中项目是否相等外还要比较项目的约束位置是否相同。
带有空间性约束关联规则的存储
由于关联规则的表示中增加了空间位置约束条件,因此,使得规则所占存贮空间增大了,另外考虑到规则的条件和结论中所包含的项目及项目空间位置约束的个数是变化的,所以对采掘出的关联规则用数据结构进行存放。
其中,
主键是记录的关键字,不同的规则通过规则编号来进行区分,同一规则中的条件和结论部分通过分割标志来区分,条件或结论中包含的每个项目及项目约束对应一条记录,这样的数据结构有助于减少数据库中的冗余信息。
国产交易型数据库
据新华社电(记者余晓洁程卓)由南大通用数据技术股份有限公司引进、研发的我国首款与世界技术同级的国产事务性通用数据库系统
GBase8t近日发布。工信部软件服务业司司长陈伟出席发布会时说,南大通用在基础软件领域走出了一条引进、消化、吸收、结合本土需求再创新的发展路径。而且与华为的整机、浪潮的天梭K1、基于国产CPU和操作系统的服务器等进行了适配,初步形成了产业生态。
数据库系统是现代信息系统中最复杂、最关键的基础软件之一,也是大数据时代的核心软件,主要有数据分析型和事务型两大类。南大通用首席技术官武新表示,GBase8t是国内第一款世界级的事务型数据系统,能在大规模在线交易环境中持续稳定地提供高性能、高可用、高可靠的密集事务处理能力。
武新表示,GBase8t用于金融、电信、安全、国防等领域的事务密集型核心业务系统。它的原型产品已在全球拥有1800多个合作伙伴和1万多家直接客户。在国内,建设银行、浦发银行、中国人寿、
中国移动、中国电信、中兴、华为、沃尔玛等都是原型产品的使用单位。