数据仓库技术(Data Warehousing)是基于
信息系统业务发展的需要,基于
数据库系统技术发展而来,并逐步独立的一系列新的应用技术。
随着90年代后期Internet 的兴起与飞速发展,我们进入了一个新的时代,大量的信息和数据,迎面而来,用科学的方法去整理数据,从而从不同视角对企业经营各方面信息的精确分析、准确判断,比以往更为迫切,实施商业行为的有效性也比以往更受关注。
使用这些技术建设的
信息系统我们称为数据仓库系统。随着数据仓库技术应用的不断深入,近几年数据仓库技术得到长足的发展。典型的数据仓库系统,比如:
经营分析系统,决策支持系统等等。也随着数据仓库系统带来的良好效果,各行各业的单位,已经能很好的接受“整合数据,从数据中找知识,运用数据知识、用数据说话”等新的关系到改良生产活动各环节、提高生产效率、发展生产力的理念。
数据仓库技术就是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为”的一个工具。数据仓库技术也是一种达成“
数据整合、知识管理”的有效手段。
数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与
传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的
关键步骤,首先要统一
原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史数据,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行
决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。
数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层
决策分析,而
事务处理数据库在企业的
信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且,数据仓库还是用关系数据库管理系统来管理其中的数据。
与
传统数据库面向应用进行
数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的各项数据及数据间的联系。
数据仓库中的数据是从原有分散的数据库中抽取出来的,由于数据仓库的每一主题所对应的源数据在原有分散的数据库中可能有重复或不一致的地方,加上综合数据不能从原有数据库中直接得到。因此数据在进入数据仓库之前必须要经过统一和综合形成集成化的数据。
数据仓库中数据的不可更新性是针对应用来说的,即用户进行分析处理时是不进行
数据更新操作的;但并不是说,从
数据集成入库到最终被删除的整个数据生成周期中,所有数据仓库中的数据都永远不变,而是随时间不断变化的。
数据仓库的数据非易失性是数据仓库的另一个重要特征。操作型环境中的数据通常是一次访问和处理一个记录,并且操作型环境中的数据是可以被更新的。但是在数据仓库中的数据通常是一次载入与访问的,并且数据仓库中的数据并不进行一般意义上的数据更新。