数据不一致性
各类数据的矛盾性、不相容性
数据不一致性,是指各类数据的矛盾性、不相容性。其一是由于数据冗余造成的,二是由于并发控制不当造成的,三是由于各种故障、错误造成的。
内容简介
数据是对现实世界的描述,应该符合一定的语义规则和逻辑常识,但实际应用中,由于各种原因,有些数据违反了这样的语义规则,表现为数据值异常、不完整或相互矛盾,对于关系数据而言,还有实体异常(多条记录对应同一实体)、包含异常(多表之间记录不满足包含关系)等,所有这类“脏”数据我们称之为不一致数据。数据不一致性是指数据的矛盾性、不相容性。
产生原因
数据不一致性的原因主要有以下三种:一是由于数据冗余造成的;二是由于并发控制不当造成的;三是由于各种故障、错误造成的。
第一种情况的出现往往是由于重复存放的数据未能进行一致性地更新造成的。例如教师工资的调整,如果人事处的工资数据已经改动了,而财务处的工资数据未改变,就会产生矛盾的工资数。
第二种情况是由于多用户共享数据库,而更新操作未能保持同步进行而引起。例如,在飞机票订购系统中,如果不同的两个购票点同时查询某张机票的订购情况,而且分别为顾客订购了这张机票,就会造成一张机票分别卖给两名顾客的情况。这是由于系统没有进行并发控制,所以造成了数据的不一致性。
第三种情况下,当由于某种原因(如硬件故障或软件故障)而造成数据丢失或数据损坏,要根据各种数据库维护手段(如转存、日志等)和数据恢复措施将数据库恢复到某个正确的、完整的、一致性的状态下。
分类
数据集成系统中的数据不一致性主要来自两个层次,即数据本身的不一致性和模式匹配的不确定性。
实际举例
数据不一致性存在于以下应用:
因此,在实际应用中,一般开展数据挖掘前要进行数据清洗 (data cleaning)以梗填补遗漏数据、消除异常数据、平滑噪声数据,纠正不一致数据来提高数据质量。不一致数据的查询处理可以为数据挖掘的脏数据处理开拓新的解决思路。
解决办法
数据库系统
考虑了各种破坏数据一致性的因素,并采取了一些相应的措施来维护数据库的一致性。例如提供了并发控制的手段,提供了存储、恢复、日志等功能。由于数据面向整个系统,是有结构的数据,不仅可以被多个应用共享使用,而且容易增加新的应用,这就使得数据库系统易于扩充,可以适应各种用户的要求。可以取整体数据的各种子集用于不同的应用系统,当应用需求改变或增加时,只要重新选取不同的子集或加上一部分数据便可以满足新的需求。
基于标记的查询回答
不一致性被看作是数据的一个属性,并能使用标记符号加以说明,所有数据库及其查询回答的单元值上都可以附上0到多个标记,如果附上的符号数为0,那么该单元值是一致可信的,反之则不一致不可信。
聚类
参考资料
最新修订时间:2022-08-25 16:07
目录
概述
内容简介
产生原因
参考资料