在数据库中,稀疏数据是指在
二维表中含有大量
空值的数据;即稀疏数据是指,在数据集中绝大多数数值缺失或者为零的数据。稀疏数据绝对不是无用数据,只不过是信息不完全,通过适当的手段是可以挖掘出大量有用信息。
定义
稀疏数据是指,数据框中绝大多数数值缺失或者为零的数据。在现代社会中,随着信息的爆炸式增长,数据量也呈现出爆炸式增长,数据形式也越来越多样化。在数据挖掘领域,常常要面对海量的复杂型数据。其中,稀疏数据这一特殊形式的数据正在越来越为人们所注意。
稀疏数据绝对不是无用数据,只不过是信息不完全,通过适当的手段是可以挖掘出大量有用信息的。然而在一些情况下,数据的稀疏程度甚至会达到 95%以上,这使得传统的统计方法不适于处理此类数据。
来源
稀疏数据的来源与产生原因可以有很多种。大致归结起来,主要可以概括为以下几个种类:
由于调查不当产生的稀疏数据
这种稀疏数据常见于问卷调查和电话调查中,如果问卷问题设置不当,过于繁杂难懂,就会导致被调查者产生厌烦心理,草草回答几个问题了事。然而已经回答的问题又是有效问卷的一部分,不能做遗弃处理,假若这种问卷大量出现,那么就会出现稀疏数据。
由于天然限制产生的稀疏数据
这种稀疏数据常见于电子商务领域,例如淘宝网、沃尔玛等网购网站或超市中。由于每个客户客观上不可能把所有商品购买一遍,所以他们的客户购买记录必然只是对海量商品中一小部分的记录。这样,客户购买记录必然是一个稀疏数据。
文本挖掘中产生的稀疏数据
在文本挖掘领域,为了比较几篇文章是否属于同一主题,常用的算法是首先选定一批关键词,通过不同文章中这些关键词出现的频率来进行判断。而这一批关键词常常会有成千上万个,而每篇文章基本只包含其中几十到几百个关键词,那么由此产生的数据也就是一个稀疏数据了。
医学造影成像领域
现代医学常常要借助 CT、B 超、核磁等手段造影成像,作为判断病情的重要手段。其中 CT 成像是由若干射线源与接收器来采集数据,在实际应用中,受到设备、病人条件等限制,常常不能做到全角度扫描,故而在成像算法上也常常要面对稀疏数据。
稀疏聚类
针对稀疏数据的另一个研究方向就是对稀疏数据的聚类与降维。稀疏数据不同于一般数据,它的维度常常极其巨大,并且由于大量的缺失值的存在,使得数据信息极端不完整,常见的降维方法例如主成分、因子分析等无法在此上应用。
针对这一情况,很多学者开始研究探索一些其他的方法来解决这一问题。谢宁新在他发表的文章中,提出利用二进制数来计算稀疏相似度,进而进行聚类。他首先引用了稀疏特征的二进制码概念,通过设定一个阈值 b,将稀疏矩阵中大于 b 的数用1 表示,小于 b 的用 0 表示,将稀疏矩阵转换成了二进制码矩阵。然后采用二进制数的布尔 AND 运算,计算 u1AND u2,其中 u1和 u2分别表示两个样本的二进制码序列。AND 具体的运算规则是,若两条序列中,同一位置的二进制码同为 1,则返回数值 1;否则返回数值 0。最后计算 u1AND u2中数字 1 的个数,将之作为两样本的相关性。并进而将相关性显著大的样本聚为一类。
该二进制码算法在一定程度上克服了稀疏数据计算相似度的困难,并且有着运算速度极高的特点,但是应用局限较大。将数据转换成二进制码本身会损失大量信息,对于高度稀疏的数据来说,人为地损失到本就很稀少很珍贵的数据信息,并不是一个明智的选择。
此外,赵雅琴等人的研究中,给出了稀疏相似度、等价关系相似度、广义等价关系等概念。他们也同样是首先将稀疏数据进行二进制码的转换,然后利用不同项目间的稀疏相似度和等价关系,得出初始等价类,然后再对初始等价关系利用等价关系相似度进行修正,从而使聚类结果更为合理。
在数据挖掘领域里也常常有一些算法概念被借鉴过来,有学者提出了一种改进的局部线性嵌入算法(locally linear embedding),通过一种非线性映射,在不改变原始数据空间流形的前提下,将高维样本映射到低维空间中去。针对于稀疏数据,他采用一种联合局部线性嵌入(united locally linear embedding),并通过实验表明了良好的降维效果。
恢复问题
稀疏信号是指绝大多数元素为 0 的信号, 与同样长度的普通信号相比, 它包含的信息较少。 因此, 稀疏信号可以充分地压缩, 从而节约储存空间, 减少传输量。近年来, 数据的稀疏性在压缩传感、信号/图像处理、大数据分析与处理、机器学习和统计推断等领域受到广泛关注并获得了成功的应用。 数据恢复是指将遭到干扰或者破坏的数据还原成真实数据。 数据被干扰或破坏的原因有很多, 如存储和传输介质的影响、测量仪器与观测过程产生的误差以及外界噪声的干扰等等。 数据恢复问题广泛存在, 例如, 稀疏信号压缩传感问题 (Compressed Sensing Problem,简称 CS 问题);低秩矩阵完整化问题 (Matrix Completion Problem, 简称 MC 问题); 基于全变差正则化 (Total-Variation based Regularization) 的图像恢复问题(Image Reconstruction Problem, 简称 TVIR 问题)。 上述三类问题的共同特点是需要恢复的数据具有某种稀疏结构, 因此称为稀疏数据恢复问题。 稀疏数据恢复问题的数学规划模型一般具有特殊结构, 如目标函数的可分性、向量的稀疏性、矩阵的低秩性等。 如何高效地从病态的线性反问题中唯一且稳健地恢复出特定的信息是许多学者长期以来致力于研究的重要课题。
应用场景
稀疏数据广泛存在于各种应用场景中,如:在分布式管理系统Condor中用户可以自己定义新的属性,因此,在一个数据集中很多属性几乎都是空值;同时,稀疏数据还大量存在于电子商务的应用中,每位商家都可以定义自己商品或者订单特有的属性,从而使得数据有成千上万的属性值,如中有5000个属性,但是对于每个元组,这些属性值几乎都是空值;在医学、地球科学等领域,存在着大量的稀疏数据。