通过各种渠道将统计数据搜集上来之后,首先应对这些数据进行加工整理,使之系统化、条理化,以符合分析的需要。数据整理通常包括数据的预处理、分类或分组、汇总等几个方面的内容,它是统计分析之前的必要步骤。 数据的
预处理是数据分组整理的先前步骤,内容包括数据审核与
数据筛选、
数据排序等。
对审核过程中发现的错误,应尽可能予以纠正,在调查结束后,当对数据中发现的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行
筛选。
数据排序是按一定顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征趋势或解决问题的线索,除此之外,排序还有助于对数据检查纠错,以及为重新归类分组等提供依据。在某些场合,排序本身就是分析的目的之一。
1.准确性审核:主要是从数据的真实性与精确性角度检查资料,其审核的重点是检查调查过程中所发生的
误差。
2.适用性审核:主要是根据数据的用途,检查数据解释说明问题的程度。具体包括数据与调查主题、与目标总体的界定、与调查项目的解释等是否
匹配。
4.一致性审核:主要是检查数据在不同地区或国家、在不同的时间段是否具有
可比性。
对于通过直接调查取得的原始数据应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的
调查项目或
指标是否填写齐全等。准确性审核主要包括两个方面,一是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。审核数据准确性的方法主要有逻辑检查 数据的审核和计算检查 。
对于通过其他渠道取得的
二手数据,除了对其完整性和准确性进行审核外,还应着重审核数据的适用性和时效性。第二手数据可以来自多种渠道,有些数据可能是为特定目的通过专门调查取得的,或者是已经按照特定目的的需要做了加工整理,对于使用者来说,首先应弄清楚数据的来源、数据的口径以及有关的背景资料,以便确定这些数据是否符合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外还要对数据的时效性进行审核,对于有些时效性较强的问题,如果所取得的数据过于滞后,可能失去了研究的意义,一般来说,我们应尽可能使用最新的统计数据。数据在经过审核后,确认适合于实际需要,才有必要做进一步的加工整理。
现实世界中数据大体上都是不完整,不一致的
脏数据,无法直接进行数据挖掘,或挖掘结果不尽如人意。为了提高数据挖掘的质量产生了数据预处理技术。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
另一方面,根据科学设计所得到的数据,在使用前必须进行
统计学分析才有意义。不经统计学处理的数据,没有实际意义。没有统计学处理的结果,只能说明观察范围内的结果,是一个小的样本,这样很难避免在抽样中存在的误差。因此对科学设计所得到的数据进行统计
数据预处理,是进行科学统计分析的必要前提。