描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。
描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。描述统计学内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。
描述统计是来描绘(describe)或总结(summarize)的观察量的基本情况的统计总称。描述统计学研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。
透过对于数据资料的进行
图像化处理,将资料摘要变为图表,以直观了解整体资料分布的情况。通常会使用的工具是
频数分布表(frequency distribution table)与
图示法,如
多边图(polygon)、直方图(histogram,barchart)、
圆形图(piechart)、
散点图(scatterplot)等。
透过分析数据资料,以了解各变量内的观察值集中与分散的情况。运用的工具有:
集中量数(measure of central location),如
平均数(Mean)、
中位数(Median,Md)、众数(Mode,Mo)、
几何平均数(Geometric mean,GM)、
调和平均数(Harmonic mean,HM)。与
变异量数(measure of variation),如
全距(range)、
平均差(average deviation,AD)、
标准差(standard deviation,SD)、相对差、
四分差(quartile deviation)。
在
推论统计中,测量样本的集中量数与变异量数都是变量(parameter)的不偏
估计值,但是以
平均数、
变异数、标准差的有效性最高。
为了解个别观察值在整体中所占的位置,会需要将观察值转换为相对量数,如
百分等级(percentage rank,PR),或
标准分数(Z-score,T-score)。
当数据中有异常值时,使用中位数作为中心位置的度量比平均数更合适。有时,在有异常值的情况下,我们使用另外一种度量方法——调整平均数(trimmed mean)。 删除数据中最大的和最小的一些数据,然后对剩下的数据求平均值,得到的就是调整平均数。
描述统计学和
推断统计学的划分,一方面反映了
统计方法发展的前后两个阶段,同时也反映了应用统计方法探索客观事物数量规律性的不同过程。
统计研究过程的起点是统计数据,终点是探索出客观现象内在的数量规律性。在这一过程中,如果搜集到的是总体数据(如普查数据),则经过
描述统计之后就可以达到认识总体数量规律性的目的了;如果所获得的只是研究总体的一部分数据(样本数据),要找到总体的数量规律性,则必须应用概率论的理论并根据样本信息对总体进行科学的推断。
显然,描述统计和
推断统计是统计方法的两个组成部分。描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。由于在对现实问题的研究中,所获得的数据主要是样本数据,因此,推断统计在现代统计学中的地位和作用越来越重要,已成为统计学的核心内容。当然,这并不等于说描述统计不重要,如果没有描述统计收集可靠的
统计数据并提供有效的样本信息,即使再科学的统计推断方法也难以得出切合实际的结论。从描述统计学发展到
推断统计学,既反映了统计学发展的巨大成就,也是统计学发展成熟的重要标志。