箱形图(
英文:Box plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的
统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理。不过作法相对较繁琐。
统计图形,又称为统计图、统计学图形、图解方法、图解技术、图解分析方法或图解分析技术,是指统计学领域当中用于
可视化定量
数据的
信息图形。有时,人们也把统计图形与各种统计学表格统称为统计图表或统计学图表。
统计学与
数据分析过程可大致分为两个组成部分:定量分析方法(Quantitative techniques)和图解分析方法(graphical techniques)。定量分析方法是指那套产生数值型或表格型输出的统计学操作程序;比如,包括
假设检验、
方差分析、
点估计、
可信区间以及最小二乘法回归分析。这些手段以及与此类似的其他技术方法全都颇具价值,属于是经典分析方面的主流。
另一方面,还有一大套我们一般称之为图解分析方法的统计学工具。这些工具包括
散点图、
直方图、概率图、
残差图(residual plot)、
箱形图、块图以及双标图。探索性数据分析(Exploratory data analysis,EDA)就密切地依赖于这些手段以及与此类似的其他技术方法。图解分析操作程序不仅仅是在EDA背景下才使用的工具;在检验假设、模型选择、统计模型验证、估计量(estimator)选择、关系确定、因素效应判定以及
离群值检出方面,此类图解分析工具还可以作为最佳捷径,用来深入认识数据集。此外,优质的统计图形还可以作为一种令人信服的沟通手段,用来向他人传达存在于数据之中的基本讯息。
图解式统计学方法具有四个方面的目标:⑴ 探究
数据集的内容;⑵ 用于发现数据之中的结构;⑶ 检查统计学模型之中的
假设;⑷ 沟通传达分析结果。
一批数据中的异常值值得关注,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。盒形图为我们提供了识别异常值的一个标准:异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。虽然这种标准有点任意性,但它来源于经验判断,经验表明它在处理需要特别注意的数据方面表现不错。这与识别异常值的经典方法有些不同。
比较
标准正态分布、不同自由度的t分布和非对称分布数据的盒形图的特征,可以发现:对于标准
正态分布的大样本,只有 0.7%的值是异常值,中位数位于上下四分位数的中央,盒形图的方盒关于中位线对称。选取不同自由度的t分布的大样本,代表对称重尾分布,当t分布的自由度越小,尾部越重,就有越大的概率观察到异常值。
同一数轴上,几批数据的盒形图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便昭然若揭。在一批数据中,哪几个数据点出类拔萃,哪些数据点表现不及一般,这些数据点放在同类其它
群体中处于什么位置,可以通过比较各盒形图的异常值看出。各批数据的四分位距大小,正常值的分布是集中还是分散,观察各方盒和线段的长短便可明了。每批数据分布的偏态如何,分析中位线和异常值的位置也可估计出来。还有一些盒形图的变种,使数据批间的更加直观明白。