数据的分布主要有以下几种表现形式:
- 直方图
- 密度图
- 箱线图
- 点图+箱线图
- 塔夫特箱线图
- 小提琴图
- 金字塔图
箱型图(Boxplot)也称箱须图(Box-whisker Plot)、盒式图或箱线图,是利用数据中的五个统计量:最小值、上四分位数、中位数、下四分位数与最大值来描述数据的一种统计图。它能够直观地显示数据的异常值,分布的离散程度以及数据的对称性。
直方图(Histogram),又称质量分布图,由一系列宽度相等、高度不等的长方形来表示数据分布,其宽度代表组距,高度代表指定组距内的数据数(频数),一般用横轴表示数据类型,纵轴表示分布情况。其常用于对连续变量(定量变量) 的概率分布的估计,可以使我们较直接地看到数据的中心位置、离散程度和分布形状。
密度图属于直方图的变种,用于呈现连续数据的分布。对于一维密度图,横轴为数据对应的值,纵轴为数据的密度(Density),密度图上的每一点代表某一个数据所在值的密度,密度图的峰值给出了数据集中分布的区域;对于二维密度图,常用颜色的深浅表示数据密度(Density)的大小。
小提琴图是箱线图与核密度图的结合,箱线图展示了分位数的位置,核密度图则展示了任意位置的密度,通过小提琴图可以知道哪些位置的数据点聚集的较多,因其形似小提琴而得名。
蜜蜂图(Beeswarm)是一种散点展示图,通过蜜蜂图可以直观地看出样本的分布位置,包括数值的高低、分布密度。它很好地体现了数据的分布,更加清楚、直观。
箱型图(盒须图)
直方图
密度图
分布曲线图
山脊图
等高线图
其它变种
小提琴图
蜜蜂图