镝摘
虽然直方图是柱状图的一种(毕竟乍眼看都是很多柱子的样子),但是其实它俩一个喜欢数多少,一个喜欢比大小。
直方图展示数据分布
猜猜看哪个是直方图?
直方图(Histogram)是一种可视化在连续间隔,或者是特定时间段内数据分布情况的图表,经常被用在统计学领域。简单来说,直方图描述的是一组数据的频次分布,例如把年龄分成“0-5,5-10,……,80-85”17个组,统计一下中国人口年龄的分布情况。直方图有助于我们知道数据的分布情况,诸如众数、中位数的大致位置、数据是否存在缺口或者异常值。
(注:众数是指一组数据中出现次数最多的数据值,众数可能是一个数,但也可能是多个数。中位数是指可将数值集合划分为相等的上下两部分的数。)
根据数据分布状况不同,直方图展示的数据有不同的模式,包括对称单峰、偏左单峰、偏右单峰、双峰、多峰以及对称多峰。
直方图的数据模式
来源:Wikipedia
直方图的百年历史
一般认为,直方图最早是由数理统计学家Karl Pearson引入的,1891年他在文章“Contributions to the Mathematical Theory of Evolution II: Skew Variation in Homogeneous Material”中,运用直方图展示了均质材料中的偏差。
Karl Pearson
Contributions to the Mathematical Theory of Evolution II:
Skew Variation in Homogeneous Material
Karl Pearson
随后,他也统计了欧洲250位君主的在位长度,以每3年为一个区间,发现在位时间在9-12年的君主数量最多(众数)。除此之外,我们也能看到没有人的在位时间是在51-54年,整体来说,在位时间长的君主很少。
图片来源:Statistical Approaches to Length of Reign
直方、柱状大不同
直方图和柱状图最让人迷惑的地方,就是它们长得非常相似。实际上,直方图和柱状图无论是在图表意义、适用数据上,还是图表绘制上,都有很大的不同。
1.直方图展示数据的分布,柱状图比较数据的大小。
这是直方图与柱状图最根本的区别。举个例子,有10个苹果,每个苹果重量不同。如果使用直方图,就展示了重量在0-10g的苹果有多少个,10-20g的苹果有多少个;如果使用柱状图,则展示每个苹果的具体重量。
所以直方图展示的是一组数据中,在你划分的区间里,这些数据的分布情况,但是我们不知道在一个区间里,单个数据的具体大小。下图展现了游客在博物馆的游览时间,其中,将近40%的游客仅逗留了0-10分钟。但是我们无法知道这些游客中,每个人具体的游览时间是多少。
图片来源:A Histogram is NOT a Bar Chart
而在柱状图里,我们能看到的是每个数据的大小,并且进行比较。下图就比较了在12次展览中,参观者参观时间的中位数,我们能够知道参观的具体用时。
图片来源:A Histogram is NOT a Bar Chart
2.直方图X轴为定量数据,柱状图X轴为分类数据。
由图表的原理就决定了,X轴在直方图与柱状图中的用法是不一样的。在直方图中,X轴上的变量是一个个连续的区间,这些区间通常表现为数字,例如代表苹果重量的“0-10g,10-20g……”,代表时间长度的“0-10min,10-20min……”。而在柱状图中,X轴上的变量是一个个分类数据,例如不同的国家名称、不同的游戏类型。
图片来源:www.mathsisfun.com
因此,直方图上的每根柱子都是不可移动的,X轴上的区间是连续的、固定的。而柱状图上的每根柱子是可以随意排序的,有的情况下需要按照分类数据的名称排列,有的则需要按照数值的大小排列。
3.直方图柱子无间隔,柱状图柱子有间隔
因为直方图中的区间是连续的,因此柱子之间不存在间隙。而柱状图的柱子之间是存在间隔。还有一个值得注意的地方,在直方图中,第一根柱子应该和Y轴有一定的间隔,即使都是从“0”这个值开始的。因为X轴与Y轴上“0”的意义不同,而且很多直方图上的区间并不是从0开始的。
4.直方图柱子宽度可不一,柱状图柱子宽度须一致
柱状图柱子的宽度因为没有数值含义,所以宽度必须一致。但是在直方图中,柱子的宽度代表了区间的长度,根据区间的不同,柱子的宽度可以不同,但理论上应为单位长度的倍数。
例如,美国人口普查局(The U.S. Census Bureau)调查了12.4亿人的上班通勤时间,由于通勤时间在45-150分钟的人数太少,因此区间改为45-60分钟、60-90分钟、90-150分钟,其他组距则均为5。
通勤数据
来源:Wikipedia
可以看到,Y轴的数据为“人数/组距”,在这种情况下,每个柱子的面积相加就等于调查的总人数,柱子的面积就有了意义。
通勤时间直方图
来源:Wikipedia
当上图的Y轴表达的是“区间人数/总人数/组距”,这个直方图就是我们初中学习的“频率分布直方图”,频率指的是“区间数量/总数量”。在这样的直方图中,所有柱子的面积相加就等于1啦。
使用直方小窍门
1.注意组距
组距会影响直方图呈现出来的数据分布,因此在绘制直方图的时候需要多次尝试改变组距。
组距较大的直方图
组距较小的直方图
2.X轴上为左闭右开区间
一般来说,X轴上的区间遵循“左闭右开”的原则,即在一个“a-b”的区间里,数据x应为“a≤x<b”。
3.注意Y轴所代表的变量
Y轴上的变量可以是频次(数据出现了多少次)、频率(频次/总次数)、频率/组距,不同的变量会让直方图描述的数据分布意义不同。
隐藏在身边的直方图
生活中,我们接触比较多的的应该是RGB直方图,这种直方图常出现在在PS、相机等场景中。