饼状图

饼状图是一种常见的单变量图形,用于描绘分类变量级别的相对频率。饼图中的频率用圆形的扇区表示:角度或面积越大,该分类值就越常见。


遗憾的是,饼状图是一种应用场合很有限的图形类型,图形创建者很容易将饼图绘制得难以看懂。如果你要使用饼状图,请尝试遵守特定的规则:

确保你关心的是相对频率。面积应该表示整体的一部分,而不是第二个变量的测量结果(除非第二个变量能够求和成某个整体)。

将扇区限制在一定的数量内。饼图最好只包含两到三个扇区,虽然也可以包含四到五个,只要扇区足够大,能够区分开即可。如果你有很多个类别,或者类别所占比例很小,可以将它们组合到一起,这样所需的扇区就更少,或者将这些比例很小的类别放到 "其他" 类别中。

系统地绘制数据。绘制饼图的一种常见方法是从圆圈的顶部开始,然后沿着顺时针方向绘制每个分类级别,从最常见的到最不常见的排列。如果有三个类别,并且想要对比其中两个,一种常见绘制方法是将这两个类别放在 12 点钟方向的两侧,第三个类别填充在底部剩余部分。

如果无法满足这些规则,则建议使用条形图。通常选择条形图更保险。长条高度比面积或角度更精确,并且条形图可以比饼状图更紧凑。对于值很多的变量来说,条形图更灵活。

你可以使用 matplotlib 的 pie 函数创建饼状图。此函数需要数据为摘要形式:函数的主参数是扇区大小。

# code for the pie chart seen above
sorted_counts = df['cat_var'].value_counts()
plt.pie(sorted_counts, labels = sorted_counts.index, startangle = 90,
counterclock = False);
plt.axis('square')

要遵守上述列表中的规则,我可以添加 "startangle = 90" 和 "counterclock = False" 参数,在垂直上方开始第一个扇区,然后按照顺时针方向有序地绘制每个扇区。axis 函数将使 x 和 y 轴的刻度相等。不调用此函数的话,最终的图形可能看起来不像圆形。

其他版本

饼状图的一种变体形式是环形图。它看起来很像饼状图,但是图形中间有个洞。从视觉感知上来看,环形图和饼状图没有什么太大的区别,应该按照饼状图的相同规则使用环形图。选择饼状图还是环形图的原因之一可能是看起来是否美观。例如,你可能见过关于环形图小洞的统计数据,希望能更好地利用可用空间。

要创建环形图,可以在 pie 函数调用中添加 "wedgeprops" 参数。默认情况下,饼图(圆形)的半径是 1;将扇区宽度属性设为小于 1 的值会删除圆形中心的颜色。

sorted_counts = df['cat_var'].value_counts()
plt.pie(sorted_counts, labels = sorted_counts.index, startangle = 90,
counterclock = False, wedgeprops = {'width' : 0.4});
plt.axis('square')

为者常成,行者常至