目录
前言
1. 明确主题 (从数据到主题)
2. 决定手法(从主题到对比)
2.1 成分对比
2.2 项目对比
2.3 时间序列
2.4 频数分布
2.5 相关性
3. 选出图的类型(从对比到图)
前言
本文为《用图表说话》的读书笔记(强烈安利数据分析师的同行们阅读此书)。在工作中,我们常用的基本图表只有5种,分别是饼图、条形图、柱状图、折线图、散点图:
从数据入到图形出作者总结了一套三步法:
- 第一步:明确主题 (从数据到主题)
对自己要表达的观点是否清晰明确,是找到最恰当图形的关键因素。
- 第二步:决定手法(从主题到对比)
通常你要传递的信息跳不出五类对比的手掌心:成分比较、项目比较、时间序列、频数分布、相关性。
- 第三步:选出图的类型(从对比到图)
每一种对比都有五种图中的一种图和它遥相呼应。
1. 明确主题 (从数据到主题)
把原始数据中的重要片段挑出来,根据这些片段组织结论。
举个栗子,假设现有如下数据,显示的是某APP在不同级别城市1到5月的DAU,单位为(万人):
| 一线城市 | 二线城市 | 三线城市 |
1月 | 35 | 23 | 101 |
2月 | 39 | 35 | 120 |
3月 | 43 | 32 | 128 |
4月 | 59 | 80 | 135 |
5月 | 67 | 57 | 151 |
由此表可以得出以下14个主题:
- 每个月和前5个月总和 各级别城市的DAU占比(5个主题)
- 每个月和前5个月总和 各级别城市的DAU排名(5个主题)
- 各级别城市DAU和总体DAU随时间的变化趋势(4个主题)
同一份数据,可以得出14个结论。所以你必须先要确定主题,然后才是用哪种图合适的问题。到底强调那个主题取决于你,想明白了主题也就有了。另外,如果你的图只有一个主题想要突出的话,那最好就用它做为图表的标题。类似各城市DAU占比、各城市DAU趋势这类的标题可能会让读者误解你想唯一突出的主题。
2. 决定手法(从主题到对比)
任何主题通常都逃不出五种最基本的对比。分别是:
- 成分对比
- 项目对比
- 时间序列
- 频数分布
- 相关性
2.1 成分对比
所谓成分对比,就是部分占整体的比例大小。例如:
- 五月份三线城市的DAU占比最大;
- 五月份三线城市的DAU占了整体DAU的55%。
只要主题里有”占了、百分之、占%“你就可以肯定这是成分对比。
2.2 项目对比
所谓项目对比,就是我们把数据排序,看这些数据是完全一样还是有多有少。比如:
- 五月份三线城市的DAU超过了一线城市和二线城市;
- 前五个月二线城市的DAU一直排第三。
像“大于、小于或者等于“这样的关键词提示就是项目对比。
2.3 时间序列
这是人们最熟悉的一种对比。我们并不关心各部分的大小或者排序,我们关注的是如何随时间而变化的。是否有按周、月、季度、年的增加、下降、波动、维持不变的趋势。比如:
- 从1月份以来三线城市的DAU稳定增长;
- 二线城市1到5月里DAU起起伏伏。
像“变化、变大、上升、下降、增加、减少、波动“这样的词就暗示着时间序列。
2.4 频数分布
这种对比表示的是在一个递进的数值区间中,个体数量是如何分布的。比如:
- 多少员工的收入不到3000元,多少人收入在3000到6000元之间;
- 多少人不到10岁,多少人在10到20岁之间、20到30岁之间。
“x到y、集中“就暗示这可能是这种对比,有“频数、分布“这两个词就更是直言不讳了。
2.5 相关性
相关性对比展示了两个变量之间的关系是否服从预期模式。比如你通常认为销售上去了利润也应该上去,或者折扣大销量也大。
如果主题中带有“相关、随之增长、随之减少、因…...而改变“,或者反过来“未随之增长“这样的词语,就是在表示相关性的对比。
就这么五种。你从数据表中得出的结论都会带着某种对比。简而言之:
- 成分是指占整体的比例;
- 项目是指项目的排序;
- 时间序列是指随时间而变化;
- 频数分布是指按区间的项目;
- 相关性是指变量间的关系。
3. 选出图的类型(从对比到图)
下图的矩阵描述了各对比类型与图表的最佳匹配关系。纵向是五种基础图,横向是之前讨论过的五种对比。时间序列、频数分布、相关性比较都有两种选择,具体该选择哪种取决于要绘制的数据量,数据点很少(比如6或7个)的时间序列和频数分布可以选择柱状图,如果数据点多的话,就可以使用折线图。如果是少量数据的相关性分析就用条形图,多的话就改成散点图。
下篇博客介绍这五种图的具体使用场景及注意事项。