关于北京PM2.5浓度的,一直想做个真实的数据可视化的视图来随时分析每年的变化情况以及规律,以便随时了解身边环境的变化。用公开的统计数据和一款高性能且免费的Oracle分析工具,实现了八年PM2.5的相关分析。
美国务院空气质量监测项目的数据的地址:http://www.stateair.net/web/historical/1/1.html
看到原始数据源,这是从2008年到2017年按每个小时统计的PM2.5数据。那应该用一张什么样的图形图表来展示连续时间这么长的细节数据呢?
线型图?线型图是观察数据的趋势,当我们想要了解某一维度在时间上的规律或者趋势时,可以用到它。
第一个线性图是按时间(每日每小时)展示的PM2.5值线图,我们可以通过不同颜色比较每年每周的变化,但很可惜,因为维度上的刻度太细,很难通过人眼辨别每年的数据变化。于是在第二个线性图我们修改了时间的维度,将PM2.5值按时间(每周)的变化,数据似乎有些相关关系,我们发现PM2.5值可能和季度有相关关系。不幸运的是很难看出其他时间维度和PM2.5 数值的关系变化。
柱形或者条形图?柱状图每一个类别仅由一根柱变成多根柱,多根柱可以串列,也可以并列。
第一个柱状图是按季度维度做为X轴,通过颜色区分8个不同年份。在第一张图里能很清晰的看出季度1和季度4的聚合值要高于另外两个季度。那么进一步钻取,第二张图是用周维度做X轴,可以看到周这个维度展示的数据很清晰,这个刻度能让数据能合理展示。但如果我们想加入更多的维度,比如季度和年来反应他们之间的关联关系,确是件很难的事。
散点图?散点图的优势是揭示数据间的关系,发掘变量与变量之间的关联。
在第一个散点图中,我很想通过日和月的X,Y 时间轴,Value值做为大小,发现PM2.5的变化规律。通过工具的筛选,很容易能看出2016年一整年每月每天的数值变化。但如果加入其他年份作为对比,这个五颜六色的散点图顿时让人看了泄气。
想了想我到底想要什么:这份原始数据应该能反映年,季度,月,周,PM2.5值5个变量的关系。
旭日图?Oracle 分析工具里自带的这个图形,比饼图更复杂得多。它从中心向外辐射,每辐射一层就细分一层,用来表示多个变量多层之间的比例关系。但它的缺点和饼图一样明显:被切割得非常细,不利于阅读。
雷达图?!雷达图既可以多个观测之间的纵向比较,也可以是一个观测在不同变量间的横向比较。
雷达图给了我很大的启发:如左图,可以将季度按角度分组。但当我加入年份的变量时,数据显得有些让人迷惑。
最后为了达到想要的视觉效果,在查询了一些有意思的资料后,我通过计算做出了以下可视化效果。
这个径向时间序列图展示的是2009年至2016年八年的数据(周长),每年分为成了四个季度(象限),每个季度按十三周(直径)来展示PM2.5浓度(大小)。从图可以看到从2013年PM2.5开始明显高于往年,春冬季的PM2.5浓度高于其他季节,2017年最浓的PM2.5值发生在第一周。 Viz如何做的
其中包括五种基本的计算:
径向位置 - 这将确定各个数据点沿着圆圈分布的位置。
圆半径 - 这将确定圆圈彼此之间的位置关系。例如,定义哪个数据值处于最中心的最小圆圈位置以及外部最大的圆圈是什么。
角度 - 用于在 360º 的圆圈内均匀分布数据点。在我的 Viz 中,我的数据被分为八年,按Pi/16来转动角度。
X - 这是 X 坐标。
Y - 这是 Y 坐标。
因为该网站还没有完整的2018年数据,所以一旦有更新,我们能简单的通过导入数据和已做好的数据流生成Viz,以此更加清晰的了解最近的变化规律。感兴趣的朋友也可以通过在Oracle官方网站免费下载使用这款分析产品。