作为数据挖掘以及表现形式,数据可视化在用户中已经非常普及。然而,对于真正了解数据可视化的人来讲,挑战依然存在,尤其是其中的一些小秘密更是让这些开发者奋斗不止。比如,最常见的问题:现实中的数据往往很丑,我们该怎么办?
在很多数据可视化教程当中,学习者所看到的往往都是非常干净的数据,无论是力导向的网络图、基础的柱状图,各种数据,各种分析都井然有序,看起来那么简单,那么轻松。然而真正的数据并不是我们看到的那样,相反会很丑,很乱,甚至让你头疼的不得了。因为数据太多太大,要想分析出有价值的数据,必须要从万千数据中去挖掘,就好比大量淘金一般。
尤其是,当你在处理现实数据的时候,往往有百分之八十的时间需要你去搜索、获取、载入以及清洗更换数据,从而形成最终简洁、直观且漂亮的数据可视化图表。
当然,在这个过程中,并不一定全部需要手工,还可以通过自动化工具来完成。而工具的处理方式有两种:
第一、给数据清洗留下足够的时间
尤其是在处理多个数据源之时,需要留下更多的时间,而手工录入、OCR数据以及各种不同类别的配比等都是需要大量时间来处理的,所以在使用工具处理这些问题之时,要留下足够的时间,以免数据处理不完整或者是遗漏重要数据。
第二、Google Refine
这是数据可视化中非常实用的一个清洗工具,虽然在处理非表格化数据方面存在不足,但是总的来说,Google Refine所带来的清洗效果是非常喜人的。不过,要提醒大家的是,一定要把自己的文本存档,以便日后使用。
除了这个问题之外,在数据可视化分析中,柱状图往往更受欢迎。气泡图虽然在同样空间能表现更多数据,但是层次结构不明,而饼图表现的是整体和局部的关系,其简洁明了性不如柱状图。尤其是当你需要一个单一维度可视化一个数据集的时候,柱状图的效果更加明显。
数据可视化是数据分析的一种趋势,也是必然所需,也许可视化存在这样那样的不足,但是从目前的使用效果来看,数据可视化的需求还会进一步加大。
---------------------------------------------------------------------------------------------------------------------------------