1 高维多元数据 

        每个数据对象有两个或两个以上独立或者相关属性的数据。高维指数据具有多个独立属性,多元指数据具有多个相关属性。由于研究者在很多情况下不确定数据的属性是否独立,因此通常简单地称之为多元数据。例如:电脑配置。

 

      高维多元数据(Multidimensional Multivariate Data)的可视化挑战

  1. 对于高维多元数据,以统计和基本分析为主的可视化分析能力不足
  2.  数据复杂度大大增加,包括非结构化数据和从多个数据源采集、整合而成的异构数据,传统单一的可视化方法无法支持对此类复杂数据的分析。
  3. 数据的大尺度以及超越了单机、外存模型甚至小型计算集群处理能力的极限,可处理的数据尺度大约在GB级别,需要采用全新思路来解决大尺度的调整。
  4. 数据获取处理中,不可避免会产生数据质量的问题,其中特别需要关注的是数据的不确定性
  5. 数据快速动态变化,常以流式数据形成存在,对流数据的实时分析与可视化仍然是一个急需解决的问题。

 

       在二维和三维数据可以采用一种常规的可视化方法表示,将各属性的值映射到不同的坐标轴,并确定数据点在坐标系中的位置。这样的可视化通常被称为散点图(scatterplot)。当维度超过三维后,可以增加视觉编码来表示,例如颜色、大小、形状等。但对于更高维多元数据的可视化,这种方法还是很局限。

 

1.1、空间映射

   散点图的本质是将抽象的数据对象映射到二维坐标表示的空间。

   散点图和散点图矩阵

   表格透镜(TableLens)

   平行坐标(ParallelCoordinates),它可以揭示数据在每个属性上的分布,还可以描述属性之间的关系。但是,由于平行坐标的坐标轴是顺序排列的,对于非相邻属性之间关系的表现相对较弱,不易于同时表现多个维度之间的关系。

   降维,当数据维度非常高时(例如,超过50维),各类可视化呈现方法都将无法清晰地表示所有数据细节。通过线性或非线性变换将多元数据投影或嵌入致低维空间,并保持数据在多维空间中的特征,即在低维空间中尽量保持数据在多元空间中的关系或特征。这种策略称为降维。

线性方法:主元素分析(principalComponent Analysis,PCA),多维尺度分析(Multidimensional Scaling, MDS)

非线性方法:局部线性嵌入(LocallyLinear Embedding,LLE),Isomap 

主元分析,提取主要的维度,同时保持数据集方差贡献最大的特征,其核心是特征分解协方差矩阵。

多维尺度分析(MDS),是常用的降维方法,在统计分析和信息可视化领域有着广泛的应用。

 

1.2 图标法

   星形图(starplots),又称雷达图(Radar Chart)。

  

多维数据分析视图 多维数据图表_高维多元

 

1.3、基于像素的可视化方法

   多元数据可视化面临的一个主要挑战是在有限的屏幕空间中显示海量数据。为了根更好的利用屏幕资源,研究者提出了一个利用但个像素作为可视化的基本显示单元的方法。

像素图(Pixel Chart),

像素柱状图(Pixel Bar Chart),

马赛克图(Mosaic Plot),通过空间剖分的方法展示多元类型数据的统计信息。

 

2 非结构化与异构数据的可视化

    数据的复杂度并不仅仅来自于数据的高纬度特性,还来源于数据的非结构性和异构性。

2.1 非结构化数据

     例如(文本、时间、日志)无法采用二维表的形式来表示。

     网站日志数据也是一种常见的非结构化数据,它记录了用户在某个网站上所有的点击和访问的页面,数据中的每条记录表示一次用户访问,一次访问是一个由用户点击事件组成的序列。

 

2.2 异构数据

    异构数据是指同一个数据集中存在结构或者属性不同的数据的情况。存在多种不同类别的节点和连接网络被称为异构网络。如何合理地呈现不同属性的数据,利用异构特性来辅助可视化是异构数据可视化的关键。

    异构数据通常采用网络结构的方式进行表达。基于异构社交网络的本体拓扑结构表达了恐怖组织网络中的9种不同类别的节点。

3 大尺度数据的可视化

3.1 基于并行的大尺度数据高分辨率可视化

     全方位显示大尺度数据的所有细节是一个计算密集型的过程。大规模计算集群是处理大尺度数据的基本技术路线。例如,美国马里兰周大学构建了一个GPU和CPU混合式高性能计算和可视化集群。

    另一方面,大规模数据的高清可视化需要高分辨率的显示设备和显示方法。

 

3.2 大尺度数据的分而治之可视化与分析

        统计分析层的分而重组,R语言是一门开源的面向统计分析的底层语言。R语言本身基于单线程运行,利用大量的软件开发包实现多核并行计算,例如Rmpi和SNOW。RHIPE是美国普度大学统计系开发的一个基于MapReduce框架的R语言实现。

        数据挖掘方面,采用分而后合的方法处理大数据分类的解决思路。三步骤,输入数据,然后将输入数据分为n份,对美分数据才用最合适的分类器分类后,将分类结果融合,最后通过一个强分类器计算最终结果。

        数据可视化的分而治之,标准的科学计算数据的并行可视化采用计算密集型的超级计算机、计算集群和GPU集群等模式。产业流行的Hadoop和MapReduce等面向普适数据的大数据处理框架,通常被用于处理非空间型数据。

 

4 数据不确定性的可视化

   可视化不确定性有助于用户准确地理解数据并做出正确的决策。不确定性可视化被认为是数据可视化的关键问题之一,迄今为止仍存在重要的问题亟待解决,包括:

1.        不确定性的清晰表示

2.        降低或避免因不确定性可视化所带来的视觉混乱

3.        降低可视化不确定性所引起的对确定性数据可视化结果的负面影响

4.        不确定性表达的可视隐喻

 

4.2 不确定性的来源

    在数据收集、处理和可视化过程中都存在不确定性,而且不确定性在可视化流水线的不同阶段也存在并不断传播。

 

4.3 不确定性的可视化方法

可视化方法

优势

不足

图标法

简单、易于理解

易于产生视觉混乱等问题

视觉元素编码法

可帮助用户迅需定位可视化结果中的不确定性所在的区域和大小

需要精心选择视觉元素有效地表达不确定性

几何体表达法

形象、直观,可编码高维度的不确定性

易污染原有的确定性数据的可视化结果

动画表达法

可帮助用户更加生动、形象地理解不确定性,提供了更高的自由度调节可视化结果

理解曲线较长,易引起疲劳