数据可视化简介
可视化:对数据进行交互的可视表达以增强认知的技术。
•它将不可见或难以直接显示的数据映射为可感知的图形、符号、颜色、纹理等,增强数据识别效率,高效传递有用消息。
• 数据可视化的意义
1.视觉是人类获得信息的最主要途径
2.可视化能够帮助人们提高理解与处理数据的效率
3.数据可视化能够在小空间中展示大规模数据
• 数据可视化的作用( 记录信息、分析推理、证实假设、交流思想 )
- 可视化可以增强工作记忆
- 可以突出变化
- 使用高对比度,使得物体更容易区分。
** 数据可视化的基本特征**
特征 | 描述 |
易懂性 | 可视化使人们更加容易地理解数据和使用数据,进而便于人们将数据与他们的经验知识相关联。可视化使得原本碎片化的数据转换为具有特定结构的知识,从而为科学决策支持提供强有力的支持。 |
必然性 | 数据量已远远超出了人们直接读取、浏览和操作数据的能力,必然要求人们对数据进行形象化的归纳和总结,对数据的结构和表现形式进行有效的转换处理。 |
多维性 | 通过数据可视化的多维呈现,能够清楚地对数据相关的多个变量或者多个属性进行标识,并且所处理的数据可以根据每一维的量值来进行显示、组合、排序与分类。 |
片面性 | 数据可视化往往只是从特定的视角或需求来认识数据,并得到符合特定目的的可视化模式。数据可视化的片面性特征意味着可视化模式不能替代数据本身,只能作为数据表达的一种特定形式。 |
专业性 | 数据可视化与领域专业知识紧密相关,其形式需求多种多样并随行业、用户和环境等条件而动态变化。专业化特征是人们从可视化模型中提取专业知识的必要环节,是数据可视化应用的最后流程。 |
视觉感知与视觉通道
(*)格式塔(gestalt)原则
—— 结构比元素重要,视觉形象首先作为统一的整体被认知。
1.贴近原则 (接近性 proximity)
2.相似原则 (相似性 similarity)
3.连续原则 (连续性 continuity)
4.闭合原则 (闭合性 closure)
5.共势原则 (common fate)
6.好图原则 (good figure)
7.对称性原则 (symmetry)
8.经验原则(past experience)
9.简单性(simplicity)
相对性&绝对性感知系统基于相对判断,而非绝对判断(Weber‘s Law)
视觉通道的类型
(空间、标记、位置、尺寸、颜色、亮度、饱和度、色调、配色方案、透明度、方向、形状、纹理、动画)
表现力&&有效性
视觉通道的表现力要求视觉通道准确编码数据包含的所有信息,视觉通道在对数据进行编码的时候,需要尽量忠于原始数据。
有效性通常表现力符合属性的重要性。
表现力判断标准
标准 | 描述 |
精确性 | 能否能够准确得在视觉上表达数据之间的变化 |
可辨性 | 同一个视觉通道能够编码的分类个数,即可辨识的分类个数上限 |
可分离性 | 不同视觉通道的编码对象放置到一起,是否更容易分辨 |
视觉突出 | 重要的信息,是否用更加突出的视觉通道进行编码 |
折线图多用于展现趋势,而不适合用在非连续的项目上。
数据
数据属性
数据对象的特征(Characteristics) 或特性 (feature)(别名:特征、维度、变量)
属性集合:属性向量
1.类别型属性
2.序数型属性
3.数值型属性
数据相似性度量
1.类别型属性
如果有两个对象X、Y,均有p个类别属性,则他们的相异度为
其中,m是X,Y中取值相同的属性数目。
2.比值型数据属性
距离可被用来衡量两个比值型数值属性对象的相异度。距离函数d(X,Y)的定义需要同时满足以下三个准则:
1)非负性,d(X,Y)≥0(d(X,Y)=0当且仅当X=Y,即任何对象到自己的距离为0)。
2)对称性,d(X,Y) = d(Y,X),即X到Y的距离等于Y到X的距离。
3)三角形不等式(两边之和大于第三边),d(X,Y)+d(Y,Z)≥d(X,D)。下面介绍常见的几类距离函数,设对象X, Y均为n维数据X= (x,L…x), Y= (y.+y,*y) 。
3.序数型属性
假设某个序数属性t有N,个可能取值,排序后顺序为1, 2, … N,则将属性值归一化到[0, 1]区间中的值。
4.区间型数值属性
数据预处理
数据的基本统计方式:均值、中位数、方差
数据的不确定性
来源:本身误差、精度转换、特定应用需求、缺失值、数据集成
分类:存在不确定性、属性不确定性
数据质量评价标准——数据质量高 -> 对目标用途的符合度高
精确性(Accuracy)、完整性(Completeness)、一致性(Consistency)、适时性(Timeliness)、可信性(Believability)、可解释性(Interpretability)
数据可视化质量的衡量标准: 数据墨水比(data-ink ratio)
数据清理&数据集成
数据清洗:检测和清除数据中的错误和不一致,以提高数据质量。
数据处理涉及的典型数据错误类型:
错误类型 | 处理方法 |
缺失值 | (1)使用常量代替缺失值(2)属性平均值填充(3)利用回归、分类方法进行预测试填充(4)人工填充 |
噪声值 | (1)回归分析(2)离群点分析 |
数据整合包括:
(1)合并来自多个数据源的数据
(2)向用户提供一个关于这些数据的统一视图
数据集成需要解决的问题
(1)属性匹配
(2)冗余去除
(3)数据冲突检测与处理
数据清洗和整合步骤
初步分析:在操作之前进行数据分析
冲突解析:解析数据源间的数据冲突
定义数据转换工作流和转换规则:使用工作流方式完成模式(schema)配准和转换
工作流验证:验证工作流中的步骤是否正确
数据转换:开始流程
数据存储
文件存储
Csv文件:逗号分隔值(comma-separated values)
xml 文件:通用格式(可扩展标记语言,eXtensible Markup Language)
kml地图:在基于web的二维或三维地图上表达地理标注信息(Keyhole Markup Language)
数据库和数据仓库的异同
数据库 | 数据仓库 | |
特点 | 处理数据操作 | 处理数据中的信息 |
面向领域 | 事务 | 分析 |
用户 | 终端用户:职员、数据库管理员(DBA) | 知识工作者:经理、分析师、执行官 |
功能 | 日常操作 | 长期决策支持分析 |
数据 | 当前最新的数据 | 历史数据、时变数据 |
访问方式 | 读写平均 | (主要)读 |
聚焦点 | 数据输入 | 信息/知识输入 |
容量尺度 | 1GB~ 1TB | >TB |
探索式数据分析中的可视化方法分类:原始数据绘图、简单统计值标绘、多视图协调关联。
数据挖掘
数据挖掘中的任务:
一、描述性任务
- 概念描述(Concept Description )
- 关联分析(Association Analysis)
- 聚类(Clustering)
- 离群点分析(Outlier Mining)
二、预测性任务
- 分类(Classification)
- 演化分析(Evolution Analysis)
数据挖掘中的方法:
(1)统计方法(回归分析;参数估计)
(2)机器学习(决策树;神经网络)
(3)算法方法(K-means,K-最近邻)
数据挖掘的常见功能:
(1)分类与预测
(2)聚类分析
(3)关联分析和异常分析
可视数据挖掘的关系:
数据与可视化紧密相关:
没有数据,没有可视化
可视化能够帮助增强数据科学中的每一个阶段