大数据的特征:HACE 原则 (large-volume, heterogeneous, autonomous sources with distributed and decentralized control, and seeks to explore complex and
evolving relationships among data.) 大数据始于大容量的、多样异构的、分布式和分散控制下的自治数据源,旨在探索数据之间复杂的、进化的关系。
特点1: 异构、多种维度下的庞大数据
这是由于不同的信息采集器有他们各自偏好的数据记录模式。同一个人有不同类型的表示方式:例如,生物医学界都可以用简单的人口统计信息如性别、年龄、家族病史等等来表示每个个体;对于X光和CT扫描检查来说,图像或者视频往往用来提供个人的详细检查结果;DNA或者基因相关的测试,微阵列芯片图像和序列被用于表示人的遗传密码信息。
特点2:分布式和分散控制下的自治数据源
自治意味着每个数据源都可以生产或者采集信息,而不用通过任何集中控制。这样有两种好处:每个数据源具有所有功能而不用依赖其他数据源‘;相比集中控制来说安全性、鲁棒性更高。例如,亚洲的沃尔玛超市在季节促销、热销产品、客户行为等方面与北美的超市就存在本质上的差异,当地政策同样影响批发管理过程,所以导致重组数据表示方式及本地市场数据仓库。
特点3:复杂进化的关系
传统的数据集中的信息系统,聚焦于找到最优特征值来表示每个观察量。这类似于使用一些字段如年龄、性别、收入、教育背景等来描述一个人,这种表述方式将每个个体孤立开来而不考虑他的社会关系,而这恰恰是最重要的特征之一。我们的朋友圈基于人跟人之间的共同爱好或者生物学关系形成。这种社会关系不仅体现在任何人之间日常交往的真实世界,同样在虚拟的网络世界也非常流行。通过社会交流联系在一起的两个人可能他们的特征截然不同。在一个动态的世界里,用来描述个体的特征值和用来表示我们相互联系的社会关系随着时间、空间等的变幻而不断演变。这种复杂性已经成为大数据应用的一部分,然而关键在于将这种分线性的、多对多的复杂数据关系考虑进去,找到大数据的有效模式。
大数据下数据挖掘的挑战:一个智能学习数据库系统要处理大数据,必要的关键是扩大到异常大的数据规模以及提供上述HACE特点的处理方法。大数据处理框架如下图所示。
该框架由内至外分为3层:数据分析和计算(层1)、数据安全域领域知识(层2)、大数据挖掘算法(层3).
层1的挑战主要集中在数据的分析和计算上。由于大数据长城存储在不同地方,数据量也不断增大,有效的计算平台必须考虑分布式大规模数据存储。