大数据 数据湖
如果您关注有关大数据的最新技术概念,那么您可能已经听说过“数据湖”一词。 图像让人联想起一个巨大的水库-从概念上讲,这就是数据湖:一个水库。 仅用于数据。
定义的数据湖
数据湖以其本机格式保存了大量原始的,非结构化的数据。
[InfoWorld的要点: 什么是大数据分析? 您需要了解的所有内容 • 什么是数据挖掘? 分析如何发现见解 。 | 通过InfoWorld大数据和分析报告时事通讯深入了解分析和大数据。 ]
因此,您所需要的只是一台支持平面文件系统的设备,这意味着您可以根据需要使用大型机。 数据将移至其他服务器进行处理。 大多数企业都使用Hadoop文件系统(HDFS) ,因为它是为快速处理大型数据集而设计的,并用于可能使用数据湖的大数据环境中。
对本机格式数据的支持带来了关键的好处。 “如果我想获取大量的数据并在以后弄清楚如何处理,那正好符合我们现在对数据湖的处理方式,”数据供应商Semarchy的战略主管Michael Hiskey说道。管理软件。
“我们知道和不知道的事情是,数据湖一方的人们正在保留一切可能有趣的事物,并在以后发疯。 今天我们无法猜测我扔掉的东西有什么价值,但是将来可能会变得很有趣。”他说。
连接多个云数据源的ETL服务Stitch的首席执行官Jake Stein回应了面向未来的观点。 “如果您不确定何时要使用数据,并且具有亚秒级访问权限并想以低成本格式存储数据并不重要,那么数据湖就是正确的格式。 通常,如果您现在不捕获数据,就永远不会再得到它,因此,将来在这方面进行验证非常重要。”
数据湖与数据仓库
数据存储库已经不是什么新鲜事物了。 数据仓库已经存在了数十年。 尽管将数据仓库与数据湖进行比较是很自然的,但存在一些根本的区别,即将数据仓库与数据湖区分开,范围从存储的数据类型到如何处理。
数据湖不需要专用硬件
数据湖和数据仓库之间的主要区别之一是,与数据仓库不同,数据湖不需要特殊的硬件或软件。
数据湖更加灵活
如前所述,数据湖以其本机格式存储大量原始的,非结构化的数据,而数据仓库则具有更多的结构化成文件夹,行和列。 因此,数据湖在数据方面的灵活性比数据仓库要灵活得多。
这一点很重要,因为有80%的规则:早在1998年,美林(Merrill Lynch)估计80%的公司数据都是非结构化的,并且基本上仍然是正确的。 反过来,这意味着数据仓库在潜在数据分析范围方面受到严重限制。
Hiskey认为数据湖比数据仓库更有用,因为即使您不使用数据元素,您现在也可以收集和存储数据,但是可以追溯数周,数月或数年后对旧数据进行分析。否则可能会被丢弃。
数据湖和数据仓库之间与灵活性相关的差异是读取模式与写入模式。 模式是整个数据库的逻辑描述,带有所有记录类型的记录的名称和描述。
数据仓库采用写模式,因此在保存数据之前,您必须确切地知道如何构造数据。 这意味着在摄入前或至少在储藏前要做好很多准备工作。 相比之下。 数据湖应用读取模式,因此您可以在读取和处理它时对其进行格式化。 读取模式表示您可以将所有内容放入存储桶中,例如日志文件,Web文件或没有有意义结构的内容,然后再进行查找。
“数据仓库是高度结构化的。 在对数据进行任何操作之前,您必须真正了解数据。”美国保险服务业协会(AAIS)数据工程总监Joe Wilhelmy说。 “有了数据湖,您可以迭代地完成从原始源数据到结构化投影的成熟周期。 您可以一路看到它,而不必依赖数据工程师和IT人员在数据可用之前对其进行生产。”
给湖泊中的每个数据元素分配一个唯一的标识符,并用一组扩展的元数据标签进行标记。 当某人基于某个元数据执行业务查询时,将对所有标记的数据进行查询或问题分析。
与数据仓库不同,数据湖没有底层数据库。 相反,数据湖使用平面文件系统。 对于数据库,在写入数据库之前,必须先选择数据和列。 折衷方案是将数据插入数据库可能要花费一些时间,但是当您执行查询时,它比在读取时必须处理数据的数据湖中要快得多。
“有了数据湖,您可以按照自己喜欢的任何方式将数据放入存储中。 这样一来,您就可以使用灵活的架构写入数据并稍后查询,但速度要慢几个数量级。” “那些服务器表现不佳的一个因素是元数据管理。 诸如存放在哪个文件夹中,何时过期的信息。 进行这样的服务时,您必须自己动手。”
企业级数据湖软件现已上市
在最长的时间里,围绕数据湖的双刃剑是可以使用现有的硬件和免费的开源软件来完成。 好处是他们使用了您现有的硬件和免费的开源软件。 问题是缺乏大多数人想要的传统,成熟的数据仓库公司提供的商业支持软件。
自那以后,情况发生了变化,传统的公司如TeraData和Oracle提供了商业数据湖产品,还有像Hortonworks和Cloudera这样的专业大数据供应商。
亚马逊,微软,谷歌和IBM都提供了各种数据湖工具及其基本的云存储服务,因此您可以在本地或云中构建数据湖。
其他商业数据湖产品包括:
- Apache NiFi :此Apache许可的开源工具用于数据湖和分析中的数据路由和转换。 它可以作为商业产品从Hortonworks购买,名称为DataFlow。
- Cambridge Semantics:其最新版本的Anzo Smart数据湖产品在摄取和读取数据上都添加了语义层,因此您可以按需进行准备和分析。 它还具有图形模型,以可视方式显示数据分析。
- Hitachi Vantara: Hitachi Vantara拥有Pentaho,Pentaho最初造就了“数据湖”一词。 Pentaho不仅以数据湖为中心,还以其数据集成工具而闻名,并提供与Hadoop , Spark , Kafka和NoSQL的集成,以提供安全性,治理,集成和数据转换。
- Trifacta :其Wrangler软件使用AI和机器学习算法来自动化和简化数据处理以及与分析师或业务用户的交互。 它以可视方式跟踪并呈现针对特定数据集以及跨多个工作流的数据转换步骤的沿袭。
- Zaloni: Zaloni提供了一个称为Zaloni Data Platform的企业数据湖平台,其中包括对云和本地部署的支持,管理平台,数据目录,数据治理区域以及涵盖端到端的自助数据准备工具。结束处理。
何时避开数据湖
数据湖并不适合所有人。 一些公司可能不需要它,这可能会使情况变得更糟。 例如,Hiskey说,数据湖不适用于实时工作。 “如果您正在寻找实时的最新信息,那么数据湖不适合您。 用于历史数据。 您仍然需要一个快速的交易系统。”
威廉姆说,一些行业由于其无组织的性质而不允许使用数据湖。 “没有对随机位和文件的强大数据治理,也没有人了解数据湖周围的治理流程。 前提条件是要拥有强大的数据管理职位。 该组织必须处于中级或高级成熟水平,以管理数据湖中的数据流程,从接收和清理到将其传递给组织。”
Enterprise Applications Consulting首席分析师Joshua Greenbaum根本不认为数据湖是个好主意。 “在大多数情况下,数据湖是IT方面懒惰的标志,而不是战略思考的情况。 懒惰是“让我们将数据放在一个地方,以后再考虑”,他说。
Greenbaum认为,如果您不知道要解决的问题,则可能会收集尽可能多的积木,因为有一天您想要建造某种东西。 “但是,如果您没有计划,您所拥有的只是一堆砖头,如果您需要木梁呢? 如果您从设计开始,那么您将知道需要具备什么。”
他的冷嘲热讽来自于以前在数据仓库中看到这种情况。 “这是我们之前看过的电影,演员不同,但剧情是相同的,结局是相同的。 如果您不进行战略性的操作,您将在数据湖上浪费很多钱,就像在数据仓库上一样。”
没有目的的数据湖是一种昂贵的“以防万一”的方法。 但是从战略上讲,这是一种很好的方式来存储您想要分析的信息,并随着时间的推移以不同的方式(例如客户模式)采取行动,因为您没有处理信息,以至于只能使用一件事,就像在典型的数据仓库中一样。
大数据 数据湖