对今天的企业来说,数据分析已经成为生死攸关的选择。我们分析一些著名的供应商,从Hadoop创业者到传统的数据库市场参与者。


革命 – 这个词汇十分准确地描述了我们所处的这个数据分析的时代。企业一方面紧紧握住大量不同类型的数据,另一方面则无比急迫地渴求分析。供应商的回应是提供高分布式结构和新技术水平的存储处理能力。创业者还开拓了开源许可模式,这种模式并不新鲜,但正在越来越多地被接受,甚至被数据管理专家青睐。

Apache Hadoop,一家成立9年的开源数据处理平台,最早被Yahoo、Facebook这样的互联网巨头采用,它正在领导大数据革命。Cloudera 在2008年引入了对企业的商业支持,MapR和Hortonworks则分别在2009年和2011年步其后尘。在现有的数据管理平台上,IBM 和EMC子公司Pivotal都已经引进它们自己的Hadoop分布式系统。微软和Teradata 为Hortonworks平台提供软件补丁和一线的技术支持。Oracle 销售并支持Cloudera平台,而HP、SAP和其它参与者则表现得像中立国瑞士,与多个Hadoop软件提供商合作、共同工作。

当摩尔定律给我们提供更快、更便宜、更富内存的处理器时,存储分析则获得了动力。拥有Hana平台的SAP曾经是全球最大的存储分析者,但是微软和 Oracle现在做出姿态要为它们的旗舰数据库引进存储选项。聚焦于此的分析型数据库供应商(包括Actian、HP Vertica和Teradata)已经引入高数据读取率的技术,自带工具将特定数据导入内存来进行超快地分析。

带宽、存储、处理能力方面的进步也带动了实时流处理和流分析能力的改进,但这项技术还需要获得更广泛的采用。这儿的几个供应商处理着复杂的数据,但却游离 在金融贸易、国家情报之外,并且安全社区和部署也很少。仔细观察这个领域,尤其是作为新开源模式下在各个领域的突破性应用,包括广告发送、内容个性化、物 流和其它推动更广泛采用的领域。

本文包括了广义的数据管理供应商—IBM、Microsoft(微软)、Oracle、SAP,它们提供几乎所有东西,从数据集成软件和数据库管理系统到 商业智能和分析软件,再到存储、流处理和Hadoop系统。Teradata聚焦于数据管理上,并且跟Pivotal一样,它与分析市场领导者SAS有紧 密联系。

本文涉及的很多供应商都提供云服务,而1010data和亚马逊Web服务(AWS)则是把它们的整个业务都建构在云模式中。Amazon拥有 这两种产品的最广泛选择,对于那些运行大工作量并且存储大量数据在AWS平台上的企业来说,这是一个显而易见的选择。1010data拥有高可扩展性的数 据库服务,并且支持信息管理、商业智能,以及以私有云方式提供的分析服务。

业界仍然在争论Hadoop是否已经变得跟数据管理系统一样不可或缺了。当数据量和数据类型极多的时候,Hadoop证明了其可用性和成本优势。 Cloudera、Hortonworks和MapR 正在尽其所能将用于大规模存储的Hadoop和MapReduce 处理技术移植到数据分析的世界。

包括Actian、InfiniDB/Calpont、HP Vertica、Infobright和Kognitio在内的供应商都围绕数据库管理系统来讲它们的大数据故事,该系统完全聚焦于分析而不是交易处理。 德国的数据库管理系统供应商Exasol是这个模子里的另外一个参与者,但我们在本文中并没有涉及到它,因为它的客户基础几乎全部在欧洲大陆,仅在 2014年1月设立了美国和英国的办事处。

这个名单没有涵盖Alpine Data Labs、Revolution Analytics和 SAS这样的分析供应商。这些供应商一直需要与第三方数据库管理系统供应商和Hadoop分发商提供的平台相结合来完成工作,虽然SAS为SAS管理下的 存储数据网格和Hadoop环境提供更多支持,正在模糊这条线。我们还排除了NoSQL和NewSQL 数据库管理系统,它们非常(虽然不是完全)聚焦于大规模交易处理,而不是分析。我们计划在一份很快单独出版的报告中涵盖NoSQL和NewSQL。

现在,让我们来更多地比较、研究一下这些分析供应商吧。(待续)

对今天的企业来说,数据分析已经成为生死攸关的选择。我们分析一些著名的供应商,从Hadoop创业者到传统的数据库市场参与者。


1010data,将分析放在了云端

分析数据库管理系统:1010data分列式分析数据库

内存数据库管理系统:无

流分析选择:无

Hadoop分布式系统:无

硬件/软件系统:不适用

位于纽约的1010data公司早在2000年就推出了基于私有云的分析服务,在华尔街建立了客户基础。大客户包括纽约泛欧证券交易所和一些大银行,不过这家公司还在零售、游戏、健康、政府、电信等领域建立了分支业务。

1010data的分列式数据库支持为可扩展的大规模并发处理,但它自备查询语言的独有设计,支持添加更广查询类型的SQL功能的一组子集,包 括图表和时间序列分析。它还处理类似社交网络数据和机器数据的半结构化数据。在数据库之外,公司还提供一个完整的服务包,包括数据集成、报告、数据可视化 工具,以及统计分析、分析优化、机器学习等高级分析功能。

1010data的私有云服务解除了客户在管理和扩展基础设施方面的负担。集中管理、获取控制和API端口支持与后端系统的集成,并且广泛地获 取HIPAA安全级别的信息。公司拥有超过250个客户。与类似Amazon这样为成千上万客户提供标准化(非常低成本)服务的云平台提供商相 反,1010data是一个客户服务提供商,为满足客户需求而量身订做私有云的应用和技术能力。


Actian,构建大数据服务组合

分析数据库管理系统:ActianMatrix(之前名称为ParAccel),ActianVector(之前名称为Vectorwise)

内存数据库管理系统:ActianMatrix内存选择(数据存储同时到内存和磁盘中)

Hadoop分布式系统:无

流处理技术:无

硬件/软件系统:无(只提供软件的供应商)

Ingres公司2011年取名为Actian,公司从那儿之后就尝试做大数据组合。建立在超过1万家客户基础上的Ingres,开源交易数据 库,这家公司因一个快速分析数据库管理系统Vectorwise(现在名叫ActianVector)而扩展了业务。它还收购了Versant-一个同名 对象数据库的供应商和Pervasive-基于Hadoop的DataRush分析系统和数据集成软件(现在叫ActianDataFlow)。2013 年4月对ParAccel的收购标志着对使用大量并发处理数据库管理系统(现在名叫ActianMatrix)进行大数据分析的一次更大地推动。

该公司致力于整合快速分析数据库管理系统选项、云服务和数据集成及分析软件,营造成一个环境,其中Hadoop对数据管理架构的整合发挥着显著 作用。ActianDataFlow包括SQL、ETL和Hadoop数据清洗选项,与来自Apache、Cloudera、Hortonworks及其 它平台的分发任务协同工作。1.4亿美元的年收入,拥有远超过数据库管理系统的故事,Actian在大数据市场中是一个个头小而勇敢好斗的角色。

对今天的企业来说,数据分析已经成为生死攸关的选择。我们分析一些著名的供应商,从Hadoop创业者到传统的数据库市场参与者。


Amazon将所有服务都放在云端

分析数据库管理系统:AmazonRedshift服务(基于ParAccel引擎);Amazon关系数据库服务

内存数据库管理系统:无。AmazonWeb服务的第三方选择包括Altibase、SAPHana和ScaleOut

Hadoop分布式系统:Amazon灵活数据处理系统(ElasticMapReduce),第三方选择包括Cloudera和MapR

流处理技术:AmazonKinesis.

硬件/软件系统:不适用

AmazonWeb服务从第三方(包括Cloudera、微软、Oracle、SAP及很多其它市场参与者)那儿获得数据管理服务的重要客户名单, 但这个云服务的巨头对大数据分析长久以来有着自己的野心。在灵活计算云(ElasticComputeCloud,EC2)和简易存储服务 (SimpleStorageService,S3)的存储基础设施基础上,Amazon早在2009年就推出基于Hadoop的灵活数据处理 (ElasticMapReduce)服务。2013年,AmazonWeb服务增加了基于ParAccel数据库管理系统的"红移" (Redshift)数据仓库服务,该服务由另一个独立数据集成系统、商业智能和分析供应商的重要客户名单来提供支持。为AmazonWeb服务实现大数 据能力的是DynamoDBNoSQL数据库管理服务和Kinesis流处理服务。

Amazon对各类企业/机构最大的吸引力在于:在它的"云"上面运行数据密集型应用。领先的Hadoop分发商Cloudera最近与 AmazonWeb服务(AWS)结成合作伙伴,此事可以明显地推断很多企业正在选择融合战略,将选定的大数据工作量移向云端,同时将敏感数据和关键任务 工作保留在内部。通过增加更多选择来连接企业数据中心,AmazonWeb服务(AWS)正在开拓这样的机会。


Cloudera着眼于"数据轴"角色

分析数据库管理系统:Hbase,以及ClouderaImpala,虽然不是一个数据库管理系统,仍然支持SQL在Hadoop顶层的查询。

内存数据库管理系统:虽然不是数据库管理系统,ApacheSpark仍然支持在Hadoop顶层的内存分析

Hadoop分布式系统:CDH开源分布式系统、Cloudera标准版(Standard)、Cloudera企业版(Enterprise)

流处理技术:包括Storm(风暴)的Hadoop上开源流处理

硬件/软件系统:合作伙伴工具和预设硬件,两者也可来自Cisco、Dell、HP、IBM、NetApp和Oracle等系统。

作为Hadoop软件分发市场的领导者,Cloudera致力于将数据处理架构扩展入一个综合的"企业数据轴",它可以作为企业内部所有数据的首要目的地和管理中心点。

Cloudera郑重声明支持开源的Hadoop,但为了确保企业级的业绩、可靠性、数据接入控制和安全性,Cloudera还提供专有的软件,包 括Cloudera管理器(ClouderaManager)、Cloudera导航器(ClouderaNavigator),以及供应商独有的用于备 份和恢复的特定组件。更进一步,通过Cloudera管理器来准备、管理并监控工作量,以及通过Cloudera导航器来提供接入控制和账户查询,包括 ClouderaImpala和Cloudera搜索(ClouderaSearch)在内的开源组件均得到了规模化管理。

Cloudera认为它的平台正在稳定地走向成熟,逐渐成为数据管理的"地心引力中心",它还相信关系数据库最终将预留给合适的应用来处理小规模的 连续、结构化数据。不管是否符合您的认知,我们还是期望Cloudera一如既往地致力于提供成熟而拥有广泛能力的Hadoop平台。

DougHenschen,InformationWeek,1/30/2014

对今天的企业来说,数据分析已经成为生死攸关的选择。我们分析一些著名的供应商,从Hadoop创业者到传统的数据库市场参与者。


HP公司Haven架构开发出的Vertica平台

分析数据库管理系统:HPVertica分析平台第7版

内存数据库管理系统:Vertica并不是一个内存数据库,但由于拥有高(磁盘)读取率,所以它声称能确保接近实时的查询能力

Hadoop分布式系统:无

流处理技术:无

硬件/软件系统:HP融合系统(ConvergedSystem)300,专为Vertica设计,以及一个适用于Cloudera、Hortonworks和MapRHadoop分布式系统的参考架构选择

HP将它的大数据平台架构称之为Haven,是Hadoop、Autonomy、Vertica、企业安全 (EnterpriseSecurity)和"n"应用的首字母缩写。HP没有自己的Hadoop分布式系统,但它为领先的Hadoop软件分发商提供参 考的硬件设置。Autonomy的IDOL软件从事着非结构化数据的搜索和获取工作,而Vertica则是HP公司大量并发数据处理的分析数据库管理系 统,专为大量结构化数据集的快速分析而设计。与IBMPureData分析系统(Netezza)和PivotalGreenplum这样类似的产品相 比,Vertica倾向于补足而不是代替类似Teradata这样的传统企业数据仓库环境。

随着Vertica7的发布,HP增加了一个"FlexZone"设计,使得用户在制作数据库方案和相关分析、报告之前,可以在大量数据集里获取有 用数据。第7版还通过Hive的HCatalog元数据存储库与Hadoop实现了整合,为用户提供了一个在HDFS上以表格浏览的形式获取数据的途径。

HP公司用于收集和分析机器数据的ArcSightLogger软件及其操作分析(OperationalAnalytics)工具,使得它比大多 数竞争对手更像是大数据分析上的一个IT螺旋。比如,IBM、SAP和Oracle在数据整合、商业智能和企业应用的分析软件方面就更加深入。如果您选择 HP作为IT系统管理和硬件供应商,那么Haven平台及其组件可以作为Hadoop和第三方数据管理及分析软件的投入补充。


Hortonworks对开源之路的追求

分析数据库管理系统:HBase,虽然不是一个数据库管理系统,Hive仍然是Hortonworks提供的在Hadoop顶层实现SQL查询的不错选择

内存数据库管理系统:虽然不是一个数据库管理系统,ApacheSpark仍然支持在Hadoop顶层进行内存分析

Hadoop分布式系统:Hortonworks数据平台(HDP)2.0,HDPforWindows,HortonworksSandbox(提供Hadoop教程的免费、单节点桌面软件)

硬件/软件系统:合作伙伴工具和预配置的硬件,或都可从HP、Teradata和其它平台上获得

Hortonworks是开源Hadoop社区的大量贡献者,致力于将它建成一个具有广泛能力的数据管理平台。由于避开了专有组 件,Hortonworks将它自己与竞争对手Cloudera和MapR区别开。与开源软件一样,Hortonworks数据平台(HDP)上的所有东 西都可以免费获得。

对于它的批评者(前述的竞争对手)来说,Hortonworks把这个开源策略推到了过分的地步,传送广受欢迎、获得社区认可的开源功能,而放弃不 完全开源的新功能(有可能在技术上是更好的功能)。比如,Hortonworks一直坚持做并且试图完善Hive这个开源系统,与此相 比,Cloudera则承诺基于Impala来实现性能更佳的Hadoop上SQL功能,而Impala虽然在技术上是开源的,但需要用专有的 Cloudera管理软件才能达到最佳的管理效果。

简单地说,HDP是一个保守的Hadoop分布式系统。据报道,Hortonworks在技术支持成本上占有对竞争对手的优势。 Hortonworks秉持这样的做法:没有任何来自供应商的威胁可以占据它的分布式系统,并且它传送的任何东西都得到完全彻底地测试和验证。你不必感到 惊奇,但一旦享受了Hortonworks提供的服务,你就不会想从社区的其它地方获得任何产品性能、简易管理或功能实现方面的东西了。

对今天的企业来说,数据分析已经成为生死攸关的选择。我们分析一些著名的供应商,从Hadoop创业者到传统的数据库市场参与者。


IBM提供了一个综合的平台


分析数据库管理系统:DB2,Netezza

内存数据库管理系统:带BLU加速器的DB2,solidDB

Hadoop分布式系统:InfoSphere,BigInsights

流处理技术:InfoSphere数据流(InfoSphereStreams)

硬件/软件系统:操作分析的纯数据系统(DB2),IBM分析型纯数据系统(Netezza);Hadoop纯数据系统(BigInsights)

IBM轻而易举地拥有产业内最广泛的数据管理平台组合。除了提供上述所有平台和大型主机之外,IBM有一堆数据整合、数据清洗和数据质量监控软件的 选择,来帮助获取和清理数据。它还拥有大量的商业智能和分析工具,包括Cognos、SPSS、文本和非结构化数据挖掘选项,以及IBM开发的 Hadoop工具,包括BigSheets和BigSQL。IBM还建构了SaaS组合和云基础设施,对SoftLayer20亿美元的收购是其兑现云服 务承诺的具体体现。

虽然IBM有大量的产品和服务,但它仍然不是一个产品导向的技术提供商。IBM把以咨询的方式提供深度整合和专业顾问服务为业务重点,致力于构建可 能包含多个产品的企业细分解决方案。好处在于它不会是千篇一律、一刀切式的服务方式,但竞争对手表示要警惕其开放性承诺和不合理的、持续的咨询费用。那些 选择IBM的企业期待一个有效的战略方法,带来业务的显著提升。钱是否花得物有所值,全凭你自己的判断。

InfiniDB一心扑在ApacheHadoop上

分析数据库管理系统:InfiniDB(之前叫Calpont)

内存数据库管理系统:无

Hadoop分布式系统:无

流处理技术:无

硬件/软件系统:无(单一软件供应商)

InfiniDB是之前以公司名称命名的Calpont数据库管理系统的新名称。这家已经成立14年的公司正在运行大量并发处理的第四代平台-分列式数据库管理系统。新的产品名称对销售和市场活动的促进起到了一定的作用,使得客户在现有的50家基础上有所提高。

InfiniDB的大转变不仅仅是一个名称的变化。该公司重新设计了数据库管理系统,来在顶层运行专为Hadoop上SQL分析设计的Hadoop 分布式文件系统-很像Pivotal为创建HAWQ而对Greenplum做的改进。传统的部署选择包括Linux、Windows或AmazonWeb 云服务。该公司还在GNU通用公共许可证下对InfiniDB进行了开源,选择该项许可证是因为InfiniDB是一个MySQL存储引擎。商务支持的企 业版增加了管理和自动化工具,以及一个管理控制台。

InfiniDB的技术与HP的Vertica和Actian的Matrix(之前的ActianParAccel)相差无几,但公司的高层表示它 的自动分区功能使其比这些竞争对手更容易管理。公司还声称在Hadoop上SQL查询性能方面比ClouderaImpala、Hive和其它产品更具优 势。这些断言不会在Hadoop分发商中赢得很多朋友和同盟军,但公司指望通过积极的定价来赢得Hadoop用户和潜在的数据库管理系统客户。

对今天的企业来说,数据分析已经成为生死攸关的选择。我们分析一些著名的供应商,从Hadoop创业者到传统的数据库市场参与者。

 

Infobright更关注机器数据

 

分析数据库管理系统:Infobright

 

内存数据库管理系统:无

 

Hadoop分布式系统:无

 

流处理技术:无

 

硬件/软件系统:InfobrightInfopliance

 

Infobright是一个分析数据库的专业提供商,运营一个快速分析目标达每服务器50TB的分列式存储数据库管理系统,该数据库专为对称多处理器服务 器设计,并不支持大规模并发处理。50TB对大数据来说似乎量级太小,但Infobright的高压缩率和数据留白技术尤其适合机器数据,比如点击流、移 动数据、日志文件、传感器数据等。

 

Infobright 常常被用于与Hadoop或大型企业数据仓库的协同工作。更大的存储能力可以支持长期、高规格的存储,而Infobright作为一个MySQL引擎,则 是快速深度挖掘最新的数据子集。分列式设计和数据留白技术确保只有与每次查询相关的信息才被分析,以保证次秒响应时间。数据被自动地按需求索引而不必分 区,但要求做最低限度的校准。对于快速专门的分析来说,它是一个低成本、行动迅捷的选择。

 

 

Kognitio是内存分析方面的高手

 

分析数据库管理系统:Kognitio分析平台(KognitioAnalyticalPlatform)

 

内存数据库管理系统:Kognitio分析平台(KognitioAnalyticalPlatform)

 

Hadoop分布式系统:无

 

流处理技术:无

 

硬件/软件系统:KognitioAppliance

 

Kognitio的大规模并发处理数据库管理系统与ActianMatrix(之前名称ParAccel)、HPVertica、IBM纯数据 (PureData)分析系统(之前名称Netezza)和PivotalGreenplum是竞争对手。供应商长期以来都支持RAW密集型的部署,并提 供管理能力来运行分析和内存处理。客户Tivo研究分析公司部署了高(磁盘)读取率的Kognitio,以确保对7000万有线电视家庭观看电视广告情况 分析报告的快速查询响应时间。

 

最近,Kognitio更加重视在内存分析方面的投入,并且已经开发出一款整合Hortonworks数据平台的产品,支持在Hadoop顶层的内存SQL分析。它还提供一组工具和"云端"服务。

 

Doug Henschen, InformationWeek, 1/30/2014