大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具,锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。
Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,是专为大规模数据处理而设计的快速通用的计算引擎,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Hadoop Summit
- 【Hadoop Summit Tokyo 2016】Apache NiFi速成课
- 【Hadoop Summit Tokyo 2016】重建大规模Web跟踪设施
- 【Hadoop Summit Tokyo 2016】利用电力公司智能电表数据比较Spark SQL与Hive
- 【Hadoop Summit Tokyo 2016】雅虎日本的大规模Hadoop集群网络
- 【Hadoop Summit Tokyo 2016】东日本可口可乐公司Hadoop之旅,从一滴到一瓶
- 【Hadoop Summit Tokyo 2016】基于容器规格的Apache Hadoop/Spark集群框架
- 【Hadoop Summit Tokyo 2016】为什么我的Hadoop集群运行这么慢?
- 【Hadoop Summit Tokyo 2016】Apache Hive在完全支持SQL规范上取的主要进步
- 【Hadoop Summit Tokyo 2016】使用Apache Ambari简化Hadoop DevOps
- 【Hadoop Summit Tokyo 2016】Rakuten是如何解决由于大规模多租户Hadoop集群造成的迷之问题的
- 【Hadoop Summit Tokyo 2016】中型组织的数据基础设施架构:收集、存储和分析的技巧
- 【Hadoop Summit Tokyo 2016】Apache NiFi 1.0概论
- 【Hadoop Summit Tokyo 2016】Hivemall: Apache Hive/Spark/Pig 的可扩展机器学习库
- 【Hadoop Summit Tokyo 2016】上云还是回到服务器:混合分析一瞥
- 【Hadoop Summit Tokyo 2016】将HDFS演进成广义分布式存储子系统
- 【Hadoop Summit Tokyo 2016】Apache Phoenix与HBase:HBase之上SQL的过去,现在和未来
- 【Hadoop Summit Tokyo 2016】使用基于Lambda架构的Spark的近实时的网络异常检测和流量分析
- 【Hadoop Summit Tokyo 2016】使Apache Zeppelin与Spark赋能企业数据科学
- 【Hadoop Summit Tokyo 2016】在Apache Hadoop上保护企业数据
- 【Hadoop Summit Tokyo 2016】使用Hadoop来构建实时和批数据的数据质量服务
- 【Hadoop Summit Tokyo 2016】使用Apache Ranger和Apache Atlas进行数据治理
- 【Hadoop Summit Tokyo 2016】领英:4亿会员的数据赋能之旅
- 【Hadoop Summit Tokyo 2016】企业已经对于云上Hadoop集群做好了准备
- 【Hadoop Summit Tokyo 2016】Apache Hadoop 3.0 :YARN和MapReduce有什么新特性?
- 【Hadoop Summit Tokyo 2016】构建信息平台:集成Hadoop与SAP HANA和HANA VORA
- 【Hadoop Summit Tokyo 2016】Hadoop Common与HDFS中有什么新特性?
- 【Hadoop Summit Tokyo 2016】LLAP:Hive上的次秒级分析查询
- 【Hadoop Summit Tokyo 2016】云上Hadoop——从专家的角度解释What、Why和How
- 【Hadoop Summit Tokyo 2016】Hadoop与云存储:在产品中集成对象存储
- 【Hadoop Summit Tokyo 2016】用于欺诈检测的深度学习
- 【Hadoop Summit Tokyo 2016】桌上的大数据与KNIME
- 【Hadoop Summit Tokyo 2016】Spark上可扩展的深度学习
- 【Hadoop Summit Tokyo 2016】基于Spark的高性能时空轨迹分析
- 【Hadoop Summit Tokyo 2016】当Spark邂逅智能电表
- 【Hadoop Summit Tokyo 2016】对于非文本的自然语言处理结构化数据调查
- 【Hadoop Summit Tokyo 2016】构建多租户平台
- 【Hadoop Summit Tokyo 2016】云上SQL-on-Hadoop的状态
- 【Hadoop Summit Tokyo 2016】Apache NiFi的先锋派
- 【Hadoop Summit Tokyo 2016】企业数据分类和治理
- 【Hadoop Summit Tokyo 2016】使用Amaterasu项目进行数据操作
- 【Hadoop Summit Tokyo 2016】现代化企业级数据仓库:数据湖泊
- 【Hadoop Summit Tokyo 2016】一个持续部署的Hadoop数据分析平台
- 【Hadoop Summit Tokyo 2016】文件格式的基准——Avro, JSON, ORC & Parquet
- 【Hadoop Summit Tokyo 2016】服务大众的Hadoop
- 【Hadoop Summit Tokyo 2016】以Apache Storm为例增强可靠性的流计算
- 【Hadoop Summit Tokyo 2016】云上的大象
- 【Hadoop Summit Tokyo 2016】欢迎来到Hadoop的青春时代
- 【Hadoop Summit Tokyo 2016】基于Apache Spark的数据科学
- 【Hadoop Summit Tokyo 2016】限制不断变化的多租户日志服务
- 【Hadoop Summit Tokyo 2016】追踪Hadoop与Storm资源与开销
- 【Hadoop Summit Tokyo 2016】数据流与Apache NiFi
- 【Hadoop Summit Tokyo 2016】基于成本的查询优化
- 【Hadoop Summit Tokyo 2016】一小时之内使用Apache Nifi从零到数据流
- 【Hadoop Summit Tokyo 2016】Columnar Era:利用Parquet,Arrow and Kudu获取高性能
- 【Hadoop Summit Tokyo 2016】Apache Storm中的资源感知调度
- 【Hadoop Summit Tokyo 2016】Apache Spark & Apache Zeppelin的安全状态
- 【Hadoop Summit Tokyo 2016】将HDFS演化成为广义存储子系统
- 【Hadoop Summit Tokyo 2016】像搭乐高一样搭建Storm与Spark Streaming Pipelines块
- 【Hadoop Summit Tokyo 2016】如何构建成功的数据湖泊
- 【Hadoop Summit Tokyo 2016】操纵云上基于Hadoop 集群的YARN
Spark Summit
- 【Spark Summit East 2017】虚拟化分析,Spark是最好的答案么?
- 【Spark Summit East 2017】当大数据邂逅学习科学
- 【Spark Summit East 2017】Intel与Spark共同助推机器学习与深度学习
- 【Spark Summit East 2017】企业如何通过Spark挤入人工智能快车道
- 【Spark Summit East 2017】基于混合云的Spark技术助力数据科学转型
- 【Spark Summit East 2017】混合云上的Spark:为何安全和治理变得愈发重要?
- 【Spark Summit East 2017】不必犹豫,使用Spark 2.0结构化流
- 【Spark Summit East 2017】Hail:基于Spark的可伸缩基因数据分析平台
- 【Spark Summit East 2017】使用Spark构建智能服务
- 【Spark Summit East 2017】2017年大数据与Spark的发展趋势
- 【Spark Summit East 2017】RISE实验室: 赋能智能实时决策
- 【Spark Summit EU 2016】基于Spark+Lucene构建近实时预测模型
- 【Spark Summit EU 2016】沃森媒体分析系统:从单租户Hadoop到3000租户Spark的架构演进
- 【Spark Summit EU 2016】从使用Spark Streaming中所学到的经验
- 【Spark Summit EU 2016】基于Spark的分布式计算,提升业务洞察力
- 【Spark Summit EU 2016】Spark如何赋能聚合型应用新浪潮
- 【Spark Summit EU 2016】Apptopia:仅凭勇气、速度与Spark集群,构建APP市场
- 【Spark Summit EU 2016】Spark——打造处理石油工业数据的全球化计算引擎
- 【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道
- 【Spark Summit EU 2016】一起聊数据:Elsevier的Spark观
- 【Spark Summit EU 2016】Spark Steaming + 动态配置+动态分配构建弹性流计算
- 【Spark Summit EU 2016】基于Spark与Cassandra的电信产品化解决方案
- 【Spark Summit EU 2016】从Spark中学会的问题解决秘诀
- 【Spark Summit EU 2016】在数据仓库中引入Dataframes+Parquet
- 【Spark Summit EU 2016】Bing规模下的Spark Streaming
- 【Spark Summit EU 2016】60 TB+数据规模的Spark产品用例
- 【Spark Summit EU 2016】瑞士电信:对于集体移动性的理解
- 【Spark Summit EU 2016】经验分享:将SparkR用于生产环境下的数据科学应用中
- 【Spark Summit EU 2016】TPC-DS基准测试下的Spark SQL2.0使用体验
- 【Spark Summit EU 2016】没人会把Spark放在容器里
- 【Spark Summit EU 2016】使用Java Agent扩展Spark
- 【Spark Summit EU 2016】SparkOscope:优化Spark的跨栈监控与可视化框架
- 【Spark Summit EU 2016】Apache Kudu&Spark SQL:对快数据进行快速分析
- 【Spark Summit EU 2016】MLeap + Combust.ML:帮你直接将Spark Pipelines部署到生产环境
- 【Spark Summit EU 2016】使用Mobius在.NET平台上构建你的下一个Spark应用
- 【Spark Summit EU 2016】在Spark集群中内置Elasticsearch
- 【Spark Summit EU 2016】Spark与Couchbase——使用Spark扩展数据库操作
- 【Spark Summit EU 2016】在在线学习中使用Structured Streaming流数据处理引擎
- 【Spark Summit EU 2016】TensorFrames: 在Spark上搭建TensorFlow深度学习框架
- 【Spark Summit EU 2016】基于SparkML整体模型的预测服务,看每天10亿张机票的价格如何变化
- 【Spark Summit EU 2016】对于Spark而言,只用Scala就足够了
- 【Spark Summit EU 2016】寻找流式数据中的异常:一种有趣的可伸缩方法
- 【Spark Summit EU 2016】汽车研发中基于Spark的时间序列分析
- 【Spark Summit EU 2016】使用Redis模型为Spark-ML加速
- 【Spark Summit EU 2016】SparkSheet:将电子表格转化进Spark DataFrame
- 【Spark Summit EU 2016】在多核机器上提升Spark性能
- 【Spark Summit EU 2016】规模不断扩展的服务器集群上Spark的性能表征
- 【Spark Summit EU 2016】使用参数服务器在Spark上扩展因式分解机
- 【Spark Summit EU 2016】Spark数据感知
- 【Spark Summit EU 2016】Spark应用的动态实时修改
- 【Spark Summit EU 2016】使用Spark轻松获取高产量基因组
- 【Spark Summit EU 2016】Glint:Spark的异步参数服务器
- 【Spark Summit EU 2016】摆脱传统ETL,让我们走向Spark吧!
- 【Spark Summit EU 2016】快速数据处理最佳拍档:Spark+ Ignite
- 【Spark Summit EU 2016】Sparkling Water 2.0:下一代基于Spark的机器学习平台
- 【Spark Summit EU 2016】Sparklint:Spark监控,识别与优化利器
- 【Spark Summit EU 2016】物联网中的Lambda架构——使用Spark Streaming与MLlib进行快速数据分析
- 【Spark Summit EU 2016】Spark中的自动检查点
- 【Spark Summit EU 2016】Spark的性能,过去、现在与未来
- 【Spark Summit EU 2016】使用Flame Graphs提升Spark 2.0性能的研究
- 【Spark Summit East 2017】Apache Toree:Spark的一种Jupyter内核
- 【Spark Summit East 2017】用于数据分析的基于Kerberos的安全的Spark Notebook
- 【Spark Summit East 2017】使用Spark和Elasticsearch构建数据集搜索引擎
- 【Spark Summit East 2017】使用Kafka Connect和Spark Streaming构建实时数据管道
- 【Spark Summit East 2017】pySpark时间序列分析新方向
- 【Spark Summit East 2017】从容器化Spark负载中获取的经验
- 【Spark Summit East 2017】教会Spark集群弹性管理Worker
- 【Spark Summit East 2017】使用Spark进行时间序列分析
- 【Spark Summit East 2017】Bulletproof Jobs:大规模Spark处理模式
- 【Spark Summit East 2017】使用Spark横向扩展关系型数据库
- 【Spark Summit East 2017】Debugging PySpark
- 【Spark Summit East 2017】为什么没有人会告诉你如何写一个流应用
- 【Spark Summit East 2017】使用ADAM处理Terabyte级基因数据集
- 【Spark Summit East 2017】打击网络犯罪:联合特遣部队的实时数据和人工分析
- 【Spark Summit East 2017】Stitch Fix从Redshift迁移到Spark的实践
- 【Spark Summit East 2017】从解决Spark陷阱中学到的问题解决清单
- 【Spark Summit East 2017】使用Spark RDD构建用户应用
- 【Spark Summit East 2017】用Yarn监控Scala和Python Spark工作的动态资源使用情况
- 【Spark Summit East 2017】使用Spark进行可伸缩的元基因组分析
- 【Spark Summit East 2017】Spark,类型函数式编程的引诱者
- 【Spark Summit East 2017】基于Spark的行为分析研究
- 【Spark Summit East 2017】迈向实时:为个性化创建不断更新频率的数据集
- 【Spark Summit East 2017】使用Spark对仙女星系数据进行分析
- 【Spark Summit East 2017】ModelDB:用于管理机器学习模型的系统
- 【Spark Summit East 2017】Opaque:强安全性的数据分析平台
- 【Spark Summit East 2017】将HPC算法引入大数据平台
- 【Spark Summit East 2017】Ernest:基于Spark的性能预测大规模分析框架
- 【Spark Summit East 2017】基于Spark的可扩展的层次聚类算法
- 【Spark Summit East 2017】商品集群上的时间演化图处理
- 【Spark Summit East 2017】Drizzle——Spark的低延迟执行
- 【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎
- 【Spark Summit East 2017】使用机器学习注释器和大规模深度学习本体进行语义自然语言理解
- 【Spark Summit East 2017】为了乐趣和利润的全球扩张
- 【Spark Summit East 2017】使用Spark MLlib和Apache Solr构建实时实体类型识别系统
- 【Spark Summit East 2017】BigDL:Spark上的分布式深度学习库
- 【Spark Summit East 2017】可扩展性机器学习的特征哈希
- 【Spark Summit East 2017】构建于高维文档数据集上的基于时间戳的实时分析查询处理与预测模型
- 【Spark Summit East 2017】基于Spark构建的Netflix推荐ML Pipeline
- 【Spark Summit East 2017】Spark + Flashblade
- 【Spark Summit East 2017】大数据赋能机器学习
- 【Spark Summit East 2017】实时业务数据分析
- 【Spark Summit East 2017】现代化你的数据仓库的全新“Sparkitecture”
- 【Spark Summit East 2017】Cornami提升Spark性能与速度
- 【Spark Summit East 2017】Spark SQL:Tungsten之后另一个可以达到16倍速度的利器
- 【Spark Summit East 2017】管道泄漏问题:像女士一样在大数据中做个的标记
- 【Spark Summit East 2017】基于Bluemix Apache Spark服务的数据驱动的水安全
- 【Spark Summit East 2017】下一代存档:使用Hadoop进行存档、电子取证和监管
- 【Spark Summit East 2017】不再有“Sbt Assembly”了:使用CueSheet反思Spark Summit
- 【Spark Summit East 2017】使用Spark和Riak构建物联网应用——模式和反模式
- 【Spark Summit East 2017】使用Alluxio提升Spark效率
- 【Spark Summit East 2017】Kerberizing Spark
- 【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统
- 【Spark Summit East 2017】为容器优化Spark部署:隔离、安全与性能
- 【Spark Summit East 2017】基于Elastic Spark Streaming的自动伸缩系统
- 【Spark Summit East 2017】深度探究Spark + Parquet
- 【Spark Summit East 2017】Spark与在线分析
- 【Spark Summit East 2017】大数据应用的工程快速索引
- 【Spark Summit East 2017】工程快速索引
- 【Spark Summit East 2017】提升Python与Spark的性能和互操作性
- 【Spark Summit East 2017】Spark中的容错:从生产实践中获取的经验
- 【Spark Summit East 2017】Spark:将数据科学作为服务
- 【Spark Summit East 2017】Spark自动调谐
- 【Spark Summit East 2017】WalmartLabs近实时搜索索引的Lambda处理
- 【Spark Summit East 2017】Spark化数据引擎
- 【Spark Summit East 2017】Kafka、YARN与Spark Streaming作为一个服务
- 【Spark Summit East 2017】加速云上Spark基因测序的数据驱动方法以及案例研究
- 【Spark Summit East 2017】为Walmart Search学习使用Streaming和DataFrames
- 【Spark Summit East 2017】物联网容量规划的预测分析
- 【Spark Summit East 2017】EasyMapReduce:利用Spark与Docker以MapReduce方式赋能大规模科学工具
- 【Spark Summit East 2017】Spark上基因组分析的算法和工具
- 【Spark Summit East 2017】使用“宽”随机森林在基因组的大草堆中寻针
- 【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道
- 【Spark Summit East 2017】Sparkler:Spark上的爬虫
- 【Spark Summit East 2017】从巨型图中学习的神经网络
- 【Spark Summit East 2017】使用Spark与Kafka构建Second Look业务用例实时平台
- 【Spark Summit East 2017】通过Simplicity进行扩展:如何使3亿用户的聊天应用的数据工程量减少70%
- 【Spark Summit East 2017】使用Spark解锁设备数据的价值
- 【Spark Summit East 2017】FIS:加速FinTech数字智能
- 【Spark Summit East 2017】分布式实时流处理:Why and How
- 【Spark Summit East 2017】使用Spark对于灾难性事件进行建模
- 【Spark Summit East 2017】Spark 2.0机器学习大规模实践经验
- 【Spark Summit East 2017】将Apache Spark MLlib扩展至十亿级别的参数
- 【Spark Summit East 2017】使用Spark进行带有高维度标签的机器学习
- 【Spark Summit East 2017】R与Spark:如何使用RStudio的 Sparklyr和H2O的 Rsparkling分析数据
- 【Spark Summit East 2017】Spark中的草图数据和T-Digest
- 【Spark Summit East 2017】在生产环境中的大规模数据应用中使用SparkR
- 【Spark Summit East 2017】在AdTech使用Spark对于产品管道进行研发
- 【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测
- 【Spark Summit East 2017】基于SparkR的可伸缩数据科学
- 【Spark Summit East 2017】Clipper:一个低延迟在线预测服务系统
- 【Spark Summit East 2017】物联网与自动驾驶汽车:使用Kafka与Spark Streaming进行同步定位和映射
- 【Spark Summit East 2017】使用基于Spark的超级计算机压缩软件开发周期