Hadoop与Spark入门

原创

mob64ca12e5c0c2 2024-04-22 05:35:11 ©著作权

文章标签 Hadoop 数据 Apache 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12e5c0c2的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hadoop与Spark入门

Hadoop和Spark是两种广泛应用于大数据处理的开源框架。它们在处理大规模数据时提供了高效的解决方案，但在设计和实现上有所不同。本文将介绍Hadoop和Spark的基本概念，并提供一些简单的代码示例。

Hadoop

Hadoop是一个开源的分布式存储和计算框架，最初由Apache开发。它的核心组件包括HDFS（Hadoop分布式文件系统）和MapReduce。HDFS用于存储数据，而MapReduce用于并行计算。

// 创建一个简单的MapReduce任务
public class WordCount {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path("input"));
        FileOutputFormat.setOutputPath(job, new Path("output"));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

上面的代码演示了一个简单的WordCount任务，它用于统计输入文件中单词的出现次数。该任务包括一个Mapper和一个Reducer，它们分别用于将输入数据映射为键值对，并对相同键的值进行求和。

Spark

Spark是一个基于内存的分布式计算框架，也由Apache开发。与Hadoop不同，Spark使用了一种名为RDD（Resilient Distributed Datasets）的抽象数据结构，它允许用户在内存中高效地处理数据。

# 创建一个简单的Spark任务
from pyspark import SparkContext

sc = SparkContext("local", "WordCount")
lines = sc.textFile("input")
words = lines.flatMap(lambda line: line.split(" "))
word_counts = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
word_counts.saveAsTextFile("output")
sc.stop()

上面的代码展示了一个简单的WordCount任务，它使用了Spark的Python API。该任务读取输入文件中的文本数据，对单词进行分词，并统计每个单词的出现次数，最后将结果保存到输出文件中。

对比

下表对比了Hadoop和Spark在一些方面的特点：

特点	Hadoop	Spark
计算模型	MapReduce	RDD
数据处理速度	慢（磁盘IO）	快（内存计算）
适用场景	批处理	流处理、交互式查询
内存管理	无	有（更高效）