前面经过部署之后,Spark就可以用了。

    怎么用呢?

    可以有两个办法:

     1.直接在shell中调用Spark提供的API方法,去做一些运算。

     2.通过Scala,Java或者Python等语言的编程去调用Spark提供的api,去实现相关的功能,如流运算,图运算,SQL运算等。

     由于实践应该是一个由浅入深的阶段,由于,我们可以先用shell来简单调用一下spark的api,看看spark究竟可以做些什么。

    好,现在开始了。

   1. 打开一个python shell

[root@FSB-Centos-213 spark-2.2.1-bin-hadoop2.7]# bin/pyspark
>>>

  2. 我们先来几个简单的操作的:

  a.比如,我们可以统计一下README.md 文件的行数

>>> lines = sc.textFile("README.md")
>>> lines.count()
103 

注:看到这里,很多人也许会想,不就是统计个行数吗?有什么了不起的,随便一个JAVA SE API或者Shell不可以做吗?是的,如果只是统计一个文件的话,其实看不出spark有什么价值,我们假定一个这样的场景,有一个业务,由于流量很多,所以后端部署1000台机器,每个机器都产生了日志文件,我们需要统计所有机器的日志文件的行数,如果没有spark,我们就得文件一个一个的收集到一起,然后再串行得跑,现在有了spark,情况就简单多了,你可以用spark的API,很容易同时操作多台机器,就好像操作单台机器一样,这样一来,不但效率提上来了。本来不可能的事情也变成可能了。否则,怎么处理千万台机器的日志?这真的是一个令人头痛的问题。

    上面这种操作,其实就是RDD操作。

    所谓的RDD(Resilient Distributed Dataset),中文可以翻译为弹性分布式数据集,其实就是分布式的元素集合,这种操作,是Spark对数据的核心抽象,如果没有RDD,spark就无所谓spark了。在Spark中所有操作,最终都成为RDD操作,而Spark要做的,就是把RDD中的数据分发到集群上,并行执行操作,合并结果,仅此而已。

    后面,我们会针对RDD操作进行进一步的实践。