6. Spark R
SparkR应该被看着R版Spark的轻量级前端,这意味着它不会拥有想Scala或Java那样广泛的API,但它还是能够在R里运行Spark任务和操作数据。Spark通过RDD类提供Spark API,并且允许用户使用R交互式方式在集群中运行任务。它的其中一项关键特性就是有能力序列化闭包,从而能依次透明地将变量副本传入需要参与运算的Spark集群。Spark R还通过内置功能的形成集成了其他R模块,这一功能会在需要某些模块参与运算时通知Spark集群加载特定的模块,但是不同于闭包,这个需要手动设置。Spark R计划集成MLlib机器学习类库,这将有益于MLlib的发展。
7. MLBase
MLBase提供了一个简单的声明式方法来指定机器学习任务,并能动态地选择最优的学习算法。
MLBase包含了高级别抽象和优化器以及MLlib算法库,MLlib是增长最快的机器学习类库之一,它拥有超过137个的贡献者。说明如下:
² ML Optimizer----优化器会选择最适合的、已经实现好的机器学习算法和相关参数;
² MLI-----一个进行特征抽取和高级ML编程抽象的算法实现的API平台;
² MLlib-----基于Spark的底层分布式机器学习库,可以不断地扩充算法;
² MLRuntime--基于Spark计算机框架,将Spark的分布式计算应用到机器学习领域。
MLBase的架构如图1-16所示:
Spark直接可用的机器学习子框架MLlib是MLbase的一部分,MLbase的架构如图1-17所示: