spark 合并数据 spark merge

转载

mob64ca13f83523 2023-12-06 18:24:25

文章标签 spark 合并数据大数据 spark 编程语言 scala 文章分类 Spark 大数据

1.图聚合操作aggregateMessages:

1.1 聚合操作：

aggregateMessages：许多图分析任务中的一个关键步骤是聚集每个顶点的邻域信息，

在GraphX中最核心的聚合操作就是aggregateMessages.它主要功能是向邻边发消息，合并邻边收到的消息.

1.2.sendMsg和mergeMsg

sendMsg:

sendMsg 函数以EdgeContext作为输入参数 , 没有返回值

EdgeContext 提供了两个消息的发送函数

sendToSrc：将Msg类型的消息发送给源顶点

sendToDst：将Msg类型的消息发送给目标顶点

mergeMsg

每个顶点收到的所有消息都会被聚集起来传递给 mergeMsg 函数

mergeMsg函数定义了如何将顶点收到的所有消息转换成我们需要的结果

3. 图的聚合操作案例演示:

package aggregate

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.graphx.{Edge, EdgeContext, Graph}

object aggreTest2 {

  def sendMsg(ec:EdgeContext[Int,String,Int]):Unit = {
    ec.sendToDst( ec.srcAttr +1)
  }

  def mergeMsg(a: Int , b:Int) :Int = {
    math.max(a,b)
  }

  def sumEdgeCount( g:Graph[Int,String]):Graph[Int,String] = {
    val verts = g.aggregateMessages[Int]( sendMsg , mergeMsg)

    //verts.collect.foreach(println(_))

    val g2 = Graph(verts ,g.edges)


   //(4,(1,0))
    println( "*************************************")
    //g2.vertices.join(g.vertices).map( x => x._2._1 - x._2._2).reduce(_+_).collect.foreach(println(_))
    val check = g2.vertices.join(g.vertices).map( x => x._2._1 - x._2._2).reduce(_+_)
    println(check)
    println( "*************************************")
    if(check > 0)
      sumEdgeCount(g2)
    else
      g
  }



  def main(args: Array[String]): Unit = {

    //设置运行环境
    val conf = new SparkConf().setAppName("SimpleGraphX").setMaster("local")
    val sc = new SparkContext(conf)
    sc.setLogLevel("WARN")

    // 构建图
    val myVertices = sc.parallelize(Array((1L, "张三"), (2L, "李四"), (3L, "王五"), (4L, "钱六"),
      (5L, "领导")))
    val myEdges = sc.makeRDD(Array( Edge(1L,2L,"朋友"),
      Edge(2L,3L,"朋友") , Edge(3L,4L,"朋友"),
      Edge(4L,5L,"上下级"),Edge(3L,5L,"上下级")
    ))

    val myGraph = Graph(myVertices,myEdges)

    val initGraph = myGraph.mapVertices((_,_)=>0)

     sumEdgeCount(initGraph).vertices.collect.foreach(println(_))



  }

}

2.Pregel API:

2.1 Pregel 和 Pregel API:

Pregel ：

在Hadoop兴起之后，google又发布了三篇研究论文，分别阐述了了Caffeine、Pregel、Dremel三种技术，这三种技术也被成为google的新“三驾马车”，其中的Pregel是google提出的用于大规模分布式图计算框架。主要用于图遍历（BFS）、最短路径（SSSP ）、 PageRank计算等等计算。

Pregel API ：

图本质上是递归的数据结构，因为顶点的属性依赖于它们的邻居的属性，而邻居的属性又依赖于它们的邻居的属性。因此，许多重要的图算法会迭代地重新计算每个顶点的属性，直到达到一个定点条件。提出了一系列图形并行抽象来表达这些迭代算法。GraphX 根据谷歌的思路实现了自己的 Pregel API

.2 整体同步并行计算模型 BSP:

生成消息并传递给下一个超步。直到当前超步结束并将所有消息传给下一个超步后，下一个超步才会开始。这就是同步屏障。

spark 合并数据 spark merge_编程语言

2.3 Pregel API完成一个超步的内部细节:

spark 合并数据 spark merge_spark 合并数据_02

2.4 pregel函数:

spark 合并数据 spark merge_编程语言_03

2.5 pregel 的 activeDirection 参数：

对于一条边的两个顶点 srcId 和 dstId：

EdgeDirection. Out—— 当 srcId 收到来自上一轮迭代的消息时，就会调用 sendMsg，这意味着把这条边当作srcId 的“ 出边”。

EdgeDirection. In—— 当 dstId 收到来自上一轮迭代的消息时，就会调用 sendMsg，这意味着把这条边当作 dstId 的“ 入边”。

EdgeDirection. Either—— 只要 srcId 或 dstId 收到来自上一轮迭代的消息时，就会调用 sendMsg。

EdgeDirection. Both—— 只有 srcId 和 dstId 都收到来自上一轮迭代的消息时，才会调用 sendMsg。

2.6Pregel案例：

package pregel

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.graphx.{Edge, Graph, VertexId}
import org.apache.spark.graphx.util.GraphGenerators

object GraphXTest1 {

  def main(args: Array[String]): Unit = {
    //设置运行环境
    val conf = new SparkConf().setAppName("Pregel API GraphX").setMaster("local")
    val sc = new SparkContext(conf)
    sc.setLogLevel("WARN")

    // 构建图
    val myVertices = sc.parallelize(Array((1L, 0), (2L, 0), (3L, 0), (4L, 0),
      (5L, 0)))
    val myEdges = sc.makeRDD(Array( Edge(1L,2L,2.5),
      Edge(2L,3L,3.6) , Edge(3L,4L,4.5),
      Edge(4L,5L,0.1),Edge(3L,5L,5.2)
    ))
    val myGraph = Graph(myVertices,myEdges)

    val sourceId: VertexId = 1L // The ultimate source
    // Initialize the graph such that all vertices except the root have distance infinity.
    val initialGraph = myGraph.mapVertices((id, _) =>
      if (id == sourceId) 0.0 else Double.PositiveInfinity)


    val sssp: Graph[Double, Double] = initialGraph.pregel(Double.PositiveInfinity)(
      (id, dist, newDist) => math.min(dist, newDist), // Vertex Program
      triplet => {  // Send Message
        if (triplet.srcAttr + triplet.attr < triplet.dstAttr) {
          Iterator((triplet.dstId, triplet.srcAttr + triplet.attr))
        } else {
          Iterator.empty
        }
      },
      (a, b) => math.min(a, b) // Merge Message
    )

    sssp.vertices.collect.foreach(println(_))
  }


}

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。