一、研究背景

互联网行业越来越重视自家客户的一些行为偏好了,无论是电商行业还是金融行业,基于用户行为可以做出很多东西,电商行业可以归纳出用户偏好为用户推荐商品,金融行业可以把用户行为作为反欺诈的一个点,本文主要介绍其中一个重要的功能点,基于行为日志统计用户行为路径,为运营人员提供更好的运营决策。可以实现和成熟产品如adobe analysis类似的用户行为路径分析。最终效果如图。使用的是开源大数据可视化工具。如图所示,用户行为路径的数据非常巨大,uv指标又不能提前计算好(时间段未定),如果展示5级,一个页面的数据量就是10的5次方,如果有几千个页面,数据量是无法估量的,所以只能进行实时计算,而Spark非常适合迭代计算,基于这样的考虑,Spark是不错的选择。


spark 谓词下推 spark用法_数据


二、解决方案

1.流程描述

客户搜索某一起始页面的行为路径明细数据时,RPC请求到后台,调用spark-submit脚本启动spark程序,Spark程序实时计算并返回数据,前端Java解析数据并展现。

2.准备工作

首先要有行为数据啦,用户行为日志数据必须包含必须包含以下四个字段,访问时间、设备指纹、会话id、页面名称,其中页面名称可以自行定义,用来标示一种或者一类页面,每次用户请求的时候上报此字段,服务器端收集并存储,此页面名称最好不要有重复,为后续分析打下基础。

然后对行为日志进行一级清洗(基于Hive),将数据统一清洗成如下格式。设备指纹是我另一个研究的项目,还没时间贴出来。会话id就是可以定义一个会话超时时间,即20分钟用户如果没有任何动作,等20分钟过后再点击页面就认为这是下个一会话id,可通过cookie来控制此会话id。

spark 谓词下推 spark用法_spark 谓词下推_02


A、B、C代表页面名称,清洗过程采用row_number函数,concat_ws函数,具体用法可以百度。清洗完之后落地到hive表,后续会用到。T+1清洗此数据。

3.弄清楚递归的定义

递归算法是一种直接或者间接调用自身函数或者方法的算法。Java递归算法是基于Java语言实现的递归算法。递归算法的实质是把问题分解成规模缩小的同类问题的子问题,然后递归调用方法来表示问题的解。递归算法对解决一大类问题很有效,它可以使算法简洁和易于理解。递归算法,其实说白了,就是程序的自身调用。它表现在一段程序中往往会遇到调用自身的那样一种coding策略,这样我们就可以利用大道至简的思想,把一个大的复杂的问题层层转换为一个小的和原问题相似的问题来求解的这样一种策略。递归往往能给我们带来非常简洁非常直观的代码形势,从而使我们的编码大大简化,然而递归的思维确实很我们的常规思维相逆的,我们通常都是从上而下的思维问题, 而递归趋势从下往上的进行思维。这样我们就能看到我们会用很少的语句解决了非常大的问题,所以递归策略的最主要体现就是小的代码量解决了非常复杂的问题。

递归算法解决问题的特点:

  • 递归就是方法里调用自身。
  • 在使用递增归策略时,必须有一个明确的递归结束条件,称为递归出口。
  • 递归算法解题通常显得很简洁,但递归算法解题的运行效率较低。所以一般不提倡用递归算法设计程序。
  • 在递归调用的过程当中系统为每一层的返回点、局部量等开辟了栈来存储。递归次数过多容易造成栈溢出等,所以一般不提倡用递归算法设计程序。

在做递归算法的时候,一定要把握住出口,也就是做递归算法必须要有一个明确的递归结束条件。这一点是非常重要的。其实这个出口是非常好理解的,就是一个条件,当满足了这个条件的时候我们就不再递归了。

4.多叉树的基本知识

三、Spark处理

流程概述:

1.构建一个多叉树的类,类主要属性描述,name全路径如A_B_C,childList儿子链表

2.按时间范围读取上一步预处理的数据,递归计算每一级页面的属性指标,并根据页面路径插入到初始化的Node类根节点中。

3.递归遍历上一步初始化的根节点对象,并替换其中的name的id为名称,其中借助Spark DataFrame查询数据。

4.将root对象转化成json格式,返回前端。

附上代码如下:

import java.util
import com.google.gson.Gson
import org.apache.spark.SparkContext
import org.apache.log4j.{Level, Logger => LG}
import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.hive.HiveContext
/**
 * 用户行为路径实时计算实现
 * Created by chouyarn on 2016/12/12.
 */
/**
 * 树结构类
 *
 * @param name 页面路径
 * @param visit 访次
 * @param pv pv
 * @param uv uv
 * @param childList 儿子链表
 */
class Node(
 var name: String,
 var path:Any,
 var visit: Any,
 var pv: Any,
 var uv: Any,
 var childList: util.ArrayList[Node]) extends Serializable {
 /**
 * 添加子节点
 *
 * @param node 子节点对象
 * @return
 */
 def addNode(node: Node) = {
 childList.add(node)
 }
 /**
 * 遍历节点,深度优先
 */
 def traverse(): Unit = {
 if (childList.isEmpty)
 return
 // node.
 val childNum = childList.size
 for (i 
 val child: Node = childList.get(i)
 child.name = child.name.split("_").last//去除前边绝对路径
 child.traverse()
 }
 }
 /**
 * 遍历节点,深度优先
 */
 def traverse(pages:DataFrame): Unit = {
 if (childList.isEmpty||childList.size()==0)
 return
 // node.
 val childNum = childList.size
 for (i 
 val child: Node = childList.get(i)
 child.name = child.name.split("_").last
 val id =pages.filter("page_id='"+child.name+"'").select("page_name").first().getString(0)//替换id为name
 child.name = id
 child.traverse(pages)
 }
 }
 /**
 * 动态插入节点
 *
 * @param node 节点对象
 * @return
 */
 def insertNode(node: Node): Boolean = {
 val insertName = node.name
 if (insertName.stripSuffix("_" + insertName.split("_").last).equals(name)) {
 // node.name=node.name.split("_").last
 addNode(node)
 true
 } else {
 val childList1 = childList
 val childNum = childList1.size
 var insetFlag = false
 for (i 
 val childNode = childList1.get(i)
 insetFlag = childNode.insertNode(node)
 if (insetFlag == true)
 true
 }
 false
 }
 }
}
/**
 * 处理类
 */
class Path extends CleanDataWithRDD {
 LG.getRootLogger.setLevel(Level.ERROR)//控制spark日志输出级别
 val sc: SparkContext = SparkUtil.createSparkContextYarn("path")
 val hiveContext = new HiveContext(sc)
 override def handleData(conf: Map[String, String]): Unit = {
 val num = conf.getOrElse("depth