本次大数据项目数据及分析均做脱敏化和保密化,主要分享思路体系,全程用Python实现,数据和代码均不提供。如有建议欢迎讨论!

3、特征工程

       特征工程大体上可以分为三个方面,一是特征构造,二是特征选择或特征提取,三是特征变换。特征构造比较麻烦,需要一定的经验。特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征;而特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集。两者都能帮助减少特征的维度、数据冗余,特征提取有时能发现更有意义的特征属性,特征选择的过程经常能表示出每个特征的重要性对于模型构建的重要性。

       本项目在特征工程中主要应用了特征选择与特征构造两部分,从而构建出用户画像。

3.1 特征选择 

       特征选择也称特征子集选择,或属性选择,是指从已有的特征中选择特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。

(1)用户标签库

       立足于广电业务的角度,需要采用现有数据对用户建立出用户的标签库。如图7所示。


python绘制顾客画像 python做用户画像_大数据

图 7 用户标签标题

       给用户贴标签是大数据营销中常用的做法,所谓“标签”,就是浓缩精炼的、带有特定含义的一系列词语,用于描述真实的用户自身带有的属性特征,方便企业做数据的统计分析。借助用户标签,企业可实现差异化推荐、精细化画像等精准营销工作。

标签库的建立方式主要有如下三点。

  1. 标签库建立的过程中,是以树状结构的形式向外辐射,尽量遵循MECE原则:标签之间相互独立、完全穷尽,尤其是一些有关用户的分类,要能覆盖所有用户,但又不交叉。
  2. 标签分成不同的层级和类别,一是方便管理数千个标签,让散乱的标签体系化;二是维度并不孤立,标签之间互有关联;三可是为标签建模提供标签子集。
  3. 以不同的维度去构建标签库,能更好为用户提供服务。例如,用户层面提供业务、产品、消费品以便实现推荐。

(2)构建用户画像

       整个项目生成了以家庭为单位的用户画像,对于广电的政企用户或特殊线路用户暂不纳入用户画像考虑。同时方便后续做家庭分析、社区分析、区域分析、热点分析等等。

       用户画像中标签的计算方式大体有以下四种。

  1. 固有基础属性标签。固有属性信息包括用户的基础信息、订购数据、收费数据等。从这些信息中可以知道用户的基础消费状况,用户订购产品的时间长度等基础信息。
  2. 通过基础信息处理得到标签。有些基础信息不能直接提取出标签,但是经过处理后即可以得到有用的标签。
  3. 通过用户行为推测标签。用户行为是构建家庭客户标签库的主要指标,用户的点播、直播、回看的收视数据、收看时间段和时长等用户行为都可以用以构建标签。例如,经常点播体育类节目,这个家庭可能会被贴上“体育”;经常观看儿童类节目,有家庭中可能有儿童。
  4. 数据挖掘建模输出标签。对用户进行聚类分析,最终会得到不同客户群体,每个群体会被划分一个类,打上对应的标签。例如,建立客户价值分析模型,输出价值得分,根据得分高低,划分为重要保持客户、重要发展客户、一般客户、重要挽留客户、低价值客户等标签。这是根据数据主要使用方向分类出的结果,不同的需求可以分类出不同的结果。

       通过以上的标签建立与计算方式,用户标签库主要分为三个方面,如图8所示。基本特征,家庭成员、消费内容、消费能力、入网时长等固有属性;业务特征,缴费渠道、缴费方式和客户价值属性;兴趣爱好,体育偏好、剧场偏好、观看时间段和观看时长等相关属性。


python绘制顾客画像 python做用户画像_python_02

图 8 用户标签示例

 3.2 特征构造

       一般情况下,机器学习中特征构造是经过一系列的数据变化、转换或组合等方式形成特征。特征代表的好坏取决于里面所包含信息的好坏。熵(Entropy,熵值越高,数据中所包含的信息越多),方差(Variance,方差越大,数据中所包含的信息越多),,特征对类别的关联(feature to class association,关联性大小)等,都可以解释了数据中所包含该特征的信息。

       本项目通过对广电业务的理解,为每个标签的实现制定了相应的规则。在建立用户画像的标签库后,对标签特征进行构造。其中,分别对用户的收视行为信息数据、账单数据、订单数据、收费数据及用户状态数可以实现的用户标签进行描述。

(1)用户收视行为信息数据(举例部分)

标签名称

规则

电视依赖度

计算用户的收视行为次数的总和N与总收视时长AMT。若N小于等于10,则电视依赖度低;若ATM/N小于等于50min,则电视依赖度中;若ATM/N大于50min,则电视依赖度高。

机顶盒名称

过滤设备名称(res_name)为空的记录,根据用户号与设备名称去重,最后确定标签。

付费频道月均收视时长

用户收视行为信息数据中频道名称中含有“(付费)”则为付费频道数据,计算各用户的收视时长。

若无数据,则付费频道无收视;若付费频道月均收视时长小于1h,则付费频道月均收视时长短;若付费频道月均收视时长大于1h小于2h,则付费频道月均收视时长中;若付费频道月均收视时长大于2h,则付费频道月均收视时长长。

点播回看月均收视时长

用户收视行为信息数据中节目类型(res_type)为1的是点播回看数据,计算各用户的收视时长。

若无数据,则点播回看无收视;若点播回看月均收视时长小于3h,则点播回看月均收视时长短;若点播回看月均收视时长大于3h小于10h,则点播回看月均收视时长中;若点播回看月均收视时长大于10h,则点播回看月均收视时长长。

体育爱好

用户收视行为信息数据中节目类型(res_type)为1时的节目名称(vod_title)与节目类型(res_type)为0时的节目名称(program_title)包含下列字段,计算其收视时长,若大于阈值,则贴上对应标签:

足球:足球,英超,欧足,德甲,欧冠,国足,中超,西甲,亚冠,法甲,杰出球胜,女足,十分好球,亚足,意甲,中甲,足协,足总杯

英超:英超;欧足:欧足;德甲:德甲;欧冠:欧冠;国足:国足;中超:中超;西甲:西甲

观看时间段偏好(工作日)

分别计算在00:00-06:00、06:00-09:00、09:00-11:00、11:00-14:00、14:00-16:00、16:00-18:00、18:00-22:00、22:00-23:59各时段的总收视时长,贴上对应的凌晨、早晨、上午、中午、下午、傍晚、晚上、深夜标签,选择降序前三的观看时间段偏好标签。

观看时间段偏好(周末)

与观看时间段偏好(工作日)相同。

       备注:统计近3个月的各类型收视时长,规定各类型节目时长判断阈值。

(2)客户价值分析

       在用户标签体系中,按照业务需求,增加了用户忠诚度标签即客户价值分析,通过客户分类,区分低价值客户,高价值客户,企业针对不同价值的客户制定优化的个性化服务方案,采取不同营销策略。

       用户忠诚度标签采用的是K-Means聚类算法,将用户分为重要保持客户,重要发展客户,重要挽留客户,一般客户和低价值客户。与其他行业不同,这次项目主要是运用用户的收视行为数据和消费数据,但立足于业务的角度,区分用户的依据会偏向于收视行为的数据,例如收视时长,频率等。


python绘制顾客画像 python做用户画像_big data_03

图 9 RFM模型

        传统的RFM模型包括三个特征,使用三维坐标系进行展示,如图 9所示。X轴表示Recency,Y轴表示Frequency,Z轴表示Monetary,每个轴一般会分成5级表示程度,1为最小,5为最大。本项目将客户关系长度L,观看时间间隔R,观看频率F,消费金额M和观看总时长C作为广电公司识别客户价值的关键特征,记为LRFMC模型。

模型

L

R

F

M

C

LRFMC模型

用户入网时间距观测窗口结束的时长

用户最近一次观看电视时间距观测窗口结束的时长

用户在观测窗口内观看电视的次数

用户在三个月内累计的消费金额

用户在观测窗口内观看电视的总时长

       对数据聚类分群的结果将其降维为2维进行可视化如图 10所示。


python绘制顾客画像 python做用户画像_python绘制顾客画像_04

图 10 聚类结果

        针对聚类结果结合业务进行特征分析,通过比较各个特征在群间的大小对某一个群的特征进行评价。如客户群4在C、F特征最大,R、M特征相比其他客户群不算最小,因此可以说C、F,M,R在群4是优势特征;以此类推,F,L,C在群1上是劣势特征。从而总结出每个群的优势和弱势特征。客户群1到5依次为低价值用户,重要发展用户,重要挽留用户,重要保持用户,一般用户。用K-Means聚类算法对客户数据进行客户分群,聚成五类(需要结合业务的理解与分析来确定客户的类别数量)。


python绘制顾客画像 python做用户画像_big data_05

图 11 客户群特征分布图

3.3 节目信息的获取

       除了已经有的数据还需要从外部获取数据。因为在后续的协同过滤模型构建中会出现该算法的缺点:冷启动问题。

(1)冷启动

       冷启动在推荐系统中表示该系统积累数据量过少,无法给新用户做个性化推荐的问题,这是产品推荐的一大难题。基本上,冷启动问题可以分为以下三类。

  1. 用户冷启动。用户冷启动主要解决如何给新用户做个性化推荐的问题。当新用户到来时,我们没有他的行为数据,所以也无法根据他的历史行为预测其兴趣,从而无法借此给他做个性化推荐。
  2. 物品冷启动。物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题。
  3. 系统冷启动。系统冷启动主要解决如何在一个新开发的网站上(还没有用户,也没有用户行为,只有一些物品的信息)设计个性化推荐系统,从而在网站刚发布时就让用户体验到个性化推荐服务这一问题。

       在本项目中,主要需要解决前两个问题。构建基于TF-IDF的标签推荐模型可以有效的解决冷启动问题。通过爬虫来获取一些新的节目标签数据,从而用于基于TF-IDF的标签推荐模型。

(2)节目信息获取及修正

       对于一些实时的节目信息,可能在之前的直播中还未出现。例如世界杯只有在一定时间内会有直播,但是只要获取到该节目的标签就可以为后面的标签用户推荐提供节目内容。如图 12所示。


python绘制顾客画像 python做用户画像_数据_06

图 12 实时的节目信息

       通过网络爬虫后得到节目的标签并不统一,这对分析造成了一定的困难。因此需要对标签进行修正,去除重复标签,合并相似标签,修改标签为项目标签库的标签名,例如爬取的数据中发现“其他”的标签都为飞镖类节目,可记为“射击”;“拳击”可记为“格斗”;“体育 生活”改为“生活”。如图 13 所示。


python绘制顾客画像 python做用户画像_大数据_07

图 13 修正节目信息的标签