数据挖掘应用实例分析

——个性化推荐系统

数据挖掘技术,一门基于计算机技术与大数据时代信息处理需求的技术产物,从世纪之交的火热发展以来,不知不觉间,早已应用到我们生活的方方面面:电子邮箱中的垃圾邮件分类、电影院的票房预测、网页上的广告推荐、语音识别、电网语义精确搜索等。还有人工智能、自然语言处理、数据修正等。我们认为,数据挖掘技术将成为互联网时代应用最广泛的技术之一,它有可能为人类社会带来一个新的时代。

但是由于笔者才疏学浅,今天我们暂不谈得那么高深,只分析的一个常见的应用实例——个性化推荐系统。

个性化推荐最初的诞生,是由于在逐渐信息过载的时代中,适当的筛选可以让用户高效地获得自己所需要的信息。后来才逐步应用于商业,尤其是成为了电商行业的有效销售手段;还有一些文化、社交性的站点(比如豆瓣、知乎、网易云等)。

推荐系统是自动联系用户和物品的一种工具,它通过研究用户的兴趣爱好,来进行个性化推荐。它与搜索引擎的不同在于,它不需要用户提供输入目标,而是基于历史记录自动推荐,是一种主动的机制。它能够通过分析用户的历史行为来对用户的兴趣进行建模,从而主动给用户推荐可满足他们兴趣和需求的信息。每个用户所得到的推荐信息都是与自己的行为特征和兴趣有关的,而不是笼统的大众化信息,因此称之为“个性化”。

关于推荐引擎的工作原理,首先它需要得到一些基本信息,主要包括:一、要推荐的内容的元数据,如关键字。二、用户的基本信息,如性别、年龄、职业。三、用户的偏好,偏好信息又可以分为显式用户反馈和隐式用户反馈。显式用户反馈是用户在网站上自然浏览或者使用网站以外,显式地提供的反馈信息,如用户对物品的评分,或者对物品的评论等。

隐式用户反馈是用户在使用网站时产生的数据,隐式地反映了用户对物品的喜好,如用户购买了某物品,用户查看了某物品的信息,用户在某页面停留的时间等。推荐引擎通过对这些信息的统计分析关联,再给用户个性化地推荐相应物品或信息。

对于当前大部分的推荐机制可以进行以下分类:一、基于人口统计学的推荐,即根据用户个人的基本数据信息来发现用户的相关程度。二、基于内容的推荐,即根据不同内容的元数据,进行内容相关性的分析。三、根据协同过滤的推荐,通过对用户偏好信息的过滤,发现不同内容的相关性或者不同用户的相关性。

这些数据挖掘有关技术已经在很多领域取得了成就,譬如推荐系统应用的鼻祖Amazon,就是通过消费偏好对比以及一些混合手法,来对用户进行精准的页面推荐,现在的淘宝、京东、天猫等电商平台显然也采用了这种方式进行个性化推荐。个性化的流量分配可以最大化流量的使用效率,这使得它们的获客成本居高不下。

而电商领域的个性化推荐也面临以下挑战:由于推荐是基于已有信息对用户意图与心理进行的猜测,及时识别用户每个行为背后的真实意图,甚至每个页面、每个标题对用户心理的影响就十分重要,这些关键的影响因素可能是一张购物券、一张明星街拍、一个偶遇的促销活动,尤其是激情消费易发的当下。这里面涉及到较为复杂的用户购物状态的推理和判定,如果不借助人工输入,比如通过产品设计提供用户筛选接口,让用户人工输入限制项,典型的比如过滤器,负反馈,则对目前的机器算法是一个非常大的挑战。

还有一个问题就是用户体验问题。这些平台,乃至个性化推荐的算法,本质上都是为了用户服务的。可以看到,常常被抱怨的体验问题包括买了还推,推荐商品品类单一,没有让人眼前一亮的商品能满足一下发现的惊喜等等不一而足。往往这些体验问题的解决都需要人工规范的干预,但凡有规则的介入比如加入购买过滤,类目打散展示等策略,都会造成交易类指标的下降,平衡两者之间的关系对推荐系统是一个现实的挑战。

对于个性化推荐在其他领域的应用也都面临着类似的问题。还有例如基于人口统计学的推荐机制的基于用户的基本信息对用户进行分类的方法过于粗糙,尤其是对品味要求较高的领域,如图书、电影和音乐等领域,无法得到很好的推荐效果。基于内容的推荐需要对物品进行分析和建模,推荐的质量依赖于物品模型的完整和全面程度;对于物品相似度的分析仅仅依赖于物品本身的特征,而没有考虑人对物品的态度;因为是基于用户以往的历史做出推荐,所以对于新用户有“冷启动”的问题等。还有协同推荐的效果过于依赖于用户历史偏好数据的多少和准确性;对于一些特殊品味的用户不能给予很好的推荐;由于以历史数据为基础,抓取和建模用户的偏好后,很难修改或者根据用户的使用进行演变,从而导致这个方法不够灵活。

当然现在大多流行的都是混合型推荐,可能把一种推荐机制的输出当做输入送入另一个机制中,或者把不同机制得到的推荐结果都推荐给用户,这些也是能够有效提高推荐效果的。

总而言之,个性化推荐是日常生活中最能体现数据挖掘的应用实例之一,人们对于它的研究已经很多年了,而且还将基于社会文化的不断变迁继续发展下去。