Airbnb(爱彼迎)产品分析报告

airbnb 技术架构 airbnb的发展_查询语句

一、Airbnb背景

Airbnb成立于2008年,一家联系旅游人士和家有空房出租的房主的服务型网站,它可以为用户提供多样的住宿信息。用户可通过网络或手机应用程序发布、搜索度假房屋租赁信息并完成在线预定程序。

airbnb 技术架构 airbnb的发展_缺失值_02

二、分析问题

Airbnb能发展得如此迅速,在业务运营方面必然有闪亮的地方,故分析目标:分析业务闪亮点,以及业务中还存在哪些不足。
在AARRRR模型中,第一个A(用户获取),是业务发展的前提,故提高新用户获取的数量和质量是非常重要的,所以分析的第一个方向是:用户画像;产品推广渠道是用户转化的一个重要因素,分析的第二个方向是:产品推广渠道分析;转化漏斗可以有效针对流失环节进行分析,分析的第三个方向是:转化漏斗分析

针对分析的方向,提出以下三个问题:

  • airbnb的目标用户群体具有什么样的特征?
  • airbnb当前的推广渠道质量情况?
  • 当前的转化率和流失率中哪里哪一个环节存在问题?

针对三个问题,我们根据以下维度来具体分析:
1、用户画像分析

  1. 用户性别的分布特征;
  2. 用户年龄的分布特征;
  3. 用户地区的分布分布;
  4. 中国地区去国外预定的地区占比;

2、推广渠道分析

  1. 每月新增用户
  2. 不同用户端的注册量
  3. 不同推广渠道的注册量
  4. 不同营销内容的注册量
  5. 不同推广渠道的转化率
  6. 不同营销内容的转化率

3、转化漏斗分析

  1. 用户总量
  2. 活跃用户占比
  3. 下单用户占比
  4. 实际支付用户占比
  5. 复购用户占比

三、数据清洗

3.1 数据来源

数据集名称:Airbnb顾客预订数据

数据集来源:https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings/data

此数据聚集包含两张数据表,其中train_user表中为用户数据,sessions表中为行为数据。

3.2、列名称理解

数据表一:数据表名称:train_users

id:用户ID

date_account_created:帐户创建日期

date_first_booking:首次预订的日期

gender:性别

age:年龄

signup_method:注册方式

signup_flow:用户注册的页面

language:语言偏好

affiliate_channel:营销方式(SEM等)

affiliate_provider:营销来源,例如google,craigslist

first_affiliate_tracked:在注册之前,用户与之交互的第一个营销内容

signup_app:注册来源

first_device_type:注册时设备的类型

first_browser:注册时使用的浏览器名称

country_destination:订房国家

数据表二:数据表名称:sessions

user_id:客户id,与users表中的“id”类型相同

action:用户行为

action_type:用户行为类型

action_detail:用户行为具体

device_type:使用的设备

3.3、重复值处理

train_users表中id列为主键,每个用户只生成一条记录,所以如果train_users中id存在重复值,则需要处理。用以下代码检查,没有返回结果,说明没有重复值。

SELECT id, COUNT(id) AS count_id
FROM train_users
GROUP BY id
HAVING count_id > 1;

3.4、缺失值处理

预观数据集缺失值较多。

SELECT date_first_booking, COUNT(date_first_booking)
FROM train_users
WHERE date_first_booking = '1900-01-00';

结果:

表明首次预定时间缺失值达124543个

airbnb 技术架构 airbnb的发展_查询语句_03


其他缺失数据:

  • gender(性别)存在缺失值数量:95688个。
  • age(年龄)存在缺失值数量:87991个。
  • first_affiliate_tracked(用户通过哪个营销广告注册)存在缺失值数量:6065个。
  • first_browser(注册时浏览器)存在缺失值数量:27266个。
  • action_type(行为类型)存在缺失值数量:1126204个。
  • action_detail(用户操作行为的描述)存在缺失值数量:1126204个。

缺失原因推测及处理

  • date_first_booking(首次预定时间)数据如果缺失,在业务上可以理解为此用户为“未预定用户”,也就是没有下单的用户。
  • 性别、年龄由于客户端中这部分信息为非必填项,可能为用户未填写造成。
  • 其他四个数据可能是由于系统统计数据时没有统计到造成缺失

3.5、异常值处理

age字段中异常值较多,0~150之间的数值都有,可能是因为用户填写时随意造成。将年龄不在7到75岁之间的用户的年龄更新为0。

UPDATE train_users
SET age = 0
WHERE id NOT IN (
SELECT id FROM (SELECT id FROM train_users
			WHERE age <= 75 AND age >= 7) a
	);

四、用户画像分析

4.1、用户性别分析

女性用户数量为:54440,男性数量为:63041,mysql语句为:

SELECT COUNT(id) AS women'
FROM train_users
WHERE gender = 'MALE';
----------------------------------------------------------------------------
SELECT COUNT(id) AS man
FROM data.train_users
WHERE gender = 'FEMALE';

Tableau可视化

airbnb 技术架构 airbnb的发展_mysql_04


airbnb的男女用户占比差别不大

4.2、用户年龄分析

airbnb 技术架构 airbnb的发展_airbnb 技术架构_05


airbnb的用户主要为“中青年群体”,其中用户数量最多的群体是25~40岁之间,往后随着年龄增加,用户人数逐渐减少,符合一般规律。

4.3、用户地区分析

通过对用户使用不同语言(language)的人数来统计地区差异。

SELECT language, COUNT(language) AS lg_num
FROM train_users
GROUP BY language
ORDER BY lg_num;

airbnb 技术架构 airbnb的发展_airbnb 技术架构_06


从树状图可以看出:

  • airbnb的产品用户遍布多个地区。
  • 有超过90%的用户是使用英语的国家(欧美);
  • airbnb是2013年开始进入中国市场的(此数据集止于2014年),此时中文用户数量虽然排名第二,但是占比却非常小。

4.4、中国用户去国外预定的地区占比

利用Tableau分析:

airbnb 技术架构 airbnb的发展_airbnb 技术架构_07


从结果可以看出,中国用户到国外预定的地区中,美国占据了大部分,其次是法国,其他主要是欧洲发达国家。

sql查询语句如下:

SELECT language, country_destination, COUNT(country_destination) AS cd_num
FROM train_users
GROUP BY language, country_destination
HAVING language = 'zh'
ORDER BY cd_num DESC;

五、推广渠道分析

5.1、每月新增用户

分析每月新增用户,方法是统计每个月注册用户的数量,将字段‘date_account_created’转化为%Y-%M的形式,mysql查询语句如下:

SELECT date_format(date_account_created, '%Y-%m') AS year_moth, COUNT(id)
FROM train_users
GROUP BY date_format(date_account_created, '%Y-%m')
ORDER BY year_moth

airbnb 技术架构 airbnb的发展_缺失值_08


从结果可以看到:

  • 2010年用户增长较缓慢,因为在成立初期,后期开始快速增长
  • 2011年中开始快速增长,此时Airbnb获得第一笔大额融资
  • 7~9月为每年的增长高峰,推测可能是夏季为北半球旅游旺季,而且大多数学校都会在这个时间段放假。

5.2、不同用户端的注册量

统计不同用户端的注册量,使用字段‘first_device_type’,mysql查询语句如下:

SELECT first_device_type, COUNT(id) AS fdt_num
FROM train_users
GROUP BY first_device_type
ORDER BY fdt_num DESC;

airbnb 技术架构 airbnb的发展_缺失值_09


从可视化结果看到:

  • PC设备端用户注册数量远大于移动端,因这是截至2014年的数据,推测是之前智能移动端的普及率还不高。
  • 苹果设备用户大于其他设备用户,推测是因为美国本土使用苹果设备比较流行。

5.3、不同推广渠道的注册量及转化率

要统计不同推广渠道的注册量,需要分析affiliate_channel(营销方式),affiliate_provider(营销渠道名称),mysql查询语句如下:

SELECT affiliate_channel, affiliate_provider, COUNT(id) AS ac_num
FROM train_users
GROUP BY affiliate_channel, affiliate_provider
ORDER BY ac_num DESC

要统计不同推广渠道的转化率,需要分析不同渠道的注册数量和首次下订单的用户数量的比例,mysql查询语句如下:

SELECT affiliate_channel, affiliate_provider, 
SUM(CASE WHEN date_first_booking <> '0000-00-00 00:00:00' THEN 1 ELSE 0 END) / COUNT(id) AS ac_ratio
FROM train_users
GROUP BY affiliate_channel, affiliate_provider
ORDER BY ac_ratio DESC;

airbnb 技术架构 airbnb的发展_airbnb 技术架构_10


airbnb 技术架构 airbnb的发展_mysql_11

从可视化结果可以看到:

渠道注册量方面:

  • direct(直接从应用商店下载)方式的注册量占据了大部分,推测是从各个渠道了解到信息后到应用商店下载。
  • 从营销方式来看,除direct方式之外,注册量较高的方式为:SEM
  • 从营销来源来看,以Google方式注册的用户占了大部分。
  • 渠道注册量总体符合二八法则,前8个渠道(总共有38个渠道推广)的注册量已经占据了产品总的渠道来源的90%以上。

渠道转化率方面:

  • 大部分渠道转化率都是在30%以上,表现比较健康。
  • 从营销方式来看,content(内容营销)方式转化率较其他方式。
  • 从营销来源来看,主要营销来源(Google)中,除了content方式,其他方式的转化率都比较健康。

优质渠道分析(注册量和转化率都比较好):

  • 除direct方式外,SEM方式中Google来源的注册量和转化率都比较好,SEO方式中,Google注册量较SEM方式稍差,但转化率很高,达到48.1%

5.4、不同营销内容的注册量和转化率分析

要分析不同的营销内容,需要对字段‘first_affiliate_tracked(在注册之前,用户与之交互的第一个营销广告是什么)‘进行分析,mysql查询语句如下:

SELECT first_affiliate_tracked, COUNT(id) AS fat_num
FROM train_users
GROUP BY first_affiliate_tracked
ORDER BY fat_num DESC;

查询不同营销内容的转化率:

SELECT first_affiliate_tracked, 
SUM(CASE WHEN date_first_booking <> '1900-01-00' THEN 1 ELSE 0 END) / COUNT(id) AS fat_ratio
FROM train_users
GROUP BY first_affiliate_tracked
ORDER BY fat_ratio DESC;

airbnb 技术架构 airbnb的发展_缺失值_12


由可视化结果可以看到:

除了untracked(未跟踪到)的数据之外,linked的注册量最高,且除去注册量很少的marketing之外,其转化率也是最高的。其次是omg,注册量和转化率都紧跟在linked之后。

六、转化漏斗分析

转化漏斗分析主要通过分析sessions表,sessions表主要通过一段时间内用户的埋点行为分析得出结果。

6.1、有行为状态的用户总数量

通过对sessions表中的user_id字段进行统计,mysql查询语句如下:

SELECT COUNT(*)  AS ‘用户总数量’
FROM (
	SELECT user_id
	FROM sessions
	GROUP BY user_id
) new_sessions;

结果为:用户总数量15502人。

6.2、行为活跃的用户数量

此处定义用户行为超过十次即为活跃用户,可针对字段user_id分析,若id出现次数超过十次,则为活跃用户。mysql查询语句如下:

SELECT COUNT(*)  AS ‘活跃用户总数量’
FROM (
	SELECT user_id
	FROM sessions
	GROUP BY user_id
	HAVING COUNT(user_id) >= 10
) active;

查询结果:活跃用户数量为11815人。

6.3、此段时间内用户的下单量

分析下单量,需要对action_detail进行分析,其中“reservations”为下单操作,mysql查询语句如下:

SELECT COUNT(*) AS ‘下单用户总数量’
FROM (
	SELECT user_id
	FROM sessions
	WHERE action_detail = 'reservations'
	GROUP BY user_id
) booking;

查询结果为:用户下单量仅为504人。

6.4、下单后实际支付的用户数量

需要对action_detail进行分析,其中“payment_instruments”为支付操作,mysql查询语句如下:

SELECT COUNT(*) AS ‘实际支付用户总数量’
FROM (
	SELECT user_id
	FROM sessions
	WHERE action_detail = 'payment_instruments'
	GROUP BY user_id
) payed;

查询结果为:实际支付的用户数量为317人。

6.5、复购用户数量

需要统计进行了“payment_instruments”操作次数大于1次的用户,mysql查询语句如下:

SELECT COUNT(*) AS ‘复购支付用户总数量’
FROM (
	SELECT user_id
	FROM sessions1
	WHERE action_detail = 'payment_instruments'
	GROUP BY user_id
	HAVING COUNT(user_id) >= 2
) re_booking;

查询结果为:复购用户数量为151人。

airbnb 技术架构 airbnb的发展_airbnb 技术架构_13


根据结果可以看到:

  • 活跃用户中仅有4.27%的用户下单,sessions数据时间段为2014-01-01到2014-06-30,推测原因为此时间段为旅游淡季导致下单用户很少。
  • 下单用户中最终支付的也只有62.9%,需要分析付款流程是否具有问题,也可能是下单咨询客服后不满意,取消订单。

七、结论

从用户画像上看:

  • 在进行产品推广时,应该侧重于对25~40岁之间的用户,还可以稍微倾向于男性。

从推广渠道上看:

  • 每年的7~9月为旅游旺季,可以考虑在这个时间段内加大推广投入。
  • Google渠道除了content方式外,转化率都比较理想,后续可以继续以Google作为渠道推广。
  • content方式的转化率很差,可能和内容营销的信息质量,内容更新,发布渠道,发布人群等有关。内容营销是一项长期项目,建议从最基本的内容质量进行改善。
  • 营销内容方面,大部分用户的转化方式没有检测到(untracked),说明埋点统计效果很差,如果是系统功能出错,需要立即修复;如果是没有此埋点任务,需要立即增加。

从转化漏斗上看:

  • 从活跃用户到下单用户转化率非常低,建议围绕提高下单率做更多的工作。例如针对活跃用户的用户画像推送优质房源。此外,对于用户浏览的界面内容,也需要设计优化,提高下单兴趣。
  • 已下单的用户中只有62.9%实际支付,可以进行用户调研查找是否是支付流程,支付类型或后台服务的问题。或者针对产品本身分析,对支付产品和未支付产品进行分类统计。还可以从时间节点统计,查看已支付和未支付在时间上有何区别等。