一、引入
这时ABTest就是一种帮助我们做决策的更科学的方法
ABTest,就是做一个测试,在产品设计场景中,假设我们有两个方案(比如两个页面一个用这个文案另一个用那个文案,一个用红色按钮、另一个用蓝色),通过均衡的流量分割,让一部分用户使用A方案,另一部分用户使用B方案,然后利用埋点可以对用户点击等行为数据进行采集,并通过统计引擎分析结构化的日志数据,计算相关指标,一般是点击率、转化率、CTR(点击次数/展示量)等,进行假设检验,从而得出那个方案更好
ABtest原理很简单。ABtest的难度主要在开发上:开发新版本、进行测试、测试数据回传保存
二、AB Test步骤
ABtest本质上是一个两总体假设检验问题,要检验A、B两个版本是否有显著区别。
两总体假设检验步骤:
第一步:确定对象和指标。明确要检验的A、B两个对象,版本。以及要检验的指标,是CTR,还是客单价,ARPU
第二步:给出原假设/备择假设。并选择检验统计量,t 还是F?(t是总体方差未知或小样本,用样本方差代替总体方差。F是总体方差或大样本)
第三步:埋点,获取数据。计算统计量,明确A,B版本是否有显著区别。p值小于显著性水平0.05则推翻原假设
确定目标 --> 确定最小样本量 --> 确认流量分割方案 --> 实验上线 --> 规则校验 --> 数据收集 --> 效果检验
三、AB Test例子
某电商平台,想提升用户客单价,运营部门做了两套A、B激励方案,想将流量分成相同的两批测试下效果。已选出两组各12名用户,测试用户客单价如下
H0:两者不相等
H1:方案A客单价均值=方案B客单价均值
解读结论
既然方案A与方案B不同,A的均值又高于B,那么就认为A更好
三、AB Test的局限性,或是做AB Test要注意什么?
①AB Test要求数据量很充足的时候,才具有可信度
②且AB测试得到的结果是更优的方案,而不是最优,所以只能作为一种验证性的工具
③A/B测试只有在你要测的KPI指标可以被量化时才适用,对于声誉,公关等不适用
四、面试题
Q1:什么场景可以做AB测试?
产品迭代场景:界面优化、增加功能
策略优化场景:运营策略优化,算法策略优化(推荐算法)
检验场景:新功能推出,30天内的DAU增加了,那么要通过假设检验来测试这个结果是否显著
Q2:为什么要进行ABtest
APP想要存活及增长,精细化运营就变成了必须。往往产品的认知并不是用户的认知,所以我们需要去测试,去实验。类似于医学中的“双盲实验”
Q3:AB Test样本量如何确定?AB Test需要做多久是如何确定的?如果计划做20天,第10天时感觉结果显著,能不能停止测试?
样本量 计算公式:
Q4:做AB实验的时候,数据对比上涨25%,判定为效果显著,但上线后效果不好,为什么?
样本量不足,结果是随机波动导致
实验时间太短,用户由于新鲜感表现出不可持续的行为
实验人群不等于上线人群
外部环境变化,比如打车场景下,下雨和下雪会导致订单量激增
Q5:谈谈第一类错误,第二类错误
互联网产品案例中,第一类错误(拒真错误):本来是一个好的产品,它本来可以给我们带来收益,但是由于我们统计的误差,导致我们误认为它并不能给我们带来收益。
第二类错误代表的是一个功能改动,本来不能给我们带来任何收益,但是我们却误认为它能够给我们带来收益。
Q6:流量分割有哪两种方式?
Q7:假设检验如何选取统计量?
Q7:ABTest有哪些注意事项?
一些效应
①网络效应:
主要是因为对照组和实验组在一个社交网络导致。如果微信改动了某一个功能,这个功能让实验组用户更加活跃,发更多朋友圈。但是实验组用户的好友可能在对照组,实验组发的多,对照组用户可能就刷朋友圈刷的多,所以本质上对照组用户也受到了新功能的影响,那么ABTest就不再能很好的检测出相应的效果
解决办法:从地理上隔绝用户
②学习效应:
主要是用户的好奇心理导致。比如产品将某个按钮从暗色调成亮色。很多用户刚刚看到,会有个新奇心里,去点击该按钮,导致按钮点击率在一段时间内上涨,但是长时间来看,点击率可能又会恢复到原有水平
解决方法:一是把时间拉长。二是只看新用户的数据
Q7:如果样本量不足该怎么办
只能通过拉长时间周期,通过累计样本量来进行比较
Q8:是否需要上线第一天就开始看效果?
在做AB测试时,尽量设定一个测试生效期,这一般是用户的一个活跃周期。如用户活跃间隔是7天,那么生效期为7天,如果是一个机酒app,用户活跃间隔是30天,那生效期为30天
BOUNUS:
ABtest实验可以分成两种,客户端client实验和服务端server实验
客户端实验一般来说只是UI上的实验,纯粹是展示端的策略;
而服务端的实验是返回给client数据的内容做实验,比如推荐的策略,算法策略等