A/B 测试通常用来测量两个或多个方案在某一单一维度上的绩效表现。通俗的说,就是用尽可能科学严谨的方法,对比方案之间的优劣。这种方法虽然是穿白大褂的科学家发明并用于科学实验,但现在它已经被善于借鉴的市场专家、用户体验专家们广泛地应用在市场研究、产品界面方案评估等更“感性”的领域。
对于界面改进设计,A/B测试通常由控制版本和对照版本组成,即A为当前线上方案,B为改进方案。通过小流量线上平台测试,考察对方案评估比较重要的绩效数据,如点击率、停留时间、出错率等。
为什么要进行A/B测试?
首先,在用户体验行业,哪个方案好哪个方案要被拍掉这样的讨论、辩论、争论无时无刻不在世界各地重复上演。不知道听谁的,主要是因为大家的理由都来自于“推理”。虽然UCD已经深入人心,但仍然避免不了博弈各方自诩为用户代言人,推想用户的行为。而此时,A/B测试的威力就变得特别显眼。它在用于界面方案评估时可以提供客观、准确的数据。哪种方案点击率高、哪种方案更有利于将用户的点击转化为在线购买行为等问题,可以通过数据获得清晰、明确的结论。让数据说话,大家不知道要少费多少口舌,为公司省下多少矿泉水呢。
第二,A/B测试不仅可以回答哪种方案好的问题,更有可能回答好多少的问题。在日常设计中,经常出现这样的困扰:在一番厮杀博弈后,已经没有人怀疑新设计方案能比原方案有更好的效果。但至此,还不能天真地认为万事大吉了。方案仍然会被质疑:“为了这一点效果的改善,是否值得动用宝贵的开发资源?”如果此时可以使用A/B测试,定量的回答新方案比原方案在关键指标上的改善率,则可以有效的评估成本和效益,帮助进行设计决策。值不值得给研发密密麻麻的排期表上再添一行,大家心里都更清楚了一些。
测试哪些内容?
总体上说,任何可以让用户的行为造成变化的内容都可以进行A/B测试。但在界面设计中,经常进行以下内容的测试:
- 按键大小、颜色、位置
- 标题、文案风格
- 文字长度、大小、间隔
- 表单数量、字段类型
- 页面布局、结构
- ……
一次只改变一个变量
在设计A/B测试时,每次测试,无论对比方案有多少,都只能在一个地方进行改动。
如果你发现,按钮大小和颜色都可能影响该按钮的点击率,那么你需要分别进行三组测试。第一组,只变化按钮的大小,其他方面均保持不变;第二组实验则只变化按钮颜色。如果你对比的方案中,既有按钮大小的变化又有按钮颜色的变化,那么在分析结果时则完全无法分清,某方案的绩效改善到底是由哪个因素决定的。
足够的流量
在很多时候,A/B测试不是一种快速的研究方法,你需要耐心的积累数据流量。如果流量不够,我们则无法区分考察点的绩效差异是由于方案不同造成的还是由于样本量的偶然因素造成的。此外,还应该避免流量的巨大波动。往往访问量的异动通常是受到某些突发偶然事件的影响,无法真实反映出实验的效果。
拉开方案之间的距离
测试方案之间应该保证一定程度的差异,这样可以最大程度地提高测试的效率。如果对比方案间差异过小,一方面测试结果有可能无法发现统计学上有意义的明显差异。另一方面,即使方案差异明显,也不易进行下一步测试。举个例子,如果你发现12X12的图标比11X11的图标方案效果更好,那么你是不是需要实验一下13X13呢?如果13X13好,那么14X14呢?这样下去可能需要太多轮测试,你才能发现原来20X20的图标效果最好。所以,步子迈得大一些,可以更快的找到答案。
总之,AB测试是一种行之有效、丰俭由人、可庞大可迷你的不错的研究方法。正确的使用会带来事半功倍的效果。从今天开始,大胆的AB一下吧!AB测试是一种态度,AB测试是一种生活方式…