CUPED(Controlled-experiment Using Pre-Experiment Data)是一種通過聯(lián)系實驗前數(shù)據(jù),讓方差變小的方法。
(簡書的Latex解析經(jīng)常不對,部分公式顯示可能錯誤,如\bar{X}被顯示為X^2)
目的(what)
通過數(shù)據(jù)變換,得到更小的方差。
為什么要減小方差(why)
A/B實驗結(jié)果取決于實驗組方差(var)、效果():
var變小,會讓結(jié)果更加容易顯著。
方法(how)
1. 思路
構(gòu)建,滿足:
-
與
一樣,是
的無偏估計;
-
相對
,方差更小。
使用來評估實驗效果,效果相似,方差變小。
2. 原理
如果有另一隨機變量,并且已知
。則有互相獨立的二維隨機變量
,定義:
由于,所以
是
的無偏估計,則:
,
當時,
的值最?。ň€性回歸,最小二乘法),此時:
與
的相關(guān)系數(shù)越大,得到的方差越小。
3. 擴展到A/B
如果選擇的不會被實驗干擾,則
,
實驗組、對照組在零假設(shè)下還有相同的,得:
,得到
微軟的實踐經(jīng)驗
1. 選擇協(xié)變量(X)
選擇相關(guān)系數(shù)更大的協(xié)變量,效果更好。微軟的建議:
- 選擇實驗運行之前的指標數(shù)據(jù)最好;
- 實驗之前指標數(shù)據(jù)的時間粒度越長,效果越好;
- 實驗運行周期并不是越長越好。
實驗前數(shù)據(jù)并不是X得唯一選擇,只要是不會被實驗干預影響的變量,都可以選擇。比如用戶加入實驗的日期。
2. 實驗前數(shù)據(jù)缺失(
對應(yīng)的
不存在)
新用戶或太久沒回歸的用戶,可能沒有舊的記錄??梢詫θ笔У臄?shù)據(jù),補為適當?shù)闹怠?/p>
結(jié)語
本文簡單介紹了CUPED這種強大的方法,合理的使用可以大大增加實驗的敏感度。
僅做簡單介紹、總結(jié),實踐細節(jié)可參閱相關(guān)資料。
思考:CUPED與線性回歸
CUPED方法的本質(zhì)是對X、Y進行二維線性回歸。
默認情況算法:
CUPED算法:
舉例:CUPED算法(藍色)在z軸上的波動相對默認算法(黃色)明顯變?nèi)?/p>
