A/B實驗進階——通過實驗前數(shù)據(jù)減小方差(CUPED)

CUPED(Controlled-experiment Using Pre-Experiment Data)是一種通過聯(lián)系實驗前數(shù)據(jù),讓方差變小的方法。
(簡書的Latex解析經(jīng)常不對,部分公式顯示可能錯誤,如\bar{X}被顯示為X^2)

目的(what)

通過數(shù)據(jù)變換,得到更小的方差。

為什么要減小方差(why)

A/B實驗結(jié)果取決于實驗組方差(var)、效果(\Delta):
t = \frac { \Delta }{var(\Delta) } = \frac { \bar { Y_{t} } - \bar { Y_{c} }}{\sqrt {var(\bar {Y_t} - \bar {Y_c}) } }

var變小,會讓結(jié)果更加容易顯著。

方法(how)

1. 思路

構(gòu)建\Delta^*,滿足:

  • \Delta^*\Delta一樣,是E(Y_t - Y_c)的無偏估計;
  • \Delta^*相對\Delta,方差更小。

使用\Delta^*來評估實驗效果,效果相似,方差變小。

2. 原理

如果有另一隨機變量X,并且已知E(X)。則有互相獨立的二維隨機變量(X_i, Y_i),定義:

\hat{Y}_{cu} = \bar{Y} - \theta \bar{X} + \theta E(X)

由于E( \theta E(X)-\theta \bar{X}) = 0,所以\hat{Y}_{cu}E(Y)的無偏估計,則:
var(\hat{Y}_{cu}) = var(Y - \theta X) / n = \frac {1} {n} (var(Y) + \theta^2 var(X) - 2\theta cov(X,Y)),
\theta = cov(X,Y) / var(X)時,var(\hat{Y}_{cu})的值最?。ň€性回歸,最小二乘法),此時:

var (\hat{Y}_{cu}) = \frac {1}{n}(var(Y) - cov(X,Y)^{2}/var(X)) = \frac{var(Y)}{n} (1 - \frac { cov(X,Y)^{2}}{var(X)var(Y)}) = var ( \bar{Y} ) (1 - \rho ^{2} ) \leq var( \bar {Y})

XY的相關(guān)系數(shù)越大,得到的方差越小。

3. 擴展到A/B

如果選擇的X不會被實驗干擾,則E( X ^ {t} ) - E( X ^ {c} ) = 0,
實驗組、對照組在零假設(shè)下還有相同的\theta,得:

\Delta_{cv} = \hat {Y}_{cu} ^{t} - \hat{Y}_{cu}^{c} = ( \bar {Y}_{cu} ^{t} - \bar {Y}_{cu}^{c} ) - \theta(\bar{X}_{cu}^{t} - \bar {X}_{cu}^{c}) + \theta (E( X ^ {t} - X ^ {c} ) ) = \Delta - \theta \Delta _ { x },得到
var(\Delta_{cv}) = var(\Delta)(1-\rho ^2)

微軟的實踐經(jīng)驗

1. 選擇協(xié)變量(X)

選擇相關(guān)系數(shù)更大的協(xié)變量,效果更好。微軟的建議:

  • 選擇實驗運行之前的指標數(shù)據(jù)最好;
  • 實驗之前指標數(shù)據(jù)的時間粒度越長,效果越好;
  • 實驗運行周期并不是越長越好。

實驗前數(shù)據(jù)并不是X得唯一選擇,只要是不會被實驗干預影響的變量,都可以選擇。比如用戶加入實驗的日期。

2. 實驗前數(shù)據(jù)缺失(Yi對應(yīng)的Xi不存在)

新用戶或太久沒回歸的用戶,可能沒有舊的記錄??梢詫θ笔У臄?shù)據(jù),補為適當?shù)闹怠?/p>

結(jié)語

本文簡單介紹了CUPED這種強大的方法,合理的使用可以大大增加實驗的敏感度。
僅做簡單介紹、總結(jié),實踐細節(jié)可參閱相關(guān)資料。

思考:CUPED與線性回歸

CUPED方法的本質(zhì)是對X、Y進行二維線性回歸。

默認情況算法:
Z = \hat{Y} = Y

CUPED算法:
Z = \hat{Y} = Y - \theta * X + \theta * E(X)

舉例:CUPED算法(藍色)在z軸上的波動相對默認算法(黃色)明顯變?nèi)?/p>

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容