11. 決策分析思考2:面向分析引擎

Fundamental concept:solving business problems with data science stars with analytical engineering:designing an analytical solution,based on the data,tools,and techniques available(都比較直白,不翻譯了)

Exemplary technique:expected value as a framework for data science solution design(以期望值為框架來(lái)設(shè)計(jì)數(shù)據(jù)科學(xué)解決方案)

這一章主要講2個(gè)案例,來(lái)描述下實(shí)際的商業(yè)問(wèn)題懟到模型上的時(shí)候會(huì)遇到的各種困難。


Targeting the Best Prospects for a Charity Mailing(關(guān)注慈善郵寄的最好預(yù)期)

市場(chǎng)場(chǎng)景比較好入手,原因有二:場(chǎng)景多,基礎(chǔ)架構(gòu)可泛化性強(qiáng)。

我們就從慈善郵寄的捐贈(zèng)人開始分析。

The Expected Value Framework:Decomposing the Business Problem and Recomposing the Solution Pieces(期望值分析框架:分解業(yè)務(wù)問(wèn)題并重新組合解決方案)

我們的目標(biāo)是最大化得到捐贈(zèng)的利潤(rùn),捐贈(zèng)收入可以通過(guò)下式來(lái)表達(dá):

Expected-benefit-of-targeting=p(R\vert x)\cdot v_{R}+[1-p(R\vert x)] \cdot v_{NR}

其中p(R\vert x)是給定的接受者x捐贈(zèng)的概率,v_{R}是這個(gè)人捐贈(zèng)的金額,v_{NR}是我們從一個(gè)沒響應(yīng)的用戶那邊得到的價(jià)值。

但是每個(gè)人的捐贈(zèng)金額直到他response為止都是不知道的,所以我們把捐贈(zèng)金額也改成一個(gè)函數(shù),變化式如下:

Expected-benefit-of-targeting=p(R\vert x)\cdot v_{R}(x)+[1-p(R\vert x)] \cdot v_{NR}(x)

這里v_{R}(x)是從response的用戶那得到的收入,v_{NR}(x)是不響應(yīng)的用戶得到的收入。

和前面的章節(jié)一樣,v_{R}(x)是收到的捐款減去成本,v_{NR}(x)是0減去成本。

假如d_{R}(x)是用戶x的捐款金額,c是郵寄訪問(wèn)材料的成本,根據(jù)公式

Expected-benefit-of-targeting=p(R\vert x)\cdot v_{R}(x)+[1-p(R\vert x)] \cdot v_{NR}(x)

我們希望這個(gè)收入是正值,所以需要

p(R\vert x)\cdot (d_{R}(x)-c)+[1-p(R\vert x)] \cdot (-c)>0

p(R\vert x)\cdot d_{R}(x)-p(R\vert x)\cdot c-c+p(R\vert x)\cdot c>0

p(R\vert x)\cdot d_{R}(x)>c

也就是捐款的期望值,需要高于鼓動(dòng)一個(gè)人捐款的成本,那么收益為正。

A Brief Digression on Selection Bias(一個(gè)簡(jiǎn)短的離題:選擇性偏差)

由于不能隨機(jī)地去采集樣本而導(dǎo)致的學(xué)習(xí)集的要素的偏離狀態(tài)是選擇性偏差。

應(yīng)對(duì)選擇性偏差的方法超出了本書范圍,有興趣可以讀Zadrozny & Elkan,2001;Zadrozny,2004來(lái)了解詳情。(不知道推薦了啥,大家自己百度點(diǎn)材料來(lái)看吧)


Our Churn Example Revisited with Even More Sophistication(我們的客戶流失案例更為復(fù)雜)

這小節(jié)針對(duì)捐款收集問(wèn)題,更細(xì)致地去分析。

The Expected Value Framework:Structuring a More Complicated Business Problem(期望值框架:構(gòu)建更復(fù)雜的業(yè)務(wù)問(wèn)題)

在churn中使用利潤(rùn)期望公式如下:

Expected-benefit-of-targeting=p(S\vert x)\cdot v_{S}(x)+[1-p(S\vert x)] \cdot v_{NS}(x)

其中p(S\vert x)是顧客被特殊照顧后不流失的概率,v_{S}(x)是顧客留下我們得到的價(jià)值, v_{NS}(x)是顧客流失我們得到的價(jià)值。

假設(shè)客戶流失的價(jià)值是0,那么有:

Expected-benefit-of-targeting=p(S\vert x)\cdot v_{S}(x)

簡(jiǎn)化后有個(gè)問(wèn)題,就是這里只表示了留下的用戶帶來(lái)的價(jià)值,沒有體現(xiàn)流失的用戶導(dǎo)致的價(jià)值損失。

Assessing the Influence of the Incentive(評(píng)估激勵(lì)的影響)

下面讓我們把給了激勵(lì)后留下用戶的收入和流失用戶的成本消耗一起計(jì)算進(jìn)來(lái)。

u_{S} (x)是x用戶留下的利潤(rùn),不包含激勵(lì)成本,激勵(lì)成本是c。

targeting的期望的收益是:

EB_{T}(x)=p(S\vert x,T)\cdot (u_{S}(x)-c )+[1-p(S\vert x,T)] \cdot  (u_{NS}(x)-c )

not targeting的期望的收益是:

EB_{notT}(x)=p(S\vert x,notT)\cdot u_{S}(x)+[1-p(S\vert x,notT)] \cdot u_{NS}(x)

現(xiàn)在我們要激勵(lì)的用戶就是EB_{T}(x)-EB_{nottT}(x)的值最大的用戶。

“value of targeting”即VT=EB_{T}(x)- EB_{notT}(x),從而有等式11-1:

VT=p(S\vert x,T)\cdot u_{S}(x)-p(S\vert x,notT) \cdot  u_{S}(x)-c

=[p(S\vert x,T)-p(S\vert x,notT)] \cdot  u_{S}(x)-c

=\Delta (p)\cdot  u_{S}(x)-c

From an Expected Value Decomposition to a Data Science Solution(從期望值分解到數(shù)據(jù)科學(xué)解決方案)

都是論述,大家自己看看就行了,強(qiáng)調(diào)了數(shù)據(jù)資產(chǎn)的重要性,注意建模的時(shí)候經(jīng)常測(cè)定一下模型的準(zhǔn)確度,避免浪費(fèi)時(shí)間。


summary

幾條分析引擎搭建時(shí)的思考總結(jié):

1. 我們得不到這個(gè)事件的數(shù)據(jù);

2. 精確地對(duì)這個(gè)方面進(jìn)行建?;ㄙM(fèi)太貴;

3. 這件事不大可能,我們正準(zhǔn)備忽略它;

4. 這個(gè)函數(shù)看起來(lái)足夠了,我們應(yīng)該用它繼續(xù)分析。

分析引擎的重點(diǎn)并不是將所有可能性匯總得到一個(gè)復(fù)雜的解決方案,而是推進(jìn)用數(shù)據(jù)分析的方式角度來(lái)思考問(wèn)題。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容