Fundamental concept:solving business problems with data science stars with analytical engineering:designing an analytical solution,based on the data,tools,and techniques available(都比較直白,不翻譯了)
Exemplary technique:expected value as a framework for data science solution design(以期望值為框架來(lái)設(shè)計(jì)數(shù)據(jù)科學(xué)解決方案)
這一章主要講2個(gè)案例,來(lái)描述下實(shí)際的商業(yè)問(wèn)題懟到模型上的時(shí)候會(huì)遇到的各種困難。
Targeting the Best Prospects for a Charity Mailing(關(guān)注慈善郵寄的最好預(yù)期)
市場(chǎng)場(chǎng)景比較好入手,原因有二:場(chǎng)景多,基礎(chǔ)架構(gòu)可泛化性強(qiáng)。
我們就從慈善郵寄的捐贈(zèng)人開始分析。
The Expected Value Framework:Decomposing the Business Problem and Recomposing the Solution Pieces(期望值分析框架:分解業(yè)務(wù)問(wèn)題并重新組合解決方案)
我們的目標(biāo)是最大化得到捐贈(zèng)的利潤(rùn),捐贈(zèng)收入可以通過(guò)下式來(lái)表達(dá):
其中是給定的接受者x捐贈(zèng)的概率,
是這個(gè)人捐贈(zèng)的金額,
是我們從一個(gè)沒響應(yīng)的用戶那邊得到的價(jià)值。
但是每個(gè)人的捐贈(zèng)金額直到他response為止都是不知道的,所以我們把捐贈(zèng)金額也改成一個(gè)函數(shù),變化式如下:
這里是從response的用戶那得到的收入,
是不響應(yīng)的用戶得到的收入。
和前面的章節(jié)一樣,是收到的捐款減去成本,
是0減去成本。
假如是用戶x的捐款金額,c是郵寄訪問(wèn)材料的成本,根據(jù)公式
我們希望這個(gè)收入是正值,所以需要
也就是捐款的期望值,需要高于鼓動(dòng)一個(gè)人捐款的成本,那么收益為正。
A Brief Digression on Selection Bias(一個(gè)簡(jiǎn)短的離題:選擇性偏差)
由于不能隨機(jī)地去采集樣本而導(dǎo)致的學(xué)習(xí)集的要素的偏離狀態(tài)是選擇性偏差。
應(yīng)對(duì)選擇性偏差的方法超出了本書范圍,有興趣可以讀Zadrozny & Elkan,2001;Zadrozny,2004來(lái)了解詳情。(不知道推薦了啥,大家自己百度點(diǎn)材料來(lái)看吧)
Our Churn Example Revisited with Even More Sophistication(我們的客戶流失案例更為復(fù)雜)
這小節(jié)針對(duì)捐款收集問(wèn)題,更細(xì)致地去分析。
The Expected Value Framework:Structuring a More Complicated Business Problem(期望值框架:構(gòu)建更復(fù)雜的業(yè)務(wù)問(wèn)題)
在churn中使用利潤(rùn)期望公式如下:
其中是顧客被特殊照顧后不流失的概率,
是顧客留下我們得到的價(jià)值,
是顧客流失我們得到的價(jià)值。
假設(shè)客戶流失的價(jià)值是0,那么有:
簡(jiǎn)化后有個(gè)問(wèn)題,就是這里只表示了留下的用戶帶來(lái)的價(jià)值,沒有體現(xiàn)流失的用戶導(dǎo)致的價(jià)值損失。
Assessing the Influence of the Incentive(評(píng)估激勵(lì)的影響)
下面讓我們把給了激勵(lì)后留下用戶的收入和流失用戶的成本消耗一起計(jì)算進(jìn)來(lái)。
令是x用戶留下的利潤(rùn),不包含激勵(lì)成本,激勵(lì)成本是c。
targeting的期望的收益是:
not targeting的期望的收益是:
現(xiàn)在我們要激勵(lì)的用戶就是的值最大的用戶。
“value of targeting”即,從而有等式11-1:
From an Expected Value Decomposition to a Data Science Solution(從期望值分解到數(shù)據(jù)科學(xué)解決方案)
都是論述,大家自己看看就行了,強(qiáng)調(diào)了數(shù)據(jù)資產(chǎn)的重要性,注意建模的時(shí)候經(jīng)常測(cè)定一下模型的準(zhǔn)確度,避免浪費(fèi)時(shí)間。
summary
幾條分析引擎搭建時(shí)的思考總結(jié):
1. 我們得不到這個(gè)事件的數(shù)據(jù);
2. 精確地對(duì)這個(gè)方面進(jìn)行建?;ㄙM(fèi)太貴;
3. 這件事不大可能,我們正準(zhǔn)備忽略它;
4. 這個(gè)函數(shù)看起來(lái)足夠了,我們應(yīng)該用它繼續(xù)分析。
分析引擎的重點(diǎn)并不是將所有可能性匯總得到一個(gè)復(fù)雜的解決方案,而是推進(jìn)用數(shù)據(jù)分析的方式角度來(lái)思考問(wèn)題。