在金融風控領(lǐng)域,無人不曉的應(yīng)該是評分卡,美國fico公司算是評分卡的始祖,始于 20世紀六十年代, 評分卡大致20世紀末傳入我國,我能看到國內(nèi)較早關(guān)于評分卡的講解的書籍是2005出版的。在中國 信貸 房貸車貸 高利貸 普惠金融的滋潤下,評分卡這項對風控有顯著效果的一項技術(shù)浮出水面。

簡單來理解評分卡,其實評分卡 就是 一個簡單的決策樹,不過葉子節(jié)點都是數(shù)值,那么根節(jié)點的養(yǎng)料是什么,養(yǎng)料其實就是你個人當時最原始的征信信息和個人信息
你的 收入 學(xué)歷 居住地居住時間 年齡 家庭人口 是否單身 工齡 現(xiàn)在單位工作時間
你的存款 你的逾期次數(shù) 你的銀行卡數(shù)量 信用卡數(shù)量 ,信用卡額度 信用卡種類,突然間,發(fā)現(xiàn)我在申請一些資本主義國家簽證時,準備的材料基本上就是這些,其實我們 不管做什么申請,只要是讓你提供個人信息資料等等,都可以看做是一個樸實的評分卡模型,只是稍微有點區(qū)別,本質(zhì)上就是通過你的申請資料給你打分,及格就通過申請,不及格就駁回拒絕。

那么在互聯(lián)網(wǎng)金融風控領(lǐng)域的標準評分卡又是什么鬼?當然不是鬼,是一門很有效用的技術(shù),我通過給你提供的資料打分,比如月收入超過一萬 打分30分,超過兩萬的打分50,月收入無的打 負分 -20,學(xué)歷 研究生以上打分67分,本科46分,???3分,高中高職 中專16分,初中及以下負分-8,居住地時間,超過五年78分,超過三年45分,不足一年負分-64.。。。大家可以看到我對以上我所關(guān)注的幾項特點【feature】都做了相應(yīng)的打分情況,通過這些打分,最后對一條記錄 【一個申請貸款的個體人】他會有一個 求和的總分score,比如我的總分區(qū)間是300-900,低于600分的統(tǒng)統(tǒng)拒絕駁回,只有600分以上的才可以通過申請放款,那么就看這個人實際有多少分,決定了他到底能不能拿到貸款,但是現(xiàn)實中還有更精細的操作 ,不是駁回了就沒有機會了,還有 拒絕推斷,意思其實還是從沙子里挑出金子來,在低于600分以下的再做統(tǒng)計推斷,會挽留一部分人繼續(xù)放貸,超過600分的也不一定都能拿到滿意的貸款,比如在600-750之間我再做統(tǒng)計推斷,再拒絕一部分人 還有對一部分人的貸款額度只滿足其70% 等等
接著我們來看,如果你注意到,我們對每個feature 都做了間隔區(qū)分,一個特征分了好幾個檔次,每個檔次打分都不一樣,正所謂 因為有階級的存在才會有不平等,但是階級永遠不可能被消滅,就好比矛盾,舊的生產(chǎn)關(guān)系消失了 自然 舊的矛盾也就銷聲匿跡了,但是迎面新的生產(chǎn)關(guān)系和生產(chǎn)力而來的 次要矛盾就會占領(lǐng) C位,武力消滅的舊的階級,未來在新的階級就會因為生產(chǎn)關(guān)系切換不斷分化出新的小雞雞 【階級】,對于評分卡 最重要的就是我們?nèi)绾蝸矸謾n【分箱】,如何為每個檔設(shè)置合理的分數(shù)[woe iv],可以看得出評分卡這個幺蛾子就被我們給分解掉了。

那我們來說說分箱吧
分箱其實就是為了給評分卡分檔區(qū)別,評分卡拿到的原始數(shù)據(jù)剛開始可能都是一些類別數(shù)據(jù),比如 張三【 本科 月收入1萬 居住地3年 信用卡3張 28歲 單身 工齡3年 先工作入職一年 白金卡一張 信用額度缺失 。。?!?br>
看到么,這些原始的數(shù)據(jù) 都是文字描述 ,并不可以直接放入評分卡程序中跑分的。
需要我們首先對數(shù)據(jù)做預(yù)處理 比如缺失值異常值 等等處理,然后是數(shù)據(jù)類型的轉(zhuǎn)換,str 轉(zhuǎn)int float ,把文字的描述轉(zhuǎn)為 數(shù)值型特征,或者 one-hot編碼 ,有一大部分數(shù)值型特征他是連續(xù)值,對于連續(xù)值 如果直接使用,對模型未來的泛化能力其實不大,容易過擬合,并且容易受噪音數(shù)據(jù) 極值影響,對模型的貢獻有限,但是如果 把連續(xù)值轉(zhuǎn)化為離散值,那么噪音影響減弱,泛化能力加強,模型的可解釋性更強。那么 連續(xù)值轉(zhuǎn)為離散值的這個過程就叫分箱

分箱 最樸實的有兩種 等頻 和等距,啥意思呢,
等頻 就是把一個分箱的區(qū)間段看做箱子,每個箱子放的樣本數(shù)量是一致的,相等的,等頻會考慮 箱子的樣本數(shù)量,但是不會考慮箱子大小間隔長度。
等距就是 分箱的每個區(qū)間段都是相等 大小的,但是每個箱子里的裝的樣本就不一定是相等的了,等距 只考慮箱子相同大 ,但是不會考慮箱子到底裝多少
當然 不管哪一種分箱 ,箱子的個數(shù)大部分是需要你人為指定的。
前兩種分箱 都是比較機械,有很大的局限性,我們分箱的目的是啥,是為了區(qū)分樣本,正確的分箱可以將樣本的信息及趨勢暴露出來,假如我們學(xué)歷分箱,【輟學(xué)過,小學(xué)到博士】那么這樣的分箱 學(xué)歷基本就廢掉了,他無法體現(xiàn)出學(xué)歷的價值,小學(xué)生畢業(yè)和博士生畢業(yè),兩者的社會信譽度和誠信度簡直一個天上一個地下,兩者放一個區(qū)間段,還怎么判斷。所以 在評分卡中我們尤為關(guān)注的是分箱。

怎么分箱比較合理呢 ,fico 中model Builder 給出 了 一部分答案,
fico 分箱 主要兩部分,先細分箱 然后再分箱合并,因為fico細分箱的粒度并不是很細,在分箱合并的時候 ,大部分是可以手工完成的。不過分箱合并也是有三個過程,計數(shù)合并階段,要求每個分箱的樣本量不低于多少,正負樣本不少于多少,相似合并 則是計數(shù)原來每個分箱的 woe iv 值,以iv損失最小的相鄰合并,注意了,以我們現(xiàn)在樸實邏輯抽象出來的分檔 是有一個類似線性的趨勢,一般都是相鄰合并,最后是趨勢合并,
fico 本身可以自己分箱不用人為干預(yù),但是效果不是最理想的。
接著我們來看分箱的高階思路,既然我們分箱是為了更好的區(qū)分樣本,使其暴露更多的信息價值,來擬合一些趨勢,那么我們就往這方便思考,什么可以讓他做到這些。
第一 卡方檢驗分箱 第二信息熵 第三貝葉斯分箱
如果使用這三種分箱,你會發(fā)現(xiàn) 分箱 1不等距 2 不等頻,但是分箱的區(qū)分度大大提升
https://blog.csdn.net/pylady/article/details/78882220

評分卡在做分箱的時候,必然會把每個特征 每個分箱區(qū)間的 woe iv 計算出來。
https://blog.csdn.net/sscc_learning/article/details/78591210

之后就會有區(qū)別了,最古老的評分卡在紙上打鉤操作
在上世紀計算機遠遠不太發(fā)達的時候,評分卡都是當時的美國銀行的信貸風控數(shù)據(jù)分析師手動在紙上填寫 打鉤的,每個特征 在每個區(qū)間具體打多少分,也是有公式的,最后給你打出一個總分來。這樣一來你的分數(shù)就固定了下來,剩下的操作就是放貸部門參考給你的打分,為你量身定做放款數(shù)額或者駁回。
同時與信貸相關(guān)的就是信用卡申請,樸素現(xiàn)實意義來說,信用卡其實就是一款小額的個人信用無抵押借貸形式,一次申請一次審核 多次復(fù)用信貸,相比 小額借貸是每次申請 都要單獨審核,信用卡的優(yōu)勢和風險就更多了。所以信用卡申請也是可以用評分卡的,
另外信貸 形式可以分很多種 ,線上消費分期 線上現(xiàn)金分期 線下消費分期 線下現(xiàn)金分期 車貸單獨 房貸 裝修貸 留學(xué)貸款 信用卡抵償 套現(xiàn) 等等多種場景,每種場景的模型都會有很大的區(qū)別。


在互聯(lián)網(wǎng)發(fā)達起來,計算機耗材 性能大幅度提升,我們的評分卡不再僅僅是【紙上談兵】,開始使用更高級的技術(shù),機器學(xué)習 和深度學(xué)習
我們在之前的數(shù)據(jù)分箱 清洗后,在歸一化 標準化 無量綱 one-hot 時間衍生 ,特征組合,我們還要做好 單變量分析 多變量相關(guān)系分析 通過聚類散點圖查看 一些信息特征,做估計和假設(shè)檢驗,完成統(tǒng)計學(xué)相關(guān)的操作后, 我們就可以使用機器學(xué)習的套路對其進行學(xué)習,原來紙上的評分卡是沒有預(yù)測能力的,只是來個人,我看你的個人信息 給你打分【樸素來說,打分打得好 打的快 靠心算也算是人的預(yù)測能力吧】,現(xiàn)在使用機器學(xué)習我把數(shù)據(jù)分為 訓(xùn)練集 和測試集,用帶標簽的訓(xùn)練集來訓(xùn)練數(shù)據(jù),然后再用測試集來驗證結(jié)果。
那我們來說,過來申請借貸的人,本身不帶標簽target,我們怎么知道他是好人【可以償還到底】,壞人【跑路欺詐】,假如都帶上了,還要什么風控組,誰敢給帶壞標簽的人 放貸,真金白金都是錢呀,真要放了,肯定是肉包子打狗一去不回頭,這個時候我們需要人為的設(shè)置標簽,一般來說我們的標簽來自這個人之前的信貸歷史,這個人至少是有個人征信記錄的,之前辦理過貸款 還貸的經(jīng)歷,所以來說,單單有個人學(xué)歷 居住地戶口也是不敢輕易放貸的,因為不知道你的誠信度到底深淺,當然也有本科 研究生騙貸跑路的。以你的個人征信記錄 做加工分析,有一個賬齡分析,一般來說 M1 30天就有個大概了,好像是80%,當然也是有遷移率,比如還著貸 突然資金鏈斷了不還了,或者逾期了, 經(jīng)過催賬 又開始還了,中間斷斷續(xù)續(xù),或者一直在還了好久突然人間蒸發(fā)跑了。放貸是一個長期工程,觀察期 和表現(xiàn)期 漫長,都知道下蛋公雞不是正經(jīng)的



,和普通機器學(xué)習以auc roc為評估衡量標準,評分卡 的機器學(xué)習更關(guān)注 ks 值,這個ks其實就是正負樣本的區(qū)分程度,區(qū)分度越大 ks值就越大,這個ks 一般只求最大的區(qū)別最為模型的ks值,這個時候 TP TN FN FP 召回率 準確率 精準率 F1-score ,其實和ks 是有點類似的。
一般來說我們在使用評分卡做機器學(xué)習,或者說是用機器學(xué)習做評分卡,我們常用的模型 就是邏輯回歸 GBDT DNN RNN,假如我們用邏輯回歸,我們最后得到的其實是一個 判斷這個人是什么的概率或者優(yōu)勢,一般處于0-1之間,那我們?nèi)绾伟堰@個概率或者優(yōu)勢轉(zhuǎn)換為 評分卡的score呢,當然也是有公式的。

通過這個公式 我們就可以解釋出他拿到這個分數(shù)
https://blog.csdn.net/strwolf/article/details/51576469
至此評分卡的原理基本上算是初步講完,評分卡現(xiàn)在來說是一個比較成熟的技術(shù),在國內(nèi)還比較小眾,一些國有銀行已經(jīng)開始涉足使用。
https://data-science-tools.github.io/ScoreCardModel/ScoreCardModel.html#id8
https://jakevdp.github.io/blog/2012/09/12/dynamic-programming-in-python/
https://github.com/data-science-tools/ScoreCardModel













