亚洲久草黄色视频,亚洲第二另类特区

在金融風控領(lǐng)域，無人不曉的應(yīng)該是評分卡，美國fico公司算是評分卡的始祖，始于 20世紀六十年代，評分卡大致20世紀末傳入我國，我能看到國內(nèi)較早關(guān)于評分卡的講解的書籍是2005出版的。在中國信貸房貸車貸高利貸普惠金融的滋潤下，評分卡這項對風控有顯著效果的一項技術(shù)浮出水面。

image.png

簡單來理解評分卡，其實評分卡就是一個簡單的決策樹，不過葉子節(jié)點都是數(shù)值，那么根節(jié)點的養(yǎng)料是什么，養(yǎng)料其實就是你個人當時最原始的征信信息和個人信息
你的收入學(xué)歷居住地居住時間年齡家庭人口是否單身工齡現(xiàn)在單位工作時間
你的存款你的逾期次數(shù) 你的銀行卡數(shù)量信用卡數(shù)量，信用卡額度信用卡種類，突然間，發(fā)現(xiàn)我在申請一些資本主義國家簽證時，準備的材料基本上就是這些，其實我們不管做什么申請，只要是讓你提供個人信息資料等等，都可以看做是一個樸實的評分卡模型，只是稍微有點區(qū)別，本質(zhì)上就是通過你的申請資料給你打分，及格就通過申請，不及格就駁回拒絕。

image.png

那么在互聯(lián)網(wǎng)金融風控領(lǐng)域的標準評分卡又是什么鬼？當然不是鬼，是一門很有效用的技術(shù)，我通過給你提供的資料打分，比如月收入超過一萬打分30分，超過兩萬的打分50，月收入無的打負分 -20，學(xué)歷研究生以上打分67分，本科46分，?？?3分，高中高職中專16分，初中及以下負分-8，居住地時間，超過五年78分，超過三年45分，不足一年負分-64.。。。大家可以看到我對以上我所關(guān)注的幾項特點【feature】都做了相應(yīng)的打分情況，通過這些打分，最后對一條記錄【一個申請貸款的個體人】他會有一個求和的總分score，比如我的總分區(qū)間是300-900，低于600分的統(tǒng)統(tǒng)拒絕駁回，只有600分以上的才可以通過申請放款，那么就看這個人實際有多少分，決定了他到底能不能拿到貸款，但是現(xiàn)實中還有更精細的操作，不是駁回了就沒有機會了，還有拒絕推斷，意思其實還是從沙子里挑出金子來，在低于600分以下的再做統(tǒng)計推斷，會挽留一部分人繼續(xù)放貸，超過600分的也不一定都能拿到滿意的貸款，比如在600-750之間我再做統(tǒng)計推斷，再拒絕一部分人還有對一部分人的貸款額度只滿足其70% 等等

接著我們來看，如果你注意到，我們對每個feature 都做了間隔區(qū)分，一個特征分了好幾個檔次，每個檔次打分都不一樣，正所謂因為有階級的存在才會有不平等，但是階級永遠不可能被消滅，就好比矛盾，舊的生產(chǎn)關(guān)系消失了自然舊的矛盾也就銷聲匿跡了，但是迎面新的生產(chǎn)關(guān)系和生產(chǎn)力而來的次要矛盾就會占領(lǐng) C位，武力消滅的舊的階級，未來在新的階級就會因為生產(chǎn)關(guān)系切換不斷分化出新的小雞雞【階級】，對于評分卡最重要的就是我們?nèi)绾蝸矸謾n【分箱】，如何為每個檔設(shè)置合理的分數(shù)[woe iv],可以看得出評分卡這個幺蛾子就被我們給分解掉了。

image.png

那我們來說說分箱吧
分箱其實就是為了給評分卡分檔區(qū)別，評分卡拿到的原始數(shù)據(jù)剛開始可能都是一些類別數(shù)據(jù)，比如張三【本科月收入1萬居住地3年信用卡3張 28歲單身工齡3年先工作入職一年白金卡一張信用額度缺失。。?！?br> 看到么，這些原始的數(shù)據(jù) 都是文字描述，并不可以直接放入評分卡程序中跑分的。
需要我們首先對數(shù)據(jù)做預(yù)處理比如缺失值異常值等等處理，然后是數(shù)據(jù)類型的轉(zhuǎn)換，str 轉(zhuǎn)int float ，把文字的描述轉(zhuǎn)為數(shù)值型特征，或者 one-hot編碼，有一大部分數(shù)值型特征他是連續(xù)值，對于連續(xù)值如果直接使用，對模型未來的泛化能力其實不大，容易過擬合，并且容易受噪音數(shù)據(jù) 極值影響，對模型的貢獻有限，但是如果把連續(xù)值轉(zhuǎn)化為離散值，那么噪音影響減弱，泛化能力加強，模型的可解釋性更強。那么連續(xù)值轉(zhuǎn)為離散值的這個過程就叫分箱

image.png

分箱最樸實的有兩種等頻和等距，啥意思呢，
等頻就是把一個分箱的區(qū)間段看做箱子，每個箱子放的樣本數(shù)量是一致的，相等的，等頻會考慮箱子的樣本數(shù)量，但是不會考慮箱子大小間隔長度。
等距就是分箱的每個區(qū)間段都是相等大小的，但是每個箱子里的裝的樣本就不一定是相等的了，等距只考慮箱子相同大，但是不會考慮箱子到底裝多少
當然不管哪一種分箱，箱子的個數(shù)大部分是需要你人為指定的。

前兩種分箱都是比較機械，有很大的局限性，我們分箱的目的是啥，是為了區(qū)分樣本，正確的分箱可以將樣本的信息及趨勢暴露出來，假如我們學(xué)歷分箱，【輟學(xué)過，小學(xué)到博士】那么這樣的分箱學(xué)歷基本就廢掉了，他無法體現(xiàn)出學(xué)歷的價值，小學(xué)生畢業(yè)和博士生畢業(yè)，兩者的社會信譽度和誠信度簡直一個天上一個地下，兩者放一個區(qū)間段，還怎么判斷。所以在評分卡中我們尤為關(guān)注的是分箱。

image.png

怎么分箱比較合理呢，fico 中model Builder 給出了一部分答案，
fico 分箱主要兩部分，先細分箱然后再分箱合并，因為fico細分箱的粒度并不是很細，在分箱合并的時候，大部分是可以手工完成的。不過分箱合并也是有三個過程，計數(shù)合并階段，要求每個分箱的樣本量不低于多少，正負樣本不少于多少，相似合并則是計數(shù)原來每個分箱的 woe iv 值，以iv損失最小的相鄰合并，注意了，以我們現(xiàn)在樸實邏輯抽象出來的分檔是有一個類似線性的趨勢，一般都是相鄰合并，最后是趨勢合并，
fico 本身可以自己分箱不用人為干預(yù)，但是效果不是最理想的。

接著我們來看分箱的高階思路，既然我們分箱是為了更好的區(qū)分樣本，使其暴露更多的信息價值，來擬合一些趨勢，那么我們就往這方便思考，什么可以讓他做到這些。
第一卡方檢驗分箱第二信息熵第三貝葉斯分箱
如果使用這三種分箱，你會發(fā)現(xiàn) 分箱 1不等距 2 不等頻，但是分箱的區(qū)分度大大提升
https://blog.csdn.net/pylady/article/details/78882220

image.png

評分卡在做分箱的時候，必然會把每個特征每個分箱區(qū)間的 woe iv 計算出來。
https://blog.csdn.net/sscc_learning/article/details/78591210

image.png

之后就會有區(qū)別了，最古老的評分卡在紙上打鉤操作
在上世紀計算機遠遠不太發(fā)達的時候，評分卡都是當時的美國銀行的信貸風控數(shù)據(jù)分析師手動在紙上填寫打鉤的，每個特征在每個區(qū)間具體打多少分，也是有公式的，最后給你打出一個總分來。這樣一來你的分數(shù)就固定了下來，剩下的操作就是放貸部門參考給你的打分，為你量身定做放款數(shù)額或者駁回。

同時與信貸相關(guān)的就是信用卡申請，樸素現(xiàn)實意義來說，信用卡其實就是一款小額的個人信用無抵押借貸形式，一次申請一次審核多次復(fù)用信貸，相比小額借貸是每次申請都要單獨審核，信用卡的優(yōu)勢和風險就更多了。所以信用卡申請也是可以用評分卡的，
另外信貸形式可以分很多種，線上消費分期線上現(xiàn)金分期線下消費分期線下現(xiàn)金分期車貸單獨房貸裝修貸留學(xué)貸款信用卡抵償套現(xiàn) 等等多種場景，每種場景的模型都會有很大的區(qū)別。

圖片發(fā)自簡書App

在互聯(lián)網(wǎng)發(fā)達起來，計算機耗材性能大幅度提升，我們的評分卡不再僅僅是【紙上談兵】，開始使用更高級的技術(shù)，機器學(xué)習和深度學(xué)習
我們在之前的數(shù)據(jù)分箱清洗后，在歸一化標準化無量綱 one-hot 時間衍生，特征組合，我們還要做好單變量分析多變量相關(guān)系分析通過聚類散點圖查看一些信息特征，做估計和假設(shè)檢驗，完成統(tǒng)計學(xué)相關(guān)的操作后，我們就可以使用機器學(xué)習的套路對其進行學(xué)習，原來紙上的評分卡是沒有預(yù)測能力的，只是來個人，我看你的個人信息給你打分【樸素來說，打分打得好打的快靠心算也算是人的預(yù)測能力吧】，現(xiàn)在使用機器學(xué)習我把數(shù)據(jù)分為訓(xùn)練集和測試集，用帶標簽的訓(xùn)練集來訓(xùn)練數(shù)據(jù)，然后再用測試集來驗證結(jié)果。
那我們來說，過來申請借貸的人，本身不帶標簽target，我們怎么知道他是好人【可以償還到底】，壞人【跑路欺詐】，假如都帶上了，還要什么風控組，誰敢給帶壞標簽的人放貸，真金白金都是錢呀，真要放了，肯定是肉包子打狗一去不回頭，這個時候我們需要人為的設(shè)置標簽，一般來說我們的標簽來自這個人之前的信貸歷史，這個人至少是有個人征信記錄的，之前辦理過貸款還貸的經(jīng)歷，所以來說，單單有個人學(xué)歷居住地戶口也是不敢輕易放貸的，因為不知道你的誠信度到底深淺，當然也有本科研究生騙貸跑路的。以你的個人征信記錄做加工分析，有一個賬齡分析，一般來說 M1 30天就有個大概了，好像是80%，當然也是有遷移率，比如還著貸突然資金鏈斷了不還了，或者逾期了，經(jīng)過催賬又開始還了，中間斷斷續(xù)續(xù)，或者一直在還了好久突然人間蒸發(fā)跑了。放貸是一個長期工程，觀察期和表現(xiàn)期漫長，都知道下蛋公雞不是正經(jīng)的

圖片發(fā)自簡書App

，和普通機器學(xué)習以auc roc為評估衡量標準，評分卡的機器學(xué)習更關(guān)注 ks 值，這個ks其實就是正負樣本的區(qū)分程度，區(qū)分度越大 ks值就越大，這個ks 一般只求最大的區(qū)別最為模型的ks值，這個時候 TP TN FN FP 召回率準確率精準率 F1-score ,其實和ks 是有點類似的。

一般來說我們在使用評分卡做機器學(xué)習，或者說是用機器學(xué)習做評分卡，我們常用的模型就是邏輯回歸 GBDT DNN RNN，假如我們用邏輯回歸，我們最后得到的其實是一個判斷這個人是什么的概率或者優(yōu)勢，一般處于0-1之間，那我們?nèi)绾伟堰@個概率或者優(yōu)勢轉(zhuǎn)換為評分卡的score呢，當然也是有公式的。