原文鏈接:商業(yè)分析python實戰(zhàn)(一):企業(yè)所得稅預測
企業(yè)所得稅是企業(yè)經(jīng)營過程中的一項重點關(guān)注內(nèi)容,分析企業(yè)所得稅的影響因素,預測未來兩年有效的企業(yè)所得稅,為未來企業(yè)發(fā)展提供指導依據(jù),在企業(yè)經(jīng)營過程中有重大意義。現(xiàn)有某企業(yè)2004年至2015年相關(guān)的數(shù)據(jù),希望以此為基礎(chǔ),預測2016年及2017年的企業(yè)所得稅。
步驟
1、獲取數(shù)據(jù);
2、相關(guān)性分析;
3、Lasso特征選擇;
4、單個特征灰色預測;
5、SVR預測2016年及2017年企業(yè)所得稅,并對模型進行評價。

NO.1 獲取數(shù)據(jù)
考慮數(shù)據(jù)的可得性和與實際情況的關(guān)聯(lián)性,選取2004年-2015年某企業(yè)相關(guān)維度的數(shù)據(jù),具體字段名及說明如下表:

NO.2 分析企業(yè)所得稅數(shù)據(jù)的相關(guān)性
從已有數(shù)據(jù),可知道共有10個因素會影響企業(yè)所得稅,需要計算各影響因素與目標特征之間的相關(guān)系數(shù),進而判斷企業(yè)所得稅與選取特征之間的相關(guān)性。這里,我們計算10個特征間的Pearson相關(guān)系數(shù),結(jié)果如下:

由上可知,x6與企業(yè)所得稅(y)呈負相關(guān)關(guān)系,其余特征均與y呈正相關(guān)關(guān)系,且各個特征間存在嚴重的多重共線性,如x1,x2,x3,x4,x7,x8,x10。因此,需要對這些特征進行進一步篩選,避免信息重復。
NO.3 用Lasso回歸選取關(guān)鍵特征
Lasso回歸方法屬于正則化方法的一種,是一種收縮估計方法,它可以將特征的系數(shù)進行壓縮并使某些回歸系數(shù)變?yōu)?,從而達到特征選擇的目的。Lasso對數(shù)據(jù)類型沒有太多限制,一般不需要對數(shù)據(jù)進行標準化處理,可以有效的解決多重共線性問題,但它傾向于選擇多個特征中的一個特征,會導致結(jié)果的不穩(wěn)定性。本例中,多重共線性的問題較為嚴重,因此使用Lasso進行特征選擇是一個恰當?shù)姆椒ā?/p>

根據(jù)上圖的結(jié)果,Lasso識別的影響企業(yè)所得稅因素為x1,x9,x2。
NO.4 用灰色預測得到單特征預測值
因為各因素沒有2016年、2017年的數(shù)據(jù),因此我們需要先通過灰色預測得到單個特征在2016年、2017年的值?;疑A測是一種對含有不確定因素的系統(tǒng)進行預測的方法,具有預測精度高、模型可檢驗、參數(shù)估計方法簡單的特點,但對序列的光滑度要求較高?;疑A測通過后驗差檢驗判別模型精度,結(jié)果參照表如下:

通過GM方法進行灰色預測,x1、x2、x3的后驗差檢驗結(jié)果及在2016年、2017年的預測值如下:

NO.5 用SVR構(gòu)建預測模型
SVR(支持向量回歸)不僅適用于線性模型,也能很好的抓住數(shù)據(jù)和特征之間的非線性關(guān)系,可避免局部最小問題,但計算復雜度較高,數(shù)據(jù)量大時,耗時較長。模型預測后,可通過R2值來判斷模型效果,R2越接近1,表示模型擬合效果越好。

實現(xiàn)代碼
點擊原文(商業(yè)分析python實戰(zhàn)(一):企業(yè)所得稅預測)后臺回復“企業(yè)”可得本例數(shù)據(jù)及代碼。
參考內(nèi)容:
1、《R語言商務數(shù)據(jù)分析實戰(zhàn)》