商業(yè)分析python實戰(zhàn)(一):企業(yè)所得稅預測

原文鏈接:商業(yè)分析python實戰(zhàn)(一):企業(yè)所得稅預測


企業(yè)所得稅是企業(yè)經(jīng)營過程中的一項重點關(guān)注內(nèi)容,分析企業(yè)所得稅的影響因素,預測未來兩年有效的企業(yè)所得稅,為未來企業(yè)發(fā)展提供指導依據(jù),在企業(yè)經(jīng)營過程中有重大意義。現(xiàn)有某企業(yè)2004年至2015年相關(guān)的數(shù)據(jù),希望以此為基礎(chǔ),預測2016年及2017年的企業(yè)所得稅。

步驟

1、獲取數(shù)據(jù);

2、相關(guān)性分析;

3、Lasso特征選擇;

4、單個特征灰色預測;

5、SVR預測2016年及2017年企業(yè)所得稅,并對模型進行評價。

NO.1 獲取數(shù)據(jù)

考慮數(shù)據(jù)的可得性和與實際情況的關(guān)聯(lián)性,選取2004年-2015年某企業(yè)相關(guān)維度的數(shù)據(jù),具體字段名及說明如下表:

NO.2 分析企業(yè)所得稅數(shù)據(jù)的相關(guān)性

從已有數(shù)據(jù),可知道共有10個因素會影響企業(yè)所得稅,需要計算各影響因素與目標特征之間的相關(guān)系數(shù),進而判斷企業(yè)所得稅與選取特征之間的相關(guān)性。這里,我們計算10個特征間的Pearson相關(guān)系數(shù),結(jié)果如下:

由上可知,x6與企業(yè)所得稅(y)呈負相關(guān)關(guān)系,其余特征均與y呈正相關(guān)關(guān)系,且各個特征間存在嚴重的多重共線性,如x1,x2,x3,x4,x7,x8,x10。因此,需要對這些特征進行進一步篩選,避免信息重復。

NO.3 用Lasso回歸選取關(guān)鍵特征

Lasso回歸方法屬于正則化方法的一種,是一種收縮估計方法,它可以將特征的系數(shù)進行壓縮并使某些回歸系數(shù)變?yōu)?,從而達到特征選擇的目的。Lasso對數(shù)據(jù)類型沒有太多限制,一般不需要對數(shù)據(jù)進行標準化處理,可以有效的解決多重共線性問題,但它傾向于選擇多個特征中的一個特征,會導致結(jié)果的不穩(wěn)定性。本例中,多重共線性的問題較為嚴重,因此使用Lasso進行特征選擇是一個恰當?shù)姆椒ā?/p>

根據(jù)上圖的結(jié)果,Lasso識別的影響企業(yè)所得稅因素為x1,x9,x2。

NO.4 用灰色預測得到單特征預測值

因為各因素沒有2016年、2017年的數(shù)據(jù),因此我們需要先通過灰色預測得到單個特征在2016年、2017年的值?;疑A測是一種對含有不確定因素的系統(tǒng)進行預測的方法,具有預測精度高、模型可檢驗、參數(shù)估計方法簡單的特點,但對序列的光滑度要求較高?;疑A測通過后驗差檢驗判別模型精度,結(jié)果參照表如下:

通過GM方法進行灰色預測,x1、x2、x3的后驗差檢驗結(jié)果及在2016年、2017年的預測值如下:

NO.5 用SVR構(gòu)建預測模型

SVR(支持向量回歸)不僅適用于線性模型,也能很好的抓住數(shù)據(jù)和特征之間的非線性關(guān)系,可避免局部最小問題,但計算復雜度較高,數(shù)據(jù)量大時,耗時較長。模型預測后,可通過R2值來判斷模型效果,R2越接近1,表示模型擬合效果越好。

實現(xiàn)代碼

點擊原文(商業(yè)分析python實戰(zhàn)(一):企業(yè)所得稅預測)后臺回復“企業(yè)”可得本例數(shù)據(jù)及代碼。

參考內(nèi)容:

1、《R語言商務數(shù)據(jù)分析實戰(zhàn)》

2、https://www.cnblogs.com/zinyy/p/953

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容