決策樹(Decision Tree)是在已知各種情況發(fā)生概率的情況下,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于0的概率,是直觀運(yùn)用概率分析的一種圖解法。通俗的講,決策樹就是帶有特殊含義的數(shù)據(jù)結(jié)構(gòu)中的樹結(jié)構(gòu),其每個(gè)根結(jié)點(diǎn)(非葉子結(jié)點(diǎn))代表數(shù)據(jù)的特征標(biāo)簽,根據(jù)該特征不同的特征值將數(shù)據(jù)劃分成幾個(gè)子集,每個(gè)子集都是這個(gè)根結(jié)點(diǎn)的子樹,然后對(duì)每個(gè)子樹遞歸劃分下去,而決策樹的每個(gè)葉子結(jié)點(diǎn)則是數(shù)據(jù)的最終類別標(biāo)簽。
理解樹,就需要理解幾個(gè)關(guān)鍵詞:根節(jié)點(diǎn)、父節(jié)點(diǎn)、子節(jié)點(diǎn)和葉子節(jié)點(diǎn)。父節(jié)點(diǎn)和子節(jié)點(diǎn)是相對(duì)的,說白了子節(jié)點(diǎn)由父節(jié)點(diǎn)根據(jù)某一規(guī)則分裂而來,然后子節(jié)點(diǎn)作為新的父親節(jié)點(diǎn)繼續(xù)分裂,直至不能分裂為止。而根節(jié)點(diǎn)是沒有父節(jié)點(diǎn)的節(jié)點(diǎn),即初始分裂節(jié)點(diǎn),葉子節(jié)點(diǎn)是沒有子節(jié)點(diǎn)的節(jié)點(diǎn),如下圖所示:

決策樹如何做決策:
銀行希望能夠通過一個(gè)人的信息(包括職業(yè)、年齡、收入、學(xué)歷)去判斷他是否有貸款的意向,從而更有針對(duì)性地完成工作。下表是銀行現(xiàn)在能夠掌握的信息,我們的目標(biāo)是通過對(duì)下面的數(shù)據(jù)進(jìn)行分析建立一個(gè)預(yù)測用戶貸款一下的模型。

如何綜合利用這些屬性去判斷用戶的貸款意向?決策樹的做法是每次選擇一個(gè)屬性進(jìn)行判斷,如果不能得出結(jié)論,繼續(xù)選擇其他屬性進(jìn)行判斷,直到能夠“肯定地”判斷出用戶的類型或者是上述屬性都已經(jīng)使用完畢。比如說我們要判斷一個(gè)客戶的貸款意向,我們可以先根據(jù)客戶的職業(yè)進(jìn)行判斷,如果不能得出結(jié)論,再根據(jù)年齡作判斷,這樣以此類推,直到可以得出結(jié)論為止。決策樹用樹結(jié)構(gòu)實(shí)現(xiàn)上述的判斷流程,如圖所示:
