參考??:http://blog.csdn.net/passball/article/details/7661887/?
一、線性分類(lèi)器
1、超平面 g(x)=<w,x>+b
2、線性可分:如果一個(gè)線性函數(shù)能夠?qū)颖就耆_的分開(kāi),就稱(chēng)這些數(shù)據(jù)是線性可分的,否則稱(chēng)為非線性可分的。
3、對(duì)于g(x)=<w,x>+b
? ? (1)x不是二維坐標(biāo)系中的橫軸,而是樣本的向量表示,例如一個(gè)樣本點(diǎn)的坐標(biāo)是(3,8),則xT=(3,8) ,而不是x=3(一般說(shuō)向量都是說(shuō)列向量,因此以行向量形式來(lái)表示時(shí),就加上轉(zhuǎn)置)
? ? (2)g(x)不是中間那條直線的表達(dá)式,中間那條直線的表達(dá)式是g(x)=0,即wx+b=0,我們也把這個(gè)函數(shù)叫做分類(lèi)面。實(shí)際上很容易看出來(lái),中間那條分界線并不是唯一的,我們把它稍微旋轉(zhuǎn)一下,只要不把兩類(lèi)數(shù)據(jù)分錯(cuò),仍然可以達(dá)到上面說(shuō)的效果,稍微平移一下,也可以。此時(shí)就牽涉到一個(gè)問(wèn)題,對(duì)同一個(gè)問(wèn)題存在多個(gè)分類(lèi)函數(shù)的時(shí)候,哪一個(gè)函數(shù)更好呢?顯然必須要先找一個(gè)指標(biāo)來(lái)量化“好”的程度,通常使用的都是叫做“分類(lèi)間隔”的指標(biāo)。
4、一個(gè)樣本點(diǎn)到某個(gè)超平面的間隔:δi=yi(wxi+b)
5、幾何間隔:δj=|(wxi+b)|/||w||
6、可以看出δ=||w||δ幾何。注意到幾何間隔與||w||是成反比的,因此最大化幾何間隔與最小化||w||完全是一回事。而我們常用的方法并不是固定||w||的大小而尋求最大幾何間隔,而是固定間隔(例如固定為1),尋找最小的||w||。
7、最大化幾何距離-》最小化||w||-》最小化1/2||w||^2
之所以采用這種形式,是因?yàn)楹竺娴那蠼膺^(guò)程會(huì)對(duì)目標(biāo)函數(shù)作一系列變換,而? 1/2||w||^2 的形式會(huì)使變換后的形式更為簡(jiǎn)潔(正如聰明的讀者所料,添加的系數(shù)二分之一和平方,皆是為求導(dǎo)數(shù)所需)。
8、如果直接來(lái)解這個(gè)求最小值問(wèn)題,很容易看出當(dāng)||w||=0的時(shí)候就得到了目標(biāo)函數(shù)的最小值。但是你也會(huì)發(fā)現(xiàn),無(wú)論你給什么樣的數(shù)據(jù),都是這個(gè)解!反映在圖中,就是H1與H2兩條直線間的距離無(wú)限大,這個(gè)時(shí)候,所有的樣本點(diǎn)(無(wú)論正樣本還是負(fù)樣本)都跑到了H1和H2中間,而我們?cè)镜囊鈭D是,H1右側(cè)的被分為正類(lèi),H2 左側(cè)的被分為負(fù)類(lèi),位于兩類(lèi)中間的樣本則拒絕分類(lèi)(拒絕分類(lèi)的另一種理解是分給哪一類(lèi)都有道理,因而分給哪一類(lèi)也都沒(méi)有道理)。這下可好,所有樣本點(diǎn)都進(jìn)入了無(wú)法分類(lèi)的灰色地帶。
造成這種結(jié)果的原因是在描述問(wèn)題的時(shí)候只考慮了目標(biāo),而沒(méi)有加入約束條件,約束條件就是在求解過(guò)程中必須滿足的條件,體現(xiàn)在我們的問(wèn)題中就是樣本點(diǎn)必須在H1或H2的某一側(cè)(或者至少在H1和H2上),而不能跑到兩者中間。我們前文提到過(guò)把間隔固定為1,這是指把所有樣本點(diǎn)中間隔最小的那一點(diǎn)的間隔定為1(這也是集合的間隔的定義,有點(diǎn)繞嘴),也就意味著集合中的其他點(diǎn)間隔都不會(huì)小于1,按照間隔的定義,滿足這些條件就相當(dāng)于讓下面的式子總是成立:yi[(w·xi)+b]≥1 (i=1,2,…,l) (l是總的樣本數(shù))
9、因而我們的兩類(lèi)分類(lèi)問(wèn)題也被我們轉(zhuǎn)化成了它的數(shù)學(xué)形式,一個(gè)帶約束的最小值的問(wèn)題:ob: min(1/2||w||^2),st:yi[(w·xi)+b]≥1 (i=1,2,…,l) (l是總的樣本數(shù))
在這個(gè)問(wèn)題中,自變量就是w,而目標(biāo)函數(shù)是w的二次函數(shù),所有的約束條件都是w的線性函數(shù),是一個(gè)凸二次規(guī)劃,有全局最優(yōu)解。
10、我們想求得這樣一個(gè)線性函數(shù)(在n維空間中的線性函數(shù)):
g(x)=wx+b
使得所有屬于正類(lèi)的點(diǎn)x+代入以后有g(shù)(x+)≥1,而所有屬于負(fù)類(lèi)的點(diǎn)x-代入后有g(shù)(x-)≤-1(之所以總跟1比較,無(wú)論正一還是負(fù)一,都是因?yàn)槲覀児潭碎g隔為1,注意間隔和幾何間隔的區(qū)別)。代入g(x)后的值如果在1和-1之間,我們就拒絕判斷。求這樣的g(x)的過(guò)程就是求w(一個(gè)n維向量)和b(一個(gè)實(shí)數(shù))兩個(gè)參數(shù)的過(guò)程(但實(shí)際上只需要求w,求得以后找某些樣本點(diǎn)代入就可以求得b)。因此在求g(x)的時(shí)候,w才是變量。
w不僅跟樣本點(diǎn)的位置有關(guān),還跟樣本的類(lèi)別有關(guān),w可以表示為樣本和類(lèi)別的某種組合:w=α1y1x1+α2y2x2+…+αnynxn
正在上傳...取消重新上傳
則:
正在上傳...取消重新上傳
x才是變量,進(jìn)一步:
正在上傳...取消重新上傳
二、核函數(shù):
解決線性不可分問(wèn)題的基本思路——向高維空間轉(zhuǎn)化,使其變得線性可分。
如果有這樣的函數(shù),那么當(dāng)給了一個(gè)低維空間的輸入x以后
g(x)=K(w,x)+b
f(x’)=<w',x'>+b
三、懲罰因子(松弛變量):
(允許一些點(diǎn)到分類(lèi)平面的距離不滿足原先的要求)
約束條件變?yōu)椋?a target="_blank" rel="nofollow">
正在上傳...取消重新上傳
原來(lái)的優(yōu)化問(wèn)題變?yōu)椋?/p>
正在上傳...取消重新上傳
需要注意的幾點(diǎn):
? ? 1、并非所有的樣本點(diǎn)都有一個(gè)松弛變量與其對(duì)應(yīng)。實(shí)際上只有“離群點(diǎn)”才有,或者也可以這么看,所有沒(méi)離群的點(diǎn)松弛變量都等于0(對(duì)負(fù)類(lèi)來(lái)說(shuō),離群點(diǎn)就是在前面圖中,跑到H2右側(cè)的那些負(fù)樣本點(diǎn),對(duì)正類(lèi)來(lái)說(shuō),就是跑到H1左側(cè)的那些正樣本點(diǎn))。
? ? 2、松弛變量的值實(shí)際上標(biāo)示出了對(duì)應(yīng)的點(diǎn)到底離群有多遠(yuǎn),值越大,點(diǎn)就越遠(yuǎn)。
? ? 3、懲罰因子C決定了有多重視離群點(diǎn)帶來(lái)的損失。C越大,對(duì)目標(biāo)函數(shù)的損失也越大,此時(shí)就暗示著你非常不愿意放棄這些離群點(diǎn),最極端的情況是你把C定為無(wú)限大,這樣只要稍有一個(gè)點(diǎn)離群,目標(biāo)函數(shù)的值馬上變成無(wú)限大,馬上讓問(wèn)題變成無(wú)解,這就退化成了硬間隔問(wèn)題。
? ??