Profile
FullName: Support Vector Machine
vs Logistic Regression
Logistic Regression
Logistic回歸的決策邊界可以使得向量的范數(shù)盡可能小,即盡可能保證陽性事件的預(yù)測概率盡可能大,陰性事件的預(yù)測概率盡可能小
Support Vector Machine
hard-margin:找到一個超平面f(θ),使這個超平面兩邊的最近的兩個點(Support Vector)與這個超平面的距離(margin/2)最遠(yuǎn),f(θ)作為分類邊界,并且不允許有點落在margin區(qū)域內(nèi)
soft-margin:允許部分向量落在margin區(qū)域或者margin對岸,并將這些點距離margin的距離作為損失函數(shù)的一部分.
svm的數(shù)學(xué)表達(dá)
hard-margin-SVM
設(shè) margin = 2d
=>
=>
soft-margin-SVM
允許部分點越過支撐向量,越過的部分會作為損失函數(shù)的一部分,最優(yōu)值問題轉(zhuǎn)化為
以上模型成為L1正則,L2正則目標(biāo)表達(dá)式為
Kernel Function(核函數(shù),Kernel Check)
SVM可以視為求解
的最優(yōu)化問題,這個問題可以等價于它的對偶問題
有時分類邊界是非線性的,需要對x,y進(jìn)行某種變形
目標(biāo)問題可轉(zhuǎn)化為
多項式核函數(shù)
最高系數(shù)為2的多項式核函數(shù)為例,
(3)帶入(2)可得
將二次核函數(shù)推廣到一般情況,
特別地,當(dāng)c=0,d=1時候,多項式核函數(shù)可稱為線性核函數(shù)
多項式核函數(shù)可以認(rèn)為是向量點乘推廣到更一般的形式
高斯核函數(shù)
又稱RBF核(Radial Basis Function Kernel),形態(tài)如下
其中y是每一個數(shù)據(jù)點,即每一個數(shù)據(jù)點都作為landmark
由于和高斯分布的形態(tài)一致,所以得名高斯核函數(shù)
高斯核函數(shù)可以將一個m*n的樣本映射為一個m*m的樣本,是一種維度拓展的方法
越大,高斯分布越窄,越容易過擬合
越小,高斯分布越寬,越容易欠擬合
可以認(rèn)為和模型復(fù)雜度正相關(guān)