前言
分類就像用刀切一樣,要想盡量把兩類完全切開這就是分類器追求的目標(biāo)。SVM是一個(gè)通用的分類器。
找刀
其實(shí)就是一個(gè)找“刀”的過程。
首先看1維的
其中黃色的點(diǎn)和藍(lán)色的點(diǎn)不是一類。我們可以 理解這里的橙色的點(diǎn)就是我們需要 找的“刀”。

然后看二維的
其中黃色的點(diǎn)和藍(lán)色的點(diǎn)不是一類。我們可以 理解這里的橙色的線就是我們需要 找的“刀”。

三維的
就是面
四維的
畫不出來,叫超平面。
總之就是
意思就是用到把種類分開。盡量讓類到該去的地方。
怎么切
超平面
其實(shí)上面一節(jié)說的刀就是一個(gè)超平面。
如何解釋呢?
根據(jù)上一節(jié)的切分。
一維空間
我們可以得到一個(gè)點(diǎn),可以把兩個(gè)類別分開。我們可以寫成。
x+A=0. 或者 x=-A
二維空間
Ax+By+C=0 或者 y=-C/B-A/Bx
三維空間
Ax+By+Cz+D=0 或者 z=-A/Cx - B/Cy - D/c
可以知道,我們肯定有個(gè)低于當(dāng)前維度的一個(gè)東西把兩類東西且分開。
這個(gè)就是超平面(不完全正確解釋理解就好)。
范數(shù)
這個(gè)東西看起來高大上,其實(shí)很簡單(搞學(xué)術(shù)的毒害),下面一步一步解釋。
上面一節(jié)解釋了超平面的概念,意思就是在一個(gè)維度的空間里面可以找到一個(gè)低緯度的“超平面”把數(shù)據(jù)分開。那么怎么找到這個(gè)平面就是一個(gè)關(guān)鍵。
SVM的思路就是在分別在兩個(gè)不同類別中找到兩個(gè)點(diǎn)a.b,這兩個(gè)點(diǎn)要求是兩個(gè)類別中離超平面距離最近的點(diǎn)。然后算出兩個(gè)點(diǎn)之間的距離d,讓這個(gè)距離d最大就好了。
看圖

我們知道黃色類別中離超平面最近的是a。藍(lán)色點(diǎn)離超平面最近的是b。我們只需要a的距離超平面的距離L1與b距離超平面距離L2。使得L1+L2最大。(注意這里不是求a到b的距離)。
那么這跟范數(shù)有什么關(guān)系呢?
因?yàn)榉稊?shù)跟距離有關(guān)系。
一維
Ax+B=0

超平面就是x=-B/A
那么兩個(gè)類別集合上面的點(diǎn)距離這個(gè)X=-B/A的距離是。

其實(shí)就是 其他點(diǎn)到這個(gè)點(diǎn)的距離。
假設(shè) 藍(lán)色都是大于1的整數(shù)。 黃色都是小于-1的整數(shù)。那我們的分割點(diǎn)假設(shè)是0。那么我們藍(lán)色中距離分割點(diǎn)的最小距離是點(diǎn)是x0=1
帶入公式中。
d=1
二維
仔細(xì)觀察一下我們的二維超平面方程。

高中學(xué)過距離公式吧。

三維

好像有點(diǎn)規(guī)律。
我們很容易看出這就是一個(gè)分式,分子是g(x) (超平面方程)。分子是待定系數(shù)平方加和之后開方
像



這個(gè)分母就是范式。
寫作

那么距離公式就可以簡化。

超平面想象畫法
1、先隨意畫一個(gè)超平面X。
2、以超平面X 分裂出一個(gè)X1和一個(gè)X2。X1向一類走,X2向一類走。
3、碰到點(diǎn)就停下來,計(jì)算d.
4、重復(fù)1、2、3 找到max(d)
切不開
按照上一節(jié)的邏輯我們第一步就會遇到困難,因?yàn)橛泻芏喔揪头植婚_。
例如:

這個(gè)就很糟糕,因?yàn)檫@是一個(gè)二維圖像,我們找的超平面是1維的,而且“刀”是直線,這就很要命。根本切不開。
但是好像也給了一點(diǎn)曙光,我們看起來藍(lán)色點(diǎn)就像順著一個(gè)拋物線。那么我們肯定可以找到一個(gè) 拋物線形狀的“刀”去吧這個(gè)切開。

那怎么找到這個(gè)拋物線刀呢?肯定不是觀察法啦。我們可以升一個(gè)維度。上升一個(gè)維度后就是找面了。
現(xiàn)在假設(shè)我們的點(diǎn)都在三維空間散開。

一個(gè)面就把它切開了不是?然后把這個(gè)面投影到之前的維度。就成了我們想要的拋物線。

這個(gè)怎么做到的呢?就是核函數(shù),核函數(shù)就是負(fù)責(zé)這個(gè)。有很多核函數(shù),能力有限沒法一一解釋,但是目的很單純,就是升維這個(gè)功能。
總結(jié)
步驟
1、喂樣本數(shù)據(jù)。
2、如果線性可分,直接找出超平面。
3、如果不可分,把樣本映射到n+1維空間,找到超平面。?