K近鄰 | python實現(xiàn)

01 KNN可以做點什么呢?

在李航的《統(tǒng)計學(xué)習(xí)方法》中,詳細(xì)講解了一中分類算法:K近鄰(K Nearest Neighbor),具體的算法過程和關(guān)鍵點可以參考這篇文章:

統(tǒng)計學(xué)習(xí)方法 | k近鄰法

算法的理論基礎(chǔ)有了,下一步就是自己動手去實現(xiàn)了。

今天我們的文章就是利用python去實現(xiàn)KNN算法,利用這套算法可以做什么呢?

比如,我們已經(jīng)知道一組鳶尾花的花瓣、花萼長寬以及對應(yīng)的鳶尾花品種,那么利用KNN算法,我們就可以判斷一朵擁有一定長寬的花瓣花萼屬于鳶尾花的哪個品種

同樣地,利用KNN算法,可以根據(jù)經(jīng)驗數(shù)據(jù)(訓(xùn)練集),判斷貸款客戶的風(fēng)險高低,決定是否貸款給客戶等等。

本文利用以下兩種方式在python中實現(xiàn)KNN算法:

  1. 直接調(diào)用python的sklearn包中的knn算法
  2. 自定義函數(shù)實現(xiàn)KNN算法

02 sklearn包實現(xiàn)

python自帶的sklearn包是一個非常強大的機器學(xué)習(xí)包,其中包含了knn算法,主要包含以下幾個函數(shù)。

1. 引入sklearn包中的knn類

from sklearn.neighbors import KNeighborsClassifier

2. 取得knn分類器,并使用內(nèi)置參數(shù)調(diào)整KNN三要素

knn=KNeighborsClassifier(weights="distance",n_neighbors=10)

這里說明一下此分類器各參數(shù)的意義(先了解KNN算法原理,再看參數(shù)更容易理解)

3. 使用knn.fit()對訓(xùn)練集進(jìn)行訓(xùn)練

knn.fit(),訓(xùn)練函數(shù),它是最主要的函數(shù)。接收參數(shù)只有1個,就是訓(xùn)練數(shù)據(jù)集,每一行是一個樣本,每一列是一個屬性。它返回對象本身,即只是修改對象內(nèi)部屬性,因此直接調(diào)用就可以了,后面用該對象的預(yù)測函數(shù)取預(yù)測自然及用到了這個訓(xùn)練的結(jié)果。

knn.fit(iris_x_train,iris_y_train)

4. 調(diào)用knn.predict()預(yù)測新輸入的類別

knn.predict(),預(yù)測函數(shù) 接收輸入的數(shù)組類型測試樣本,一般是二維數(shù)組,每一行是一個樣本,每一列是一個屬性。返回數(shù)組類型的預(yù)測結(jié)果。

iris_y_predict=knn.predict(iris_x_test)

5. 調(diào)用knn.predict_proba(),顯示每個測試集樣本對應(yīng)各個分類結(jié)果的概率

knn.predict_proba(),基于概率的軟判決,也是預(yù)測函數(shù),只是并不是給出某一個樣本的輸出是哪一個值,而是給出該輸出是各種可能值的概率各是多少。

knn.predict_proba(iris_x_test)

6. 調(diào)用knn.score()計算預(yù)測的準(zhǔn)確率

knn.score(),計算準(zhǔn)確率的函數(shù),接受參數(shù)有3個。輸出為一個float型數(shù),表示準(zhǔn)確率。內(nèi)部計算是按照predict()函數(shù)計算的結(jié)果記性計算的。

接收的3個參數(shù):

  • X: 接收輸入的數(shù)組類型測試樣本,一般是二維數(shù)組,每一行是一個樣本,每一列是一個屬性。
  • y: X這些預(yù)測樣本的真實標(biāo)簽,一維數(shù)組或者二維數(shù)組。
  • sample_weight=None:是一個和X一樣長的數(shù)組,表示各樣本對準(zhǔn)確率影響的權(quán)重,一般默認(rèn)為None.
score=knn.score(iris_x_test,iris_y_test,sample_weight=None)

完成!

利用sklearn實現(xiàn)KNN算法,訓(xùn)練集為130個鳶尾花的訓(xùn)練集,包含了鳶尾花的花瓣花萼長寬以及對應(yīng)的品種,輸入為20個鳶尾花的花瓣花萼長寬,輸出為這20個鳶尾花的品種預(yù)測,運行結(jié)果如下

iris_y_predict=
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa']
    
iris_y_test=
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa']

accuracy is= 95.0 %

預(yù)測結(jié)果準(zhǔn)確率為95%

完整代碼我放在了github上,歡迎交流
KNN的sklearn實現(xiàn)

03 自定義函數(shù)實現(xiàn)

下面我們升級難度,甩開別人喂到你面前的飯菜,自己動手寫一個KNN分類器。

在此之前,你需要非常了解KNN算法原理。

本KNN分類器原理如下:

  1. 計算輸入x與訓(xùn)練集各點的距離distance(這里numpy數(shù)組的元素級計算高效率凸顯?。?/p>

  2. 按distance排序,取distance最近的k個點(k為分類器參數(shù))

  3. 對k個點的類別歸類計數(shù),x歸為多數(shù)類(多數(shù)表決)

  4. 或者對k個點的類別按1/distance權(quán)重歸類計數(shù),x歸為計數(shù)大的類(加權(quán)表決)

基于上面的算法原理,下面直接給出我寫的KNN分類器代碼,此分類器特征如下:

  • 可以選擇分類決策規(guī)則(多數(shù)表決/距離加權(quán)表決)
  • 可以選擇近鄰數(shù)k
  • 使用歐氏距離度量
  • 一次只能對一個新輸入分類,這是此分類器的弊病,后續(xù)改進(jìn)算法提升點(加入for循環(huán)即可)
  • 沒有設(shè)定訓(xùn)練集數(shù)據(jù)存儲方式選擇的參數(shù),只能線性掃描(即,沒有設(shè)置kd樹存儲),因此難以處理大數(shù)據(jù)量的訓(xùn)練集

自定義KNN分類器

# newInput: 新輸入的待分類數(shù)據(jù)(x_test),本分類器一次只能對一個新輸入分類
# dataset:輸入的訓(xùn)練數(shù)據(jù)集(x_train),array類型,每一行為一個輸入訓(xùn)練集
# labels:輸入訓(xùn)練集對應(yīng)的類別標(biāo)簽(y_train),格式為['A','B']而不是[['A'],['B']]
# k:近鄰數(shù)
# weight:決策規(guī)則,"uniform" 多數(shù)表決法,"distance" 距離加權(quán)表決法

def KNNClassify(newInput, dataset, labels, k, weight):
    numSamples=dataset.shape[0]
    
    """step1: 計算待分類數(shù)據(jù)與訓(xùn)練集各數(shù)據(jù)點的距離(歐氏距離:距離差值平方和開根號)"""
    diff=np.tile(newInput,(numSamples,1)) - dataset # 凸顯numpy數(shù)組的高效性——元素級的運算
    squaredist=diff**2
    distance = (squaredist.sum(axis=1))**0.5 # axis=1,按行累加
    
    """step2:將距離按升序排序,并取距離最近的k個近鄰點"""
    # 對數(shù)組distance按升序排序,返回數(shù)組排序后的值對應(yīng)的索引值
    sortedDistance=distance.argsort() 
    
    # 定義一個空字典,存放k個近鄰點的分類計數(shù)
    classCount={}
    
    # 對k個近鄰點分類計數(shù),多數(shù)表決法
    for i in range(k):
        # 第i個近鄰點在distance數(shù)組中的索引,對應(yīng)的分類
        votelabel=labels[sortedDistance[i]]
        if weight=="uniform":
            # votelabel作為字典的key,對相同的key值累加(多數(shù)表決法)
            classCount[votelabel]=classCount.get(votelabel,0)+1 
        elif weight=="distance":
            # 對相同的key值按距離加權(quán)累加(加權(quán)表決法)
            classCount[votelabel]=classCount.get(votelabel,0)+(1/distance[sortedDistance[i]])
        else:
            print ("分類決策規(guī)則錯誤!")
            print ("\"uniform\"多數(shù)表決法\"distance\"距離加權(quán)表決法")
            break 
            
    # 對k個近鄰點的分類計數(shù)按降序排序,返回得票數(shù)最多的分類結(jié)果
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    if weight=="uniform":
        print ("新輸入到訓(xùn)練集的最近%d個點的計數(shù)為:"%k,"\n",classCount)
        print ("新輸入的類別是:", sortedClassCount[0][0])
    
    elif weight=="distance":
        print ("新輸入到訓(xùn)練集的最近%d個點的距離加權(quán)計數(shù)為:"%k,"\n",classCount)
        print ("新輸入的類別是:", sortedClassCount[0][0])
    
    return sortedClassCount[0][0]

下面對自定義的KNN分類器進(jìn)行測試,還是使用鳶尾花數(shù)據(jù)集.

1. 建立訓(xùn)練集、測試集

iris=pd.read_csv("E:\python\practice\iris.txt")
iris.head()

iris_x=iris.iloc[:,[0,1,2,3]]
iris_y=iris.iloc[:,[4]]

np.random.seed(7)
indices=np.random.permutation(len(iris_x))

iris_x_train=iris_x.iloc[indices[0:130]]
iris_y_train=iris_y.iloc[indices[0:130]]

iris_x_test=iris_x.iloc[indices[130:150]]
iris_y_test=iris_y.iloc[indices[130:150]]

# 將dataframe格式的數(shù)據(jù)轉(zhuǎn)換為numpy array格式,便于 調(diào)用函數(shù)計算
iris_x_train=np.array(iris_x_train)
iris_y_train=np.array(iris_y_train)

iris_x_test=np.array(iris_x_test)
iris_y_test=np.array(iris_y_test) 

# 將labels的形狀設(shè)置為(130,)
iris_y_train.shape=(130,)

2. 將訓(xùn)練集、測試集帶入自定義KNN分類器進(jìn)行分類

test_index=12
predict=KNNClassify(iris_x_test[test_index],iris_x_train,iris_y_train,20,"distance")
print (predict)
print ("新輸入的實際類別是:", iris_y_test[test_index])
print ("\n")

if predict==iris_y_test[test_index]:
    print ("預(yù)測準(zhǔn)確!")
else:
    print ("預(yù)測錯誤!")

隨意選擇一個測試數(shù)據(jù),預(yù)測結(jié)果如下

新輸入到訓(xùn)練集的最近20個點的距離加權(quán)計數(shù)為: 
 {'Iris-versicolor': 45.596003202769246}
新輸入的類別是: Iris-versicolor
Iris-versicolor
新輸入的實際類別是: ['Iris-versicolor']

預(yù)測準(zhǔn)確!

完整代碼我放在了github上,歡迎交流
KNN的自定義函數(shù)實現(xiàn)

04 預(yù)告

本文結(jié)合KNN算法原理,利用python實現(xiàn)了KNN,使用了兩種方式:

  1. sklearn包實現(xiàn)
  2. 自定義KNN分類器

下期將利用python實現(xiàn)樸素貝葉斯算法,敬請期待~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容