K-鄰近算法
采用測量不同特征值之間的距離來進行分類
- Ad:精度高,對異常值不敏感,無數據輸入假定
- Na:計算復雜度高,空間復雜度高
KNN原理
存在樣本集,每個數據都存在標簽,輸入無標簽的新數據后,算法提取出特征最相似的標簽。
一般選取前K個數據,通常K不大于20,最后選擇K個最相似的數據中出現(xiàn)次數最多的分類,作為新數據的分類標簽。
適用
數值型和標稱型
算法流程
收集數據
any method準備數據
計算距離數值,最好為格式化的數據分析數據
any method訓練算法
不適用KNN算法測試算法
計算錯誤率使用算法
實際應用
?