色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

登錄注冊寫文章

NLP開篇:接手機器學習問題從哪里入手

對抗天網(wǎng)的小人兒

NLP開篇:接手機器學習問題從哪里入手

開始接觸一個機器學習的任務時，需要簡單的考慮：

1. 樣本數(shù)據(jù)集多大？

如果樣本集不大，可以考慮用簡單的LR、NB、KNN來解決，因為更復雜的學習算法很可能在樣本集上過擬合，反而不如簡單的分類器取得的效果好。

2. 有多少帶有標注的樣本?

目前的深度學習類有監(jiān)督學習算法對標記樣本的依賴比較嚴重，往往需要大量的相對clean的標記樣本。

無監(jiān)督學習可以獲取數(shù)據(jù)的分布情況，但往往無法精確的量化到可以產(chǎn)品實用的程度。

對于標記樣本很少，而未標記樣本很多的情況，可以考慮使用半監(jiān)督學習的方法。

3. 選取什么樣的特征？

對于分類問題，特征的維度多少會影響分類器的選擇，維度過高可能引起維數(shù)災難，并且減慢訓練測試的速度。維度過低可能會減少特征中的有用分類信息，降低檢測準確率。

Sparse Matrix

另一個需要考慮的問題是特征的稀疏性，高維的稀疏特征是可以采用一些特殊的分析分類方法（利用稀疏矩陣特性）進行解決的，也可以進行降維（PCA、SVD）而不至于損失太多有效特征。

4. Last but not the least -- 樣本的本身屬性

樣本是圖像、音頻或是文本？樣本的特征是否是可量化成數(shù)值的，或是用類別表示的屬性？如果問題可以用簡單的判斷邏輯解決，就沒有必要引入機器學習。

附上scikit-learn數(shù)據(jù)庫關于算法模型選擇的流程圖：

http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

最后編輯于：2017.12.09 21:43:06

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成，瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發(fā)布，文章內容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

相關閱讀更多精彩內容

機器學習算法小結與收割offer遇到的問題
機器學習是做NLP和計算機視覺這類應用算法的基礎，雖然現(xiàn)在深度學習模型大行其道，但是懂一些傳統(tǒng)算法的原理和它們之間...
在河之簡閱讀 20,941評論 4贊 65
淺談機器學習基礎（上）
注：題中所指的『機器學習』不包括『深度學習』。本篇文章以理論推導為主，不涉及代碼實現(xiàn)。前些日子定下了未來三年左右...
我偏笑_NSNirvana閱讀 40,596評論 12贊 145

谷歌開發(fā)者機器學習詞匯表：縱覽機器學習基本詞匯與概念
谷歌開發(fā)者機器學習詞匯表：縱覽機器學習基本詞匯與概念姓名：鐘航轉載自：http://mp.weixin.qq....
XavierZHH閱讀 2,051評論 0贊 7
開發(fā)者必看：超全機器學習術語詞匯表！
A 準確率（accuracy）分類模型預測準確的比例。在多類別分類中，準確率定義如下：在二分類中，準確率定義為...
小小孩兒的碎碎念閱讀 2,768評論 0贊 9
面向開發(fā)人員的機器學習指南
首頁資訊文章資源小組相親登錄注冊首頁最新文章 IT 職場前端后端移動端數(shù)據(jù)庫運維其他...
Helen_Cat閱讀 4,159評論 1贊 10

友情鏈接更多精彩內容

贊1贊

贊賞

手機看全文

南涧| 龙海市| 新津县| 筠连县| 鸡泽县| 蛟河市| 宝兴县| 舞钢市| 淄博市| 松滋市| 龙川县| 汉源县| 彰化县| 上饶县| 宝山区| 天津市| 尼玛县| 沿河| 徐闻县| 蒙城县| 襄垣县| 泉州市| 利辛县| 休宁县| 乌海市| 灵寿县| 沂南县| 铜鼓县| 黔西县| 鹿邑县| 根河市| 钦州市| 南汇区| 陕西省| 泰来县| 伊宁市| 柘荣县| 白山市| 荣昌县| 涡阳县| 丰原市|

<nobr id="9zjaq"><em id="9zjaq"></em></nobr>

_{<pre id="9zjaq"></pre>}