BOW模型

1.BOW: Bag of words 詞袋模型。
2.Bg: 最初被用在文本分類中,將文檔表示成特征矢量。它的基本思想是假定對于一個文本,忽略其詞序和語法、句法(這也是詞袋模型的缺點),僅僅將其看做是一些詞匯的集合,而文本中的每個詞匯都是獨立的。簡單說就是講每篇文檔都看成一個袋子(因為里面裝的都是詞匯,所以稱為詞袋。
3.實例:
文檔一:Bob likes to play basketball, Jim likes too.
文檔二:Bob also likes to play football games.

首先基于這兩個文本文檔,構造一個詞典:
Dictionary = {1:”Bob”, 2. “l(fā)ike”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”,8. “games”, 9. “Jim”, 10. “too”}。

然后這個詞典一共包含10個不同的單詞,利用詞典的索引號,上面兩個文檔每一個都可以用一個10維向量表示(用整數(shù)數(shù)字0~n(n為正整數(shù))表示某個單詞在文檔中出現(xiàn)的次數(shù)):
1:[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
2:[1, 1, 1, 1 ,0, 1, 1, 1, 0, 0]

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 目的 其實,說白了就是人想知道這個文檔是做什么的。首先給每篇文章一個標簽、構建文檔的特征,然后通過機器學習算法來學...
    ledao閱讀 8,390評論 0 51
  • Bag-of-words模型是信息檢索領域常用的文檔表示方法。在信息檢索中,BOW模型假定對于一個文檔,忽略它的單...
    MiracleJQ閱讀 1,289評論 0 0
  • 自然語言處理中文本數(shù)值化表方法 詞向量是什么,自然語言理解的問題要轉化為機器學習的問題,第一步肯定是要找一種方法把...
    mugtmag閱讀 5,303評論 4 10
  • 機器學習(Machine Learning)&深度學習(Deep Learning)資料(Chapter 1) 注...
    Albert陳凱閱讀 22,889評論 9 477
  • 原諒我在《大圣歸來》下架那么久之后才來看吧!原以為看過那么多版本的西游記,再難有新的版本可以超越我心中六小齡...
    孔子曰閱讀 399評論 0 2

友情鏈接更多精彩內容