国产9热在线观看,中文字幕日韩av

TF-IDF，最開(kāi)始用于信息檢索，在信息檢索中其計(jì)算過(guò)程如下

TF-IDF模型的主要思想是：如果詞w在一篇文檔d中出現(xiàn)的頻率高，并且在其他文檔中很少出現(xiàn)，則認(rèn)為詞w具有很好的區(qū)分能力，適合用來(lái)把文章d和其他文章區(qū)分開(kāi)來(lái)。該模型主要包含了兩個(gè)因素：TF,IDF

詞頻TF(Term Frequency)

詞w在文檔d中出現(xiàn)次數(shù)count(w, d)和文檔d中總詞數(shù)size(d)的比值：

逆向文檔頻率IDF(Inverse Document Frequency)

文檔總數(shù)n與詞w所出現(xiàn)文件數(shù)docs(w, D)比值的對(duì)數(shù):

IDF

加1是為了防止分母為0的情況

TF-IDF

TF-IDF

TF-IDF= TF * IDF ?=（詞頻*詞權(quán)）

TF-IDF與一個(gè)詞在文檔中的出現(xiàn)次數(shù)成正比，與該詞在整個(gè)語(yǔ)言中的出現(xiàn)次數(shù)成反比。所以，自動(dòng)提取關(guān)鍵詞的算法就很清楚了，就是計(jì)算出文檔的每個(gè)詞的TF-IDF值，然后按降序排列，取排在最前面的幾個(gè)詞。

一句話或者一個(gè)文檔的TF-IDF：各個(gè)詞組的TF-IDF的和

其他計(jì)算TF 、IDF的方式

TF-IDF的權(quán)值

TF-IDF算法的優(yōu)點(diǎn)是簡(jiǎn)單快速，結(jié)果比較符合實(shí)際情況。缺點(diǎn)是，單純以"詞頻"衡量一個(gè)詞的重要性，不夠全面，有時(shí)重要的詞可能出現(xiàn)次數(shù)并不多。而且，這種算法無(wú)法體現(xiàn)詞的位置信息，出現(xiàn)位置靠前的詞與出現(xiàn)位置靠后的詞，都被視為重要性相同，這是不正確的。（一種解決方法是，對(duì)全文的第一段和每一段的第一句話，給予較大的權(quán)重。）

但是但是，我們這里利用TFIDF作為特征選擇，上面的好像只是計(jì)算了一個(gè)詞和文檔的相識(shí)度的過(guò)程，如何將上面的過(guò)程轉(zhuǎn)換成特征選擇？

只需要將上面的文檔換成某一類(lèi)，就能理解一大半了。

TF（Ci，t）= ci類(lèi)中t出現(xiàn)的概率

IDF = log 文檔總數(shù)/出現(xiàn)t的文檔總數(shù)

對(duì)最后的作為選取特征的TFIDF= max （TF(Ci,t)*IDF） or avg(TF(Ci,t)*IDF) or 其他，如下方法

某綜述中看到下面的方法用于特征選擇

參考1：http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

參考2：https://en.wikipedia.org/wiki/Tf%E2%80%93idf

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

特征選擇之TF-IDF

特征選擇之TF-IDF

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

特征選擇之TF-IDF

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av