TF-IDF,最開(kāi)始用于信息檢索,在信息檢索中其計(jì)算過(guò)程如下
TF-IDF模型的主要思想是:如果詞w在一篇文檔d中出現(xiàn)的頻率高,并且在其他文檔中很少出現(xiàn),則認(rèn)為詞w具有很好的區(qū)分能力,適合用來(lái)把文章d和其他文章區(qū)分開(kāi)來(lái)。該模型主要包含了兩個(gè)因素:TF,IDF
詞頻TF(Term Frequency)
詞w在文檔d中出現(xiàn)次數(shù)count(w, d)和文檔d中總詞數(shù)size(d)的比值:

逆向文檔頻率IDF(Inverse Document Frequency)
文檔總數(shù)n與詞w所出現(xiàn)文件數(shù)docs(w, D)比值的對(duì)數(shù):

加1是為了防止分母為0的情況
TF-IDF

TF-IDF= TF * IDF ?=(詞頻*詞權(quán))
TF-IDF與一個(gè)詞在文檔中的出現(xiàn)次數(shù)成正比,與該詞在整個(gè)語(yǔ)言中的出現(xiàn)次數(shù)成反比。所以,自動(dòng)提取關(guān)鍵詞的算法就很清楚了,就是計(jì)算出文檔的每個(gè)詞的TF-IDF值,然后按降序排列,取排在最前面的幾個(gè)詞。
一句話或者一個(gè)文檔的TF-IDF:各個(gè)詞組的TF-IDF的和
其他計(jì)算TF 、IDF的方式


TF-IDF的權(quán)值

TF-IDF算法的優(yōu)點(diǎn)是簡(jiǎn)單快速,結(jié)果比較符合實(shí)際情況。缺點(diǎn)是,單純以"詞頻"衡量一個(gè)詞的重要性,不夠全面,有時(shí)重要的詞可能出現(xiàn)次數(shù)并不多。而且,這種算法無(wú)法體現(xiàn)詞的位置信息,出現(xiàn)位置靠前的詞與出現(xiàn)位置靠后的詞,都被視為重要性相同,這是不正確的。(一種解決方法是,對(duì)全文的第一段和每一段的第一句話,給予較大的權(quán)重。)
但是但是,我們這里利用TFIDF作為特征選擇,上面的好像只是計(jì)算了一個(gè)詞和文檔的相識(shí)度的過(guò)程,如何將上面的過(guò)程轉(zhuǎn)換成特征選擇?
只需要將上面的文檔換成某一類(lèi),就能理解一大半了。
TF(Ci,t)= ci類(lèi)中t出現(xiàn)的概率
IDF = log 文檔總數(shù)/出現(xiàn)t的文檔總數(shù)
對(duì)最后的作為選取特征的TFIDF= max (TF(Ci,t)*IDF) or avg(TF(Ci,t)*IDF) or 其他,如下方法
某綜述中看到下面的方法用于特征選擇


參考1:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
參考2:https://en.wikipedia.org/wiki/Tf%E2%80%93idf