特征選擇之TF-IDF

TF-IDF,最開(kāi)始用于信息檢索,在信息檢索中其計(jì)算過(guò)程如下

TF-IDF模型的主要思想是:如果詞w在一篇文檔d中出現(xiàn)的頻率高,并且在其他文檔中很少出現(xiàn),則認(rèn)為詞w具有很好的區(qū)分能力,適合用來(lái)把文章d和其他文章區(qū)分開(kāi)來(lái)。該模型主要包含了兩個(gè)因素:TF,IDF

詞頻TF(Term Frequency)

詞w在文檔d中出現(xiàn)次數(shù)count(w, d)和文檔d中總詞數(shù)size(d)的比值:

TF

逆向文檔頻率IDF(Inverse Document Frequency)

文檔總數(shù)n與詞w所出現(xiàn)文件數(shù)docs(w, D)比值的對(duì)數(shù):


IDF

加1是為了防止分母為0的情況

TF-IDF

TF-IDF

TF-IDF= TF * IDF ?=(詞頻*詞權(quán))

TF-IDF與一個(gè)詞在文檔中的出現(xiàn)次數(shù)成正比,與該詞在整個(gè)語(yǔ)言中的出現(xiàn)次數(shù)成反比。所以,自動(dòng)提取關(guān)鍵詞的算法就很清楚了,就是計(jì)算出文檔的每個(gè)詞的TF-IDF值,然后按降序排列,取排在最前面的幾個(gè)詞。

一句話或者一個(gè)文檔的TF-IDF:各個(gè)詞組的TF-IDF的和

其他計(jì)算TF 、IDF的方式



TF-IDF的權(quán)值

TF-IDF算法的優(yōu)點(diǎn)是簡(jiǎn)單快速,結(jié)果比較符合實(shí)際情況。缺點(diǎn)是,單純以"詞頻"衡量一個(gè)詞的重要性,不夠全面,有時(shí)重要的詞可能出現(xiàn)次數(shù)并不多。而且,這種算法無(wú)法體現(xiàn)詞的位置信息,出現(xiàn)位置靠前的詞與出現(xiàn)位置靠后的詞,都被視為重要性相同,這是不正確的。(一種解決方法是,對(duì)全文的第一段和每一段的第一句話,給予較大的權(quán)重。)

但是但是,我們這里利用TFIDF作為特征選擇,上面的好像只是計(jì)算了一個(gè)詞和文檔的相識(shí)度的過(guò)程,如何將上面的過(guò)程轉(zhuǎn)換成特征選擇?

只需要將上面的文檔換成某一類(lèi),就能理解一大半了。

TF(Ci,t)= ci類(lèi)中t出現(xiàn)的概率

IDF = log 文檔總數(shù)/出現(xiàn)t的文檔總數(shù)

對(duì)最后的作為選取特征的TFIDF= max (TF(Ci,t)*IDF) or avg(TF(Ci,t)*IDF) or 其他,如下方法

某綜述中看到下面的方法用于特征選擇



參考1:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

參考2:https://en.wikipedia.org/wiki/Tf%E2%80%93idf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 這個(gè)系列的第六個(gè)主題,主要談一些搜索引擎相關(guān)的常見(jiàn)技術(shù)。 1995年是搜索引擎商業(yè)公司發(fā)展的重要起點(diǎn),《淺談推薦系...
    我偏笑_NSNirvana閱讀 6,890評(píng)論 3 24
  • 想要提取一篇文章的 關(guān)鍵詞 ,最直接的思維方式就是出現(xiàn)的越頻繁的詞就意味著越重要,但停用詞需要除外。一篇文章中出現(xiàn)...
    南極有條沙丁魚(yú)閱讀 3,458評(píng)論 0 5
  • TF-IDF(term frequency–inverse document frequency),即詞頻-逆向文...
    snoweek閱讀 1,666評(píng)論 0 0
  • 用TF-IDF算法提取關(guān)鍵詞 假設(shè)現(xiàn)在有一篇很長(zhǎng)的文章,要從中提取出它的關(guān)鍵字,完全不人工干預(yù),那么怎么做到呢?又...
    Shira0905閱讀 3,756評(píng)論 0 5
  • 1 緣起 其實(shí)開(kāi)展文本主題特征抽取這個(gè)方面的工作,已經(jīng)近一個(gè)多月了。在此之前,部門(mén)內(nèi)部對(duì)于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)這塊的...
    數(shù)據(jù)蟲(chóng)巢閱讀 9,600評(píng)論 11 59

友情鏈接更多精彩內(nèi)容