傳統(tǒng)模型——基于情感詞典
- 輸入句子,預(yù)處理
- 文本分詞
- 訓(xùn)練情感詞典(積極消極詞匯、否定詞、程度副詞等)
- 判斷規(guī)則(算法模型)
- 情感分類
文本預(yù)處理
使用正則表達(dá)式,過濾掉我們不需要的信息(如 Html 標(biāo)簽等)
句子自動(dòng)分詞
- jieba 中文分詞
- HanLp 中文分詞
- 中科院分詞
- ...
載入情感詞典
- 積極情感詞典
- 消極情感詞典
- 否定詞典
- 程度副詞詞典
文本情感分類
- 每個(gè)積極情感詞語賦予權(quán)重 1
- 每個(gè)消極情感詞語賦予權(quán)重 -1
- 否定詞會(huì)導(dǎo)致權(quán)值反號(hào)
- 程度副詞則讓權(quán)值加倍
- 最后,根據(jù)總權(quán)值的正負(fù)性來判斷句子的情感
優(yōu)化點(diǎn)
- 考慮句子的類型(祈使句、疑問句等)
- 每個(gè)詞語(考慮主語、謂語、賓語等)
- 情感詞典的自動(dòng)擴(kuò)充(無監(jiān)督式的詞頻統(tǒng)計(jì))
通過已有的模型對(duì)評(píng)論數(shù)據(jù)進(jìn)行情感分類,然后在同一類情感(積極或消極)的評(píng)論集合中統(tǒng)計(jì)各個(gè)詞語的出現(xiàn)頻率,最后將積極、消極評(píng)論集的各個(gè)詞語的詞頻進(jìn)行對(duì)比。某個(gè)詞語在積極評(píng)論集中的詞頻相當(dāng)?shù)?,在消極評(píng)論集中的詞頻相當(dāng)高,那么我們就有把握將該詞語添加到消極情感詞典中,或者說,賦予該詞語負(fù)的權(quán)值。
深度學(xué)習(xí)模型
標(biāo)準(zhǔn)模型
- 標(biāo)注語料的收集
- 模型閾值選取問題
- word2vec 將詞語轉(zhuǎn)換為向量
- CNN、RNN、LSTM 等網(wǎng)絡(luò)模型,特征抽取句子向量
算法步驟
- 分詞
- 詞向量
- 句向量(LSTM)
- 分類
分詞 OR 不分詞
“端到端”的模型:能夠直接將原始數(shù)據(jù)和標(biāo)簽輸入,然后讓模型自己完成一切過程——包括特征的提取、模型的學(xué)習(xí)。
- one hot:以字為單位,不分詞,將每個(gè)句子截?cái)酁?00字(不夠則補(bǔ)空字符串),然后將句子以“字-one hot”的矩陣形式輸入到LSTM模型中進(jìn)行學(xué)習(xí)分類
- one embedding:以字為單位,不分詞,,將每個(gè)句子截?cái)酁?00字(不夠則補(bǔ)空字符串),然后將句子以“字-字向量(embedding)“的矩陣形式輸入到LSTM模型中進(jìn)行學(xué)習(xí)分類
- word embedding:以詞為單位,分詞,,將每個(gè)句子截?cái)酁?00詞(不夠則補(bǔ)空字符串),然后將句子以“詞-詞向量(embedding)”的矩陣形式輸入到LSTM模型中進(jìn)行學(xué)習(xí)分類
更好的更新方案
設(shè)定一個(gè)閾值為0.6,那么模型對(duì)某個(gè)正樣本的輸出大于0.6,我就不根據(jù)這個(gè)樣本來更新模型了,模型對(duì)某個(gè)負(fù)樣本的輸出小于0.4,我也不根據(jù)這個(gè)樣本來更新模型了,只有在0.4~0.6之間的,才讓模型更新,這時(shí)候模型會(huì)更“集中精力”去關(guān)心那些“模凌兩可”的樣本,從而使得分類效果更好