1. 如何進(jìn)行句子編碼,提取句子的特征向量,有哪幾種方式(CNN、LSTM、Attention),各種方式的優(yōu)缺點(diǎn)。
CNN、LSTM、Transformer是目前流行的三大特征抽取器。
- 長距離特征捕獲能力:可以任務(wù)Transformer和LSTM在這方便能力差不多,而CNN則顯著弱于前兩者。(CNN提取長距離特征能力受到其
卷積核感受野的限制;Transformer使用attention計(jì)算距離為1,而且使用Multi-Head越多,特征捕獲能力越強(qiáng)。) - 并行計(jì)算能力:并行計(jì)算是RNN的嚴(yán)重缺陷,而Transformer和CNN差不多。
2. 介紹RNN、LSTM、GRU并比較。
RNN:
LSTM:
GRU:
總結(jié):RNN存在長依賴問題(梯度消失:使用ReLU激活函數(shù);或者梯度爆炸:使用梯度裁剪;)。LSTM使用三個(gè)門控單元(遺忘門、輸入門、輸出門)解決RNN存在的長依賴問題(主要是長依賴問題中的梯度消失問題。)。GRU簡化了LSTM的結(jié)構(gòu),使用兩個(gè)門控單元(更新門、重置門)。
3. LSTM中輸入、隱藏層、輸出層的維度都一樣嗎?
輸入的維度可以與隱藏層和輸出不同。
https://www.cnblogs.com/wushaogui/p/9176617.html
4. LSTM中步長改變,參數(shù)改變嗎?
LSTM的步長改變,對(duì)參數(shù)數(shù)量沒有影響。
5. 估計(jì)一層LSTM的參數(shù)量。
對(duì)于LSTM來說,假設(shè)你有一個(gè)時(shí)間步特征維度是,經(jīng)過該LSTM得到的維度是
,這樣就可以算出該LSTM層的神經(jīng)元個(gè)數(shù)為:
from keras.layers import LSTM
from keras.models import Sequential
time_step=13
featrue=5
hidenfeatrue=10
model=Sequential()
model.add( LSTM(hidenfeatrue,input_shape=(time_step,featrue)))
model.summary()
輸出是:
_________________________________________________________________________________
Layer (type) Output Shape Param #
=================================================================================
lstm_8 (LSTM) (None, 10) 640
=================================================================================
Total params: 640
Trainable params: 640
Non-trainable params: 0
_________________________________________________________________________________
6. textcnn和LSTM相比有什么不同?
textcnn是使用CNN做特征抽取的,提取方式類似于n-gram的特征,忽略了詞序,所以在詞序不敏感的場景效果較好。LSTM可以捕獲序列信息,在情感分析這種詞序很重要的場景中效果更好。
7. LSTM和GRU的區(qū)別,GRU具體簡化了哪個(gè)門。
GRU(更新門、重置門)是LSTM(遺忘門、輸入門、輸出門)的變種,簡化了LSTM的結(jié)構(gòu)(記憶單元)。
1. 如何做數(shù)據(jù)增強(qiáng)?
- 隨機(jī)drop和shuffle
比如:“如何評(píng)價(jià) 2017 知乎看山杯機(jī)器學(xué)習(xí)比賽?”,drop后“如何 2017 看山杯機(jī)器學(xué)習(xí)”;shuffle后“2017 機(jī)器學(xué)習(xí)?如何比賽知乎評(píng)價(jià)看山杯”。 - 同義詞替換
例如,我們將句子“我非常喜歡這部電影”改為“我非常喜歡這個(gè)影片”。 - 回譯
我們用機(jī)器翻譯把一段英語翻譯成另一種語言,然后再翻譯回英語。 - 預(yù)訓(xùn)練的語言模型
- 生成對(duì)抗網(wǎng)絡(luò)