1. 了解過(guò)哪些embedding技術(shù)?
one-hot vector
-
SVD Based Methods
- Word-Document Matrix
-
Window based Co-occurrence Matrix
-
Iteration Based Methods
- Language Models(Unigrams, Bigrams, etc.)
- Continuous Bag of Words Model(CBOW)
- Skip-Gram Model(Skip-gram)
2. 計(jì)算相似度的方法?
- 歐氏距離:
- 余弦相似度:
- Jaccard距離:
3. tfidf有哪些優(yōu)化方法?實(shí)現(xiàn)tfidf
特征維度是詞表維度。
https://www.cnblogs.com/lianyingteng/p/7755545.html
4. 基于SVD的方法有哪些?SVD分解的時(shí)間復(fù)雜度?
Word-Document Matrix
-
Window based Co-occurrence Matrix
-
Applying SVD to the cooccurrence matrix
dimensions
5. skip-gram和CBOW有什么不同,哪個(gè)性能更好?
- skip-gram:跳字模型,中心詞預(yù)測(cè)上下文詞。CBOW:連續(xù)詞袋模型,上下文詞預(yù)測(cè)中心詞。
- skip-gram:一般使用跳字模型的中心詞向量作為詞的表征向量。CBOW:一般使用連續(xù)詞袋模型的背景詞向量作為詞的表征向量。
6. word2vec,層次softmax,用什么樹,哈夫曼樹,怎么做層次softmax?
兩種模型:Skip-gram、CBOW;兩種優(yōu)化算法:層次Softmax、負(fù)采樣。
Skip-gram:
模型:
似然函數(shù):
損失函數(shù):

CBOW:
模型:
似然函數(shù):
損失函數(shù):

Negative Sampling:
損失函數(shù):


Hierarchical Softmax:
損失函數(shù):

霍夫曼樹:
Huffman樹(霍夫曼樹/最優(yōu)二叉樹):給定n個(gè)權(quán)值作為n個(gè)葉子節(jié)點(diǎn),則帶權(quán)路徑最小的樹稱為Huffman樹。
Huffman樹的構(gòu)造:
給定個(gè)權(quán)值
作為二叉樹的
個(gè)葉子節(jié)點(diǎn),則以此構(gòu)造Huffman樹的算法如下所示:
- 將
看成是有
棵樹的森林(每棵樹僅有一個(gè)節(jié)點(diǎn))
- 從森林中選擇兩個(gè)根節(jié)點(diǎn)權(quán)值最小的樹合并,作為一棵新樹的左右子樹,且新樹的根節(jié)點(diǎn)權(quán)值為其左右子樹根節(jié)點(diǎn)權(quán)值之和
- 從森林中刪除被選中的兩棵樹,并且將新樹加入森林
- 重復(fù)2-3步,知道森林中只有一棵樹為止,則該樹即所求的Huffman樹
https://www.zybuluo.com/Dounm/note/591752
7. 當(dāng)今embedding技術(shù)有哪些挑戰(zhàn)與機(jī)遇?
word2vec、Glove、BERT、RoBERTa、XLNET...等。
1. 簡(jiǎn)單介紹一下word2vec和fasttext?
兩種詞嵌入技術(shù);
- word2vec包含
跳字模型和連續(xù)詞袋模型。跳字模型假設(shè)基于中心詞來(lái)生成背景詞。連續(xù)詞袋模型假設(shè)基于背景詞來(lái)生成中心詞。而有監(jiān)督fasttext的學(xué)習(xí)目標(biāo)是人工標(biāo)注的分類結(jié)果(比如情感分類的情感標(biāo)簽)。 - word2vec只能用于
無(wú)監(jiān)督訓(xùn)練,而fasttext可以用于有監(jiān)督訓(xùn)練。 - fastText提出了
子詞嵌入方法。它在word2vec中的跳字模型的基礎(chǔ)上,將中心詞向量表示成單詞的子詞向量之和。 - 子詞嵌入利用構(gòu)詞上的規(guī)律,通??梢蕴嵘?code>生僻詞表示的質(zhì)量。
2. word2vec與glove的區(qū)別?
- word2vec可以進(jìn)行在線學(xué)習(xí),而Glove需要統(tǒng)計(jì)固定預(yù)料信息。
- word2vec使用交叉熵(Cross Entropy)作為損失函數(shù),而Glove的損失函數(shù)可以是最?。▽?duì)數(shù))平方函數(shù)。
3. 說(shuō)一下fasttext,有什么好處?
- fastText提出了子詞嵌入方法。它在word2vec中的跳字模型的基礎(chǔ)上,將中心詞向量表示成單詞的子詞向量之和。
- 子詞嵌入利用構(gòu)詞上的規(guī)律,通??梢蕴嵘г~表示的質(zhì)量。
4. 有哪些Embedding模型?
word2vec、Glove、BERT、RoBERTa、XLNET...等。


