詞向量-Question

1. 了解過(guò)哪些embedding技術(shù)?

  • one-hot vector

  • SVD Based Methods

    1. Word-Document Matrix
    2. Window based Co-occurrence Matrix


  • Iteration Based Methods

    1. Language Models(Unigrams, Bigrams, etc.)
    2. Continuous Bag of Words Model(CBOW)
    3. Skip-Gram Model(Skip-gram)

2. 計(jì)算相似度的方法?

  • 歐氏距離:
    dist(X,Y)=\sqrt{\sum_{i=1}^k|x_i-y_i|^2}
  • 余弦相似度:
    dist(X,Y)=\frac{\vec{A}·\vec{B}}{|\vec{A}||\vec{B}|}
  • Jaccard距離:
    Jaccard(X,Y)=\frac{A\cap B}{A\cup B}

3. tfidf有哪些優(yōu)化方法?實(shí)現(xiàn)tfidf

詞頻(TF)=\frac{某個(gè)詞在文章中的出現(xiàn)次數(shù)}{文章的總詞數(shù)}\tag{3.1}
逆文檔頻率(IDF)=log(\frac{語(yǔ)料庫(kù)的文檔總數(shù)}{包含該詞的文檔數(shù)+1})\tag{3.2}
特征維度是詞表維度。
https://www.cnblogs.com/lianyingteng/p/7755545.html

4. 基于SVD的方法有哪些?SVD分解的時(shí)間復(fù)雜度?

  • Word-Document Matrix

  • Window based Co-occurrence Matrix


  • Applying SVD to the cooccurrence matrix
    dimensions


5. skip-gram和CBOW有什么不同,哪個(gè)性能更好?

  • skip-gram:跳字模型,中心詞預(yù)測(cè)上下文詞。CBOW:連續(xù)詞袋模型,上下文詞預(yù)測(cè)中心詞。
  • skip-gram:一般使用跳字模型的中心詞向量作為詞的表征向量。CBOW:一般使用連續(xù)詞袋模型的背景詞向量作為詞的表征向量。

6. word2vec,層次softmax,用什么樹,哈夫曼樹,怎么做層次softmax?

兩種模型:Skip-gram、CBOW;兩種優(yōu)化算法:層次Softmax、負(fù)采樣。

Skip-gram:
模型:P(w_o|w_c)=\frac{exp(u_o^Tv_c)}{\sum_{i\in V}exp(u_i^Tv_c)}
似然函數(shù):\prod_{t=1}^T\prod_{-m\ge j\le m,j\ne 0}P(w^{(t+j)}|w^{(t)})
損失函數(shù):

CBOW:
模型:P(w_c|w_o)=\frac{exp(u_c^T\hat{v}_o)}{\sum_{i\in V}exp(u_i^T\hat{v}_o)}
似然函數(shù):\prod_{t=1}^TP(w^{(t)}|w^{t-m},...,w^{(t-1)},w^{(t+1)},...,w^{t+m})
損失函數(shù):

Negative Sampling:
損失函數(shù):


Hierarchical Softmax:
損失函數(shù):

霍夫曼樹:
Huffman樹(霍夫曼樹/最優(yōu)二叉樹):給定n個(gè)權(quán)值作為n個(gè)葉子節(jié)點(diǎn),則帶權(quán)路徑最小的樹稱為Huffman樹。

Huffman樹的構(gòu)造:
給定n個(gè)權(quán)值w_1,w_2,...,w_n作為二叉樹的n個(gè)葉子節(jié)點(diǎn),則以此構(gòu)造Huffman樹的算法如下所示:

  1. w_1,w_2,...,w_n看成是有n棵樹的森林(每棵樹僅有一個(gè)節(jié)點(diǎn))
  2. 從森林中選擇兩個(gè)根節(jié)點(diǎn)權(quán)值最小的樹合并,作為一棵新樹的左右子樹,且新樹的根節(jié)點(diǎn)權(quán)值為其左右子樹根節(jié)點(diǎn)權(quán)值之和
  3. 從森林中刪除被選中的兩棵樹,并且將新樹加入森林
  4. 重復(fù)2-3步,知道森林中只有一棵樹為止,則該樹即所求的Huffman樹

https://www.zybuluo.com/Dounm/note/591752

7. 當(dāng)今embedding技術(shù)有哪些挑戰(zhàn)與機(jī)遇?

word2vec、Glove、BERT、RoBERTa、XLNET...等。

1. 簡(jiǎn)單介紹一下word2vec和fasttext?

兩種詞嵌入技術(shù);

  • word2vec包含跳字模型連續(xù)詞袋模型。跳字模型假設(shè)基于中心詞來(lái)生成背景詞。連續(xù)詞袋模型假設(shè)基于背景詞來(lái)生成中心詞。而有監(jiān)督fasttext的學(xué)習(xí)目標(biāo)是人工標(biāo)注的分類結(jié)果(比如情感分類的情感標(biāo)簽)
  • word2vec只能用于無(wú)監(jiān)督訓(xùn)練,而fasttext可以用于有監(jiān)督訓(xùn)練。
  • fastText提出了子詞嵌入方法。它在word2vec中的跳字模型的基礎(chǔ)上,將中心詞向量表示成單詞的子詞向量之和。
  • 子詞嵌入利用構(gòu)詞上的規(guī)律,通??梢蕴嵘?code>生僻詞表示的質(zhì)量。

2. word2vec與glove的區(qū)別?

  • word2vec可以進(jìn)行在線學(xué)習(xí),而Glove需要統(tǒng)計(jì)固定預(yù)料信息。
  • word2vec使用交叉熵(Cross Entropy)作為損失函數(shù),而Glove的損失函數(shù)可以是最?。▽?duì)數(shù))平方函數(shù)。

3. 說(shuō)一下fasttext,有什么好處?

  • fastText提出了子詞嵌入方法。它在word2vec中的跳字模型的基礎(chǔ)上,將中心詞向量表示成單詞的子詞向量之和。
  • 子詞嵌入利用構(gòu)詞上的規(guī)律,通??梢蕴嵘г~表示的質(zhì)量。

4. 有哪些Embedding模型?

word2vec、Glove、BERT、RoBERTa、XLNET...等。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容