无码二专区,最色网站在线观看,激情欧美日韩一区二区

1. 了解過(guò)哪些embedding技術(shù)？

one-hot vector
SVD Based Methods
1. Word-Document Matrix
2. Window based Co-occurrence Matrix
Iteration Based Methods
1. Language Models（Unigrams, Bigrams, etc.）
2. Continuous Bag of Words Model（CBOW）
3. Skip-Gram Model（Skip-gram）

2. 計(jì)算相似度的方法？

歐氏距離：
$dist(X,Y)=\sqrt{\sum_{i=1}^k|x_i-y_i|^2}$
余弦相似度：
$dist(X,Y)=\frac{\vec{A}·\vec{B}}{|\vec{A}||\vec{B}|}$
Jaccard距離：
$Jaccard(X,Y)=\frac{A\cap B}{A\cup B}$

3. tfidf有哪些優(yōu)化方法？實(shí)現(xiàn)tfidf

$詞頻(TF)=\frac{某個(gè)詞在文章中的出現(xiàn)次數(shù)}{文章的總詞數(shù)}\tag{3.1}$
$逆文檔頻率(IDF)=log(\frac{語(yǔ)料庫(kù)的文檔總數(shù)}{包含該詞的文檔數(shù)+1})\tag{3.2}$
特征維度是詞表維度。
https://www.cnblogs.com/lianyingteng/p/7755545.html

4. 基于SVD的方法有哪些？SVD分解的時(shí)間復(fù)雜度？

Word-Document Matrix
Window based Co-occurrence Matrix
Applying SVD to the cooccurrence matrix
dimensions

5. skip-gram和CBOW有什么不同，哪個(gè)性能更好？

skip-gram：跳字模型，中心詞預(yù)測(cè)上下文詞。CBOW：連續(xù)詞袋模型，上下文詞預(yù)測(cè)中心詞。
skip-gram：一般使用跳字模型的中心詞向量作為詞的表征向量。CBOW：一般使用連續(xù)詞袋模型的背景詞向量作為詞的表征向量。

6. word2vec，層次softmax，用什么樹，哈夫曼樹，怎么做層次softmax？

兩種模型：Skip-gram、CBOW；兩種優(yōu)化算法：層次Softmax、負(fù)采樣。

Skip-gram：
模型： $P(w_o|w_c)=\frac{exp(u_o^Tv_c)}{\sum_{i\in V}exp(u_i^Tv_c)}$
似然函數(shù)： $\prod_{t=1}^T\prod_{-m\ge j\le m,j\ne 0}P(w^{(t+j)}|w^{(t)})$
損失函數(shù)：

CBOW：
模型： $P(w_c|w_o)=\frac{exp(u_c^T\hat{v}_o)}{\sum_{i\in V}exp(u_i^T\hat{v}_o)}$
似然函數(shù)： $\prod_{t=1}^TP(w^{(t)}|w^{t-m},...,w^{(t-1)},w^{(t+1)},...,w^{t+m})$
損失函數(shù)：

Negative Sampling：
損失函數(shù)：

Hierarchical Softmax：
損失函數(shù)：

霍夫曼樹：
Huffman樹（霍夫曼樹/最優(yōu)二叉樹）：給定n個(gè)權(quán)值作為n個(gè)葉子節(jié)點(diǎn)，則帶權(quán)路徑最小的樹稱為Huffman樹。

Huffman樹的構(gòu)造：
給定 $n$ 個(gè)權(quán)值 $w_1,w_2,...,w_n$ 作為二叉樹的 $n$ 個(gè)葉子節(jié)點(diǎn)，則以此構(gòu)造Huffman樹的算法如下所示：

將 $w_1,w_2,...,w_n$ 看成是有 $n$ 棵樹的森林（每棵樹僅有一個(gè)節(jié)點(diǎn)）
從森林中選擇兩個(gè)根節(jié)點(diǎn)權(quán)值最小的樹合并，作為一棵新樹的左右子樹，且新樹的根節(jié)點(diǎn)權(quán)值為其左右子樹根節(jié)點(diǎn)權(quán)值之和
從森林中刪除被選中的兩棵樹，并且將新樹加入森林
重復(fù)2-3步，知道森林中只有一棵樹為止，則該樹即所求的Huffman樹

https://www.zybuluo.com/Dounm/note/591752

7. 當(dāng)今embedding技術(shù)有哪些挑戰(zhàn)與機(jī)遇？

word2vec、Glove、BERT、RoBERTa、XLNET...等。

1. 簡(jiǎn)單介紹一下word2vec和fasttext?

兩種詞嵌入技術(shù)；

word2vec包含跳字模型和連續(xù)詞袋模型。跳字模型假設(shè)基于中心詞來(lái)生成背景詞。連續(xù)詞袋模型假設(shè)基于背景詞來(lái)生成中心詞。而有監(jiān)督fasttext的學(xué)習(xí)目標(biāo)是人工標(biāo)注的分類結(jié)果（比如情感分類的情感標(biāo)簽）。
word2vec只能用于無(wú)監(jiān)督訓(xùn)練，而fasttext可以用于有監(jiān)督訓(xùn)練。
fastText提出了子詞嵌入方法。它在word2vec中的跳字模型的基礎(chǔ)上，將中心詞向量表示成單詞的子詞向量之和。
子詞嵌入利用構(gòu)詞上的規(guī)律，通?？梢蕴嵘?code>生僻詞表示的質(zhì)量。

2. word2vec與glove的區(qū)別？

word2vec可以進(jìn)行在線學(xué)習(xí)，而Glove需要統(tǒng)計(jì)固定預(yù)料信息。
word2vec使用交叉熵（Cross Entropy）作為損失函數(shù)，而Glove的損失函數(shù)可以是最?。▽?duì)數(shù)）平方函數(shù)。

3. 說(shuō)一下fasttext，有什么好處？

fastText提出了子詞嵌入方法。它在word2vec中的跳字模型的基礎(chǔ)上，將中心詞向量表示成單詞的子詞向量之和。
子詞嵌入利用構(gòu)詞上的規(guī)律，通?？梢蕴嵘г~表示的質(zhì)量。

4. 有哪些Embedding模型？

word2vec、Glove、BERT、RoBERTa、XLNET...等。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

詞向量-Question

詞向量-Question

1. 了解過(guò)哪些embedding技術(shù)？

2. 計(jì)算相似度的方法？

3. tfidf有哪些優(yōu)化方法？實(shí)現(xiàn)tfidf

4. 基于SVD的方法有哪些？SVD分解的時(shí)間復(fù)雜度？

5. skip-gram和CBOW有什么不同，哪個(gè)性能更好？

6. word2vec，層次softmax，用什么樹，哈夫曼樹，怎么做層次softmax？

7. 當(dāng)今embedding技術(shù)有哪些挑戰(zhàn)與機(jī)遇？

1. 簡(jiǎn)單介紹一下word2vec和fasttext?

2. word2vec與glove的區(qū)別？

3. 說(shuō)一下fasttext，有什么好處？

4. 有哪些Embedding模型？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

詞向量-Question

1. 了解過(guò)哪些embedding技術(shù)？

2. 計(jì)算相似度的方法？

3. tfidf有哪些優(yōu)化方法？實(shí)現(xiàn)tfidf

4. 基于SVD的方法有哪些？SVD分解的時(shí)間復(fù)雜度？

5. skip-gram和CBOW有什么不同，哪個(gè)性能更好？

6. word2vec，層次softmax，用什么樹，哈夫曼樹，怎么做層次softmax？

7. 當(dāng)今embedding技術(shù)有哪些挑戰(zhàn)與機(jī)遇？

1. 簡(jiǎn)單介紹一下word2vec和fasttext?

2. word2vec與glove的區(qū)別？

3. 說(shuō)一下fasttext，有什么好處？

4. 有哪些Embedding模型？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1. 了解過(guò)哪些embedding技術(shù)？

3. tfidf有哪些優(yōu)化方法？實(shí)現(xiàn)tfidf

4. 基于SVD的方法有哪些？SVD分解的時(shí)間復(fù)雜度？

5. skip-gram和CBOW有什么不同，哪個(gè)性能更好？

6. word2vec，層次softmax，用什么樹，哈夫曼樹，怎么做層次softmax？

7. 當(dāng)今embedding技術(shù)有哪些挑戰(zhàn)與機(jī)遇？

2. word2vec與glove的區(qū)別？

3. 說(shuō)一下fasttext，有什么好處？

4. 有哪些Embedding模型？