??從網(wǎng)上了解到,很多人缺少大語(yǔ)料訓(xùn)練的word2vec模型,在此分享下使用268G+語(yǔ)料訓(xùn)練好的word2vec模型。
訓(xùn)練語(yǔ)料:
- 百度百科800w+條,26G+
- 搜狐新聞400w+條,13G+
- 小說(shuō):229G+

image.png
模型參數(shù):
- window=5
- min_count=10
- size=128
- hs=1
- negative=0
- iter=5
- ps:其它參數(shù)見gensim庫(kù),執(zhí)行代碼為:gensim.models.Word2Vec(sentence, window=5, min_count=10, size=128, workers=4,hs=1, negative=0, iter=5)
其它相關(guān):
- 分詞詞典使用了130w+詞典。分詞代碼:jieba.lcut(sentence),默認(rèn)使用了HMM識(shí)別新詞;
- 剔除了所有非中文字符;
- 最終得到的詞典大小為6115353;
- 模型格式有兩種bin和model,使用方式:
a. bin模式:model = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=True)
b. model模式:model = gensim.models.Word2Vec.load(model_path) - 文件壓縮后大小與未壓縮相近,因此未壓縮。
下載鏈接:
鏈接:https://pan.baidu.com/s/1ckkH_eT-WS4SN73Iq9Q_5A 密碼:9aza