268G+訓(xùn)練好的word2vec模型(中文詞向量)

??從網(wǎng)上了解到,很多人缺少大語(yǔ)料訓(xùn)練的word2vec模型,在此分享下使用268G+語(yǔ)料訓(xùn)練好的word2vec模型。

訓(xùn)練語(yǔ)料

image.png

模型參數(shù)

  • window=5
  • min_count=10
  • size=128
  • hs=1
  • negative=0
  • iter=5
  • ps:其它參數(shù)見gensim庫(kù),執(zhí)行代碼為:gensim.models.Word2Vec(sentence, window=5, min_count=10, size=128, workers=4,hs=1, negative=0, iter=5)

其它相關(guān)

  1. 分詞詞典使用了130w+詞典。分詞代碼:jieba.lcut(sentence),默認(rèn)使用了HMM識(shí)別新詞;
  2. 剔除了所有非中文字符;
  3. 最終得到的詞典大小為6115353;
  4. 模型格式有兩種bin和model,使用方式:
    a. bin模式:model = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=True)
    b. model模式:model = gensim.models.Word2Vec.load(model_path)
  5. 文件壓縮后大小與未壓縮相近,因此未壓縮。

下載鏈接
鏈接:https://pan.baidu.com/s/1ckkH_eT-WS4SN73Iq9Q_5A 密碼:9aza

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 模型創(chuàng)建 Gensim中 Word2Vec 模型的期望輸入是進(jìn)過(guò)分詞的句子列表,即是某個(gè)二維數(shù)組。這里我們暫時(shí)使用...
    chaaffff閱讀 2,183評(píng)論 0 5
  • 1. 導(dǎo)入 ??這是語(yǔ)言表示系列的第1篇,主要講述了分布式表示里的Word2vec方法。該系列目前暫定有4篇語(yǔ)言的...
    brucep3閱讀 3,369評(píng)論 0 5
  • 文本關(guān)鍵詞抽取,是對(duì)文本信息進(jìn)行高度凝練的一種有效手段,通過(guò)3-5個(gè)詞語(yǔ)準(zhǔn)確概括文本的主題,幫助讀者快速理解文本信...
    atLee閱讀 22,541評(píng)論 8 46
  • NLP技術(shù)已經(jīng)非常成熟,各行各業(yè)都需要有專門的NLP技術(shù)。網(wǎng)上介紹gensim的材料很多,有幾種類型: 翻譯,摘錄...
    hohoha閱讀 6,828評(píng)論 0 1
  • 溫馨的愛(之一) 昨天下午,我站在學(xué)校大門口翹首等待女兒的時(shí)候,前面也站著一位像我一樣的媽媽。我注意到了她的頭發(fā)下...
    東平糊粥兒閱讀 283評(píng)論 0 3

友情鏈接更多精彩內(nèi)容