企業(yè)歷史的物料數(shù)據(jù)呈現(xiàn)不規(guī)范狀態(tài),但是可以從網(wǎng)絡(luò)上找到一些相對規(guī)范的物料數(shù)據(jù),以下簡稱標(biāo)準(zhǔn)庫數(shù)據(jù)。
問題是,如果將企業(yè)現(xiàn)有不規(guī)范的數(shù)據(jù),利用計算機技術(shù),快速形成企業(yè)的規(guī)范數(shù)據(jù)呢?
【建立內(nèi)外部數(shù)據(jù)聯(lián)系】
首先,直接用網(wǎng)絡(luò)的標(biāo)準(zhǔn)庫物料數(shù)據(jù)是不可以的,因為內(nèi)部已經(jīng)有了相應(yīng)的習(xí)慣,無法直接替換。最好的辦法是建立聯(lián)系,就是內(nèi)部已經(jīng)用的不規(guī)范數(shù)據(jù)與標(biāo)準(zhǔn)庫數(shù)據(jù)進(jìn)行關(guān)聯(lián)。
【訓(xùn)練命名實體識別(NER)】
標(biāo)準(zhǔn)庫的數(shù)據(jù)相對結(jié)構(gòu)化,通過數(shù)據(jù)庫可以進(jìn)行保存與查詢。進(jìn)而,從中可以提煉出實體標(biāo)識,也就是利用已有的標(biāo)準(zhǔn)庫的數(shù)據(jù)進(jìn)行命名實體識別(NER)的預(yù)計訓(xùn)練。如果大家在一個圈子里,雖然標(biāo)書不太一樣,但是畢竟是物料領(lǐng)域,所以大概率能對不規(guī)范的描述完成命名實體識別(NER)。當(dāng)然,由于非定制件的存在,可能在標(biāo)準(zhǔn)庫中缺乏類似的描述,但是通過擴大標(biāo)準(zhǔn)庫的范圍,可以盡量覆蓋非標(biāo)準(zhǔn)件的語言。
利用命名實體識別(NER)技術(shù),從已有的不規(guī)范物料信息中提取關(guān)鍵信息,如物料名稱、規(guī)格、品牌等。
【明確規(guī)則的清洗】
在提取關(guān)鍵信息并計算相似度之后,如果存在同義詞等問題,可以對不規(guī)范的物料數(shù)據(jù)進(jìn)行清洗和標(biāo)準(zhǔn)化,以便更好地與您的物料庫進(jìn)行比較。這可能包括將文本轉(zhuǎn)換為小寫、刪除特殊字符、同義詞替換等操作。
【文本相似度對比】
在提取物料的關(guān)鍵信息(物料名稱、規(guī)格、品牌)后,您可以計算客戶提供的物料信息與您的物料庫中物料信息的文本相似度。這可以幫助您找到最匹配的物料??梢允褂弥T如TF-IDF、Word2Vec、BERT等文本表示方法,結(jié)合余弦相似度等相似度計算方法來實現(xiàn)。
【文本分類】
根據(jù)提取的關(guān)鍵信息和計算出的相似度,您可以使用分類或聚類方法將客戶提供的物料數(shù)據(jù)與您的物料庫進(jìn)行匹配。例如,使用支持向量機、隨機森林、神經(jīng)網(wǎng)絡(luò)等分類器,或者采用K-means、DBSCAN等聚類算法。