4.2 文本張量表示及新聞主題分類任務

文本張量表示方法

學習目標:

了解什么是文本張量表示及其作用.

掌握文本張量表示的幾種方法及其實現(xiàn).

1.什么是文本張量表示:

將一段文本使用張量進行表示,其中一般將詞匯為表示成向量,稱作詞向量,再由各個詞向量按順序組成矩陣形成文本表示.

舉個栗子:

["人生", "該", "如何", "起頭"]

# 每個詞對應矩陣中的一個向量

[[1.32, 4,32, 0,32, 5.2],

[3.1, 5.43, 0.34, 3.2],

[3.21, 5.32, 2, 4.32],

[2.54, 7.32, 5.12, 9.54]]

1.1文本張量表示的作用:

將文本表示成張量(矩陣)形式,能夠使語言文本可以作為計算機處理程序的輸入,進行接下來一系列的解析工作.

1.2文本張量表示的方法:

one-hot編碼

Word2vec

Word Embedding

什么是one-hot詞向量表示:

又稱獨熱編碼,將每個詞表示成具有n個元素的向量,這個詞向量中只有一個元素是1,其他元素都是0,不同詞匯元素為0的位置不同,其中n的大小是整個語料中不同詞匯的總數(shù).

舉個栗子:

["改變", "要", "如何", "起手"]

[[1, 0, 0, 0],

[0, 1, 0, 0],

[0, 0, 1, 0],

[0, 0, 0, 1]]

1.2.1onehot編碼實現(xiàn):

進行onehot編碼:

# 導入用于對象保存與加載的joblib

from sklearn.externals import joblib

# 導入keras中的詞匯映射器Tokenizer

from keras.preprocessing.text import Tokenizer

# 假定vocab為語料集所有不同詞匯集合

vocab = {"周杰倫", "陳奕迅", "王力宏", "李宗盛", "吳亦凡", "鹿晗"}

# 實例化一個詞匯映射器對象

t = Tokenizer(num_words=None, char_level=False)

# 使用映射器擬合現(xiàn)有文本數(shù)據(jù)

t.fit_on_texts(vocab)

for token in vocab:

zero_list = [0]*len(vocab)

# 使用映射器轉(zhuǎn)化現(xiàn)有文本數(shù)據(jù), 每個詞匯對應從1開始的自然數(shù)

# 返回樣式如: [[2]], 取出其中的數(shù)字需要使用[0][0]

token_index = t.texts_to_sequences([token])[0][0] - 1

zero_list[token_index] = 1

print(token, "的one-hot編碼為:", zero_list)

# 使用joblib工具保存映射器, 以便之后使用

tokenizer_path = "./Tokenizer"

joblib.dump(t, tokenizer_path)


輸出效果:

鹿晗 的one-hot編碼為: [1, 0, 0, 0, 0, 0]

王力宏 的one-hot編碼為: [0, 1, 0, 0, 0, 0]

李宗盛 的one-hot編碼為: [0, 0, 1, 0, 0, 0]

陳奕迅 的one-hot編碼為: [0, 0, 0, 1, 0, 0]

周杰倫 的one-hot編碼為: [0, 0, 0, 0, 1, 0]

吳亦凡 的one-hot編碼為: [0, 0, 0, 0, 0, 1]


one-hot編碼的優(yōu)劣勢:

優(yōu)勢:操作簡單,容易理解.

劣勢:完全割裂了詞與詞之間的聯(lián)系,而且在大語料集下,每個向量的長度過大,占據(jù)大量內(nèi)存.

說明:

正因為one-hot編碼明顯的劣勢,這種編碼方式被應用的地方越來越少,取而代之的是接下來我們要學習的稠密向量的表示方法word2vec和word embedding.

1.3 什么是word2vec:

是一種流行的將詞匯表示成向量的無監(jiān)督訓練方法, 該過程將構(gòu)建神經(jīng)網(wǎng)絡模型, 將網(wǎng)絡參數(shù)作為詞匯的向量表示, 它包含CBOW和skipgram兩種訓練模式.

1.4 CBOW(Continuous bag of words)模式:

給定一段用于訓練的文本語料, 再選定某段長度(窗口)作為研究對象, 使用上下文詞匯預測目標詞匯.

分析:

圖中窗口大小為9, 使用前后4個詞匯對目標詞匯進行預測.

1.4.1 CBOW模式下的word2vec過程說明:

假設我們給定的訓練語料只有一句話: Hope can set you free (愿你自由成長),窗口大小為3,因此模型的第一個訓練樣本來自Hope can set,因為是CBOW模式,所以將使用Hope和set作為輸入,can作為輸出,在模型訓練時, Hope,can,set等詞匯都使用它們的one-hot編碼. 如圖所示: 每個one-hot編碼的單詞與各自的變換矩陣(即參數(shù)矩陣3x5, 這里的3是指最后得到的詞向量維度)相乘之后再相加, 得到上下文表示矩陣(3x1).

接著, 將上下文表示矩陣與變換矩陣(參數(shù)矩陣5x3, 所有的變換矩陣共享參數(shù))相乘, 得到5x1的結(jié)果矩陣, 它將與我們真正的目標矩陣即can的one-hot編碼矩陣(5x1)進行損失的計算, 然后更新網(wǎng)絡參數(shù)完成一次模型迭代.

最后窗口按序向后移動,重新更新參數(shù),直到所有語料被遍歷完成,得到最終的變換矩陣(3x5),這個變換矩陣與每個詞匯的one-hot編碼(5x1)相乘,得到的3x1的矩陣就是該詞匯的word2vec張量表示.

1.4.2 skipgram模式:

給定一段用于訓練的文本語料, 再選定某段長度(窗口)作為研究對象, 使用目標詞匯預測上下文詞匯.

分析:

圖中窗口大小為9, 使用目標詞匯對前后四個詞匯進行預測.

1.4.3 skipgram模式下的word2vec過程說明:

假設我們給定的訓練語料只有一句話: Hope can set you free (愿你自由成長),窗口大小為3,因此模型的第一個訓練樣本來自Hope can set,因為是skipgram模式,所以將使用can作為輸入 ,Hope和set作為輸出,在模型訓練時, Hope,can,set等詞匯都使用它們的one-hot編碼. 如圖所示: 將can的one-hot編碼與變換矩陣(即參數(shù)矩陣3x5, 這里的3是指最后得到的詞向量維度)相乘, 得到目標詞匯表示矩陣(3x1).

接著, 將目標詞匯表示矩陣與多個變換矩陣(參數(shù)矩陣5x3)相乘, 得到多個5x1的結(jié)果矩陣, 它將與我們Hope和set對應的one-hot編碼矩陣(5x1)進行損失的計算, 然后更新網(wǎng)絡參數(shù)完成一次模 型迭代.

最后窗口按序向后移動,重新更新參數(shù),直到所有語料被遍歷完成,得到最終的變換矩陣即參數(shù)矩陣(3x5),這個變換矩陣與每個詞匯的one-hot編碼(5x1)相乘,得到的3x1的矩陣就是該詞匯的word2vec張量表示.

1.5 使用fasttext工具實現(xiàn)word2vec的訓練和使用:

第一步: 獲取訓練數(shù)據(jù)

第二步: 訓練詞向量

第三步: 模型超參數(shù)設定

第四步: 模型效果檢驗

第五步: 模型的保存與重加載

1.5.1第一步: 獲取訓練數(shù)據(jù)

# 在這里, 我們將研究英語維基百科的部分網(wǎng)頁信息, 它的大小在300M左右

# 這些語料已經(jīng)被準備好, 我們可以通過Matt Mahoney的網(wǎng)站下載.

# 首先創(chuàng)建一個存儲數(shù)據(jù)的文件夾data

$ mkdir data

# 使用wget下載數(shù)據(jù)的zip壓縮包, 它將存儲在data目錄中

$ wget -c?http://mattmahoney.net/dc/enwik9.zip?-P data

# 使用unzip解壓, 如果你的服務器中還沒有unzip命令, 請使用: yum install unzip -y

# 解壓后在data目錄下會出現(xiàn)enwik9的文件夾

$ unzip data/enwik9.zip -d data

查看原始數(shù)據(jù):

$ head -10 data/enwik9


# 原始數(shù)據(jù)將輸出很多包含XML/HTML格式的內(nèi)容, 這些內(nèi)容并不是我們需要的

<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.3/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.3/?http://www.mediawiki.org/xml/export-0.3.xsd" version="0.3" xml:lang="en">

<siteinfo>

<sitename>Wikipedia</sitename>

<base>http://en.wikipedia.org/wiki/Main_Page</base>

<generator>MediaWiki 1.6alpha</generator>

<case>first-letter</case>

<namespaces>

<namespace key="-2">Media</namespace>

<namespace key="-1">Special</namespace>

<namespace key="0" />

原始數(shù)據(jù)處理:

# 使用wikifil.pl文件處理腳本來清除XML/HTML格式的內(nèi)容

# 注: wikifil.pl文件已為大家提供

$ perl wikifil.pl data/enwik9 > data/fil9

查看預處理后的數(shù)據(jù):

# 查看前80個字符

head -c 80 data/fil9


# 輸出結(jié)果為由空格分割的單詞

anarchism originated as a term of abuse first used against early working class

1.5.2 第二步: 訓練詞向量

# 代碼運行在python解釋器中

# 導入fasttext

>>> import fasttext

# 使用fasttext的train_unsupervised(無監(jiān)督訓練方法)進行詞向量的訓練

# 它的參數(shù)是數(shù)據(jù)集的持久化文件路徑'data/fil9'

>>> model = fasttext.train_unsupervised('data/fil9')


# 有效訓練詞匯量為124M, 共218316個單詞

Read 124M words

Number of words: 218316

Number of labels: 0

Progress: 100.0% words/sec/thread: 53996 lr: 0.000000 loss: 0.734999 ETA: 0h 0m

查看單詞對應的詞向量:

# 通過get_word_vector方法來獲得指定詞匯的詞向量

>>> model.get_word_vector("the")


array([-0.03087516, 0.09221972, 0.17660329, 0.17308897, 0.12863874,

0.13912526, -0.09851588, 0.00739991, 0.37038437, -0.00845221,

...

-0.21184735, -0.05048715, -0.34571868, 0.23765688, 0.23726143],

dtype=float32)

1.5.3 第三步: 模型超參數(shù)設定

# 在訓練詞向量過程中, 我們可以設定很多常用超參數(shù)來調(diào)節(jié)我們的模型效果, 如:

# 無監(jiān)督訓練模式: 'skipgram' 或者 'cbow', 默認為'skipgram', 在實踐中,skipgram模

式在利用子詞方面比cbow更好.

# 詞嵌入維度dim: 默認為100, 但隨著語料庫的增大, 詞嵌入的維度往往也要更大.

# 數(shù)據(jù)循環(huán)次數(shù)epoch: 默認為5, 但當你的數(shù)據(jù)集足夠大, 可能不需要那么多次.

# 學習率lr: 默認為0.05, 根據(jù)經(jīng)驗, 建議選擇[0.01,1]范圍內(nèi).

# 使用的線程數(shù)thread: 默認為12個線程, 一般建議和你的cpu核數(shù)相同.

model = fasttext.train_unsupervised('../data/fil9', "cbow", dim=300, epoch=10, lr=0.1, thread=1)


Read 124M words

Number of words: 218316

Number of labels: 0

Progress: 100.0% words/sec/thread: 49523 lr: 0.000000 avg.loss: 1.777205 ETA: 0h 0m 0s

1.5.4 第四步: 模型效果檢驗

# 檢查單詞向量質(zhì)量的一種簡單方法就是查看其鄰近單詞, 通過我們主觀來判斷這些鄰近單詞是否與目標單詞相關(guān)來粗略評定模型效果好壞.


# 查找"運動"的鄰近單詞, 我們可以發(fā)現(xiàn)"體育網(wǎng)", "運動汽車", "運動服"等.

>>> model.get_nearest_neighbors('sports')


[(0.8414610624313354, 'sportsnet'), (0.8134572505950928, 'sport'), (0.8100415468215942, 'sportscars'), (0.8021156787872314, 'sportsground'), (0.7889881134033203, 'sportswomen'), (0.7863013744354248, 'sportsplex'), (0.7786710262298584, 'sporty'), (0.7696356177330017, 'sportscar'), (0.7619683146476746, 'sportswear'), (0.7600985765457153, 'sportin')]



# 查找"音樂"的鄰近單詞, 我們可以發(fā)現(xiàn)與音樂有關(guān)的詞匯.

>>> model.get_nearest_neighbors('music')


[(0.8908010125160217, 'emusic'), (0.8464668393135071, 'musicmoz'), (0.8444250822067261, 'musics'), (0.8113634586334229, 'allmusic'), (0.8106718063354492, 'musices'), (0.8049437999725342, 'musicam'), (0.8004694581031799, 'musicom'), (0.7952923774719238, 'muchmusic'), (0.7852965593338013, 'musicweb'), (0.7767147421836853, 'musico')]


# 查找"小狗"的鄰近單詞, 我們可以發(fā)現(xiàn)與小狗有關(guān)的詞匯.

>>> model.get_nearest_neighbors('dog')


[(0.8456876873970032, 'catdog'), (0.7480780482292175, 'dogcow'), (0.7289096117019653, 'sleddog'), (0.7269964218139648, 'hotdog'), (0.7114801406860352, 'sheepdog'), (0.6947550773620605, 'dogo'), (0.6897546648979187, 'bodog'), (0.6621081829071045, 'maddog'), (0.6605004072189331, 'dogs'), (0.6398137211799622, 'dogpile')]

1.5.5 第五步: 模型的保存與重加載

# 使用save_model保存模型

model.save_model("fil9.bin")


# 使用fasttext.load_model加載模型

model = fasttext.load_model("fil9.bin")

model.get_word_vector("the")


array([-0.03087516, 0.09221972, 0.17660329, 0.17308897, 0.12863874,

0.13912526, -0.09851588, 0.00739991, 0.37038437, -0.00845221,

...

-0.21184735, -0.05048715, -0.34571868, 0.23765688, 0.23726143],

dtype=float32)

1.6 什么是word embedding(詞嵌入):

通過一定的方式將詞匯映射到指定維度(一般是更高維度)的空間.

廣義的word embedding包括所有密集詞匯向量的表示方法,如之前學習的word2vec, 即可認為是word embedding的一種.

狹義的word embedding是指在神經(jīng)網(wǎng)絡中加入的embedding層, 對整個網(wǎng)絡進行訓練的同時產(chǎn)生的embedding矩陣(embedding層的參數(shù)), 這個embedding矩陣就是訓練過程中所有輸入詞匯的向量表示組成的矩陣.

以一個案例演示狹義的word_embedding的生成過程:

2.1 新聞主題分類任務

1.6.1 word embedding的可視化分析:

通過使用tensorboard可視化嵌入的詞向量.

# 導入torch和tensorboard的摘要寫入方法

import torch

import json

from torch.utils.tensorboard import SummaryWriter

# 實例化一個摘要寫入對象

writer = SummaryWriter()


# 隨機初始化一個100x5的矩陣, 認為它是我們已經(jīng)得到的詞嵌入矩陣

# 代表100個詞匯, 每個詞匯被表示成50維的向量

embedded = torch.randn(100, 50)


# 導入事先準備好的100個中文詞匯文件, 形成meta列表原始詞匯

meta = list(map(lambda x: x.strip(), fileinput.FileInput("./vocab100.csv")))

writer.add_embedding(embedded, metadata=meta)

writer.close()


在終端啟動tensorboard服務:

$ tensorboard --logdir runs --host 0.0.0.0


# 通過http://0.0.0.0:6006訪問瀏覽器可視化頁面

瀏覽器展示并可以使用右側(cè)近鄰詞匯功能檢驗效果:

小節(jié)總結(jié):

學習了什么是文本張量表示:

將一段文本使用張量進行表示,其中一般將詞匯為表示成向量,稱作詞向量,再由各個詞向量按順序組成矩陣形成文本表示.

學習了文本張量表示的作用:

將文本表示成張量(矩陣)形式,能夠使語言文本可以作為計算機處理程序的輸入,進行接下來一系列的解析工作.

學習了文本張量表示的方法:

one-hot編碼

Word2vec

Word Embedding

什么是one-hot詞向量表示:

又稱獨熱編碼,將每個詞表示成具有n個元素的向量,這個詞向量中只有一個元素是1,其他元素都是0,不同詞匯元素為0的位置不同,其中n的大小是整個語料中不同詞匯的總數(shù).

學習了onehot編碼實現(xiàn).

學習了one-hot編碼的優(yōu)劣勢:

優(yōu)勢:操作簡單,容易理解.

劣勢:完全割裂了詞與詞之間的聯(lián)系,而且在大語料集下,每個向量的長度過大,占據(jù)大量內(nèi)存.

學習了什么是word2vec:

是一種流行的將詞匯表示成向量的無監(jiān)督訓練方法, 該過程將構(gòu)建神經(jīng)網(wǎng)絡模型, 將網(wǎng)絡參數(shù)作為詞匯的向量表示, 它包含CBOW和skipgram兩種訓練模式.

學習了CBOW(Continuous bag of words)模式:

給定一段用于訓練的文本語料, 再選定某段長度(窗口)作為研究對象, 使用上下文詞匯預測目標詞匯.

學習了CBOW模式下的word2vec過程說明:

假設我們給定的訓練語料只有一句話: Hope can set you free (愿你自由成長),窗口大小為3,因此模型的第一個訓練樣本來自Hope you set,因為是CBOW模式,所以將使用Hope和set作為輸入,you作為輸出,在模型訓練時, Hope,set,you等詞匯都使用它們的one-hot編碼. 如圖所示: 每個one-hot編碼的單詞與各自的變換矩陣(即參數(shù)矩陣3x5, 這里的3是指最后得到的詞向量維度)相乘之后再相加, 得到上下文表示矩陣(3x1).

接著, 將上下文表示矩陣與變換矩陣(參數(shù)矩陣5x3, 所有的變換矩陣共享參數(shù))相乘, 得到5x1的結(jié)果矩陣, 它將與我們真正的目標矩陣即you的one-hot編碼矩陣(5x1)進行損失的計算, 然后更新網(wǎng)絡參數(shù)完成一次模型迭代.

最后窗口按序向后移動,重新更新參數(shù),直到所有語料被遍歷完成,得到最終的變換矩陣(3x5),這個變換矩陣與每個詞匯的one-hot編碼(5x1)相乘,得到的3x1的矩陣就是該詞匯的word2vec張量表示.

學習了skipgram模式:

給定一段用于訓練的文本語料, 再選定某段長度(窗口)作為研究對象, 使用目標詞匯預測上下文詞匯.

學習了skipgram模式下的word2vec過程說明:

假設我們給定的訓練語料只有一句話: Hope can set you free (愿你自由成長),窗口大小為3,因此模型的第一個訓練樣本來自Hope you set,因為是skipgram模式,所以將使用you作為輸入 ,hope和set作為輸出,在模型訓練時, Hope,set,you等詞匯都使用它們的one-hot編碼. 如圖所示: 將you的one-hot編碼與變換矩陣(即參數(shù)矩陣3x5, 這里的3是指最后得到的詞向量維度)相乘, 得到目標詞匯表示矩陣(3x1).

接著, 將目標詞匯表示矩陣與多個變換矩陣(參數(shù)矩陣5x3)相乘, 得到多個5x1的結(jié)果矩陣, 它將與我們hope和set對應的one-hot編碼矩陣(5x1)進行損失的計算, 然后更新網(wǎng)絡參數(shù)完成一次模 型迭代.

最后窗口按序向后移動,重新更新參數(shù),直到所有語料被遍歷完成,得到最終的變換矩陣即參數(shù)矩陣(3x5),這個變換矩陣與每個詞匯的one-hot編碼(5x1)相乘,得到的3x1的矩陣就是該詞匯的word2vec張量表示.

學習了使用fasttext工具實現(xiàn)word2vec的訓練和使用:

第一步: 獲取訓練數(shù)據(jù)

第二步: 訓練詞向量

第三步: 模型超參數(shù)設定

第四步: 模型效果檢驗

第五步: 模型的保存與重加載

學習了什么是word embedding(詞嵌入):

通過一定的方式將詞匯映射到指定維度(一般是更高維度)的空間.

廣義的word embedding包括所有密集詞匯向量的表示方法,如之前學習的word2vec, 即可認為是word embedding的一種.

狹義的word embedding是指在神經(jīng)網(wǎng)絡中加入的embedding層, 對整個網(wǎng)絡進行訓練的同時產(chǎn)生的embedding矩陣(embedding層的參數(shù)), 這個embedding矩陣就是訓練過程中所有輸入詞匯的向量表示組成的矩陣.

通過一個案例: 新聞主題分類任務, 演示狹義的word_embedding的生成過程.

學習了word embedding的可視化分析:

通過使用tensorboard可視化嵌入的詞向量.

在終端啟動tensorboard服務.

瀏覽器展示并可以使用右側(cè)近鄰詞匯功能檢驗效果.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容