CNN+LSTM論文翻譯

17年interspeech論文地址

論文1(語音識別cnn+lstm)

摘要:

? ? ? ? 語言識別(LID)系統(tǒng)用于對給定音頻樣本中的口語進(jìn)行分類,并且通常是許多口語處理任務(wù)(如自動語音識別(ASR)系統(tǒng))的第一步。 如果沒有自動語言檢測,語音話語無法正確解析,語法規(guī)則無法應(yīng)用,導(dǎo)致后續(xù)的語音識別步驟失敗。 我們提出一個(gè)LID系統(tǒng)來解決圖像域中的問題,而不是音頻域。 我們使用混合卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN),它可以對提供的音頻片段的頻譜圖進(jìn)行操作。 我們在廣泛的實(shí)驗(yàn)中證明了這一點(diǎn)我們的模型適用于一系列嘈雜的場景,并且很容易擴(kuò)展到以前未知的語言,同時(shí)保持其分類準(zhǔn)確性。 我們發(fā)布我們的代碼和一個(gè)大規(guī)模的訓(xùn)練集LID系統(tǒng)給社區(qū)

引言:

? ? ? ? ?Siri1或Google Assistant2等智能助手依賴于ASR。目前的ASR系統(tǒng)要求用戶手動指定系統(tǒng)的正確輸入語言才能正常工作。然而,作為一個(gè)合理的預(yù)處理步驟,我們可以使用自動LID系統(tǒng)推斷口語。傳統(tǒng)的LID系統(tǒng)利用音頻信號處理領(lǐng)域的專業(yè)領(lǐng)域?qū)I(yè)知識從音頻樣本中提取手工制作的特征。最近,深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)已成為許多模式識別問題的最新技術(shù)。深度神經(jīng)網(wǎng)絡(luò)(DNN)已經(jīng)成為計(jì)算機(jī)視覺任務(wù)范圍(如圖像分類[17,18]或物體檢測和識別[14,15])的最佳執(zhí)行方法。在本文中,我們從計(jì)算機(jī)視覺的角度來解決語言識別問題。我們通過利用由卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)組成的混合網(wǎng)絡(luò)來提取給定音頻樣本的目標(biāo)語言。我們的貢獻(xiàn)可以總結(jié)如下:(1)我們提出一個(gè)混合CRNN,合并CNNs具有捕獲RNNs時(shí)間特征能力的描述能力。 (2)我們對我們提出的網(wǎng)絡(luò)進(jìn)行了廣泛的實(shí)驗(yàn),并且展示了它適用于一系列場景及其對于新語言的可擴(kuò)展性。(3)我們發(fā)布我們的代碼和LID系統(tǒng)的大規(guī)模訓(xùn)練集3

? ? ? ? 僅基于對MelFrequencyCepstral Coefficients(MFCC)等輸入特征應(yīng)用神經(jīng)網(wǎng)絡(luò)的方法表明,它們達(dá)到了最先進(jìn)的結(jié)果,而不那么復(fù)雜。目前對使用DNN的語言識別系統(tǒng)的研究主要集中在使用不同形式的LSTM,關(guān)于變換音頻數(shù)據(jù)的輸入序列。 Zazo等人文獻(xiàn)[19]使用Mel頻率倒譜系數(shù)和增量Delta系數(shù)(MFCC-SDC)特征作為其單向LSTM的輸入,該直接連接到softmax分類器。 softmax分類器的最后預(yù)測包含預(yù)測的語言。 Gelly等人。 [5]使用BLSTM網(wǎng)絡(luò)從輸入中捕獲語言信息(音頻轉(zhuǎn)換為感知線性預(yù)測(PLP)系數(shù)及其一階和二階導(dǎo)數(shù))。所得到的序列特征被融合在一起并用于分類輸入樣本的語言。兩種方法都只考慮功能序列作為其網(wǎng)絡(luò)的輸入。 Lozano-Diez等人[10]在CNN的幫助下進(jìn)行語言識別。作者將輸入數(shù)據(jù)轉(zhuǎn)換為包含MFCC-SDC特征的圖像。該圖像的x軸表示時(shí)域,y軸表示單個(gè)頻率點(diǎn)。除了使用CNN對輸入語言進(jìn)行簡單分類之外,他們還使用CNN作為身份向量的特征提取器。作者在結(jié)合CNN特征和身份向量時(shí)可獲得更好的性能。我們的研究與以上提到的作品不同之處在于:(1)我們利用基于VGG [17]或Inception-v3 [18]架構(gòu)的強(qiáng)卷積特征提取器。 (2)我們使用提取的卷積特征

輸入到BLSTM并僅基于深度模型生成我們的預(yù)測。

? ? ? ? 為了使我們收集的數(shù)據(jù)與我們的LID系統(tǒng)兼容,我們需要做一些預(yù)處理。作為第一步,我們將所有音頻文件編碼為未壓縮的無損WAVE格式,因?yàn)檫@種格式允許進(jìn)行未經(jīng)處理的操作,而不會使信號質(zhì)量出現(xiàn)任何劣化。為了將我們的音頻片段視為圖像,我們需要將數(shù)據(jù)傳輸?shù)綀D像域。我們將音頻數(shù)據(jù)轉(zhuǎn)換為光譜圖表示以訓(xùn)練我們的模型。頻譜圖使用Hann [2]窗口和沿頻率軸(y軸)的129個(gè)頻率倉進(jìn)行離散化。由于大多數(shù)英語語音在對話語音中不超過3 kHz,因此我們只在頻譜圖中包含高達(dá)5 kHz的頻率。時(shí)間軸(x軸)呈現(xiàn)為每秒50個(gè)像素。我們將每個(gè)音頻序列分成不重疊的十秒段,并丟棄所有短于十秒的段,因?yàn)槲覀儾幌胍胩畛?,這可能類似于非自然的暫?;虺聊?。生成的圖像保存為灰度,無損500×129 PNG文件,頻率強(qiáng)度映射到8位灰度范圍

結(jié)構(gòu):

? ? ? 對于我們的網(wǎng)絡(luò)架構(gòu),我們遵循Shi等人提出的網(wǎng)絡(luò)的整體結(jié)構(gòu)。 [16]在他們的現(xiàn)場文字識別工作。這個(gè)網(wǎng)絡(luò)體系結(jié)構(gòu)由兩部分組成。第一部分是卷積特征提取器,它將音頻文件的光譜圖像表示作為輸入(參見第3.2節(jié))。該特征提取器分幾步卷積輸入圖像,并生成高度為1的特征圖。該特征映射沿著x軸切片,并且每個(gè)切片被用作隨后的BLSTM網(wǎng)絡(luò)的時(shí)間步驟。卷積特征提取器的設(shè)計(jì)基于眾所周知的VGG體系結(jié)構(gòu)[17]。我們的網(wǎng)絡(luò)使用5個(gè)卷積層,其中每個(gè)層次都跟隨著ReLU激活函數(shù)[12],BatchNormalization [8]和2×2最大匯集,步長為2.每個(gè)卷積層的內(nèi)核大小和濾波器數(shù)量分別為7×7,16),(5×5,32),(3×3,64),(3×3,128),(3×3,256)。 BLSTM由兩個(gè)單獨(dú)的LSTM組成,每個(gè)單元具有256個(gè)輸出單元。我們將兩個(gè)輸出連接到一個(gè)512維矢量,并將其輸入到具有4/6輸出單元作為分類器的完全連接層。圖1提供了網(wǎng)絡(luò)架構(gòu)的示意圖

環(huán)境:

? ? ? ? ?我們使用Keras [3]和Tensorflow [1]實(shí)現(xiàn)了我們提出的模型,后端。 我們將數(shù)據(jù)集分成培訓(xùn)(70%),驗(yàn)證(20%)和一個(gè)測試集(10%),所有文件在語言之間平均分配。歐洲語音數(shù)據(jù)集共產(chǎn)生大約19 000個(gè)訓(xùn)練圖像,

這相當(dāng)于大約53個(gè)小時(shí)的語音音頻。 YouTube新聞數(shù)據(jù)集共產(chǎn)生約194 000個(gè)訓(xùn)練圖像,或540小時(shí)的語音音頻。

為了訓(xùn)練我們的網(wǎng)絡(luò),我們使用了Adam [9]的優(yōu)化器并使用在微調(diào)期間使用隨機(jī)梯度下降。 我們觀察到以下情況

指標(biāo):準(zhǔn)確度,召回率,精確度和F1分?jǐn)?shù)。 我們指出使用的網(wǎng)絡(luò)按照以下方式:(1)CNN - 僅由提議的網(wǎng)絡(luò)組成的網(wǎng)絡(luò)卷積特征提取器沒有經(jīng)常性部分。 (2)CRNN - 從3.3節(jié)提出混合CRNN模型。

結(jié)論:

? ? 在本文中,我們提出了一種語言識別系統(tǒng),它解決了圖像域中的語言識別問題,而不是音頻域。 我們提出了一種由卷積特征提取器和RNN組成的混合CRNN,該RNN結(jié)合隨時(shí)間提取的特征。 使用這種架構(gòu),我們對不同的數(shù)據(jù)集進(jìn)行了多次實(shí)驗(yàn),以展示我們的模型對各種場景的廣泛適用性及其對新語言的可擴(kuò)展性。 為了彌補(bǔ)缺乏免費(fèi)提供的語言識別數(shù)據(jù)集,我們從中收集了超過1508個(gè)小時(shí)的音頻數(shù)據(jù)歐盟語音知識庫和YouTube,并將其提供給研究界

論文2(emotion-cnn+blstm)

摘要:在這項(xiàng)工作中,我們設(shè)計(jì)了一個(gè)神經(jīng)網(wǎng)絡(luò)來識別語音中的情緒,使用標(biāo)準(zhǔn)的IEMOCAP數(shù)據(jù)集。 在音頻分析的最新進(jìn)展之后,我們使用了一個(gè)涉及卷積層的體系結(jié)構(gòu),從原始譜圖中提取高級特征,以及用于匯總長期相關(guān)性的經(jīng)常性特征。應(yīng)用數(shù)據(jù)增強(qiáng)技術(shù),分層學(xué)習(xí)速率調(diào)整和批量歸一化, 競爭結(jié)果,對四種情緒具有64:5%的加權(quán)準(zhǔn)確性和61:7%的非加權(quán)準(zhǔn)確性。 此外,我們表明模型的表現(xiàn)與標(biāo)簽置信度密切相關(guān),這凸顯了情感識別的基本困難。

引言:

在人與機(jī)器之間提供高質(zhì)量的交互是一個(gè)非常具有挑戰(zhàn)性和活躍的研究領(lǐng)域,具有眾多應(yīng)用。 這個(gè)領(lǐng)域的一個(gè)重要部分是通過計(jì)算機(jī)系統(tǒng)來識別人類的言語情緒。 在過去的幾年中,通過深度學(xué)習(xí)(Amodei等,2015; Medennikov等,2016; Saon等,2016; Liptchinsky等,2017)在語音識別方面取得了令人矚目的進(jìn)展。 這些成就還包括對語音情感識別(SER)的重要結(jié)果,參見例如 (Kim等,2013; Lee&Tashev,2015; Sattet等,2017)。

在這項(xiàng)工作中,我們?yōu)镮EMOCAP數(shù)據(jù)集上的SER構(gòu)建了一個(gè)神經(jīng)網(wǎng)絡(luò)(Busso et al。,2008),并取得了與現(xiàn)有技術(shù)水平極具競爭力的結(jié)果。 1在深度學(xué)習(xí)中處理SER問題時(shí),可以創(chuàng)建用作神經(jīng)網(wǎng)絡(luò)輸入的手工聲學(xué)特征(MFCC,音高,能量,ZCR ...),或者在一些預(yù)處理后發(fā)送數(shù)據(jù)(例如傅立葉變換),直接到神經(jīng)網(wǎng)絡(luò)。我們通過將音頻信號轉(zhuǎn)換為頻譜圖來應(yīng)用第二種策略,該頻譜圖然后被用作卷積層的輸入,然后是經(jīng)常性的。這種最近表現(xiàn)出非常有競爭力的表現(xiàn)的建筑學(xué)選擇(Amodei等,2015; Satt等,2017),受到以下事實(shí)的啟發(fā):訓(xùn)練深長的短期記憶(LSTM,(Hochreiter&Schmidhuber, 1997))或門控線性單元(GRU,(Cho et al。,2014))網(wǎng)絡(luò)非常困難。從這個(gè)意義上說,在網(wǎng)絡(luò)開始階段添加少量卷積層是降低數(shù)據(jù)維數(shù)的有效方法,并且可以顯著簡化訓(xùn)練過程。另一方面,也可以使用深CNN來提取高級特征,然后將其饋送到RNN用于最終時(shí)間聚合。我們針對卷積(1-6層)和復(fù)發(fā)模塊(1-4)測試了各種不同深度的體系結(jié)構(gòu),在4 + 1場景中實(shí)現(xiàn)最佳分?jǐn)?shù)2。為了解決類別失衡和數(shù)據(jù)稀缺的挑戰(zhàn),我們研究了數(shù)據(jù)增強(qiáng)的聲道長度擾動,并證明它改善了性能。根據(jù)(Laurent等,2016; Amodei等,2015; Cooijmans等,2016; Ba等,2016),我們將批量歸一化應(yīng)用于復(fù)發(fā)層并分析其對所考慮數(shù)據(jù)的作用。我們證明,即使保守地應(yīng)用批量規(guī)范化,它仍可能導(dǎo)致數(shù)據(jù)失真,導(dǎo)致更快的過度擬合和性能下降。我們還使用軟標(biāo)簽來反映這樣一個(gè)事實(shí),即可以將多個(gè)標(biāo)簽分配給IEMOCAP數(shù)據(jù)集的每個(gè)樣本。雖然我們沒有設(shè)法通過考慮這些信息來獲得更好的結(jié)果,但我們證明了該模型的明確依賴性

表現(xiàn)在數(shù)據(jù)標(biāo)簽上的信心。最后,我們的實(shí)驗(yàn)表明,每層學(xué)習(xí)速率調(diào)整似乎是模型性能的關(guān)鍵因素,這可能與特定的體系結(jié)構(gòu)選擇或更一般的現(xiàn)象有關(guān)。

數(shù)據(jù)集描述:

? ? ? ? 在南加州大學(xué)(USC)收集的IEMOCAP(交互式情緒二進(jìn)制動作捕捉)(Busso等人,2008)是用于情緒識別的標(biāo)準(zhǔn)數(shù)據(jù)集之一。它由十名專業(yè)演員(五名女性和五名男性)進(jìn)行了十二小時(shí)的音頻和視頻錄制,并在不同性別的兩位演員之間進(jìn)行了五次對話,不論是演奏劇本還是即興演奏。該數(shù)據(jù)集還提供文本對應(yīng)于記錄和臉部圖像。但是,在這項(xiàng)工作中,我們只處理音頻數(shù)據(jù)。音頻集的每個(gè)樣本都是與情緒標(biāo)簽關(guān)聯(lián)的話語。標(biāo)記由USC的六名學(xué)生制作,每次三個(gè),每次發(fā)表一次。如果有必要,注釋者被允許分配多個(gè)標(biāo)簽。如果具有最高票數(shù)的情感類別是獨(dú)特的,則每個(gè)話語的最終真實(shí)標(biāo)簽由多數(shù)票選出。由于注釋者在標(biāo)注即興創(chuàng)作時(shí)(83.1%)比腳本創(chuàng)作者(66.9%)(Busso et al。,2008)更經(jīng)常達(dá)成共識,因此我們只關(guān)注即興創(chuàng)作的數(shù)據(jù)集部分。為了與最先進(jìn)的方法進(jìn)行比較,我們預(yù)測了四種最具代表性的情緒:中性,悲傷,憤怒和快樂,這給我們留下了2280個(gè)話語。

語譜圖:

? ? ??這里我們簡要討論我們使用的數(shù)據(jù)預(yù)處理。 該信號通過具有16kHz上限截止頻率的短時(shí)傅里葉變換(STFT)和Hann開窗(這是用于右波段頻譜分析的標(biāo)準(zhǔn)選擇)被轉(zhuǎn)換為頻譜圖:

語音增強(qiáng):

? ? ? ?處理IEMOCAP數(shù)據(jù)集時(shí)遇到的主要困難之一是類別不平衡(見圖1)。最豐富的類對應(yīng)于中性情緒。此外,假設(shè)情緒中性言語可以作為標(biāo)記情緒的背景出現(xiàn)在其他話語中是合理的。這增強(qiáng)了區(qū)分中性和其他情緒的挑戰(zhàn)。 (Lee&Tashev,2015)中提出了一個(gè)有趣的方法來解決這個(gè)問題。根據(jù)連接主義時(shí)間分類(CTC)方法(Graves et al。2006)的精神,作者為每個(gè)時(shí)間步長分配一個(gè)隨機(jī)標(biāo)簽,取值為話語或?qū)?yīng)于非情感框架的空標(biāo)簽,以這種方式建??梢猿霈F(xiàn)在話語中的其他情緒。通過期望最大化算法進(jìn)行訓(xùn)練,作者將加權(quán)和未加權(quán)的精確度提高了2-3%。另一種方法已應(yīng)用于(Satt等,2017),其中預(yù)測程序分兩步實(shí)現(xiàn)。在主要模型預(yù)測中性情緒的情況下,話語被引導(dǎo)至在中性和其他情緒之一之間執(zhí)行二元分類的另外三個(gè)模型。這種策略導(dǎo)致未加權(quán)準(zhǔn)確性增加2.5%,但反過來將加權(quán)準(zhǔn)確性降低了1.5%。除了類別失衡之外,IEMOCAP數(shù)據(jù)集還存在另一個(gè)主要缺點(diǎn):它比較小,這使得驗(yàn)證過程不穩(wěn)定。為了應(yīng)對這兩種障礙,我們通過聲道長度擾動(VTLP)檢查了數(shù)據(jù)增強(qiáng),同時(shí)對數(shù)據(jù)集中表現(xiàn)最差的類別 - 快樂和憤怒進(jìn)行了過采樣。 VTLP基于(Lee&Rose,1998)中所考慮的說話人正規(guī)化技術(shù),該技術(shù)的實(shí)施旨在減少說話者間的差異。人耳聲道長度的差異可以通過在頻率軸上重新定標(biāo)有效成分的峰值來進(jìn)行建模,其因子α取大概范圍內(nèi)的值(0:9; 1:1)。因此,為了擺脫這種可變性,應(yīng)該估計(jì)每個(gè)說話者的因子并相應(yīng)地對譜圖進(jìn)行歸一化。相反地??,相同的想法可以用于數(shù)據(jù)增強(qiáng)(Jaitly&Hinton,2013; Cui等,2014; Harutyunyan&Sanogh,2016):為了產(chǎn)生新的樣本,人們必須執(zhí)行原始譜圖的重新縮放沿著頻率軸,同時(shí)保持比例因子在范圍內(nèi)(0:9; 1:1)。兩種方法,歸一化和增強(qiáng),都追求相同的目標(biāo):強(qiáng)化模型對說話者相關(guān)特征的不變性,因?yàn)樗鼈兣c分類標(biāo)準(zhǔn)無關(guān)。然而,增強(qiáng)更容易實(shí)現(xiàn),因?yàn)槲覀儾恍枰烙?jì)每個(gè)揚(yáng)聲器的縮放因子,因此我們堅(jiān)持這個(gè)選項(xiàng)。頻率的重新調(diào)整如下進(jìn)行

我們嘗試了兩種數(shù)據(jù)增強(qiáng)策略。在第一種情況下,在每個(gè)時(shí)期對單個(gè)均勻分布的值α2(0:9; 1:1)進(jìn)行采樣,并用于對所有訓(xùn)練樣例進(jìn)行重新縮放,并且沒有重新縮放應(yīng)用于驗(yàn)證集。在第二個(gè)策略中,每個(gè)頻譜圖都重新調(diào)整了單獨(dú)生成的α值以用于訓(xùn)練以及驗(yàn)證集。為了評估,我們在α= 0:9的測試集的11個(gè)副本上使用了模型預(yù)測的多數(shù)票; 0:92; 0:94; :::; 1:1。我們介紹了第二次增強(qiáng)策略獲得的分?jǐn)?shù),它提供了最好的結(jié)果。

模型的描述和實(shí)驗(yàn):

? ? ? ?如上所述,IEMOCAP數(shù)據(jù)集由五個(gè)會話組成,每個(gè)會話是一個(gè)男人和一個(gè)女人之間的對話,共有10個(gè)發(fā)言者。 為了了解該模型對不同演講者的推廣情況,我們將驗(yàn)證和測試集合對應(yīng)于其中一個(gè)會話的兩個(gè)不同發(fā)言人。 訓(xùn)練集由剩余的四場會議組成。 在實(shí)驗(yàn)過程中,我們觀察到性能在很大程度上取決于為測試集選擇了哪些揚(yáng)聲器(請參見表2)。 因此,我們選擇10倍交叉驗(yàn)證策略,以平均測試集的所有可能選擇。 有趣的是,據(jù)我們所知,在IEMOCAP數(shù)據(jù)集上報(bào)告的所有其他結(jié)果都是通過5倍交叉驗(yàn)證獲得的。 在這種情況下,驗(yàn)證和測試集的選擇并不嚴(yán)格定義和分?jǐn)?shù)

? ? ??這樣得到的結(jié)果是不可能與之比較的。為了評估模型的性能,我們選擇了加權(quán)(WA)和未加權(quán)(UA)的精度。 WA是在整個(gè)測試集上計(jì)算的標(biāo)準(zhǔn)精度。 UA是分別針對每種情緒計(jì)算的平均精度。首先,我們計(jì)算每個(gè)折疊的度量標(biāo)準(zhǔn),然后將所有折疊的平均值作為分?jǐn)?shù)。由于對于不平衡的數(shù)據(jù)集,UA是一個(gè)更相關(guān)的特征,我們相當(dāng)集中努力獲得高UA,與IEMOCAP上的大多數(shù)其他作品一致。我們考慮了具有1-6個(gè)卷積層,1-4個(gè)Bi-LSTM層和在網(wǎng)絡(luò)頂部具有softmax非線性的密集層的架構(gòu)(參見圖3)。作為優(yōu)化程序,我們使用了Nesterov動量的隨機(jī)梯度下降。對于權(quán)重的正則化,我們使用L2正則化。由于在數(shù)據(jù)樣本中的重大變化時(shí)間長度(對于窗口大小N = 64ms和偏移S = 32ms,從21到909個(gè)時(shí)間步長),我們沿時(shí)間軸執(zhí)行采樣的零填充。為了避免Bi-LSTM人工添加時(shí)間步驟的聚集,我們在卷積和BiLSTM模塊之間放置了一個(gè)掩模層。掩模的大小是從相應(yīng)頻譜圖的時(shí)間大小以及卷積步幅的作用導(dǎo)出的。最后,我們根據(jù)數(shù)據(jù)集的一般統(tǒng)計(jì)數(shù)據(jù)對樣本進(jìn)行歸一化處理:

? ? ? ? 其中x ^和σ是在時(shí)間和頻率軸上的整個(gè)數(shù)據(jù)集上計(jì)算的頻譜圖像素的平均值和標(biāo)準(zhǔn)偏差。這種歸一化顯著地提高了模型的收斂時(shí)間。然而,應(yīng)用于小深度網(wǎng)絡(luò)(≤2個(gè)卷積層),導(dǎo)致了較強(qiáng)的過擬合。如上所述,我們進(jìn)行了各種不同深度的卷積和BiLSTM模塊的實(shí)驗(yàn)我們研究了不同的情景:“淺CNN +深Bi-LSTM”,“深CNN +淺Bi-LSTM”和“深CNN +深層”,并且在實(shí)驗(yàn)開始時(shí)被丟棄。碧LSTM”。通過選擇4個(gè)卷積和1個(gè)Bi-LSTM層可以獲得最好的結(jié)果。在表1中,我們給出了最佳模型的結(jié)果以及對所應(yīng)用技術(shù)性能的貢獻(xiàn)??梢钥闯?,過采樣允許UA增加0:9%,但是導(dǎo)致WA降低3:2%。使用VTLP進(jìn)行數(shù)據(jù)增加會導(dǎo)致這兩個(gè)指標(biāo)的增加UA和WA相應(yīng)地分別為0:9%和1:7%。我們在本節(jié)中討論,通過對網(wǎng)絡(luò)進(jìn)行逐層梯度分析,我們想出了明智調(diào)整學(xué)習(xí)率的思路。 這導(dǎo)致UA顯著提高1:4%。 最后,考慮到更大范圍的頻率(8kHz),UA增加了0:9%。 盡管使用了批次,但更深的Bi-LSTM模塊的實(shí)驗(yàn)并沒有帶來任何改進(jìn)標(biāo)準(zhǔn)化(參見第3.1節(jié))

歸一化:

? ? ? ? ?不同類型的技術(shù)已被用于復(fù)發(fā)層的歸一化(Laurent等,2016; Amodei等,2015; Cooijmans等,2016; Ba等,2016)。在某些情況下,它們是成功的,在其他一些案例中(見Laurent et al。,2016),它們表現(xiàn)出加速了融合和更好的表現(xiàn),它們導(dǎo)致更強(qiáng)烈的過度擬合和結(jié)果退化。我們假設(shè)結(jié)果中的這種不確定性可能是由所考慮數(shù)據(jù)的特征造成的。當(dāng)應(yīng)用于圖像時(shí),批量歸一化技術(shù)被證明是非常有效的,通常這些圖像的特征是存在非常清晰和強(qiáng)大的相關(guān)性。與圖像不同,時(shí)間序列數(shù)據(jù)(如語音)更加脆弱,應(yīng)用標(biāo)準(zhǔn)化技術(shù)可能會導(dǎo)致重要信息的破壞。最具潛在破壞性的歸一化是所謂的逐幀方式(參見例如(Laurent等,2016)),當(dāng)分別為每個(gè)特征和每個(gè)時(shí)間步驟累計(jì)統(tǒng)計(jì)數(shù)據(jù)時(shí):

? ? ? ? ? 如果隱藏部分和輸入部分按照(Cooijmans et al。,2016)分開處理。 在這里,BN代表標(biāo)準(zhǔn)批量規(guī)范化操作(Ioffe&Szegedy,2015),a(π),ht,xt是激活,隱藏狀態(tài)和輸入,Wh,Wx是相應(yīng)的權(quán)重。 由于平均僅沿批處理軸執(zhí)行,因此逐幀歸一化可能會導(dǎo)致強(qiáng)烈的信號失真btf是bt和特征號的乘積。這里應(yīng)用批量標(biāo)準(zhǔn)化(12)。在這種情況下,歸一化按照層次進(jìn)行(如(Ba et al。,2016))并同時(shí)分批執(zhí)行(此外,為了簡單起見,我們將此歸一化方法稱為分層批量歸一化)。我們檢查了適用于具有4個(gè)卷積和1-4個(gè)Bi-LSTM層的模型的遞歸模塊的分層批處理歸一化。小批量實(shí)驗(yàn)與基線相比,b = 16表現(xiàn)出更快的過度擬合和性能下降。批量標(biāo)準(zhǔn)化不僅適用于批處理,而且也適用于層面,因此應(yīng)該減少批量大小的影響,這在使用批量標(biāo)準(zhǔn)化時(shí)非常重要。但是,在實(shí)驗(yàn)批量較大的情況下,我們意識到,就我們而言,它是這樣仍然會嚴(yán)重影響性能(見表3)。因此,這是可能的進(jìn)一步增大批量會導(dǎo)致更好的結(jié)果。不幸的是,由于GPU內(nèi)存限制,我們無法驗(yàn)證它

? ? ? ? ?當(dāng)加深基線模型的卷積模塊(從3-4個(gè)卷積層開始)時(shí),我們觀察到性能退化而不是改善。然后,通過分析對應(yīng)于不同層的梯度,我們注意到一個(gè)有趣的現(xiàn)象:關(guān)于卷積模塊權(quán)重的梯度顯著大于關(guān)于Bi-LSTM權(quán)重的梯度(見圖4)。因此,為了使卷積模塊學(xué)得更好,我們增加了卷積層權(quán)重的學(xué)習(xí)率。為了補(bǔ)償這種行為可能的過度擬合效應(yīng),我們還增加了卷積權(quán)重的正則化。這種修改顯著改善了性能(見表1),并且允許縮短收斂時(shí)間。有趣的是,最近觀察到同樣的現(xiàn)象(Kwiatkowski&Chang,2017)。考慮到不同類型的神經(jīng)網(wǎng)絡(luò),作者表明,通過網(wǎng)絡(luò)深度降低學(xué)習(xí)速率可以顯著提高收斂速度。因此,這種觀察可能取決于更普遍的現(xiàn)象

標(biāo)注和軟標(biāo)簽

? ? ? ? ?自然人類言語的情感內(nèi)容是復(fù)雜的,是不同情緒交織在一起的。另外,對人類情緒的感知是相當(dāng)主觀的。這就是為什么IEMOCAP數(shù)據(jù)集的標(biāo)簽由多個(gè)注釋者執(zhí)行,他們被允許分配多個(gè)情感標(biāo)簽(Busso et al。,2008)。 (Mower等,2009)的作者考慮到了這種多標(biāo)簽分配。他們根據(jù)彼此之間注釋者的同意將數(shù)據(jù)集分組。遵循這個(gè)想法,我們引入兩個(gè)數(shù)據(jù)子集。當(dāng)所有三位評估者就一個(gè)共同的標(biāo)簽達(dá)成一致時(shí),我們將標(biāo)簽稱為一致(原型(Mower et al。,2009))。當(dāng)評估者對情緒不一致時(shí),我們將標(biāo)簽稱為含糊不清(在Mower等人,2009)中的非原型多數(shù)贊成共識)。在IEMOCAP即興發(fā)音中,只有36:5%被一致標(biāo)記,而63:5%構(gòu)成了不明確的子集。特別是,對于被標(biāo)記為中性和幸福的話語,一致性樣本的百分比分別下降到30:1%和18%(見表4),這表明這些類別的標(biāo)簽含糊不清。

? ? ? ?在本節(jié)中,我們分析了我們最佳模型的每類績效,并根據(jù)樣本所屬的哪個(gè)子集(一致或模糊不清)來說明它如何變化。 表6總結(jié)了預(yù)測結(jié)果。 人們可以看到,每班準(zhǔn)確率主要不是由可用樣本的數(shù)量決定的(例如,雖然悲傷被認(rèn)為比中性情緒好得多,即使它在數(shù)據(jù)集中表現(xiàn)得少得多),但也涉及到注釋。 事實(shí)上,最好的預(yù)測情緒是具有最高標(biāo)準(zhǔn)樣本比例的情況(見表4)。 雖然過度抽樣,但幸福是迄今為止最不被認(rèn)可的

? ? ? ? ?情感(28:9%),而憤怒(73%)和悲傷(83:2%)最常被正確預(yù)測。最佳模型的UA為61:7%,在一致(+4:5%)和不明確(-3:5%)子集之間存在顯著差異。分別考慮每種情緒,每個(gè)類別的準(zhǔn)確性在一致子集上高于模糊子集(中性情感除外),憤怒的最大差異為22:5%(見表6中的陰影列)。當(dāng)分類器未能正確預(yù)測時(shí),我們檢查網(wǎng)絡(luò)排名第二的情緒(查看softmax輸出)是否正確(請參見表6中的第-2列)。我們觀察到,對于快樂和中性情緒(類別預(yù)測最不自信),預(yù)測作為模型的第二選擇的標(biāo)簽通常與真實(shí)標(biāo)簽一致。在這種情況下,提高分?jǐn)?shù)的可能補(bǔ)充技術(shù)是已經(jīng)在Satt等人(2017)中測試過的兩步預(yù)測。但是,在這項(xiàng)工作中,我們探索了另一種改進(jìn)分類的方法。我們通過在培訓(xùn)期間引入軟標(biāo)簽來考慮可用的多標(biāo)簽注釋。為了反映給定標(biāo)簽的置信度,我們根據(jù)注釋者為相應(yīng)話語給出的多個(gè)標(biāo)簽分配一個(gè)概率(例如參見表5中的陰影列)。例如,如果一個(gè)話語被兩個(gè)注釋者標(biāo)記為中性情緒,而被第三個(gè)標(biāo)記為悲傷,那么它的硬標(biāo)簽是“中性”的(它可以用一個(gè)熱點(diǎn)向量編碼為(1,0,0,0 )),而它的軟標(biāo)簽是兩種情緒的混合物:中性情緒,67%的重量和33%的重量(可以編碼為(0.67,0,0.33,0))的悲傷。有時(shí)候,注釋者會從我們正在考慮的集合中分配一個(gè)標(biāo)簽(例如“興奮”)。為了將其考慮在內(nèi),我們使用適當(dāng)?shù)臋?quán)重。當(dāng)分配給話語的所有多標(biāo)簽屬于所述感興趣的集合時(shí),話語具有權(quán)重1,而具有該組外的至少一個(gè)多標(biāo)簽的話語具有更小的權(quán)重(參見表5)。訓(xùn)練過程的損失函數(shù)仍然是分類交叉熵,但軟標(biāo)簽取代了硬標(biāo)簽。結(jié)果顯示在表6中。查看每班課程性能,可以看出,唯一受益于軟標(biāo)簽的課程是中性情緒。其他班級的表現(xiàn)明顯更差。由于中性情緒類是豐富類,這導(dǎo)致了更高的WA,但UA下降。

結(jié)論:

? ? ? ?在這項(xiàng)工作中,我們研究了幾種技術(shù)來增強(qiáng)譜圖中的語音情感識別,顯示出高度競爭的表現(xiàn)。此外,對結(jié)果進(jìn)行仔細(xì)分析可以解釋每種應(yīng)用技術(shù)的貢獻(xiàn)。我們的工作涉及超參數(shù)優(yōu)化以及數(shù)據(jù)的探索。遵循語音分析的現(xiàn)代趨勢,我們使用混合CNN-LSTM架構(gòu),利用卷積層的能力從原始輸入中提取高級表示。有趣的是,我們注意到卷積和LSTM層的參數(shù)訓(xùn)練速度非常不同,這阻礙了模型潛能的開發(fā)。因此,學(xué)習(xí)率調(diào)整對于充分利用這種架構(gòu)至關(guān)重要。這項(xiàng)技術(shù)占未加權(quán)準(zhǔn)確度的1.2-1.4%的改善。我們還調(diào)查了批量標(biāo)準(zhǔn)化的效果,這是大多數(shù)圖像識別任務(wù)中不可缺少的工具。但是,并不總是建議將批量歸一化應(yīng)用于時(shí)間序列數(shù)據(jù),并可能導(dǎo)致數(shù)據(jù)失真。為了盡可能地保留信號結(jié)構(gòu),我們按層進(jìn)行標(biāo)準(zhǔn)化以及批處理。盡管如此,我們并沒有設(shè)法提高性能,這可能是由于我們必須使用小批量才能適應(yīng)可用的GPU內(nèi)存。收集和標(biāo)記與自動情感識別相關(guān)的語音數(shù)據(jù)是困難的。盡管這項(xiàng)任務(wù)是標(biāo)準(zhǔn)和適當(dāng)?shù)臄?shù)據(jù)集之一IEMOCAP仍然存在缺陷和階級失衡的缺陷。因此,正如前面的工作所指出的那樣,交叉驗(yàn)證對模型性能的無偏測量是至關(guān)重要的,因?yàn)楦鶕?jù)哪個(gè)揚(yáng)聲器支持測量精度,結(jié)果會有很大差異。在這里,我們主張支持10倍而不是5倍交叉驗(yàn)證,這樣就不會導(dǎo)致結(jié)果模糊。我們利用數(shù)據(jù)增強(qiáng)和次要類別過度抽樣,這證明可以成功地增強(qiáng)對代表不足的類別的檢測。這兩種技術(shù)的結(jié)合導(dǎo)致1.8%的增長相對于基線的未加權(quán)準(zhǔn)確度。最后,除了數(shù)據(jù)集的局限性之外,任務(wù)本身也存在固有的困難,反映在大多數(shù)情況下,人類注釋者本身并不同意情緒。結(jié)果,我們的神經(jīng)網(wǎng)絡(luò)經(jīng)常對模糊樣本錯(cuò)誤分類。為了克服這個(gè)問題,我們試圖通過引入軟標(biāo)簽來利用各個(gè)注釋器的可用信息。然而,這對于未加權(quán)的準(zhǔn)確性是有害的,因?yàn)樗鼉H有利于檢測主要類。鑒于用于情感識別任務(wù)的混合CNN-LSTM架構(gòu)的成功,未來工作的可能方向?qū)⑹鞘褂镁矸eLSTM(Shi et al。2015),其中定義LSTM分量的矩陣乘積用卷積代替。鑒于數(shù)據(jù)增強(qiáng)的重要性,另一個(gè)有希望的想法是使用生成對抗網(wǎng)絡(luò)(Goodfellow等,2014)來實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。這種方法在圖像分類(Shrivastava等,2017)中已被證明是成功的,它將成為VLTP的替代品,用于合成新的現(xiàn)實(shí)樣本。

情緒識別Efficient Emotion Recognition from Speech Using Deep Learning on Spectrograms

基本參數(shù):

win:20ms? 40ms

幀:10ms

DFT: 800/1600

輸出:M*N矩陣

評估方法和模型:

我們使用了兩個(gè)通用評估標(biāo)準(zhǔn):

總體準(zhǔn)確度 - 數(shù)據(jù)集中的每個(gè)句子具有相同的權(quán)重,AKA加權(quán)準(zhǔn)確度

類精度 - 首先評估每種情緒的準(zhǔn)確度,然后進(jìn)行平均,即不加權(quán)的精度

為了比較以下四個(gè)情緒被使用:憤怒,幸福,中立和悲傷。 我們測試了幾十種拓?fù)浜蛥?shù)的組合。 我們評估了卷積式拓?fù)?,范圍?層到8層,具有時(shí)間窗口大小和頻率網(wǎng)格分辨率的不同組合。 我們還評估了具有一至六個(gè)卷積層的拓?fù)浣Y(jié)構(gòu)有一個(gè)和兩個(gè)LSTM層。 下表總結(jié)了最佳拓?fù)浣Y(jié)構(gòu),僅與卷積和LSTM卷積。

實(shí)驗(yàn)結(jié)論:

關(guān)于上面的表1,我們使用了以下內(nèi)容

參數(shù):

1、窗口大小設(shè)置為40毫秒; 一個(gè)20毫秒的窗口產(chǎn)生了類似的結(jié)果,在不同的拓?fù)浣Y(jié)構(gòu)中降低0-2% 雙向LSTM包含128x2節(jié)點(diǎn); 使用64x2節(jié)點(diǎn),精度下降1-3%;

3、頻率網(wǎng)格分辨率設(shè)置為10Hz; 較低分辨率(20Hz)的精度降低1-3%;

4、發(fā)現(xiàn)卷積網(wǎng)絡(luò)的最佳拓?fù)浣Y(jié)構(gòu)包括5層(我們嘗試了2-8層),而最好的混合拓?fù)浣Y(jié)構(gòu)包括3個(gè)卷積層和一個(gè)LSTM層(我們嘗試了1-6個(gè)卷積層和 1-2層LSTM層);

5、對深度網(wǎng)絡(luò)進(jìn)行了優(yōu)化,以最大限度地提高總體精度(這在下面進(jìn)行了討論)

IEMOCAP語料庫顯著不平衡;應(yīng)對對于不平衡的數(shù)據(jù),我們嘗試了以下技術(shù):

1、訓(xùn)練網(wǎng)絡(luò)以最大化類精度而不是整體精度,總體精度的懲罰使得它不太有用;

2、為隨機(jī)梯度賦予不同的權(quán)重,與類大小成反比,它將整體和類別精度都提高了13%;

3、使用統(tǒng)計(jì)過采樣來獲得同等規(guī)模的訓(xùn)練類增加了最小類準(zhǔn)確度(開心),但不是整體和班級準(zhǔn)確度。我們還嘗試了兩步預(yù)測,基于:

? ? ? ? ? 演示了一個(gè)過濾器,傾向于了解聲譜圖中較不相關(guān)的區(qū)域,包括沉默和低能區(qū)。這種激活解釋了深度網(wǎng)絡(luò)如何將光譜圖的相關(guān)部分與不太重要的區(qū)域分開。為了進(jìn)一步提高所提出的解決方案的識別精度,我們試圖在LSTM層中增加一個(gè)一維的關(guān)注機(jī)制。基于圖像對象識別中二維注意機(jī)制的成功[25-26],我們的動機(jī)是找到與情感識別相關(guān)的語音信號的時(shí)間段。不幸的是,我們還沒有獲得任何精度的改進(jìn),因此得出結(jié)論,在我們的例子中,卷積和LSTM層似乎從對數(shù)譜圖中有效地檢測了相關(guān)的時(shí)間段。

結(jié)論:

? ? ? ? 我們在有限的延遲約束(<= 3秒)的情況下,從語音中演示了一個(gè)情感識別系統(tǒng),與以前的作品相比,在無延遲約束的情況下,通用基準(zhǔn)測試數(shù)據(jù)集IEMOACP具有最先進(jìn)的準(zhǔn)確性:其中一個(gè)測試網(wǎng)絡(luò)拓?fù)溥_(dá)到了67.3%和62.0%,與之前的工作相比,達(dá)到了63.9%和62.8% , 分別。 該系統(tǒng)基于端到端深度神經(jīng)網(wǎng)絡(luò),直接應(yīng)用于原始譜圖而無需特征提取步驟。 使用原始譜圖使我們能夠輕松地組合基于諧波濾波的降噪解決方案,該解決方案可以處理高噪聲級別,如SNR = 0dB- 我們在背景非語音噪音的情況下證明了這個(gè)水平的穩(wěn)健性。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容