人妻人人干亚洲韩日,五月婷婷人妻激情,97在线观看免费视频

摘要：

? ? ? ? 語言識別（LID）系統(tǒng)用于對給定音頻樣本中的口語進(jìn)行分類，并且通常是許多口語處理任務(wù)（如自動語音識別（ASR）系統(tǒng)）的第一步。如果沒有自動語言檢測，語音話語無法正確解析，語法規(guī)則無法應(yīng)用，導(dǎo)致后續(xù)的語音識別步驟失敗。我們提出一個(gè)LID系統(tǒng)來解決圖像域中的問題，而不是音頻域。我們使用混合卷積循環(huán)神經(jīng)網(wǎng)絡(luò)（CRNN），它可以對提供的音頻片段的頻譜圖進(jìn)行操作。我們在廣泛的實(shí)驗(yàn)中證明了這一點(diǎn)我們的模型適用于一系列嘈雜的場景，并且很容易擴(kuò)展到以前未知的語言，同時(shí)保持其分類準(zhǔn)確性。我們發(fā)布我們的代碼和一個(gè)大規(guī)模的訓(xùn)練集LID系統(tǒng)給社區(qū)

引言：

? ? ? ? ?Siri1或Google Assistant2等智能助手依賴于ASR。目前的ASR系統(tǒng)要求用戶手動指定系統(tǒng)的正確輸入語言才能正常工作。然而，作為一個(gè)合理的預(yù)處理步驟，我們可以使用自動LID系統(tǒng)推斷口語。傳統(tǒng)的LID系統(tǒng)利用音頻信號處理領(lǐng)域的專業(yè)領(lǐng)域?qū)I(yè)知識從音頻樣本中提取手工制作的特征。最近，深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)已成為許多模式識別問題的最新技術(shù)。深度神經(jīng)網(wǎng)絡(luò)（DNN）已經(jīng)成為計(jì)算機(jī)視覺任務(wù)范圍（如圖像分類[17,18]或物體檢測和識別[14,15]）的最佳執(zhí)行方法。在本文中，我們從計(jì)算機(jī)視覺的角度來解決語言識別問題。我們通過利用由卷積神經(jīng)網(wǎng)絡(luò)（CNN）和遞歸神經(jīng)網(wǎng)絡(luò)（RNN）組成的混合網(wǎng)絡(luò)來提取給定音頻樣本的目標(biāo)語言。我們的貢獻(xiàn)可以總結(jié)如下：（1）我們提出一個(gè)混合CRNN，合并CNNs具有捕獲RNNs時(shí)間特征能力的描述能力。（2）我們對我們提出的網(wǎng)絡(luò)進(jìn)行了廣泛的實(shí)驗(yàn)，并且展示了它適用于一系列場景及其對于新語言的可擴(kuò)展性。（3）我們發(fā)布我們的代碼和LID系統(tǒng)的大規(guī)模訓(xùn)練集3

? ? ? ? 僅基于對MelFrequencyCepstral Coefficients（MFCC）等輸入特征應(yīng)用神經(jīng)網(wǎng)絡(luò)的方法表明，它們達(dá)到了最先進(jìn)的結(jié)果，而不那么復(fù)雜。目前對使用DNN的語言識別系統(tǒng)的研究主要集中在使用不同形式的LSTM，關(guān)于變換音頻數(shù)據(jù)的輸入序列。 Zazo等人文獻(xiàn)[19]使用Mel頻率倒譜系數(shù)和增量Delta系數(shù)（MFCC-SDC）特征作為其單向LSTM的輸入，該直接連接到softmax分類器。 softmax分類器的最后預(yù)測包含預(yù)測的語言。 Gelly等人。 [5]使用BLSTM網(wǎng)絡(luò)從輸入中捕獲語言信息（音頻轉(zhuǎn)換為感知線性預(yù)測（PLP）系數(shù)及其一階和二階導(dǎo)數(shù)）。所得到的序列特征被融合在一起并用于分類輸入樣本的語言。兩種方法都只考慮功能序列作為其網(wǎng)絡(luò)的輸入。 Lozano-Diez等人[10]在CNN的幫助下進(jìn)行語言識別。作者將輸入數(shù)據(jù)轉(zhuǎn)換為包含MFCC-SDC特征的圖像。該圖像的x軸表示時(shí)域，y軸表示單個(gè)頻率點(diǎn)。除了使用CNN對輸入語言進(jìn)行簡單分類之外，他們還使用CNN作為身份向量的特征提取器。作者在結(jié)合CNN特征和身份向量時(shí)可獲得更好的性能。我們的研究與以上提到的作品不同之處在于：（1）我們利用基于VGG [17]或Inception-v3 [18]架構(gòu)的強(qiáng)卷積特征提取器。（2）我們使用提取的卷積特征

輸入到BLSTM并僅基于深度模型生成我們的預(yù)測。

? ? ? ? 為了使我們收集的數(shù)據(jù)與我們的LID系統(tǒng)兼容，我們需要做一些預(yù)處理。作為第一步，我們將所有音頻文件編碼為未壓縮的無損WAVE格式，因?yàn)檫@種格式允許進(jìn)行未經(jīng)處理的操作，而不會使信號質(zhì)量出現(xiàn)任何劣化。為了將我們的音頻片段視為圖像，我們需要將數(shù)據(jù)傳輸?shù)綀D像域。我們將音頻數(shù)據(jù)轉(zhuǎn)換為光譜圖表示以訓(xùn)練我們的模型。頻譜圖使用Hann [2]窗口和沿頻率軸（y軸）的129個(gè)頻率倉進(jìn)行離散化。由于大多數(shù)英語語音在對話語音中不超過3 kHz，因此我們只在頻譜圖中包含高達(dá)5 kHz的頻率。時(shí)間軸（x軸）呈現(xiàn)為每秒50個(gè)像素。我們將每個(gè)音頻序列分成不重疊的十秒段，并丟棄所有短于十秒的段，因?yàn)槲覀儾幌胍胩畛?，這可能類似于非自然的暫?；虺聊?。生成的圖像保存為灰度，無損500×129 PNG文件，頻率強(qiáng)度映射到8位灰度范圍

結(jié)構(gòu)：

? ? ? 對于我們的網(wǎng)絡(luò)架構(gòu)，我們遵循Shi等人提出的網(wǎng)絡(luò)的整體結(jié)構(gòu)。 [16]在他們的現(xiàn)場文字識別工作。這個(gè)網(wǎng)絡(luò)體系結(jié)構(gòu)由兩部分組成。第一部分是卷積特征提取器，它將音頻文件的光譜圖像表示作為輸入（參見第3.2節(jié)）。該特征提取器分幾步卷積輸入圖像，并生成高度為1的特征圖。該特征映射沿著x軸切片，并且每個(gè)切片被用作隨后的BLSTM網(wǎng)絡(luò)的時(shí)間步驟。卷積特征提取器的設(shè)計(jì)基于眾所周知的VGG體系結(jié)構(gòu)[17]。我們的網(wǎng)絡(luò)使用5個(gè)卷積層，其中每個(gè)層次都跟隨著ReLU激活函數(shù)[12]，BatchNormalization [8]和2×2最大匯集，步長為2.每個(gè)卷積層的內(nèi)核大小和濾波器數(shù)量分別為7×7,16），（5×5,32），（3×3,64），（3×3,128），（3×3,256）。 BLSTM由兩個(gè)單獨(dú)的LSTM組成，每個(gè)單元具有256個(gè)輸出單元。我們將兩個(gè)輸出連接到一個(gè)512維矢量，并將其輸入到具有4/6輸出單元作為分類器的完全連接層。圖1提供了網(wǎng)絡(luò)架構(gòu)的示意圖

環(huán)境：

? ? ? ? ?我們使用Keras [3]和Tensorflow [1]實(shí)現(xiàn)了我們提出的模型，后端。我們將數(shù)據(jù)集分成培訓(xùn)（70％），驗(yàn)證（20％）和一個(gè)測試集（10％），所有文件在語言之間平均分配。歐洲語音數(shù)據(jù)集共產(chǎn)生大約19 000個(gè)訓(xùn)練圖像，

這相當(dāng)于大約53個(gè)小時(shí)的語音音頻。 YouTube新聞數(shù)據(jù)集共產(chǎn)生約194 000個(gè)訓(xùn)練圖像，或540小時(shí)的語音音頻。

為了訓(xùn)練我們的網(wǎng)絡(luò)，我們使用了Adam [9]的優(yōu)化器并使用在微調(diào)期間使用隨機(jī)梯度下降。我們觀察到以下情況

指標(biāo)：準(zhǔn)確度，召回率，精確度和F1分?jǐn)?shù)。我們指出使用的網(wǎng)絡(luò)按照以下方式：（1）CNN - 僅由提議的網(wǎng)絡(luò)組成的網(wǎng)絡(luò)卷積特征提取器沒有經(jīng)常性部分。（2）CRNN - 從3.3節(jié)提出混合CRNN模型。

結(jié)論：

? ? 在本文中，我們提出了一種語言識別系統(tǒng)，它解決了圖像域中的語言識別問題，而不是音頻域。我們提出了一種由卷積特征提取器和RNN組成的混合CRNN，該RNN結(jié)合隨時(shí)間提取的特征。使用這種架構(gòu)，我們對不同的數(shù)據(jù)集進(jìn)行了多次實(shí)驗(yàn)，以展示我們的模型對各種場景的廣泛適用性及其對新語言的可擴(kuò)展性。為了彌補(bǔ)缺乏免費(fèi)提供的語言識別數(shù)據(jù)集，我們從中收集了超過1508個(gè)小時(shí)的音頻數(shù)據(jù)歐盟語音知識庫和YouTube，并將其提供給研究界

論文2（emotion-cnn+blstm）

摘要：在這項(xiàng)工作中，我們設(shè)計(jì)了一個(gè)神經(jīng)網(wǎng)絡(luò)來識別語音中的情緒，使用標(biāo)準(zhǔn)的IEMOCAP數(shù)據(jù)集。在音頻分析的最新進(jìn)展之后，我們使用了一個(gè)涉及卷積層的體系結(jié)構(gòu)，從原始譜圖中提取高級特征，以及用于匯總長期相關(guān)性的經(jīng)常性特征。應(yīng)用數(shù)據(jù)增強(qiáng)技術(shù)，分層學(xué)習(xí)速率調(diào)整和批量歸一化，競爭結(jié)果，對四種情緒具有64：5％的加權(quán)準(zhǔn)確性和61：7％的非加權(quán)準(zhǔn)確性。此外，我們表明模型的表現(xiàn)與標(biāo)簽置信度密切相關(guān)，這凸顯了情感識別的基本困難。

引言：

在人與機(jī)器之間提供高質(zhì)量的交互是一個(gè)非常具有挑戰(zhàn)性和活躍的研究領(lǐng)域，具有眾多應(yīng)用。這個(gè)領(lǐng)域的一個(gè)重要部分是通過計(jì)算機(jī)系統(tǒng)來識別人類的言語情緒。在過去的幾年中，通過深度學(xué)習(xí)（Amodei等，2015; Medennikov等，2016; Saon等，2016; Liptchinsky等，2017）在語音識別方面取得了令人矚目的進(jìn)展。這些成就還包括對語音情感識別（SER）的重要結(jié)果，參見例如（Kim等，2013; Lee＆Tashev，2015; Sattet等，2017）。

在這項(xiàng)工作中，我們?yōu)镮EMOCAP數(shù)據(jù)集上的SER構(gòu)建了一個(gè)神經(jīng)網(wǎng)絡(luò)（Busso et al。，2008），并取得了與現(xiàn)有技術(shù)水平極具競爭力的結(jié)果。 1在深度學(xué)習(xí)中處理SER問題時(shí)，可以創(chuàng)建用作神經(jīng)網(wǎng)絡(luò)輸入的手工聲學(xué)特征（MFCC，音高，能量，ZCR ...），或者在一些預(yù)處理后發(fā)送數(shù)據(jù)（例如傅立葉變換），直接到神經(jīng)網(wǎng)絡(luò)。我們通過將音頻信號轉(zhuǎn)換為頻譜圖來應(yīng)用第二種策略，該頻譜圖然后被用作卷積層的輸入，然后是經(jīng)常性的。這種最近表現(xiàn)出非常有競爭力的表現(xiàn)的建筑學(xué)選擇（Amodei等，2015; Satt等，2017），受到以下事實(shí)的啟發(fā)：訓(xùn)練深長的短期記憶（LSTM，（Hochreiter＆Schmidhuber， 1997））或門控線性單元（GRU，（Cho et al。，2014））網(wǎng)絡(luò)非常困難。從這個(gè)意義上說，在網(wǎng)絡(luò)開始階段添加少量卷積層是降低數(shù)據(jù)維數(shù)的有效方法，并且可以顯著簡化訓(xùn)練過程。另一方面，也可以使用深CNN來提取高級特征，然后將其饋送到RNN用于最終時(shí)間聚合。我們針對卷積（1-6層）和復(fù)發(fā)模塊（1-4）測試了各種不同深度的體系結(jié)構(gòu)，在4 + 1場景中實(shí)現(xiàn)最佳分?jǐn)?shù)2。為了解決類別失衡和數(shù)據(jù)稀缺的挑戰(zhàn)，我們研究了數(shù)據(jù)增強(qiáng)的聲道長度擾動，并證明它改善了性能。根據(jù)（Laurent等，2016; Amodei等，2015; Cooijmans等，2016; Ba等，2016），我們將批量歸一化應(yīng)用于復(fù)發(fā)層并分析其對所考慮數(shù)據(jù)的作用。我們證明，即使保守地應(yīng)用批量規(guī)范化，它仍可能導(dǎo)致數(shù)據(jù)失真，導(dǎo)致更快的過度擬合和性能下降。我們還使用軟標(biāo)簽來反映這樣一個(gè)事實(shí)，即可以將多個(gè)標(biāo)簽分配給IEMOCAP數(shù)據(jù)集的每個(gè)樣本。雖然我們沒有設(shè)法通過考慮這些信息來獲得更好的結(jié)果，但我們證明了該模型的明確依賴性

表現(xiàn)在數(shù)據(jù)標(biāo)簽上的信心。最后，我們的實(shí)驗(yàn)表明，每層學(xué)習(xí)速率調(diào)整似乎是模型性能的關(guān)鍵因素，這可能與特定的體系結(jié)構(gòu)選擇或更一般的現(xiàn)象有關(guān)。

數(shù)據(jù)集描述：

? ? ? ? 在南加州大學(xué)（USC）收集的IEMOCAP（交互式情緒二進(jìn)制動作捕捉）（Busso等人，2008）是用于情緒識別的標(biāo)準(zhǔn)數(shù)據(jù)集之一。它由十名專業(yè)演員（五名女性和五名男性）進(jìn)行了十二小時(shí)的音頻和視頻錄制，并在不同性別的兩位演員之間進(jìn)行了五次對話，不論是演奏劇本還是即興演奏。該數(shù)據(jù)集還提供文本對應(yīng)于記錄和臉部圖像。但是，在這項(xiàng)工作中，我們只處理音頻數(shù)據(jù)。音頻集的每個(gè)樣本都是與情緒標(biāo)簽關(guān)聯(lián)的話語。標(biāo)記由USC的六名學(xué)生制作，每次三個(gè)，每次發(fā)表一次。如果有必要，注釋者被允許分配多個(gè)標(biāo)簽。如果具有最高票數(shù)的情感類別是獨(dú)特的，則每個(gè)話語的最終真實(shí)標(biāo)簽由多數(shù)票選出。由于注釋者在標(biāo)注即興創(chuàng)作時(shí)（83.1％）比腳本創(chuàng)作者（66.9％）（Busso et al。，2008）更經(jīng)常達(dá)成共識，因此我們只關(guān)注即興創(chuàng)作的數(shù)據(jù)集部分。為了與最先進(jìn)的方法進(jìn)行比較，我們預(yù)測了四種最具代表性的情緒：中性，悲傷，憤怒和快樂，這給我們留下了2280個(gè)話語。

語譜圖：

? ? ??這里我們簡要討論我們使用的數(shù)據(jù)預(yù)處理。該信號通過具有16kHz上限截止頻率的短時(shí)傅里葉變換（STFT）和Hann開窗（這是用于右波段頻譜分析的標(biāo)準(zhǔn)選擇）被轉(zhuǎn)換為頻譜圖：

語音增強(qiáng)：

? ? ? ?處理IEMOCAP數(shù)據(jù)集時(shí)遇到的主要困難之一是類別不平衡（見圖1）。最豐富的類對應(yīng)于中性情緒。此外，假設(shè)情緒中性言語可以作為標(biāo)記情緒的背景出現(xiàn)在其他話語中是合理的。這增強(qiáng)了區(qū)分中性和其他情緒的挑戰(zhàn)。（Lee＆Tashev，2015）中提出了一個(gè)有趣的方法來解決這個(gè)問題。根據(jù)連接主義時(shí)間分類（CTC）方法（Graves et al。2006）的精神，作者為每個(gè)時(shí)間步長分配一個(gè)隨機(jī)標(biāo)簽，取值為話語或?qū)?yīng)于非情感框架的空標(biāo)簽，以這種方式建?？梢猿霈F(xiàn)在話語中的其他情緒。通過期望最大化算法進(jìn)行訓(xùn)練，作者將加權(quán)和未加權(quán)的精確度提高了2-3％。另一種方法已應(yīng)用于（Satt等，2017），其中預(yù)測程序分兩步實(shí)現(xiàn)。在主要模型預(yù)測中性情緒的情況下，話語被引導(dǎo)至在中性和其他情緒之一之間執(zhí)行二元分類的另外三個(gè)模型。這種策略導(dǎo)致未加權(quán)準(zhǔn)確性增加2.5％，但反過來將加權(quán)準(zhǔn)確性降低了1.5％。除了類別失衡之外，IEMOCAP數(shù)據(jù)集還存在另一個(gè)主要缺點(diǎn)：它比較小，這使得驗(yàn)證過程不穩(wěn)定。為了應(yīng)對這兩種障礙，我們通過聲道長度擾動（VTLP）檢查了數(shù)據(jù)增強(qiáng)，同時(shí)對數(shù)據(jù)集中表現(xiàn)最差的類別 - 快樂和憤怒進(jìn)行了過采樣。 VTLP基于（Lee＆Rose，1998）中所考慮的說話人正規(guī)化技術(shù)，該技術(shù)的實(shí)施旨在減少說話者間的差異。人耳聲道長度的差異可以通過在頻率軸上重新定標(biāo)有效成分的峰值來進(jìn)行建模，其因子α取大概范圍內(nèi)的值（0：9; 1：1）。因此，為了擺脫這種可變性，應(yīng)該估計(jì)每個(gè)說話者的因子并相應(yīng)地對譜圖進(jìn)行歸一化。相反地??，相同的想法可以用于數(shù)據(jù)增強(qiáng)（Jaitly＆Hinton，2013; Cui等，2014; Harutyunyan＆Sanogh，2016）：為了產(chǎn)生新的樣本，人們必須執(zhí)行原始譜圖的重新縮放沿著頻率軸，同時(shí)保持比例因子在范圍內(nèi)（0：9; 1：1）。兩種方法，歸一化和增強(qiáng)，都追求相同的目標(biāo)：強(qiáng)化模型對說話者相關(guān)特征的不變性，因?yàn)樗鼈兣c分類標(biāo)準(zhǔn)無關(guān)。然而，增強(qiáng)更容易實(shí)現(xiàn)，因?yàn)槲覀儾恍枰烙?jì)每個(gè)揚(yáng)聲器的縮放因子，因此我們堅(jiān)持這個(gè)選項(xiàng)。頻率的重新調(diào)整如下進(jìn)行

我們嘗試了兩種數(shù)據(jù)增強(qiáng)策略。在第一種情況下，在每個(gè)時(shí)期對單個(gè)均勻分布的值α2（0：9; 1：1）進(jìn)行采樣，并用于對所有訓(xùn)練樣例進(jìn)行重新縮放，并且沒有重新縮放應(yīng)用于驗(yàn)證集。在第二個(gè)策略中，每個(gè)頻譜圖都重新調(diào)整了單獨(dú)生成的α值以用于訓(xùn)練以及驗(yàn)證集。為了評估，我們在α= 0：9的測試集的11個(gè)副本上使用了模型預(yù)測的多數(shù)票; 0:92; 0:94; :::; 1：1。我們介紹了第二次增強(qiáng)策略獲得的分?jǐn)?shù)，它提供了最好的結(jié)果。

模型的描述和實(shí)驗(yàn)：

? ? ? ?如上所述，IEMOCAP數(shù)據(jù)集由五個(gè)會話組成，每個(gè)會話是一個(gè)男人和一個(gè)女人之間的對話，共有10個(gè)發(fā)言者。為了了解該模型對不同演講者的推廣情況，我們將驗(yàn)證和測試集合對應(yīng)于其中一個(gè)會話的兩個(gè)不同發(fā)言人。訓(xùn)練集由剩余的四場會議組成。在實(shí)驗(yàn)過程中，我們觀察到性能在很大程度上取決于為測試集選擇了哪些揚(yáng)聲器（請參見表2）。因此，我們選擇10倍交叉驗(yàn)證策略，以平均測試集的所有可能選擇。有趣的是，據(jù)我們所知，在IEMOCAP數(shù)據(jù)集上報(bào)告的所有其他結(jié)果都是通過5倍交叉驗(yàn)證獲得的。在這種情況下，驗(yàn)證和測試集的選擇并不嚴(yán)格定義和分?jǐn)?shù)

? ? ??這樣得到的結(jié)果是不可能與之比較的。為了評估模型的性能，我們選擇了加權(quán)（WA）和未加權(quán)（UA）的精度。 WA是在整個(gè)測試集上計(jì)算的標(biāo)準(zhǔn)精度。 UA是分別針對每種情緒計(jì)算的平均精度。首先，我們計(jì)算每個(gè)折疊的度量標(biāo)準(zhǔn)，然后將所有折疊的平均值作為分?jǐn)?shù)。由于對于不平衡的數(shù)據(jù)集，UA是一個(gè)更相關(guān)的特征，我們相當(dāng)集中努力獲得高UA，與IEMOCAP上的大多數(shù)其他作品一致。我們考慮了具有1-6個(gè)卷積層，1-4個(gè)Bi-LSTM層和在網(wǎng)絡(luò)頂部具有softmax非線性的密集層的架構(gòu)（參見圖3）。作為優(yōu)化程序，我們使用了Nesterov動量的隨機(jī)梯度下降。對于權(quán)重的正則化，我們使用L2正則化。由于在數(shù)據(jù)樣本中的重大變化時(shí)間長度（對于窗口大小N = 64ms和偏移S = 32ms，從21到909個(gè)時(shí)間步長），我們沿時(shí)間軸執(zhí)行采樣的零填充。為了避免Bi-LSTM人工添加時(shí)間步驟的聚集，我們在卷積和BiLSTM模塊之間放置了一個(gè)掩模層。掩模的大小是從相應(yīng)頻譜圖的時(shí)間大小以及卷積步幅的作用導(dǎo)出的。最后，我們根據(jù)數(shù)據(jù)集的一般統(tǒng)計(jì)數(shù)據(jù)對樣本進(jìn)行歸一化處理：

? ? ? ? 其中x ^和σ是在時(shí)間和頻率軸上的整個(gè)數(shù)據(jù)集上計(jì)算的頻譜圖像素的平均值和標(biāo)準(zhǔn)偏差。這種歸一化顯著地提高了模型的收斂時(shí)間。然而，應(yīng)用于小深度網(wǎng)絡(luò)（≤2個(gè)卷積層），導(dǎo)致了較強(qiáng)的過擬合。如上所述，我們進(jìn)行了各種不同深度的卷積和BiLSTM模塊的實(shí)驗(yàn)我們研究了不同的情景：“淺CNN +深Bi-LSTM”，“深CNN +淺Bi-LSTM”和“深CNN +深層”，并且在實(shí)驗(yàn)開始時(shí)被丟棄。碧LSTM”。通過選擇4個(gè)卷積和1個(gè)Bi-LSTM層可以獲得最好的結(jié)果。在表1中，我們給出了最佳模型的結(jié)果以及對所應(yīng)用技術(shù)性能的貢獻(xiàn)?？梢钥闯?，過采樣允許UA增加0：9％，但是導(dǎo)致WA降低3：2％。使用VTLP進(jìn)行數(shù)據(jù)增加會導(dǎo)致這兩個(gè)指標(biāo)的增加UA和WA相應(yīng)地分別為0：9％和1：7％。我們在本節(jié)中討論，通過對網(wǎng)絡(luò)進(jìn)行逐層梯度分析，我們想出了明智調(diào)整學(xué)習(xí)率的思路。這導(dǎo)致UA顯著提高1：4％。最后，考慮到更大范圍的頻率（8kHz），UA增加了0：9％。盡管使用了批次，但更深的Bi-LSTM模塊的實(shí)驗(yàn)并沒有帶來任何改進(jìn)標(biāo)準(zhǔn)化（參見第3.1節(jié)）

歸一化：

? ? ? ? ?不同類型的技術(shù)已被用于復(fù)發(fā)層的歸一化（Laurent等，2016; Amodei等，2015; Cooijmans等，2016; Ba等，2016）。在某些情況下，它們是成功的，在其他一些案例中（見Laurent et al。，2016），它們表現(xiàn)出加速了融合和更好的表現(xiàn)，它們導(dǎo)致更強(qiáng)烈的過度擬合和結(jié)果退化。我們假設(shè)結(jié)果中的這種不確定性可能是由所考慮數(shù)據(jù)的特征造成的。當(dāng)應(yīng)用于圖像時(shí)，批量歸一化技術(shù)被證明是非常有效的，通常這些圖像的特征是存在非常清晰和強(qiáng)大的相關(guān)性。與圖像不同，時(shí)間序列數(shù)據(jù)（如語音）更加脆弱，應(yīng)用標(biāo)準(zhǔn)化技術(shù)可能會導(dǎo)致重要信息的破壞。最具潛在破壞性的歸一化是所謂的逐幀方式（參見例如（Laurent等，2016）），當(dāng)分別為每個(gè)特征和每個(gè)時(shí)間步驟累計(jì)統(tǒng)計(jì)數(shù)據(jù)時(shí)：

? ? ? ? ? 如果隱藏部分和輸入部分按照（Cooijmans et al。，2016）分開處理。在這里，BN代表標(biāo)準(zhǔn)批量規(guī)范化操作（Ioffe＆Szegedy，2015），a（π），ht，xt是激活，隱藏狀態(tài)和輸入，Wh，Wx是相應(yīng)的權(quán)重。由于平均僅沿批處理軸執(zhí)行，因此逐幀歸一化可能會導(dǎo)致強(qiáng)烈的信號失真btf是bt和特征號的乘積。這里應(yīng)用批量標(biāo)準(zhǔn)化（12）。在這種情況下，歸一化按照層次進(jìn)行（如（Ba et al。，2016））并同時(shí)分批執(zhí)行（此外，為了簡單起見，我們將此歸一化方法稱為分層批量歸一化）。我們檢查了適用于具有4個(gè)卷積和1-4個(gè)Bi-LSTM層的模型的遞歸模塊的分層批處理歸一化。小批量實(shí)驗(yàn)與基線相比，b = 16表現(xiàn)出更快的過度擬合和性能下降。批量標(biāo)準(zhǔn)化不僅適用于批處理，而且也適用于層面，因此應(yīng)該減少批量大小的影響，這在使用批量標(biāo)準(zhǔn)化時(shí)非常重要。但是，在實(shí)驗(yàn)批量較大的情況下，我們意識到，就我們而言，它是這樣仍然會嚴(yán)重影響性能（見表3）。因此，這是可能的進(jìn)一步增大批量會導(dǎo)致更好的結(jié)果。不幸的是，由于GPU內(nèi)存限制，我們無法驗(yàn)證它

? ? ? ? ?當(dāng)加深基線模型的卷積模塊（從3-4個(gè)卷積層開始）時(shí)，我們觀察到性能退化而不是改善。然后，通過分析對應(yīng)于不同層的梯度，我們注意到一個(gè)有趣的現(xiàn)象：關(guān)于卷積模塊權(quán)重的梯度顯著大于關(guān)于Bi-LSTM權(quán)重的梯度（見圖4）。因此，為了使卷積模塊學(xué)得更好，我們增加了卷積層權(quán)重的學(xué)習(xí)率。為了補(bǔ)償這種行為可能的過度擬合效應(yīng)，我們還增加了卷積權(quán)重的正則化。這種修改顯著改善了性能（見表1），并且允許縮短收斂時(shí)間。有趣的是，最近觀察到同樣的現(xiàn)象（Kwiatkowski＆Chang，2017）。考慮到不同類型的神經(jīng)網(wǎng)絡(luò)，作者表明，通過網(wǎng)絡(luò)深度降低學(xué)習(xí)速率可以顯著提高收斂速度。因此，這種觀察可能取決于更普遍的現(xiàn)象

標(biāo)注和軟標(biāo)簽

? ? ? ? ?自然人類言語的情感內(nèi)容是復(fù)雜的，是不同情緒交織在一起的。另外，對人類情緒的感知是相當(dāng)主觀的。這就是為什么IEMOCAP數(shù)據(jù)集的標(biāo)簽由多個(gè)注釋者執(zhí)行，他們被允許分配多個(gè)情感標(biāo)簽（Busso et al。，2008）。（Mower等，2009）的作者考慮到了這種多標(biāo)簽分配。他們根據(jù)彼此之間注釋者的同意將數(shù)據(jù)集分組。遵循這個(gè)想法，我們引入兩個(gè)數(shù)據(jù)子集。當(dāng)所有三位評估者就一個(gè)共同的標(biāo)簽達(dá)成一致時(shí)，我們將標(biāo)簽稱為一致（原型（Mower et al。，2009））。當(dāng)評估者對情緒不一致時(shí)，我們將標(biāo)簽稱為含糊不清（在Mower等人，2009）中的非原型多數(shù)贊成共識）。在IEMOCAP即興發(fā)音中，只有36：5％被一致標(biāo)記，而63：5％構(gòu)成了不明確的子集。特別是，對于被標(biāo)記為中性和幸福的話語，一致性樣本的百分比分別下降到30：1％和18％（見表4），這表明這些類別的標(biāo)簽含糊不清。

? ? ? ?在本節(jié)中，我們分析了我們最佳模型的每類績效，并根據(jù)樣本所屬的哪個(gè)子集（一致或模糊不清）來說明它如何變化。表6總結(jié)了預(yù)測結(jié)果。人們可以看到，每班準(zhǔn)確率主要不是由可用樣本的數(shù)量決定的（例如，雖然悲傷被認(rèn)為比中性情緒好得多，即使它在數(shù)據(jù)集中表現(xiàn)得少得多），但也涉及到注釋。事實(shí)上，最好的預(yù)測情緒是具有最高標(biāo)準(zhǔn)樣本比例的情況（見表4）。雖然過度抽樣，但幸福是迄今為止最不被認(rèn)可的

? ? ? ? ?情感（28：9％），而憤怒（73％）和悲傷（83：2％）最常被正確預(yù)測。最佳模型的UA為61：7％，在一致（+4：5％）和不明確（-3：5％）子集之間存在顯著差異。分別考慮每種情緒，每個(gè)類別的準(zhǔn)確性在一致子集上高于模糊子集（中性情感除外），憤怒的最大差異為22：5％（見表6中的陰影列）。當(dāng)分類器未能正確預(yù)測時(shí)，我們檢查網(wǎng)絡(luò)排名第二的情緒（查看softmax輸出）是否正確（請參見表6中的第-2列）。我們觀察到，對于快樂和中性情緒（類別預(yù)測最不自信），預(yù)測作為模型的第二選擇的標(biāo)簽通常與真實(shí)標(biāo)簽一致。在這種情況下，提高分?jǐn)?shù)的可能補(bǔ)充技術(shù)是已經(jīng)在Satt等人（2017）中測試過的兩步預(yù)測。但是，在這項(xiàng)工作中，我們探索了另一種改進(jìn)分類的方法。我們通過在培訓(xùn)期間引入軟標(biāo)簽來考慮可用的多標(biāo)簽注釋。為了反映給定標(biāo)簽的置信度，我們根據(jù)注釋者為相應(yīng)話語給出的多個(gè)標(biāo)簽分配一個(gè)概率（例如參見表5中的陰影列）。例如，如果一個(gè)話語被兩個(gè)注釋者標(biāo)記為中性情緒，而被第三個(gè)標(biāo)記為悲傷，那么它的硬標(biāo)簽是“中性”的（它可以用一個(gè)熱點(diǎn)向量編碼為（1,0,0,0 ）），而它的軟標(biāo)簽是兩種情緒的混合物：中性情緒，67％的重量和33％的重量（可以編碼為（0.67,0,0.33,0））的悲傷。有時(shí)候，注釋者會從我們正在考慮的集合中分配一個(gè)標(biāo)簽（例如“興奮”）。為了將其考慮在內(nèi)，我們使用適當(dāng)?shù)臋?quán)重。當(dāng)分配給話語的所有多標(biāo)簽屬于所述感興趣的集合時(shí)，話語具有權(quán)重1，而具有該組外的至少一個(gè)多標(biāo)簽的話語具有更小的權(quán)重（參見表5）。訓(xùn)練過程的損失函數(shù)仍然是分類交叉熵，但軟標(biāo)簽取代了硬標(biāo)簽。結(jié)果顯示在表6中。查看每班課程性能，可以看出，唯一受益于軟標(biāo)簽的課程是中性情緒。其他班級的表現(xiàn)明顯更差。由于中性情緒類是豐富類，這導(dǎo)致了更高的WA，但UA下降。

結(jié)論：

? ? ? ?在這項(xiàng)工作中，我們研究了幾種技術(shù)來增強(qiáng)譜圖中的語音情感識別，顯示出高度競爭的表現(xiàn)。此外，對結(jié)果進(jìn)行仔細(xì)分析可以解釋每種應(yīng)用技術(shù)的貢獻(xiàn)。我們的工作涉及超參數(shù)優(yōu)化以及數(shù)據(jù)的探索。遵循語音分析的現(xiàn)代趨勢，我們使用混合CNN-LSTM架構(gòu)，利用卷積層的能力從原始輸入中提取高級表示。有趣的是，我們注意到卷積和LSTM層的參數(shù)訓(xùn)練速度非常不同，這阻礙了模型潛能的開發(fā)。因此，學(xué)習(xí)率調(diào)整對于充分利用這種架構(gòu)至關(guān)重要。這項(xiàng)技術(shù)占未加權(quán)準(zhǔn)確度的1.2-1.4％的改善。我們還調(diào)查了批量標(biāo)準(zhǔn)化的效果，這是大多數(shù)圖像識別任務(wù)中不可缺少的工具。但是，并不總是建議將批量歸一化應(yīng)用于時(shí)間序列數(shù)據(jù)，并可能導(dǎo)致數(shù)據(jù)失真。為了盡可能地保留信號結(jié)構(gòu)，我們按層進(jìn)行標(biāo)準(zhǔn)化以及批處理。盡管如此，我們并沒有設(shè)法提高性能，這可能是由于我們必須使用小批量才能適應(yīng)可用的GPU內(nèi)存。收集和標(biāo)記與自動情感識別相關(guān)的語音數(shù)據(jù)是困難的。盡管這項(xiàng)任務(wù)是標(biāo)準(zhǔn)和適當(dāng)?shù)臄?shù)據(jù)集之一IEMOCAP仍然存在缺陷和階級失衡的缺陷。因此，正如前面的工作所指出的那樣，交叉驗(yàn)證對模型性能的無偏測量是至關(guān)重要的，因?yàn)楦鶕?jù)哪個(gè)揚(yáng)聲器支持測量精度，結(jié)果會有很大差異。在這里，我們主張支持10倍而不是5倍交叉驗(yàn)證，這樣就不會導(dǎo)致結(jié)果模糊。我們利用數(shù)據(jù)增強(qiáng)和次要類別過度抽樣，這證明可以成功地增強(qiáng)對代表不足的類別的檢測。這兩種技術(shù)的結(jié)合導(dǎo)致1.8％的增長相對于基線的未加權(quán)準(zhǔn)確度。最后，除了數(shù)據(jù)集的局限性之外，任務(wù)本身也存在固有的困難，反映在大多數(shù)情況下，人類注釋者本身并不同意情緒。結(jié)果，我們的神經(jīng)網(wǎng)絡(luò)經(jīng)常對模糊樣本錯(cuò)誤分類。為了克服這個(gè)問題，我們試圖通過引入軟標(biāo)簽來利用各個(gè)注釋器的可用信息。然而，這對于未加權(quán)的準(zhǔn)確性是有害的，因?yàn)樗鼉H有利于檢測主要類。鑒于用于情感識別任務(wù)的混合CNN-LSTM架構(gòu)的成功，未來工作的可能方向?qū)⑹鞘褂镁矸eLSTM（Shi et al。2015），其中定義LSTM分量的矩陣乘積用卷積代替。鑒于數(shù)據(jù)增強(qiáng)的重要性，另一個(gè)有希望的想法是使用生成對抗網(wǎng)絡(luò)（Goodfellow等，2014）來實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。這種方法在圖像分類（Shrivastava等，2017）中已被證明是成功的，它將成為VLTP的替代品，用于合成新的現(xiàn)實(shí)樣本。

情緒識別Efficient Emotion Recognition from Speech Using Deep Learning on Spectrograms

基本參數(shù)：

win：20ms? 40ms

幀：10ms

DFT: 800/1600

輸出：M*N矩陣

評估方法和模型：

我們使用了兩個(gè)通用評估標(biāo)準(zhǔn)：

總體準(zhǔn)確度 - 數(shù)據(jù)集中的每個(gè)句子具有相同的權(quán)重，AKA加權(quán)準(zhǔn)確度

類精度 - 首先評估每種情緒的準(zhǔn)確度，然后進(jìn)行平均，即不加權(quán)的精度

為了比較以下四個(gè)情緒被使用：憤怒，幸福，中立和悲傷。我們測試了幾十種拓?fù)浜蛥?shù)的組合。我們評估了卷積式拓?fù)?，范圍?層到8層，具有時(shí)間窗口大小和頻率網(wǎng)格分辨率的不同組合。我們還評估了具有一至六個(gè)卷積層的拓?fù)浣Y(jié)構(gòu)有一個(gè)和兩個(gè)LSTM層。下表總結(jié)了最佳拓?fù)浣Y(jié)構(gòu)，僅與卷積和LSTM卷積。

實(shí)驗(yàn)結(jié)論：

關(guān)于上面的表1，我們使用了以下內(nèi)容

參數(shù)：

1、窗口大小設(shè)置為40毫秒; 一個(gè)20毫秒的窗口產(chǎn)生了類似的結(jié)果，在不同的拓?fù)浣Y(jié)構(gòu)中降低0-2％雙向LSTM包含128x2節(jié)點(diǎn); 使用64x2節(jié)點(diǎn)，精度下降1-3％;

3、頻率網(wǎng)格分辨率設(shè)置為10Hz; 較低分辨率（20Hz）的精度降低1-3％;

4、發(fā)現(xiàn)卷積網(wǎng)絡(luò)的最佳拓?fù)浣Y(jié)構(gòu)包括5層（我們嘗試了2-8層），而最好的混合拓?fù)浣Y(jié)構(gòu)包括3個(gè)卷積層和一個(gè)LSTM層（我們嘗試了1-6個(gè)卷積層和 1-2層LSTM層）;

5、對深度網(wǎng)絡(luò)進(jìn)行了優(yōu)化，以最大限度地提高總體精度（這在下面進(jìn)行了討論）

IEMOCAP語料庫顯著不平衡;應(yīng)對對于不平衡的數(shù)據(jù)，我們嘗試了以下技術(shù)：

1、訓(xùn)練網(wǎng)絡(luò)以最大化類精度而不是整體精度，總體精度的懲罰使得它不太有用;

2、為隨機(jī)梯度賦予不同的權(quán)重，與類大小成反比，它將整體和類別精度都提高了13％;

3、使用統(tǒng)計(jì)過采樣來獲得同等規(guī)模的訓(xùn)練類增加了最小類準(zhǔn)確度（開心），但不是整體和班級準(zhǔn)確度。我們還嘗試了兩步預(yù)測，基于：

? ? ? ? ? 演示了一個(gè)過濾器，傾向于了解聲譜圖中較不相關(guān)的區(qū)域，包括沉默和低能區(qū)。這種激活解釋了深度網(wǎng)絡(luò)如何將光譜圖的相關(guān)部分與不太重要的區(qū)域分開。為了進(jìn)一步提高所提出的解決方案的識別精度，我們試圖在LSTM層中增加一個(gè)一維的關(guān)注機(jī)制。基于圖像對象識別中二維注意機(jī)制的成功[25-26]，我們的動機(jī)是找到與情感識別相關(guān)的語音信號的時(shí)間段。不幸的是，我們還沒有獲得任何精度的改進(jìn)，因此得出結(jié)論，在我們的例子中，卷積和LSTM層似乎從對數(shù)譜圖中有效地檢測了相關(guān)的時(shí)間段。

結(jié)論：

? ? ? ? 我們在有限的延遲約束（<= 3秒）的情況下，從語音中演示了一個(gè)情感識別系統(tǒng)，與以前的作品相比，在無延遲約束的情況下，通用基準(zhǔn)測試數(shù)據(jù)集IEMOACP具有最先進(jìn)的準(zhǔn)確性：其中一個(gè)測試網(wǎng)絡(luò)拓?fù)溥_(dá)到了67.3％和62.0％，與之前的工作相比，達(dá)到了63.9％和62.8％，分別。該系統(tǒng)基于端到端深度神經(jīng)網(wǎng)絡(luò)，直接應(yīng)用于原始譜圖而無需特征提取步驟。使用原始譜圖使我們能夠輕松地組合基于諧波濾波的降噪解決方案，該解決方案可以處理高噪聲級別，如SNR = 0dB- 我們在背景非語音噪音的情況下證明了這個(gè)水平的穩(wěn)健性。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

CNN+LSTM論文翻譯

CNN+LSTM論文翻譯

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

CNN+LSTM論文翻譯

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av