(轉(zhuǎn))設(shè)計(jì)一個(gè)語音交互界面(Voice User Interface)

此文為Medium上的一篇文章,搬運(yùn)過來供自己和大家學(xué)習(xí)下。原文鏈接

https://medium.com/@xuuuwj/%E8%AE%BE%E8%AE%A1%E4%B8%80%E4%B8%AA%E8%AF%AD%E9%9F%B3%E4%BA%A4%E4%BA%92%E7%95%8C%E9%9D%A2-voice-user-interface-1-6364d4529a28

去年11月第一次接觸VUI Design以來,已有三個(gè)多月,期間憑著網(wǎng)上的資料(主要是google designguideline\dueros.com\設(shè)計(jì)師手記\論文)以及自己的UX知識(shí),我嘗試設(shè)計(jì)了三個(gè)項(xiàng)目:一個(gè)買書的skill、一款智能音箱語音交互游戲、一個(gè)關(guān)于中國電信100M寬帶業(yè)務(wù)的微信咨詢機(jī)器人,前兩個(gè)項(xiàng)目做到原型為止,最后一個(gè)已經(jīng)在微信公眾號(hào)后臺(tái)實(shí)現(xiàn)。但這三個(gè)項(xiàng)目的重點(diǎn)都被放在conversation design上,并不能算完整意義上的VUI。

本月剛剛讀完?Cathy Pearl的《語音用戶界面設(shè)計(jì)》(《Designing Voice User Interface》) 和《Voice User Interface Design》(By Michael H. Cohen, James P. Giangola, Jennifer Balogh),書中完整地討論了VUI設(shè)計(jì)的基本原則、重要的技術(shù)模塊以及用戶測(cè)試等問題,幫助勾畫出了一張比較完整的VUI Design全景圖。

在接下來的文章中,我會(huì)嘗試用一個(gè)happy path串連起由0到1設(shè)計(jì)一個(gè)語音交互界面的過程,希望能定義好每個(gè)小框架中的設(shè)計(jì)問題,然后把它們變作一種肌肉記憶。

By the way, 因?yàn)檎f話這件事情太本能了,所以我覺得設(shè)計(jì)VUI困難的一點(diǎn)在于怎樣從用戶思維中跳出來,讓自己重新回到設(shè)計(jì)師的角色上:)

VUI是合適的選擇嗎?

語音界面的優(yōu)勢(shì)主要體現(xiàn)在三個(gè)方面:一是速度,包括輸入更方便、入口更淺、學(xué)習(xí)負(fù)擔(dān)更小等;二是共時(shí),比如允許多任務(wù)同時(shí)進(jìn)行;三是探索性,更能激發(fā)用戶的好奇心,提升用戶體驗(yàn)。不過同時(shí),也不要忘記語音交流是非常受場景、技術(shù)及用戶習(xí)慣限制的一件事。

可以參考Google-fit-quiz里的問題,來驗(yàn)證VUI究竟是不是你的最佳選擇。



設(shè)計(jì)VUI時(shí)我們?cè)谠O(shè)計(jì)什么?

在回答之前,我們需要先了解:1.用戶進(jìn)行語音交互的方式有哪些,2.VUI系統(tǒng)內(nèi)部是如何運(yùn)作的。

1.用戶進(jìn)行語音交互的方式有哪些

The Nielson Norman Group將語音交互總結(jié)為以下屏幕優(yōu)先、純語音和語音優(yōu)先三種模式:

??Screen-first Interaction(屏幕優(yōu)先):?Here, we start with an application designed primarily for screen, and voice controls are added afterwards to enhance the experience.(設(shè)計(jì)一個(gè)以屏幕顯示為主的App, 為了提升用戶體驗(yàn),會(huì)加一些語音元素)

???Voice-only Interaction(只有語音交互):?Here there is no screen at all, and input and output is based on sound, such as a smart speaker.(VUI設(shè)備沒有屏幕,輸入和輸出都要聲音,比如智能揚(yáng)聲器)

??Voice-first Interaction(語音優(yōu)先):?This is where an app designed primarily for voice is enhanced through the addition of a screen to output information.(以語音為主要交互方式的App,輸出信息在屏幕上顯示,通過這種方式提升App體驗(yàn))

屏幕優(yōu)先的情況下,最典型的代表就是手機(jī)語音助手,用戶不僅可以通過語音,還可以通過鍵入、手勢(shì)來進(jìn)行操作,系統(tǒng)回復(fù)的內(nèi)容也包含了語音、文本、圖片、列表、鏈接等等。


純語音交互的代表之一是智能音箱,用戶通過“喚醒”詞,比如“ Alexa”,來開啟VUI交互;另一個(gè)代表是電話客服,也就是交互式語音應(yīng)答(Interactive Voice Response, IVR),它可以通過電話線路理解人們的請(qǐng)求并指引用戶完成相應(yīng)的任務(wù),比如預(yù)定機(jī)票、查詢?cè)捹M(fèi)等。


2.對(duì)話系統(tǒng)是如何運(yùn)作的

可以把對(duì)話系統(tǒng)看作人機(jī)翻譯機(jī),接收人類的自然語言并把它翻譯成計(jì)算機(jī)能懂的結(jié)構(gòu)化語言,以便進(jìn)行信息匹配與加工,最終再以自然語言的形式反饋給說話者,完成一次“溝通”。“溝通”的本質(zhì)是通過對(duì)最優(yōu)解的一步步預(yù)測(cè),以生成一個(gè)匹配概率盡可能高的反饋,需要計(jì)算能力、算法與數(shù)據(jù)的背后支持。

具體情況如下圖所示:


當(dāng)用戶對(duì)系統(tǒng)講話(utterance),系統(tǒng)會(huì)首先通過語音識(shí)別(ASR)①接收并解析語音,識(shí)別器可以提供多個(gè)可能的結(jié)果,即N-best list,從中為接收到的語音匹配最相似的詞串文本(recognition hypothesis),然后反饋給下一個(gè)自然語言理解(NLU)②模塊。

理解自然語言,即系統(tǒng)通過對(duì)詞法、句法、語義的分析,識(shí)別(identify)用戶的意圖(intent)或者用戶言語所涉及的領(lǐng)域(domain)、實(shí)體(entities),生成一個(gè)結(jié)構(gòu)化的語義表示*,包括語言類型(陳述需求,詢問屬性,否定,選擇疑問,等等)和條件信息(有什么條件、值是多少)。比如,“幫我查深圳的天氣”這句話對(duì)應(yīng)的語義表示為“inform(occasion=天氣,location=深圳)”,其中“inform”代表“陳述需求”,括號(hào)里面的內(nèi)容我們稱之為slot-value pair。關(guān)于計(jì)算機(jī)是如何理解自然語言的,可以點(diǎn)擊這里詳細(xì)了解。

語義表示生成之后被轉(zhuǎn)交給對(duì)話管理器(DM)③,由對(duì)話管理器來決定答復(fù)給用戶什么以及怎樣答復(fù)。

對(duì)話管理器是對(duì)話系統(tǒng)中很關(guān)鍵的一個(gè)模塊,連結(jié)著一個(gè)或多個(gè)知識(shí)庫(Knowledge Base, KB)④。通常包括:a.對(duì)話狀態(tài)跟蹤(dialogue state tracking),比如追蹤執(zhí)行用戶意圖所需的信息是否完整;b.對(duì)話策略(dialogue policy),即根據(jù)當(dāng)前的狀態(tài)決策下一步應(yīng)該采取的最優(yōu)動(dòng)作,比如,是直接調(diào)用知識(shí)庫(knowledge base)內(nèi)容提供結(jié)果、詢問特定限制條件、澄清或確認(rèn)需求、還是開啟相關(guān)的某個(gè)軟件呢。

不同的對(duì)話系統(tǒng),goal-driven system(比如任務(wù)型、問答型)和open-domain system(比如閑聊型),對(duì)話管理器的任務(wù)、知識(shí)庫內(nèi)容也不同。


任務(wù)型對(duì)話的場景相對(duì)復(fù)雜,通常會(huì)與用戶進(jìn)行多倫對(duì)話,需要參數(shù)化請(qǐng)求并通過slots filling的形式持續(xù)跟蹤對(duì)話,直到識(shí)別出用戶意圖、特征詞、slot-value pairs,即系系統(tǒng)要執(zhí)行的動(dòng)作的類型和操作參數(shù)。

問答型則不需要考慮復(fù)雜的對(duì)話邏輯,通常一輪對(duì)話就可以解決,重點(diǎn)在于語義解析與實(shí)體匹配。

閑聊型包括檢索模式和生成模式,檢索式是利用網(wǎng)絡(luò)中已有的大量對(duì)話語料來構(gòu)建索引,從索引中查找可能的候選回復(fù),而生成式則直接從大量的人人的對(duì)話中學(xué)習(xí)對(duì)話模型,然后利用對(duì)話模型“創(chuàng)作”回復(fù)。

對(duì)話管理器會(huì)根據(jù)當(dāng)前的對(duì)話狀態(tài)生成一個(gè)預(yù)期回復(fù)(intended response),然后進(jìn)入自然語言生成(NLG)⑤-文本轉(zhuǎn)語音(TTS)⑥環(huán)節(jié),把結(jié)構(gòu)化的預(yù)期回復(fù)改造成自然語言,最終呈現(xiàn)給用戶。

VUI體驗(yàn)包含三個(gè)層面:聲音形象、交互方式、對(duì)話內(nèi)容。

1.聲音形象

常見的說法是“系統(tǒng)形象(system persona)”,相當(dāng)于產(chǎn)品的前端,即系統(tǒng)通過的①語音特征,語氣、語調(diào)、音色、節(jié)奏等。你可以選擇使用合成(synthesized)聲音,也可以選擇錄制的(recorded)聲音;


②話術(shù),編寫問候語、特殊應(yīng)答、提示語等時(shí)的用詞、長短句這些,來展現(xiàn)與品牌相符的性格特質(zhì),比如親切or正式,主動(dòng)or順從。

一個(gè)好的system persona能夠很自然地成為你編寫對(duì)話時(shí)的參考條件:“在這種情況下,這個(gè)persona會(huì)說什么或做什么?”

2.交互方式

VUI的交互方式與對(duì)話內(nèi)容很難徹底分開討論,但做這種嘗試,有助于跳出用戶視角,走進(jìn)“黑盒子”中。

我傾向于將“交互方式”看作《Voice User Interface Design》中所言的“High-level design”,而將“對(duì)話內(nèi)容”看作“Detailed design”。

“High-level design”關(guān)心的是怎樣推動(dòng)對(duì)話流暢地進(jìn)行,讓用戶知曉系統(tǒng)的狀態(tài)、任務(wù)進(jìn)度等以便操作,比如系統(tǒng)在聆聽、在期待收到指令、已離線等,可以理解為GUI中的彈窗、動(dòng)效、視覺反饋等。

同時(shí)也為系統(tǒng)設(shè)計(jì)更好的規(guī)則,以便它做出更好的決策,比如在什么情況下需要向用戶確認(rèn)請(qǐng)求,可以理解為GUI設(shè)計(jì)中看不見的菱形判斷框。


這些問題主要涉及到以下:

①對(duì)話模式設(shè)計(jì)

A.命令-控制式(command and control),即用戶想要說話時(shí)必須先喚醒系統(tǒng),方式可以是使用喚醒詞、手勢(shì)觸摸或者按鍵。一輪對(duì)話完畢,用戶須再次喚醒系統(tǒng)以開啟下一輪對(duì)話。

B.對(duì)話式,即在一段封閉的對(duì)話期間,比如完成某項(xiàng)特定的任務(wù)時(shí),用戶不必每一回合都喚醒系統(tǒng),而是自然地進(jìn)行話輪轉(zhuǎn)換,在輪到用戶說話時(shí)系統(tǒng)自動(dòng)開啟麥克風(fēng)。

C.混合式,即命控式與對(duì)話式的結(jié)合,系統(tǒng)向用戶提供明顯的狀態(tài)切換標(biāo)識(shí),比如使用聲音標(biāo)志(earcon)以表示某個(gè)狀態(tài)的開始與結(jié)束。

②對(duì)話策略(dialog strategy)設(shè)計(jì)

包括:

A.對(duì)話框架設(shè)計(jì),即對(duì)話組織策略

《Designing Voice User Interface》一書把對(duì)話框架分為:a.定向?qū)υ?directed dialog),即系統(tǒng)主導(dǎo)對(duì)話,向用戶詢問非常具體的問題,以期望獲得同樣具體的答案;b.菜單層級(jí)結(jié)構(gòu)(menu hierarchy),即系統(tǒng)向用戶提供一系列選擇,一旦用戶完成了菜單a的選擇,系統(tǒng)會(huì)繼續(xù)提供菜單b,直到完成用戶的請(qǐng)求;c.混合推動(dòng)(mixed-initiative),即定向?qū)υ捙c菜單層級(jí)相混合,系統(tǒng)詢問用戶問題,也允許用戶通過提供額外的信息來引導(dǎo)對(duì)話。


B.對(duì)話修補(bǔ)策略

技術(shù)并不完美,識(shí)別器可能還沒有準(zhǔn)備好接受呼叫者的話語,或者沒有接收到說話者的語音,也可能響應(yīng)時(shí)間太長 。用戶也常常會(huì)突然扭轉(zhuǎn)話題,或者提供太多信息。因此在正向推動(dòng)對(duì)話之外,系統(tǒng)也必須配備處理這些情況的策略,以減少前功盡棄的概率。

a.錯(cuò)誤恢復(fù)

可能出現(xiàn)的錯(cuò)誤有以下四種:

·未檢測(cè)到語音

·檢測(cè)到語音,但沒有識(shí)別

·正確識(shí)別語音,但無法處理

·部分語音識(shí)別錯(cuò)誤

·延遲

一般有兩種方法來處理這些情況,明確地說出來,最好能增加更多的細(xì)節(jié)讓用戶明白現(xiàn)在的狀況,比如“抱歉,我沒聽懂,請(qǐng)說出您所在的城市和區(qū)域名稱”,或者什么也不做。如何選擇要取決于VUI系統(tǒng)的交互模式與用戶場景。

Cathy Pearl 給出的參考因素

b.萬能指令

比如“幫助”、“停止”、“請(qǐng)重復(fù)一遍”、“退出”等等。設(shè)計(jì)時(shí)不僅要考慮用戶可能的需要,也要考慮用戶會(huì)怎樣表達(dá)這些需要。

③條件閾值(threshold)設(shè)計(jì)

每個(gè)應(yīng)用程序都會(huì)定義系統(tǒng)能承受的最大錯(cuò)誤,對(duì)話系統(tǒng)也不例外,尤其是上文對(duì)交互流程的描述也向我們清晰地展示了,從用戶、到技術(shù)模塊、再到數(shù)據(jù)資源,VUI的運(yùn)行充滿了不確定性。

《Designing Voice User Interface》 一書建議我們考慮設(shè)置三種閾值:單個(gè)對(duì)話狀態(tài)中的最大連續(xù)錯(cuò)誤數(shù)(特定于狀態(tài)的錯(cuò)誤計(jì)數(shù)),全局計(jì)算的最大錯(cuò)誤數(shù),以及最大錯(cuò)誤確認(rèn)數(shù)。

3.對(duì)話內(nèi)容

「保證用戶無論說什么都能得到一個(gè)最優(yōu)響應(yīng)」是VUI的終極目標(biāo)。

牢記這一點(diǎn)便很容易理解Detailed design需要做什么,即深入到單條對(duì)話中,詳細(xì)設(shè)計(jì)對(duì)話流程、輔助提示、以及異常情況處理方案。包括:

①對(duì)話設(shè)計(jì)

設(shè)計(jì)對(duì)話流程很像寫劇本,即什么樣的角色在什么情況下應(yīng)該說什么話,不同之處在于對(duì)話系統(tǒng)的情節(jié)和部分角色是寫定的。


各大平臺(tái)上,Google、Amazon、Microsoft,都有對(duì)話設(shè)計(jì)的相關(guān)指導(dǎo),可以通過這篇匯總文章來進(jìn)一步了解。

②提示列表(prompt lists)

回想一下,人與人之間的溝通也要建立在共同知識(shí)的基礎(chǔ)上,與機(jī)器對(duì)話也是一樣。讓用戶了解系統(tǒng)能做什么、不能做什么、怎么做是對(duì)的等等,才能夠?qū)崿F(xiàn)高效率的對(duì)話。

這一點(diǎn)可以通過設(shè)計(jì)提示列表(prompt lists)來輔助實(shí)現(xiàn),提示類型包括:

A.初始提示,

B.錯(cuò)誤提示,

C.幫助提示,

D.特殊應(yīng)答等等

提示的形式有多種,語音、文本、圖像,甚至聲音,都可以。

比如圖中Google assistant采用帶有文字的按鈕來告訴我它能識(shí)別屏幕上的內(nèi)容,而我只需點(diǎn)擊或者說出指令即可;右邊的兩張圖里,Google通過[視覺元素變換+“進(jìn)入對(duì)話”“離開對(duì)話”的文字提示+音效(earcon)]來隱喻游戲的開始與結(jié)束。

比如圖中Google assistant采用帶有文字的按鈕來告訴我它能識(shí)別屏幕上的內(nèi)容,而我只需點(diǎn)擊或者說出指令即可;右邊的兩張圖里,Google通過[視覺元素變換+“進(jìn)入對(duì)話”“離開對(duì)話”的文字提示+音效(earcon)]來隱喻游戲的開始與結(jié)束。

Google在designguideline for Google assistant里總結(jié)了他們運(yùn)用在提示語(prompt)中的不同元素(types of conversational components),是一份非常好的參考。

我在我的上一篇VUI文章中貼出過一次這份列表

我如何設(shè)計(jì)一個(gè)完美的語音交互界面?

設(shè)計(jì)過程其實(shí)與一般產(chǎn)品并無大異,需要考慮:

1). 用戶研究結(jié)果。包括用例、使用場景 、用戶語言模式與心理模式等??梢詤⒖疾┲鰼Lu的設(shè)計(jì)手記《語音理財(cái)案例分析》。

2). 業(yè)務(wù)場景與目標(biāo)。主要是據(jù)此確定功能列表、功能優(yōu)先級(jí)、交互方式等。推薦百度AI社區(qū)的《酒店語音助手實(shí)例教程》。

特殊的是,人工智能產(chǎn)品的形態(tài)多種多樣,設(shè)計(jì)師必須對(duì)于產(chǎn)品所依附的硬件設(shè)備、產(chǎn)品背后的數(shù)據(jù)與技術(shù)支持有所了解,以確定產(chǎn)品邊界、發(fā)現(xiàn)設(shè)計(jì)機(jī)會(huì)、持續(xù)優(yōu)化用戶體驗(yàn)。因此也需要考慮:

3). 技術(shù)與硬件基礎(chǔ)。

比如設(shè)備聯(lián)網(wǎng)程度,ASR引擎是否允許你設(shè)置N-best列表、自定義語音終止超時(shí)的時(shí)長,系統(tǒng)的負(fù)載量等。

4). 數(shù)據(jù)資源。

比如當(dāng)前資源是否能滿足該功能,哪些數(shù)據(jù)會(huì)影響系統(tǒng)響應(yīng)時(shí)間等。


如何評(píng)估語音交互界面?

人們往往通過語音識(shí)別準(zhǔn)確度來評(píng)估應(yīng)用程序的運(yùn)行效果,這也許是最糟糕的度量方式。一個(gè)應(yīng)用程序能達(dá)到90%的識(shí)別準(zhǔn)確度,同時(shí)自動(dòng)實(shí)現(xiàn)85%的業(yè)務(wù)呼叫;另一個(gè)應(yīng)用程序達(dá)到97%的識(shí)別準(zhǔn)確度,且自動(dòng)實(shí)現(xiàn)40%的業(yè)務(wù)呼叫,前者就一定比后者更差或更好嗎?

——《如何構(gòu)建語音識(shí)別應(yīng)用》( Bruce Balentine, David Morgen)

評(píng)估涉及到三個(gè)問題:

1.如何定義成功

需要與開發(fā)人員、客戶共同完成,以方便確定哪些狀態(tài)是可以衡量的,哪些不可以。盡可能將成功狀態(tài)具體化、數(shù)字化。

以下使一些成功標(biāo)準(zhǔn)的示例:

·60%想要預(yù)定酒店的用戶最終完成了預(yù)定。

·85%的用戶在1個(gè)月內(nèi)至少完成了20天的每日健康記錄。

·播放歌曲的錯(cuò)誤率低于15%。

——《語音用戶界面設(shè)計(jì)》Cathy Pearl

2.可以通過什么來衡量

A.任務(wù)完成率

B.用戶(在何處)(因?yàn)槭裁?流失率

C.使用時(shí)長

D.語音打斷情況

E.高頻異常情況

……

*如果不思考原因,以上所有衡量結(jié)果都不可用

3.如何獲得衡量數(shù)據(jù)

A.在早期建立記錄日志

B.轉(zhuǎn)錄用戶呼叫記錄

……

參考資料:

《語音用戶界面設(shè)計(jì)》Cathy Pearl

《Voice User Interface Design》Michael H. Cohen, James P. Giangola, Jennifer Balogh

百度AI社區(qū)

Google Design Guideline

Cortana Dev Center

Nielsen Norman Group

https://voiceprinciples.com/

《周耀明:自然語言對(duì)話引擎》

機(jī)器之心

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容