此文為Medium上的一篇文章，搬運(yùn)過來供自己和大家學(xué)習(xí)下。原文鏈接

https://medium.com/@xuuuwj/%E8%AE%BE%E8%AE%A1%E4%B8%80%E4%B8%AA%E8%AF%AD%E9%9F%B3%E4%BA%A4%E4%BA%92%E7%95%8C%E9%9D%A2-voice-user-interface-1-6364d4529a28

去年11月第一次接觸VUI Design以來，已有三個(gè)多月，期間憑著網(wǎng)上的資料(主要是google designguideline\dueros.com\設(shè)計(jì)師手記\論文)以及自己的UX知識(shí)，我嘗試設(shè)計(jì)了三個(gè)項(xiàng)目：一個(gè)買書的skill、一款智能音箱語音交互游戲、一個(gè)關(guān)于中國電信100M寬帶業(yè)務(wù)的微信咨詢機(jī)器人，前兩個(gè)項(xiàng)目做到原型為止，最后一個(gè)已經(jīng)在微信公眾號(hào)后臺(tái)實(shí)現(xiàn)。但這三個(gè)項(xiàng)目的重點(diǎn)都被放在conversation design上，并不能算完整意義上的VUI。

本月剛剛讀完?Cathy Pearl的《語音用戶界面設(shè)計(jì)》(《Designing Voice User Interface》) 和《Voice User Interface Design》(By Michael H. Cohen, James P. Giangola, Jennifer Balogh)，書中完整地討論了VUI設(shè)計(jì)的基本原則、重要的技術(shù)模塊以及用戶測(cè)試等問題，幫助勾畫出了一張比較完整的VUI Design全景圖。

在接下來的文章中，我會(huì)嘗試用一個(gè)happy path串連起由0到1設(shè)計(jì)一個(gè)語音交互界面的過程，希望能定義好每個(gè)小框架中的設(shè)計(jì)問題，然后把它們變作一種肌肉記憶。

By the way，因?yàn)檎f話這件事情太本能了，所以我覺得設(shè)計(jì)VUI困難的一點(diǎn)在于怎樣從用戶思維中跳出來，讓自己重新回到設(shè)計(jì)師的角色上：）

VUI是合適的選擇嗎?

語音界面的優(yōu)勢(shì)主要體現(xiàn)在三個(gè)方面：一是速度，包括輸入更方便、入口更淺、學(xué)習(xí)負(fù)擔(dān)更小等；二是共時(shí)，比如允許多任務(wù)同時(shí)進(jìn)行；三是探索性，更能激發(fā)用戶的好奇心，提升用戶體驗(yàn)。不過同時(shí)，也不要忘記語音交流是非常受場景、技術(shù)及用戶習(xí)慣限制的一件事。

可以參考Google-fit-quiz里的問題，來驗(yàn)證VUI究竟是不是你的最佳選擇。

設(shè)計(jì)VUI時(shí)我們?cè)谠O(shè)計(jì)什么？

在回答之前，我們需要先了解：1.用戶進(jìn)行語音交互的方式有哪些，2.VUI系統(tǒng)內(nèi)部是如何運(yùn)作的。

1.用戶進(jìn)行語音交互的方式有哪些

The Nielson Norman Group將語音交互總結(jié)為以下屏幕優(yōu)先、純語音和語音優(yōu)先三種模式：

??Screen-first Interaction（屏幕優(yōu)先）:?Here, we start with an application designed primarily for screen, and voice controls are added afterwards to enhance the experience.（設(shè)計(jì)一個(gè)以屏幕顯示為主的App, 為了提升用戶體驗(yàn)，會(huì)加一些語音元素）

???Voice-only Interaction（只有語音交互）:?Here there is no screen at all, and input and output is based on sound, such as a smart speaker.（VUI設(shè)備沒有屏幕，輸入和輸出都要聲音，比如智能揚(yáng)聲器）

??Voice-first Interaction（語音優(yōu)先）:?This is where an app designed primarily for voice is enhanced through the addition of a screen to output information.（以語音為主要交互方式的App，輸出信息在屏幕上顯示，通過這種方式提升App體驗(yàn)）

屏幕優(yōu)先的情況下，最典型的代表就是手機(jī)語音助手，用戶不僅可以通過語音，還可以通過鍵入、手勢(shì)來進(jìn)行操作，系統(tǒng)回復(fù)的內(nèi)容也包含了語音、文本、圖片、列表、鏈接等等。

純語音交互的代表之一是智能音箱，用戶通過“喚醒”詞，比如“ Alexa”，來開啟VUI交互；另一個(gè)代表是電話客服，也就是交互式語音應(yīng)答(Interactive Voice Response, IVR)，它可以通過電話線路理解人們的請(qǐng)求并指引用戶完成相應(yīng)的任務(wù)，比如預(yù)定機(jī)票、查詢?cè)捹M(fèi)等。

2.對(duì)話系統(tǒng)是如何運(yùn)作的

可以把對(duì)話系統(tǒng)看作人機(jī)翻譯機(jī)，接收人類的自然語言并把它翻譯成計(jì)算機(jī)能懂的結(jié)構(gòu)化語言，以便進(jìn)行信息匹配與加工，最終再以自然語言的形式反饋給說話者，完成一次“溝通”。“溝通”的本質(zhì)是通過對(duì)最優(yōu)解的一步步預(yù)測(cè)，以生成一個(gè)匹配概率盡可能高的反饋，需要計(jì)算能力、算法與數(shù)據(jù)的背后支持。

具體情況如下圖所示：

當(dāng)用戶對(duì)系統(tǒng)講話(utterance)，系統(tǒng)會(huì)首先通過語音識(shí)別(ASR)①接收并解析語音，識(shí)別器可以提供多個(gè)可能的結(jié)果，即N-best list，從中為接收到的語音匹配最相似的詞串文本(recognition hypothesis)，然后反饋給下一個(gè)自然語言理解(NLU)②模塊。

理解自然語言，即系統(tǒng)通過對(duì)詞法、句法、語義的分析，識(shí)別(identify)用戶的意圖(intent)或者用戶言語所涉及的領(lǐng)域(domain)、實(shí)體(entities)，生成一個(gè)結(jié)構(gòu)化的語義表示*，包括語言類型(陳述需求，詢問屬性，否定，選擇疑問，等等)和條件信息(有什么條件、值是多少)。比如，“幫我查深圳的天氣”這句話對(duì)應(yīng)的語義表示為“inform(occasion=天氣，location=深圳)”，其中“inform”代表“陳述需求”，括號(hào)里面的內(nèi)容我們稱之為slot-value pair。關(guān)于計(jì)算機(jī)是如何理解自然語言的，可以點(diǎn)擊這里詳細(xì)了解。

語義表示生成之后被轉(zhuǎn)交給對(duì)話管理器(DM)③，由對(duì)話管理器來決定答復(fù)給用戶什么以及怎樣答復(fù)。

對(duì)話管理器是對(duì)話系統(tǒng)中很關(guān)鍵的一個(gè)模塊，連結(jié)著一個(gè)或多個(gè)知識(shí)庫(Knowledge Base, KB)④。通常包括：a.對(duì)話狀態(tài)跟蹤(dialogue state tracking)，比如追蹤執(zhí)行用戶意圖所需的信息是否完整；b.對(duì)話策略(dialogue policy)，即根據(jù)當(dāng)前的狀態(tài)決策下一步應(yīng)該采取的最優(yōu)動(dòng)作，比如，是直接調(diào)用知識(shí)庫(knowledge base)內(nèi)容提供結(jié)果、詢問特定限制條件、澄清或確認(rèn)需求、還是開啟相關(guān)的某個(gè)軟件呢。

不同的對(duì)話系統(tǒng)，goal-driven system(比如任務(wù)型、問答型)和open-domain system(比如閑聊型)，對(duì)話管理器的任務(wù)、知識(shí)庫內(nèi)容也不同。

任務(wù)型對(duì)話的場景相對(duì)復(fù)雜，通常會(huì)與用戶進(jìn)行多倫對(duì)話，需要參數(shù)化請(qǐng)求并通過slots filling的形式持續(xù)跟蹤對(duì)話，直到識(shí)別出用戶意圖、特征詞、slot-value pairs，即系系統(tǒng)要執(zhí)行的動(dòng)作的類型和操作參數(shù)。

問答型則不需要考慮復(fù)雜的對(duì)話邏輯，通常一輪對(duì)話就可以解決，重點(diǎn)在于語義解析與實(shí)體匹配。

閑聊型包括檢索模式和生成模式，檢索式是利用網(wǎng)絡(luò)中已有的大量對(duì)話語料來構(gòu)建索引，從索引中查找可能的候選回復(fù)，而生成式則直接從大量的人人的對(duì)話中學(xué)習(xí)對(duì)話模型，然后利用對(duì)話模型“創(chuàng)作”回復(fù)。

對(duì)話管理器會(huì)根據(jù)當(dāng)前的對(duì)話狀態(tài)生成一個(gè)預(yù)期回復(fù)(intended response)，然后進(jìn)入自然語言生成(NLG)⑤-文本轉(zhuǎn)語音(TTS)⑥環(huán)節(jié)，把結(jié)構(gòu)化的預(yù)期回復(fù)改造成自然語言，最終呈現(xiàn)給用戶。

VUI體驗(yàn)包含三個(gè)層面：聲音形象、交互方式、對(duì)話內(nèi)容。

1.聲音形象

常見的說法是“系統(tǒng)形象(system persona)”，相當(dāng)于產(chǎn)品的前端，即系統(tǒng)通過的①語音特征，語氣、語調(diào)、音色、節(jié)奏等。你可以選擇使用合成(synthesized)聲音，也可以選擇錄制的(recorded)聲音；

②話術(shù)，編寫問候語、特殊應(yīng)答、提示語等時(shí)的用詞、長短句這些，來展現(xiàn)與品牌相符的性格特質(zhì)，比如親切or正式，主動(dòng)or順從。

一個(gè)好的system persona能夠很自然地成為你編寫對(duì)話時(shí)的參考條件：“在這種情況下，這個(gè)persona會(huì)說什么或做什么？”

2.交互方式

VUI的交互方式與對(duì)話內(nèi)容很難徹底分開討論，但做這種嘗試，有助于跳出用戶視角，走進(jìn)“黑盒子”中。

我傾向于將“交互方式”看作《Voice User Interface Design》中所言的“High-level design”，而將“對(duì)話內(nèi)容”看作“Detailed design”。

“High-level design”關(guān)心的是怎樣推動(dòng)對(duì)話流暢地進(jìn)行，讓用戶知曉系統(tǒng)的狀態(tài)、任務(wù)進(jìn)度等以便操作，比如系統(tǒng)在聆聽、在期待收到指令、已離線等，可以理解為GUI中的彈窗、動(dòng)效、視覺反饋等。

同時(shí)也為系統(tǒng)設(shè)計(jì)更好的規(guī)則，以便它做出更好的決策，比如在什么情況下需要向用戶確認(rèn)請(qǐng)求，可以理解為GUI設(shè)計(jì)中看不見的菱形判斷框。

這些問題主要涉及到以下：

①對(duì)話模式設(shè)計(jì)

A.命令-控制式(command and control)，即用戶想要說話時(shí)必須先喚醒系統(tǒng)，方式可以是使用喚醒詞、手勢(shì)觸摸或者按鍵。一輪對(duì)話完畢，用戶須再次喚醒系統(tǒng)以開啟下一輪對(duì)話。

B.對(duì)話式，即在一段封閉的對(duì)話期間，比如完成某項(xiàng)特定的任務(wù)時(shí)，用戶不必每一回合都喚醒系統(tǒng)，而是自然地進(jìn)行話輪轉(zhuǎn)換，在輪到用戶說話時(shí)系統(tǒng)自動(dòng)開啟麥克風(fēng)。

C.混合式，即命控式與對(duì)話式的結(jié)合，系統(tǒng)向用戶提供明顯的狀態(tài)切換標(biāo)識(shí)，比如使用聲音標(biāo)志(earcon)以表示某個(gè)狀態(tài)的開始與結(jié)束。

②對(duì)話策略(dialog strategy)設(shè)計(jì)

包括：

A.對(duì)話框架設(shè)計(jì)，即對(duì)話組織策略

《Designing Voice User Interface》一書把對(duì)話框架分為：a.定向?qū)υ?directed dialog)，即系統(tǒng)主導(dǎo)對(duì)話，向用戶詢問非常具體的問題，以期望獲得同樣具體的答案；b.菜單層級(jí)結(jié)構(gòu)(menu hierarchy)，即系統(tǒng)向用戶提供一系列選擇，一旦用戶完成了菜單a的選擇，系統(tǒng)會(huì)繼續(xù)提供菜單b，直到完成用戶的請(qǐng)求；c.混合推動(dòng)(mixed-initiative)，即定向?qū)υ捙c菜單層級(jí)相混合，系統(tǒng)詢問用戶問題，也允許用戶通過提供額外的信息來引導(dǎo)對(duì)話。

B.對(duì)話修補(bǔ)策略

技術(shù)并不完美，識(shí)別器可能還沒有準(zhǔn)備好接受呼叫者的話語，或者沒有接收到說話者的語音，也可能響應(yīng)時(shí)間太長。用戶也常常會(huì)突然扭轉(zhuǎn)話題，或者提供太多信息。因此在正向推動(dòng)對(duì)話之外，系統(tǒng)也必須配備處理這些情況的策略，以減少前功盡棄的概率。

a.錯(cuò)誤恢復(fù)

可能出現(xiàn)的錯(cuò)誤有以下四種：

·未檢測(cè)到語音

·檢測(cè)到語音，但沒有識(shí)別

·正確識(shí)別語音，但無法處理

·部分語音識(shí)別錯(cuò)誤

·延遲

一般有兩種方法來處理這些情況，明確地說出來，最好能增加更多的細(xì)節(jié)讓用戶明白現(xiàn)在的狀況，比如“抱歉，我沒聽懂，請(qǐng)說出您所在的城市和區(qū)域名稱”，或者什么也不做。如何選擇要取決于VUI系統(tǒng)的交互模式與用戶場景。

Cathy Pearl 給出的參考因素

b.萬能指令

比如“幫助”、“停止”、“請(qǐng)重復(fù)一遍”、“退出”等等。設(shè)計(jì)時(shí)不僅要考慮用戶可能的需要，也要考慮用戶會(huì)怎樣表達(dá)這些需要。

③條件閾值(threshold)設(shè)計(jì)

每個(gè)應(yīng)用程序都會(huì)定義系統(tǒng)能承受的最大錯(cuò)誤，對(duì)話系統(tǒng)也不例外，尤其是上文對(duì)交互流程的描述也向我們清晰地展示了，從用戶、到技術(shù)模塊、再到數(shù)據(jù)資源，VUI的運(yùn)行充滿了不確定性。

《Designing Voice User Interface》一書建議我們考慮設(shè)置三種閾值：單個(gè)對(duì)話狀態(tài)中的最大連續(xù)錯(cuò)誤數(shù)（特定于狀態(tài)的錯(cuò)誤計(jì)數(shù)），全局計(jì)算的最大錯(cuò)誤數(shù)，以及最大錯(cuò)誤確認(rèn)數(shù)。

3.對(duì)話內(nèi)容

「保證用戶無論說什么都能得到一個(gè)最優(yōu)響應(yīng)」是VUI的終極目標(biāo)。

牢記這一點(diǎn)便很容易理解Detailed design需要做什么，即深入到單條對(duì)話中，詳細(xì)設(shè)計(jì)對(duì)話流程、輔助提示、以及異常情況處理方案。包括：

①對(duì)話設(shè)計(jì)

設(shè)計(jì)對(duì)話流程很像寫劇本，即什么樣的角色在什么情況下應(yīng)該說什么話，不同之處在于對(duì)話系統(tǒng)的情節(jié)和部分角色是寫定的。

各大平臺(tái)上，Google、Amazon、Microsoft，都有對(duì)話設(shè)計(jì)的相關(guān)指導(dǎo)，可以通過這篇匯總文章來進(jìn)一步了解。

②提示列表(prompt lists)

回想一下，人與人之間的溝通也要建立在共同知識(shí)的基礎(chǔ)上，與機(jī)器對(duì)話也是一樣。讓用戶了解系統(tǒng)能做什么、不能做什么、怎么做是對(duì)的等等，才能夠?qū)崿F(xiàn)高效率的對(duì)話。

這一點(diǎn)可以通過設(shè)計(jì)提示列表(prompt lists)來輔助實(shí)現(xiàn)，提示類型包括：

A.初始提示，

B.錯(cuò)誤提示,

C.幫助提示，

D.特殊應(yīng)答等等

提示的形式有多種，語音、文本、圖像，甚至聲音，都可以。

比如圖中Google assistant采用帶有文字的按鈕來告訴我它能識(shí)別屏幕上的內(nèi)容，而我只需點(diǎn)擊或者說出指令即可；右邊的兩張圖里，Google通過[視覺元素變換+“進(jìn)入對(duì)話”“離開對(duì)話”的文字提示+音效(earcon)]來隱喻游戲的開始與結(jié)束。

Google在designguideline for Google assistant里總結(jié)了他們運(yùn)用在提示語(prompt)中的不同元素(types of conversational components)，是一份非常好的參考。

我在我的上一篇VUI文章中貼出過一次這份列表

我如何設(shè)計(jì)一個(gè)完美的語音交互界面？

設(shè)計(jì)過程其實(shí)與一般產(chǎn)品并無大異，需要考慮：

1). 用戶研究結(jié)果。包括用例、使用場景、用戶語言模式與心理模式等?？梢詤⒖疾┲鰼Lu的設(shè)計(jì)手記《語音理財(cái)案例分析》。

2). 業(yè)務(wù)場景與目標(biāo)。主要是據(jù)此確定功能列表、功能優(yōu)先級(jí)、交互方式等。推薦百度AI社區(qū)的《酒店語音助手實(shí)例教程》。

特殊的是，人工智能產(chǎn)品的形態(tài)多種多樣，設(shè)計(jì)師必須對(duì)于產(chǎn)品所依附的硬件設(shè)備、產(chǎn)品背后的數(shù)據(jù)與技術(shù)支持有所了解，以確定產(chǎn)品邊界、發(fā)現(xiàn)設(shè)計(jì)機(jī)會(huì)、持續(xù)優(yōu)化用戶體驗(yàn)。因此也需要考慮：

3). 技術(shù)與硬件基礎(chǔ)。

比如設(shè)備聯(lián)網(wǎng)程度，ASR引擎是否允許你設(shè)置N-best列表、自定義語音終止超時(shí)的時(shí)長，系統(tǒng)的負(fù)載量等。

4). 數(shù)據(jù)資源。

比如當(dāng)前資源是否能滿足該功能，哪些數(shù)據(jù)會(huì)影響系統(tǒng)響應(yīng)時(shí)間等。

如何評(píng)估語音交互界面？

人們往往通過語音識(shí)別準(zhǔn)確度來評(píng)估應(yīng)用程序的運(yùn)行效果，這也許是最糟糕的度量方式。一個(gè)應(yīng)用程序能達(dá)到90%的識(shí)別準(zhǔn)確度，同時(shí)自動(dòng)實(shí)現(xiàn)85%的業(yè)務(wù)呼叫；另一個(gè)應(yīng)用程序達(dá)到97%的識(shí)別準(zhǔn)確度，且自動(dòng)實(shí)現(xiàn)40%的業(yè)務(wù)呼叫，前者就一定比后者更差或更好嗎？

——《如何構(gòu)建語音識(shí)別應(yīng)用》( Bruce Balentine, David Morgen)

評(píng)估涉及到三個(gè)問題：

1.如何定義成功

需要與開發(fā)人員、客戶共同完成，以方便確定哪些狀態(tài)是可以衡量的，哪些不可以。盡可能將成功狀態(tài)具體化、數(shù)字化。

以下使一些成功標(biāo)準(zhǔn)的示例：

·60%想要預(yù)定酒店的用戶最終完成了預(yù)定。

·85%的用戶在1個(gè)月內(nèi)至少完成了20天的每日健康記錄。

·播放歌曲的錯(cuò)誤率低于15%。

——《語音用戶界面設(shè)計(jì)》Cathy Pearl

2.可以通過什么來衡量

A.任務(wù)完成率

B.用戶(在何處)(因?yàn)槭裁?流失率

C.使用時(shí)長

D.語音打斷情況

E.高頻異常情況

……

*如果不思考原因，以上所有衡量結(jié)果都不可用

3.如何獲得衡量數(shù)據(jù)

A.在早期建立記錄日志

B.轉(zhuǎn)錄用戶呼叫記錄

……

參考資料：

《語音用戶界面設(shè)計(jì)》Cathy Pearl

《Voice User Interface Design》Michael H. Cohen, James P. Giangola, Jennifer Balogh

百度AI社區(qū)

Google Design Guideline

Cortana Dev Center

Nielsen Norman Group

https://voiceprinciples.com/

《周耀明：自然語言對(duì)話引擎》

機(jī)器之心

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

（轉(zhuǎn)）設(shè)計(jì)一個(gè)語音交互界面(Voice User Interface)

（轉(zhuǎn)）設(shè)計(jì)一個(gè)語音交互界面(Voice User Interface)

VUI是合適的選擇嗎?