語音技術(shù)的進(jìn)步增強(qiáng)了電腦的理解能力,減少了對其的恐懼
英國科幻小說家 Arthuc C.Clarke 的筆記提到,
任何科技得到足夠的進(jìn)步時與魔術(shù)之間就難以區(qū)分了。
計算機(jī)語音技術(shù)的快速進(jìn)步。使用這種技術(shù)就像念咒語一樣,對著空氣說幾個詞,然后在附近的設(shè)備就會響應(yīng)你的命令。
亞馬遜出了一款放在桌面的圓柱形的語音設(shè)備 Echo,里面的的語音助手叫做 Alexa。你可以叫他播放音樂和電臺節(jié)目,講笑話,回答一些瑣碎的問題,甚至還能控制一些智能家具。截止至圣誕節(jié)前的數(shù)據(jù),美國大約有 4% 的家庭擁有該設(shè)備,而且語音助手的數(shù)量在智能手機(jī)上快速增加。蘋果公司的 Siri 每周要處理兩百萬的條命令。美國的安卓用戶有 20% 使用 Google 搜索時是用語音輸入關(guān)鍵字的?,F(xiàn)在用語音來寫電子郵件和短信的準(zhǔn)確率已經(jīng)足夠令人滿意了,那么我們可以用語音輸入的時候我們?yōu)槭裁匆蜃帜兀?/p>

語音輸入這是非常大的轉(zhuǎn)變。這好像變得變得足夠簡單,通過使用自然的語句,語音是一種強(qiáng)大的文字轉(zhuǎn)換解決方式。窗口,圖標(biāo),菜單還有觸摸屏,更加喜歡用自然的方式來與計算機(jī)交互而不是用鍵盤輸入復(fù)雜的命令。
但是不管怎么樣在能夠與電腦進(jìn)行溝通前我們需要一個好看的外觀。類似于把手機(jī)天線隱藏掉,汽車的運(yùn)輸貨物時也不再需要用馬來拉,因此相對與目前的人們能想到的語音技術(shù),沒有屏幕和鍵盤的電腦可能更加有效,強(qiáng)大和普遍。
語音技術(shù)不會完全取代其他形式的輸入或輸出,有時仍然會使用打字而不是語音( Amazon 說也可以使用 Echo 上的屏幕來實(shí)現(xiàn)交互)的方式來與機(jī)器進(jìn)行交互。但是語音可以增加了大量被科技包圍的用戶間的互動分享。例如洗衣機(jī)上的虛擬助手會通過你指定的控制中心告訴你轉(zhuǎn)了多少次。但是,為了發(fā)掘全部潛能,需要更加超前的技術(shù)還有一系列在方便與隱私之間進(jìn)行權(quán)衡的問題。
Alexa,它是深度學(xué)習(xí)的嗎?
語音識別系統(tǒng)已經(jīng)出現(xiàn)一年多了,但它還是不可靠而且需要長時間的訓(xùn)練識別才能知道用戶的聲音?,F(xiàn)在計算機(jī)借助深度學(xué)習(xí)這一新「技能」可以不通過訓(xùn)練而且可靠的辨識幾乎所有的人的聲音。深度學(xué)習(xí)是使用從互聯(lián)網(wǎng)上獲取的數(shù)百萬的樣本來訓(xùn)練機(jī)器,時期具有類似人的智力的一個軟件系統(tǒng)。借助深度學(xué)習(xí),現(xiàn)在機(jī)器具有接近用人來翻譯的精確程度,將結(jié)果存入翻譯系統(tǒng)可以快速提高它的能力,而且機(jī)器將語言說出來的時候聲音更加自然而不會非常像生硬。總得來說,在各種形式中計算機(jī)可以更好的處理自然語言。
雖然深度學(xué)習(xí)可以使機(jī)器辨認(rèn)說話者更加可靠而且使機(jī)器發(fā)出的聲音更加自然,但是仍然無法理解所說的話的含義。這在所有的因素中是最困難的問題。如果語音設(shè)備足夠多的話,這個問題可能可以解決。計算機(jī)必須要理解其中的內(nèi)容才能維持連貫的談話而不是做一些簡單的反饋。據(jù)調(diào)查,一天中使用最多的一條語音命令是「Hey,Siri,設(shè)10分鐘記時」。大大小小的在大學(xué)里和公司里的研究人員都在研究怎么解決這個問題,創(chuàng)建一個「機(jī)器人」可以處理更多詳細(xì)談話中的復(fù)雜內(nèi)容,例如從獲取信息來勸告使用者在抵押貸款來指定旅游計劃。(此外,Amazon 懸賞一百萬美金在20分鐘機(jī)器人與人的交流中,機(jī)器人具有連貫性和有吸引力的人)
當(dāng)自然對話代替固定指令時
顧客和監(jiān)管機(jī)構(gòu)在計算機(jī)語音的發(fā)展上總是扮演了一個決定性的角色。即使在目前,相對原始的模型已經(jīng)形成,科技公司處在一個左右為難的位置。實(shí)現(xiàn)語音駕駛系統(tǒng)個性化推薦最有用的方法就是使用廣泛的個人數(shù)據(jù),例如日歷,郵件和其他敏感信息。這會增加對隱私和安全的擔(dān)心。
為了應(yīng)對未來復(fù)雜的事情,許多語音駕駛設(shè)備會一直在監(jiān)聽和等待被使用者激活,一些人已經(jīng)擔(dān)心會暗中通過互聯(lián)網(wǎng)來連接麥克風(fēng)來監(jiān)聽每一間房間和每一臺智能手機(jī)。其實(shí),不是所有的聲音都會發(fā)送到云端,設(shè)備在開始回應(yīng)使用者的語音前會等待一些關(guān)鍵詞(例如:「Alexa」,「OK,Google」,「Hey,小娜」或者「Hey,Siri」)才會作出對應(yīng)的回答。但當(dāng)在存儲的語音時,機(jī)器是分不清要儲存什么和什么時候儲存的。
據(jù)警察在 Arkansas 調(diào)查謀殺犯的時候,他們無意中聽到 Amazon Echo 用語音在回答公司的許可證時才將犯人抓獲。由于目前的法律條文還不太清析。Amazon 拒絕與其合作調(diào)查,(與隱私擁護(hù)者)爭論。類似的狀況也發(fā)生在 2016 蘋果拒絕 FBI 的請求去解鎖恐怖分子的手機(jī)[1]。這兩件事都放映需要特別的規(guī)章來界定面對安全問題時,在什么時候和以怎樣的方式來獲得個人隱私。
消費(fèi)者將會適應(yīng)用語音使用計算機(jī),即使現(xiàn)在還有很多問題沒有解決。在很多情況下,語音比起其他的溝通反思更加方便和更加自然。獨(dú)一無二的交互方式,它可以被用來做一些其他的事情(駕駛,工作中或者在街上行走)。它可以擴(kuò)展計算機(jī)人類無法實(shí)現(xiàn)的能力,除了用屏幕和鍵盤。它不僅會對計算機(jī)產(chǎn)生巨大的影響,而且還會對語言本身的使用產(chǎn)生巨大的影響。電腦化的同聲翻譯可以使不相關(guān)的不同外語使用自由交流;而在一個世界里,機(jī)器會說話,這樣小語種可能更容易生存。觸摸屏的到來是過去人類與計算機(jī)的交互方式最大的轉(zhuǎn)變。但語音的飛躍更重要。