筆者會以產(chǎn)品經(jīng)理的視角來寫技術(shù)相關(guān)的文章,在前面的文章中簡要的介紹了知識圖譜的概念,構(gòu)建以及基本應(yīng)用形式。這篇文章主要介紹如何判斷問答場景是否適合知識圖譜。
什么是知識圖譜的問答
業(yè)界通用的問答系統(tǒng)是以Q&A為中心構(gòu)建問答,需要運營去窮舉用戶的所有的問題(question),然后給每個問題配上相應(yīng)的答案。然后算法用Q-Qmatch解析到運營配置的問題(question)上,召回答案(answer)返回給用戶。目前廣泛用于語音助手,客服機器人當中,案例:三星BIXBY語音助手,小I機器人。
知識圖譜的問答和是以知識為中心,通過將用戶的問題匹配到對應(yīng)知識上,然后通過召回知識返回給用戶,匹配算法一般使用的是 KB-QA,中間會涉及到圖查詢,命名實體識別(NER),屬性識別,推理引擎等技術(shù)。
知識圖譜的問答有哪些特點
1.可以基于海量原生知識去進行問答,QA系統(tǒng)的A一般是運營深度加工過的,例如很人性化的話術(shù),圖片等等
2.問答容量更大,常規(guī)的QA系統(tǒng)在Q超過一定數(shù)量之后算法的召回準確率會急劇下降
3.這個比較難一句話說完,問答一般是有邏輯的,QA系統(tǒng)一般是由運營去解析用戶問題中的邏輯,知識圖譜的問答可以將這個邏輯讓機器去解析,簡單來說就是推理。后面會有案例講到。
4.因為是以知識為中心去做問答,對話管理模塊會更好做,在信息不確定的情況下可以多輪會話,人對話的時候會經(jīng)常省略一些內(nèi)容,可以通過上下文做意圖繼承。
5.擴充實體的訓練邊際成本極低,運營成本極低
6.擴充schema的訓練成本較高,變動成本極高
如何選擇場景
價值:產(chǎn)生的問答效果,積累下來的領(lǐng)域數(shù)據(jù),商業(yè)上能夠致勝等等
成本:包括技術(shù)成本,構(gòu)建成本,時間成本,后期運營成本等等
一個最基本的衡量標準是產(chǎn)生的價值>成本即可。
根據(jù)上述的知識圖譜特點,將成本進行拆分:

挑選成本可控,價值比較明確的場景即可。
業(yè)內(nèi)案例
目前工業(yè)界使用知識圖譜作為主要問答解析方式的其實不多,實際應(yīng)用中會更關(guān)注覆蓋率,已經(jīng)擴充的便捷性,而這一點恰好是QA系統(tǒng)的強項。
案例1:i問財-產(chǎn)業(yè)鏈推理
案例介紹,I問財本身是基于結(jié)構(gòu)化知識去做問答,例如通過股票的各種知識找股票,比較復雜的產(chǎn)業(yè)鏈推理如下圖所示,筆者估計,其背后是一套網(wǎng)羅了中國所有公司的圖譜,包含了產(chǎn)業(yè),產(chǎn)品,公司,產(chǎn)品和產(chǎn)品之間的關(guān)系,公司和產(chǎn)品之間的關(guān)系。通過復雜的關(guān)系網(wǎng)絡(luò)去做知識推理,不過估計是因為語義解析成本的關(guān)系,沒有做的很豐富。從這點看,可能是平衡好價值和成本。
網(wǎng)址:www.iwencai.com

案例2-淘寶直播
最近在看淘寶直播的小哥哥小姐姐的時候,驚奇的發(fā)現(xiàn),有些主播,我問主播的一些信息的時候會有回復,例如,我讓主播試一下8號寶貝,系統(tǒng)會返回主播已經(jīng)穿過這個了,然后把之前的錄播視頻發(fā)你了。覺得比較有意思,有時候還問問10號寶貝有沒有優(yōu)惠券啥的,系統(tǒng)會讓你領(lǐng)10號寶貝的優(yōu)惠券。再試了一下啊,發(fā)現(xiàn)還能問三圍什么的- -。不知道以后會不會問他的年收入都能問的出來。估摸著是手淘這邊用這類知識構(gòu)建的直播領(lǐng)域圖譜,順便做了個問答。
