內(nèi)容摘要:相信大家每天都會(huì)使用搜索引擎,互聯(lián)網(wǎng)上大量的信息資源,依托搜索引擎用戶可以快速找到對(duì)自己有價(jià)值的信息。搜索引擎也幫助網(wǎng)站帶來(lái)了大量的流量,搜索公司本身不生產(chǎn)數(shù)據(jù),但通過(guò)在信息上構(gòu)建關(guān)聯(lián)變成服務(wù),從而產(chǎn)生巨大的附加價(jià)值。這后面技術(shù)邏輯和秘密是什么呢?今天我們就搜索的后臺(tái)技術(shù)聊一聊。

1、相關(guān)性搜索的概念
談到搜索,我想大家每天都再用,Ctrl+F輸入關(guān)鍵字,找到內(nèi)容,這不就是搜索嗎?但是,要做一個(gè)搜索引擎,這顯然是不夠的。比如你是一個(gè)科技控,你搜索小米,那估計(jì)八成是你要找叫“小米”的手機(jī)。在下面搜索推薦相關(guān)信息的時(shí)候,可能還要給出蘋(píng)果手機(jī)、華為手機(jī)相關(guān)信息才合適。很多情況下字面的意思,必須要聯(lián)系到你的使用場(chǎng)景,才能給出用戶更多有價(jià)值的服務(wù)。
接下來(lái)我們就談?wù)勊阉髦?,相關(guān)的重要性。所謂相關(guān)性,就是根據(jù)內(nèi)容對(duì)用戶及業(yè)務(wù)需求的滿足程度,對(duì)搜索內(nèi)容進(jìn)行排名的一門(mén)學(xué)問(wèn)。它會(huì)將搜索引擎打造成一個(gè)看似智能的系統(tǒng),能夠理解用戶和業(yè)務(wù)的需求。
Google大名鼎鼎的Pagerank排序算法,詞頻(TF/IDF)和詞向量(Word2vec)計(jì)算等算法,核心問(wèn)題就是在提取每個(gè)搜索頁(yè)面內(nèi)容的相關(guān)性。誰(shuí)都想用一個(gè)比簡(jiǎn)單對(duì)單詞更智能的搜索工具,能更好地給出滿足用戶需求的相關(guān)性是每個(gè)搜索引擎具有競(jìng)爭(zhēng)力的關(guān)鍵。
下面我們看看能給出滿足用戶需求的相關(guān)性信息,有哪些核心技術(shù)呢?
2、知識(shí)圖譜的作用
“Things not strings”。知識(shí)圖譜是Google于2012年提出的,目的是用來(lái)優(yōu)化搜索結(jié)果,讓計(jì)算機(jī)理解人類(lèi)信息內(nèi)在的相關(guān)性(圖1)。經(jīng)過(guò)多年的發(fā)展,知識(shí)圖譜在人工智能的許多行業(yè)都擁有了成熟落地的應(yīng)用。按照知識(shí)圖譜的覆蓋面來(lái)看,主要分為通用知識(shí)圖譜與行業(yè)知識(shí)圖譜。

通用知識(shí)圖譜范圍很廣,面向全領(lǐng)域,主要應(yīng)用于面向互聯(lián)網(wǎng)的搜索、推薦、問(wèn)答等業(yè)務(wù)場(chǎng)景。它的核心強(qiáng)調(diào)的是廣度。這個(gè)工作我們就不談了,因?yàn)橛写蠊鞠胫?。下面談?wù)?strong>行業(yè)知識(shí)圖譜,如果用通用知識(shí)圖譜去解決行業(yè)問(wèn)題,往往會(huì)產(chǎn)生很多笑話。
在金融領(lǐng)域,管理部門(mén)通過(guò)對(duì)大量的敏感數(shù)據(jù)進(jìn)行語(yǔ)義關(guān)聯(lián)分析,可以防止欺詐,確保數(shù)據(jù)安全等。在醫(yī)學(xué)領(lǐng)域,通過(guò)大量的病例,可以給出某種癥狀可能的最佳治療方案。
行業(yè)知識(shí)圖譜對(duì)準(zhǔn)確度要求非常高,通常用于輔助各種復(fù)雜的分析應(yīng)用或決策支持。針對(duì)細(xì)分行業(yè),面向特定領(lǐng)域的知識(shí)圖譜,可能是未來(lái)研究的熱點(diǎn)。在細(xì)分的專業(yè)領(lǐng)域有嚴(yán)格與豐富的數(shù)據(jù)模式,行業(yè)知識(shí)圖譜中的實(shí)體通常屬性比較多且具有行業(yè)意義。
特別是在科學(xué)研究方面,我們用過(guò)谷歌學(xué)術(shù),可以給出每篇文章的引用情況,以及有關(guān)作者研究領(lǐng)域的深度挖掘信息。當(dāng)前階段,科學(xué)知識(shí)圖譜是跟蹤科技前沿、選擇科研方向、開(kāi)展知識(shí)管理與輔助科技決策的一種有效工具。
3、垂直領(lǐng)域搜索的意義
通過(guò)知識(shí)圖譜的構(gòu)建是實(shí)現(xiàn)相關(guān)性搜索的關(guān)鍵,而把這些應(yīng)用到專業(yè)領(lǐng)域,實(shí)現(xiàn)垂直行業(yè)專有信息的搜索應(yīng)用。這個(gè)工作對(duì)于促進(jìn)行業(yè)發(fā)展將是十分有意義的事情。
要實(shí)現(xiàn)一套面向垂直領(lǐng)域的搜索引擎,通常需要行業(yè)知識(shí)建模、行業(yè)知識(shí)抽取到應(yīng)用構(gòu)建三個(gè)步驟。通過(guò)對(duì)行業(yè)涉及到的實(shí)體內(nèi)容進(jìn)行建模,提取諸如:科研人員、成果、項(xiàng)目之間的關(guān)聯(lián)性等。
垂直領(lǐng)域搜索的意義在于可以最大程度地整合內(nèi)外資源,打造企業(yè)競(jìng)爭(zhēng)力,最大程度地從已有經(jīng)驗(yàn)中發(fā)現(xiàn)有價(jià)值的信息,實(shí)現(xiàn)創(chuàng)新驅(qū)動(dòng)發(fā)展的模式轉(zhuǎn)變。
智能搜索技術(shù)也是集數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)以及現(xiàn)代數(shù)據(jù)挖掘、復(fù)雜網(wǎng)絡(luò)為一體的科學(xué)發(fā)展及其研究前沿知識(shí)發(fā)現(xiàn)與分析方法與技術(shù)。

結(jié)語(yǔ)
知識(shí)圖譜作為人工智能的基石,是構(gòu)建智能應(yīng)用的基礎(chǔ)。而掌握好搜索工具,對(duì)大家日后科研幫助無(wú)疑將是十分巨大的。期望這篇短文能起個(gè)頭,能引起大家對(duì)專業(yè)領(lǐng)域知識(shí)圖譜構(gòu)建的興趣,要想動(dòng)手很多技術(shù)和算法可以去進(jìn)一步探索。