語義搜索

大綱

語義搜索簡介
語義數(shù)據(jù)搜索
混合搜索
語義搜索的交互范式
實(shí)踐展示:使用Elasticsearch實(shí)現(xiàn)簡單語義數(shù)據(jù)檢索

語義搜索簡介

不同搜索模式之間的技術(shù)差異可分為:
對(duì)用戶需求的表示(query model);
對(duì)底層數(shù)據(jù)的表示(data model);
匹配方法(matching technique)
信息檢索(IR)支持對(duì)文檔的檢索(document retrieval
文檔檢索vs.數(shù)據(jù)檢索
數(shù)據(jù)庫(DB)和知識(shí)庫專家系統(tǒng)(Knowledge-based Expert System)可以提供更加精確的答案
語義模型

  • 語義關(guān)注的是能用于搜索的資源的含義(meaning)
  • 語言學(xué)模型
    對(duì)詞語級(jí)別的關(guān)系建模;分類系統(tǒng),同義詞庫
  • 概念模型
  • 表達(dá)能力
  • 形式化
語義搜索分類
  • DB和KB系統(tǒng)屬于重量級(jí)語義搜索系統(tǒng)
    對(duì)語義顯式的和形式化的建模,例如,ER圖,RDF(S)和OWL中的知識(shí)模型(knowledge model),主要為語義的數(shù)據(jù)檢索系統(tǒng)。
  • 基于語義的IR系統(tǒng)屬于輕量級(jí)的語義搜索系統(tǒng)
    輕量級(jí)的語義模型,例如分類系統(tǒng)或者辭典
    語義搜索 - 流程圖

    搜索模式趨向一致:結(jié)構(gòu)化和語義數(shù)據(jù)的可用性越來越高

語義數(shù)據(jù)搜索

語義Web - 數(shù)據(jù)Web

利用鏈接數(shù)據(jù)進(jìn)行搜索

三元組存儲(chǔ)
  • 基于IR:Sindice,F(xiàn)alconS...
    單一數(shù)據(jù)結(jié)構(gòu)和查詢算法,針對(duì)文本數(shù)據(jù)進(jìn)行排序檢索來優(yōu)化(倒排序優(yōu)化);
    高度可壓縮,可訪問;
    排序是組成部分;
    不能處理簡單的select,joins等操作。
  • 基于DB:Oracle的RDF擴(kuò)展,DB2的SOR
    各種索引和查詢算法,以適應(yīng)各種對(duì)結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜查詢;
    能完成復(fù)雜的selects,joins,(SQL,SPARQL)
    能應(yīng)對(duì)高動(dòng)態(tài)場景(許多插入/刪除)
  • 原生存儲(chǔ)(Native stores):Dataplore,YARS,RDF-3x
存儲(chǔ)和索引
  • IR索引基于以下概念
    文檔;
    字段(field),例如,標(biāo)題,摘要,正文...
    詞語(terms);
    Posting list和Position list
  • 增量索引——處理當(dāng)前索引
    基于的索引擴(kuò)展
  • 索引構(gòu)建 vs. 索引更新
  • 四種基本操作
    基礎(chǔ)的檢索:(f, t)
    歸并排序:m(S1, op, S2)
    概念表達(dá)式計(jì)算(Concept Expression Evaluation)
    關(guān)系擴(kuò)展(Relation Expansion)
排序原則
  1. 質(zhì)量傳播(quality propagation):更新一個(gè)元素質(zhì)量的度量,同時(shí)反應(yīng)該元素的相鄰元素的質(zhì)量
  2. 數(shù)量聚合:有更多的鄰居,元素排名會(huì)更高
高效和可擴(kuò)展的數(shù)據(jù)Web搜索

使用結(jié)構(gòu)索引做結(jié)構(gòu)匹配,
在多知識(shí)庫中查詢

索引

特征選擇

  • 分塊(Blocking)
    直觀:共享稀有特征的實(shí)體更可能是同一個(gè)實(shí)體;
    根據(jù)文檔頻率來排序每個(gè)實(shí)體的特征;
    每個(gè)保留的倒排索引列表對(duì)應(yīng)一個(gè)分塊。
  • 聚類(Clustering)
    緊致集合 Compact Set (CS);
    稀疏鄰居 Sparse Neighborhood (SN);
    基于CS&SN原則在每個(gè)分塊中進(jìn)行聚類;

混合搜索

結(jié)合文本,結(jié)構(gòu)化和語義數(shù)據(jù);以整體的方式管理不同類型的資源;支持結(jié)果為信息單元(文檔、數(shù)據(jù))的集成的檢索。

DB和IR輕量級(jí)集成

資源(查詢)圖 => 系統(tǒng)架構(gòu)(CE2) => 查詢分解和執(zhí)行 => 答案合并

語義搜索的交互范式

usability,用戶友好

  • 交互范式
    自然語言接口
    基于表單的查詢接口
    基于可視化的查詢接口
    基于關(guān)鍵詞的查詢接口
    混合的查詢接口,結(jié)合自然語言,關(guān)鍵詞,表單,facets和形式化查詢
    查詢,數(shù)據(jù)和結(jié)果可視化
一種基于本體的查詢解釋的通用方法

1 將關(guān)鍵詞映射為本體實(shí)體
2 發(fā)掘本體實(shí)體間的連接,基于元素遞歸遍歷的KB探索
3 從連接中到處DL(描述邏輯)合取查詢
對(duì)查詢排序,路徑長度越小越好。

  • Top-k關(guān)鍵詞查詢 - 工作流程
    線下:匯總,評(píng)分,術(shù)語擴(kuò)展;
    線上:查詢計(jì)算,查詢處理

摘要圖生成
關(guān)鍵詞映射和摘要圖擴(kuò)充
Top-k圖探索
將查詢圖映射到合取查詢

  • 評(píng)估 - 效果
    路徑長度,越短越好;
    關(guān)鍵詞匹配分?jǐn)?shù),越高越好;
    圖元素的流行性計(jì)算,類似pagerank算法

facet搜索系統(tǒng)

結(jié)論

  • 表達(dá)式(expressive)關(guān)鍵字查詢
    基于本體的查詢解析
    Top-k關(guān)鍵字查詢在匯總圖上的解析
    使用映射信息擴(kuò)展到多個(gè)數(shù)據(jù)源場景
  • 動(dòng)態(tài)facet計(jì)算 w.r.t 結(jié)果
    facet 排序和值劃分

語義搜索路線圖

語義搜索路線圖
Facebook Graph Search
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 第一章 1.1 信息組織的環(huán)境與背景 信息檢索工具的變化 手工檢索時(shí)代:目錄、題錄、索引等。 計(jì)算機(jī)檢索時(shí)代:各種...
    傾啟君閱讀 2,447評(píng)論 0 9
  • Solr&ElasticSearch原理及應(yīng)用 一、綜述 搜索 http://baike.baidu.com/it...
    樓外樓V閱讀 7,660評(píng)論 1 17
  • 前面的文章主要從理論的角度介紹了自然語言人機(jī)對(duì)話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識(shí)。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 14,454評(píng)論 2 64
  • 什么是架構(gòu) 本章介紹搜索引擎的基本軟件架構(gòu)。架構(gòu)本身沒有公認(rèn)的定義,但通常由軟件組件、組件接口以及他們之間的關(guān)系組...
    greatking004閱讀 3,785評(píng)論 0 6
  • 多態(tài):讓一個(gè)對(duì)象能夠變出多種狀態(tài)(類型),使用父類類型調(diào)用子類中實(shí)現(xiàn)的方法。 實(shí)現(xiàn)多態(tài)的手段:抽象類、虛方法、接口...
    純理科生低情商閱讀 4,669評(píng)論 0 5

友情鏈接更多精彩內(nèi)容