大綱
語義搜索簡介
語義數(shù)據(jù)搜索
混合搜索
語義搜索的交互范式
實(shí)踐展示:使用Elasticsearch實(shí)現(xiàn)簡單語義數(shù)據(jù)檢索
語義搜索簡介
不同搜索模式之間的技術(shù)差異可分為:
對(duì)用戶需求的表示(query model);
對(duì)底層數(shù)據(jù)的表示(data model);
匹配方法(matching technique)
信息檢索(IR)支持對(duì)文檔的檢索(document retrieval)
文檔檢索vs.數(shù)據(jù)檢索
數(shù)據(jù)庫(DB)和知識(shí)庫專家系統(tǒng)(Knowledge-based Expert System)可以提供更加精確的答案
語義模型
- 語義關(guān)注的是能用于搜索的資源的含義(meaning)
- 語言學(xué)模型
對(duì)詞語級(jí)別的關(guān)系建模;分類系統(tǒng),同義詞庫 - 概念模型
- 表達(dá)能力
- 形式化
語義搜索分類
- DB和KB系統(tǒng)屬于重量級(jí)語義搜索系統(tǒng)
對(duì)語義顯式的和形式化的建模,例如,ER圖,RDF(S)和OWL中的知識(shí)模型(knowledge model),主要為語義的數(shù)據(jù)檢索系統(tǒng)。 - 基于語義的IR系統(tǒng)屬于輕量級(jí)的語義搜索系統(tǒng)
輕量級(jí)的語義模型,例如分類系統(tǒng)或者辭典
語義搜索 - 流程圖
搜索模式趨向一致:結(jié)構(gòu)化和語義數(shù)據(jù)的可用性越來越高
語義數(shù)據(jù)搜索
語義Web - 數(shù)據(jù)Web
利用鏈接數(shù)據(jù)進(jìn)行搜索
三元組存儲(chǔ)
- 基于IR:Sindice,F(xiàn)alconS...
單一數(shù)據(jù)結(jié)構(gòu)和查詢算法,針對(duì)文本數(shù)據(jù)進(jìn)行排序檢索來優(yōu)化(倒排序優(yōu)化);
高度可壓縮,可訪問;
排序是組成部分;
不能處理簡單的select,joins等操作。 - 基于DB:Oracle的RDF擴(kuò)展,DB2的SOR
各種索引和查詢算法,以適應(yīng)各種對(duì)結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜查詢;
能完成復(fù)雜的selects,joins,(SQL,SPARQL)
能應(yīng)對(duì)高動(dòng)態(tài)場景(許多插入/刪除) - 原生存儲(chǔ)(Native stores):Dataplore,YARS,RDF-3x
存儲(chǔ)和索引
- IR索引基于以下概念
文檔;
字段(field),例如,標(biāo)題,摘要,正文...
詞語(terms);
Posting list和Position list - 增量索引——處理當(dāng)前索引
基于塊的索引擴(kuò)展 - 索引構(gòu)建 vs. 索引更新
- 四種基本操作
基礎(chǔ)的檢索:(f, t)
歸并排序:m(S1, op, S2)
概念表達(dá)式計(jì)算(Concept Expression Evaluation)
關(guān)系擴(kuò)展(Relation Expansion)
排序原則
- 質(zhì)量傳播(quality propagation):更新一個(gè)元素質(zhì)量的度量,同時(shí)反應(yīng)該元素的相鄰元素的質(zhì)量
- 數(shù)量聚合:有更多的鄰居,元素排名會(huì)更高
高效和可擴(kuò)展的數(shù)據(jù)Web搜索
使用結(jié)構(gòu)索引做結(jié)構(gòu)匹配,
在多知識(shí)庫中查詢
索引
特征選擇
- 分塊(Blocking)
直觀:共享稀有特征的實(shí)體更可能是同一個(gè)實(shí)體;
根據(jù)文檔頻率來排序每個(gè)實(shí)體的特征;
每個(gè)保留的倒排索引列表對(duì)應(yīng)一個(gè)分塊。 - 聚類(Clustering)
緊致集合 Compact Set (CS);
稀疏鄰居 Sparse Neighborhood (SN);
基于CS&SN原則在每個(gè)分塊中進(jìn)行聚類;
混合搜索
結(jié)合文本,結(jié)構(gòu)化和語義數(shù)據(jù);以整體的方式管理不同類型的資源;支持結(jié)果為信息單元(文檔、數(shù)據(jù))的集成的檢索。
DB和IR輕量級(jí)集成
資源(查詢)圖 => 系統(tǒng)架構(gòu)(CE2) => 查詢分解和執(zhí)行 => 答案合并
語義搜索的交互范式
usability,用戶友好
- 交互范式
自然語言接口
基于表單的查詢接口
基于可視化的查詢接口
基于關(guān)鍵詞的查詢接口
混合的查詢接口,結(jié)合自然語言,關(guān)鍵詞,表單,facets和形式化查詢
查詢,數(shù)據(jù)和結(jié)果可視化
一種基于本體的查詢解釋的通用方法
1 將關(guān)鍵詞映射為本體實(shí)體
2 發(fā)掘本體實(shí)體間的連接,基于元素遞歸遍歷的KB探索
3 從連接中到處DL(描述邏輯)合取查詢
對(duì)查詢排序,路徑長度越小越好。
- Top-k關(guān)鍵詞查詢 - 工作流程
線下:匯總,評(píng)分,術(shù)語擴(kuò)展;
線上:查詢計(jì)算,查詢處理
摘要圖生成
關(guān)鍵詞映射和摘要圖擴(kuò)充
Top-k圖探索
將查詢圖映射到合取查詢
- 評(píng)估 - 效果
路徑長度,越短越好;
關(guān)鍵詞匹配分?jǐn)?shù),越高越好;
圖元素的流行性計(jì)算,類似pagerank算法
facet搜索系統(tǒng)
結(jié)論
- 表達(dá)式(expressive)關(guān)鍵字查詢
基于本體的查詢解析
Top-k關(guān)鍵字查詢在匯總圖上的解析
使用映射信息擴(kuò)展到多個(gè)數(shù)據(jù)源場景 - 動(dòng)態(tài)facet計(jì)算 w.r.t 結(jié)果
facet 排序和值劃分
語義搜索路線圖

