知識圖譜與語義技術(shù)概論
知識圖譜(KG)的概念
知識圖譜(KG)得益于Web的發(fā)展(更多的是數(shù)據(jù)層面),有著來源于KR、NLP、Web、AI多個方面的基因。知識圖譜(KG)的概念演化如圖:

知識圖譜是2012年后的提法,基礎(chǔ)還是語義網(wǎng)和本體論。
知識圖譜的本質(zhì)包含:
- 知識表示——Knowledge Representation
- 基于知識表示的知識庫——Knowledge Base
- 知識庫的來源:知識構(gòu)建、知識抽取、知識融合;
- 知識庫怎么用:語義搜索、知識問答
- Web的視角:像建立文本之間的超鏈接一樣,建立數(shù)據(jù)之間的語義鏈接,并支持語義搜索;
- NLP視角:怎么從文本中抽取語義和結(jié)構(gòu)化數(shù)據(jù)
- KR視角:怎樣利用計(jì)算機(jī)符號表示和處理數(shù)據(jù)
- AI視角:怎樣利用知識庫來輔助理解人類的語言
- DB視角:用圖的方式去存儲知識;
知識圖譜由文本(Texts、Documents)的鏈接到對象(Objects)的鏈接。
知識圖譜(KG)的作用:
-
輔助搜索2.png
-
輔助問答3.png
-
輔助決策4.png
-
輔助AI:常識推理5.png
知識圖譜的深度學(xué)習(xí)的區(qū)別:
人的大腦依賴所學(xué)的知識進(jìn)行思考、邏輯推理、理解語言。
可以將深度學(xué)習(xí)和知識圖譜比作是“聰明的AI”和“有學(xué)識的AI”。
- 深度學(xué)習(xí):主要是【學(xué)習(xí)】能力,通過強(qiáng)大的計(jì)算能力,感知、識別、判斷來進(jìn)行學(xué)習(xí)。
-
知識圖譜:主要是【推理】能力,通過已有的規(guī)則和知識,思考、語言、推理來進(jìn)行學(xué)習(xí)。
6.png
典型的知識庫介紹
- CYC知識庫:常識知識庫,最初目標(biāo)是建立人類最大的常識知識庫。
- Wordnet:詞典知識庫,主要用于詞義消歧。
- ConceptNet:常識數(shù)據(jù)庫,最早源于MIT媒體實(shí)驗(yàn)室,主要依靠互聯(lián)網(wǎng)眾包、專家創(chuàng)建和游戲三種方法來構(gòu)建。知識庫以三元組形式的關(guān)系型知識構(gòu)成。側(cè)重詞與詞之間的關(guān)系。ConceptNet完全免費(fèi)開放,并支持多種語言。
- Freebase:完全免費(fèi)并允許商業(yè)化的開放許可協(xié)議。通過開源免費(fèi)吸引吸引用戶貢獻(xiàn)數(shù)據(jù),增值的應(yīng)用及技術(shù)服務(wù)收費(fèi)。
- Wikidata:目標(biāo)是構(gòu)建全世界最大的免費(fèi)知識庫,但是仍然面臨知識缺失嚴(yán)重的問題。
- DBPedia:早期的語義網(wǎng)項(xiàng)目,意指數(shù)據(jù)庫版本的Wikipedia,是從Wikipedia抽取出來的鏈接數(shù)據(jù)集。
- YAGO:集成了Wikipedia、WordNet、GeoNames三個來源的數(shù)據(jù)。YAGO還考慮了時間和空間知識,為很多知識條目增加了時間和空間維度的屬性描述。
- Babelnet:類似于WordNet的多語言詞典知識庫,目標(biāo)是解決WordNet在非英語語種中數(shù)據(jù)缺乏的問題。
- NELL:是卡內(nèi)基梅隆大學(xué)開發(fā)的知識庫,主要采用互聯(lián)網(wǎng)挖掘的方法從WEB自動抽取三元組知識。
- 微軟的Concept Graph:以概念層次體系為中心的知識圖譜。與Freebase等知識圖譜不同,Concept Graph是以概念定義和概念之間的IsA關(guān)系為主。
- OpenKG:中文知識圖譜資源庫。
- cnSchema:開放的中文知識圖譜Schema
CYC 常識知識庫

Wordnet:詞典知識庫

ConceptNet:常識數(shù)據(jù)庫

Freebase

Wikidata:目標(biāo)是構(gòu)建全世界最大的免費(fèi)知識庫

DBPedia:早期的語義網(wǎng)項(xiàng)目

YAGO:集成了Wikipedia、WordNet、GeoNames三個來源的數(shù)據(jù)

Babelnet:類似于WordNet的多語言詞典知識庫

NELL:是卡內(nèi)基梅隆大學(xué)開發(fā)的知識庫

微軟的Concept Graph:以概念層次體系為中心的知識圖譜

OpenKG:中文知識圖譜資源庫

cnSchema:開放的中文知識圖譜Schema

知識圖譜相關(guān)技術(shù)簡介

知識表示
知識表示研究怎樣用計(jì)算機(jī)符號來表示人腦中的知識,以及怎樣通過符號之間的運(yùn)算來模擬人腦的推理過程。
基于數(shù)理邏輯的知識表示
-
RDF: 三元組的斷言模型20.png
-
RDF Graph: 基于數(shù)據(jù)模型的有向圖21.png
-
RDFS: 定義簡單的vocabulary和schema22.png
-
RDF的序列化格式,OWL、OWL extends RDF Schema、SPARQL、23.png
- Ontology :Web Ontology Language
Ontology in Philosophy
Ontology is the philosophical study of the nature of being, becoming, existence or reality, as well as the basic categories of being and their relations.----Merriam-Webster
Ontology in Computer Science and Artificial Intelligence
An ontology is a description (like a formal specification of a program) of the concepts and relationships that can formally exist for an agent or a community of agents.______ Tom Gruber, Founderof Sin
Web Ontologies
Ontologies based on web standards such as RDFS/OWL. OWL is based on Description Logic, a very very long history of research in Artificial Intelligence.
24.png

-
SPARQL: 基于RDF數(shù)據(jù)模型的查詢語言
26.png
27.png -
JSON-LD(數(shù)據(jù)交換格式)
28.png
-
RDFa HTML5 MicroData(在網(wǎng)頁中嵌入語義數(shù)據(jù))
29.png
知識圖譜分布式 表示
在保留語義的同時,將知識圖譜中的實(shí)體和關(guān)系映射到連續(xù)的稠密低維的向量空間
30.png
知識抽取
知識抽取流程N(yùn)LP+KR

知識抽取的主要方法
知識工程
- 正則表達(dá)式
- 模版匹配
BootStrap:從種子數(shù)據(jù)中識別partterns,用于抽取更多的數(shù)據(jù),提取更多的partterns - 規(guī)則約束
POS,NER約束,距離約束
基于本體的抽取
- 知識挖掘推理
PRA基于圖的抽取
TransE系列 基于Embedding的抽取
基于模型的抽取
模型:SVM,logistic model,條件隨機(jī)場,LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)
知識存儲
- 知識比數(shù)據(jù)的結(jié)構(gòu)更加復(fù)雜,知識的存儲需要綜合考慮圖的特點(diǎn)、復(fù)雜的知識結(jié)構(gòu)存儲、索引和查詢(支持推理)的優(yōu)化等問題
- 典型的知識存儲引擎分為基于關(guān)系數(shù)據(jù)庫的存儲和基于原生圖的存儲
- 在實(shí)踐中,多為混合存儲結(jié)構(gòu),圖存儲并非必須
知識問答(KBQA)
KBQA(Knowledge-Based Question Answering )基于知識庫的問題回答
以直接而準(zhǔn)確的方式回答用戶的自然語言的提問的自動問答系統(tǒng),將構(gòu)建下一代搜索引擎的基本形態(tài)。

KBQA的基本實(shí)現(xiàn)流程

知識推理
知識推理,基于已知的事實(shí)推出未知的事實(shí)的計(jì)算過程。大部分搜索引擎都已經(jīng)支持一定的推理能力。例如百度輸入,姚明的女兒的媽媽的老公
知識推理的方法分類
按解決方法分類:
- 基于描述邏輯的推理
- 基于規(guī)則挖掘的推理
- 基于概率邏輯的推理
- 基于表示學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的推理
按照推理類型分類
- 缺省推理
- 連續(xù)文化推理
- 空間推理
- 因果關(guān)系推理
基于描述邏輯的推理
描述逞輯( description logic )是一種用于知識表示的送輯語言和以其為對象的推理方法,主要用于描述概念分類及其概念之間的關(guān)系。描述逆輯是當(dāng)前語}義網(wǎng)發(fā)展中本體的理論基礎(chǔ)。
主要方法:
- 基于表運(yùn)算( Tableaux )及改進(jìn)的方法: FaCT + +、 Racer 、 Pellet Hermit 等.
- 基于一階查詢重寫的方法( ontology based data access , 基于本體的數(shù)據(jù)訪問).
- 基于產(chǎn)生式規(guī)則的算法(如 rete ) : Jena 、 Sesame 、 OWLIM 等.
- 基于 Datalog 轉(zhuǎn)換的方法知 KAON 、 RDFox 等。
- 回答集程序 Answer set programming
基于統(tǒng)計(jì)規(guī)則挖掘的推理

基于表示學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的推理

知識融合
知識融合,其它相關(guān)叫法: Record Linkage , Entity Resolution , Data L inking , Knowledge Fusion , Entity Alignment … …
都是指在不同數(shù)據(jù)集中找出同一個實(shí)體的描述記錄,主要目的是對不同數(shù)據(jù)源中的實(shí)體信息進(jìn)行整合,形成更加全面的實(shí)體信息
知識融合典型工具Dedupe
Dedupe ,基于 Python 的工共包,實(shí)現(xiàn) T 包括 fuzzy matching , deduplication , entity resolution 在內(nèi)的常見任務(wù)。主要處理流程是先對所有 records 通過 Clustering / Blocking 的方法進(jìn)行分組,然后在組內(nèi)部通過計(jì)算相似度特征和機(jī)蕎學(xué)習(xí)分類模型對任一一對 records 進(jìn)行預(yù)瀏是否為同一實(shí)體。
適合于兩個數(shù)據(jù)集有相似的結(jié)構(gòu),如果兩個數(shù)據(jù)集的實(shí)體屬性個數(shù)差異很大,不建議采用。
知識融合典型工具LIMES
Limes : A Time 一 Efficient Approach for Large 一 Scale Link Discovery on the Web of Data . IJCAI20 13
專門針對鑊接數(shù)據(jù) Linked Data 設(shè)計(jì)的健接框架,不要求兩個數(shù)據(jù)集的實(shí)體共有相似的結(jié)構(gòu)
可靈活配置匹配規(guī)則,白定義距離計(jì)算模型,也支持基于 Active Leaming 的機(jī)蕎學(xué)習(xí)方法
知識眾包
- Wikibase
- Schema.ORG
知識圖譜典型應(yīng)用案例
知識圖譜的案例涉及:醫(yī)療健康、金融、電商、出版、農(nóng)業(yè)、政府、電信、數(shù)字圖書館等領(lǐng)域。























