概念
從文本或者數(shù)據(jù)庫中,不限定資料字段,自由地萃取出訊息的技術 執(zhí)行全文檢索任務的程式,一般稱作搜索引擎, 將使用者隨意輸入的文字,試圖從數(shù)據(jù)庫中,找到符合的內容
相關議題
stemming 語根處理 token parser 符素解析器 word segmentation 斷詞/分詞 inverted index 反向索引
和中文有關的議題:斷詞,語法解析,古籍議題,多語言混合
算法,搜尋策略的模型
布林式 boolean
統(tǒng)計模型 probabilistic model
向量空間模型 vector base model
隱性語義模型 latent semantic model
開源的全文檢索系統(tǒng)
apache solr, BaseX, clusterpoint Server
DataparkSearch,Ferret,Ht-//Dig
Hyper Estraier, KinoSearch
Lemur/Indri Lucene mnoGoSearch
Sphinx,Swish-e,Xapian,ElasticSearch
優(yōu)化
stopwords 剔除字 詞性標注 authority file 權威檔 知識體系,本體論ontology 超鏈接分析技術page rank
歷史和未來發(fā)展趨勢
自由語句搜尋
引用
全文檢索