openrefine介紹
目的:用于數(shù)據(jù)清理,特別是非業(yè)務(wù)數(shù)據(jù)庫來源的數(shù)據(jù)。
http://blog.csdn.net/chszs/article/details/20046083
數(shù)據(jù)剖析Data Profiling:也叫做數(shù)據(jù)考古(Data Archeology),是數(shù)據(jù)集(Data Set)內(nèi)部為達(dá)一致性、單值性和邏輯性而進(jìn)行的數(shù)值質(zhì)量的統(tǒng)計分析及評估。數(shù)據(jù)剖析是Olson于2003年提出的概念,使用分析技術(shù)來發(fā)現(xiàn)正確的、結(jié)構(gòu)化的、有內(nèi)容、有質(zhì)量的數(shù)據(jù)。換句話說,它是評估你的數(shù)據(jù)和信息的當(dāng)前狀態(tài)以及包含了多少錯誤的方法。
數(shù)據(jù)清洗Data Cleaning:是嘗試通過移除空的數(shù)據(jù)行或重復(fù)的數(shù)據(jù)行、過濾數(shù)據(jù)行、聚集或轉(zhuǎn)換數(shù)據(jù)值、分開多值單元等,以半自動化的方式修復(fù)錯誤數(shù)據(jù)的過程。數(shù)據(jù)清洗是一個反復(fù)的過程,不可能在幾天內(nèi)完成,只有不斷的發(fā)現(xiàn)問題,解決問題。對于是否過濾,是否修正一般要求客戶確認(rèn)。
IDTs:Interactive Data Transformation tools,交互數(shù)據(jù)轉(zhuǎn)換工具,它可以對大數(shù)據(jù)進(jìn)行快速、廉價的操作,使用單個的集成接口。
OpenRefine就是這樣的IDT工具,可以觀察和操縱數(shù)據(jù)的工具。它類似于傳統(tǒng)Excel的表格處理軟件,但是工作方式更像是數(shù)據(jù)庫,以列和字段的方式工作,而不是以單元格的方式工作。這意味著OpenRefine不僅適合對新的行數(shù)據(jù)進(jìn)行編碼,而且功能還極為強(qiáng)大。