當(dāng)步入了大數(shù)據(jù)殿堂,很多專業(yè)的詞匯不得不仔細(xì)的品味,理解它將幫助在實(shí)踐中明確方向。從我們呱呱落地開始認(rèn)識(shí)這個(gè)世界的時(shí)候,我們就與元數(shù)據(jù)密不可分,它是我們認(rèn)識(shí)這個(gè)世界的基礎(chǔ)。今天我們就共同理解一下什么事元數(shù)據(jù)。

1.元數(shù)據(jù)是什么?
談到元數(shù)據(jù)我們就要先理解“元”的含義,一般認(rèn)為元就是“關(guān)于...的...”,可以理解為對(duì)事情的高度抽象,透過事務(wù)的表面現(xiàn)象發(fā)現(xiàn)他的“本源”。
以文學(xué)為例,后現(xiàn)代主義文學(xué)中有一種小說叫做“元小說”,也就是“關(guān)于小說的小說”?!皞鹘y(tǒng)小說往往關(guān)心的是人物、事件,是作品所敘述的內(nèi)容;而元小說則更關(guān)心作者本人是怎樣寫這部小說的,小說中往往喜歡聲明作者是在虛構(gòu)作品,喜歡告訴讀者作者是在用什么手法虛構(gòu)作品,更喜歡交代作者創(chuàng)作小說的一切相關(guān)過程?!?/p>

生活中我們填寫的《個(gè)人信息登記表》,包括姓名、性別、民族、政治面貌、一寸照片、學(xué)歷、職稱等等這些就是鎖定你本人的元數(shù)據(jù)。
通常情況下元數(shù)據(jù)可以分為以下三類:固有性元數(shù)據(jù)(與事物構(gòu)成有關(guān)的元數(shù)據(jù))、管理性元數(shù)據(jù)(與事物處理方式有關(guān)的元數(shù)據(jù))、描述性元數(shù)據(jù)(與事物本質(zhì)有關(guān)的元數(shù)據(jù))
2.為什么需要元數(shù)據(jù)?
舉個(gè)例子,當(dāng)我們?nèi)D書館查找《中國近現(xiàn)代史》這本書的時(shí)候,我們首先回去查找這本書在圖書館里面的"ISBN號(hào)"如ZS03-09-04-008。
通過ISBN找到此書放在圖書館的3樓。找到方書的9號(hào)書架,再然后找到書架上放此類書對(duì)應(yīng)的04層,最后找到想要找到的圖書008位置。ISBN描述圖書位置的元數(shù)據(jù)。
當(dāng)我們拿到《中國近現(xiàn)代史》,翻開扉頁我們看到關(guān)于該書信息資源,一個(gè)基本的元數(shù)據(jù)由元數(shù)據(jù)項(xiàng)目和元數(shù)據(jù)內(nèi)容的構(gòu)成。

這里,“題名”就是它的元數(shù)據(jù)項(xiàng)目,“中國近現(xiàn)代史”就是元數(shù)據(jù)內(nèi)容。
再比如,“定價(jià)”、“印刷”都是元數(shù)據(jù)項(xiàng)目,而“28.00元”和“北京瑞古冠中應(yīng)刷廠”就是元數(shù)據(jù)內(nèi)容。
從這個(gè)例子中元數(shù)據(jù)在信息資源組織方面的作用概述為五個(gè)方面:描述、定位、搜尋、評(píng)估和選擇。
1)描述作用:根據(jù)元數(shù)據(jù)的定義,它最基本的功能就在于對(duì)信息對(duì)象的內(nèi)容和位置進(jìn)行描述,從而為信息對(duì)象的存取與利用奠定必要的基礎(chǔ)。
2)定位作用:由于網(wǎng)絡(luò)信息資源沒有具體的實(shí)體存在,因此,明確它的定位至關(guān)重要。元數(shù)據(jù)包含有關(guān)網(wǎng)絡(luò)信息資源位置方面的信息,因而由此便可確定資源的位置之所在,促進(jìn)了網(wǎng)絡(luò)環(huán)境中信息對(duì)象的發(fā)現(xiàn)和檢索。此外,在信息對(duì)象的元數(shù)據(jù)確定以后,信息對(duì)象在數(shù)據(jù)庫或其他集合體中的位置也就確定了,這是定位的另一層含義。
3)搜尋作用:元數(shù)據(jù)提供搜尋的基礎(chǔ),在著錄的過程中,將信息對(duì)象中的重要信息抽出并加以組織,賦予語意,并建立關(guān)系,使檢索結(jié)果更加準(zhǔn)確,從而有利于用戶識(shí)別資源的價(jià)值,發(fā)現(xiàn)其真正需要的資源。
4)評(píng)估作用:元數(shù)據(jù)提供有關(guān)信息對(duì)象的名稱、內(nèi)容、年代、格式、制作者等基本屬性,使用戶在無需瀏覽信息對(duì)象本身的情況下,就能夠?qū)π畔?duì)象具備基本了解和認(rèn)識(shí),參照有關(guān)標(biāo)準(zhǔn)即可對(duì)其價(jià)值進(jìn)行必要的評(píng)估,作為存取利用的參考。
5)選擇作用:根據(jù)元數(shù)據(jù)所提供的描述信息,參照相應(yīng)的評(píng)估標(biāo)準(zhǔn),結(jié)合使用環(huán)境,用戶便能夠做出對(duì)信息對(duì)象取舍的決定,選擇適合用戶使用的資源。
3.元數(shù)據(jù)如何建設(shè)?
元數(shù)據(jù)建設(shè)除了需要知道一些已經(jīng)成型的理論知識(shí)外還需要在設(shè)計(jì)具體執(zhí)行方案
理論知識(shí)
建設(shè)元數(shù)據(jù)的方法已經(jīng)有一些成套的路徑了比如Dublin Core、IAFA Template、CDF、Web CoIlections,這些太專業(yè)了,有興趣的自己可以去了解。
我在建設(shè)數(shù)據(jù)倉庫中對(duì)元數(shù)據(jù)建設(shè)中體會(huì),建設(shè)過程要從其目的來談,離開目標(biāo)去建立元數(shù)據(jù),就發(fā)現(xiàn)元數(shù)據(jù)包含太多東西,只要是描述數(shù)據(jù)的數(shù)據(jù)就可以囊括進(jìn)來。

所以元數(shù)據(jù)不能脫離目標(biāo)。拿客戶關(guān)系系統(tǒng)來比喻,這個(gè)系統(tǒng)維護(hù)客戶信息當(dāng)然是有目的的,是要用這些信息進(jìn)行一些自動(dòng)的流程處理、去挖掘一些客戶潛在的價(jià)值、做好客戶服務(wù)。當(dāng)然沒有必要去維護(hù)客戶的生命特征信息,諸如指紋、犯罪史等,這些信息跟客戶關(guān)系管理的目標(biāo)關(guān)系不大。
元數(shù)據(jù)也是如此,你可以將所有數(shù)據(jù)的結(jié)構(gòu)、大小、什么時(shí)間創(chuàng)建、什么時(shí)間消亡、被那些人使用等等,這些信息可以延伸得太廣,如果不管目標(biāo),而試圖去建一個(gè)非常完美的元數(shù)據(jù)管理體系,這是一種絕對(duì)的"自上而下"做法,必?cái)o疑
實(shí)踐中的兩種方案對(duì)比
1).集中管理元數(shù)據(jù)

集中管理,有專門的一個(gè)節(jié)點(diǎn)他的職責(zé)就是元數(shù)據(jù)管理,所有的元數(shù)據(jù)都存儲(chǔ)在該節(jié)點(diǎn)上。所有客戶端對(duì)數(shù)據(jù)文件的請(qǐng)求都需要先請(qǐng)求該節(jié)點(diǎn)獲取描述該數(shù)據(jù)文件的元數(shù)據(jù),
集中管理可以很容易保證元數(shù)據(jù)的一致性,但是當(dāng)系統(tǒng)過多容易導(dǎo)致單點(diǎn)性能瓶頸,而且當(dāng)該節(jié)點(diǎn)失效,整個(gè)數(shù)據(jù)文件都無法正常訪問。
2).分布式管理元數(shù)據(jù)

分布式管理是指將元數(shù)據(jù)存放在系統(tǒng)的任意節(jié)點(diǎn)并且能動(dòng)態(tài)的遷移。對(duì)元數(shù)據(jù)管理的職責(zé)也分布到各個(gè)不同的節(jié)點(diǎn)上,很好的解決了集中管理的缺點(diǎn),但是實(shí)現(xiàn)復(fù)雜,一致性維護(hù)復(fù)雜
總結(jié)
元數(shù)據(jù)的建設(shè)過程同時(shí)也是對(duì)頭腦中的思維進(jìn)行重構(gòu)的過程,簡單一句話元數(shù)據(jù)建設(shè)就像我們頭腦如何去理解一件事物,我們并不需要記憶每一個(gè)細(xì)節(jié),我們只需要得到這件事的幾個(gè)關(guān)鍵特征,其實(shí)這幾個(gè)關(guān)鍵特征就可以稱為這件事的元數(shù)據(jù)。