4. 相關(guān)標(biāo)準(zhǔn)(二)-大數(shù)據(jù)技術(shù)參考模型

2、GB/T 35589-2017 信息技術(shù) 大數(shù)據(jù)技術(shù)參考模型
(1)了解本標(biāo)準(zhǔn)的范圍、術(shù)語和定義,熟悉大數(shù)據(jù)參考架構(gòu)的目的、目標(biāo),熟悉大數(shù)據(jù)參考架構(gòu)及其各組成部分。

1.范圍

本標(biāo)準(zhǔn)描述了大數(shù)據(jù)的參考架構(gòu),包括角色、活動(dòng)和功能組件以及它們之間的關(guān)系。
本標(biāo)準(zhǔn)適用于對大數(shù)據(jù)復(fù)雜操作的理解,可為大數(shù)據(jù)系列標(biāo)準(zhǔn)的制定提供基礎(chǔ)。

2.規(guī)范性引用文件

下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版木適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T 35295 信息技術(shù) 大數(shù)據(jù) 術(shù)語

3.術(shù)語和定義

GB/T 35295 界定的以及下列術(shù)語和定義適用于本文件。

3.1大數(shù)據(jù)參考架構(gòu) big data reference architecture

一種用作工具以便于對大數(shù)據(jù)內(nèi)在的要求、設(shè)計(jì)結(jié)構(gòu)和運(yùn)行進(jìn)行開放性探討的高層概念模型。
注:比較普遍認(rèn)同的大數(shù)據(jù)參考架構(gòu)一般包含系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者和
數(shù)據(jù)消費(fèi)者等5個(gè)邏輯功能構(gòu)件。

3.2 系統(tǒng)協(xié)調(diào)者 system orchestrator

大數(shù)據(jù)參考架構(gòu)中的一種邏輯功能構(gòu)件,定義所需的數(shù)據(jù)應(yīng)用活動(dòng)并將它們整合到可運(yùn)行的垂直系統(tǒng)中。
注:系統(tǒng)協(xié)調(diào)者可以是人、軟件或這二者。

3.3 數(shù)據(jù)提供者 data provider

大數(shù)據(jù)參考架構(gòu)中的一種邏輯功能構(gòu)件,將新的數(shù)據(jù)或信息引人大數(shù)據(jù)系統(tǒng)。

3.4 大數(shù)據(jù)應(yīng)用提供者 big data application provider

大數(shù)據(jù)參考架構(gòu)中的一種邏輯功能構(gòu)件,執(zhí)行數(shù)據(jù)生命周期操作,以滿足系統(tǒng)協(xié)調(diào)者定義的需求以及安全和隱私保護(hù)需求。

3.5 大數(shù)據(jù)框架提供者 bis data framework provider

大數(shù)據(jù)參考架構(gòu)中的一種邏輯功能構(gòu)件,建立一種計(jì)算框架,在此框架中執(zhí)行轉(zhuǎn)換應(yīng)用,同時(shí)保護(hù)數(shù)據(jù)完整性和隱私。

3.6 數(shù)據(jù)消費(fèi)者 data consumer

大數(shù)據(jù)參考架構(gòu)中的一種邏輯功能構(gòu)件,是使用大數(shù)據(jù)應(yīng)用提供者提供的應(yīng)用的末端用戶或其他系統(tǒng)。

3.7 數(shù)據(jù)科學(xué)家 data scientist

數(shù)據(jù)科學(xué)專業(yè)人員;他們具有足夠的業(yè)務(wù)需求管理機(jī)制方面的知識、領(lǐng)城知識、分析技能以及用于管理數(shù)據(jù)生命周期中每個(gè)階段的端到端數(shù)據(jù)過程的軟件和系統(tǒng)工程知識。

4.縮略語

下列縮略語適用于本文件。
BDRA:大數(shù)據(jù)參考架構(gòu)(Big Data Reference Architecture)
POSIX:可移植操作系統(tǒng)接口 (Portable Operating System Interface)

5.大數(shù)據(jù)參考架構(gòu)的目的和目標(biāo)

本標(biāo)準(zhǔn)中的 BDRA提供了一個(gè)體系架構(gòu)。用于有效描述大數(shù)據(jù)角色、活動(dòng)和功能組件。
BDRA 目的包括:

  • 為各種利益相關(guān)者提供一種交流大數(shù)據(jù)技術(shù)的通用語言;
  • 鼓勵(lì)大數(shù)據(jù)實(shí)踐者遵守通用標(biāo)準(zhǔn)、規(guī)范和模式;
  • 為解決相似的問題集提供一致的技術(shù)實(shí)現(xiàn)方法。

BDRA 的目的是為了方便對大數(shù)據(jù)復(fù)雜性操作的認(rèn)識。它不代表一個(gè)特定的大數(shù)據(jù)系統(tǒng)的系統(tǒng)架構(gòu);相反,它是一種工具,使用通用的架構(gòu)來描述、討論和開發(fā)特定系統(tǒng)的架構(gòu)。
BDRA 是一個(gè)通用的大數(shù)據(jù)系統(tǒng)概念模型,對于討論大數(shù)據(jù)需求、結(jié)構(gòu)和操作,它是一種有效的工具。該模型不依賴于任何特定的產(chǎn)品和服務(wù)供應(yīng)商,也不定義規(guī)范的解決方案。
BDRA 支持以下標(biāo)準(zhǔn)化目標(biāo):

  • 在一個(gè)與供應(yīng)商和技術(shù)無關(guān)的大數(shù)據(jù)高層概念模型語境下,增進(jìn)對大數(shù)據(jù)構(gòu)件、處理過程及系統(tǒng)的理解;
  • 為政府部門、相關(guān)機(jī)構(gòu)和其他用戶在理解、討論、分類和比較大數(shù)據(jù)解決方案的過程中提供技術(shù)參考;
  • 促進(jìn)對大數(shù)據(jù)互操作性、可移植性、可重用性和可擴(kuò)展性的備選標(biāo)準(zhǔn)的分析。

6.大數(shù)據(jù)參考架構(gòu)概述

本標(biāo)準(zhǔn)定義的 BDRA 為大數(shù)據(jù)標(biāo)準(zhǔn)化提供了基本參考點(diǎn),為大數(shù)據(jù)系統(tǒng)的基本概念和原理提供了
一個(gè)總體架構(gòu),見圖1。


圖1 大數(shù)據(jù)參考架構(gòu).png

BDRA 圍繞代表大數(shù)據(jù)價(jià)值鏈的兩個(gè)維度組織展開:信息價(jià)值鏈(水平軸)和信息技術(shù)價(jià)值鏈(垂直軸)。信息價(jià)值鏈表現(xiàn)大數(shù)據(jù)作為一種數(shù)據(jù)科學(xué)方法對從數(shù)據(jù)到知識的處理過程中所實(shí)現(xiàn)的信息流價(jià)值。信息價(jià)值鏈的校心價(jià)值通過數(shù)據(jù)收集、預(yù)處理、分析、可視化和訪問等活動(dòng)實(shí)現(xiàn)。信息技術(shù)價(jià)值鏈表現(xiàn)大數(shù)據(jù)作為一種新興的數(shù)據(jù)應(yīng)用范式對信息技術(shù)產(chǎn)生的新需求所帶來的價(jià)值。信息技術(shù)價(jià)值鏈的核心價(jià)值通過為大數(shù)據(jù)應(yīng)用提供存放和運(yùn)行大數(shù)據(jù)的網(wǎng)絡(luò) 、基礎(chǔ)設(shè)施、平臺(tái)、應(yīng)用工具以及其他信息技術(shù)服務(wù)實(shí)現(xiàn)。大數(shù)據(jù)應(yīng)用提供者位于兩個(gè)價(jià)值鏈的交叉點(diǎn)上,大數(shù)據(jù)分析及其實(shí)現(xiàn)為兩個(gè)價(jià)值鏈上的大數(shù)據(jù)利益相關(guān)者提供特定價(jià)值。
BDRA提供了一個(gè)構(gòu)件層級分類體系,用于描述BDRA 中的邏輯構(gòu)件以及定義邏輯構(gòu)件的分類。
BDRA 中的邏輯構(gòu)件被劃分為 3個(gè)層級,從高到低依次為角色、活動(dòng)和組件。最頂層級的邏輯構(gòu)件是代表大數(shù)據(jù)系統(tǒng)中存在的5個(gè)角色,包括系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者、數(shù)據(jù)消費(fèi)者5個(gè)角色。另外兩個(gè)非常重要的邏輯構(gòu)件是安全和隱私以及管理,它們?yōu)榇髷?shù)據(jù)系統(tǒng)的5個(gè)角色提供服務(wù)和功能。第二層級的邏輯構(gòu)件是每個(gè)角色執(zhí)行的活動(dòng)。第三層級的邏輯構(gòu)件是執(zhí)行每個(gè)活動(dòng)需要的功能組件。
該架構(gòu)可以用于表示由多個(gè)大數(shù)據(jù)系統(tǒng)組成的堆疊式或鏈?zhǔn)较到y(tǒng),其中一個(gè)系統(tǒng)的數(shù)據(jù)消費(fèi)者可以作為后面一個(gè)系統(tǒng)的數(shù)據(jù)提供者。
該架構(gòu)持各種商業(yè)環(huán)境,包括緊密集成的企業(yè)系統(tǒng)和松散耦合的垂直行業(yè),有助于理解大數(shù)據(jù)系統(tǒng)如何補(bǔ)充并有別于已有的分析、商業(yè)智能、數(shù)據(jù)庫等傳統(tǒng)的數(shù)據(jù)應(yīng)用系統(tǒng)。

7. 大數(shù)據(jù)參考架構(gòu)的組成

7.1 系統(tǒng)協(xié)調(diào)者

系統(tǒng)協(xié)調(diào)者職責(zé)在于規(guī)范和集成各類所需的數(shù)據(jù)應(yīng)用活動(dòng),以構(gòu)建一個(gè)可運(yùn)行的垂直系統(tǒng)。
系統(tǒng)協(xié)調(diào)者具體功能包括:配置和管理 BDRA 中其他組件執(zhí)行一個(gè)或多個(gè)工作負(fù)載,以確保各工作項(xiàng)能正常運(yùn)行。負(fù)責(zé)為其他組件分配對應(yīng)的物理或虛擬節(jié)點(diǎn)并對各組件的運(yùn)行情況進(jìn)行監(jiān)控,并通過動(dòng)態(tài)調(diào)配資源等方式來確保各組件的服務(wù)質(zhì)量水平達(dá)到所需要求。
系統(tǒng)協(xié)調(diào)者的功能可由管理員、軟件或二者的組合以集中式或分布式的形式實(shí)現(xiàn)。

7.2 數(shù)據(jù)提供者

數(shù)據(jù)提供者的職責(zé)是將數(shù)據(jù)和信息引人到大數(shù)據(jù)系統(tǒng)中,供大數(shù)據(jù)系統(tǒng)發(fā)現(xiàn)、訪問和轉(zhuǎn)換。
其具體活動(dòng)包括:

  • 收集、固化數(shù)據(jù)。
  • 創(chuàng)建描述數(shù)據(jù)源的元數(shù)據(jù)。
  • 發(fā)布信息的可用性和訪問方法。
  • 確保數(shù)據(jù)傳輸質(zhì)量。
    數(shù)據(jù)提供者和大數(shù)據(jù)應(yīng)用提供者的接口涉及3個(gè)階段:開始、數(shù)據(jù)傳輸和終止。

7.3 大數(shù)據(jù)應(yīng)用提供者

7.3.1 概述

大數(shù)據(jù)應(yīng)用提供者的職責(zé)是通過在數(shù)據(jù)生命周期中執(zhí)行的一組特定操作,來滿足由系統(tǒng)協(xié)調(diào)者規(guī)定的要求,以及安全性、隱私性要求。
大數(shù)據(jù)應(yīng)用提供者包括收集、預(yù)處理、分析、可視化和訪問5個(gè)活動(dòng)。

7.3.2 收集

負(fù)責(zé)處理與數(shù)據(jù)提供者的接口和數(shù)據(jù)引人。

7.3.3 預(yù)處理

包括數(shù)據(jù)驗(yàn)證、清洗、標(biāo)準(zhǔn)化、格式化和存儲(chǔ)。

7.3.4 分析

基于數(shù)據(jù)科學(xué)家的需求或垂直應(yīng)用的需求,確定處理數(shù)據(jù)的算法水產(chǎn)生新的分析,解決技術(shù)目標(biāo),從而實(shí)現(xiàn)從數(shù)據(jù)中提取知識的技術(shù)。

7.3.5 可視化

提供給最終的數(shù)據(jù)消費(fèi)者處理中的數(shù)據(jù)元素和呈現(xiàn)分析功能的輸出。

7.3.6 訪問

與可視化和分析功能交互,響應(yīng)應(yīng)用程序請求,通過使用處理和平臺(tái)框架來檢索數(shù)據(jù),并響應(yīng)數(shù)據(jù)消費(fèi)者請求。

7.4 大數(shù)據(jù)框架提供者

7.4.1 概述

大數(shù)據(jù)框架提供者的職責(zé)是為大數(shù)據(jù)應(yīng)用提供者在創(chuàng)建具體應(yīng)用時(shí)提供使用的資源和服務(wù)。
大數(shù)據(jù)框架提供者包括基礎(chǔ)設(shè)施、平臺(tái)、處理框架、信息交互/通信和資源管理5個(gè)活動(dòng)。

7.4.2 基礎(chǔ)設(shè)施

為大數(shù)據(jù)系統(tǒng)中的所有其他要素提供必要的資源,這些資源是由一些物理資源的組合構(gòu)成,這些物理資源可以控制/支持相似的虛擬資源。這些資源分為下面幾類:

  • 網(wǎng)絡(luò):從一個(gè)資源向另一個(gè)資源傳輸數(shù)據(jù)的資源。
  • 計(jì)算:用于執(zhí)行和保持其他組件的軟件的實(shí)際處理器和存儲(chǔ)器。
  • 存儲(chǔ):大數(shù)據(jù)系統(tǒng)中保存數(shù)據(jù)的資源。
  • 環(huán)境:在建立大數(shù)據(jù)實(shí)例的時(shí)候必須考慮的物理廠房資源(電力、制冷等)。

7.4.3 平臺(tái)

包含邏輯數(shù)據(jù)的組織和分布,支持文件系統(tǒng)方式存儲(chǔ)和素引存儲(chǔ)方法:

  • 文件系統(tǒng):實(shí)施某種級別的 POSIX 標(biāo)準(zhǔn)以獲取權(quán)限,進(jìn)行相關(guān)的文件操作。
  • 素引存儲(chǔ):無需掃描整個(gè)數(shù)據(jù)集,便可以迅速定位數(shù)據(jù)的具體要素。

7.4.4 處理框架

提供必要的基礎(chǔ)設(shè)施軟件以支持實(shí)現(xiàn)應(yīng)用程序能夠滿足數(shù)據(jù)數(shù)量、速度和多樣性的處理。包括批處理、流處理,以及兩者的數(shù)據(jù)交換與數(shù)據(jù)操作。

7.4.5 信息交互/通信

包含點(diǎn)對點(diǎn)傳輸和存儲(chǔ)轉(zhuǎn)發(fā)兩種通信模型。在點(diǎn)對點(diǎn)傳輸模型中,發(fā)送者通過信道直接將所傳輸?shù)男畔l(fā)送給接收者;而在后者中,發(fā)送者會(huì)將信息先發(fā)送給中間實(shí)體,然后中間實(shí)體再逐條轉(zhuǎn)發(fā)給接收者。點(diǎn)對點(diǎn)傳輸模型還包括多播這種特殊的通信模式,在多播中,一個(gè)發(fā)送者可將信息發(fā)送給多個(gè)而不是一個(gè)接收者。

7.4.6 資源管理

計(jì)算、存儲(chǔ)及實(shí)現(xiàn)兩者互聯(lián)互通的網(wǎng)絡(luò)連接管理。主要日標(biāo)是實(shí)現(xiàn)分布式的、彈性的資源調(diào)配,具體包括對存儲(chǔ)資源的管理和對計(jì)算資源的管理。

7.5 數(shù)據(jù)消費(fèi)者

通過調(diào)用大數(shù)據(jù)應(yīng)用提供者提供的接口按需訪問信息,與其產(chǎn)生可視的,事后可查的交互。

7.6 安全和隱私

在安全和隱私管理模塊。通過不同的技術(shù)手段和安全措施,構(gòu)建大數(shù)據(jù)平臺(tái)安全防護(hù)體系,實(shí)現(xiàn)覆蓋硬件、軟件和上層應(yīng)用的安全保護(hù),從網(wǎng)絡(luò)安全、主機(jī)安全、應(yīng)用安全、數(shù)據(jù)安全四個(gè)方面來保證大數(shù)據(jù)平臺(tái)的安全性:

  • 網(wǎng)絡(luò)安全:通過網(wǎng)絡(luò)安全技術(shù),保證數(shù)據(jù)處理、存儲(chǔ)安全和維護(hù)正常運(yùn)行。
  • 主機(jī)安全:通過對集群內(nèi)節(jié)點(diǎn)的操作系統(tǒng)安全加固等手段保證節(jié)點(diǎn)正常運(yùn)行。
  • 應(yīng)用安全:具有身份簽別和認(rèn)證、用戶和權(quán)限管理、數(shù)據(jù)庫加固、用戶口令管理、審計(jì)控制等安全措施,實(shí)施合法用戶合理訪問資源的安全策略。
  • 數(shù)據(jù)安全:從集群容災(zāi)、備份、數(shù)據(jù)完整性、數(shù)據(jù)分角色存儲(chǔ)、數(shù)據(jù)訪問控制等方面保證用戶數(shù)據(jù)的安全。
    同時(shí)應(yīng)提供一個(gè)合理的災(zāi)備框架,提升災(zāi)備恢復(fù)能力,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)異地容災(zāi)功能,跨數(shù)據(jù)中心數(shù)據(jù)備份。
    隱私保護(hù)主要是在不暴露用戶敏感信息的前提下進(jìn)行有效的數(shù)據(jù)挖掘;根據(jù)需要保護(hù)的內(nèi)容不同,可分為位置隱私保護(hù)、標(biāo)識符匿名保護(hù)和連接關(guān)系匿名保護(hù)等。

7.7 管理

提供大規(guī)模集群統(tǒng)一的運(yùn)維管理系統(tǒng),能夠?qū)Π〝?shù)據(jù)中心、基礎(chǔ)硬件、平臺(tái)軟件和應(yīng)用軟件進(jìn)行集中運(yùn)維、統(tǒng)一管理,實(shí)現(xiàn)安裝部署、參數(shù)配置、監(jiān)控、告警、用戶管理、權(quán)限管理、審計(jì)、服務(wù)管理、健康檢查、問題定位、升級和補(bǔ)丁等功能。
具有自動(dòng)化運(yùn)維的能力,通過對名個(gè)數(shù)據(jù)中心的資源進(jìn)行統(tǒng)一管理,合理的分配和調(diào)度業(yè)務(wù)所需要的資源,做到自動(dòng)化按需分配。同時(shí)提供對多個(gè)數(shù)據(jù)中心的信息技術(shù)基礎(chǔ)設(shè)施進(jìn)行集中運(yùn)維的能力,自動(dòng)化監(jiān)控?cái)?shù)據(jù)中心內(nèi)各種信息技術(shù)設(shè)備的事件、告警、性能,實(shí)現(xiàn)從業(yè)務(wù)緯度來進(jìn)行運(yùn)維的能力。
對主管理系統(tǒng)節(jié)點(diǎn)及所有業(yè)務(wù)組件中心管理節(jié)點(diǎn)實(shí)現(xiàn)高可靠性的雙機(jī)機(jī)制,采用主備或負(fù)荷分擔(dān)配置,避免單點(diǎn)故障場景對系統(tǒng)可靠性的影響。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容