6. 相關(guān)標(biāo)準(zhǔn)(四)-數(shù)據(jù)分類指南

4、GB/T 38667-2020 信息技術(shù) 大數(shù)據(jù) 數(shù)據(jù)分類指南
(1)了解本標(biāo)準(zhǔn)的范圍、術(shù)語和定義,熟悉數(shù)據(jù)分類的過程,以及分類視
角、分類維度和分類方法。

3. 術(shù)語和定義

GB/T 35295—2017 界定的以及下列術(shù)語和定義適用于本文件。為了便于使用,以下重復(fù)列出了GB/T 35295-2017 中的某些術(shù)語和定義。

3.1 大數(shù)據(jù) big data

具有體量巨大、來源多樣、生成極快、且多變等特征,并且難以用傳統(tǒng)數(shù)據(jù)體系結(jié)構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)。
注:國(guó)際上,大數(shù)據(jù)的4個(gè)特征普遍不加修飾地直接用 volume variety velocity 和 variability予以表述,并分別賦予了它們?cè)诖髷?shù)據(jù)語境下的定義:
a) 體量volume:構(gòu)成大數(shù)據(jù)的數(shù)據(jù)集的規(guī)模。
b)多樣性 variety:數(shù)據(jù)可能來自多個(gè)數(shù)據(jù)倉庫、數(shù)據(jù)領(lǐng)域或多種數(shù)據(jù)類型。
C)速度velocity:?jiǎn)挝粫r(shí)間的數(shù)據(jù)流量。
d)多變性 variability:大數(shù)據(jù)其他特征,即體量、速度和多樣性等特征都處于多變狀態(tài)。
[GB/T 35295-2017,定義 2.1.1]

3.2 數(shù)據(jù)集 data set

數(shù)據(jù)記錄匯聚的數(shù)據(jù)形式。
注:它可以具有大數(shù)據(jù)的體量、速度、多樣性和易變性特征。數(shù)據(jù)集的特征表征的是數(shù)據(jù)本身或靜態(tài)數(shù)據(jù),而數(shù)據(jù)的特征,當(dāng)其在網(wǎng)絡(luò)上傳輸時(shí)或暫時(shí)駐留于計(jì)算機(jī)存儲(chǔ)器中以備讀出或更新時(shí),表征的是動(dòng)態(tài)數(shù)據(jù)。
[GB/T 35295—2017,定義 2.1.46]

3.3 大數(shù)據(jù)分類 big data classification

根據(jù)大數(shù)據(jù)的屬性或特征,將其按一定的原則和方法進(jìn)行區(qū)分和歸類,并建立起一定的分類體系和排列順序的過程。

3.4 分類主體 classification subject

大數(shù)據(jù)收集、存儲(chǔ)、使用、分發(fā)、刪除等過程中對(duì)大數(shù)據(jù)進(jìn)行梳理歸類的組織或個(gè)人。

3.5 分類視角 classification angle

分類主體觀察和開展大數(shù)據(jù)分類活動(dòng)的角度。

3.6 分類維度 classification dimension

用于實(shí)現(xiàn)分類的數(shù)據(jù)所具有的某個(gè)或某些共同特征。
注:常見數(shù)據(jù)分類維度包括產(chǎn)生來源、結(jié)構(gòu)化特征、業(yè)務(wù)歸屬、處理時(shí)效性要求等。

3.7 分類方法 classification method

根據(jù)選定的分類維度,將數(shù)據(jù)類別以某種形式進(jìn)行排列組織的邏輯方法。

3.8 數(shù)據(jù)分發(fā) data distribute

將原始數(shù)據(jù)、處理數(shù)據(jù)、分析結(jié)果等形式的數(shù)據(jù)傳遞給內(nèi)部或外部實(shí)體的過程。
注:數(shù)據(jù)分發(fā)包括線上或線下等多種方式,如數(shù)據(jù)交換、數(shù)據(jù)交易、數(shù)據(jù)共享、數(shù)據(jù)公開等。

3.9 類別 category

具有共同屬性(或特征)的數(shù)據(jù)的集合。

4. 縮略語

下列縮略語適用本文件。
ETL:提取、轉(zhuǎn)換和加載(Extract-Transform-Load)
FTP:文件傳輸協(xié)議 (File Transfer Protocol)
SQL:結(jié)構(gòu)化查詢語言 (Structured Query Language)

5. 分類過程

5.1 概述

大數(shù)據(jù)分類過程劃分為分類規(guī)劃、分類準(zhǔn)備、分類實(shí)施、結(jié)果評(píng)估、維護(hù)改進(jìn)5個(gè)階段,如圖1所示。

大數(shù)據(jù)分類過程.png

本章規(guī)范了大數(shù)據(jù)的分類過程,并根據(jù)大數(shù)據(jù)實(shí)際應(yīng)用場(chǎng)景,在第6章、第7章、第8章分別對(duì)分類視角、分類維度、分類方法了個(gè)關(guān)鍵步驟進(jìn)行規(guī)范,具體分類示例參見附錄 A。

5.2 分類規(guī)劃

5.2.1 選擇分類視角

選擇分類視角過程包括:
a)明確分類業(yè)務(wù)場(chǎng)景;
b)根據(jù)業(yè)務(wù)場(chǎng)景選取分類視角。
注:分類視角見第6章。

5.2.2 制定工作計(jì)劃

制定工作計(jì)劃過程包括:
a)明確規(guī)劃擬開展分類的數(shù)據(jù)范圍;
b)明確擬采用的分類維度和方法;
c)明確預(yù)期分類結(jié)果;
d)明確分類工作實(shí)施方案及進(jìn)度安排;
e)明確對(duì)分類結(jié)果的評(píng)估方法;
f) 明確對(duì)分類結(jié)果體系的維護(hù)方案。

5.3 分類準(zhǔn)備

5.3.1 調(diào)研數(shù)據(jù)現(xiàn)狀

調(diào)硏數(shù)據(jù)現(xiàn)狀過程包括:
a)調(diào)研數(shù)據(jù)產(chǎn)生情況,包括但不限于數(shù)據(jù)產(chǎn)生的場(chǎng)景、主體、方式、頻率、稀疏稠密、合法合規(guī)
性等;
b)調(diào)研數(shù)據(jù)存儲(chǔ)現(xiàn)狀,包括但不限于數(shù)據(jù)內(nèi)容的格式、存儲(chǔ)方式、存儲(chǔ)位置、存儲(chǔ)量等;
c)調(diào)研數(shù)據(jù)質(zhì)量情況,包括但不限于數(shù)據(jù)的規(guī)范性、完整性、誰確性、一致性、時(shí)效性、可訪問
性等;
d)調(diào)研數(shù)據(jù)業(yè)務(wù)類型,如組織人事管理數(shù)據(jù)、經(jīng)營(yíng)數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)等;
e)調(diào)研數(shù)據(jù)敏感程度,包括但不限于數(shù)據(jù)的涉密程度、安全性、保護(hù)需求等:
f) 調(diào)研數(shù)據(jù)應(yīng)用情況,包括但不限于數(shù)據(jù)的使用目的、應(yīng)用領(lǐng)域、使用方式等;
g)調(diào)研數(shù)據(jù)時(shí)效性情況,包括但不限于數(shù)據(jù)處理的時(shí)效性要求、數(shù)據(jù)價(jià)值時(shí)效性等;
h)調(diào)研數(shù)據(jù)權(quán)屬情況,包括但不限于數(shù)據(jù)的所有權(quán)、管理權(quán)、使用權(quán)等。

5.3.2 確定分類對(duì)象

確定分類對(duì)象過程包括:
a)確定數(shù)據(jù)分類的業(yè)務(wù)場(chǎng)景;
b)確定數(shù)據(jù)產(chǎn)生的起止時(shí)間;
e)確定數(shù)據(jù)量大?。?br> d)確定數(shù)據(jù)產(chǎn)生頻率;
e)確定數(shù)據(jù)結(jié)構(gòu)化特征;
f) 確定數(shù)據(jù)存儲(chǔ)方式;
g)確定數(shù)據(jù)處理時(shí)效性;
h)確定數(shù)據(jù)交換方式;
i)確定數(shù)據(jù)產(chǎn)生來源;
j)確定數(shù)據(jù)流通類型;
k)確定數(shù)據(jù)質(zhì)量;
i)確定數(shù)據(jù)敏感程度。

5.3.3 選擇分類維度

選擇分類維度過程包括:
a)梳理分類視角的數(shù)據(jù)特征;
b)根據(jù)數(shù)據(jù)特征選取分類維度。
注:分類維度見第7章。

5.3.4 選擇分類方法

選擇分類方法過程宜明確分類維度的排列順序和組合方式。
注1:分類方法見第8章。
注2:若選擇混合分類法,還需考慮以哪種分類維度為主,哪種分類維度作為補(bǔ)充。

5.4 分類實(shí)施

5.4.1 擬定實(shí)施流程

擬定實(shí)施流程宜結(jié)合大數(shù)據(jù)的生命周期,擬定具體的分類實(shí)施流程,包括但不限于明確實(shí)施步驟、啟動(dòng)實(shí)施工作、開展實(shí)施工作、總結(jié)實(shí)施過程等。

5.4.2 開發(fā)工具腳本

開發(fā)工具/腳本宜根據(jù)實(shí)施流程、分類維度和分類方法編寫分類算法,遵循軟件開發(fā)或者腳本編制的規(guī)范開發(fā)分類工具/腳本。

5.4.3 記錄實(shí)施過程

記錄實(shí)施過程宜記錄分類實(shí)施過程的各個(gè)步驟及其分類結(jié)果,輸出文檔。

5.4.4 輸出分類結(jié)果

輸出分類結(jié)果宜梳理各個(gè)步驟的分類結(jié)果,形成數(shù)據(jù)分類表。

5.5 結(jié)果評(píng)估

5.5.1 核查實(shí)施過程

核查實(shí)施過程包括:
a) 核查數(shù)據(jù)分類表,明確類別劃分是否合理;
b) 核查分類過程記錄,明確分類結(jié)果與預(yù)期日標(biāo)的偏離程度;
c) 核查分類維度,確保分類維度符合業(yè)務(wù)需求、分類目標(biāo);
d)核查分類方法的合理性;
e)根據(jù)核查結(jié)果調(diào)整大數(shù)據(jù)分類過程。

5.5.2 訪談相關(guān)人員

訪談相關(guān)人員包括:
a)訪談數(shù)據(jù)分類執(zhí)行者,詢問分類視角、范圍、維度、方法與業(yè)務(wù)場(chǎng)景的關(guān)聯(lián)性等;
b)訪談數(shù)據(jù)所有者,詢問數(shù)據(jù)分類結(jié)果中的數(shù)據(jù)權(quán)屬類別劃分、產(chǎn)生頻率類別劃分等是否符合實(shí)
際情況;
e)訪談數(shù)據(jù)管理者,詢問數(shù)據(jù)分類結(jié)果中的數(shù)據(jù)結(jié)構(gòu)化類別劃分、數(shù)據(jù)存儲(chǔ)方式類別劃分、稀疏程度劃分、敏感程度劃分等是否符合實(shí)際情況;
d)訪談數(shù)據(jù)使用者,詢問數(shù)據(jù)分類結(jié)果中的數(shù)據(jù)處理實(shí)時(shí)性劃分、交換方式類別劃分、業(yè)務(wù)歸屬
類別劃分、流通類型類別劃分等是否符合實(shí)際應(yīng)用情況;
e)核查意見和問題,調(diào)整大數(shù)據(jù)分類過程。

5.5.3 測(cè)試分類結(jié)果

測(cè)試分類結(jié)果包括:
a) 對(duì)分類后的數(shù)據(jù)執(zhí)行分類腳本或程序,查看是否有不符合分類策略的分類結(jié)果;
b)核查意見和問題,調(diào)整大數(shù)據(jù)分類過程。

5.6 維護(hù)改進(jìn)

5.6.1 變更控制

變更控制包括:
a) 分析變更的必要性和合理性,確定是否實(shí)施變更;
b)制定變更計(jì)劃,評(píng)估變更對(duì)大數(shù)據(jù)分類工作的影響,包括分類維度、分類方法的改變等;
c)執(zhí)行變更,對(duì)分類結(jié)果進(jìn)行更改,記錄變更討程:
d)對(duì)新的大數(shù)據(jù)分類結(jié)果進(jìn)行評(píng)估;
e) 發(fā)布新的大數(shù)據(jù)分類結(jié)果。

5.6.2 定期評(píng)估

定期評(píng)估包括:
a)定期評(píng)估大數(shù)據(jù)分類維度和方法的合理性,檢查其是否符合業(yè)務(wù)場(chǎng)景變化和分類視角變化;
b)定期評(píng)估大數(shù)據(jù)分類結(jié)果的有效性和應(yīng)用情況,檢查其是否滿足業(yè)務(wù)應(yīng)用需求的更新;
c))核查意見和問題,調(diào)整大數(shù)據(jù)分類過程。

6. 分類視角

6.1概述

大數(shù)據(jù)分類視角分為技術(shù)選型視角、業(yè)務(wù)應(yīng)用視角和安全隱私保護(hù)視角。

6.2 技術(shù)選型視角

技術(shù)選型視角包括但不限于:
a) 理清數(shù)據(jù)產(chǎn)生頻率,明確數(shù)據(jù)產(chǎn)生規(guī)律,確定數(shù)據(jù)更新周期和存儲(chǔ)策略,確定數(shù)據(jù)存儲(chǔ)平臺(tái)配型等存儲(chǔ)資源分配方案;
b)理清數(shù)據(jù)產(chǎn)生方式,分析數(shù)據(jù)的來源和質(zhì)量,確定在整個(gè)數(shù)據(jù)處理流程中數(shù)據(jù)所處的位置,及數(shù)據(jù)處理及存儲(chǔ)技術(shù);
c)分析數(shù)據(jù)的結(jié)構(gòu)化特征,確定數(shù)據(jù)存儲(chǔ)與處理方案;
d)明確數(shù)據(jù)的存儲(chǔ)方式,確定數(shù)據(jù)建模模型與數(shù)據(jù)的訪問方式,支撐各類數(shù)據(jù)應(yīng)用場(chǎng)景;
e)理清數(shù)據(jù)稀疏稠密程度,明確數(shù)據(jù)稀疏稠密規(guī)律,確定數(shù)據(jù)存儲(chǔ)策略和分析方法,選擇數(shù)據(jù)存儲(chǔ)方案和分析方案;
f)明確數(shù)據(jù)處理時(shí)效性要求,明確數(shù)據(jù)處理時(shí)機(jī)?確定數(shù)據(jù)處理策略,選擇包括計(jì)算平臺(tái)和資源匹配等的數(shù)據(jù)處理方案;
g)理清數(shù)據(jù)交換方式,確定數(shù)據(jù)共享方式及策略,支撐構(gòu)建信息交換體系。

6.3 業(yè)務(wù)應(yīng)用視角

業(yè)務(wù)應(yīng)用視角包括但不限于:
a) 理清數(shù)據(jù)產(chǎn)生來源,明確數(shù)據(jù)權(quán)屬和訪問權(quán)限,便于數(shù)據(jù)追蹤湖源;
b)明確數(shù)據(jù)應(yīng)用場(chǎng)景,確定數(shù)據(jù)業(yè)務(wù)主題,判斷數(shù)據(jù)應(yīng)用價(jià)值,選擇數(shù)據(jù)分析方案;
c)明確數(shù)據(jù)分發(fā)場(chǎng)景,確定數(shù)據(jù)應(yīng)用行業(yè),明確可用數(shù)據(jù)的種類和范圍;
d)理清數(shù)據(jù)質(zhì)量情況,明確數(shù)據(jù)應(yīng)用需求,確定數(shù)據(jù)質(zhì)量管理方案。

6.4 安全隱私保護(hù)視角

安全隱私保護(hù)視角包括但不限于:
a) 明確不同敏感程度的大數(shù)據(jù)在存儲(chǔ)、傳輸、訪問、分發(fā)時(shí)的安全要求;
b) 明確不同敏感程度的大數(shù)據(jù)的隱私保護(hù)要求;
c) 指導(dǎo)分類主體制定隱私保護(hù)方案;
d) 指導(dǎo)分類主體制定安全管理方案。

7. 分類維度

7.1 概述

本章從技術(shù)選型、業(yè)務(wù)應(yīng)用和安全隱私保護(hù)三種視角給出不同的分類維度,以及用于描述每種分類維度的分類要素、數(shù)據(jù)類別和適用場(chǎng)景。

7.2 技術(shù)選型維度

7.2.1 按產(chǎn)生頻率分類

7.2.1.1概述

按產(chǎn)生頻率分類是指根據(jù)數(shù)據(jù)產(chǎn)生的頻率(單位時(shí)間內(nèi)產(chǎn)生的數(shù)據(jù)量或達(dá)到指定數(shù)據(jù)量的頻率)對(duì)數(shù)據(jù)進(jìn)行分類。

7.2.1.2 分類要素

按產(chǎn)生頻率分類的要素包括:
a) 數(shù)據(jù)產(chǎn)生周期,如秒、分、時(shí)、天、周、月、季度、半年、年等;
b) 單位周期中數(shù)據(jù)的產(chǎn)生量,可以以記錄條數(shù)表示或者以數(shù)據(jù)占用空間表示,如百萬條記錄、千萬條記錄、GB級(jí)數(shù)據(jù)、TB級(jí)數(shù)據(jù)等。

7.2.1.3 類別

按產(chǎn)生頻率可分為:每年更新數(shù)據(jù)、每月更新數(shù)據(jù)、每周更新數(shù)據(jù)、每日更新數(shù)據(jù)、每小時(shí)更新數(shù)據(jù)、每分鐘更新數(shù)據(jù)、每秒更新數(shù)據(jù)、無更新數(shù)據(jù)等。

7.2.1.4 適用場(chǎng)景

按產(chǎn)生頻率分類的適用場(chǎng)景,如根據(jù)數(shù)據(jù)產(chǎn)生頻率判斷資 源分配合理性和數(shù)據(jù)分析價(jià)值等。

7.2.2 按產(chǎn)生方式分類

7.2.2.1 概述

按產(chǎn)生方式分類是指按照數(shù)據(jù)的產(chǎn)生方式對(duì)數(shù)據(jù)進(jìn)行分類。

7.2.2.2 分類要素

按產(chǎn)生方式分頭的要素包括:
a) 數(shù)據(jù)被獲取或被采集的方式,如人工采集、通過信息系統(tǒng)采集等;
b)數(shù)據(jù)被加工的程度,如原始數(shù)據(jù)、二次加工數(shù)據(jù)等。

7.2.2.3 類別

按產(chǎn)生方式分類可包括:人工采集數(shù)據(jù)、信息系統(tǒng)產(chǎn)生數(shù)據(jù)、感知設(shè)備產(chǎn)生數(shù)據(jù)、原始數(shù)據(jù)、二次加工數(shù)據(jù)等。

7.2.2.4 適用場(chǎng)景

按產(chǎn)生方式分類的適用場(chǎng)景,如確定數(shù)據(jù)采集方案、數(shù)據(jù)保護(hù)方案和數(shù)據(jù)處理方案等。

7.2.3 按結(jié)構(gòu)化特征分類

7.2.3.1 概述

按結(jié)構(gòu)化特征分類是指根據(jù)數(shù)據(jù)的結(jié)構(gòu)化程度對(duì)數(shù)據(jù)進(jìn)行分類。

7.2.3.2 分類要素

按結(jié)構(gòu)化特征分類的要素包括:
a) 是否有預(yù)定義的數(shù)據(jù)模型;
b)數(shù)據(jù)結(jié)構(gòu)是否規(guī)則;
c)數(shù)據(jù)長(zhǎng)度是否規(guī)范;
d)數(shù)據(jù)類型是否固定。

7.2.3.3 類別

按結(jié)構(gòu)化特征分類可劃分為:結(jié)構(gòu)化數(shù)據(jù),如零售、財(cái)務(wù)、生物信息學(xué)、地理數(shù)據(jù)等;非結(jié)構(gòu)化數(shù)據(jù),如圖像、視頻、傳感器數(shù)據(jù)、網(wǎng)頁等;半結(jié)構(gòu)化數(shù)據(jù),如應(yīng)用系統(tǒng)日志、電子郵件等。

7.2.3.4 適用場(chǎng)景

按結(jié)構(gòu)化特征分類的適用場(chǎng)景,如根據(jù)數(shù)據(jù)結(jié)構(gòu)規(guī)劃數(shù)據(jù)處理和存儲(chǔ)架構(gòu)。

7.2.4 按存儲(chǔ)方式分類

7.2.4.1 概述

按存儲(chǔ)方式分類是指根據(jù)數(shù)據(jù)適合采用的數(shù)據(jù)存儲(chǔ)方式對(duì)數(shù)據(jù)進(jìn)行分類等。

7.2.4.2 分類要素

按存儲(chǔ)方式分類的要素包括:
a)數(shù)據(jù)建模適合采用的數(shù)據(jù)模型,如關(guān)系模型、文檔模型、圖模型等;
b)數(shù)據(jù)訪問使用的查詢語言,如 SQL、類 SQL、圖查詢語言等。

7.2.4.3 類別

按存儲(chǔ)方式可劃分為:關(guān)系數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)、鍵值數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)、列式數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)、圖數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)、文檔數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)等。

7.2.4.4 適用場(chǎng)景

按存儲(chǔ)方式分類的適用場(chǎng)景,如選擇數(shù)據(jù)存儲(chǔ)采用的數(shù)據(jù)庫系統(tǒng)、確定應(yīng)用系統(tǒng)與數(shù)據(jù)存儲(chǔ)系統(tǒng)之間的數(shù)據(jù)訪問方式等。

7.2.5 按稀疏程度分類

7.2.5.1 概述

按稀疏程度分類是指根據(jù)數(shù)據(jù)的稀疏稠密程度對(duì)數(shù)據(jù)進(jìn)行分類。

7.2.5.2 分類要素

按稀疏程度分類的要素主要包括數(shù)據(jù)稀疏程度評(píng)價(jià)標(biāo)準(zhǔn),即數(shù)據(jù)集中數(shù)值缺失或者為零的數(shù)據(jù)所占比例。如空值或零值小于 50%的數(shù)據(jù)為稠密數(shù)據(jù),空值或零值大于或等于 50%的數(shù)據(jù)為稀疏數(shù)據(jù)。

7.2.5.3 類別

按稀琉程度可劃分為:稠密數(shù)據(jù)和稀疏數(shù)據(jù)。

7.2.5.4 適用場(chǎng)景

按稀疏程度分類的適用場(chǎng)景,如根據(jù)單位時(shí)間內(nèi)數(shù)據(jù)的量級(jí)進(jìn)行數(shù)據(jù)價(jià)值密度分析判斷等。

7.2.6 按處理時(shí)效性分類

7.2.6.1概述

按處理時(shí)效性分類是指根據(jù)數(shù)據(jù)處理的時(shí)間延遲要求對(duì)數(shù)據(jù)進(jìn)行分類。

7.2.6.2 分類要素

按處理時(shí)效性分類的要素包括:
a)數(shù)據(jù)處理延遲時(shí)間要求,即應(yīng)用場(chǎng)景是否對(duì)處理延遲時(shí)間有明確的上限要求;
b)數(shù)據(jù)價(jià)值時(shí)效性,即數(shù)據(jù)應(yīng)用價(jià)值隨時(shí)間推移的有效性;
c)數(shù)據(jù)處理量,即延遲上限時(shí)間內(nèi)需處理多少量級(jí)的數(shù)據(jù)。

7.2.6.3 類別

按處理時(shí)效性可劃分為:實(shí)時(shí)處理數(shù)據(jù)、淮實(shí)時(shí)處理數(shù)據(jù)和批量處理數(shù)據(jù)。

7.2.6.4 適用場(chǎng)景

按處理時(shí)效性分類的適用場(chǎng)景,如根據(jù)數(shù)據(jù)時(shí)效要求安排業(yè)務(wù)順序和資源投人等。

7.2.7 按交換方式分類

7.2.7.1 概述

按交換方式分類是指根據(jù)數(shù)據(jù)在提供方和接收方之間交換的方式對(duì)數(shù)據(jù)進(jìn)行分類。

7.2.7.2 分類要素

按交換方式分類的要素包括:
a)數(shù)據(jù)交換雙方之間的網(wǎng)絡(luò)狀況,即交換雙方之間的網(wǎng)絡(luò)是否互通;
b)數(shù)據(jù)在交換雙方之間的同步實(shí)時(shí)性要求;
c)單次交換的數(shù)據(jù)量;
d)數(shù)據(jù)交換的頻次,如固定頻率交換、固定時(shí)間交換或按需交換等。

7.2.7.3類別

按交換方式可劃分為:ETL方式、系統(tǒng)接口方式、FTP 方式、移動(dòng)介質(zhì)復(fù)制方式等。

7.2.7.4 適用場(chǎng)景

按交換方式分類的適用場(chǎng)景,如根據(jù)不同交換方式對(duì)大數(shù)據(jù)共享便利程度的影響,規(guī)劃信息交換系統(tǒng)架構(gòu)等。

7.3 業(yè)務(wù)應(yīng)用維度

7.3.1 按產(chǎn)生來源分類

7.3.1.1 概述

按產(chǎn)生來源分類是指根據(jù)數(shù)據(jù)產(chǎn)生的實(shí)際情景對(duì)數(shù)據(jù)進(jìn)行分類。

7.3.1.2 分類要素

按產(chǎn)生來源分類的要素包括:
a) 數(shù)據(jù)產(chǎn)生主體,如人工、機(jī)器、傳感器、應(yīng)用軟件、信息系統(tǒng)等;
b)數(shù)據(jù)權(quán)屬,即數(shù)據(jù)所有權(quán)的歸屬。

7.3.1.3 類別

按產(chǎn)生來源可劃分為:人為社交數(shù)據(jù)、電子商務(wù)平臺(tái)交易數(shù)據(jù)、移動(dòng)通信數(shù)據(jù)、物聯(lián)網(wǎng)感知數(shù)據(jù)、系統(tǒng)運(yùn)行日志數(shù)據(jù)等。

7.3.1.4 適用場(chǎng)景

按產(chǎn)生來源分類的適用場(chǎng)景,如根據(jù)數(shù)據(jù)來源確定數(shù)據(jù)歸集策略、預(yù)測(cè)服務(wù)提供和數(shù)據(jù)交易定價(jià)等。

7.3.2 按業(yè)務(wù)歸屬分類

7.3.2.1 概述

按業(yè)務(wù)歸屬分類是指根據(jù)數(shù)據(jù)所屬的業(yè)務(wù)類型對(duì)數(shù)據(jù)進(jìn)行分類。

7.3.2.2 分類要素

按業(yè)務(wù)歸屬分類的要素包括:
a) 分類主體的業(yè)務(wù)類型劃分,如生產(chǎn)類業(yè)務(wù)、管理類業(yè)務(wù)、經(jīng)營(yíng)分析類業(yè)務(wù);
b)生成數(shù)據(jù)的業(yè)務(wù)所屬的職能,如產(chǎn)品研發(fā)、市場(chǎng)營(yíng)銷、財(cái)務(wù)管理、人力管理等;
c)生產(chǎn)數(shù)據(jù)的具體業(yè)務(wù),如商品交易、會(huì)員注冊(cè)、人才招聘等。

7.3.2.3 類別

按業(yè)務(wù)歸屬可劃分為:生產(chǎn)類業(yè)務(wù)數(shù)據(jù)、管理類業(yè)務(wù)數(shù)據(jù)、經(jīng)營(yíng)分析類業(yè)務(wù)數(shù)據(jù)等。

7.3.2.4 適用場(chǎng)景

按業(yè)務(wù)歸屬分類的適用場(chǎng)景,如按業(yè)務(wù)屬性評(píng)價(jià)數(shù)據(jù)應(yīng)用價(jià)值等。

7.3.3 按流通類型分類

7.3.3.1 概述

按流通類型分類是指根據(jù)數(shù)據(jù)在流通交易過程中的交易類型進(jìn)行分類。

7.3.3.2 分類要素

按流通類型分類的要素包括:
a) 數(shù)據(jù)權(quán)責(zé),即數(shù)據(jù)需求方可獲取的數(shù)據(jù)權(quán)益,如所有權(quán)、經(jīng)銷權(quán)、使用權(quán)、可復(fù)制權(quán)等;
b)計(jì)費(fèi)方式,即數(shù)據(jù)供應(yīng)方和數(shù)據(jù)需求方之問計(jì)算數(shù)據(jù)交易費(fèi)用的方式,如按使用量計(jì)費(fèi)、按使
用時(shí)長(zhǎng)計(jì)費(fèi)等;
交付內(nèi)容,即數(shù)據(jù)供應(yīng)方向數(shù)據(jù)需求方提供的數(shù)據(jù)內(nèi)容,如原始數(shù)據(jù)集、數(shù)據(jù)分析報(bào)告等;
d)行業(yè)主題,即流通數(shù)據(jù)所屬的行業(yè)領(lǐng)域,如農(nóng)業(yè)、林業(yè)、醫(yī)療、交通、科研等;
e)敏感程度,即流通數(shù)據(jù)是否涉及國(guó)家秘密、行業(yè)秘密、企業(yè)秘密或個(gè)人隱私等,如公開數(shù)據(jù)、脫敏數(shù)據(jù)、涉密數(shù)據(jù)等。

7.3.3.3類別

按流通類型可劃分為:可直接交易數(shù)據(jù)、間接交易數(shù)據(jù)、不可交易數(shù)據(jù)等。

7.3.3.4 適用場(chǎng)景

按流通類型分類的適用場(chǎng)景,如以大數(shù)據(jù)分析和大數(shù)據(jù)交易為經(jīng)營(yíng)內(nèi)容的企業(yè)進(jìn)行產(chǎn)品規(guī)劃等。

7.3.4 按行業(yè)領(lǐng)域分類

7.3.4.1 概述

按行業(yè)領(lǐng)城分類是指根據(jù)數(shù)據(jù)內(nèi)容所屬的行業(yè)領(lǐng)域范疇對(duì)數(shù)據(jù)進(jìn)行分類。

7.3.4.2 分類要素

按行業(yè)領(lǐng)域分類的要素包括:
a)數(shù)據(jù)產(chǎn)生行業(yè),即產(chǎn)生數(shù)據(jù)的活動(dòng)所屬的國(guó)民經(jīng)濟(jì)行業(yè);
b)數(shù)據(jù)應(yīng)用行業(yè),即分析和使用數(shù)據(jù)的活動(dòng)所屬的國(guó)民經(jīng)濟(jì)行業(yè)。

7.3.4.3 類別

按行業(yè)領(lǐng)域分類可劃分的類別見 GB/T 4754-2017。

7.3.4.4 適用場(chǎng)景

按行業(yè)領(lǐng)域分類的適用場(chǎng)景,如公安、氣象、水文等行業(yè)大數(shù)據(jù)分析等。

7.3.5 按數(shù)據(jù)質(zhì)量分類

7.3.5.1 概述

按數(shù)據(jù)質(zhì)量分類是指根據(jù)數(shù)據(jù)的質(zhì)量差異對(duì)數(shù)據(jù)進(jìn)行分類。

7.3.5.2分類要素

按數(shù)據(jù)質(zhì)量分類的要素包括:
a)數(shù)據(jù)的準(zhǔn)確性,即數(shù)據(jù)是否存在異常、錯(cuò)誤或過時(shí);
b)數(shù)據(jù)的完整性,即數(shù)據(jù)是否存在缺失及缺失程度;
c)數(shù)據(jù)的一致性,即數(shù)據(jù)內(nèi)容是否遵循統(tǒng)一規(guī)范;
d)數(shù)據(jù)的及時(shí)性,即所需數(shù)據(jù)是否及時(shí)到達(dá)目標(biāo)應(yīng)用;
e)數(shù)據(jù)的重復(fù)性,即是否存在大量重復(fù)數(shù)據(jù)。

7.3.5.3 類別

按數(shù)據(jù)質(zhì)量可劃分為:高質(zhì)量數(shù)據(jù)、普通質(zhì)量數(shù)據(jù)、低質(zhì)量數(shù)據(jù)等。

7.3.5.4 適用場(chǎng)景

按數(shù)據(jù)質(zhì)量分類的適用場(chǎng)景,如根據(jù)不同數(shù)據(jù)質(zhì)量的比例確定數(shù)據(jù)利用的價(jià)值和數(shù)據(jù)質(zhì)量管理工作難易程度等。

7.4 安全隱私保護(hù)維度

7.4.1概述

按數(shù)據(jù)安全隱私保護(hù)維度分類是根據(jù)數(shù)據(jù)內(nèi)容敏感程度對(duì)數(shù)據(jù)進(jìn)行分類。

7.4.2 分類要素

按安全隱私保護(hù)維度分類的要素包括:
a)數(shù)據(jù)的敏感性,即數(shù)據(jù)本身或其衍生數(shù)據(jù)是否涉及國(guó)家秘密、企業(yè)秘密或個(gè)人隱私;
b)數(shù)據(jù)的保密性,即數(shù)據(jù)可被知悉的范圍;
c)數(shù)據(jù)的重要性,即數(shù)據(jù)末經(jīng)授權(quán)披露、丟失、濫用、篡改或銷毀后對(duì)國(guó)家安全、企業(yè)利益或公民權(quán)益的危害程度。

7.4.3 類別

按數(shù)據(jù)安全隱私保護(hù)維度可劃分為:高敏感數(shù)據(jù)、低敏感數(shù)據(jù)、不敏感數(shù)據(jù)等。

7.4.4 適用場(chǎng)景

按安全隱私保護(hù)維度分類的適用場(chǎng)景,如根據(jù)數(shù)據(jù)內(nèi)容敏感程度確定大數(shù)據(jù)應(yīng)用邊界、數(shù)據(jù)保護(hù)策略、數(shù)據(jù)脫敏方案等。

8. 分類方法

8.1 線分類法

8.1.1 概述

線分類法旨在將分類對(duì)象(即本標(biāo)準(zhǔn)界定的數(shù)據(jù))按選定的若干個(gè)屬性或特征,逐次分為若干層級(jí),每個(gè)層級(jí)又分為若千類別。同一分支的同層級(jí)類別之間構(gòu)成并列關(guān)系,不同層級(jí)類別之間構(gòu)成隸屬關(guān)系。同層級(jí)類別互不重復(fù),互不交叉。

線分類法適用于針對(duì)一個(gè)類別只選取單一分類維度進(jìn)行分類的場(chǎng)景。

8.1.2 確定分類類別之間關(guān)系

采用線分類法確定分類類別之間關(guān)系的過程包括:
a)確定一個(gè)分類維度;
b)確定該分類維度的分類類別;
c)針對(duì)每一個(gè)分類類別:如果該分類類別不需要再進(jìn)一步劃分子類,則轉(zhuǎn)d)步,否則確定該分類類別進(jìn)行子類劃分的分類維度,轉(zhuǎn)b)步;
d)所有分類類別均不需進(jìn)一步劃分,則分類類別之間關(guān)系確定。
注:上述過程完成后,將形成一棵分類類別關(guān)系樹。樹的葉節(jié)點(diǎn)為最終的分類項(xiàng),通常稱為基本類別:其余節(jié)點(diǎn)為中間類別。

8.1.3 特點(diǎn)

線分類法的特點(diǎn)包括:
a) 層次性好,能較好地反映類別之問的邏輯關(guān)系;
b)實(shí)用方便,便于機(jī)器處理信息;
c)結(jié)構(gòu)彈性較差,分類結(jié)構(gòu)一經(jīng)確定,不易改動(dòng);
d)效率較低,當(dāng)分類層次較多時(shí),影響數(shù)據(jù)處理速度。

8.2 面分類法

8.2.1 概述

面分類法是將所選定的分類對(duì)象(即本標(biāo)準(zhǔn)界定的數(shù)據(jù)),依據(jù)其本身的固有的各種屬性或特征,分成相互之間沒有隸屬關(guān)系即彼此獨(dú)立的面,每個(gè)面中都包含了一組類別。將某個(gè)面中的一種類別和另外的一個(gè)或多個(gè)面的一種類別組合在一起,可以組成一個(gè)復(fù)合類別。

面分類法是并行化分類方式,同一層級(jí)可有多個(gè)分類維度。面分類法適用于對(duì)一個(gè)類別同時(shí)選取多個(gè)分類維度進(jìn)行分類的場(chǎng)景。

8.2.2 確定分類類別之間關(guān)系

采用面分類法確定分類類別之間關(guān)系的過程包括:
a) 確定分類對(duì)象的若于個(gè)特征面,即分類維度,每一個(gè)分類維度構(gòu)成一個(gè)分類面。
b)確定分類面的排列順序,應(yīng)當(dāng)按照分類維度的重要性或使用頻率的高低由左向右進(jìn)行排列。
c)劃分每一個(gè)分類維度的分類類別。為每一個(gè)分類維度確定一個(gè)分類規(guī)則,并按此規(guī)則劃分各
個(gè)分類維度的分類類別。
d)通過上述步驟所得到的各個(gè)面的類別將分類對(duì)象劃分成了若干個(gè)對(duì)象類。

8.2.3 特點(diǎn)

面分類法的特點(diǎn)包括:
a)彈性較大,一個(gè)“面”內(nèi)類別的改變,不會(huì)影響其他的“面”;
b)適應(yīng)性強(qiáng),可根據(jù)需要組成任何類別;
c)易于添加和修改類別;
d)可組配的類別很多,但實(shí)際應(yīng)用的類別不多。

8.3 混合分類法

8.3.1 概述

混合分類法是將線分類法和面分類法組合使用,克服這兩種基本方法的不足,得到更為合理的分類?;旌戏诸惙ǖ奶攸c(diǎn)是以其中一種分類方法為主,另一種做補(bǔ)充?;旌戏诸惙ㄟm用于以一個(gè)分類維度劃分大類、另一個(gè)分類維度劃分小類的場(chǎng)景。

8.3.2 特點(diǎn)

混合分類法的優(yōu)點(diǎn)包括:
a)可以根據(jù)實(shí)際需要,對(duì)兩種分類方法進(jìn)行靈活的配置,吸取兩種分類方法的優(yōu)點(diǎn);
b)適應(yīng)一些綜合性較強(qiáng)、屬性或者特征不是十分明確的數(shù)據(jù)分類。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容