談?wù)剶?shù)據(jù)脫敏

數(shù)據(jù)脫敏

大數(shù)據(jù)平臺通過將所有數(shù)據(jù)整合起來,充分分析與挖掘數(shù)據(jù)的內(nèi)在價值,為業(yè)務(wù)部門提供數(shù)據(jù)平臺,數(shù)據(jù)產(chǎn)品與數(shù)據(jù)服務(wù)。大數(shù)據(jù)平臺接入的數(shù)據(jù)中可能包括很多用戶的隱私和敏感信息,如用戶在酒店的入住紀錄,用戶支付信息等,這些數(shù)據(jù)存在可能泄漏的風險。

大數(shù)據(jù)平臺一般通過用戶認證,權(quán)限管理以及數(shù)據(jù)加密等技術(shù)保證數(shù)據(jù)的安全,但是這并不能完全從技術(shù)上保證數(shù)據(jù)的安全。

嚴格的來說,任何有權(quán)限訪問用戶數(shù)據(jù)的人員,如ETL工程師或是數(shù)據(jù)分析人員等,均有可能導致數(shù)據(jù)泄漏的風險。

另一方面,沒有訪問用戶數(shù)據(jù)權(quán)限的人員,也可能有對該數(shù)據(jù)進行分析挖掘的需求,數(shù)據(jù)的訪問約束大大限制的充分挖掘數(shù)據(jù)價值的范圍。

實際生產(chǎn)過程中,應(yīng)用場景會更加復雜,僅靠類似這樣的訪問控制,滿足不了生產(chǎn)的需要,還需要結(jié)合其它的途徑,而數(shù)據(jù)脫敏就是一種有效的方式,既能滿足日常生產(chǎn)的需要,又能保護數(shù)據(jù)安全。

數(shù)據(jù)脫敏,具體指對某些敏感信息通過脫敏規(guī)則進行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護。

這樣可以使數(shù)據(jù)本身的安全等級降級,就可以在開發(fā)、測試和其它非生產(chǎn)環(huán)境以及外包或云計算環(huán)境中安全地使用脫敏后的真實數(shù)據(jù)集。

借助數(shù)據(jù)脫敏技術(shù),屏蔽敏感信息,并使屏蔽的信息保留其原始數(shù)據(jù)格式和屬性,以確保應(yīng)用程序可在使用脫敏數(shù)據(jù)的開發(fā)與測試過程中正常運行。

數(shù)據(jù)脫敏方案作為大數(shù)據(jù)平臺整體數(shù)據(jù)安全解決方案的重要組成部分,是構(gòu)建安全可靠的大數(shù)據(jù)平臺必不可少的功能特性。

本文首先分析了數(shù)據(jù)泄露可能帶來的風險,然后詳細介紹了數(shù)據(jù)脫敏技術(shù)的理論基礎(chǔ)與常用算法,最后介紹了一個基于大數(shù)據(jù)平臺的數(shù)據(jù)脫敏解決方案。

隱私數(shù)據(jù)脫敏技術(shù)

通常在大數(shù)據(jù)平臺中,數(shù)據(jù)以結(jié)構(gòu)化的格式存儲,每個表有諸多行組成,每行數(shù)據(jù)有諸多列組成。根據(jù)列的數(shù)據(jù)屬性,數(shù)據(jù)列通??梢苑譃橐韵聨追N類型:

  1. 可確切定位某個人的列,稱為可識別列,如身份證號,地址以及姓名等。
  2. 單列并不能定位個人,但是多列信息可用來潛在的識別某個人,這些列被稱為半識別列,如郵編號,生日及性別等。美國的一份研究論文稱,僅使用郵編號,生日和性別信息即可識別87%的美國人[3]。
  3. 包含用戶敏感信息的列,如交易數(shù)額,疾病以及收入等。
  4. 其他不包含用戶敏感信息的列。

所謂避免隱私數(shù)據(jù)泄露,是指避免使用數(shù)據(jù)的人員(數(shù)據(jù)分析師,BI工程師等)將某行數(shù)據(jù)識別為某個人的信息。

數(shù)據(jù)脫敏技術(shù)通過對數(shù)據(jù)進行脫敏,如移除識別列,轉(zhuǎn)換半識別列等方式,使得數(shù)據(jù)使用人員在保證可對#2(轉(zhuǎn)換后)半識別列,#3敏感信息列以及#4其他列進行數(shù)據(jù)分析的基礎(chǔ)上,在一定程度上保證其無法根據(jù)數(shù)據(jù)反識別用戶,達到保證數(shù)據(jù)安全與最大化挖掘數(shù)據(jù)價值的平衡。

隱私數(shù)據(jù)泄露類型

隱私數(shù)據(jù)泄露可以分為多種類型,根據(jù)不同的類型,通??梢圆捎貌煌碾[私數(shù)據(jù)泄露風險模型來衡量防止隱私數(shù)據(jù)泄露的風險,以及對應(yīng)不同的數(shù)據(jù)脫敏算法對數(shù)據(jù)進行脫敏。一般來說,隱私數(shù)據(jù)泄露類型包括:

  1. 個人標識泄露:
    當數(shù)據(jù)使用人員通過任何方式確認數(shù)據(jù)表中某條數(shù)據(jù)屬于某個人時,稱為個人標識泄露。個人標識泄露最為嚴重,因為一旦發(fā)生個人標識泄露,數(shù)據(jù)使用人員就可以得到具體個人的敏感信息。
  2. 屬性泄露:
    當數(shù)據(jù)使用人員根據(jù)其訪問的數(shù)據(jù)表了解到某個人新的屬性信息時,稱為屬性泄露。個人標識泄露肯定會導致屬性泄露,但屬性泄露也有可能單獨發(fā)生。
  3. 成員關(guān)系泄露:
    當數(shù)據(jù)使用人員可以確認某個人的數(shù)據(jù)存在于數(shù)據(jù)表中時,稱為成員關(guān)系泄露。成員關(guān)系泄露相對風險較小,個人標識泄露與屬性泄露肯定意味著成員關(guān)系泄露,但成員關(guān)系泄露也有可能單獨發(fā)生。

隱私數(shù)據(jù)風險泄露模型

將數(shù)據(jù)開放給數(shù)據(jù)分析人員,同時就引入了隱私數(shù)據(jù)泄露的風險。

在限制隱私數(shù)據(jù)泄露風險在一定范圍內(nèi)的同時,最大化數(shù)據(jù)分析挖掘的潛力,是數(shù)據(jù)脫敏技術(shù)的最終目標。

目前在隱私數(shù)據(jù)脫敏領(lǐng)域,有幾個不同的模型可以用來從不同角度衡量數(shù)據(jù)可能存在的隱私數(shù)據(jù)泄露風險。

K-Anonymity

隱私數(shù)據(jù)脫敏的第一步是對所有可標識列進行移除或是脫敏,使得攻擊者無法直接標識用戶。

但是攻擊者還是有可能通過多個半標識列的屬性值識別個人。

攻擊者可能通過社工(知道某個人的姓名,郵編,生日,性別等)或是其他包含個人信息的以開放數(shù)據(jù)庫獲得特定個人的半標識列屬性值,并與大數(shù)據(jù)平臺數(shù)據(jù)進行匹配,從而得到特定個人的敏感信息。

如表一所示,如果攻擊者知道某用戶的郵編和年齡,就可以得到該用戶的疾病敏感信息。


表1(原始 病人信息)

為了避免這種情況的發(fā)生,通常需要對半標識列進行脫敏處理,如數(shù)據(jù)泛化等。

數(shù)據(jù)泛化是將半標識列的數(shù)據(jù)替換為語義一致但更通用的數(shù)據(jù),已上述數(shù)據(jù)為例,對郵編和年齡泛化后的數(shù)據(jù)如表二所示。


表2(3-Anonymity 病人信息)

經(jīng)過泛化后,有多條紀錄的半標識列屬性值相同,所有半標識列屬性值相同的行的集合被稱為相等集。

例如,表二中1,2,3行是一個相等集,4,5,6行也是一個相等集。

Sama- rati and Sweeney[4]引入了K-Anonymity用于衡量個人標識泄露的風險。 K-Anonymity定義如下:

K-Anonymity要求對于任意一行紀錄,其所屬的相等集內(nèi)紀錄數(shù)量不小于k,即至少有k-1條紀錄半標識列屬性值與該條紀錄相同。

圖二中的數(shù)據(jù)是一個3-Anonymity的數(shù)據(jù)集。

作為一個衡量隱私數(shù)據(jù)泄露風險的指標,K-Anonymity可用于衡量個人標識泄露的風險,理論上來說,對于K-Anonymity數(shù)據(jù)集,對于任意紀錄,攻擊者只有1/k的概率將該紀錄與具體用戶關(guān)聯(lián)。

L-Diversity

K-Anonymity可用于保護個人標識泄露的風險,但是無法保護屬性泄露的風險。

對于K-Anonymity的數(shù)據(jù)集,攻擊者可能通過同質(zhì)屬性攻擊與背景知識攻擊兩種方式攻擊用戶的屬性信息。

  1. 同質(zhì)屬性攻擊。對于圖二半標識列泛化后的數(shù)據(jù)集,假如攻擊者知道Bob郵編為47677,年齡為29,則Bob一定對應(yīng)于前面三條記錄,從而可以確定Bob有心臟病。
  2. 背景知識攻擊。對于圖二半標識列泛化后的數(shù)據(jù)集,假如攻擊者知道Alice郵編為47673,年齡為36,則Alice一定對應(yīng)于后面三條記錄,如果攻擊者知道Alice患有心臟病的幾率很小,則能判斷Alice很有可能患有癌癥。

Machanavajjhala et al. [5] 引入了L-Diversity用于衡量屬性泄露的風險,L-Diversity定義如下:

如果對于任意相等集內(nèi)所有記錄對應(yīng)的敏感數(shù)據(jù)的集合,包含L個"合適"值,則稱該相等集是滿足L-Deversity。

如果數(shù)據(jù)集中所有相等集都滿足L-Deversity,則稱該數(shù)據(jù)集滿足L-Deversity。

所謂L個“合適”值,最簡單的理解就是L個不同值。

基于圖二的數(shù)據(jù)通過插入干擾紀錄,一個3-Anonymity 2-Diversity的數(shù)據(jù)集如表三所示:


表3 3-Anonymity 2-Diversity 病人信息

相對于K-Anonymity標準,符合L-Deversity標準的數(shù)據(jù)集顯著降低了屬性數(shù)據(jù)泄露的風險。

對于滿足L-Diversity的數(shù)據(jù)集,理論上,攻擊者最多只有1/L的概率能夠?qū)傩孕孤豆?,將特定用戶與其敏感信息關(guān)聯(lián)起來。

一般來說是通過插入干擾數(shù)據(jù)構(gòu)造符合L-Diversity標準的數(shù)據(jù)集,但是同數(shù)據(jù)泛化一樣,插入干擾數(shù)據(jù)也會導致表級別的信息丟失。

同時L-Diversity標準也有不足之處。

  1. L-Diversity標準有可能很難或是沒有必要實現(xiàn)。

例如,對于HIV的測試數(shù)據(jù),測試結(jié)果列可能為陰性或是陽性。

對于10000條記錄,可能99%的記錄都是陰性的,只有1%是陽性的。

對于用戶來說兩種不同的測試結(jié)果敏感程度也是不同的,測試結(jié)果為陰性的用戶可能不介意其他人看到他的測試結(jié)果,但是測試結(jié)果為陽性的用戶可能更希望對別人保密。

為了生成2-Deversity的測試數(shù)據(jù)集,會丟失大量的信息,降低數(shù)據(jù)分析挖掘的價值。

  1. L-Diversity標準無法防御特定類型的屬性數(shù)據(jù)泄露。
  • 傾斜攻擊

如果敏感屬性分布存在傾斜,L-Diversity標準很有可能無法抵御屬性數(shù)據(jù)泄露。

繼續(xù)以HIV測試數(shù)據(jù)為例,假如構(gòu)造的數(shù)據(jù)集對于任意相等類測試結(jié)果都包含陰性與陽性,且陰性數(shù)量與陽性相同,該數(shù)據(jù)集肯定滿足2-Diversity。

按照真實測試記錄的分布,對于任意個人,攻擊者只能判斷其有1%的可能測試結(jié)果為陽性。

但是對于2-Diversity數(shù)據(jù)集,攻擊者會判斷每個人有50%的可能測試結(jié)果為陽性。

  • 相似性攻擊

如果相等類的敏感屬性分布滿足L-Diversity,但是屬性值相似或是內(nèi)聚,攻擊者有可能從得到很重要的信息。

例如對于表四所示,病人數(shù)據(jù)滿足3-Diversity,攻擊者如果了解Bob郵編為47677,年齡為29,則可以確認Bob的工資收入在3-5K之間,且能確認Bob得了胃病相關(guān)的病,因為前三條的病都和胃病相關(guān)。


表4 3-Diversity 病人信息

簡單來說,對于L-Diversity相同的相等集,敏感屬性值的分布信息對于保護屬性泄露至關(guān)重要。

L-Diversity只是用來衡量相等集的不同屬性值數(shù)量,并沒有衡量不同屬性值的分布,所以其在衡量屬性泄露風險上仍有不足之處。

T-Closeness

直觀的來說,隱私信息泄露的程度可以根據(jù)攻擊者增量獲得的個人信息衡量。

假設(shè)攻擊者在訪問數(shù)據(jù)集之前已知的個人信息為B0,然后假設(shè)攻擊者訪問所有半標識列都已移除的數(shù)據(jù)集,Q為數(shù)據(jù)集敏感數(shù)據(jù)的分布信息,根據(jù)Q,攻擊者更新后的個人信息為B1。

最后攻擊者訪問脫敏后的數(shù)據(jù)集,由于知道用戶的半標識列的信息,攻擊者可以將某用戶與某相等集聯(lián)系在一起,通過該相等集的敏感數(shù)據(jù)分布信息P,攻擊者更新后的個人信息為B2。

L-Diversity約束是通過約束P的diverisity屬性,盡量減少B0和B2之間的信息量差距,差距越小,說明隱私信息泄露越少。

T-Closeness約束則期望減少B1和B2之間的信息量差距,減少攻擊者從敏感數(shù)據(jù)的全局分布信息和相等集分布信息之間得到更多的個人隱私信息。

T-Closeness的定義如下:

如果一個相等類的敏感數(shù)據(jù)的分布與敏感數(shù)據(jù)的全局分布之間的距離小于T,則稱該相等類滿足T-Closeness約束。

如果數(shù)據(jù)集中的所有相等類都滿足T-Closeness,則稱該數(shù)據(jù)集滿足T-Closeness。

T-Closeness約束限定了半標識列屬性與敏感信息的全局分布之間的聯(lián)系,減弱了半標識列屬性與特定敏感信息的聯(lián)系,減少攻擊者通過敏感信息的分布信息進行屬性泄露攻擊的可能性。

不過同時也肯定導致了一定程度的信息丟失,所以管理者通過T值的大小平衡數(shù)據(jù)可用性與用戶隱私保護。

常見數(shù)據(jù)脫敏算法

K-Anonymity, L-Diversity和T-Closeness均依賴對半標識列進行數(shù)據(jù)變形處理,使得攻擊者無法直接進行屬性泄露攻擊,常見的數(shù)據(jù)變形處理方式如下:


常用數(shù)據(jù)變形操作

此外,K-Anonymity, L-Diversity和T-Closeness約束可能還需要生成干擾數(shù)據(jù),敏感數(shù)據(jù)干擾項的生成策略與方法也是保證K-Anonymity, L-Diversity和T-Closeness的重要條件,在這里篇幅有限,就不過多介紹,請參考引用中的相關(guān)論文[4,5,6]。

大數(shù)據(jù)脫敏平臺

用戶隱私數(shù)據(jù)保護與挖掘用戶數(shù)據(jù)價值是兩個互相沖突的矛盾體,徹底的數(shù)據(jù)脫敏,需要抹去全部的用戶標識信息,使得數(shù)據(jù)潛在的分析價值大大降低。

另一方面,完全保留用戶隱私數(shù)據(jù)信息,可最大化數(shù)據(jù)的分析價值,同時導致用戶隱私泄露的風險無法控制。

因此大數(shù)據(jù)脫敏平臺的設(shè)計目標并不是實現(xiàn)工具算法用來完全抹去全部的用戶標識信息,而是包括如下幾個目標:

  1. 數(shù)據(jù)泄露風險可控。
    首先,實現(xiàn)基于大數(shù)據(jù)平臺的脫敏算法庫,可并行,高效的按照脫敏規(guī)則對隱私數(shù)據(jù)進行脫敏。其次,基于數(shù)據(jù)脫敏的理論基礎(chǔ),建立用戶隱私數(shù)據(jù)泄露風險的衡量模型,可定性定量的準確衡量數(shù)據(jù)可能發(fā)生泄露的風險。
  2. 可管理。
    結(jié)合大數(shù)據(jù)平臺的用戶認證體系,權(quán)限管理體系,以及隱私數(shù)據(jù)不同保護級別的權(quán)限管理體系,實現(xiàn)對隱私數(shù)據(jù)基于審批的數(shù)據(jù)訪問機制。結(jié)合公司制度,規(guī)范,法務(wù)等管理,實現(xiàn)在盡可能保護用戶隱私數(shù)據(jù),減少數(shù)據(jù)泄露風險的前提下,最大化保留數(shù)據(jù)分析挖掘的價值。
  3. 可審計。
    對數(shù)據(jù)的訪問要保證可回溯,可審計,當發(fā)生數(shù)據(jù)泄露時,要保證能夠通過審計日志找到對應(yīng)的泄露人員。

大數(shù)據(jù)脫敏平臺的設(shè)計方向一般包括靜態(tài)大數(shù)據(jù)脫敏平臺和動態(tài)大數(shù)據(jù)脫敏平臺,所謂靜態(tài)和動態(tài)之分,主要在于脫敏的時機不同。

  • 對于靜態(tài)脫敏來說,數(shù)據(jù)管理員提前對數(shù)據(jù)進行不同級別的脫敏處理,生成不同安全級別的數(shù)據(jù),然后授予不同用戶訪問不同安全級別數(shù)據(jù)的權(quán)限。
  • 對于動態(tài)脫敏來說,管理員通過元數(shù)據(jù)管理不同用戶訪問具體數(shù)據(jù)的安全權(quán)限,在用戶訪問數(shù)據(jù)的時候,動態(tài)的從原始數(shù)據(jù)中按照用戶權(quán)限動態(tài)的進行脫敏處理。

大數(shù)據(jù)平臺脫敏技術(shù)方案是一個非常有趣的課題,目前業(yè)界還沒有看到有成熟的方案,鑒于其對數(shù)據(jù)安全和數(shù)據(jù)價值的作用,非常值得深入研究。

美團數(shù)據(jù)倉庫脫敏

敏感數(shù)據(jù)梳理

在數(shù)據(jù)脫敏進行之前,首先要確定哪些數(shù)據(jù)要作為脫敏的目標。根據(jù)美團特有的業(yè)務(wù)場景和數(shù)據(jù)安全級別劃分(絕密、高保密、保密、可公開,四個級別), 主要從“高保密”等級的敏感數(shù)據(jù),開始進行梳理。

這里把敏感數(shù)據(jù)分成四個維度進行梳理,用戶、商家、終端、公司。

  1. 從用戶維度進行梳理可能有這些敏感字段如下:手機號碼、郵件地址、賬號、地址、固定電話號碼等信息(此外個人隱私數(shù)據(jù)相關(guān)還有如:種族、政治觀點、宗教信仰、基因等)
  2. 從商家維度進行梳理:合同簽訂人,合同簽訂人電話等(不排除全局敏感數(shù)據(jù):如商家團購品類等)
  3. 從用戶終端維度進行梳理:能夠可能標識終端的唯一性字段,如設(shè)備id。
  4. 從公司角度進行梳理:交易金額、代金卷密碼、充值碼等

確定脫敏處理方法

梳理出了敏感數(shù)據(jù)字段,接下來的工作就是如何根據(jù)特定的應(yīng)用場景對敏感字段實施具體的脫敏處理方法。

常見的處理方法如下幾種有:

  • 替換:如統(tǒng)一將女性用戶名替換為F,這種方法更像“障眼法”,對內(nèi)部人員可以完全保持信息完整性,但易破解。
  • 重排:序號12345重排為54321,按照一定的順序進行打亂,很像“替換”, 可以在需要時方便還原信息,但同樣易破解。
  • 加密:編號12345加密為23456,安全程度取決于采用哪種加密算法,一般根據(jù)實際情況而定。
  • 截斷:13811001111截斷為138,舍棄必要信息來保證數(shù)據(jù)的模糊性,是比較常用的脫敏方法,但往往對生產(chǎn)不夠友好。
  • 掩碼: 123456 -> 1xxxx6,保留了部分信息,并且保證了信息的長度不變性,對信息持有者更易辨別, 如火車票上得身份信息。
  • 日期偏移取整:20130520 12:30:45 -> 20130520 12:00:00,舍棄精度來保證原始數(shù)據(jù)的安全性,一般此種方法可以保護數(shù)據(jù)的時間分布密度。

但不管哪種手段都要基于不同的應(yīng)用場景,遵循下面兩個原則:

  1. remain meaningful for application logic(盡可能的為脫敏后的應(yīng)用,保留脫敏前的有意義信息)
  2. sufficiently treated to avoid reverse engineer(最大程度上防止黑客進行破解)

以這次脫敏一個需求為例:

美團一般的業(yè)務(wù)場景是這樣的,用戶在網(wǎng)站上付款一筆團購單之后,會將團購密碼,發(fā)到用戶對應(yīng)的手機號上。

這個過程中,從用戶的角度來看團購密碼在未被用戶消費之前,對用戶來說是要保密的,不能被公開的,其次美團用戶的手機號也是要保密的,因為公開之后可能被推送一些垃圾信息,或者更嚴重的危害。

從公司內(nèi)部數(shù)據(jù)分析人員來看,他們有時雖然沒有權(quán)限知道用戶團購密碼,但是他們想分析公司發(fā)送的團購密碼數(shù)量情況,這是安全允許;

再有數(shù)據(jù)分析人員雖然沒有權(quán)限知道用戶具體的手機號碼,但是他們需要統(tǒng)計美團用戶手機的地區(qū)分布情況,或者運營商分布差異,進而為更上層的決策提供支持。

根據(jù)這樣的需求,可以對團購密碼做加密處理保證其唯一性,也保留其原有的數(shù)據(jù)格式,在保密的同時不影響數(shù)據(jù)分析的需求。

同樣,將用戶的手機號碼的前7位,關(guān)于運營商和地區(qū)位置信息保留,后四位進行模糊化處理。

這樣同樣也達到了保護和不影響統(tǒng)計的需求。

因此從實際出發(fā)遵循上面的兩個處理原則,第一階段在脫敏工具集中,確定了如下4種基本類型的脫敏方案(對應(yīng)4個udf):


脫敏方法

確定實施范圍與步驟

通過上面字段的梳理和脫敏方案的制定,對美團數(shù)據(jù)倉庫中涉及到得敏感字段的表進行脫敏處理。

在數(shù)據(jù)倉庫分層理論中,數(shù)據(jù)脫敏往往發(fā)生在上層,最直接的是在對外開放這一層面上。

在實際應(yīng)用中,既要參考分層理論,又要從美團現(xiàn)有數(shù)據(jù)倉庫生產(chǎn)環(huán)境的體系出發(fā),主要在數(shù)據(jù)維度層(dim),以及基礎(chǔ)服務(wù)數(shù)據(jù)層(fact)上實施脫敏。

這樣,可以在下游相關(guān)數(shù)據(jù)報表以及衍生數(shù)據(jù)層的開發(fā)過程中使用脫敏后的數(shù)據(jù),從而避免出現(xiàn)數(shù)據(jù)安全問題。

確認處理的表和字段后,還要確保相關(guān)上下游流程的正常運行, 以及未脫敏的敏感信息的正常產(chǎn)出與存儲(通過更嚴格的安全審核來進行訪問)。

以用戶信息表user為例,脫敏步驟如下:

1.首先生產(chǎn)一份ndm_user未脫敏數(shù)據(jù),用于未脫敏數(shù)據(jù)的正常產(chǎn)出。
2.對下游涉及的所有依賴user生產(chǎn)流程進行修改,來確保脫敏后的正常運行,這里主要是確認數(shù)據(jù)格式,以及數(shù)據(jù)源的工作。
3.根據(jù)對應(yīng)的脫敏方法對user表中對應(yīng)的字段進行脫敏處理。

通過上面的幾個步驟的實施,完成了第一階段的數(shù)據(jù)脫敏工作。

在數(shù)據(jù)脫敏方案設(shè)計與實施過程中, 我們覺得更重要的還是從特定的應(yīng)用場景出發(fā)進行整體設(shè)計,兼顧了數(shù)據(jù)倉庫建設(shè)這一重要考量維度。

數(shù)據(jù)脫敏實施為公司數(shù)據(jù)安全的推進,提供了有力支持。

當然,我們第一階段脫敏的工具集還相對較少,需要補充。 脫敏的技術(shù)架構(gòu)還有待完善和更加自動化。

總結(jié)

針對于大數(shù)據(jù)平臺對于數(shù)據(jù)脫敏的需求,本文分析了數(shù)據(jù)泄露可能帶來的風險,介紹了數(shù)據(jù)脫敏技術(shù)的理論基礎(chǔ)與實現(xiàn)方式,同時簡單分析了大數(shù)據(jù)平臺的隱私數(shù)據(jù)脫敏技術(shù)方向。

本文討論的均是基于離線數(shù)據(jù)的數(shù)據(jù)脫敏,流式數(shù)據(jù)的脫敏技術(shù)無論是理論基礎(chǔ)與具體實踐大都還處在摸索的過程中[7],留待以后繼續(xù)探索。

引用

  1. 我國隱私保護相關(guān)法律報告
  2. 索尼用戶隱私數(shù)據(jù)泄露事件
  3. Uniqueness of Simple Demographics in the U.S. Population
  4. Protecting Privacy when Disclosing Information: k-Anonymity and Its Enforcement through Generalization and Suppression
  5. ?-Diversity: Privacy Beyond k-Anonymity
  6. Enhancing Cloud Security Using Data Anonymization
  7. CASTLE: Continuously Anonymizing Data Streams

參見:
大數(shù)據(jù)與數(shù)據(jù)脫敏:https://zhuanlan.zhihu.com/p/20824603
美團數(shù)據(jù)倉庫-數(shù)據(jù)脫敏:https://tech.meituan.com/data_mask.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 轉(zhuǎn)自:http://www.freebuf.com/articles/database/146652.html 本...
    飛奔的橙子閱讀 3,479評論 0 11
  • 數(shù)據(jù)庫脫敏介紹 數(shù)據(jù)脫敏(Data Masking),又稱數(shù)據(jù)漂白、數(shù)據(jù)去隱私化或數(shù)據(jù)變形。百度百科對數(shù)據(jù)脫敏的定...
    公楊博閱讀 4,761評論 0 2
  • 背景與目標 在數(shù)據(jù)倉庫建設(shè)過程中,數(shù)據(jù)安全扮演著重要角色,因為隱私或敏感數(shù)據(jù)的泄露,會對數(shù)據(jù)主體(客戶,員工和公司...
    九尾喵的薛定諤閱讀 6,838評論 0 2
  • “ 如果你愛上一個愛笑的女人, 請你看完下面的文字,然后好好愛她。 ” “ 如果你愛上一個愛笑的女人, 那么請一定...
    54譚小姐閱讀 351評論 0 1
  • 相比“萬歷十五年”,我更喜歡“無關(guān)緊要的1587年:明王朝的衰落”這個英文版的書名。 1587年,在西歐歷史上為西...
    娜豆閱讀 321評論 0 0

友情鏈接更多精彩內(nèi)容