大數(shù)據(jù)分析是推動(dòng)現(xiàn)代企業(yè)組織業(yè)務(wù)發(fā)展的核心工具,然而,企業(yè)在使用相關(guān)的用戶數(shù)據(jù)時(shí),也需要嚴(yán)格保護(hù)用戶的隱私安全。而在保護(hù)數(shù)據(jù)隱私的各類方法中,數(shù)據(jù)匿名化是一種非常有效的數(shù)據(jù)保護(hù)措施。
數(shù)據(jù)匿名化的方法
從數(shù)據(jù)匿名化的定義來看,該技術(shù)旨在將敏感的用戶隱私信息轉(zhuǎn)換成無法與特定人員關(guān)聯(lián)的匿名化數(shù)據(jù),是一種去除或哈?;c個(gè)體相關(guān)聯(lián)的各種數(shù)據(jù)點(diǎn)的過程。這個(gè)過程使組織能夠存儲(chǔ)和交換用戶數(shù)據(jù),同時(shí)不會(huì)暴露數(shù)據(jù)與特定個(gè)人的任何聯(lián)系。即使惡意分子設(shè)法獲得了這些匿名化數(shù)據(jù),也難以識(shí)別該數(shù)據(jù)屬于誰,因此有助于防止身份盜竊、金融欺詐、跟蹤及騷擾、歧視以及其他侵犯隱私的行為,這正是數(shù)據(jù)匿名化的目的。
數(shù)據(jù)匿名化可以通過多種方式來執(zhí)行,下面收集了目前最常見的數(shù)據(jù)匿名化方法:
數(shù)據(jù)屏蔽
數(shù)據(jù)屏蔽是指創(chuàng)建數(shù)據(jù)的一個(gè)虛假但結(jié)構(gòu)相似的版本,主要通過變換字符、替換單詞或字符或加密內(nèi)容來改變數(shù)據(jù)。例如,字母“R”可以通過替換屏蔽變成“L”,或者信用卡號(hào)可以被屏蔽為“**** **** **** **** 1126”。
數(shù)據(jù)合成
數(shù)據(jù)合成是在保留原始數(shù)據(jù)統(tǒng)計(jì)屬性的同時(shí),基于真實(shí)數(shù)據(jù)生成人工數(shù)據(jù)集。該方法支持全面地測試、分析和數(shù)據(jù)共享,而不影響PII的可用性。
數(shù)據(jù)泛化
數(shù)據(jù)泛化是指在保留數(shù)據(jù)準(zhǔn)確性的同時(shí)刪除某些標(biāo)識(shí)符,從而降低敏感信息的可識(shí)別性。這就像一個(gè)顯微鏡,隱藏了更精細(xì)的細(xì)節(jié),但仍保持了用于分析的高準(zhǔn)確性。
數(shù)據(jù)交換
數(shù)據(jù)交換是一種非常簡單的匿名化方法,主要將數(shù)據(jù)中的某些屬性與其他屬性進(jìn)行交換。這意味著在此過程結(jié)束時(shí)將得到一個(gè)混洗的數(shù)據(jù)庫,避免泄露任何自然人的真實(shí)信息。
數(shù)據(jù)干擾
數(shù)據(jù)干擾指為數(shù)據(jù)引入隨機(jī)的或不相關(guān)的信息。以數(shù)據(jù)泄露為例,這種方法能夠使惡意分子難以區(qū)分真實(shí)數(shù)據(jù)和隨機(jī)添加的數(shù)據(jù)。
假名化
假名化是從數(shù)據(jù)集中刪除某類標(biāo)識(shí)符并替換為假名稱的過程。這種匿名化技術(shù)的主要目標(biāo)是確保特定數(shù)據(jù)難以與可識(shí)別的個(gè)人匹配。假名化數(shù)據(jù)的簡單方法是用假名(偽名)替換個(gè)人的姓名。例如,當(dāng)用戶在注冊時(shí)提交姓名“Jane”,則后臺(tái)數(shù)據(jù)庫可以簡單地將其記錄為“Person 2647”。
數(shù)據(jù)匿名化的挑戰(zhàn)
數(shù)據(jù)匿名化可以幫助企業(yè)安全地使用個(gè)人隱私信息,然而,實(shí)施有效的匿名化工作并不容易。無論組織選擇以上哪種方式對數(shù)據(jù)進(jìn)行匿名化處理,都可能會(huì)面臨以下的應(yīng)用挑戰(zhàn):
1、難以兼顧隱私性和可用性
兼顧數(shù)據(jù)匿名化和數(shù)據(jù)實(shí)用性至關(guān)重要,但又困難重重。一方面,匿名化技術(shù)對于保護(hù)客戶、員工及其他用戶的隱私至關(guān)重要,因此在理論上,如果從數(shù)據(jù)中完全清除PII的匿名化技術(shù)和工具對于確保數(shù)據(jù)隱私安全將大有裨益;另一方面,企業(yè)需要將收集到的數(shù)據(jù)用于研究、分析和決策,而完全匿名化的數(shù)據(jù)可能會(huì)大幅降低其使用的價(jià)值。
對于企業(yè)而言,是要實(shí)現(xiàn)和保持最大程度的隱私保護(hù),同時(shí)保持足夠的數(shù)據(jù)準(zhǔn)確性。實(shí)現(xiàn)這個(gè)目標(biāo)需要持續(xù)評(píng)估和優(yōu)化數(shù)據(jù)匿名化過程。
2、數(shù)據(jù)連接關(guān)系被破壞
在數(shù)據(jù)匿名化的過程中,會(huì)減少數(shù)據(jù)的細(xì)化程度和準(zhǔn)確性,因此在很多情況下,會(huì)破壞了單點(diǎn)數(shù)據(jù)之間的連接關(guān)系。而這些數(shù)據(jù)連接關(guān)系對于開展人工智能或數(shù)據(jù)科學(xué)研究至關(guān)重要,一旦破壞了數(shù)據(jù)間的連接關(guān)系,匿名化數(shù)據(jù)在可獲得的效用方面將受到很大限制。
3、逆向破解
數(shù)據(jù)匿名化就可以無后顧之憂了嗎?實(shí)際上,匿名化數(shù)據(jù)始終存在去匿名化風(fēng)險(xiǎn)。在匿名化技術(shù)與時(shí)俱進(jìn)的時(shí)候,對匿名化數(shù)據(jù)的逆向破解技術(shù)也在不斷發(fā)展,匿名化處理后的數(shù)據(jù)如果沒有得到妥善的保管和使用,就有可能被第三方獲取并使用技術(shù)進(jìn)行破解。
惡意分子利用大量攻擊來重新識(shí)別目標(biāo),甚至直接使用匿名化數(shù)據(jù)。比如說,如果他們設(shè)法訪問了包含財(cái)務(wù)信息的匿名化數(shù)據(jù)集,可以將其與其他數(shù)據(jù)集結(jié)合起來,并最終執(zhí)行重識(shí)別。為了加強(qiáng)對數(shù)據(jù)隱私的保護(hù),企業(yè)應(yīng)該考慮將匿名化技術(shù)與其他數(shù)據(jù)安全方法結(jié)合應(yīng)用。
4、數(shù)據(jù)安全合規(guī)要求
不同的數(shù)據(jù)保護(hù)要求決定了企業(yè)應(yīng)該如何收集、存儲(chǔ)和處理個(gè)人信息。在很多法規(guī)中,明確提出了要求使用匿名化技術(shù),比如歐盟《通用數(shù)據(jù)保護(hù)條例》、美國《個(gè)人信息保護(hù)和電子文檔法》以及我國的《個(gè)人信息保護(hù)法》等。盡管從法律意義上,可以將匿名化后的個(gè)人信息不再視為隱私信息,而當(dāng)作一般數(shù)據(jù)來處理。但是一些法規(guī)同樣要求,如果這些匿名化數(shù)據(jù)可被重新識(shí)別,那么數(shù)據(jù)安全保護(hù)的要求就依然適用。這意味著企業(yè)需要像對待個(gè)人隱私數(shù)據(jù)一樣對待匿名化數(shù)據(jù),并對其進(jìn)行適當(dāng)保護(hù)。
數(shù)據(jù)匿名化的最佳實(shí)踐
為了幫助企業(yè)保護(hù)個(gè)人信息,同時(shí)將個(gè)人信息數(shù)據(jù)的分析價(jià)值最大化,以下列舉了數(shù)據(jù)匿名化技術(shù)應(yīng)用的一些最佳實(shí)踐:
1、進(jìn)行數(shù)據(jù)發(fā)現(xiàn)和分類
識(shí)別數(shù)據(jù)集中的個(gè)人身份信息(PII)是進(jìn)行數(shù)據(jù)匿名化的前提。數(shù)據(jù)發(fā)現(xiàn)和分類是幫助企業(yè)完成這項(xiàng)任務(wù)的重要實(shí)踐。數(shù)據(jù)發(fā)現(xiàn)用于識(shí)別企業(yè)存儲(chǔ)的所有數(shù)據(jù)、數(shù)據(jù)類型以及數(shù)據(jù)資產(chǎn)之間的關(guān)系,簡化數(shù)據(jù)管理。數(shù)據(jù)分類根據(jù)數(shù)據(jù)屬性和特征對數(shù)據(jù)進(jìn)行分類和標(biāo)記,使企業(yè)能夠?yàn)椴煌悇e的數(shù)據(jù)實(shí)施量身定制的安全措施。通過采用這兩種實(shí)踐,企業(yè)可以準(zhǔn)確識(shí)別需要匿名化的敏感數(shù)據(jù),并確保其得到保護(hù)。此外,企業(yè)可以考慮使用適合具體數(shù)據(jù)情況的匿名化技術(shù),以滿足其需求。
2、確定數(shù)據(jù)用例的優(yōu)先級(jí)
為了保護(hù)個(gè)人隱私數(shù)據(jù),企業(yè)需要明確了解內(nèi)部人員如何使用數(shù)據(jù)。識(shí)別所有數(shù)據(jù)用例并確定優(yōu)先級(jí)順序可以提高數(shù)據(jù)匿名化工作的效率。與企業(yè)內(nèi)的數(shù)據(jù)消費(fèi)者聯(lián)系,了解他們使用數(shù)據(jù)的方式和目的,可以揭示最常見的數(shù)據(jù)用例及其對企業(yè)的重要性。然后,根據(jù)這些用例對數(shù)據(jù)隱私和業(yè)務(wù)價(jià)值的風(fēng)險(xiǎn)程度確定其優(yōu)先級(jí)。一旦確定了數(shù)據(jù)用例的優(yōu)先級(jí),企業(yè)將更容易決定首先匿名化哪些敏感信息。這樣,企業(yè)可以優(yōu)化匿名化所需的資源和工作量。
3、充分了解相關(guān)的法律要求
確保個(gè)人敏感信息的安全是匿名化的終極目標(biāo),但企業(yè)必須遵守?cái)?shù)據(jù)保護(hù)要求,分析適用于企業(yè)的法律、標(biāo)準(zhǔn)和法規(guī)是確保合規(guī)的第一步。以下是分析適用地法律要求的幾個(gè)步驟:
確定適用于所在行業(yè)、地點(diǎn)和經(jīng)營區(qū)域的要求。
研究和理解這些要求。
以通俗易懂的方式向團(tuán)隊(duì)解釋要求。
將要求整合到工作流程中。
記錄要求和滿足要求的既定程序。
持續(xù)監(jiān)控這些要求是否有變化或出現(xiàn)新的要求。
定期更新文件,并提高員工對合規(guī)措施的認(rèn)識(shí)。
4、盡量減少數(shù)據(jù)收集
大量數(shù)據(jù)收集可能無益甚至有害。收集過多的數(shù)據(jù)會(huì)導(dǎo)致資源浪費(fèi),因?yàn)槠髽I(yè)可能無法使用所有收集到的數(shù)據(jù),并需要投入資源來存儲(chǔ)和保護(hù)這些未使用的數(shù)據(jù)資產(chǎn)。簡化數(shù)據(jù)匿名化過程并降低數(shù)據(jù)安全風(fēng)險(xiǎn)的方法之一是盡量減少數(shù)據(jù)收集。因此,企業(yè)應(yīng)僅收集分析所必需的數(shù)據(jù),并避免收集可能永遠(yuǎn)不會(huì)使用的數(shù)據(jù)。
5、評(píng)估優(yōu)化匿名化技術(shù)
如盡管許多平臺(tái)提供內(nèi)置的數(shù)據(jù)匿名化功能,但企業(yè)仍需要評(píng)估這些功能是否足夠適用于適當(dāng)?shù)膫€(gè)人數(shù)據(jù)匿名化、防止重識(shí)別,并符合數(shù)據(jù)保護(hù)要求。為此,企業(yè)應(yīng)考慮分析當(dāng)前技術(shù)架構(gòu)的匿名化功能,以檢查其是否符合所需的匿名化水平。此外,還需要審查這些功能是否能夠滿足組織適用的數(shù)據(jù)保護(hù)要求。通過這個(gè)過程,企業(yè)可以確定當(dāng)前架構(gòu)是否足以滿足其匿名化需求,并確定是否需要部署其他數(shù)據(jù)匿名化工具來填補(bǔ)任何缺漏。
6、事先為重識(shí)別做好規(guī)劃
為了合規(guī)需要,企業(yè)可能需要對以前進(jìn)行匿名化的數(shù)據(jù)進(jìn)行重識(shí)別。通過事先計(jì)劃數(shù)據(jù)重識(shí)別,企業(yè)可以降低違反數(shù)據(jù)隱私的風(fēng)險(xiǎn),并確保在需要時(shí)能夠訪問數(shù)據(jù)。為此,可以考慮以下措施:
確認(rèn)企業(yè)的匿名化技術(shù)是否支持重識(shí)別。
定義并記錄進(jìn)行數(shù)據(jù)重識(shí)別的合法理由。
制定重識(shí)別過程的準(zhǔn)則,明確可用于數(shù)據(jù)去匿名化的技術(shù)和工具。
指定負(fù)責(zé)重識(shí)別過程的人員,并明確他們的責(zé)任。
確定為保護(hù)去匿名化數(shù)據(jù)而采取的安全措施。
制定規(guī)定內(nèi)部人員訪問去匿名化數(shù)據(jù)所需程序的限制。
參考鏈接:
https://www.ekransystem.com/en/blog/data-anonymization-best-practices。