侵權(quán)投訴
訂閱
糾錯
加入自媒體

AI基礎(chǔ)設(shè)施革命:關(guān)于數(shù)據(jù)隱私保護(hù)和價值挖掘的實(shí)踐思考



數(shù)據(jù)隱私的保護(hù)貫穿數(shù)據(jù)流通過程,是一種動態(tài)的數(shù)據(jù)安全;數(shù)據(jù)隱私保護(hù)與價值挖掘并不矛盾,數(shù)據(jù)隱私保護(hù)的落地長久來看會推動新的數(shù)據(jù)使用范式誕生,而規(guī)范數(shù)據(jù)使用可以促進(jìn)數(shù)據(jù)流通更順暢,在匯聚更多數(shù)據(jù)的基礎(chǔ)上迎來價值挖掘的下一個爆發(fā)點(diǎn),帶動AI的基礎(chǔ)設(shè)施革命。

但隱私計算行業(yè)目前仍處于早期階段,數(shù)牘科技創(chuàng)始人宋一民將在本文與大家分享他對數(shù)據(jù)使用的思考,以及平衡隱私保護(hù)和價值挖掘常見的技術(shù)實(shí)踐。

本文的分享提綱如下:1、數(shù)據(jù)流動的合理性和必然性2、流動鏈條中的數(shù)據(jù)歸類3、數(shù)據(jù)隱私和價值挖掘的平衡:給予數(shù)據(jù)擁有方控制力4、數(shù)據(jù)擁有者的控制力如何賦予?5、數(shù)據(jù)控制力管理的技術(shù)實(shí)踐


AI基礎(chǔ)設(shè)施革命: 關(guān)于數(shù)據(jù)隱私保護(hù)和價值挖掘的實(shí)踐思考


數(shù)據(jù)的流動性

一個數(shù)據(jù)從生成開始的整個生命周期中,可能會在多個機(jī)構(gòu)或節(jié)點(diǎn)間流轉(zhuǎn),在節(jié)點(diǎn)間進(jìn)行流轉(zhuǎn)的過程使得數(shù)據(jù)形成了一個網(wǎng)絡(luò),就像許多企業(yè)內(nèi)部存在數(shù)據(jù)流動的data pipeline,在更宏觀的層面也存在類似的data flow。

在客觀現(xiàn)實(shí)中,數(shù)據(jù)流動存在它的合理性和必然性。一方面,對于任何一個個體,他的數(shù)據(jù)會在不同的場景中產(chǎn)生和被采集。比如使用打車軟件會產(chǎn)生位置移動的信息,住酒店會產(chǎn)生住宿信息,在淘寶買東西會產(chǎn)生購物信息等,很難想象會有一個實(shí)體掌握關(guān)于這個個體的全部數(shù)據(jù);另一方面,挖掘數(shù)據(jù)的過程也存在專業(yè)性的問題,在不同場景中根據(jù)不同需求,挖掘可能很難完全由同一個實(shí)體來完成。因此往往為了充分的挖掘數(shù)據(jù)價值,需要盡可能的將多個數(shù)據(jù)產(chǎn)生的源頭,經(jīng)過多個節(jié)點(diǎn)進(jìn)行匯聚,加工處理和使用。

從產(chǎn)業(yè)的角度來看,我們常形容互聯(lián)網(wǎng)和AI的關(guān)系是“連接產(chǎn)生數(shù)據(jù),數(shù)據(jù)產(chǎn)生智能”,在連接和智能決策的過程,其實(shí)也是數(shù)據(jù)流動匯集、價值挖掘的過程。更豐富的數(shù)據(jù)維度和更好的數(shù)據(jù)覆蓋對于模型的質(zhì)量也是至關(guān)重要的。數(shù)據(jù)作為AI的原料,其流動性也是讓AI更好發(fā)揮價值的基石。流動中的數(shù)據(jù)

數(shù)據(jù)的流動性具有合理性和必要性,而流動過程中的數(shù)據(jù)在實(shí)踐中通常是被如何被歸類和定位的?

數(shù)據(jù)在經(jīng)過不同節(jié)點(diǎn)的過程中,會在不同的上下文環(huán)境中被提及:比如數(shù)據(jù)的收集,存儲,使用,以及對應(yīng)的前述行為的轉(zhuǎn)讓。收集主要對應(yīng)原始數(shù)據(jù)的采集或者形成結(jié)構(gòu)化數(shù)據(jù)的過程,比如將用戶操作 App 的動作形成日志傳回服務(wù)器端,或者比如將用戶產(chǎn)生的評論進(jìn)行匯總。存儲和使用一般都是按字面意思對數(shù)據(jù)進(jìn)行保存或者處理。

為了進(jìn)行數(shù)據(jù)的聚合或者借助外來力量對數(shù)據(jù)進(jìn)行挖掘,可能會涉及將這些數(shù)據(jù)的存儲或者使用權(quán)轉(zhuǎn)讓給其它方的過程。

另外考慮到這些和個人數(shù)據(jù)相關(guān)的不同上下文,普通用戶在簽數(shù)據(jù)授權(quán)的時候也可以額外關(guān)注一下授權(quán)協(xié)議是否清晰的定義了這些不同的范疇,比如某 App 本身,對什么數(shù)據(jù)、進(jìn)行不超過多長時間的存儲,并且這個存儲權(quán)不會轉(zhuǎn)讓給除某 App 本身的其它實(shí)體。

一般收集或采集到數(shù)據(jù)的一方被稱為第一方數(shù)據(jù),第一方數(shù)據(jù)為了更好地用數(shù)據(jù)服務(wù)使用者,往往會在授權(quán)中要求更多的權(quán)限。比如在數(shù)據(jù)使用權(quán)里可能會要求通過數(shù)據(jù)對個人用戶的信息流進(jìn)行更好的匹配,這里面可能就包含了使用原始數(shù)據(jù)(如用戶對哪些帖子進(jìn)行了點(diǎn)贊)所進(jìn)行的優(yōu)化,也可能包含了將一個用戶的信息用于另一個或一些用戶。

之前提到,完全由一個實(shí)體從頭到尾閉環(huán)能完成的事情非常有限,因此這里面會涉及到將用戶的一些信息(可能是原始信息,可能是聚合或者泛化信息)轉(zhuǎn)讓給其它實(shí)體協(xié)助完成的情況。這些從第一方數(shù)據(jù)所得數(shù)據(jù)的實(shí)體被稱為第二方數(shù)據(jù)。

受限于數(shù)據(jù)本身商業(yè)價值或相應(yīng)法律或PR風(fēng)險的考慮,在這個數(shù)據(jù)轉(zhuǎn)移的過程中第一方會希望盡量控制減少數(shù)據(jù)本身的泄露。一般通過協(xié)議的角度可能是規(guī)定數(shù)據(jù)使用的范疇,規(guī)定數(shù)據(jù)可以被存儲的時間等。通過技術(shù)的角度可能是去除個人識別標(biāo)識,做一些預(yù)處理比如泛化(將給定的位置從一個具體的位置變成處于某一個圓的范圍內(nèi))等,后面會對這些方法做一個簡單的描述。

除第二方數(shù)據(jù)以外,還會存在一些根據(jù)某些特定目的而將大量原始數(shù)據(jù)進(jìn)行匯聚的實(shí)體,目的可能是比如進(jìn)行某些統(tǒng)計分析的研究(比如所有人的存貸比,比如所有人的年齡分布等),也可能是某些特定研究(比如某類藥的安全使用范圍)等,這樣的實(shí)體可以被稱為第三方數(shù)據(jù)。

除了這三方的數(shù)據(jù)以外,還存在公開數(shù)據(jù)這個范疇。公開數(shù)據(jù)的定義很難做到清晰,不過一般認(rèn)為是任何一方可以通過爬蟲直接從互聯(lián)網(wǎng)獲得的數(shù)據(jù)(沒有經(jīng)過數(shù)據(jù)擁有者的直接授權(quán))。但在現(xiàn)實(shí)情況中,判斷公開數(shù)據(jù)的流通是否有風(fēng)險往往也和公開數(shù)據(jù)被獲取的一方對于這種獲取行為如何看待相關(guān)。

注意這里所指的公開數(shù)據(jù)被獲取方并不一定是數(shù)據(jù)的擁有者,因此也會出現(xiàn)在談及數(shù)據(jù)的收集,存儲,使用之外的另一個上下文:公開。即第一第二或者第三方實(shí)體是否獲得了公開該數(shù)據(jù)的授權(quán)。

1  2  3  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    安防 獵頭職位 更多
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號