
機器學習、數據、隱私和更大的善
機器學習能夠對健康進行跨類預測。社交媒體上,新媽媽們的行為和語言使用能夠被用來預測是否產后抑郁。
研究人員創造了一些術語,例如數字疾病檢測和信息監測 ,來定義這類利用不同的數字信息流進行公共衛生和政策信息通報的新科學,例如流行病的早期識別,疾病的傳染性和流動性建模,個人疾病風險分類等。這種新形式的健康研究也會擴展那些由傳統健康記錄和人體試驗得出的結論。比如,藥物不良反應的檢測可以結合美國食品和藥物管理局的不良反應報告系統及匿名搜索日志加以改善。搜索日志可以作為一個大規模的傳感系統,用來監測藥物安全——藥物警戒。
信息監測研究通常是指對公開披露或私有匿名數據的大規模綜合分析,就人群中公共健康問題得出結論和見解。然而,一些方法和模型可以針對特定個體加以推測,從而采取一些舉措來改善個體或公共健康狀況,例如警報或者進行數字干預(digital nudging)。
盡管數字干預顯示出良好前景,但是,英國最近發生的一次事件,讓人們注意到它也會對隱私造成困擾。Good Samaritan是Twitter上一款預防自殺的應用,通過監測用戶在Twitter上的用語,這款應用能夠預測該用戶患有精神疾病的風險并通知該用戶的關注者,以便他們能介入以避免可能發生的自殺。但是,這項技術令輿論嘩然,也引發監管機構的擔憂,隨后被關閉。批評人士擔心,這款應用會鼓勵在線騷擾者和恃強凌弱者將矛頭指向這些脆弱個體,他們的請愿書指出,這款應用收集、處理并分享敏感信息,侵犯了用戶隱私,并收集到了1200個志愿者。雖然開發者預防自殺的初衷值得嘉獎,但是,此項非盈利之舉卻因它將試圖拯救的那些人的隱私和精神健康視為兒戲而遭到訓斥。
機器學習可以促進信息環境與社會環境之間的交流,借助遠超醫療環境的非醫療數據就健康狀況或者傾向做出跨類推測(category-jumping)。這對隱私的影響是深遠的??珙愅茰y可能會揭露一個人特意向別人隱瞞的問題或狀況。為了防止出現這些違背意愿的現象,美國對健康護理隱私嚴加監管。但是,雖然從健康理療和支付中獲得的健康狀況信息能夠以一種尊重患者隱私的方式加以保護,但是,機器學習和推測可以繞開許多現存的保護機制。
即使不是跨類推測,機器學習也能從自我揭露、看似良性的數據以及易于觀察的行為中,進行強大而折衷的推論( powerful and compromising inferences)。這些結論可能會與隱私法的根本目的相?!獋€人有權決定誰知道以及知道自己哪些隱私。機器學習和預測會讓人們越來越難判斷:根據自己或明或暗共享過的信息,他人有權獲知自己的哪些隱私。這些計算機收集健康狀況的信息渠道與其他技術手段聯手之后,會讓既有健康隱私的保護機制出現很大漏洞。特別是,面對大量可以用來再次識別個體的各種輔助性數據,我們很難將公開分享過的數據組去識別化(deidentify)。
現有的美國隱私制度將個人健康狀態隱私保護與被先驗確定為健康信息的特定文本或特定信息類型關聯起來,機器學習的威力讓這種規定的根本局限性無所遁形?,F有美國健康隱私規則和隱私法律都是基于這一假設:孤立環境中的數據語義相對固定并且可知。但是,機器學習卻被用來從數據、跨數據中來預測新的數據語義,通常不受美國隱私法約束。例如,使用Twitter上的公開推文來預測產后抑郁癥風險,這并不違反現有的隱私法。由于文章是公開共享的,這樣做可能并不會讓人吃驚,也似乎不成問題,但是,這種預測行為也會導致令人不安的后果。
當前的隱私法通常采用雙重責任(double duty)。作為基本原則,法律會限制有權訪問個人信息的主體。這也間接限制了信息能夠影響決策的范圍,因此也進一步限制了信息引發歧視的機會。出于對隱私的高度敏感以及健康方面歧視的關注,還另立法律,對健康醫療數據文本之外的健康信息使用緊行規制。美國法律明確限制了不當使用健康信息的行為。例如, 決定就業、信貸或住房時,法律通常禁止信用報告機構提供醫療信息?!睹绹鴼埣踩朔ò浮?ADA)禁止身體或精神殘疾歧視,甚至不允許人們這么認為個體備受殘疾折磨。如果機器學習被用來推斷某人患有身體或精神障礙,那么,即使推斷是錯誤的,雇主據此決定聘用對方的行為也違反了法律。
但是,《美國殘疾人法》并不禁止歧視殘疾傾向(predispositions)。機器學習也能發現那些殘疾傾向。理論上,《禁止基因信息歧視法案》(GINA)應該通過保護基因上具有殘疾傾向的人來填補這一空白。但是,機器學習又讓這種保護變得困難。盡管GINA禁止以基因測試或某種疾病的家族遺傳史等信息為基礎的歧視,但是,機器學習能從其他類型數據中發現這些殘疾傾向,GINA并未限制人們利用這些信息進行歧視(即使它還是根植于基因問題)。換句話說,機器學習能從非基因信息(包括遺傳傾向引發的健康變化)中預測未來的健康狀況,規避現有法律。
正如機器學習會暴露隱私一樣,它也為社會分類——對人分門別類,不同類別不同待遇——提供條件,無論這種處理的初衷如何(善或惡、好或壞)。為了將個體納入公共健康計劃和干預機制,對其進行分門別類的方法也能輕易地被用于邪惡的目的,例如,通過歧視來保護組織的利益。
美國和其他國家的決策者們剛剛開始著手梳理機器學習預測對信守隱私、公平帶來的挑戰。白宮公布了一份報告,討論了大規模數據分析可能導致歧視,雖然沒有特別關注健康信息,但是,報告和美國聯邦貿易委員會(FTC)都建議采取新舉措來保護隱私、整治惡意使用信息并增加透明度。
FTC是監管商業活動中不公平、欺詐性交易的關鍵部門,包括那些涉及隱私與個人信息安全的商業活動。試行的隱私政策鼓勵公司將技術與政策機制結合來,防止再次識別(reidentification)。試行規定力圖確保數據「不能進行合理識別」,也要求上市公司(public company)承諾不會再次識別經過反識別處理的數據。試行也適用于數據下游使用者。這一政策方針有望適用于機器學習以及以數據為中心的分析領域中來。通過鼓勵公司減少數據池和數據分享對個人隱私造成的風險,使對大量數據組的學習和數據分享成為可能。
FTC的規定部分取材于機構近期采取的一些行動,行動焦點正是我們謂之「文本跨越(context-jumping)」的預測行為。有一個頗受關注的案例,Netflix公開一批數據組支持競爭以改善公司的推薦算法。當公司以外的研究人員用輔助數據重新識別、推測來自Netflix數據組的個體敏感特征時,FTC與Netflix合作,對將來公開預測結果進行了限制——FTC上述限制規定正是源于此。遵循類似脈絡,FTC反對改變Facebook的默認規定:可以根據已經公開的個體隸屬組別中的敏感信息,諸如政治觀點和性別取向,進行預測。
除此之外,FTC也努力確保個體能夠控制在線跟蹤以及移動網絡環境。部分是因為人們可以從巨大的數據集合中進行比較隱秘的推測,給用戶帶來風險,比如,市場活動中,用戶會被分門別類地予以特殊對待。在某相關規定中,FTC建議國會要求數據掮客(data brokers)——那些搜集用戶個人信息予以出售或分享的公司——向客戶清楚說明他們搜集的數據信息并如實告知客戶,公司從這些數據中得到了一些預測。這里,FTC再次表明,它的關注點不僅僅是原始數據,還包括基于這些數據作出的預測。
奧巴馬政府的大數據計劃也考慮到機器學習給隱私造成的威脅以及機器推測在市場活動中帶來的潛在威脅,計劃總結道,我們需要更新隱私政策,提高消費者保護和民主權利機構的技術專業性以描述出大數據引發的新奇的歧視議題,并為個體提供隱私保護工具,讓公民可以控制、管理個人信息管理,增加公司使用和交易數據的透明度。政府也關心機器學習在政策與國家安全方面的使用情況。白宮報告要求提高專業技術,幫助民主權利和消費者保護機構識別、調查以及消弭會對受保護階層帶來歧視效應的大數據分析使用。
請注意,政府報告和法律規定清楚強調了政策規范關注的是數據使用,而不是數據收集。盡管我們也需要工具來幫助用戶控制自身數據收集的時間和方式,但是,政府的建議是讓個體有權參與到如何使用與公開搜集到的數據的決策過程中來??偨y科技顧問委員會(PCAST)出具的一份獨立報告的結論是,技術保護這個方向更加富有成效。兩份報告均建議,基于數據使用的保護能更好地描述出潛在數據意義——使用機器學習對數據進行預測——也能適應數據豐富規模以及將來的關聯環境。 政府呼吁各方通力合作以確保對健康數據文本的規制使以下期待成為可能:享受機器學習和預測的好處的同時降低其可能招致的風險。這種基于數據使用的保護方法也經常得到工業領域的支持,該領域傾向于將數據視為一種自然資源,無論是出于商業目的還是公共利益,都要對之進行開采,抵制限制數據搜集的舉措。
盡管當前陷入僵局的國會不太可能,也不會完全依從這些建議,但是,采用它們會增強數據搜集、使用以及相應后果的透明度。連同努力識別、限制不公平或歧視性數據的使用和推測等建議,它們都是頗為有用的舉措。這些建議也與歐盟目前有關數據處理透明度與公平性的隱私法律,特別是全自動化決策可能給個體造成的風險方面,步調一致。
目前歐盟的法律要求實體為個人提供獲得決策數據的途徑以及決策標準的信息【參看第21款第12條和第15條】。盡管目前有歐盟統一指令約束,但是,具體規定仍是各國法律的事情。當個體要求獲取數據和進行加工時,他們能夠獲取的權限大小會隨著各國對「全自動化 」過程施加限制的不同而所有不同。歐盟想要采用一項高于本地法律的數據隱私規定,實行單一國家標準。盡管現有草案包含平行條款,但是,最終版本以及如何進行最終解釋都尚不清楚(27)。
理論上,歐盟提出了一項新要求來公開數據的處理邏輯,這可以得到廣泛適用,同時也預示著將有公開途徑獲得數據分析及算法。歐盟將基于當前歐盟的統一指令,就獲取數據和處理邏輯的程度補充一些細節,在這之前的過渡期,今年夏天將有望出臺一項決議。
對數據擁有者來說,提高數據處理的透明度至關重要又頗具挑戰。盡管這一目標會促進我們加深對運作方式或機器學習和推理方法的可能輸出結果的實際理解,但是,算法和決策標準的工作流和機制或許難以進行描繪和解釋。例如,流行的卷積神經網絡學習程序能夠自動催發豐富的、多層的表征,但對于這些表征,可能開發者自己都無法清晰理解。盡管可以提供對步驟和表征的高級描述,但是,即便是一個能夠取得源碼的嫻熟程序員, 也無法對這一系統的準確運行進行描述,無法對一組既定輸入值的輸出結果進行準確預測。
數據的意義已經成為了一個不斷移動的目標。數據集可以通過去定義化被輕易的組合成重新定義的數據集,感知知識可從常規和雜亂分享的良性數據中推斷出來。這對目前美國利用合法手段進行隱私保護造成了困難,他們的保護手段往往是基于數據的可識別性和明確含義對其進行管理。
基于應用的解決方案在一定程度上僅聚焦于有限的數據收集,這是不夠的。因為從某種程度上來說,這種做法預設了數據是可被基于某種原則進行收集的純粹的物品,無論何時何地。雖然我們尚未準備好廢棄掉數據收集的限制,但我們對此表示同意——基于應用的管理條例是未來法律藍圖的重要部分,盡管實施起來將面臨挑戰,但它將有助于促進隱私、平等和公共物品的保護。在提高透明度的同時還要平衡隨之而來的各種限制,基于應用的解決方案將需要格外強調個人數據的獲取、準確性和修正權利。
盡管關于個人健康信息的管理條例的演化還不完整,但它卻提供給了我們一個有價值的圖景,使我們能夠對今天所面臨的機遇和挑戰進行思考,同時也為潛在解決方案提出了框架思路。在醫療健康領域,隱私條例中總會包含不歧視條款,同時也伴隨著支持研究的特殊條款。如今,隱私條例與集體管理模型聯系在了一起,后者的設計初衷是鼓勵將支持研究的生物樣本庫數據進行匯總,同時保護集體隱私。
盡管還有些較為現實的挑戰,我們仍希望政策制定者和公眾能夠就數據、機器學習的能力進行開誠布公的討論,這將為接下來的程序和政策提供富有洞察力的設計思路,我們一方面需要保護隱私和確保公平,另一方面也需要享受(基于個人數據的)科學研究成果給個人和公眾帶來的好處,程序和政策的設計有利于在這兩者之間取得平衡。我們對隱私和公正的追求是永恒的,我們的政策必須適應這種進步,同時也要支持深化我們認識的新技術。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25