
作者 | David Weinberger編譯 | CDA數據分析師
偏見是機器學習的原始罪過。它嵌入在機器學習的本質中:系統從數據中學習,因此 很容易發現數據所代表的人為偏見。例如,接受過美國現有職業培訓的ML招聘系統很可能會“學到”,女性與首席執行官之間的聯系不佳。
徹底清除數據以使系統不會發現任何隱藏的有害關聯可能非常困難。即使經過最大程度的照顧,機器學習系統也可能發現偏向模式是如此微妙和復雜,以至于無法被人類原本最好的關注所掩蓋。因此,計算機科學家,政策制定者以及任何與社會正義有關的人們目前都在關注如何避免AI產生偏見。
然而,機器學習的本質也可能使我們以新的,富有成效的方式思考公平。我們與機器學習(ML)的相遇開始為我們提供概念,詞匯和工具,使我們能夠比以前更直接,更準確地解決偏見和公平問題。
我們長期以來將公平視為道德原始。如果您問某人一個不公平的例子,那么他們談論兩個收到不同數量Cookie的孩子的可能性就非常高。這顯然是不公平的,除非他們之間存在一些相關的差異來證明這種差異是合理的:其中一個孩子年齡更大,或者更大,或者同意做額外的家務來換取餅干等。在這種簡單的表述中,公平被定義為除非有一些相關的區別證明不平等待遇是合理的,否則人的平等待遇。
但是什么構成“相關區別”?事實是,我們比不公平更容易達成共識。我們可能都同意種族歧視是錯誤的,但是六十年后,我們仍在爭論《平權行動》是否是一種公平的補救辦法。
例如,我們都同意,在20世紀70年代,它是不公平的女性音樂家組成少的五大交響樂團的5%樂團。在這種情況下,我們可能會同意,實際的樂團樂隊研究所似乎更為公平:通過將申請人的試鏡放在幕后以掩蓋性別的陰影下,五個頂級交響樂團中的女性比例在1997年上升到25%,現在上升到30%。
但是,是否存在性別盲目的過程足以使結果真正公平?也許文化偏見會給男性音樂家帶來非生物學上的優勢-例如,如果更多的男人被頂級音樂學院錄取,他們可能會接受更好的音樂教育。幾個世紀以來,音樂表現的水準一直圍繞著典型的男性特征或喜好形成,例如手掌大小或表現的侵略性。是否有30%足以讓我們宣布樂團現在在對待女性方面是公平的?也許,音樂家的性別比例應該達到51%,才能反映出整個國家的總體性別統計數據?還是應該反映出樂隊中男女申請人的百分比?還是比部分糾正導致人們在樂團中人數過多的歷史偏見更高的水平?(更不用說,整個討論都假設性別是二元的,不是的。)
機器學習可以幫助我們進行此類討論,因為它要求我們以高度精確的方式指導我們,從道德上講我們會接受哪種結果。它為我們提供了以更清晰,更富有成效的方式進行這些討論的工具(通常是爭論)。
這些工具包括源自機器學習最常見任務的詞匯:決定將給定輸入放入哪個bin。如果輸入是意大利面條醬工廠的傳送帶上的番茄的實時圖像,則該垃圾箱可能會標記為“可接受”或“丟棄”。每個輸入都將分配給具有附加置信度的垃圾箱:72例如,確定此番茄可食用。
如果對西紅柿進行分類是系統的基本任務,那么您將要關心有多少西紅柿被錯誤分類了:ML將哪些西紅柿放入“丟棄”堆中,將多少壞西紅柿放入“可接受的垃圾箱”中-錯誤的批準和錯過的機會。而且,由于對垃圾箱的分配始終基于置信度,因此ML為其設計人員提供了滑塊,以調整結果以反映公平的不同定義。
例如,如果是您的番茄工廠,那么您可能最在乎新ML番茄分選應用程序的整體準確性。但是,監管者可能會更擔心壞番茄進入批準箱中,而不是將好番茄扔進丟棄箱中?;蛘?,如果您是一個骯臟的番茄工廠老板,那么扔掉好番茄比在醬汁中加入一些爛番茄可能會更不高興。
ML要求我們完全清楚自己想要什么。如果您擔心壞番茄將其放入醬汁中,則必須決定您(以及您的客戶以及律師)可以與多少壞番茄一起生活。您可以通過調整將西紅柿放入批準箱中所需的置信度來控制此百分比:您是要將閾值置信度設置為98%還是將其降低到60%?將滑塊向左或向右移動時,您將把更多好的西紅柿放到“丟棄”箱中,或者將更多的壞西紅柿放入“批準的”箱中。
用ML的話來說,放在“丟棄”箱中的被忽略的好西紅柿是假陰性,而放入“批準”箱中的壞西紅柿是假陽性。
當我們談論將貸款申請分類到“批準”或“拒絕”箱中的過程時,這些術語會很有用。(出于此假設的目的,我們將忽略任何有關貸款批準程序的法規。)假設有30%的申請人是女性,但在“批準的垃圾箱”中只有10%的申請是女性。但是,除了查看女性獲得批準的百分比或拖欠貸款的男性和女性比例之外,也許我們應該查看“拒絕女性”分類中誤報的百分比是否高于女性的百分比。拒絕人員區中的誤報。
ML領域的研究人員還為我們在這里以及其他地方討論的公平類型提供了精確的定義,并使用了“人口統計平價”,“預測匯率平價”和“反事實公平”等名稱。與專家討論這些問題可以使這些討論更容易進行,并且對論點的各個方面都有更全面的理解。他們沒有告訴我們在任何情況下都采用哪種類型的公平性,但是它們使我們更容易就該問題提出富有成效的論據。
在更高的抽象水平上也是如此,因為我們可以決定什么才是ML系統的成功。例如,我們可以訓練ML貸款應用程序分類程序來優化自身,從而為我們的業務帶來最高的利潤?;颢@得最高收入?;驗樽畲髷盗康目蛻?。我們甚至可以出于經濟公正的考慮而決定,我們要向較貧窮的人提供一些貸款,而不是總是向周圍的最富有的人提供貸款。我們的機器學習系統應使我們能夠判斷風險,調整我們希望在“批準的”收款箱中的低收入人群的百分比,或為我們提供的貸款設置最低盈利水平。
ML還清楚地表明,我們無法始終(甚至通常)針對我們可能擁有的每個價值來優化結果。例如,在這種假設下,貸款公司可能會發現,將更多的低收入申請人納入“批準的垃圾箱”會影響該垃圾箱中女性的比例??梢韵胂竽荒芡瑫r為兩者優化系統。在這種情況下,您可能希望找到另一個愿意修改的值,以便為低收入人群和婦女創造更公平的結果。也許,如果您將公司的風險增加到可接受的程度,則可以實現兩個目標。機器學習系統為我們提供了進行此類調整并預測其結果的杠桿。
當我們看到更高層次的抽象時-從使用滑塊調整容器中的混合,到關于優化可能不一致的值的問題-ML告訴我們公平不是簡單而是復雜的,它不是絕對的而是問題權衡。
ML無奈的字面性要求我們做出的決定自然可以導致討論聽起來像對道德的高尚論點或對技術的專業術語爭執不休,而更像是具有不同價值觀的人之間的政治論點:優質番茄醬或廉價醬能最大化我們的利潤?增加樂隊中女音樂家的比例還是維持當前樂器的配置?向低收入人群發放貸款,但也許會降低女性比例?
如果機器學習以新的精度提出了這些問題,為我們提供了討論這些問題的詞匯,并讓我們嘗試進行調整以查看針對所關注的值優化系統的最佳方法,那么這是向前邁出了一步。并且,如果機器學習使我們根據我們關心的價值觀來討論針對不公平情況的補救措施,并準備做出現實的妥協,那么對于許多道德論證來說,那也不是一個壞模型。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25