熱線電話:13121318867

登錄
首頁職業發展我發現我的數據可能被操縱了……
我發現我的數據可能被操縱了……
2018-05-17
收藏

我發現我的數據可能被操縱了……

當前,我們正目睹著一場數據被濫用的“大劇”。限制數據濫用、努力解決偏見數據和問題數據,正成為科技對社會產生影響的關鍵。

簡而言之,我認為大家應該重新考慮,安全、公平到底意味著什么。本文從三個方向來討論,在數據驅動的世界中,我們的數據有可能被操縱。

操縱數據的原罪者——谷歌

1998年,兩個斯坦福畢業生決心著手解決主流搜索引擎存在的問題。

Sergey Brin和Larry Page合作撰寫了一篇論文,描述他們的網頁排序算法怎樣解決搜索結果中垃圾網頁過多的問題。他們的想法意義非凡,如今被人們認為是谷歌創立的基石。但是就算這樣,也沒法阻止人們通過更先進的算法來來干擾網絡數據。事實上,谷歌在后來發展的過程中,為了廣告插入也進一步操控排名,在一定程度上阻礙了搜索引擎的進一步優化。

時光流轉到2003年,當賓夕法尼亞參議員Rick Santorum公開將同性戀類比人獸交和戀童癖時,LGBT群體被激怒了。媒體Dan Savage呼吁讀者們做點什么以記住這個時刻,其中一位粉絲創建了一個網站,網站內容中將Santorum這個名字與“肛交”一詞聯系到一起。令這位參議員不寒而栗的是,有人利用網民的力量,將網站鏈接推送到搜索引擎結果靠前的位置。

這種眾包形式的搜索引擎優化行為被稱作“谷歌爆炸”,也是一種媒體炒作形式,旨在干擾數據和信息環境。


媒體炒作和網絡失真信息(封面),2017年3月,Jim Cooke繪制的插圖

媒體炒作并不新穎。正如許多人所知,宣傳和社交媒體營銷的界線通常是模糊的。除此以外,那些通過點贊、評論和訂閱量等公共信號宣傳產品特點的公司都熟知,任何被創造的系統都將成為娛樂、利益、政治、意識形態和權力游戲的舞臺,甚至連國會現在都在為此斗爭。

而除了這些已經發生的,我們還正在面臨哪些數據被操縱的情況?我們又該如何應對?

騙過網絡系統

如同搜索引擎,現在社交媒體成了一個全新的炒作目標,吸引了從社交媒體營銷號到國家行為發言人的各類人群。干擾Twitter熱門話題或者Facebook新聞動態成為許多人的嗜好。任何人只要5美金,幾乎在所有主要網站上都能輕而易舉地買到粉絲(關注者)、點贊數和評論量。背后的經濟和政治動機顯而易見,但除了這些勢力強大的水軍,還有一大群人毫無目標地參與網絡攻擊。

例如,自Rick Astley的歌曲《Never Gonna Give You Up》推出時隔20年后,有這么一群人決定幫他再登歌曲排行榜首,目的并不是幫Rick Astley賺錢(盡管有此效果)。但通過這樣的方式,大量普通用戶學會了如何讓某些信息被病毒式傳播或者干擾網絡系統的方法。換句話說,他們學會了如何獲得注意力。通過這些行為,他們搞出了一套能夠造成嚴重后果的炒作策略。


一個炒作Rick Astley的例子

像“披薩門”這類的事件并非偶然,這是一群網民愚弄信息系統的產物。(注:披薩門是去年美國大選期間發生的陰謀論,懷疑希拉里競選經理被曝出的電子郵件中,包含利用一系列餐廳進行人販子生意的暗語。這個陰謀論已經數次被有關部門反駁和攻破。)他們創造了許多被稱做“馬甲”的跨平臺網絡虛假賬戶,這些賬戶巧妙地影響媒體和其他勢力團體,引發他們對精心設定的問題、博文和網絡視頻的關注。這種事件的編造并不是為了讓媒體信以為真,而是讓這些媒體傻傻地通過大量自有宣傳渠道否定它。這樣就產生了“反向效應”,那些不相信媒體的人認定這其中必有一些陰謀論,從而鼓勵一些人自發調查。

接著就有鋪天蓋地的評論要求“打開窗口”——增加公共討論話題的尺度。媒體們被騙去散播問題事件。更有甚者,推薦引擎會被用于向問題事件的被動接受者推送更多相關內容。再舉個例子, 研究員Joan Donovan主要研究白人至上主義,工作之余,她打開Amazon、Netflix或是YouTube,每個網站都她推薦消費新納粹主義音樂、視頻和其他周邊。一些激進分子也知道如何變本加厲制造問題。不用觸犯Twitter的任何保護機制,那些人可以想方設法利用公司廣告內容放大白人優越主義思想,引發關注社會公平群體的憤怒。

總體來說,這些伎倆是對算法系統的手動攻擊。但我們都知道,攻擊的方法一直在變化,不在僅僅是手動。而現在,一切即將再次改變。

脆弱的訓練集

訓練機器學習系統需要數據,而且是海量數據。盡管目前已經建成了一批標準化語料庫,計算機科研人員、初創企業和大公司對于新的、差異化的數據的需求依然有增無減。

首當其沖的問題就是所有數據都帶有偏見。從總體上看,人和社會的偏見反映得最為明顯。以當下很紅的數據集ImageNet為例,人類根據形狀進行分類的速度,遠高于根據顏色進行分類;受此影響,數據集最終會包含一些奇形怪狀的人造物體。

深度神經網絡中的認知心理學:形狀偏見的個案研究,2017年6月29日

在應對社會偏見時,局面會變得更加混亂無章。Latanya Sweeney在谷歌上搜索自己的姓名時,驚訝地發現有廣告邀請她查詢自己是否有犯罪記錄。作為一名計算機科學家,她決定在系統上跑一批常見的白人名字和黑人名字,看看哪些名字會招來廣告。不出所料,招來這種刑事類產品的都是黑人名字。這并不是因為谷歌知道怎樣“看名字下菜碟”,而是因為搜索用戶在搜索黑人姓名時,點擊刑事類廣告的幾率更高。谷歌把“種族歧視”學了過來并“發揚光大”,最終影響了全部用戶。

A和C顯示的是針對兩個人各自姓名出現的廣告,B和D表明該廣告暗示存在犯罪前科所根據的是姓名類型,而非就是此人的檔案

不論是對人進行分類的數據還是由人進行分類的數據,只要想以此為基礎建立系統,文化偏見都將成為巨大的挑戰。

不過還有一項新的挑戰正在日漸成型:散布在不同網絡中的人群和國家行為者。他們在社交網絡上興風作浪,搜索引擎對于相應數據的關注度卻與日俱增,而各家公司正是用這些數據來訓練、改進系統的。

舉個例子,假設用Reddit和Twitter的數據來做訓練。這些公司在API上表現得非常大方,計算機科學家們長期以來也從這里抓取了大量數據來訓練各種模型,試圖理解自然語言、圍繞鏈接開發源語言、以及追蹤社會模式。他們訓練各種模型來檢測抑郁癥、為新聞排序,并參與到會話當中,但忽略了這些數據從一開始就不具有代表性。

絕大多數用這些API工程師都相信他們可以清潔抓到的數據,并去除所有的問題內容,可事實并非如此。不論刪除多少特定的subreddits、推文種類,亦或是忽略包含問題詞語的內容,這些操作都不會讓你在那些誠心找茬的人面前占據先機。

無數人或者組織用盡各種方式想要混淆公共數據,大公司的系統也在他們的目標范圍之列。他們試圖通過低空飛行避開雷達監管。如果你沒有準備好相應的系統,從戰略層面去應對這些早有準備繞開你精心制定的計劃的人,你簡直不堪一擊。這與意外或自然內容無關,甚至也牽扯不到帶有文化偏見的數據。

如果你想要理解這到底是什么意思,不妨想想Nicolas Papernot和他的同事于去年發表的實驗。為了深入掌握計算機圖像算法的弱點,他們決定改變交通停止標志的圖形外觀,即使底層神經網絡會將之解讀為放行標志,但在肉眼看來它依然代表交通停止。想想看,這對于汽車來說意味著什么。如果分類標準能夠如此輕易地任人攻破,這項技術還能得到廣泛應用嗎?

《攻擊機器黑匣子實用教程》,2017年3月19日。研究人員改變了第一行的圖像,以誤導神經網絡,并導致了最后一行的錯誤解讀

迄今為止,針對機器學習模型展開的最成功數據注入攻擊發生在研究領域。但我們也發現越來越多的人試圖在主流系統中制造混亂,他們目前還沒得手,但我們絕不能否認他們還在學習和試探。

打造技術抗體

數十年來,很多公司都沒把安全漏洞當回事,直到系統被突破的消息一次又一次登上頭條。在應對這個新問題上,我們還要重蹈覆轍嗎?如果你正在構建數據驅動式的系統,你從現在就要開始考慮數據會以怎樣的方式、被誰污染,以實現何種目的。

測試在這個技術行業中已經失去了生存的土壤,這個鍋社交媒體是逃不掉的。15年前,我們一頭扎向了“永久公開測試”,我們邀請公眾成為我們的質保工程師。但是內部QA遠比找BUG要復雜,它需要將對抗思維融入到設計和研發過程中。當搞破壞的人就隱藏在公眾之中時,請大家為系統找漏洞的效果就不盡如意了。

進一步來說,當前不論是誰,在沒動機、沒渠道的情況下都沒法在私下里告知我們問題所在。有些記者會找到瞞天過海的方法,把系統變成新納粹主義的廣告,借此來嘲笑我們,也只有此時我們才會注意到問題所在。然而盡管如此,更多包藏禍心的行動者開始和我們的數據玩起放長線釣大魚的游戲。

為什么在魔高一丈之前,我們不搶先道高一尺呢?樂觀的看,作為應急措施,很多研究人員都將在機器學習系統的研發中融入了對抗思維。

以生成性對抗網絡(GANs)為例。那些對此不太熟悉的人可以這樣理解:你手上有兩個無人監督的機器學習算法,前者負責為具有評估功能的后者生成內容。前者試圖騙后者接受“錯誤”信息,這樣操作旨在找到模型和數據之間的界限。我們需要更多這樣的研發項目。隨著對抗思維融入到模型搭建過程中,測試在研究領域也走到了盡頭。


白帽子-“高舉正義大旗”的黑客。舉例來說,測試系統的安全性或漏洞(圖片:CC Magicon, HU)

但這些研究的作用非常有限。我們需要積極主動、目標明確地構建相應文化,開展對抗測試、評估,并將之融入研發過程。我們需要構建分析方法,評估數據集中的偏見。我們還需要開發相應的工具來監督系統的運轉情況,這方面需要的精力毫不遜于模型最初的搭建階段。我的同事Matt Goerzen認為除此之外,還需要有策略地邀請白帽子中的牛人介入到我們的系統之中,幫助我們查漏補缺。

技術行業已經不再是一群極客的狂歡,不再是“想要做點不一樣的事情”那么簡單,它是經濟和信息世界的重要基石。我們必須從戰略層面認真思考,他人想要以何種方式操縱數據為非作歹。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢