
大數據面臨的問題:數據是否需要共享
在這個大數據時代,數據帶來的難題可真不少,比如,一個企業重要的資產中包括一些特殊的數據,那么就會遇到一個問題,企業是否應該與合作伙伴和供應商共享這些數據,還是應該保留其專有權?
在有關Facebook公司寬松的數據共享政策和歐盟實施通用數據保護條例(GDPR)之間,很多人都在談論數據隱私和消費者權利。那么作為Facebook或Google等公司的消費者,應該分享多少數據呢?
那么對于企業呢?
企業可能正在處理自己的數據隱私難題,他們應該與合作伙伴、供應商還是與其他組織共享公司數據嗎?如果是這樣,可以分享哪些數據,以及它們應該保留為私有和專有的數據?畢竟,數據是新的石油。亞馬遜、Facebook和谷歌都通過收集和利用數據建立了價值數十億美元的公司。
雖然數據是公司可能擁有的頂級資產之一,但也可能有令人信服的理由來共享數據。例如,如果行業前沿的癌癥中心分享他們每個人收集的數據,它們可能會加速并促進社會治愈癌癥的努力。但與競爭對手分享也可能影響他們在市場上的競爭優勢。
組織也可能正在考慮參與供應商計劃,例如SAP公司正在開發的名為Data Intelligence的計劃,該計劃將匿名化企業客戶數據,并允許這些客戶將自己與其他市場進行對比。
“人們意識到他們所擁有的數據具有一定的價值,無論是出于內部目的還是出售給數據合作伙伴,這都會讓他們更加意識到他們如何匿名共享數據?!盨AP公司MikeFlannagan表示。就他們如何看待數據而言,不同的公司處于不同的成熟水平。
即使企業共享匿名數據以便訓練算法,問題仍然是企業在共享匿名數據資產時是否放棄競爭優勢。組織需要小心。
“數據非常有價值?!盌atabricks公司的聯合創始人兼首席執行官,加州大學伯克利分校的兼職教授AliGhodsi表示。根據Ghodsi的經驗,組織不希望共享他們的數據,但他們愿意出售對它的訪問權限。例如,組織可能會在有限的時間段內出售對特定數據集的有限訪問權限。
Ghodsi說,數據聚合器是通過抓取網絡來創建銷售數據集的公司。
Ghodsi說,有些傳統的公司可能有數年或數十年的數據尚未暴露于應用人工智能和機器學習,而這些公司可能希望使用這些巨大的數據集獲得競爭優勢。例如,任何擁有大量會員卡的零售商都可能擁有10年或20年的匯總數據。
在Ghodsi的經驗中,組織需要更多數據,但他們不愿意分享,有時甚至在他們自己的組織內也不分享。在許多組織中,IT團隊控制著對數據的訪問,并且可能不愿意對業務線領域的數據科學家的所有請求進行響應。這是2017年12月由Ghodsi和加州大學伯克利分校的其他研究人員共同撰寫的題材之一,主題為“伯克利人工智能系統挑戰觀點”。Ghodsi表示,該小組正在進行研究,以尋找激勵企業公司分享更多數據的方法。其中一種方法是模型本身,而機器學習模型是對所有數據的非常緊湊的總結。
Ghodsi說,“例如,我們擁有世界上所有癌癥的大量數據集,可以創建一個機器學習模型。它可以預測肺部癌癥的可能性、它們的健康狀況、癌癥的風險。但仍然沒有分享所擁有的所有X射線數據,而且不打算對外你分享?!?
Ghodsi說,現在正在開始這種分享。谷歌公司已經發布了許多用于分類圖像的模型。
另一種方法稱為轉移學習,Ghodsi說在Databricks公司啟用了一種方法。Ghodsi說,這個工作通過將現有模型與新模型相結合,允許企業通過利用新數據獲得新價值。
另一種分享研究數據價值同時保留企業對該數據的私人訪問權限的方法是通過聯合機器學習。這是Owkin公司使用的技術之一,Owkin公司是一家幫助癌癥研究中心加速其研究效益的創業公司。
“在學習中,企業可能將數據留在邊緣設備上?!盋louderaFastForwardLabs的數據科學家FriederikeSchuur表示。谷歌公司在博客中解釋了它的工作原理:“企業的設備會下載當前模型,通過學習手機上的數據來改進它,然后將更改匯總為集中更新。只有模型的此更新才會發送到云端,使用加密通信,在其中立即與其他用戶更新進行優化,以改善共享模型。所有培訓數據都保留在設備上,并且云中不會存儲任何單獨的更新?!?
通過這種方式,組織可以為社區的研究工作做出貢獻,但不會在此過程中泄露他們的數據。
轉移學習和聯合學習等創新可以幫助解決醫療保健公司分享數據的問題。數據治理服務商Immuta公司的聯合創始人兼首席執行官Matthew Carroll表示,在數據共享方面,醫療公司已經看到了很多關注。
他說,“他們害怕將數據提供給其他人,他們很清清楚楚這是未開發的財富,是未來的企業收入?!?
對于初創公司而言,這種恐懼也可能轉化為其他后果。例如,如果價值被認為是數據本身,投資公司是否會向分享其數據的公司提供資金?
Schuur說,每家公司都需要自己仔細決定分享內容?!叭绻前┌Y研究,人們應該有更多的數據共享?!?
但是組織應該非常小心他們分享的內容以及如何分享。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25