
金融科技巨頭可能變數據寡頭 誰來監管金融大數據
伴隨互聯網金融發展起來的大數據、征信等概念,今天已經被廣為人知。但與此同時,如何保護互聯網上的個人數據信息也成為亟待解決的問題。
中國金融四十人論壇(CF40)成員、央行金融研究所所長孫國峰近日撰文指出,大數據從互聯網應用場景向金融領域的轉移往往發生在一些金融科技企業的集團內部,這個過程缺乏監管和規范,可能會侵犯到用戶的知情權、選擇權和隱私權,當前隱私數據保護的邊界不清晰。
當前,大數據在金融領域的應用主要包括大數據風控和大數據征信兩個方面。在發展過程中,金融大數據應用面臨的風險主要有四點。第一,一些金融科技巨頭憑借其在互聯網領域的固有優勢,掌握了大量數據,客觀上可能會產生數據寡頭的現象,可能會帶來數據壟斷。第二,政府和企業都面臨數據孤島難題。第三,由于相關的法律法規體系尚不健全,數據交易存在許多不規范的地方,甚至出現數據非法交易和盜取信息的現象。大數據來源復雜多樣加大了用戶隱私泄露的風險。
針對上述金融大數據應用中存在的諸多問題,孫國峰認為,要充分發揮政府和市場的力量,從個人信息保護立法、信息共享機制建設、市場自律等多方入手,為金融大數據產業健康發展提供良好制度環境。
在制定個人信息保護的法律法規時,他認為,要系統考慮并解決以下問題:第一,可以在現有法律法規的基礎上,充分考慮大數據的實際發展,盡可能拓寬現有法律法規適用于大數據產業的業務規范的邊界;第二,要明確大數據的監管機構,特別是金融大數據的監管機構,界定其職能范圍并賦予其足夠的監管權力;第三,要保護好大數據主體的權利,如數據主體的知情權、選擇權、訪問權、個人數據可攜權等;第四,要對數據控制者處理數據的行為邊界進行嚴格的界定,數據控制者必須依法合規地進行數據處理,規范從互聯網應用場景向金融領域的大數據轉移;第五,要對數據控制者等其他主體非法使用數據的相關行為進行明確的處罰規定等。
大數據指“無法在一定時間范圍內用常規工具進行捕捉、管理和處理的巨量數據集合”。傳統的數據集合往往是基于特定目的收集的,隨著新興信息技術的發展,互聯網移動終端越來越融入到日常生活和經濟行為之中,尤其是智能硬件和設備的普及,與出行、消費、娛樂、支付等相關的數據呈爆發式增長趨勢,互聯網企業積累了大量數據。這些數據從多個維度刻畫了經濟主體的行為特征,從中可以挖掘出許多額外的信息和關聯邏輯。傳統的數據庫軟件工具和數據分析方法無法在短時間內抓取、管理和處理大數據,不僅僅因為其規模大,還在于其復雜性,傳統數據一般都是結構化數據,而大數據往往包含大量非結構化數據,包括圖片、視頻、語音、地理位置等,并且數據都在實時更新中,云平臺、云計算、機器學習等技術的突破使得對大數據的分析成為可能。金融行業由于天然具有數據量大的優勢,成為大數據應用的重要領域,具體主要包括大數據風控和大數據征信兩大方面:
大數據風控
金融是經營風險的行業,風險控制能力是金融機構的核心競爭力。金融機構通過信用評分模型來定量計算貸款違約的可能性,確定違約的損失分布,以規避風險損失,并根據預測的風險水平進行利率定價。傳統的信用評分模型主要使用歷史借貸數據和財務數據來預測和判斷借款人的違約風險,采用傳統的統計方法進行分析,這種方法最大的缺陷就是無法對那些缺乏歷史借貸數據的借款人進行信用風險評估。在征信體系不完善的經濟體中會存在信貸供給不足的現象。我國央行征信系統雖然覆蓋了8億多人,但只有3億多人具有信貸歷史,傳統的風控技術對這部分信貸歷史記錄空白的群體是無效的。即便在征信業高度發達的美國,美國個人消費信用評估公司(FICO)評分也被批評信用評價標準過于單一,評估結果具有片面性,在時間上表現出嚴重的滯后性。
大數據風控是基于互聯網大數據,將數據挖掘、機器學習等大數據建模方法運用到貸前信用評審、反欺詐等風控管理環節。與傳統風控模型相比,大數據風控有三個基本特征:一是處理的數據種類多,更加多維度。大數據風控模型除了重視傳統的信貸變量之外,還納入了社交網絡信息等信息,為信貸記錄缺失的群體獲取基本金融服務提供了可能性。比如,ZsetFinance的數據來源非常廣泛,既包括傳統的信貸記錄等金融機構搜集的結構化數據,也包括法律記錄、交易信息、電子商務、社交信息等非傳統的數據和非結構化數據。二是關注行為數據,而不僅僅是歷史財務數據。傳統的信用評分模型變量均與反映被評價主體債務狀況和資金延付狀況等資金活動相關,但大數據信用評估更關注被評價主體的行為數據,在互聯網大數據時代,電子商務、社交網絡和用戶的搜索行為等大數據都映射著經濟主體的教育背景、工作經歷、社交圈子,這些信息與信用水平可能存在某種聯系。大數據技術是在充分考察借款人借款行為背后的線索和線索間的關聯性基礎上進行數據分析,降低貸款違約率。三是模型的建立是不斷迭代和動態調整的結果。大數據風控模型的輸入端是成千上萬的原始數據,然后基于機器學習等技術進行大數據挖掘,尋找數據間的關聯性,在關聯性基礎上將變量進行整合,轉換成測量指標,每一種指標反映借款人某一方面的特點,比如詐騙概率、信用風險、償還能力等。再將這些指標輸入不同的模型中,最后將模型結果按一定的權重加總,最終輸出的就是信用評分。在整個過程中,原始數據轉換成指標需要進行不斷的迭代,不同模型的權重值可以根據樣本進行動態調整。
越來越多的互聯網金融公司,特別是網絡借貸、互聯網消費金融等領域的公司開始利用大數據風控技術。2016年1月12日,美國的一家網貸平臺SOFI聲明不再將FICO評分納入信貸審批決策,另外一家為消費企業提供貸款的美國公司Kabbage則將亞馬遜、ebay等電子商務網站數據和Facebook、Twitter等社交網站數據納入風險評估模型之中,新興的互聯網金融公司ZestFinance聲稱一切數據皆信用。
大數據征信
風控與征信都是管理風險的活動,不同的是,風控一般是某一公司依靠企業自身的數據和資源進行風險管理,而征信是第三方機構“依法收集、整理、保存、加工自然人、法人及其他組織的信用信息,并對外提供信用報告、信用評估、信用信息咨詢等服務,幫助客戶判斷、控制信用風險,進行信用管理的活動”。
傳統的基于信貸歷史數據的風控技術背后是社會征信體系的建設。美國是世界上征信業較為發達的國家之一,一個重要原因是美國信用卡產業非常發達。美國的征信體系主要由三類機構組成,一是商業銀行和貸款機構,這些資金的貸出方在業務開展過程中積累了大量的關于客戶借款、還款和違約的歷史數據,這些都屬于信用的強相關變量,這些機構都會將這些信用歷史記錄傳給第二類機構,征信公司。美國有三家主要的征信公司,Experian、Equifax、TransUnion,主要負責搜集和儲存征信數據,包括從地方法院收集公共記錄信息和貸款機構收集逾期債務信息,并將數據進行清洗和處理后輸出標準化的數據產品,提供給銀行和其他金融機構,征信公司也會開發出一些信用評分產品。第三類機構就是專注于信用評分的公司,最著名的是FICO評分,主要作用是根據征信公司的信用報告,找到變量與違約概率之間的關系,即構建信用評價模型。銀行和其他金融機構可以根據FICO評分進行放貸決策。
中國的征信機構由中國人民銀行征信中心和其他民營征信機構組成。在互聯網時代,大數據在征信行業的應用帶來了大數據征信,就是指通過采集個人或企業在互聯網交易、從事互聯網業務以及使用互聯網服務過程中留存下來的信息數據,并結合線下渠道采集的相關信息,利用云計算等技術手段進行信用評估和評價的活動。
國內從事大數據征信的機構主要由四類:一是電商類平臺,將平臺上積累的用戶行為數據進行采集、整理和加工,并經過深度挖掘和評估,為合作的金融機構信貸審批提供風險定價服務;二是P2P網絡借貸類,通過自建客戶信用系統,用于自身平臺撮合的投融資業務;三是以網絡金融征信系統、小額信貸行業信用信息共享服務平臺為代表的同業信息數據庫,通過采集P2P平臺借貸兩端客戶的個人基本信息、貸款申請及還款等信息,向加入該數據庫的P2P機構提供查詢服務;四是互聯網大數據公司,通過收集、整理、保存來源于第三方的互聯網數據,運用分析模型和信用評分技術,形成符合客戶需要的征信報告、評級報告等產品,提供給第三方客戶。
大數據征信在我國有很大的發展潛力,一方面,中國的征信體系覆蓋面仍然有限。據波士頓咨詢公司測算,截至2015年底,中國個人征信的覆蓋率只有35%,與美國個人征信體系92%的覆蓋率相差甚遠。另一方面,中國的互聯網尤其是移動互聯網發展迅速,移動終端累積了海量的用戶行為數據,這些網絡交易和社交平臺積累的數據為彌補信用記錄空白主體的信用評估數據非常重要。
從風控、征信等角度看,大數據在金融行業的應用前景廣闊,但在發展的過程中也需要注意到存在的風險。
金融科技巨頭可能產生數據壟斷
一些金融科技巨頭憑借其在互聯網領域的固有優勢,掌握了大量數據,客觀上可能會產生數據寡頭的現象,可能會帶來數據壟斷。一些機構掌握了核心的信用數據資源,有的機構掌握電商交易數據和金融數據,有的機構掌握集團的傳統金融機構和互聯網金融平臺的金融數據,有的機構則依托大股東掌握大量線下交易數據,還通過合作的方式掌握了合作企業的數據。由于缺乏分享的激勵機制,導致與征信的共享理念存在沖突。
存在數據孤島現象,數據融合困難
政府和企業都面臨數據孤島難題。大數據時代,數據已經成為核心資源,企業出于保護商業機密或者節約數據整理成本的考慮而不愿意共享自身數據,一些政府部門也缺乏數據公開的動力。數據孤島現象的存在,將導致大數據信用評估模型采用的數據維度和算法的不同,大數據征信模型的公信力和可比性容易遭到質疑。
數據安全和個人隱私保護難度升級
目前,大數據的獲取大致有四種方法:自有平臺積累、通過交易或合作獲取、通過技術手段獲取、用戶自己提交的數據等。但是由于相關的法律法規體系尚不健全,數據交易存在許多不規范的地方,甚至出現數據非法交易和盜取信息的現象。大數據來源復雜多樣加大了用戶隱私泄露的風險,其一,我國金融大數據行業的發展乃至Fintech行業的發展,在很大程度上得益于互聯網應用場景的發展,而大數據從互聯網應用場景向金融領域的轉移往往發生在一些金融科技企業的集團內部,這個過程缺乏監管和規范,可能會侵犯到用戶的知情權、選擇權和隱私權。其二,應用數據存在多重交易和多方接入的可能性,隱私數據保護的邊界不清晰;其三,技術手段的加入,加大了信息獲取的隱蔽性,一旦出現隱私泄露糾紛,用戶將面臨取證難、訴訟難的問題;其四,大數據采集數據的標準不一,用戶的知情權、隱私權可能受到侵犯??梢?,在大數據環境下,個人數據應用的隱私保護是一個復雜的消費者權益保護問題,涉及到道德、法律、技術等諸多領域。
針對金融大數據應用中存在的諸多問題,要充分發揮政府和市場的力量,從個人信息保護立法、信息共享機制建設、市場自律等多方入手,為金融大數據產業健康發展提供良好制度環境。
建立并完善個人信息保護的法律制度體系
通過建立個人信息保護的法律制度體系,使大數據產業在數據采集、加工整合以及使用等多個環節能夠依法合規的發展。在制定個人信息保護的法律法規時,要系統考慮并解決以下問題:第一,可以在現有法律法規的基礎上,充分考慮大數據的實際發展,盡可能拓寬現有法律法規適用于大數據產業的業務規范的邊界;第二,要明確大數據的監管機構,特別是金融大數據的監管機構,界定其職能范圍并賦予其足夠的監管權力;第三,要保護好大數據主體的權利,如數據主體的知情權、選擇權、訪問權、個人數據可攜權等;第四,要對數據控制者處理數據的行為邊界進行嚴格的界定,數據控制者必須依法合規地進行數據處理,規范從互聯網應用場景向金融領域的大數據轉移;第五,要對數據控制者等其他主體非法使用數據的相關行為進行明確的處罰規定等。
加快信息共享機制的建設
推動政府信息公開和行業之間的信息共享,打破數據壁壘,發揮大數據推動各個行業升級和轉型的作用,促進降低信息等多方面的成本,提高經濟效率和社會福利。第一,進一步完善個人信息保護的法律法規,以此避免信息共享帶來的數據安全和個人隱私泄露等問題。第二,打破數據壟斷,對大數據進行分級管理,將政府掌握的大數據界定為公共品,依法合規向社會開放分享;將機構掌握的涉及到公共利益的大數據界定為準公共品,持有這類大數據的機構必須在保護好個人隱私等條件下分享其數據;主要涉及到商業利益的大數據界定為非公共品,對這類大數據也要推動其在合法使用的范圍內進行交易。第三,還需要推動大數據標準化,使政府信息和不同行業之間的數據可以交互式使用,打破信息共享過程中面臨的技術壁壘。
發揮行業自律組織作用
行業自律組織可以在規范行業內部大數據的使用等方面發揮作用。首先,行業自律組織可以積極制定大數據信息采集、使用標準,探索大數據信息數據庫的安全管理標準和異議處理機制,引導規范大數據產業發展,保護信息主體的權益。其次,行業自律組織有利于推動大數據標準化。標準真實的大數據是人工智能大數據分析的基礎,行業自律組織可以積極牽頭或者配合監管機構制定大數據標準,并整合不同行業的大數據。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25