
作者 | 劉燕
來源 | AI前線
導讀:這可能是大數據行業經歷的最寒冷的一個冬天。年關將至,國人習慣于用各種圓滿的方式給即將過去的一年劃上句號,不過,這對于許多大數據行業從業者來說,似乎有些奢望。整頓、倒閉、離職... 最近數月以來,股股冷峻的氣息一直籠罩在行業上空。多次監管動作不斷提醒和鞭策著大數據公司,是時候告別野蠻生長的時代了,合規才是正途。
監管重錘落地,此前狂飆突進的大數據產業突然被按下“暫停鍵”。
自今年 9 月以來,多家大數據公司接連被查,巨變啟幕,行業“一夜入冬”。
9 月 6 日,大數據智能風控服務供應商魔蝎數據被警方調查,一位核心高管被帶走,官網至今無法正常訪問;另一家大數據公司新顏科技的 CEO 黃向前也在同一天被警方帶走調查;這天,聚信立發通知主動停止了爬蟲業務,然未能幸免于“難“,僅過了幾天后,聚信立被爆有警方進駐公司調查;9 月 11 日,知名幣圈項目公信寶運營主體被杭州警方查封;次日,有媒體報道,集奧聚合深圳分公司十余人被帶走,北京辦公室也有多人被深圳警方帶走;另有爆料稱,天翼征信的總經理、副總經理及市場人員被警察帶走。
一周之內,5 家公司被查,如此陣勢引發業內恐慌,但這可能只是剛剛開始。
緊接著,有傳言稱百融云創數據查詢受影響、個人征信數據業務被暫停,深圳分公司員工被帶走,后被官方否認。9 月 27 日,同盾科技子公司信川科技高管被帶走協助調查;10 月 21 日,51 信用卡委托外包催收公司因涉嫌尋釁滋事等罪被調查;10 月 25 日,新京報報道稱,央行發文緊急調研銀行與上述第三方數據公司合作情況,排查的合作內容主要涉及數據采集、信用欺詐、信用評分、風控建模....
有業內人士分析稱,上述公司被查與其開展的“爬蟲”業務有關,根源亦在于涉足現金貸、715 高炮、套路貸、暴力催收、“超利貸”等業務。
據 AI 前線不完全統計,此次清查波及的大數據公司至少 15 家左右。(以下根據公開資料整理,力有不逮,難免遺漏或錯誤,請見諒)
那個“2019 年,捕獲獨角獸最多的機構:紅杉、阿里、騰訊和警方”的網紅段子在引人發笑的同時,也反映出了當下大數據公司的尷尬處境。
今年 11 月以來,公安部加大了 APP 違法違規采集個人信息集中整治力度,共下架整改 100 架 APP,其中考拉海購、房天下、樊登讀書、天津銀行等知名 APP 也在列,這些 APP 多涉及無隱私協議、收集使用個人信息范圍描述不清、超范圍采集個人信息和非必要采集個人信息等情形。據悉,今年以來,公安部“凈網 2019”專項行動,已查處違法違規采集個人信息的 APP 共 683 款。
監管風暴席卷而來。大數據行業內人心惶惶,經此一擊,許多大數據公司遭受重創,大量數據接口被切斷,數據產品停售,部分公司業務部門解散、裁員,還有一些公司瀕臨倒閉。據一本財經統計,或有上萬人因此離開大數據行業。
市場已是風聲鶴唳。
一時間,人人聞“爬蟲”色變。白騎士、葫蘆數據、天機數據、立木征信、聚信立等大數據公司紛紛宣布暫停爬蟲業務,還有的公司在幾天之內火速將爬蟲業務從經營業務范圍中“抹掉”,招聘“爬蟲工程師”的公告信息也被緊急撤下,一些爬蟲程序員因為擔憂是否游走在違法邊緣,頭發又多掉了幾根....
業內有這樣一種說法,爬蟲貢獻了互聯網 50% 的流量,它對于互聯網的繁榮功不可沒。但該技術同時也因“用途”而充滿爭議。爬蟲是一項見不得“陽光”的技術,它廣泛運用,卻少有人愿意承認在使用它。因為它常常被用作非法收集信息的工具,站上數據隱私、數據安全的對立面。
“爬蟲技術本身并無對錯,但要看怎么用,用錯了肯定違法啊”,一位程序員向 AI 前線表示,“技術無罪,關鍵在于人”。
網絡爬蟲是非常普遍的一種數據挖掘技術,它是一種按照一定的規則,自動地抓取網絡信息的程序或者腳本。爬蟲技術最早主要運用在搜索引擎中,它滿足了人們的數據獲取、分析需求。早在 1995 年,為了不越“邊界”,互聯網搜索引擎與網頁持有者之間達成了一項“君子協定”— robot 協議,該協議規定了哪些信息該爬,哪些信息不該爬,20 多年來,該協議一直沿用至今。
在遵循 robot 協議的前提下使用爬蟲技術是沒有任何風險的。但往往有些“作惡者”試圖越過紅線,一些大數據公司打著“大數據分析”的名頭違規違法爬取任何網頁及訪問用戶的數據,致使“蟲災”泛濫。
現在的爬蟲似乎無所不能,只要有賬號密碼都可以爬,包括電商平臺、外賣平臺、地圖、旅行網站、共享單車、等平臺的個人信息,用戶的通訊錄、上網地址、收貨地址、聊天記錄、搜索記錄、支付記錄,甚至央行的征信報告... 總之,一切皆可爬,還可進行定制化爬取。
在互聯網金融領域,上述數據主要被濫用于借貸、風控環節,具體多用在導流獲客和暴力催收上。除了支付寶爬蟲、微信爬蟲,甚至還有同業爬蟲,同業爬蟲即爬取同行的信息。據了解,摩羯科技曾推出該款產品,其要求借貸者提供在其它平臺上的用戶名與密碼,并通過爬蟲爬來競品的貸款額度及還款記錄,這樣便相當于剽竊了同行的風控成果。
今年 3 月,號稱擁有中國最大的簡歷數據庫的巧達科技被警方一鍋端,該公司的簡歷數據庫全部是通過非法手段爬取而來,非法獲取的簡歷超過 2 億條,它將簡歷庫以 13800 元每年的價格出售
非法獲利,光是 2017 年,巧達科技憑此業務營收高達 4.11 億元。泄露、買賣、濫用,這些違規收集來的數據被肆無忌憚的曝光、出售,令用戶信息猶如在裸奔,嚴重侵犯了用戶個人隱私。
爬蟲也是一項“矛盾”的技術。爬與反爬的“斗爭”每天都在上演,力量此消彼長。
據一位資深程序員介紹,現在比較常見的反爬蟲技術手段主要有,檢測 Header 信息;設置 IP 訪問頻率,分析同一 IP 或同一設備在短時間內多次訪問同一頁面或進行相同操作;識別 UA、通過動態頁面增加爬取難度等方式。
這幾年,隨著隨著 AI 的發展,一些機器學習、canvas 指紋等智能反爬蟲技術也被運用起來。例如,騰訊云網站管家 WAF 就將 AI 檢測引擎能力,運用到了爬蟲 Bot 程序檢測的環節上,AI 引擎能夠對站點訪問流量的會話進行追蹤,通過流量畫像,匹配行為模型及行為標簽進行識別,進而識別出爬蟲 Bot 程序流量行為。
今年 5 月,被稱為“中國版 GDPR”的《數據安全管理辦法》征求意見稿發布,第 16 條規定,網絡運營者采取自動化手段訪問收集網站數據,不得妨礙網站正常運行;如自動化訪問收集流量超過網站日均流量三分之一,網站要求停止自動化訪問收集時,應當停止。
一位業內人士認為,技術只是工具,在獲取數據時需要考慮數據到底有沒有獲得授權,需要幾方授權,在拿到用戶授權的情況下,有沒有拿到網站等數據來源方的授權,這其中涉及到的權責邊界應該更明確。
隨著監管越來越嚴格,爬蟲技術的使用邊界也將更加明晰?;ヂ摼W從業者應當懷有敬畏之心,要時時注意不要觸碰邊界,畢竟,爬蟲只是技術,灰色的是“助惡者”。
整頓風波揭開了大數據灰色產業鏈的冰山一角,也將大數據行業高光背后的暗影一并曝在了陽光下。
伴隨著互聯網 + 迅速成為潮流,以及深度學習推動下的第三次人工智能熱潮,大數據技術備受追捧,”得數據者得天下“是一度被風口裹挾著的大數據產業的繁榮寫照。
金融大數據是大數據產業應用最廣的領域之一。2013 年前后,互聯網金融開啟了發展元年,一大批 P2P、第三方支付等互金平臺涌現。P2P 平臺一騎絕塵,但缺乏數據能力、風控能力差是其發展掣肘之一,如此一來,就為第三方數據公司提供了誕生的契機。
同盾科技便是彼時的入局者之一。2013 年,時任阿里巴巴集團安全部技術總監的蔣韜還曾因離職創辦同盾科技在業內引起一番不小的轟動。成立當年,同盾科技便拿到了來自 IDG 資本和華創資本的 A 輪融資。AI 前線查詢天眼查顯示,同盾科技自成立以來已獲 6 輪融資,除 2018 年外,幾乎每年都有融資,最近的一次是在今年 4 月完成的超 1 億美元 D 輪融資,估值近 20 億美元。
有數據統計,2013 年到 2015 年,中國市場上 P2P 網貸平臺數量從 800 家增長至 2595 家,累計交易規模超過 11.4 萬億。另據億歐智庫《2018 中國智能風控研究報告》顯示,截至去年年底,573 家金融風控企業共獲得投資金額超過 1000 億元,其中三成企業獲得三次及以上的投資。這些企業中,有 69.8% 成立于 2013 年 -2017 年。
最近兩年,金融科技成為 P2P 熱潮落幕后新的創投風口,再次助推大數據產業發展走向新的高潮,同盾科技、51 信用卡等大數據公司也躍升為明星獨角獸。
在草莽生長的早期階段,不少大數據公司趁機鉆了法律不完善的空子,其數據業務游走在道德和法律邊緣。自 2015 年以來的多次監管動作也無不為從業機構敲響警鐘 — 要合規化使用數據。
在很大程度上,這些 P2P 網貸平臺與第三方數據公司是“相互成就”的關系。而一榮俱榮,一損俱損,當監管“緊箍咒”收緊之后,大數據產業也迎來了洗牌階段?!澳切┠軌驖M足政策及市場客戶需求的團隊,肯定會越做越好,而那些無法真正滿足需求的,將面臨淘汰”,一位大數據行業從業者向 AI 前線表示。
某頭部互聯網消費金融平臺的大數據負責人表示,這次的監管行動從產品— 爬蟲技術—相關的數據方— 網貸平臺,可以說是一條鏈式的查處。盡管有些嚴格,但如果不經過整治, 行業內存在的“缺乏明確規則”的問題就很難作出改變。一些大數據公司“單純”的認為自己只是給甲方做數據服務,即便出了問題,也事不關己。但現在來看,這些權責是需要進一步明確的。
漸入寒冬深處,結局也格外凄冷。
一些重度依賴爬蟲業務的大數據公司輕則業務停滯,重則或將因此倒下,即便能勉強活下來的恐怕也要被迫轉型。另一方面,一些 AI 公司、金融科技公司也會受到不同程度的影響,沒有了大量數據持續“投喂”,模型該如何迭代優化?
“有時候市場表面上的虛假繁榮是難以持續的,泡沫總有一天要被戳破。這次監管風暴對小機構來說,以后可能更難做了,對一些大機構會有一定影響,但可能影響沒那么大,優勝劣汰會加劇。大浪淘沙后留下來的是那些對用戶來說定價更低、體驗更好的產品,而淘汰掉的絕大部分是那些不合規的企業。因此,從長期來看,通過強監管之后,大數據行業會更合規,總體來說對用戶會更友好”,上述大數據負責人繼續說道。
一位第三方數據公司的高管對形勢感到樂觀,她認為,這次監管風暴對行業的健康發展是有利的,監管介入、政策出臺,這都在引導行業往好的方向發展,數據采標清洗質檢等流程會逐漸趨向標準化、合規化、安全化,進而提高大數據行業的進入門檻,并倒逼從業者提升服務質量。
一半是海水,一半是火焰,值得一提的是,一些具有國企背景的大數據公司逆勢成為行業里的“香餑餑”。那些不合規的企業終將湮沒不斷滾滾向前的歷史洪流中,未來的大數據產業屬于合規的參與者。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25