
你用Python做過什么有趣的數據挖掘項目?
大概一年多以前,和幾個小伙伴均認同一個趨勢:覺得通過技術手段獲取網上越來越豐富的數據,并基于這些數據做分析及可視化,必能產生有價值的結果,幫助大家改善生活。(被叫爛了,所以用低調的方式來解釋我們的初心)
第一步:開工,為基金服務
恰巧和幾個基金的朋友(包括對沖基金和 VC/PE 基金)聊到這個趨勢,他們非常認同這個觀點并愿意付費,認為可以用這種實時且定量的方式來跟蹤一些上市公司或者私有公司旗下的產品,來確定誰是有價值的投資目標。于是立馬獲得訂單并促使我們開干,因為考慮到 Python 靈活及各類爬蟲庫的優勢,最終選用 Python 來做數據獲取的主體架構;也有新潮的小伙伴使用 Go,同時用 Go 搭建了一個很酷的框架來制造分布式的智能爬蟲,應對各種反爬策略。抓取數據主要來自于如下網站:
■各應用商店:獲取 App 的下載量及評論
■大眾點評及美團網:餐飲及各類線下門店消費及評價情況
■汽車之家及易車:汽車的相關數據
■58 及搜房;房屋租售數據
■新浪 : 的各種發言及輿論
■財經數據:雪球及各類財經網站
■宏觀數據網站:天氣、12306 火車、機票網站
最初的產品純粹是為基金服務。下圖是在各個維度找出最有價值的 App,各種量級范圍內在 30 天 /7 天增長最快及評價最好榜單。(順便吹一下牛,我們這個榜單很早就發現小紅書 App 的快速增長趨勢以及在年輕人中的極佳口碑)
下圖是對某個 App 的下載量跟蹤,幫著基金做盡職調查。
下圖是某上市公司的門店變化情況,幫著基金跟蹤 TA 的增長情況。
下圖是國內各個機場的實時流量,幫著基金跟蹤國內出行的實時情況,或許能從一個側面反映經濟是否正在走入下行通道。
第二步:擴展思路,開源和分享
為 基金服務,雖然給錢爽快,但是也讓方向越走越窄。首先,基金希望信息是獨享的和封閉的,投資就是投資人之間的零和博弈,公開的信息就迅速會一錢不值,基金 最在乎的就是信息的獨享及提前量,所以各個基金都希望我們呈現的數據及分析結果能夠獨家。這樣迅速讓我們的方向收窄以及工作的趣味性降低,其次,畢竟對于 基金而言,能分析的投資對象及方向是非常有限的。而且現階段,大部分對沖基金里面的分析員的能力其實很弱:這些分析員里面能用 VBA 或者能在 Excel 里面使用矩陣及向量乘法的人幾乎可以驚為天人;能寫 offset 函數的人,就應該直接提拔了;大部分人停留在一個個數網頁找數據的階段。所以和他們起來十分費勁,除了提供一些粗暴的數據,并不能產生太有價值的結果。
在 這段迷茫期,本來充滿激情的數據分析工作,讓大家味如爵蠟,感覺自己變成了一個外包公司。不過互聯網大法好,做技術做互聯網的核心思路是分享和開源,我們 很快回歸到這一點。并且這一點最終讓我們做出了改變。有些分析雖然基金不買單,但是對一般的老百姓、對一般的媒體是有價值的,于是我們試著把這些數據分析 及結果寫出來,發布到知乎上供大家參考。
知乎是個好平臺,堅持創作好內容遲早就會被發掘出來。很快一篇用數據分析黃燜雞米飯為什么火遍全國的回答(黃燜雞米飯是怎么火起來的? - 何明科的回答)被知乎日報采用了。
這次被 “寵幸” 讓團隊興奮不已,從而堅定了決心,徹底調整了整個思路,回到初心:不以解決基金關注的問題為核心,而以解決用戶最關注的生活問題為核心。堅持以數據說話的套路,創作了許多點贊很多的文章并多次被知乎日報采用,并專注在如下的領域:
■汽車。比如:一年當中買車的最佳時間為何時? - 何明科的回答,什么樣的車可以被稱為神車? - 何明科的回答
■餐飲。比如:為什么麥當勞和肯德基都開始注重現磨咖啡的推廣,其優勢與星巴克等傳統咖啡行業相比在哪里? - 何明科的回答
■消費品。比如:口罩(http://zhuanlan.zhihu.com/hemingke/20391296),尿不濕(http://zhuanlan.zhihu.com/hemingke/20385894)
■招聘。比如:互聯網人士年底怎么找工作(http://zhuanlan.zhihu.com/hemingke/20450600)
■房地產,這個虐心的行業。比如:深圳的房地產走勢(http://zhuanlan.zhihu.com/hemingke/20135185)
■投融資。比如:用 Python 抓取投資條款的數據并做 NLP 以及數據分析:http://zhuanlan.zhihu.com/hemingke/20514731
還共享了一些和屌絲青年生活最相關的分析及數據。下圖是深圳市早晨高峰時段某類人群出行的熱點圖,通過熱點分析,試圖找出這類人群的居住和上班的聚集區。
下圖反映了在各時間段在深圳科技園附近下車的人群密度。
寫這些報告,團隊沒有掙到一分錢,但是整個成就感和滿意度大大上升。同時,在 Python 及各種技術上的積累也提高頗多,數據量級的積累也越發豐富,數據相關的各項技術也在不斷加強。同時,順勢擴大了數據源:京東、淘寶等數據也納入囊中。
第三步:擴展客戶
在知乎上寫這些報告,除了收獲知名度,還收獲意外之喜,一些知名品牌的消費品公司、汽車公司及互聯網公司,主動找我們做一些數據抓取及分析。整個團隊沒有一個 BD,也從來不請客戶吃飯。于是我們順勢做了如下的網站以及一個成熟的 Dashboard 框架(開發數據監控的 Dashboard 超有效率),目前主要監控和分析母嬰、白酒、汽車及房地產四大行業,都是一些愿意花錢進行深度了解用戶以及行業趨勢的公司。收入自動上門,很開心!
下圖是抓取汽車之家的數據,做出 BBA(奔馳寶馬奧迪)這三大豪華品牌的交叉關注度,幫助品牌及 4A 公司了解他們用戶的忠誠度以及品牌之間遷移的難度。
下圖是抓取新浪微博的數據,分析廣東白酒的消費場所。
下圖是抓取新浪微博的數據,分析廣東白酒和各類食品的相關度。
除 去為以上的品牌合作,我們數據風的文章也越來越受歡迎,曾經一周上了四次知乎日報。另外也有越來越多的知名媒體及出版社找到我們,雖然告知他們我們不寫軟 文而只堅持按照數據結果來發表文章,他們依然表示歡迎。原來非五毛獨立立場的數據風也能被媒體喜歡。自此,我們不斷成為易車首頁經常推薦的專欄。
第四步:嘗試功能化平臺化產品
降低與高大上基金的合作強度,轉而與更接地氣的各類品牌合作,讓我們團隊更貼近客戶、更貼近真實需求。于是基于這些需求,我們開始嘗試將之前在 方面的積累給產品化,特別是能做出一些平臺級的產品,于是我們開發出兩款產品:第一款:選址應用選址是現在許多公司頭疼的難題,以前完全是拍腦袋。因此我們開發出這樣一套工具,幫助公司能夠更理性更多維度得選址。下圖,我們抓取多個數據源并完成拼接,根據 的快遞地址,勾畫出某時尚品牌用戶的住址,幫助其選址在北京開門店。
下圖,我們抓取多個數據源并完成拼接,根據大型超市及便利店與某類型餐館在廣州地區的重合情況,幫助某飲料品牌選定最應該進入的零售店面。
第二款:數據可視化我們在工作中也深刻覺得以前制作圖表和展示數據的方式太 low、太繁瑣,我們希望去改變這個現狀,于是開發了一套基于 Web 來制作圖表的工具文圖。遠有 Excel/Powerpoint 對標,近有 Tableau 對標。下圖是文圖豐富的案例庫及模板庫。
下圖是使用界面及圖表類型。
下一步的工作:與微信的整合,一鍵生成適合于微信傳播的截圖以及公眾號格式文章,便于在社交媒體的傳播收集更多數據,目前已經覆蓋 40 多家網站,涵蓋衣食住行等多個方面將數據 SaaS 化和開源,便于各類公司及用戶使用。(咨詢投行等 Professional Service 人士一定會懂的,你們每年不知道要重復多少遍更新各類宏觀微觀的經濟和行業數據,現在只需要調用 KPI)最后,希望有一天它能部分替代已經在江湖上混跡二三十年的 PowerPoint 及 Excel。
第五步:……
不可知的未來才是最有趣的。借用并篡改我們投資人的一句話:technology is fun, data is cool and science is sexy。初心未變,希望用數據用技術幫助更多的人生活得更美好。
從文中,大家可以看到一個 小團隊艱辛的摸索過程。從一開始的一個想法,希望通過技術和科學改變世界,到碰巧能賺錢,到因為賺錢快而迷失了方向,到最后回歸初心,做自己最喜歡的事情。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25