
一場變美盛宴后的大數據故事
DT時代人們想變美的心愿可以更快的被實現,可以實現的途徑非常多,美顏相機、美妝教程、美妝直播。。。。。。數不勝數的變美途徑可以讓人們越來越美。有這么一個平臺,讓我們看看,他們是怎樣利用數據,讓大家變得更美。
說到的這家公司就是小紅唇,想具體了解小紅唇可以去官網了解,在這里要講的是,小紅唇是怎樣利用數據,為千千萬萬想要變美的人們提供更加貼心的服務。
小紅唇的數據之路要從他們的一個個性化功能需求提起。
隨著小紅唇業務的發展,用戶量和內容量不斷增加,迫切需要推出個性化功能,增加用戶的使用時長和用戶粘度。對于一個沒有大數據/機器學習經驗和技術儲備,并且開發人員有限的年輕團隊,在業務快速發展的情況下,如何在非常有限的開發資源和不影響正常業務開發的前提下,快速建立起自己的推薦系統,成為擺在小紅唇技術團隊面前一個不小的挑戰。這便是小紅唇和阿里云大數據數加平臺的第一次牽手預熱。
小紅唇的技術團隊在收到產品關于個性化推薦的需求后,開始了技術調研,其中包括了主流的開源技術棧和阿里云在2016年年初發布的數加平臺。兩位毫無大數據技術背景和經驗的工程師并行化工作,都希望能快速切入到大數據的核心并快速產出。于是小紅唇和大數據的第一次邂逅就這樣不期的開始了,如同相親,在眾多的對象中,怎么找到合適的那一位一定是故事里精彩的部分。
在這第一次邂逅的比賽中,調研阿里云數加平臺的工程師只用了一天時間,就利用阿里云數加平臺的推薦引擎搭建起了推薦系統,該系統使用了業界流行的協同過濾算法,基于最新的用戶對短視頻的行為,計算出推薦列表。而另一位工程師還在熟悉陌生的大數據技術棧和編程語言。這第一次與阿里云大數據平臺的邂逅堪稱完美,在對僅用一天時間就搭建起來的推薦系統稍作修改,并設計了如何嵌入到自身業務系統中后,個性化推薦就和其他普通業務需求一樣,在產品提出需求后的第一個發版中就快速上線了。整個推薦系統中數據采集,數據清洗,推薦計算以及結果獲取如下圖1所示。
在這個架構中,我們選擇了非常流行的開源 ETL 工具來對用戶行為,物品,用戶等推薦系統依賴的數據進行清洗,并按照推薦引擎要求的格式同步到大數據計算服務中。由持續集成工具 Jenkins 觸發數據的清洗和上傳到數加MaxCompute(原名ODPS)中。推薦系統從大數據計算服務中獲取數據并進行離線計算,計算的結果存儲于阿里云的表格存儲中,用于在線計算的結果二次處理和返回。業務服務器通過推薦系統暴露的推薦接口獲取對某個用戶的推薦列表。
我們是數加平臺推薦引擎的第一批內測用戶,得到了數加平臺的大力的支持,使得整個推薦系統的接入都非常的順利,也解答了很多關于大數據和推薦系統的小白問題。小紅唇的團隊在和數加平臺的推薦引擎團隊合作中快速的學習了大數據和推薦系統的相關知識,可以說是數加的推薦引擎為小紅唇技術團隊開啟了大數據這扇神秘的大門。
這個架構簡單清晰,但也有著很多不完美的地方,特別在數據的采集和清洗方面,還顯得比較初級和脆弱。首先用戶行為數據完全依賴了在APP中的埋點,而埋點的最初的設計也存在了一些問題導致數據缺失。另外,推薦引擎沒有一個很好的觸發機制,通過外部的持續集成工具 Jenkins 的觸發,在初期有時會遇到推薦引擎系統不穩定的問題,導致離線計算失敗,用戶的推薦列表沒有得到及時的更新。
隨著推薦系統的上線,小紅唇也開啟了大數據的探索之旅。得益于數加平臺完整的大數據計算和應用設計,小紅唇的技術團隊在熟悉和上線推薦系統的過程中,也逐漸收獲了大數據的核心理念,對大數據完整技術棧也有了更深的認識。
2016年是小紅唇快速發展的一年,隨著業務的不斷增長,各種產品、市場運營活動的設計和決策也需要有各種各樣的數據作為支撐了。于是在快速上線了推薦系統之后,擺在小紅唇面前的另一個大數據挑戰就是搭建自己的數據倉庫。
在推薦系統的建設中,小紅唇技術團隊也意識到阿里云數加平臺在普惠大數據理念上的前瞻性,整個數加平臺產品線的布局對于像小紅唇這樣的初創公司,在大數據實踐上是容易實現彎道超車的。
數據倉庫的重要性毋庸置疑,在云計算和大數據時代,數據倉庫的建設也在不斷的進化中。開源生態中基于hadoop/Hive搭建數據倉庫的成功案例不勝枚舉。數加平臺基于MaxCompute的強大計算能力,也正是對這一理念的完美詮釋。于是小紅唇技術團隊也在橫向對比之后,毅然決定在數加平臺上進行數據倉庫的建設。
小紅唇基于數加平臺的數據倉庫搭建分成了兩個階段。第一階段由于主要的業務服務器并沒有部署在阿里云上,使得數據的采集和清洗變得比較麻煩,跨網的數據傳輸和備份,各種周期任務比較復雜。如圖2所示。
在第一階段的數倉建設中我們已經在計劃業務服務器向阿里云搬遷了,所以把數據需求最緊要的數據做了向MaxCompute的同步(同步方式也有用DataX和MaxCompute的 tunnel),在數據開發IDE中對數據進行ETL和OLAP,最后利用Quick BI產出BI報表。另外還有一些數據會應用到業務系統中,我們通過 RDS 進行存儲。
在數據倉庫第一階段的建設和使用中,我們已經在積極的籌備業務系統向阿里云的搬遷。隨著搬遷的完成,我們也迅速開始了第二階段的改造。同時更多的數加產品也在不斷的內測和發布中,借助于新的產品和上下游的不斷打通,我們的架構也進行了演進,如圖3所示。
第二階段與第一階段主要的區別就在于數據采集和清洗部分是否直接納入在數加平臺內部,而對于數據倉庫的建設而言,這兩個環節又是非常重要的部分。在第二階段中,我們的業務數據庫已經在阿里云的RDS上了,通過DataIDE就可以方便的把需要的數據同步到大數據開發平臺中,這也是小紅唇目前的架構。在把數據采集,數據清洗,數據開發和數據應用形成完整閉環后,小紅唇在大數據領域的各種嘗試和產出得到了巨大的發展:
首先,我們基于數據倉庫的方法論在數加平臺上建設的數據倉庫,通過簡單的命名規則就構建起各種層級和維度的數據,依賴MaxCompute的強大計算能力,和簡單的SQL處理語言,小紅唇技術團隊只有一名數據工程師就能快速生產出各種數據,以支撐各種BI報表。
第二,流計算的引入,提高了小紅唇業務的實時表達能力而又沒有增大開發成本。對某些業務還起到了異步,解耦和降級的作用,大大降低了對線上已有的復雜業務的影響,因而降低了開發和維護成本。
第三,與機器學習算法平臺PAI的對接也幫助了小紅唇技術團隊在機器學習等高難度領域大數據應用的探索,比如我們嘗試了訓練回歸模型對用戶上傳視頻的打分,還有對文本的處理聚類等。
第四,基于統一的數據存儲和計算,我們通過對用戶的特征抽取,開發了自己的一套基于內容的推薦模型(通過用戶對內容的行為,在MaxCompute中通過SQL/MR的計算生成用戶特征,通過DataX存儲在 OTS 中,在實時的計算中獲取并對用戶進行基于興趣的內容推薦),和阿里云推薦引擎一起,為用戶提供個性化內容,也取得了不錯的效果。同時也在智能搜索方面做了初步的嘗試。
當然,小紅唇在數加平臺上的大數據實踐也并非一帆風順,期間也有對于產品理解和數加平臺自身的一些問題,比如初期大量的數據搬運和同步工作掣肘了業務的快速開發,MaxCompute提供的算子不太豐富,需要自行開發udf(MaxCompute2.0將會有巨大的改進,同時更多的上下游產品被打通),初期數加平臺和其它上下游產品打通不夠等等。但是數加平臺強大的計算能力和完整的產品布局對小紅唇的業務擴展和決策支撐起到了關鍵的作用。
技術的不斷進化和升級需要匹配業務的水平和規模,對于小紅唇這樣的初創企業,背靠阿里云強大的平臺,能夠快速應用新技術并得到價值的轉化,實現彎道超車,并不斷完善自身技術架構和能力,在不斷的創新中得到發展。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24