
微博商業數據挖掘方法
本文主要介紹微博商業數據挖掘的體系及方法,但并不注重模型和算法這些細節,而是闡述數據如何貼近、支持和引導業務,如何建立合理的評價體系,以及如何圍繞這兩點建設數據挖掘架構。
業務及產品
微博廣告生態的復雜程度在業界數一數二。由于微博本身的開放性,微博廣告客戶天生就有如下多樣性:
類型
電商類型:投放方式大多比較傳統,投放目標主要是注冊或購買;
App類型:投放目標主要是App下載或者用戶喚醒;
O2O:投放目標包括電話、到店、銷售線索等;
媒體/品牌類:投放目標主要是帶粉,擴大影響力和傳播范圍。
投放方式
不同客戶對微博廣告產品這項營銷工具的理解和應用程度相去甚遠,有一部分客戶已經能熟練使用不同的自助廣告產品,設置不同的創意模板,撰寫有針對性的創意來達到不同的營銷目的,甚至經常使用時間和空間上的組合營銷形式,這些客戶通常效果較好,粘性也很強;但也有一部分客戶還停留在傳統聯盟廣告的時代,投放方式比較單一,對創意的生成欠缺足夠思考,效果也不盡人意??蛻籼荻裙餐瑯嫵闪宋⒉V告生態,最直接的后果就是——優秀的廣告與毫無吸引力的廣告并存。
定向要求
由于微博的強賬號屬性以及由此帶來的用戶畫像挖掘方面的潛力,客戶對廣告定向工具的要求非常精細。主要包括如下幾類定向條件:
基礎定向:用戶的年齡,性別,城市,手機型號等;
興趣定向:用戶感興趣的實體類目,甚至興趣關鍵詞;
關系定向:指定大號或競品的粉絲投放;
狀態定向:指定處于某一人生狀態的用戶,比如車房、婚戀階段;
情景定向:一類粒度非常細的實時觸發類投放,這類需求經常來自于SCRM(社交客戶關系管理)之類的業務,譬如客戶可以指定投放給跟他的某條微博有互動的所有用戶,或是正在首都機場的所有用戶
圖1 廣告客戶對微博廣告的細分需求
微博推出了多種計算廣告產品來滿足多樣化需求,并且還在持續迭代和改進。每一種廣告產品專門抽象一大類投放需求,有不同的廣告模板、計費方式、定向條件、投放平臺以及專業人員配備。這是近兩年微博商業化順暢進行的主因。
圖2 主要微博廣告產品矩陣
商業數據體系
廣告投放業務對數據的需求主要是流量細分及描述反饋,因此微博商業數據挖掘體系也是以流量細分,即通常說的以用戶畫像為核心來建設。周邊輔助的數據挖掘模塊主要包括:
內容挖掘:微博用戶的一切屬性都由他們的行為及其客體來描述,而這些用戶行為(包括轉發、評論、關注、贊、點擊短鏈/視頻)和客體(微博、廣告主、大號)構成了微博產品的絕大部分,因此內容挖掘一直都是商業數據挖掘的重點工作。
關系挖掘:包括所有用戶跟客體對象之間聯系方式的挖掘。關系挖掘的難點主要是發現在每一個業務場景下,不同關系的產生對于廣告效果的意義及影響。
App數據挖掘:微博作為開放平臺接入了相當數量的第三方App,用戶使用這些App的行為記錄能幫助我們獲取他們作為自然人的信息,用于判斷用戶在實際生活中的某些狀態。另外,用戶的App喜好能夠直接幫助App類廣告進行投放。
LBS數據挖掘:微博的簽到數據能幫助判斷用戶的某些狀態,同時也能滿足部分客戶在投放上的某些需求,比如O2O類的客戶會更加關心附近的本地用戶。
在長期業務實踐中,我們最終將用戶畫像體系分為如下3個部分:
基礎數據:描述用戶的一些基本信息,包括年齡、性別、常駐城市、手機型號、活躍度等。大部分信息可以直接獲取或簡單統計獲取,有時需要對數據的準確性加以算法修正;
興趣數據:主要描述“用戶對什么感興趣”;
情景數據:主要描述“用戶是什么人”。
圖3 微博商業數據體系
用戶數據的計算有一套完整的高復用低耦合的數據模塊體系來支撐,最終成形的數據挖掘架構如圖4所示。
圖4 微博商業數據挖掘架構
評價體系
四層評價
微博商業數據挖掘工作第一大重點是評價體系的建設。據我們了解,這是很多數據挖掘部門忽視的地方。我們建立了一個四層級的評價體系:
1.效果級:挖掘的結果可以直接用線上廣告投放效果提升來評價。這是最強的一級評價。
示例:目前為止,只有興趣挖掘能夠使用這一級評價。
2.Ground Truth級:Ground Truth有一個規模足夠的數據集來當作標注集和交叉驗證的測試集,可以使用監督學習算法來做分類。這個Ground Truth數據集被當作最終可信的評估標準,也用于交叉驗證。
示例:用戶性別。微博所有用戶都有自己填寫的性別屬性,但并非100%可信。但微博有很多實名認證的用戶,這部分用戶的性別是可信的,因此我們以這些用戶作為標注,來修正那些沒有實名認證的用戶性別數據。
3.Case級:不具備統計意義的標準數據集,即無法獲得標注數據,但對于分類的結果,少部分能夠通過人工到微博用戶的頁面上去判斷是否準確。這種情況只能通過規則來挖掘。
示例:常住城市。挖掘用戶常住城市只能使用用戶的IBS信息及IP地址,其余的特征對這個標簽的貢獻度都極其有限,因此只能使用規則來判定,然后對規則分類的結果抽樣后,人工去用戶微博頁面上檢驗。只有大約5%的用戶能夠通過微博頁面(博文、照片等信息)來人工判斷他的常住城市。
4.Logic級:當以上三個級別的評價條件都不具備,只能評價邏輯完備性。即挖掘規則邏輯是否是當前情況下最合理的。
示例:差旅狀態。用戶當前位置不在常駐城市即判定為差旅狀態,不做任何驗證(但不做任何驗證的情況極少,通常Case級和Logic級的評價很難完全分開,通常是偏Case或是偏Logic,總要同時看邏輯完備性和Case檢驗)。
圖5 數據挖掘四層評價
評價體系建設
對于評價有如下原則:
任何一項數據挖掘工作都必須在開展之前確定具體評價方法,并且讓這項工作的相關人員(包括PM)都知曉并認可這種評價方法。
盡可能把一項數據挖掘工作的評價方法往上一個層級推。
這是評價體系建設的重點,意味著不僅只有算法和模型工作可以不斷迭代,評價方法本身也可以迭代。這項工作的重要性可能比模型的研發還要重要,如果大部分工作的評價只能停留在Case級甚至Logic級的話,整個數據挖掘體系很快就會無以為繼,變得沒有意義,因為這種工作的迭代余地很小,且沒有方向。
我們花大量的時間解決Ground Truth數據,方法一般有兩種:
引入第三方數據。這是一項長期進行的重要工作。任何互聯網平臺在數據上都有自己的長處和短板,微博的短板是缺少足夠細分垂直領域的用戶數據。因此一直致力于引入各種用戶現世數據和垂直領域數據。
在現有數據的基礎上用規則過濾正樣本。通過規則找到一個召回率較低但準確率很高的集合作為正樣本,就可以把評價推高到Ground Truth級。
除了興趣標簽外,能直接用效果來評價的數據并不多,而且業務層面的假設太多,我們在實踐中僅用來參考。例如性別數據,對某些已知的強性別選擇的廣告行業(例如美妝),可以通過線上效果來間接判定數據準確率,但這種不夠直接的方法很少采用,因為中間因素太多,自洽性不強。
在這個評價體系下,數據工程師并不對興趣標簽之外挖掘結果的廣告效果負責。如果用戶使用了這些定向工具有好的效果,那很好,如果效果不好,數據工程師是不會就這個標簽本身來進行效果優化的,因為這根本不是評價方向,這類標簽在業務中的位置不處于效果的反饋環上。工程師只對興趣標簽做效果優化。
除興趣標簽之外的數據挖掘流程如圖6。
圖6 數據挖掘方法流程
興趣挖掘
興趣挖掘并沒有Ground Truth可以驗證,因為興趣本身就是一個非客觀、難以界定的描述。在微博商業體系內,興趣是如下定義的:
用戶如果對某類別的事物感興趣:用戶在指定廣告投放場景里對這類廣告的預估轉化概率/點擊率較高。
如果不能指定具體廣告投放場景,興趣的意思是:用戶對這類內容的歷史關注/互動率較高。
在前一種情況下,興趣標簽是一個可預估的最優化問題,是CTR/CVR預估體系的一部分,可以做出不同粒度的興趣標簽來,而且往往不止一套。如果有N種計算廣告產品,每種廣告產品可以有M種預定義的轉化行為,線上的興趣標簽理論上最多可以有N x M套。標簽數據的評價方式直接用線上效果評價,可以持續迭代。
在后一種情況下,興趣標簽只是一個解釋性問題,在評價體系里處于最底層,實際上無法迭代。但這種興趣標簽的存在是必要的,因為并不是所有的應用場景都是廣告投放,而且用特定產品的廣告數據訓練出的模型會比較偏,但某些場景(比如DMP的流量透視功能)需要一套不直接服務于投放效果、能完整描述用戶群體的標簽。因此我們根據關注和互動關系用簡單統計的方法生成一版通用的興趣標簽。它只要求可解釋性,所以規則越簡單越好。一般禁止使用層次分析法,因為它對任何一層的評價都沒有幫助。
內容興趣
圖7 微博內容興趣標簽計算
內容興趣標簽提供給除應用家之外的廣告產品做定向工具。內容興趣的做法如下:
劃定一個微博上提供內容的大號列表,這個列表中用戶貢獻的原創內容能覆蓋絕大多數被消費(閱讀、互動)的原創內容。列表包括所有廣告主。我們稱這個列表為廣義客戶列表。
挖掘這些大號所提供內容的領域關鍵詞,主要是相關性計算。
對這些大號進行聚類,然后人工整理聚類的結果,形成一個二級內容分類樹。這個分類及領域關鍵詞被稱為大號的能力標簽。微博上不生產的內容(比如工農業行業信息)對微博廣告產品來說是無意義的,因此沒有采用人工預先給出分類體系的方法。
用機器學習模型(FM或LR)來預估每個廣告產品中,用戶對每一類廣告產生目標行為的概率,如果高于某個閾值,即看做該用戶對該類別是有興趣的。這是用于具體廣告產品定向的做法。
在廣告運營工作中我們經常針對某一個廣告主做專屬定向包,方法類似,只是特征是在用戶-廣告主這個粒度的。
如果需要不依賴具體廣告產品的通用數據,直接統計每個用戶對大號的關注關系,如果用戶對某一類別的關注高于平均值,即看做對該類別是有興趣的。
App興趣
App興趣標簽是為應用家產品專門建立的。這項工作能夠比較完整地表現微博商業數據挖掘中解決問題的思路。
App興趣標簽是應用家CVR預估體系的一部分。CVR預估體系被建設成一個漏斗式的,特征的粒度從粗到細。App興趣標簽是用戶-App類別粒度的,模型中較多使用交叉特征,這一層的計算結果被包裝成定向工具給客戶使用;中間層的粒度是用戶-App,作為一個隱式定向存在;最后一層則是線上的CVR預估模型,特征粒度是用戶-廣告-上下文,計算結果直接參與Rank。
在做CVR預估之前有兩個數據問題。首先,應用家的功能支持廣告客戶指定效果目標行為:下載(推動沒有安裝這個App的用戶下載)和喚醒(推動安裝了這個App的用戶重新進入該App成為當天日活)。因此至少需要知道每個用戶是否安裝了這些App,才能比較精準地投放。
解決這個問題的方法是:
以微博已有的數據為基礎,引入第三方數據,獲取盡可能多的用戶安裝App列表。
以1作為標注數據,預估那些1沒有覆蓋到的用戶App安裝情況。
另一個問題是,要做CVR預估就必須獲取下載數據作為訓練標注。但微博無法跟蹤從廣告點擊跳轉出去的用戶后續行為(尤其是iOS環境下)。
解決的方法是:
跟第三方監控公司合作,獲取部分客戶App后續下載數據。
以1作為標注數據,預估那些1沒有覆蓋到的客戶App后續下載情況。
這兩個問題的解決方法如出一轍,都是先去找數據,找不到的部分再預估。預估的結果可以結合交叉驗證,直接線上評價。
應用家數據挖掘體系如圖8。
圖8 App興趣標簽計算
情景挖掘
情景挖掘來源于一系列客戶需求。在業務溝通中,經常接到客戶類似如下的需求:
經常出入高級酒店和機場的用戶;
寶馬車主;
大學生;
在微博參與了某個指定話題(比如“#Angelababy大婚#”)的用戶。
這些需求看似零亂,實際上都屬于不同于“興趣”的另一類問題,它需要知道“用戶是什么人”。因此我們建設了情景挖掘體系來整合響應這類需求的工作。
圖9 情景挖掘體系
情景引擎
最早建立情景引擎是為了滿足某些DSP給大客戶做SCRM的需求??蛻粜枰\營社交網絡上的粉絲和潛在客戶,需要一些工具把消息分發給這些用戶,比如:
把廣告投放給微博里提及了“寶馬”的用戶;
發一條活動微博,然后把廣告投放給跟這條微博互動的用戶;
把廣告投放給剛剛關注奔馳的用戶。
針對這類需求我們實現了一個情景引擎,接入微博上所有主要用戶行為數據,按行為類別(謂語行為)分類存儲,抽取出其中的對象(賓語個體),一個情景就定義為謂語+賓語,經過一系列中間計算后,形成“用戶-情景列表”索引格式的數據,實時更新到線上緩存供定向服務使用。
情景引擎用Storm接入實時數據,計算后分鐘級別更新到線上緩存,大部分是工程問題。里面涉及到算法的地方主要有兩處:
數據清洗。接入的線上數據有垃圾流量,比如在話題區刷廣告的。需要建一個反垃圾模塊。
關系擴展。計算出來的情景-用戶列表通常會有極強的長尾分布,即頭部的情景占據海量用戶,但我們在廣告投放時希望大部分情景都能有相當數量的覆蓋用戶。因此會丟棄掉大部分長尾數據,對分布的中間部分做基于相似性或相關性的算法擴充。
中長期情景挖掘
基于情景引擎長期積累的數據,我們在上層建立了中長期情景標簽體系(對外稱為人生狀態標簽)。
人生狀態標簽體系一共有20多個標簽,涵蓋用戶的求學、旅行、車房、職業、婚戀、育兒等狀態。這些標簽都是各自獨立挖掘,挖掘的算法完全由其評價方法而定,并沒有通用方法,而評價方法完全取決于源數據情況。下面給出幾個例子:
大學生標簽:
根據發微博的內容過濾出一個準確率比較高的大學生用戶集合(大學生在某些場景下發的微博會帶有區分度非常高的關鍵詞)。然后對16-25歲之間的用戶建模,特征主要包括關注特征、App使用特征,IBS特征。用過濾的用戶集合為正樣本,隨機取一個負樣本集合進行訓練。對所有16-25歲之間但不在樣本集合中的用戶進行預測,取一個預定的數量。
差旅標簽:
當前用戶的位置與用戶常駐城市不符,即看做用戶在差旅狀態。
豪車車主:
根據用戶行業/頭銜、影響力、社交關系等信息制定過濾策略。到用戶微博頁上人工驗證。
用預估的方法會有一個問題,即很難保證做出來的正樣本訓練集是無偏的。一般來說,能夠滿足某種過濾條件的數據總是有偏的,通常更偏向于更好更活躍的用戶。但在后期評估中發現,只要注意在模型里盡量不使用規則里的那些特征,關系并不大。另外,訓練集偏向更好的用戶也不算大問題,因為計算結果本來就要求優先保證更好的用戶,那些不活躍的、特征缺失嚴重的用戶對業務的影響相對不重要一些。
人生狀態標簽跟興趣標簽看上去有類似的地方,但從評價方式和應用出發點來看完全不同。例如,“用戶對嬰兒用品感興趣”跟“用戶是嬰兒父母”是兩回事。從廣告投放的角度出發,我們從來不把這兩者混為一談,我們對前者的效果負責,但不對后者的效果負責。
另外,我們認為人生狀態標簽這樣的挖掘工作并非未來的方向,而是代表著一種傳統廣告業的思路。過多地依賴這種人能閱讀和理解的,但卻高度離散化的因素并非計算廣告的思維方式。但這不意味著這樣的工作沒有意義,在新媒體廣告領域,它在相當長的時期內都是必須存在的。
小結
在長期實踐中,我們總結出數據挖掘工作中最重要的兩點是:緊貼業務,確定評價。不能做到這兩點的數據挖掘團隊通常會工作得比較困難,做很多無用功。
緊貼業務意味著數據團隊要從業務KPI中拆分出自己能貢獻的一部分,這一部分能直接評價就不要間接評價,因此問題又回到評價上,這是數據工作的核心。
評價體系的建設是一項容易被忽視的重要工作,它包括評價方法和流程的建立和迭代,評價數據的獲取和制作。其中數據獲取必須要長期進行,現在業界數據合作及打通已經變成一種趨勢,大家能夠通過合作來獲取自己缺乏的數據,只靠自己的數據很難把工作做完整。
微博在產品創新和商業化的道路上已經走了很久,試錯和踩坑都不計其數,在利用自身優勢基礎上的內外部積累也開展得比較早,因此在數據挖掘領域足夠接地氣,足夠開放,數據工作自身才能做得非?;?,同時支持和引導廣告業務的發展。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24