熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘系列:用戶畫像之用戶標簽
數據挖掘系列:用戶畫像之用戶標簽
2016-03-12
收藏

數據挖掘系列:用戶畫像之用戶標簽

用戶畫像(User Profile),作為大數據的根基,它完美地抽象出一個用戶的信息全貌,為進一步精準、快速地分析用戶行為習慣、消費習慣等重要信息,提供了足夠的數據基礎,奠定了大數據時代的基石。

微博作為最大的中文社交媒體,擁有數以“PB”(1024 TB)計的用戶信息,從海量的用戶信息中發掘每個用戶的社交特性、潛在能力及興趣等信息,是微博為用戶提供更加人性化服務的基礎。微博大數據經過近兩年不斷地調整、磨合、優化,針對社交媒體特性,研發構建了一整套完整的用戶畫像體系。該體系涵蓋能力標簽、興趣標簽、關系及親密度、信用質量和自然屬性五大部分,完整而全面地實現了用戶信息標簽化。同時,大數據的用戶畫像體系已應用于微博眾多的業務場景中,并隨著微博業務的發展不斷完善升級,將“大數據”概念落地落實。

為了方便與大家交流探討,大數據用戶團隊特別整理了用戶畫像系列文章,主要從微博的角度出發,重點介紹社交媒體平臺中用戶的特性,微博業務發展中用戶的建模剛需,以及不同緯度建模過程中遇到的問題和解決方案。


引言

在以微博為代表的社交媒體平臺中,每一個用戶都是網絡中的一個具備發布、傳播、消費信息功能的節點。其中一部分節點具備發布優質原創信息的功能,并通過社交網絡將信息快速傳播,即能力節點;而其他大部分節點則偏重于消費信息,同時傳播其感興趣的信息,即消費節點。微博平臺的這種信息傳播方式使得能力節點從原創信息傳播中獲得對網絡的影響力,并打造自身的品牌,從而進一步促使更多節點消費其原創信息;而這信息傳播方式也讓消費節點在消費信息的同時發掘其自身興趣,促進其對同類信息的消費,從而提升能力節點的活躍性。因此,促進優質信息的快速傳播是我們的首要任務,而挖掘出具備原創信息發布能力的節點,并為其打上相應的能力標簽是后續工作的前提和基礎。

本文主要從用戶標簽體系、能力標簽的應用場景、能力標簽挖掘框架、關鍵技術點四個方面對用戶能力標簽的整體挖掘框架和挖掘算法進行介紹。
一、用戶標簽體系:

微博作為最大的中文社交媒體,每天都有豐富的信息在其上發布與傳播,從某個話題下的相關信息中聚合出一個或者多個具有代表性的詞語作為標簽,能夠方便對用戶與內容的查找與分析。因此,對于在微博上能夠聚合出的數量龐大的標簽庫而言,為了有效的梳理標簽,方便挖掘工作的進行,需要構建一個清晰完整的用戶標簽體系。圖1是目前已經構建的三層標簽體系,其左半部分敘述了三個層級標簽的數量,右半部分則對標簽層級進行舉例說明。

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>系列:<a href='/map/yonghuhuaxiang/' style='color:#000;font-size:inherit;'>用戶畫像</a>之用戶標簽-09大數據

圖1:三層用戶標簽體系

如圖1左半部分所述,在當前的三層用戶標簽體系中,共存在50多個一級標簽,1000多個二級標簽和近30萬的三級標簽;其中一級標簽是大類標簽,類似于新聞客戶端中常見的頻道(如右半部分的財經、互聯網等),二級標簽是從屬于一級標簽的細分(如右半部分中財經下的股票,互聯網下的互聯網安全等),三級標簽是對二級標簽的進一步細分,能對應到一級標簽下的實體對象(如財經下某一支具體的股票,互聯網下的某一家具體公司等)。

在所確定的標簽體系下,我們需要對每一個粒度的標簽聚合信息,具體到用戶能力標簽,就是要在每個標簽下聚合具有該細分標簽能力的用戶群體。
二、能力標簽的應用場景

目前能力標簽已經應用于微博眾多業務場景中,其中兩個典型的業務場景是“微博找人”和“熱門微博”,分別如圖2和圖3所示。

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>系列:<a href='/map/yonghuhuaxiang/' style='color:#000;font-size:inherit;'>用戶畫像</a>之用戶標簽-09大數據

圖2:為“微博找人”業務直接推薦各個行業的專家賬號


<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>系列:<a href='/map/yonghuhuaxiang/' style='color:#000;font-size:inherit;'>用戶畫像</a>之用戶標簽-09大數據

圖3:“熱門微博”內容來源于挖掘的各個領域的專家賬號

在找人業務場景中,用戶可以直接發現各垂直領域的專家賬號,通過關注專家賬號可以直接獲取各垂直領域的優質內容。在熱門微博業務場景中,內容流都出自于垂直領域的專家賬號:一個賬號通過發布某個領域的優質內容形成初步影響力,大數據計算出其所屬領域后,熱門微博會在對應領域進行內容推薦,使該賬戶逐步成長為專家賬號,從而形成一個產品閉環。能力標簽的主要作用是構建各種優質語料的重要基礎數據源,通過能力標簽圈定專家用戶群體,提取出優質語料等相關信息;在大部分情況下,能力標簽不直接在業務場景中展示。
三、能力標簽挖掘框架

能力標簽挖掘,即對用戶標簽體系中的能力標簽進行挖掘。具體的,在整體用戶能力標簽挖掘流程中,首先通過用戶關系數據(主要是分組,用于體現粉絲對于用戶能力的認可度)、用戶內容數據(主要是原創博文,用于體現用戶自身的專業能力)、用戶行為數據(主要是轉、評、贊等互動信息,用于體現該用戶在相關領域內的影響力)挖掘出用戶的能力標簽及其基礎權重;其次通過引入用戶的自填信息、認證信息作為能力標簽權重的調權因子參與計算;接下來通過多個維度的定向挖掘系統和運營反饋系統進行能力標簽的校正和增加能力標簽的覆蓋。最后,將挖掘出來的用戶能力標簽及權重輸出至用戶能力標簽庫,供上層業務調用。整體的挖掘框架如圖4所示:

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>系列:<a href='/map/yonghuhuaxiang/' style='color:#000;font-size:inherit;'>用戶畫像</a>之用戶標簽-09大數據

圖4:用戶能力標簽挖掘整體框架

四、能力標簽挖掘關鍵技術點

本節主要介紹能力標簽挖掘中涉及到的標簽詞匯聚、用戶影響力、時間窗口和時間衰減三個關鍵技術點。

標簽詞匯聚

用戶的分組信息即用戶為關注對象打上的標簽作為用戶關系數據引入到挖掘過程中,由于標簽屬于UGC,就會造成同一個標簽主題有多種不同的表達方式,將多種不同的表達方式聚合起來,形成一個標簽集,并且映射到我們的標簽體系中,可以有效地提升能力標簽的準確率和覆蓋率。

首先將分組信息通過分類模型劃分為強關系型(同學、同事等)和興趣型(互聯網、財經等)兩類,并將興趣型分組信息作為我們的基礎預料。

接下來通過聚類、關聯等相關算法進行標簽詞(分組信息)的聚合;

最后將聚合的標簽集根據相關程度等因子劃分為高相關和低相關兩類。

以互聯網標簽為例,聚合出來的最終結果如表1所示:


<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>系列:<a href='/map/yonghuhuaxiang/' style='color:#000;font-size:inherit;'>用戶畫像</a>之用戶標簽-09大數據

表1:互聯網相關標簽集

用戶影響力

用戶影響力指的是用戶在某個特定標簽下的影響力,因此影響力計算的邊界(如圖5所示)是標簽對應的興趣用戶群體(包含該標簽的能力用戶),即對該標簽所對應的領域有一定了解的用戶群體。具體地,我們將其它用戶對某個用戶原創博文的轉、評、贊等互動行為作為基礎數據,利用pagerank迭代算法進行該用戶影響力的計算。

圖5:用戶影響力計算邊界

其中,同領域用戶的影響力大小是由其它用戶對相關博文的轉、評、贊等互動行為按照一定的權重比計算得到的。所謂相關博文就是指用戶發表的屬于標簽對應領域的原創博文(即打上內容標簽的原創博文,該部分屬于大數據內容團隊負責,后續會有相關文章介紹)。

時間窗口和時間衰減

考慮到原創博文的消費價值和計算代價,對于用戶內容數據,我們選取了用戶近一段時期內的原創博文作為基礎語料進行計算。

關于時間衰減,我們結合牛頓冷卻定律和微博的業務需求推導出相應的衰減公式,并通過衰減效果的對比,確定了相關衰減參數的數值,最終得出了用戶能力標簽內容權重的時間衰減函數,如圖6所示。

圖6:用戶能力標簽內容權重衰減函數

五、小結

當前我們主要從社交關系、原創內容、影響力三個維度來識別用戶的能力標簽以及計算相應的權重,同時通過用戶的自填信息、認證信息等其他信息進行調權。對于某些特定的垂直領域或某類具有明顯特征的用戶群體,我們通過定向挖掘系統來進行處理,然后融合到最終的用戶能力標簽庫進行輸出。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢