
透過大數據看企業創新
如何發現大數據中的價值,是我們研究大數據的重要原因。作者介紹了若干簡單的數據分析模型,分析創業成功的效率。另外,通過對比連續三年的演講的話題的數量,得出了那些話題正在走向熱門。而話題中的熱點詞的變化,也反映了話題方向的變化。
技術與創新是幾乎所有初創IT公司賴以生存發展的根本,也是像Google、Apple這樣的巨無霸們前進的動力,EMC也不例外。除了自上而下的創新,EMC更加注重自下而上的crowdsourcing式的創新。在每年的Innovation Showcase活動中,EMC鼓勵員工針對公司的產品,服務,運營,員工等各個方面提出自己的創意。經過一系列的評審,出眾的點子會入圍 Finalist,甚至成為某些獎項的Winner。更重要的,這些點子還有被立項孵化的可能。
在2011年度的Innovation Showcase中,EMCer們創紀錄地提出了近1500個創新Ideas,可謂百花齊放,百家爭鳴。通過分析這樣的數據,我們首先可以:
? 獲得基本的統計信息。類似商業報表,我們可能關心的信息包含有多少人參與了這樣的活動,他們的地理分布,他們的職位分布,哪些人是effective innovators等等。
更有趣的,我們可以對這些Idea進行一個主題模型分析,從而:
? 洞察到這些點子的潛在語義結構
? 分析這些點子包含的主題信息,同時刻畫主題。
EMC是一個技術驅動的IT公司,通過深化主題分析的結果,我們更進一步地
? 了解到哪方面的技術是EMCer最關心的,并且
? 研究年復一年的技術趨勢的變化。
為了達到這些目的,以數據分析為己任的ELC大數據實驗室利用相關分析工具,通過數據科學家和對公司業務熟悉的領域專家們的密切協作,從數據中挖掘出了一些有趣的結果。在保護公司IP和個人Privacy的前提下,我們選擇性地展示其中一些結果。
1.尋找Effective Innovators
Figure 1 氣泡圖幫助尋找effective innovators
為了在所有的Submitter中尋找最有效率的創新者,我們統計了每個Innovator的投稿數(NEntries)和入圍Finalist的點子數目(NFinalists)。我們可以效率定義:
Effectiveness = NFinalists / NEntries
除了這種數值的表示,我們也使用了可視化的方法來輔助尋找effective innovator。如圖所示,橫軸表示NEntries,縱軸表示NFinalists。每個innovator的(NEntries, NFinalists)對應于圖中的一個點。比如紅框內的點表示某個Innovator投了14個Ideas,其中5個入圍。定性地說,位于圖中左上角的 Innovator都是有效率的創新人。需要注意的是,當多個Innovator具有相同(NEntries,NFinalists)對時,它們在圖上顯示為同一個點。點的顏色深度反映了這種重合度的強弱。
我們是利用Google Public Data Explorer來做這樣的展現的,利用這個工具的一個好處就是方便發布分析結果:https://plus.google.com/u/0/113662585874608138956/posts/SHYJ6NjYsYj。它提供基本的交互功能,比如將鼠標放置某點上, 會顯示此Innovator的姓名。為了公司寶貴的人力資源,這兒顯示的姓名全都做過加密,希望能替公司保護各位Innovator的信息^-^。
2.尋找Idea中蘊含的主題
通俗地說,主題分析就是去分析發現每一篇文章的主要議題是什么。比如新浪新聞上有講政治的,有講體育的,也有關于軍事的,屬于同一個主題下的文章應該在用詞、表達上有一定的相似處。所以,主題分析本質上是一個聚類(Clustering)的過程,即把相似的文章聚成一類,然后通過分析這一類文章的內容來概 括出主題。這兒需要強調的是,通常的主題分析是一種探索性的、無監督的分析:數據里面沒有顯性的主題或Tag;甚至在分析前,也不知道這些文本里蘊含了多 少個主題,每個主題的名字是什么。
主題分析最流行的工具是LDA(Latent Dirichlet Allocation)。LDA是ML大牛David Blei在博士期間在老牛M. I. Jordan的指導下做的工作。最早的Journal Version是2003年的JMLR,最近Blei又寫了一片關于LDA的綜述類文章“Introduction to Probabilistic Topic Models”。關于這個課題,
初級的讀者可以了解一下LDA是為了做什么的,重點理解Bag of Words的輸入,以及輸出的結果的展現。
中級的讀者如果有概率圖模型PGM的基礎,可以試著了解LDA所基于的概率假設和概率模型是什么,去思考為什么這樣的假設是合理的。這兒需要一些基本概念,比如獨立,條件獨立,聯合分布的分解,以及圖模型的plane representation。
高級的讀者們需要去搞定的是基于LDA的推理算法。因為LDA是一個Bayesian Model,所以整個推理的中心就是計算感興趣的變量的后驗分布posterior probability。為了這個目標,可以采用sampling based method,比如Gibbs sampling;也可以首先把問題轉化為一個優化問題,然后用Variational EM的方法迭代求解。市面上兩種方法都有很多實現,可能有自己不同的應用場景,也不好說哪種方法更優。
Figure 2 文本分布圖
利用LDA我們對于EMC 2011 Innovation Showcase的數據進行了分析,上圖顯示的是從中發現的25個主題。每個bar的高度對應屬于這個主題的文章個數。對于每個主題我們可以逐一顯示屬于它的那些文章,并且也可以顯示“Word Scoring”,即在主題中每個詞的重要性。由于篇幅關系,我們這兒只關注一些特別的主題。
顯然,在所有主題中,Topic22享有最高的權重。為了理解Topic 22的含義,我們看一下此主題中的重要詞匯。
我們把如圖所示的結果展示給熟悉公司的領域專家,得到的回答是Topic22應該是關于Employee Engagement,Productivity and Benefits 。換句話說,在這次創新活動中,有相當數量的點子是針對員工與公司的關系的。很有意思的發現!
EMC是一個High-Tech公司,理所當然的我們有更多的技術性的創新。通過對于其他主題的分析,我們找到了關于存儲的主題,關于云計算的主題,關于大數據的主題等等。主題分析對于理解這些創新點子的隱含結構信息有很大的幫助。
3.尋找主題的趨勢和演化規律
很幸運,EMC把員工的Idea當成公司的財富保留了下來,即使是去年,前年以及更久遠的數據;更幸運的,我們拿到了這批數據,從而可以主題的趨勢分析。下面我們就舉例分析這幾年EMCer在創新中所關注的主題的趨勢。
Figure 3 三年來的主題趨勢
通過在2011年的LDA模型上對于2009,2010,2011數據進行推理,我們得到了入上圖所示的所有25個主題在這三年里受關注的變化。根據這個圖以及前一節所進行的主題詮釋,我們就可以回答諸如“近些年EMCer是如何看待cloud或者big data的?”這類問題。比如,topic22代表的employ engagement主題在2011年達到一個峰值;topic4代表的big data有一個穩步的增長;而topic9代表的cloud基本保持平穩。
主題的演化講的是同一個主題的內容隨著時間變化而變化的規律。比如說,我們看到在這三年里,每年都有將近60篇的Idea是關于cloud云計算的。我們可以通過這些文章的常用詞理解關于云計算創新的演化。
通過上圖我們看到,EMCer的想法和公司的戰略以及主流的云計算趨勢是非常吻合的:在09年EMCer對云計算的認識還停留在系統主機的基礎上,到了10年大家開始討論虛擬化以及私有云的技術,而在去年的重點則轉變為包含私有云和公有云的混合云技術。
再以big data大數據主題topic4為例:
在前兩年,大數據分析在EMC還只是關于一般數據庫的查詢和分析。2010年收購了Greenplum之后,我們看到,不僅更多的人討論數據分析,而且在2011年大家開始關注大數據,Greenplum,和實時的分析。
4.結語
從2007年開始的5年間,EMC總共有6000多位員工參與了每年的Innovation Showcase活動。在這個分析中,Big Data Lab的數據科學們積極的和熟悉公司業務運作的F/D Engineer們協同工作,通過分析這些Idea來刻畫EMC的創新生態系統。使大家對于EMCer的創新結構有了一定的了解。
通過這樣的分析我們獲得了重要的actionable insights來幫助提高公司創意文化。具體的actions包括對于新興趨勢進行引導和加強,組織針對某個主題的special interest group等等。只有通過這些后續的動作,才能真正讓數據分析的結果發光發熱,給公司增值。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25