熱線電話:13121318867

登錄
首頁職業發展透過大數據看企業創新
透過大數據看企業創新
2016-06-02
收藏

透過大數據看企業創新

如何發現大數據中的價值,是我們研究大數據的重要原因。作者介紹了若干簡單的數據分析模型,分析創業成功的效率。另外,通過對比連續三年的演講的話題的數量,得出了那些話題正在走向熱門。而話題中的熱點詞的變化,也反映了話題方向的變化。

技術與創新是幾乎所有初創IT公司賴以生存發展的根本,也是像Google、Apple這樣的巨無霸們前進的動力,EMC也不例外。除了自上而下的創新,EMC更加注重自下而上的crowdsourcing式的創新。在每年的Innovation Showcase活動中,EMC鼓勵員工針對公司的產品,服務,運營,員工等各個方面提出自己的創意。經過一系列的評審,出眾的點子會入圍 Finalist,甚至成為某些獎項的Winner。更重要的,這些點子還有被立項孵化的可能。

在2011年度的Innovation Showcase中,EMCer們創紀錄地提出了近1500個創新Ideas,可謂百花齊放,百家爭鳴。通過分析這樣的數據,我們首先可以:

? 獲得基本的統計信息。類似商業報表,我們可能關心的信息包含有多少人參與了這樣的活動,他們的地理分布,他們的職位分布,哪些人是effective innovators等等。

更有趣的,我們可以對這些Idea進行一個主題模型分析,從而:

? 洞察到這些點子的潛在語義結構

? 分析這些點子包含的主題信息,同時刻畫主題。

EMC是一個技術驅動的IT公司,通過深化主題分析的結果,我們更進一步地

? 了解到哪方面的技術是EMCer最關心的,并且

? 研究年復一年的技術趨勢的變化。

為了達到這些目的,以數據分析為己任的ELC大數據實驗室利用相關分析工具,通過數據科學家和對公司業務熟悉的領域專家們的密切協作,從數據中挖掘出了一些有趣的結果。在保護公司IP和個人Privacy的前提下,我們選擇性地展示其中一些結果。

1.尋找Effective Innovators

Figure 1 氣泡圖幫助尋找effective innovators

為了在所有的Submitter中尋找最有效率的創新者,我們統計了每個Innovator的投稿數(NEntries)和入圍Finalist的點子數目(NFinalists)。我們可以效率定義:

Effectiveness = NFinalists / NEntries

除了這種數值的表示,我們也使用了可視化的方法來輔助尋找effective innovator。如圖所示,橫軸表示NEntries,縱軸表示NFinalists。每個innovator的(NEntries, NFinalists)對應于圖中的一個點。比如紅框內的點表示某個Innovator投了14個Ideas,其中5個入圍。定性地說,位于圖中左上角的 Innovator都是有效率的創新人。需要注意的是,當多個Innovator具有相同(NEntries,NFinalists)對時,它們在圖上顯示為同一個點。點的顏色深度反映了這種重合度的強弱。

我們是利用Google Public Data Explorer來做這樣的展現的,利用這個工具的一個好處就是方便發布分析結果:https://plus.google.com/u/0/113662585874608138956/posts/SHYJ6NjYsYj。它提供基本的交互功能,比如將鼠標放置某點上, 會顯示此Innovator的姓名。為了公司寶貴的人力資源,這兒顯示的姓名全都做過加密,希望能替公司保護各位Innovator的信息^-^。

2.尋找Idea中蘊含的主題

通俗地說,主題分析就是去分析發現每一篇文章的主要議題是什么。比如新浪新聞上有講政治的,有講體育的,也有關于軍事的,屬于同一個主題下的文章應該在用詞、表達上有一定的相似處。所以,主題分析本質上是一個聚類(Clustering)的過程,即把相似的文章聚成一類,然后通過分析這一類文章的內容來概 括出主題。這兒需要強調的是,通常的主題分析是一種探索性的、無監督的分析:數據里面沒有顯性的主題或Tag;甚至在分析前,也不知道這些文本里蘊含了多 少個主題,每個主題的名字是什么。

主題分析最流行的工具是LDA(Latent Dirichlet Allocation)。LDA是ML大牛David Blei在博士期間在老牛M. I. Jordan的指導下做的工作。最早的Journal Version是2003年的JMLR,最近Blei又寫了一片關于LDA的綜述類文章“Introduction to Probabilistic Topic Models”。關于這個課題,

初級的讀者可以了解一下LDA是為了做什么的,重點理解Bag of Words的輸入,以及輸出的結果的展現。

中級的讀者如果有概率圖模型PGM的基礎,可以試著了解LDA所基于的概率假設和概率模型是什么,去思考為什么這樣的假設是合理的。這兒需要一些基本概念,比如獨立,條件獨立,聯合分布的分解,以及圖模型的plane representation。

高級的讀者們需要去搞定的是基于LDA的推理算法。因為LDA是一個Bayesian Model,所以整個推理的中心就是計算感興趣的變量的后驗分布posterior probability。為了這個目標,可以采用sampling based method,比如Gibbs sampling;也可以首先把問題轉化為一個優化問題,然后用Variational EM的方法迭代求解。市面上兩種方法都有很多實現,可能有自己不同的應用場景,也不好說哪種方法更優。

Figure 2 文本分布圖

利用LDA我們對于EMC 2011 Innovation Showcase的數據進行了分析,上圖顯示的是從中發現的25個主題。每個bar的高度對應屬于這個主題的文章個數。對于每個主題我們可以逐一顯示屬于它的那些文章,并且也可以顯示“Word Scoring”,即在主題中每個詞的重要性。由于篇幅關系,我們這兒只關注一些特別的主題。

顯然,在所有主題中,Topic22享有最高的權重。為了理解Topic 22的含義,我們看一下此主題中的重要詞匯。

我們把如圖所示的結果展示給熟悉公司的領域專家,得到的回答是Topic22應該是關于Employee Engagement,Productivity and Benefits 。換句話說,在這次創新活動中,有相當數量的點子是針對員工與公司的關系的。很有意思的發現!

EMC是一個High-Tech公司,理所當然的我們有更多的技術性的創新。通過對于其他主題的分析,我們找到了關于存儲的主題,關于云計算的主題,關于大數據的主題等等。主題分析對于理解這些創新點子的隱含結構信息有很大的幫助。

3.尋找主題的趨勢和演化規律

很幸運,EMC把員工的Idea當成公司的財富保留了下來,即使是去年,前年以及更久遠的數據;更幸運的,我們拿到了這批數據,從而可以主題的趨勢分析。下面我們就舉例分析這幾年EMCer在創新中所關注的主題的趨勢。

Figure 3 三年來的主題趨勢

通過在2011年的LDA模型上對于2009,2010,2011數據進行推理,我們得到了入上圖所示的所有25個主題在這三年里受關注的變化。根據這個圖以及前一節所進行的主題詮釋,我們就可以回答諸如“近些年EMCer是如何看待cloud或者big data的?”這類問題。比如,topic22代表的employ engagement主題在2011年達到一個峰值;topic4代表的big data有一個穩步的增長;而topic9代表的cloud基本保持平穩。

主題的演化講的是同一個主題的內容隨著時間變化而變化的規律。比如說,我們看到在這三年里,每年都有將近60篇的Idea是關于cloud云計算的。我們可以通過這些文章的常用詞理解關于云計算創新的演化。

通過上圖我們看到,EMCer的想法和公司的戰略以及主流的云計算趨勢是非常吻合的:在09年EMCer對云計算的認識還停留在系統主機的基礎上,到了10年大家開始討論虛擬化以及私有云的技術,而在去年的重點則轉變為包含私有云和公有云的混合云技術。

再以big data大數據主題topic4為例:

在前兩年,大數據分析在EMC還只是關于一般數據庫的查詢和分析。2010年收購了Greenplum之后,我們看到,不僅更多的人討論數據分析,而且在2011年大家開始關注大數據,Greenplum,和實時的分析。

4.結語

從2007年開始的5年間,EMC總共有6000多位員工參與了每年的Innovation Showcase活動。在這個分析中,Big Data Lab的數據科學們積極的和熟悉公司業務運作的F/D Engineer們協同工作,通過分析這些Idea來刻畫EMC的創新生態系統。使大家對于EMCer的創新結構有了一定的了解。

通過這樣的分析我們獲得了重要的actionable insights來幫助提高公司創意文化。具體的actions包括對于新興趨勢進行引導和加強,組織針對某個主題的special interest group等等。只有通過這些后續的動作,才能真正讓數據分析的結果發光發熱,給公司增值。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢