熱線電話:13121318867

登錄
首頁精彩閱讀運營數據中常見的數據陷阱
運營數據中常見的數據陷阱
2016-07-23
收藏

運營數據中常見的數據陷阱

當下的時代已經是一個真正的大數據時代,而互聯網產品達到億級的用戶量,甚至十億級的用戶量,都已經不鮮見了,產品的迭代方向,用戶行為的分析都要用數據說話,產品經理、運營人員想要做出正確的決定,要比以往任何時候都更加依賴數據。

如今,“大數據”的概念已經被炒得沸沸揚揚,不可否認,現在的各個領域的數據確實是越來越多了,人們的數據意識也正在增強,尤其是在積累相對容易的電商行業,但面對眾多的運營數據,你真的能有效的將其應用嗎?先不談各種復雜的計量模型,先從幾個簡單的統計學概念入手,提醒大家:數據有陷阱,應用需謹慎。

1、算術平均數的局限性

算數平均數,即幾個數字相加后除以個數,這也許是大家僅有的對平均數的理解,但其實平均數還有很多,比如中位數、幾何平均數、眾數等等。

對此,我們先來看一個例子:某店鋪一段時間的營業額數據如下:該店鋪12期銷售額的算數平均數是300,但有10期數值都在300以下,這樣的數值合理嗎?前10期的算數平均數僅是210,和300相去甚遠,顯然后面兩期的數值對整體的拉升作用明顯。

來個更極端的例子,三個人的年收入分別是3萬、3萬和300萬,但算數平均是102萬,原本是兩個屌絲和一個高帥富,可一平均后大家都成了高帥富,大家很多時候吐槽統計數字有水分,其實這就是算術平均數的陷阱。

那么,怎樣獲得更準確的平均數呢?有人說,“去掉最大值,去掉最小值”,這方法沒錯,但略顯粗暴,我們介紹幾個更科學的計算方式。

先看中位數,中位數即將數列從小到大排列后,取中間位置的那個數字作為平均數,若數列是偶數,則取中間兩位數的算數平均,例1的中位數是200,顯然比300要來的合理的多。

其次是眾數,即出現頻率最高的那個數。

最后介紹下幾何平均數,若要求5個數字的幾何平均數,則將這5個數連乘后開5次方,例1中的幾何平均數是268,也要比300更接近真實水平。

目前普遍在用的算數平均數,受極值的影響很大,其準確性是值得管理者們注意的,馬海祥建議管理者將中位數也應用起來,對算數平均的判斷起輔助作用,若兩者相差過大,則需要找到極值產生的原因。

在EXCEL中,中位數、眾數和幾何平均數的函數分別是MEDIAN、MODE和GEOMEAN,應用起來非常方便。

2、引入定基比率

目前大家比較熟悉的是同比增長率和環比增長率,同比增長率能夠排除掉季節性的因素,反映出較為實質性的增長,而環比能夠連續地、動態地反映出指標的變化,但僅有這兩個指標有時候是不夠的。

比如,去年和今年市場行情相差很大,那么同比(今年與去年同期比)的參照性就很不可靠,而環比只看到了這期和上期的差異,若相隔的期數多了,就很難判斷現在的狀況如何,怎么辦?大家不要忘了定基比率,即將固定的某期設為基數,其后各期該期進行對比。

比如某店鋪今年1月至12月的銷售額數據為(10,12,13,16,18,13,17,19,18,20,25,22),我們將1月數據設為基數100,其后各期與之的比值即為定基比數據(100,120,130,…,250,220),馬海祥認為定基比有時更能反映出某段時間的經營成果,比如某項改革從1月開始了,那就將各種運營指標以1月為基期,以后各月與它對比,便能直觀反映這項改革帶來的效果(具體可查看馬海祥博客《如何以客戶為中心進行數據挖掘與分析》的相關介紹)。

3、絕對的排名不一定可靠

某天你孩子向你報告考試成績,說考了第9名,你是高興還是憤怒?先別急著下論斷,得先問問幾個人考試,若是500人,那你必然賜予擁吻和禮物;而若是10個人,你八成會賞個巴掌,這就是絕對數字排名的局限性。

那么,我們用個百分比數值來代替之,就免去了這樣的尷尬,即排名數值除以總的參與排名的個數,比如我經營50款產品,某款產品銷售額排在第8位,那就表明它排在16%。

要多說一點的是,在百分比的排名中,需重視四分位數,即25%,50%,75%三個檔次,許多指標的優劣都會以四分衛數來衡量,比如你的轉化率在行業內的前25%以內浮動,那你暫時不用擔心,將精力放在其他方面,若低于25%了,那你或許要花力氣來提升你的轉化率了。

4、不要被漂亮的增長曲線蒙蔽

對于許多中小型的電商企業,經營的第一步便是沖銷售額,因此粗放經營是普態,對各種指標的大起大落習以為常,有了漂亮的增長業績,穩定性真的不重要嗎?馬海祥不這么認為,尤其是成本,穩定各項成本是對企業發展的一種蓄力。

比如采購成本,許多企業判斷其采購成本的唯一指標便是算數平均數,其弊端在上文中已經指出,而對穩定性的認識只停留在人的主觀感受或采購曲線的波動上,馬海祥建議電商們計算方差指標,即EXCEL中的VAR函數,方差越大,表示該指標穩定性越差。

一般來說,一個健康的企業,不管銷售額如何變化,其成本的穩定性(絕對值較穩定或者變化率較穩定)會較強,即方差較小,穩定性變差,一般預示著重大變化的來臨,面對越來越飽和的市場和越來越激烈的競爭,電商企業急需關注自己運營的穩定性,尤其是與供應鏈各個環節相關的穩定性,如采購成本、推廣費用、物流費用等等,任何指標若變得不穩定了,就該警惕,找出背后的原因(具體可查看馬海祥博客《如何通過大數據來獲取商業價值》的相關介紹)。

5、不要太在意活動中的數據

馬海祥有幸觀察過一個日化店鋪的數據,老板非常想知道什么因素對銷售額的影響最大?在對其運營數據進行回歸分析后,發現做活動的次數和時長對其銷售額都沒有影響(統計不顯著),唯一有影響的是客單價,客單價越低銷售額越高。

乍看之下,這個結論著實有些讓人無語(因為誰都知道),但模型顯示,客單價每降低一元,總銷售額提升100多,鑒于其高于50%的毛利率,降價一元可以總體上多賺50塊,但是總銷售額是萬元級的,因此多賺的50元微不足道,所以總體上看,銷售額似乎是一個不受人為控制的指標(自然波動),這似乎是一個謎題。

但促銷活動的不顯著是值得我們思考的,當然,也許是我們遺漏了某關鍵的指標,也許僅僅有客單價、促銷次數、促銷天數、轉化率、UV、熟客率等指標是不夠的,但不妨自問,我們很多時候是不是太過看重促銷和推廣了呢!

6、數據的“假規律”和“偽相關”

數據越大未必就能帶來更高的預測率,甚至還會帶來“假規律”和“偽相關”,比方說:搜索2005至2015年間的美國汽車銷售與“印度餐館”,結果發現二者之間竟然存在相關關系,這個東西顯然是無法解釋的,那么,偽相關的原因是什么呢?

首先,相關性并不意味著因果關系,比方說:Google Flu Trends對趨勢的預測并非屢試不爽,有幾次Google Trends就嚴重高估了流感病例的數量,包括2011/12的美國流感,2008/09瑞士流感,2008/09德國流感、2008/09比利時流感等。

英國倫敦大學學院的研究人員對此進行了研究,結果發現,到Google搜索“流感”的人可以分成兩類:一類是感冒患者;另一類是跟風搜索者(可能是因為媒體報道而對感冒話題感興趣者)。

顯然第一類人的數據才是有用的,其搜索是內部產生的,獨立于外界的,因此這些人的搜索模式應該與受到外界影響而進行搜索的人的模式不同,而正是第二類人的社會化搜索使得Google Flu Trends的預測失真,這正是因為Google Flu Trends把搜索“流感”與得流感的相關性當成了因果關系所致。

而稍早前美國東北大學與哈佛大學的研究人員對Google Flu Trends的失真案例進行的另一組研究則認為,這反映出了熱炒大數據的氛圍下誕生的一股大數據自大思潮,這股思潮認為,大數據完全可以取代傳統的數據收集方法,其最大問題在于,絕大多數大數據與經過嚴謹科學試驗和采樣設計得到的數據之間存在很大的不同,首先,大未必全;其次,大則可能魚龍混雜。

此外,Google搜索算法本身的變化也有可能影響到Google Flu Trends的結果,這個原因不難理解,要知道,Google搜索的調整非常頻繁,單去年就進行了890項改進,其中就有不少屬于算法的調整,媒體對于流感流行的報道會增加與流感相關的詞匯的搜索次數,也會令Google增加相關搜索的推薦,從而令一些本身并不感冒的人也對流感產生了興趣,進而把數據弄臟。

對于清洗數據,歸根到底還是需要對數據進行模式分析,在流感趨勢這個例子,研究人員認為,執行獨立搜索的患流感人群的模式會隨著時間推移而異于社會化搜索,其表現應該是在流感爆發時搜索急劇攀升,然后隨著流感消失而緩慢下降,相反,社會化搜索則會表現得更為勻稱,數據表明,在Google流感趨勢出現高估的時候,趨勢曲線的對稱性的確更高。

這說明在分析大數據時必須要注意此類陷阱,充斥的大數據集以及統計學家對分析結果的傳播會令真實的數據被放大或弄臟。

其實,數據的價值并不僅僅體現在其大小和精準度上,利用創新性數據分析方法去分析數據才是本質,在未來數據能夠逐步成為真正的大數據,并且數字世界與實體世界的映射趨于一致時,大數據也許就能發揮其完全的威力,乃至于改變我們解決問題的方式。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢