熱線電話:13121318867

登錄
首頁精彩閱讀13個真實世界情景中的數據科學應用
13個真實世界情景中的數據科學應用
2017-06-06
收藏

13個真實世界情景中的數據科學應用

現在讓我們看看13個在真實世界情景下的例子,了解現代數據科學家可以幫助我們做些什么。這些例子將有助于你學習如何專注于一個問題和如何形式化一個問題,以及如何仔細評估所有潛在問題——總之,是學習數據科學家在提出解決方案之前,如何定位問題和進行戰略性思考。你也會看到為什么一些廣泛使用的技術,如標準回歸,可能并不適合所有情況。

數據科學家的思維方式不同于工程師、運籌學專業人士、計算機科學家。雖然運籌學涉及很多分析,但這一領域的焦點是具體業務優化層面,如庫存管理和質量控制。運籌學涉及國防、經濟、工程、軍事等領域。它采用馬爾可夫模型、蒙特卡洛模擬、排隊論、隨機過程,以及(由于歷史原因)Matlab和Informatica工具。

數據科學會遇到兩種基本類型的問題。

1.內部數據科學問題,如損壞的數據、粗心的分析或使用不恰當的技術。內部問題不是針對業務而言,而是針對數據科學社區。因此,解決辦法包括訓練數據科學家更好地工作,要他們遵循最佳做法。

2.業務應用問題是現實世界中的問題,因此要尋求解決方案,如欺詐檢測,或識別一個因素是原因還是結果。這些可能涉及內部或外部(第三方)數據。

情景1:國家對烈性酒銷售的壟斷結束后,DUI(酒后駕駛)逮捕量減少

最近發表在MyNorthWest報紙上的一篇文章,說到一年前在華盛頓州實施的一條新法律,允許雜貨店銷售烈性酒類。這里的問題是如何評估和解釋在法律生效后,酒后駕車者的逮捕量下降。

作為一個數據科學家,你首先需要制定一個可能解釋逮捕量下降的原因列表(通過與客戶或老板的討論)。然后設計一個方案,排除其中的一些原因,或為每個原因附上正確的權重,或簡化結論,判定這個問題除非有更多的數據或信息可以使用,否則沒法回答。

以下是15個可能原因,以及跟酒后駕車逮捕率報告存在悖論的問題。你當然可以想出更多的理由。

在數據收集過程中有差錯(數據是錯誤的)。

這篇文章的作者,可能與別人有利益沖突、想推銷特定的觀點,或是出于政治動機。也許只是一個大膽的謊言。

之所以酒后駕駛被逮捕的人數變少,也許是因為警察的人手少了。

在這一時期內,其他犯罪率也有所下降,這是犯罪率總體下降趨勢的一部分。若沒有這條新法律,酒后駕駛的逮捕量會不會下降更多?

缺乏統計顯著性。

存在其他更為嚴厲的刑罰,阻止了酒后駕車行為。

年紀大的酒客多,因為他們已經肇事死亡,所以逮捕量下降。

總人口增加,但喝酒的人數減少,因為移民率高的是中國人和印度人,但他們中喝酒的人數比例遠遠低于其他人口群體。

酒后駕車逮捕量統計口徑是針對華盛頓居民,還是非居民的?

這一法律沒有效果,在此之前,人們也可以從華盛頓的雜貨店買酒(除了烈性酒)。

(可能是因為增加了稅收),酒價升高,導致酒精消費減少(盡管酒精和煙草消費對價格彈性變化有抵抗力)。

人們現在開車到更近的地方就能買到烈性酒,因此,喝烈性酒駕駛而被逮捕的人變少了。

所有酒后駕駛逮捕量都下降,還是僅僅喝烈性酒的酒后駕駛逮捕量下降才如此?

一般來說,如果人們開車次數減少了,無論對飲酒者還是非飲酒者來說,那么可能的原因就是汽油價格上漲了。

要評估這個新法律的影響,有一個更好的指標是華盛頓居民的酒類(特別是烈性酒)的總消費量。

數據科學家必須選擇正確的方法來評估新法律的影響,并想出如何獲得評估所需數據的方法。實際上,逮捕量減少的真正原因是,喝烈性酒者可以開車在很短的距離內就能買到烈性酒。對華盛頓州來說,問題在于判斷該法律能否減少因酒精消費而產生的社會問題代價(是否會增加酒精銷售的稅收、裁減州內商店的員工,使酒精相關的犯罪率維持適度水平或完全消失等)。

情景2:數據科學與直覺

在管理層圈子里,許多決定仍然依靠直覺。然而,正如這個例子所示,數據科學和統計分析結果優于直覺,讓你不至于憑直覺而形成錯誤的結論。

雙數據點是指幾乎相同的觀測值。在許多不同類型的數據集中,這種情況經常出現,而非特例。在任何有300多行數據的二維或三維的數據集中,如果數據是定量的,并均勻地分布在一個有界空間中,你應該會看到大比例(大于 15%)的數據點都有一個近鄰。

這適用于所有數據集,但這一發現首先是從星系照片里發現的。星系照片里有很多雙星,你可能會直覺地認為,有一些內在原因使得星星成對地聚集在一起。但是,如果你知道純概率,你會發現,即使沒有任何外部機制推動,15%的星星也會屬于雙星系統。

例如,我們可以考慮一個包含500顆星星的星系。計算這些星星構成雙星系統的純概率,結果如下。

至少有60顆(12%)星星屬于雙星系統的概率為85%。

至少有80顆(16%)星星屬于雙星系統的概率為18%。

至少有100顆(20%)星星屬于雙星系統的概率(幾乎)為0%。

然而,在現實中,超過80%的星星都屬于雙星系統。概率統計不支持這個數字;因此,很明顯有一些機制使得星星成對聚集。

該問題提供了一個很好的、可以測試你分析直覺的機會??纯磮D表里的雙生觀測值,然后目測評估下雙生觀測值是自然的(隨機)還是非自然的(數量太多或太少)??梢詫懸欢未a當作練習(Python、Perl、R代碼),進行模擬(包括更復雜的三維情況),檢查下理論結果,并比較一下R、Perl、Python的速度差異。

技術講義

假設,有一張10cm×10cm的夜空圖,其有大約n=500個可見的星星(數據點),而雙星定義是一顆星星和鄰近的星星距離是1mm(或更短)。如果恒星是完美隨機分布的,則500顆恒星中,位于雙星系統中的星星數量將是73顆(平均而言)。這個數字遠遠高于大多數人所認為的數字。這一比例可以表示為p,因此p=14.5%,在500顆恒星中,預計位于雙星系統中的星星數量為n*p=73。

在這種情況下,可以用Poisson過程的理論來計算該概率。如果500個點分布在一個100mm×100mm的區域(一個放大的夜空圖),則Poisson過程的強度L是每平方毫米面積內點的數量,即L=500/(100mm×100mm)=0.05/mm2。

在1 mm距離之內一顆星星至少有一個鄰近點的概率p為1-Proba(0個鄰近點)=1-exp(-L*Pi*r2),其中r=1mm,Pi=3.14。這里Pi*r2是一個半徑為1mm的圓的面積。指數項是一個Poisson過程,在一個給定的集合里(圓、矩形等),點的數目有一個均值為L*Area的Poisson分布。因此p=0.145。

所以是否屬于雙星,是一個參數p=0.145的伯努利(1/0)變量。V可以表示位于雙星系統中的星星數目:V是參數p的n個伯努利變量的總和,因而是參數為n、p的二項式分布,而normal(0,1)分布跟標準化變量Z=(V-np)/SQRT{np(1-p)}的值非常近似。這個事實可以用來計算前面所說的概率。

替代計算:使用蒙特卡洛模擬,而不是使用理論模型,來計算這些概率,也可以得到相同的結果。這將涉及生成100萬個模擬圖像(二維數據表),并在每個模擬圖像里,計算屬于雙星系統的星星數目。使用現代計算機、良好的隨機數生成器和智能算法,這項任務可以在幾分鐘內自動化進行。

如果你使用樸素的做法,則該模擬過程可能是緩慢的。但計算n個距離,找最近的星星時,計算復雜度可以做得比O(n2)好得多。具體做法是將數據存儲在一個間隔為1mm的網格中(即,一個有100′100=10 000個單元格的二維數組)。因此,對于每一顆星星,你只需查看周圍的8個像素,來計算不到1mm距離的鄰近點的數目。通過使用1萬個1比特(代表存在/不存在)存儲單元,可以把O(n2)的復雜度降低到O(n)。

請注意,選100萬或1萬是隨意的,實際只需足夠大的數字,保證所估計的結果足夠穩定即可,數字若再大則不會帶來更準確的結果。選擇合適的樣本和樣本大小是一個實驗設計問題,并且使用無模型的置信區間有利于這項任務的開展,也保證結果穩健。這種蒙特卡洛模擬方法較受運籌學專業人士的青睞,一些數據科學家、計算機科學家、喜歡無模型統計建模的軟件工程師們也較鐘愛。然而,在這個案例里,理論模型眾所周知,也很簡單(即使不是很基礎),也能快速而簡捷地得到答案。所以,除非你必須花很多時間才能理解它的原理,否則還是建議尋找理論解決方案。

附加說明:在這個例子中,星星顯示在二維屏幕上。在現實中,它們存在于三維空間中。從X坐標和Y坐標來看兩顆星星可能是鄰近的,但在Z軸上它們可能是永久分開的。所以要計算出雙星的真實比例期望值,你就得模擬三維空間里的星星(點),投影到矩形內計算出雙星的比例。在這種情況下,我不確定該理論模型是否是簡單的解決方案,但蒙特卡洛模擬仍然是簡單的。在實踐中,實際上遙遠的恒星不夠明亮而不能顯示在圖片上,所以二維模型確實是對真實的三維問題很好的近似。

此外,在理論模型中,關于星星的位置有一些隱含的獨立性的假設(當提到二項式模型時),但這不是實際情況,因為星星周圍1mm直徑范圍內有時會重疊。但這種近似依然不錯,并且是保守估計的。而理論上的數字,如果排除重疊,肯定要高于73。

情景3:數據故障將數據變成亂碼

在數據導入或導出的過程中,有許多出差錯的例子。這通常是架構較差的結果,或者使用了錯誤的工具,或者盲目依賴工具而不進行數據質量檢查的原因。數據科學家如何檢測和解決這個問題?

Microsoft Access有時不能正確導入或導出數據類型,使數據庫表自動甚至是強迫類型轉換,輸出文本或CSV文件(或其他格式),結果較差,容易導致許多錯誤。這種情況發生,是因為環境不夠靈活,從而不能進行智能的類型檢測并進行類型轉換。例如,你是否處理過以下情況,一行日期數據被記錄為整數,另一行卻被記錄為mmddyy格式(月、日、年格式,比如2016年10月5日記為100516)?或者是你不得不處理數據字段值內的逗號,因為這會搞砸你的CSV文件?

我收到過許多數據文件,損壞率達到5%以上。有時兩種不同類型的值(廣告主關鍵詞與用戶查詢,或來源域名與廣告網絡域名)存儲在同一字段中。有時字段沒有正確對齊。有時看起來制作數據的人不是使用正則表達式的專家,或是總是錯誤地使用分隔符。有時則是因為軟件把事情搞糟了。

有時這些差錯有不良的副作用,比如你的數據庫里有一個非真實的用戶ID,成為所有沒有ID的用戶的垃圾收集器,導致分析數據時有缺陷。但在其他時候不是個大問題。

以下幾個例子是講混亂的數據、混亂的格式和不完整的數據整合如何導致嚴重的錯誤,以及如何解決這些問題。

Wells Fargo(美國富國銀行):IBM Tealeaf用戶的會話被分解成多個會話,因為每個服務器都有自己的網絡日志,而這些日志并沒有被正確混合。這種情況下主要是架構設計造成的問題。幸運的是,發現和解決這個問題能幫助我們形成對該類問題的洞察力。

eBay(易貝):數據傳輸過程中把法語和德語關鍵詞的特殊字符刪除了,造成了數據不一致性。通過建立臨時的外鍵查找表,讓正確的和錯誤的拼寫對應,從而可以解決數據不一致的問題。

點擊欺詐檢測:關鍵詞字段有時代表用戶查詢(如谷歌查詢),有時是一個預先指定的關鍵詞類別,這取決于廣告網絡聯盟公司的種類。如果相關公司的關鍵詞是屬于關鍵詞類別的,我們會施加一個較大的錯誤懲罰值,這是因為(出于設計而非欺詐的原因)這種關鍵詞的分布很差。添加一個指定關鍵詞類型的新字段,能夠解決該類問題。

作為練習,我希望你多想想這些類型的問題,并回答以下問題。以下問題都是常見的、有趣的工作面試問題。

你如何處理這些問題?

如何自動檢測這些差錯?該問題是質量保證(QA)問題嗎?

在大數據情景下這類問題是變得更糟了嗎?檢測問題和解決問題,哪個比較困難?

能夠容許多少壞數據?能否容許1%的錯誤?欺詐檢測的話能容許的錯誤甚至更少嗎?

解決這些問題,你花費了多長時間?

如何設計智能的類型轉換?

情景4:異??臻g的回歸

這個例子說明了在使用傳統技術解決新問題之前,需要改進原有技術,如回歸。這些技術有些已經超過了100年,是統計分析領域的主要工具。針對小的數據集,已經有簡單的數學方案能解決問題。隨著大數據和大規模并行計算能力的出現,情況已經不同。

比如,你想通過逆向工程得到可口可樂的配方?;谠S多人的品嘗結果(根據實驗設計),響應值Y衡量你的配方跟可口可樂真正配方的接近程度。事實上,這非常類似于在臨床試驗中,通過測試混合的原子或化學基(每個組合產生一個獨特的分子)來改善藥物效果。而自變量是二進制值,每一個代表一個成分,如鹽、水、玉米糖漿等。如果所討論的成分在配方中是存在的,則該值等于1,否則等于0。這與標準的線性或邏輯回歸有很大的差異。

技術講義

回歸系數a_k (k = 1,…,m) 必須滿足以下要求。

每個k都是正數(a_k大于或等于0)。

這些系數的總和等于1。

總之,你在單純形空間進行回歸,其中a_k代表混合的比例。這種回歸有一個有趣的特性,a_k系數的平方和等于由SUM(a_k)=1定義的m-1面體面積的平方,且a_k大于或等于0。(這是畢達哥拉斯定理的一個泛化。)這有點像一個套索回歸、嶺回歸或邏輯(是logic而不是logistic)回歸,但放在貝葉斯框架里,也可以利用馬爾可夫蒙特卡洛(MCMC)來解決。

如何解決在一個球面上的回歸?例如:

根據鳥的視線,找出加拿大大雁的遷徙飛行路徑。

針對一顆在行星上撞擊出多個排一起的隕石坑的流星,計算其軌跡和起源。

基于火山的位置探測地質斷層(兩者幾乎是一一對應的,比如在喀斯喀特山脈內,或在大西洋中部的海底)。

答案是通過將球面映射到平面上,通過平面回歸來解決問題。

在這個例子中,目的是創造一個競爭產品,口味和可口可樂一樣,用不同的名字稱呼它,并以更低的價錢銷售。如果味道是相同的,但成分是不同的,那么可口可樂制造商若起訴你復制他們的配方是沒法勝訴的。我認為,Virgin(維京)幾乎克隆出來了這個味道。當然,百事可樂并不相近:味道是那么不同,二者就像蘋果和橘子的差別。

最后說回來,有許多不同的方法來解決回歸問題(或任何數據科學問題。如果你使用正確的參數,則不同解決方案在效率方面往往是等效的。例如,你可以用純優化或純數學解決這個問題。統計學家會認為,使用這種方法不能為回歸參數建立置信區間,或沒法測試是否有一些參數等于0。作為替代,我自己設計了一個無須統計模型就可以計算置信區間的方法。這個方法被稱為分析橋(Analyticbridge)第一定理,將在這本書更多技術化的章節里得到描述。

情景5:分析與誘導在提升銷量上有何不同價值

這個例子說明即使是最好的分析,如果你忽略了其他關鍵的、使業務成功的要素,也不會很有用??傊?,對于所有業務問題,分析并不是萬能的。

這個情景的背景是提高轉化率,如將網站訪問者轉化為活躍用戶,或者是將被動的簡報訂閱者轉化為業務意向(打開簡報和點擊鏈接即代表意向)。在此我們討論簡報的轉化問題,雖然這個例子可以適用于許多不同的環境。

為了最大限度地提高總的意向數量,你需要使用誘導手段和分析手段。銷售量是一個與下列影響因子密切相關的函數。

誘導

分析

產品

價格

競爭

聲譽

市場營銷

首先,即使是度量“誘導”或“分析”也是很困難的。但是你可以用一個0~10的級別(10表示最好的),誘導值=9代表公司在使用誘導方法上非常努力,而分析值=0代表公司完全忽視分析手段。

在優化簡報郵件方面(從而最大限度地提升意向的數量和規模),大多數公司把誘導設置為1,把分析設置為4或5。通常是通過多變量測試、數學分割、用戶群定向進行分析的。這種方法來源于營銷人員所受的訓練——但是,這不是最好的方法?,F在,ISP(互聯網服務提供商)提供的用戶細分,比傳統的用戶分組技術更關鍵。未能送達給Gmail用戶,比起分組不當送達給不恰當的Gmail用戶,后者更糟糕(例如,年輕用戶和年老用戶雖然收到不同的信息,但是這些信息并不是有針對性發送的)。

另一個關鍵的錯誤是在郵件主題上,重復使用相同的關鍵詞,剛開始這樣可能有效,但最終會使你的用戶厭煩而不想讀你的簡報(除非你已經找到彌補用戶流失的方法,比如說雇用增長極客來幫助你解決問題)。如果你的競爭對手也使用完全相同的關鍵詞,這個問題就更加復雜了。

豐富多樣的、非炒作性的關鍵詞對于分析型、高學歷、厭惡垃圾郵件的用戶來說非常有效果。例如,一個主題行,如Weekly digest, July 29(digest用小寫字母d)比25 Fantastic Articles From Top Big Data Gurus(From用大寫字母F)的效果更好。當然,后者可能在前兩次效果很好,但最終還是無效的。此外,你的簡報內容必須與主題行緊密相關,否則你失去用戶的速度會比你獲得新用戶的速度快。

相反地,你可以基于誘導而不是分析手段,即,猜測用戶現在喜歡什么內容,而不是根據歷史的效果數據來設計內容。它也可以自動化完成,并轉化為分析規則——例如,檢測一個關鍵熱詞奏效的次數,例如“肚皮舞分析”這一有效關鍵詞可以持續多久,等等。過度使用通過分析找到的技巧,最終會使得誘導手段沒有存在空間,也會拉低銷售。但現在,似乎很多網絡營銷者忽視了這些規則。誘導比分析提供一個更大的杠桿效應(雖然它們應該混合在一起),特別是長期業務。

情景6:關于隱藏數據

在該情景下,你的數據就像Gruyere奶酪一樣。它有很多、很大的孔。有時候,空白的空間占據著比數據本身更大的容積,就像在宇宙中暗物質比可見物質更豐富一樣。這個情景不是關于淺層的或稀疏的數據,而是關于你看不到的數據,你甚至不知道它們的存在,但它們比你的數據倉庫里的任何東西,都有更好的可操作價值。

以下是“Gruyere數據”的3種情況,以及每一種情況的補救方法。

1丟失的或不完整的數據

這是最容易解決的問題。任何有才華的數據科學家都可以使用現代的、無偏的數據補齊技術,來解決這個問題。大多數分析軟件也包括處理丟失數據的機制。

2經過刪改的數據

所謂刪改,我的意思是從統計學角度看的。下面是一個例子:我們要估計所有至少涉及一次犯罪的槍支比例。我們使用的數據集(槍或犯罪統計)已經被刪改了,比如品牌的新槍今天并沒有用來殺人而沒被統計在內,但可能下個星期就被用來射殺某人。此外,一些罪犯丟棄了他們的槍,在案發后可能追蹤不到該槍支。

你如何處理這個問題?任何有才華的數據科學家都能輕松使用正確的統計技術處理這個問題,使用統計分布(通常是指數的)來衡量犯罪時間,并基于刪改數據估計其平均值。這樣問題就解決了。

3隱藏數據

處理隱藏數據是一個大問題。首先,你甚至不知道它的存在,因為它是看不見的,至少從你的角度來說是看不見的。領域專業知識和統計學知識(更多技術知識的經驗法則),會幫助你意識到潛在的隱藏數據。事實上,數據可能根本就不存在,在這種情況下,首先你必須組裝數據。

思考這樣一個例子:假設Target公司在試圖優化它的收入數字。它分析了銷售數據,看看與花園相關的物品什么時候銷售量最好。該公司總部在明尼蘇達州,2月份沒有任何關于花園物品的銷售數據,任何人提出這樣的分析做法可能被當場解雇,或被懷疑是不是吃錯藥。然而,在加州,2月份Target的競爭對手們的花園物品銷售量不錯,一直到6月份都沒有留給Target什么市場份額。Target不知道原因,錯誤地認為在加州花園物品這塊沒錢可賺。

你如何處理該問題?即使Target可能缺乏2月份的花園物品銷售數據,但可以查看競爭對手的數據(例如,瀏覽和分析每天發送的數百萬封垃圾郵件),這是正確方向上良好的第一步。但真正的解決方案是雇用一位有遠見的數據科學家。有才華的數據科學家利用每個人都能看到的數據;有遠見的數據科學家利用沒人看到的數據。

情景7:汽油中的鉛會導致高犯罪率。真的嗎

這種典型的分析和觀點可能在受尊敬的新聞媒體上出現過,然而這種分析不足以支持作者的觀點。根據Rick Nevin的計量經濟學的研究,禁用含鉛汽油約20年后,(汽油使用量高的)大城市的犯罪率達到高峰。20年的滯后是嬰兒受鉛影響到成為20歲罪犯所經歷的時間。至少這是一些著名的計量經濟學家基于過去大城市歷年犯罪率的分析而提出的論點。但這又是一個缺乏適當的實驗設計的例子。

那么,如何設計一個更好的研究呢?我們可以得到過去30年間所有特定規模的城市1萬人的均衡樣本,樣本分成兩個子集(罪犯和非罪犯),并檢查(使用比率)罪犯是否比非罪犯在出生時更容易受鉛影響??傊?,要跟之前的研究相反,要針對個體而不是城市——也就是看微觀層面,而不是宏觀層面——并進行經典的假設檢驗,使用標準抽樣和適當的實驗程序設計。

或者,如果你真的想研究原有的宏觀時間序列(假設數據粒度細到每月),那可以進行Granger因果關系檢驗,這樣會考慮原始時間序列轉為白噪聲后的所有互相關系的殘差(類似于時間序列的頻譜分析或相關圖分析)。然而,如果你有幾千個指標(因此會有幾千個時間序列和幾百萬個相關性),你最終會發現非常高的相關性純屬意外。這被稱為大數據的“詛咒”,在第2章中會對此詳細描述。

相關性不是因果關系。不要輕易聲稱是因果關系,除非你能證明它。很多時候,多個相互依賴的因素會對同一問題產生影響。當嬰兒潮一代(不太守法的一代)20歲時,也許正是犯罪發生高峰期。這可能是一個更可信的原因。

情景8:波音787(夢幻客機)問題

波音公司的夢幻客機推出幾個月后不久,由于其電池相關問題,被FAA(聯邦航空局)禁飛。主要的問題是其使用了從未在飛機上使用過的一種新型鋰電池。這種強大的電池容易過熱和著火,導致短時間內多次緊急著陸。

根本原因是設計電池的供應商缺少良好的實驗設計。這是一個質量控制問題,而質量控制在很大程度上依賴于分析。以下的一些提問證明了更好的質量控制和實驗設計可以解決電池問題。

這些電池(就像其他很多可以購買到的產品的電池,如汽車或筆記本電腦的電池)難道不能經過深入的質量控制檢測,采用健全的統計技術,確保電池次品率或生命周期內產品的失敗風險低于可接受的閾值嗎?

會不會是質量控制測試沒有根據最佳實踐進行?

過熱模擬能代表現實世界飛機起飛時的情況嗎?

“壓力”測試電池的時間夠不夠長?

是不是日本的質量控制標準更低?因為這些電池的設計和生產是在日本進行的。

這些電池的可靠性統計報告是錯誤的嗎?

一種可能的解決方案是使用更好的機制來冷卻這種類型的電池,但在飛機上從來沒有使用過這種方法,不過,過去手機就因為過熱而發生過火災,所以現在所有手機中都使用冷卻手段。與手機或筆記本電腦不同的是,在一架飛機上,因為外界溫度遠低于冰點,所以很容易冷卻(甚至是冷凍)。

情景9:NLP的7個棘手句子

NLP是指自然語言處理。當數據科學家分析非結構化的數據時,如原始(未分類)文本,將會面臨這類問題,所以我們在此將對該類問題進行說明。這類分析叫作文本挖掘。

以下7種類型的語言模式,很難用自動化算法進行分析。

“A land of milk and honey”變成“A land of Milken Honey” (這是針對 The Wall Street Journal 20世紀80年代以來的語料訓練而形成的算法,該語料里Michael Milken 提到的次數比 milk 多)。

“She threw up her dinner”與“She threw up her hands”對比。

“I ate a tomato with salt”與“I ate a tomato with my mother”或“I ate a tomato with a fork”對比。

以“ing”結尾的單詞——例如,“They were entertaining people”。

“He washed and dried the dishes”與“He drank and smoked cigars”對比(在后面的情況下,他沒有“喝”香煙)。

“The lamb was ready to eat”與“Was the lamb hungry and wanting some grass?”對比。

具有多重含義的詞,如“bay”,可能是一種顏色,或者窗戶類型,或者海灣。

在這些例子中,或者在情感分析中,數據科學家試圖猜測用戶意圖,以便正確地解讀數據,得到正確的答案或決策。例如,這可能會在以下情況中發生。

在分析谷歌搜索數據時,根據用戶查詢應該顯示哪些相關廣告?

對于發布在 Facebook 網頁上關于產品或公司的評論,如何分析評估它們是正面的還是負面的?

在分析 Facebook 的帖子時,如何判定一個帖子是不是因為違反了 Facebook 的政策或法律而應該被自動刪除?

用戶畫像(如果可用)指標,或網頁和電子郵件內容(特別是如果網頁已經分類了),可以幫助解決歧義。

情景10:數據科學家決定著我們所吃的食品

影響美國人吃什么的因素有很多,但最大的因素是食品雜貨店的利潤率。這解釋了為什么我們買不到紅醋栗或百香果,但可以買到高能量飲料和富含糖分的食物。當然,這有一個反饋循環:美國人喜歡甜食,所以許多公司生產甜的食品,并且由于大規模生產,所以價格便宜,因此食品雜貨店可以有效定價,銷售量也好。

這也說明超市可以通過更好的分析來增加收入。這一切的背后都是數據科學,數據科學有助于回答以下問題。

為了客戶利益和投資回報率(ROI),應該嘗試去賣哪些新產品?紅醋栗派?橘子酒?法國風味的櫻桃派?野豬肉?紫薯奶酪?紅雞蛋?球狀奶酪?(雖然球形不像平行的方形管道形狀,從存儲的角度來看不是最優的,但這是另一個數據科學問題。)

你如何確定一個新產品的成功或失敗?你如何測試一個新產品(實驗設計問題)?

哪些產品應該被淘汰?(美國的大多數雜貨店將不再出售百香果、百香果汁和正宗的意大利香腸。)

如何度量提升力(收入增長)?你有考慮營銷費用和其他費用等因素嗎?

如何給一件商品定價?

如何進行交叉銷售?

在營銷活動中,如何優化投資回報率?

什么時候及在哪里銷售哪種產品(根據季節性和地方性趨勢)?

如何改進庫存預測?

上次我去一家雜貨店,購買全脂無糖酸奶。我在商店里找了10分鐘,只找到最后的一盒(品牌是Dannon)。我已經準備多花點錢購買這種酸奶(世界上數十億人消費了幾千年的產品),而不是另兩種選擇:低脂肪,或原味帶甜的酸奶。(諷刺的是,這種“低脂肪”版本含有180卡路里,而以前普通的酸奶只含有150卡路里。這是因為低脂肪的產品中有玉米淀粉。)

隨著時間的推移,我發現雜貨鋪供應的產品數量正在減少。很多舊產品被淘汰,引入了一些新產品。顯然,這些被淘汰的產品市場較小,如百香果。但是,數據科學能不能更好地幫助食品雜貨零售商決定上架的商品,決定何時及在哪里銷售,并以多少比例和什么價格銷售呢?

答案是肯定的。一個好的解決方案是,借助具有較高預測能力的模型,在預測銷售量和(每種產品)收入時,顆粒度更精細,方差更小。在這種情況下,雖然很多人盡量避免有脂酸奶,但在西部和東部沿海地區有很多較瘦的人不介意喝原味酸奶。因此,在西雅圖或波士頓可以銷售原味酸奶(也許僅僅是幾十盒高價的產品,放置在低價低脂品牌旁),但在堪薩斯市則銷售不了。

這也為專用雜貨店創造了新的機會,如在美國西北部的PCC自然品市場,賣的正是其他超市已經停止出售的產品(只要是暢銷的)??傊?,是銷售能產生利潤但其他超市已經不再銷售的產品。

這個例子也說明了,對于數據科學家,溝通技巧是很重要的:提出了一種新方法,并說服高管使用這種方法,可以同時優化利潤,且給客戶帶來長遠的價值。當然,這樣的做法將是一個長期的戰略投資,在短期內可能無法滿足財務上的數字(公司的首席執行官需要和股東說明)。

情景11:用較好的相關性增加亞馬遜的銷售量

亞馬遜是如何通過重新定義相關性來增加銷售量的?答案:通過改進其搜索和相關性引擎,把物品價格當作主要的相關因素。這里所描述的優化和提升投資回報率的做法,適用于所有的數字化產品類別,雖然在本書中我們只針對書籍這個類目進行了討論。

1搜索引擎

當你在亞馬遜網站上的購書欄搜索關鍵詞時,返回的搜索結果頁面,有10本推薦的書與你的關鍵詞匹配。這是由搜索引擎執行的。搜索引擎會以某種排序顯示圖書。該排序是基于價格或關鍵詞相似度的。

2相關性引擎

如果你搜索一個特定的書名,亞馬遜還會基于其他用戶的購買記錄,顯示你可能感興趣的其他的書。這項任務是由相關性引擎執行的。

技術講義

相關性引擎的工作原理是這樣的:如果有m(A,B) 個用戶在過去30天內都購買了A書(是你想要購買的書)和B書,而k(A)代表購買A書的用戶數,k(B)代表購買B書的用戶數,那將A和B之間的關聯(從交叉銷售的角度,這些書的關聯程度)定義為R(A,B)=m(A,B)/SQRT{k(A)*k(B)}。所推薦的書籍排序完全由函數R(A,*)決定。

3更好的排序標準

昂貴的圖書將產生很少的銷售量,但有巨大的利潤。廉價的圖書利潤較少,但銷售數量能彌補每本書的利潤??傊?,如果顯示的書都跟用戶的相關性評分相同,那么在#1位置顯示的書的定價應使得預期總收益最優。圖1-1顯示了一個假想的最優圖書定價是21美元。

此圖基于模擬的數字,假設書售出的機會是圖書定價的指數遞減函數。也就是:

P(sale | price) = a * exp(-b*price)

其中sale為銷售量,price為售價。一個更一般的模型是:

P(sale | price, relevancy score) = a * exp(-b*price) * f(relevancy score)

其中relevency score為相關性評分。

另一種能進一步增加收入的方式是,將用戶數據也包含在公式中。一些用戶有能力購買一本昂貴的書。對于經常購買更昂貴圖書的用戶,應該在他們的搜索結果中,顯示更昂貴的書籍。

4把所有東西放在一起

當銷售產生時,我們怎么知道,是因為把正確定價的書籍顯示在了頂部,還是因為完美的相關性?例如,“數據科學”和“大數據”之間的關聯性很強,但“數據科學”和“云計算”之間的關聯性不是很強。如果你的目標是利潤最大化的話,那么是把一本昂貴的“云計算”書推薦給一位對“數據科學”感興趣的富人,或者給他推薦一本不太貴的與“大數據”相關的書,哪種做法明智?這也取決于你如何定義收入優化:是長期(關聯性更重要)或短期,還是短期和長期的混合。正如你所看到的,從價格因素中分離出關聯性影響是不容易的。

當關鍵詞或類別的相關性是基于“小數據”的(指專門的用戶查詢或銷售量小的書籍),價格因素特別有效。此外,檢測到底是什么帶來特定的轉化或銷售,是一個復雜的問題,這被稱為歸因。在復雜的情形下,宏觀經濟(長期,總量的)指標,混合了非常細粒度的實時屬性指標,可用于營銷組合優化。使用價格彈性模型和效率曲線也可進行價格分析。

另一個有意思的領域是自定義定價,實時地根據客戶、客戶的購買記錄(如果可用)、銷售該書的網站(根據網站的統計數據)和書本身來確定書價。一些研究表明,一個固定的價格是最好的,否則精明的用戶會嘗試多次購買相同的項目,直到他們得到可能最低的價格(雖然他們沒有辦法知道什么時候價格最低)。然而,向那些不介意購買昂貴圖書的用戶銷售高價圖書(根據他們的購買歷史),而不是推薦用戶已經購買過的書,是改善投資回報率最容易的方法。然而,在一些國家,這種定價策略已經被禁止,在其他一些地方也有爭議。特別要注意,如果定制化價格是悄悄執行,沒有被用戶了解和同意,還采用不道德的數據挖掘的做法并侵犯隱私的話,可能會導致用戶對你信任下降,并最終導致客戶流失、法律訴訟和收入下降。最終,用戶會注意到價格是定制的。

另一種最大限度地提高亞馬遜的利潤的方法,是按需求印刷書籍,而不是管理庫存、每月預測每本書的銷量。數據科學還有助于確定倉庫位置,以優化交付效果(在速度和成本方面),以及銷售稅的優化,從而更好地與其他書商競爭。

情景12:檢測Facebook上的假檔案或假“喜歡”數

某些網站出售假Twitter粉絲(1 000個粉絲10美金)、假的Facebook賬號,或甚至假的雅虎郵件賬號,用來傳播垃圾郵件,提升個人或零售商人氣,據說還可以用來促進銷售。他們預先告訴買家,這些粉絲是假冒的。他們也在網上賣在Facebook點的“喜歡”數,并且他們聲稱“喜歡”數是來自“真正的”Facebook用戶。

自動檢測假“喜歡”數最簡單的方法是看相關評論數:如果一個Facebook(或任何)帖子后有5000個“喜歡”數,但沒有評論或只有20條評論,并且評論內容都類似于“這是個很棒的帖子”,那就可以確定“喜歡”數和評論是機器人或水軍造假的。

數據科學算法就是根據這樣的指標,以及社交網絡圖、變化速度、近期賬戶創建和發布情況、自然語言處理和僵尸網絡/欺詐檢測規則來處理問題的。一些造假可以實時檢測到,而一些會稍后檢測和消除掉,比如通過臨時分析(數據分析師執行的反應式分析)或一天結束后的算法自動分析(慣例分析)。

情景13:餐廳的分析

對于小企業,特別是餐館,分析可以有很多種形式。這些企業需要解決的問題包括定價優化、庫存管理、銷售預測、獲取競爭對手的信息、客戶對你的建議(比如需要使用一些自動化軟件定期檢查客戶對餐廳的評論)、空間優化(餐廳最多可以放多少張桌子)、葡萄酒和奶酪的選擇、菜單變化的頻率、每天和每月的開業和歇業時間、維持的廚師數量(包括決定最佳薪酬)。

可能最容易解決的問題之一是桌子的布局。最佳的解決方案是讓2個座位的桌子靠在墻邊,4個座位的桌子在房間的中央。這些桌子應該是圓形的還是正方形的,平行于墻壁或形成一個45°角?很容易找到一個數學解決方案,或者至少做一些模擬,找出哪種最有效。正方形的桌子比圓形的好,可以輕松地組合起來,適應更大的派對。假設餐廳總是被預訂滿并贏利,如果你增加20%的座位容量,那么你的利潤也應該增加20%。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢