熱線電話:13121318867

登錄
首頁大數據時代A/B測試:數據科學面試中的7個常見問題和答案,第1部分
A/B測試:數據科學面試中的7個常見問題和答案,第1部分
2022-03-14
收藏


注意:這是本文的第一部分。您可以在這里閱讀第二部分。

A/B測試,又稱受控實驗,在工業上被廣泛應用于產品上市決策。它允許科技公司用一個用戶子集來評估一個產品/特性,從而推斷該產品可能如何被所有用戶接收。數據科學家處于a/B測試過程的前沿,a/B測試被認為是數據科學家的核心能力之一。數據科學采訪反映了這一現實。面試官通常會向應聘者提出a/B測試問題以及商業案例問題(也就是指標問題,產品感覺問題),以評估應聘者的產品知識和推動a/B測試過程的能力。

在本文中,我們將采用面試驅動的方法,將一些最常見的面試問題與A/B測試的不同組成部分聯系起來,包括選擇測試思路、設計A/B測試、評估測試結果以及做出是否進行測試的決定。具體來說,我們將討論7最常見的面試問題和答案。

在你開始閱讀之前,如果你是一個視頻人,請隨意查看這個YouTube視頻,以獲得這篇文章的縮略版本。

在測試之前--不是每個想法都值得測試


a/B測試是一個強大的工具,但并不是每個想法都是通過運行測試來選擇的。有些想法的測試成本可能很高,處于早期階段的公司可能有資源限制,因此對每個想法都運行測試是不現實的。因此,我們首先要選擇哪些想法值得測試,特別是當人們對改進一個產品有不同的意見和想法時,有許多想法可以選擇。例如,UX設計師可能建議更改一些UI元素,產品經理可能建議簡化結帳流程,工程師可能建議優化后端算法,等等。在這種情況下,涉眾依賴數據科學家來推動基于數據的決策。一個面試樣本問題是:


在電子商務網站上,有幾個想法可以增加轉化率,比如允許多項商品結賬(目前用戶可以同時結賬一項商品),允許非注冊用戶結賬,改變“購買”按鈕的大小和顏色,等等,你如何選擇投資哪個想法?


評估不同想法價值的一種方法是使用歷史數據進行定量分析以獲得每個想法的機會大小。例如,在投資于電子商務網站的多項商品結賬之前,通過分析每個用戶購買的多項商品的數量來獲得影響的上限大小。如果只有很小比例的用戶購買了一個以上的商品,那么開發這個功能可能就不值得了。更重要的是調查用戶的購買行為,以了解用戶為什么不同時購買多個商品。是因為選擇的項目太少了嗎?是不是物品太貴了,他們只能買得起一個?是不是結賬過程太復雜了,他們不想再經歷一次?

這種分析提供了關于哪個idea是a/B測試的好候選者的方向性見解。然而,歷史數據只告訴我們過去是如何做的。它無法準確預測未來。

為了獲得對每個想法的全面評價,我們可以通過焦點小組和調查進行定性分析。從焦點小組收集的反饋(與用戶或有洞察力的用戶進行有指導的討論)或調查中的問題提供了對用戶痛點和偏好的更多見解。定性和定性分析相結合可以幫助進一步的想法選擇過程。

設計A/B測試


一旦我們選擇一個想法來測試,我們需要決定我們想要運行一個測試的時間,以及如何選擇隨機化單元。在這一節中,我們將逐一討論這些問題。

運行一個測試需要多長時間?


要決定一個測試的持續時間,我們需要獲得一個測試的樣本大小,這需要三個參數。這些參數是:

  • 第二類錯誤率β或冪,因為冪=1-β。你認識其中一個,你認識另一個。
  • 顯著性水平α
  • 最小可檢測效應

經驗法則是,樣本量n大約等于16(基于α=0.05β=0.8)乘以樣本方差除以δ平方,而δ是治療與對照的差值:


如果您有興趣了解我們如何提出經驗法則公式,請查看此視頻,以獲得一步一步的演練。

在面試過程中,你不需要解釋你是如何得出這個公式的,但你需要解釋我們如何獲得每個參數,以及每個參數如何影響樣本量。例如,如果樣本方差較大,我們需要更多的樣本,如果增量較大,我們需要更少的樣本。

樣本方差可以從現有數據中得到,但我們如何估計δ,即治療與對照之間的差異?

實際上,我們在進行實驗之前并不知道這一點,這就是我們使用最后一個參數的地方:最小可檢測效應。在實踐中,這是最小的差異。例如,我們可以考慮將收入增加0.1%作為可檢測到的最小效應。在現實中,這個價值是由多個利益相關者討論和決定的。

一旦我們知道了樣本量,我們就可以通過樣本量除以每組的用戶數來獲得運行實驗的天數。如果這個數字少于一周,我們應該運行實驗至少七天,以捕捉每周的模式。通常建議運行兩周。當涉及到為測試收集數據時,多總是比不夠好。

對照組與治療組間的干擾


通常,我們通過隨機選擇用戶并將每個用戶分配到控制組或治療組來劃分控制組和治療組。我們希望每個用戶都是獨立的,控制組和治療組之間沒有干擾。然而,有時這種獨立性假設并不成立。當測試社交網絡,如Facebook、Linkedin和Twitter,或雙邊市場,如Uber、Lyft和愛彼迎時,可能會發生這種情況。一個面試樣本問題是:


X公司測試了一個新功能,目標是增加每個用戶創建的帖子數量。他們將每個用戶隨機分配到控制組或治療組。該測試在帖子數量方面以1%的優勢獲勝。在新特性向所有用戶推出后,您預計會發生什么?會不會和1%一樣,如果不是,會多還是少?(假設沒有新奇效應)


答案是,我們將看到一個大于1%的值。原因如下。

社交網絡中(例如Facebook、Linkedin和Twitter),用戶的行為很可能受到其社交圈中人的行為的影響。如果用戶網絡中的人(如朋友和家人)使用某個功能或產品,則用戶傾向于使用該功能或產品。這稱為網絡效應。因此,如果我們以“使用者”作為隨機單位,并且治療對使用者有影響,這種影響可能會溢出到對照組,即對照組的行為受到治療組的影響。在這種情況下,對照組和治療組之間的差異低估了治療效果的真正好處。對于面試問題,會超過1%。

對于雙邊市場(如Uber、Lyft、ebay和愛彼迎):控制組和治療組之間的干擾也會導致對治療效果的偏頗估計。這主要是因為控制組和治療組之間共享資源,這意味著控制組和治療組將爭奪相同的資源。例如,如果我們有一個新產品在治療組中吸引了更多的驅動程序,那么在對照組中可用的驅動程序就會更少。因此,我們無法準確估計治療效果。與社會網絡不同,在社會網絡中,治療效果低估了新產品的實際利益,在雙邊市場中,治療效果高估了的實際效果。

如何應對干擾?



既然我們知道了為什么控制和治療之間的干擾會導致發射后的效果表現不同于治療效果,這就引出了下一個問題:我們如何設計測試來防止控制和治療之間的溢出?一個示例面試問題是:


我們正在推出一個新功能,為我們的騎手提供優惠券。目標是通過降低每次乘坐的價格來增加乘坐的次數。概述一個測試策略來評估新特性的效果。


有許多方法可以解決組之間的溢出,主要目標是隔離控制組和處理組中的用戶。下面是幾種常用的解決方案,每種方案適用于不同的場景,并且都有局限性。在實際應用中,我們要選擇在一定條件下效果最好的方法,也可以將多種方法結合起來,得到可靠的結果。

社交網絡:

  • 確保隔離的一種方法是創建網絡群集來表示用戶組,這些用戶組更有可能與組內的人進行交互,而不是與組外的人進行交互。一旦我們有了這些集群,我們可以將它們分為控制組和治療組。查看這篇論文,了解更多關于這種方法的細節。
  • 自我聚類隨機化。這個想法源于LinkedIn。一個集群是由一個“自我”(一個焦點個體)和她的“改變”(她立即連接到的個體)組成的。它著重于測量一次性網絡效應,即一個用戶的即時連接處理對該用戶的影響,然后每個用戶要么具有該特征,要么不具有該特征,不需要用戶之間進行復雜的交互。本文對該方法進行了詳細說明。

雙邊市場:

  • 基于地理的隨機化。我們可以按地理位置劃分,而不是按用戶劃分。例如,我們可以把紐約大都會區作為對照組,把舊金山灣區作為治療組。這將允許我們在每個組中隔離用戶,但陷阱是會有更大的差異,因為每個市場在某些方面都是獨特的,比如客戶的行為、競爭對手等。
  • 另一種方法是基于時間的隨機化,雖然不太常用?;旧?,我們選擇一個隨機的時間,例如,一周中的一天,并將所有用戶分配到控制組或治療組。當處理效果只持續很短的時間時,例如當測試一個新的浪涌價格算法時,算法表現更好。當治療效果需要很長時間才能有效時,如轉診方案,它就不起作用。用戶可能需要一些時間來引用他或她的朋友。



數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢