
大數據分析技術應用 揭秘谷歌票房預測模型_數據分析師
2013年6月,谷歌公布了一項重要研究成果 – 電影票房預測模型。該模型能夠提前一個月預測電影上映首周的票房收入,準確度高達94%。這在業內引起了強烈討論,不少內人士認為該模型非常適合好萊塢電影公司通過預測票房來及時調整電影營銷戰略,但同時也有吐槽者暗示谷歌的票房預測模型別有用心,旨在鼓動電影公司購買其搜索引擎廣告。那么,孰是孰非,谷歌票房預測模型以及大數據在電影行業的應用是噓頭,還是大有來頭,讓我們來一探究竟。
谷歌票房預測模型的基礎:電影相關的搜索量與票房收入的關聯
谷歌的票房預測模型是大數據分析技術在電影行業的一個重要應用。隨著互聯網的發展,人們越來越習慣于在網上搜索電影信息。據谷歌統計,從2011到2012年,電影相關的搜索量增長了56%.谷歌發現,電影相關的搜索量與票房收入之間存在很強的關聯。
圖1顯示了2012年電影票房收入(紅色)和電影的搜索量(灰色)的曲線(注:本文的所有圖片均引用自谷歌的白皮書:Quantifying Movie Magic with Google Search)??梢钥吹?,兩條曲線的起伏變化有著很強的相似性。
(紅色是票房收入,灰色是搜索量,橫軸是月份,縱軸是數量)
更進一步地,谷歌把電影的搜索分成了兩類:
I. 涉及電影名的搜索(Movie Title Search);
II. 不涉及電影名的搜索(Non-Title Film-Related Search)。這類搜索不包含具體的名字,而是一些更寬泛的關鍵詞搜索,如“熱門電影”、“愛情片”、“好萊塢電影”等。
圖2顯示了票房收入與這兩類搜索量之間的關系。從圖上可以看到,大部分情況下,第I類搜索量超過第II類搜索量。但在電影淡季的時候(圖中灰色橢圓區域,這時候票房收入較低),第I類搜索量會低于第II類搜索量。這符合常理,因為在淡季的時候知名度高的電影很少,人們往往用更寬泛的搜索來尋找想看的電影。
圖2. 2012年票房收入和兩類搜索量的曲線
(紅色代表票房收入,藍色代表第I搜索,灰色代表第II類搜索,橫軸是月份,縱軸是數量)
這一發現對電影的網絡營銷來說有一定的指導意義:在淡季的時候,電影公司可多購買相對寬泛的關鍵詞的廣告,而在旺季的時候,多購買涉及電影名的、更具體的關鍵詞的廣告。
「提前一周預測票房,可達到92%的準確度」
上面的討論表明用電影的搜索量來預測票房是有可能的。那么,如果單純使用搜索量來預測首周票房收入,效果怎么樣?通過對2012年上映的99部電影的研究,谷歌發現僅依靠搜索量來預測是不夠的。谷歌嘗試構建了一個線性的模型,但只達到了70%的準確度(如圖3)。
圖3. 搜索量與首周票房收入之間的關系
(橫軸是搜索量,縱軸是首周票房收入,灰色點對應某部電影的搜索量與首周票房收入)
為了構建更加精確的預測模型,谷歌最終采用了四類指標:
(1)(電影放映前一周的)電影的搜索量
(2)(電影放映前一周的)電影廣告的點擊量
(3)上映影院數量
(4)同系列電影前幾部的票房表現
其中每類指標又包含了多項類內指標。
在獲取到每部電影的這些指標后,谷歌構建了一個線性回歸模型(linear regression model)模型,來建立這些指標和票房收入的關系。線性回歸模型,在大數據分析領域里算是最基本的模型之一,它認為票房收入與這些指標之間是簡單的線性關系。
圖4展示了模型的效果,其中灰色點代表了實際的票房收入,紅色點代表了預測的票房收入??梢钥吹?,預測的結果與實際的結果差異很小。
圖4. 提前一周預測票房的效果
(橫軸是搜索量,縱軸是首周票房收入,灰色點對應某部電影的首周票房收入,紅色點對應預測的首周票房收入)
「提前一個月預測票房,可達到94%的準確度」
盡管提前一周預測可以達到92%的準確度,對于電影的營銷來說,價值并不大,因為一周的時間往往很難調整營銷策略,改善營銷效果。因此,谷歌又進一步研究,使得模型可以提前一個月預測首周票房。
實現提前一個月預測的關鍵在于:谷歌采用了一項新的指標 – 電影預告片的搜索量。谷歌發現,預告片的搜索量比起電影的直接搜索量而言,可以更好的預測首周票房表現。這一點不難理解,因為在電影放映前一個月的時候,人們往往更多地搜索預告片。
僅使用預告片的搜索量仍然不夠,因此谷歌的模型最終采用了三類指標:
(1)電影預告片的搜索量
(2)同系列電影前幾部的票房表現
(3)檔期的季節性特征
其中每類指標又包含了多項類內指標。
在獲取到每部電影的這些指標后,谷歌再次構建了一個線性回歸模型(linear regression model)模型,來建立這些指標和票房收入的關系。
圖5展示了模型的效果,其中灰色點代表了實際的票房收入,紅色點代表了預測的票房收入??梢钥吹?,預測結果與實際結果非常接近。
圖5 提前一個月預測票房的效果
(橫軸是預告片搜索量,縱軸是首周票房收入,灰色點對應實際某部電影的首周票房收入,紅色點對應預測的首周票房收入)
為什么谷歌采用了這么簡單的模型
前面的分析中已經提到,谷歌采用的是數據分析中最簡單的模型之一-線性回歸模型。這對很多讀者來說多少有點意外。為什么谷歌用的模型如此簡單?
首先,線性模型雖然簡單,但已經達到了很高的準確度(94%)。簡單且效果好,是我們在實際應用中一直追求的。
其次,簡單的模型易于被人們理解和分析。大數據分析技術的優勢正是能夠從大量數據中挖掘出人們可以理解的規律,從而加深對行業的理解。正是因為谷歌使用了線性預測模型,所以它很容易對各項指標的影響做出分析。例如谷歌的報告中給出了這樣的分析結論:“距離電影上映一周的時候,如果一部影片比同類影片多獲得25萬搜索量,那么該片的首周票房就很可能比同類影片高出430萬美元。若一部電影有搜索引擎廣告,我們也可以通過其廣告的點擊量來推測票房表現——如果點擊量超出同類電影2萬,那該片首周票房將領先750萬美元”。
對于電影的營銷來說,掌握各項指標對票房收入的影響,可以優化營銷策略,降低營銷成本。谷歌的報告中指出,用戶一般會通過多達13個渠道來了解電影的信息。票房預測模型的出現無疑使得營銷策略的制定更加有效。
大數據分析在電影行業的應用前景:把模糊的行業經驗變得更科學,更精準
票房預測模型的公布,讓業內人士再次見證了大數據的成功應用。近年來,大數據在電影行業的應用越來越引起關注,比如此前谷歌利用搜索數據預測了奧斯卡獲獎者,Neflix通過大數據分析深度挖掘了用戶的喜好,捧紅了《紙牌屋》等。但大數據對電影行業的價值到底如何,仍然眾說紛紜。夢工廠CEO卡森伯格最近接受騰訊財經專訪時發表了一個似乎悲觀的態度:電影創作靠創造力,不靠數據分析。
要理解大數據對電影行業的影響,首先需要對大數據分析有正確的認識。大數據分析的本質,在于通過數據,更精準地挖掘用戶的需求。而誰能掌握用戶的需求,誰就可以引領行業的發展。谷歌的票房預測模型,本質上也是通過搜索量,挖掘出用戶對電影的需求有多大,進而預測出票房收入。值得注意的是,谷歌的模型基于的只是宏觀的搜索量的統計,對用戶需求的挖掘相對表面。如何從搜索數據中更深地挖掘用戶的需求將是未來的趨勢之一。
既然大數據分析的核心是挖掘用戶需求,所以一大核心問題是:哪些用戶的需求是可以從數據中挖掘到的?要知道,并不是任何需求都可以被挖掘到,或者說可以被精準地挖掘到。能夠通過大數據分析挖掘到的需求,一般是符合行業經驗的,應當是業內人士覺得可以被挖掘的(有時候,挖掘出的需求可能會超出行業經驗,甚至產生顛覆性的影響)。谷歌的預測模型的基本假設,是符合行業直覺的,即電影的搜索量越大,往往票房收入越大。模型能夠提前一個月預測票房,也符合行業經驗,正如谷歌的一項行業調研揭示的:大多數觀眾會在電影首映4周前去了解電影。數據分析技術,是把這種模糊的行業經驗,變得更科學,變得更精準。而這一過程,很可能會深層次地改變電影行業。
要將大數據分析更廣泛地應用于電影行業,可以從以下幾個方面去探索:
一. 我們可以獲得哪些數據。大數據時代的特點是數據來源廣泛,可以是業內發布的數據,也可以是來自搜索引擎、社交媒體等的數據。有些數據看似關聯不強(比如社交媒體數據),但往往能從中挖掘到用戶的潛在需求。
二. 從數據中,我們想挖掘什么信息。谷歌的模型,挖掘了搜索量等數據與票房收入的關聯;Netflix的模型,則挖掘了觀眾對不同電影的偏好,以及其他的行為特點。挖掘什么信息,一方面取決于我們有哪些數據,另一方面也取決于什么樣的信息可能有助于商業決策。
三. 有什么行業經驗是可以結合的。單純地數據分析,可能會找到很多規律,但這些規律未必是有實際價值的。只有當數據結合行業經驗,才更容易形成精準的行業模型,從而產生巨大的價值。
而卡森伯格說的“不靠數據”,更多的是強調電影創作本身。電影的創作充滿了藝術,是很難形成科學的規律的。即便如此,大數據對電影創作也可以起到一定的輔助作用。畢竟,了解觀眾的需求,也是電影創作的重要參考。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25