案例丨大數據到底如何搞定電影票房預測?
時間:2016.7.9 來源:互聯網分析師
怎樣利用微博數據從股市中掘金?氣象臺怎樣預報天氣并發布預警?Google如何通過搜索行為預報流感爆發?這些有趣的問題背后,其實都隱藏著大數據的影子。基于對搜索行為、社交媒體等數據的深入分析,可以測量億萬用戶的情緒變化、描繪用戶的行為模式、挖掘用戶的潛在需求,最終發掘出數據中蘊含的真正價值。
2009年Google在《Nature》上公布了其利用搜索數據對全球流感疫情近乎實時評估的技術:(1)2012年微軟紐約研究院經濟學家David Rothschild在51個選區中準確預測了50個選區的總統大選結果 ;(2)美國印第安納大學和曼徹斯特大學的三位學者依靠Twitter的情緒分析預測未來3-4天道瓊斯指數的漲跌 ,準確率高達87.6%;(3)從1896年西洋影戲傳入上海徐園,到1905年中國拍攝首部國產電影《定軍山》,再到2013年全國電影票房突破200億 大關,有著百余年歷史的中國電影產業,在近幾年呈現出飛躍式發展的態勢,無論是影片質量、院線建設還是投資規模都有了長足的發展。與此同時,隨著“大數據”時代的到來,電影觀影群體、觀影偏好與心理、電影信息傳播和獲取方式也都在發生著深刻的變化。
搜狗搜索在大數據研究方面已經有一定收獲。自2013年開始,我們決定研發一個有挑戰性的社會化預測系統,命名為“深思”(這個名字來源于《銀河系漫游指南》中的一部超級計算機),在不同領域進行趨勢預測,期望通過這個綜合系統來發現隱藏在大數據背后的奧秘。
本文以搜狗為案例,分析其電影票房預測的相關技術,其他領域的研究成果將陸續發布。
票房預測:需求與現實
毋庸置疑,多樣化資本的加入是中國電影不可或缺的發展引擎,然而,電影行業以投資回報率難以預測著稱,大投入未必有大產出,票房預測工具的缺失使得投資者無法有效對沖投資風險,華人著名導演吳宇森的《風語者》就拖累了米高梅公司最終走向破產。因此制作與發行公司不得不考慮所有對票房有影響的因素:辣媽李小璐對《私人訂制》票房貢獻幾何;《風暴》票房為何遠低于其金牌制片人江志強預期;被吐槽“爛片”的《富山春居圖》和《小時代》緣何票房卻一路走紅;成龍大叔的《警察故事2013》有無必要拍成3D;《泰囧》的“報復性”觀影效應能否復現……這一切的一切其實都可以從“大數據”中找到答案。因為網絡上的每一次瀏覽、查詢乃至點擊所匯聚成的群體智慧都“蝴蝶效應”般地影響著電影的最終票房。
2013年Google在一份名為《Quantifying Movie Magic with Google Search》(5) 的白皮書中公布了其電影票房預測模型,該模型主要利用搜索、廣告點擊數據以及院線排片來預測票房,Google宣布其模型預測票房與真實票房的吻合程度達到了94%,但并未見其公開對未上映電影的預測結果。
搜狗公司借助“深思”系統,建立了更為復雜的模型,用于預測國內電影票房,并在新浪微博上提前發布了2013年12月國內上映電影的首周票房預測結果。很高興到目前為止預測結果與真實數據非常接近,同時,我們的模型還可以用于對影響票房的因素進行定量分析。
搜索查詢量的奧秘
搜狗搜索每天都響應上億次的搜索請求,查詢詞的分布和變化趨勢能夠很好的反映出中國網民的興趣點和關注指向。與Google的研究類似,我們也發現,電影上映前相關查詢詞的搜索次數與票房收入有著很強的關聯性。這一點很好理解,用戶的主動搜索行為體現了用戶對這部電影的潛在興趣。
我們選取了2013年1-11月國內上映的180部電影的票房和上映前的搜索量數據作為訓練集,用于訓練一個基礎的線性回歸模型。實驗發現,單純利用搜索量訓練得到的模型,預測得到的首周票房與真實票房的相關度R方值僅為68%,這與Google僅用搜索數據得到的結果70%很接近。(注:R方值取值為0至1,值越大表示模型預測效果越好),這個結果也說明無論在中國還是美國,用戶的搜索行為是很相似的。
用搜索量來進行預測票房是一個好的開始,但是準確度還遠遠不夠。同時很多搜索詞還存在歧義的情況,比如《生化危機》,既是電影也是游戲,混在一起會造成票房預測值偏高。進一步研究發現,游戲意圖的查詢請求量較為平穩,但電影意圖的查詢請求在上映前則有一個高峰,也可以通過用戶點擊的URL來進一步確認用戶的搜索意圖。因此模型需要再引入查詢量的變化趨勢和用戶點擊的分布情況。修正后的模型可以達到74%的準確度,這時模型已經可以對電影票房進行一個粗略的估計。
社交媒體:用戶的情感分析
社交媒體數據對票房預測也會有一定幫助。假設你是某個明星的粉絲,打算去看他主演的電影,那么你很可能會提前轉發該電影的相關微博給你的朋友。國外已經有很多預測項目都是在針對Twitter數據做研究,這里我們主要采用國內部分微博網站的數據來進行預測。通過自然語言理解技術,分析出用戶對未上映影片的情感傾向,從而轉換為用戶的觀影需求。進一步可以考慮的因素包括微博轉發深度、評論活躍程度,以及相關微博數量隨電影上映日期臨近的變化趨勢,這些數據都可以被有效的提煉為特征并加入到模型中。
微博數據的加入使得準確率超過了80%。
基于垂直媒體的預測
為了衡量電影發行公司的宣傳發行力度以及用戶對宣傳的關注程度,我們也引入了一些垂直媒體的數據來增強預測能力。這里選擇了一些知名電影站點和頻道進行統計,其中包括視頻類站點(搜狐視頻、優酷土豆、愛奇藝、騰訊視頻),娛樂類站點(搜狐娛樂、新浪娛樂、騰訊娛樂、鳳凰娛樂、網易娛樂)和電影資訊類站點(豆瓣電影、電影網m1905、時光網)。這些網站中電影的相關新聞數、預告片播放情況、用戶評論情況都可以通過定向抓取獲得,這些都是影響電影票房的重要相關因素。顯而易見,中小成本電影往往由于資金有限,不可能做到大范圍的宣傳,而大制作電影的宣傳就會鋪天蓋地。
從統計分析來看,豆瓣電影對票房轉換率的貢獻要高于其它站點,這可能跟站點的用戶構成相關。引入了垂直媒體的數據后,準確率從80%上升到了86%,提升效果顯著。
其它對票房有影響的因素
影響一部電影票房的因素非常繁雜,從電影導演、演員、編劇的票房號召力,到制片與發行公司的投資規模以及宣發成本,再到電影類型、產地、拍攝技術(3D,IMAX)以及是否續集,最后到上映時間、節假日、檔期、競爭影片、院線排片以及上映前后的觀眾關注度、口碑傳播效應甚至天氣都可以影響到一部電影的最終票房。
除了前面已經介紹過的因素外,模型中實際采用的特征還包括:
檔期的電影競爭情況。我們發現以往公開的票房預測模型中對每部電影都是獨立預測,沒有考慮電影間的競爭關系,這顯然是不合理的。我們采用了獨有的算法來估計同檔期的其它影片對市場份額造成的影響。
電影類型。有意思的是,通過對比實驗發現,科幻片最能提高票房,動作片和犯罪片次之,而文藝片、傳記片和動畫片在模型中表現最差。
電影產地。電影產地為好萊塢的電影,在其他因素與國產片相近的情況下,對票房大約有3000萬到1.2億不等的提升。
檔期。特定檔期對票房有額外的加成作用,這個也比較符合預期。
是否3D。出人意料的是,在其它因素相近的情況下,是否3D對票房的影響非常小,沒有顯著差異。看來“偽3D”們可以省點后期3D制作費啦。
預告片。通過視頻搜索預告片的趨勢也可以提前反映影片的受關注程度。
我們成功的把以上技術都整合到“深思”中,對用作訓練的2013年1-11月的電影首周票房數據,最新的模型能夠在交叉驗證的情況下達到95.5%的準確率。
因為訓練集電影的總數較少(180部),我們做了大量的額外工作以確保最后的模型不會出現過擬合(over fitting)的情況。此時的“深思”已經做好了對即將上映電影進行票房預測的準備。
實際預測效果
在實際研究過程中,12月份的電影上映前均使用“深思”系統預測了首周(7天)的電影票房,預測結果發布在一位團隊成員的微博上。預測效果如下,在已經預測的9部電影中,前4部大片的預測票房與真實票房很接近,比我們的預期還要略好一點。
結語
預測專家納特·西爾弗在《信號與噪聲:大數據時代預測的科學與藝術》一書中提到,大數據時代的預測更容易失敗,大部分失敗的預測都源于一種盲目的自信,用精確的預測來冒充準確的預測。
對此我們有著清醒的認識,目前的票房預測模型還有若干需要改進的方向。首先,目前模型的主要思想是通過電影上映前的用戶關注度來推算首周票房,這實際上沒有考慮電影上映后的口碑對票房的影響;其次,模型較為依賴歷史數據,可能難以識別一些上映后脫穎而出的小成本“黑馬”電影;再次,目前的技術只能提前10天預報出首周票房,還可以更加超前。
總體而言,“深思”系統代表了搜狗公司在社會化預測方面一些新的嘗試。我們試著從繁雜的海量數據中篩選出真正的信號,努力穿越不確定性的迷霧,區分出未來圖景的哪些部分可以預測,哪些不可預測。通向這個未來的道路還在探索之中,但目前工作已經取得了一些不錯的進展,并給予了我們更大的信心。