新影數訊 為電影“看病”
無數據不互聯
作者:賀文
有人稱他們是為電影“算命”,但劉晗以為,“看病”更準確。劉晗他們創業的新影數訊,就是將數據分析、數據挖掘應用到電影票房的預測上。這是一個創業不到兩年的團隊,現在是十餘人的規模,卻掌握了20000部電影、60000名藝人、4000位導演的數據資料,並能對微博80%活躍用戶中的影迷約8000萬人進行偏好分析。
劉晗介紹,新影數訊開發的“iFilm+”係統即通過數據分析,將影視作品和用戶的行為關聯起來。“我們挖掘用戶(影迷)對娛樂產品(影片)的娛樂訴求和價值感知,然後我們精準地計算出某部影片的受眾人群的意願。在知道了什麼樣的電影會成功之後,我們便能對製片人和導演提出決策建議。”在這一思路下,原本是B2C模式的電影產業,將出現C2B的變化。劉晗說,“iFilm+”預測一部電影的市場表現,在上映前一個月左右,其準確度能達到80%。
這套算法也不是萬能的。“iFilm+”能說明白應該怎樣做,卻不能解釋為什麼,這也不是“iFilm+”的缺陷,而是因為“大數據隻解釋相關性的問題,不解釋因果”。此外,這套算法隻能做到測算商業片的價值回報,卻算不出“電影能不能得獎,會不會感人”。
將數據分析、數據挖掘應用到影視領域,劉晗認為能做兩件事,預測和推薦。新影數訊選擇了toB“預測”,回避了toC“推薦”。因為中國的互聯網用戶,還沒有特別好的付費習慣,而比較常見的電影票抽成的做法,給他們這類服務商留下的利潤空間已經很薄。
“手工清洗”數據
事實上,電影行業利用數據,在好萊塢不是新鮮事兒。在好萊塢工業體係下,一部電影從研發、創作生產到發行,都能看到數據的身影。而且,好萊塢在數據庫建設方麵的基礎工作做得很早、很紮實。在中國情況則大不相同。有業內人士曾說,“中國電影產業多數時候都是拍腦門憑經驗,過去連每周票房的實際數據都拿不到,很多數據都不靠譜,更不要說其他精確數據了”。
那新影數訊的“iFilm+”,是如何解決數據來源難題呢?影片製作端、影片消費端這兩端的信息數據,“iFilm+”是如何完成積累的?
按照新影數訊的理念,電影的名稱、陣容、劇本、檔期、宣傳點、主題曲、互聯網版權等30多個參數變量共同決定了一部影片是否能獲得成功。他們的設想是,從過往上映的電影抽樣中,找到相關數據,然後利用計算機確定出定量和公式。這部分做法類似於好萊塢的票房預測體係。但“iFilm+”不僅如此,還引入了社交網絡的數據,將微博等社交網絡上涉及到演員、角色、電影結局等內容作為變量。“300個人月”,這是劉晗他們用在電影行業數據收集與整理上的時間。換句話說,如果有20個人手的話,得做15個月。
光有人力和時間的投入還不夠,還得有技術手段的介入。劉晗舉例說,很多網絡數據庫對於演員票房貢獻度的算法很粗糙,他們則是按照戲份的多少、台詞的多少等來計算演員票房貢獻度。即便像《十二生肖》這種由成龍編劇、導演、主演的影片,按照劉晗他們的係統計算,成龍的票房貢獻度也不到70%。最初的時候,劉晗他們甚至用“最笨”的方法——找人看一遍電影——來核實一些影片基本信息的真實與否。“這些電影行業的原始數據都是我們自己‘手工洗過’的,我們能做到現在這一步,也是因為幹了很多苦活累活,所以不怕新浪、騰訊或者百度。”劉晗說。
即便如此,電影行業本身的數據還都不是“大數據”,劉晗認為,社交媒體的用戶行為數據,才是真正的大數據。但這部分數據的收集和整理的難題是,如何過濾掉數據的“雜音”?劉晗反倒不認為這是難事。在創業之前,他曾在新浪的無線部門做技術,很熟悉新浪微博的底層技術,他還在中移動旗下的卓望公司工作過,參與搭建了卓望整個的開放平台,卓望當時主要負責中移動“移動夢網”。“抓取數據,識別僵屍粉絲、判定灌水、攔截機器人等,我們相對有得天獨厚的條件。”