大數據時代的一個特點,便是人們不願意再容忍信息短缺,或是靠個人的經驗智慧來預測、做決斷。決策者不僅要求數據說話,而且期待由巨量的動態中的數據來說話。這將成為決策的基本要求。有分析家大膽宣布:大數據預示著“理論”的終結。
IDC數據顯示,2006年全世界的電子數據存儲量為18萬PB,2011年這個數字已經達到180萬PB,短短5年間就已經增長了一個數量級,而根據預測,2015年這個數字則會達到如同天文數字般的800萬PB,大數據時代已經來臨。那麼,大數據這個概念孕育著一個怎樣的未來?綜合各方對大數據的研究和描述,大數據時代未來發展將出現4大發展趨勢。
大數據將改變人類生活、工作和思考方式
大數據與互聯網截然不同,互聯網重塑了人類交流的方式。大數據標誌著社會處理信息方式的變化。隨著時間的推移,大數據可能會改變我們思考世界的方式。
最早提出“大數據”時代到來的是全球知名谘詢公司麥肯錫。麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。”
早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地讚頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“大數據”才成為互聯網信息技術行業的流行詞彙。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。
在公元前3世紀,亞曆山大圖書館被認為收藏了全部的人類知識。而如果把今天全世界的信息平分給每一個活著的人,那麼每個人擁有的信息量將足足超過當年亞曆山大圖書館全部藏書的320倍。如果把所有這些信息刻到光盤上並且分5摞疊起來的話,那麼這些光盤可以一直堆到月球。僅僅在2000年的時候,全世界全部的存儲信息中還隻有1/4是數字化的,其餘的都保存在紙張、膠片和其他模擬介質上。但是由於數字數據數量的增長十分迅速——幾乎每三年就翻一番,這種情形很快發生了逆轉。今天,在所有存儲信息中隻有不到2%是非數字化的。
大數據到底有多大?一組名為“互聯網上一天”的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當於美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當於《時代》雜誌770年的文字量);賣出的手機為37.8萬台,高於全球每天出生的嬰兒數量37.1萬……
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類曆史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。
眾所周知,互聯網改變了企業經營、政府運作以及人們生活的方式。但是一種新的、不那麼明顯的技術趨勢卻有著同樣巨大的變革能力,那就是“大數據”(Big Data)。
大數據的趨勢發端於下麵這個事實:如今到處傳播的信息比以往任何時候都多出了許多,而且這一趨勢正在應用於非同尋常的新用途。大數據與互聯網截然不同,互聯網重塑了人類交流的方式。大數據標誌著社會處理信息方式的變化。隨著時間的推移,大數據可能會改變我們思考世界的方式。雖然互聯網使數據的收集和共享方便了很多。大數據的意義並不僅僅是通信:其本質是我們可以從大量的信息中學習到從較少量的信息中無法獲取的東西。
大數據的另一個特征是它能夠用數據來表現世界的眾多層麵,而這些層麵以往從來都沒有被量化過——這種特征可以被稱為“數據化”。例如,位置信息的數據化最早是由於經緯度的發明,而後來又有了GPS。當計算機對幾個世紀內的書籍進行取樣時,文字便成了被處理的數據。甚至連友誼和愛好也被數據化了——例如通過臉譜網。借助於廉價的電腦內存、高性能處理器、智能算法、聰明軟件以及從基本統計學中借鑒來的數學知識,這樣的一類數據正在被應用於難以置信的新用途中。這種新方法並不是試圖“教會”計算機去從事駕駛或翻譯這樣的事情,而是要向計算機輸入足夠多的信息,從而使它們能夠推斷概率,例如交通指示綠燈亮、紅燈不亮的概率,或者是在特定語境下“light”一詞意為“光”而不是“輕”的概率。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
美國《外交》雜誌題為“大數據的興起”一文就此指出,互聯網重塑了人類交流的方式。大數據則不同:它標誌著社會處理信息方式的變化。隨著時間的推移,大數據可能會改變我們思考世界的方式。
據報道,奧巴馬便是借了大數據的光,才獲勝連任。美國人常說,總統競選由捐款額決定勝負。奧巴馬的競選班子則聰明地意識到,信息社會要利用信息優勢。於是,早在2008年,他們就悄悄布下一場大數據戰役,確定了競選綱領,力爭舉棋不定的選民和捐款大腕。總統競選的班子從選民登記、電話民調、博客、推特、社交與視屏網站、用戶行為的電子軌跡等入手,收集信息,為每一個爭取對象建立了有80來個信息點(變量)的個人檔案,包括年齡、性別、種族、職業、教育背景、投票曆史、電視習慣,諸如此類。然後用專門編寫的大數據算法分析這些數據,推測選民的立場,關注什麼,擔心什麼,直至潛意識中最可能感動他的東西。就拿籌款活動來說,跟總統晚宴是少不了的,4萬美元一張餐券,邀請信美輪美奐,內容更見功夫。競選班子根據大數據分析結果,為受邀者量體裁衣。對於關心兒童和青少年教育的人士,邀請信會注明晚宴主持人的母親身份;對愛好文化藝術的,就安排表演節目或知名學者講話;而對“追星族”,則必有好萊塢或體育明星捧場。結果,奧巴馬一舉創下了11億美元的募款紀錄(Sasha Issenberg:《奧巴馬總統的競選如何用大數據大獲選民》,MIT Technology Review,2012年12月16—18日)。
更為關鍵的是,競選大數據計劃保持著全程動態,每一次競選活動得到的反饋都及時輸入數據庫,保證檔案能準確反映選戰的最新發展。必要時,還能激活自學程序,實時調整算法,讓決策和行動緊跟形勢。實際上,此次大選兩黨的募捐都很成功,但共和黨的競選班子太願意相信媒體發布的孤立的民調數字,反而對選民的感覺遲鈍了。直到離投票日隻有幾個月了,才意識到對手大數據戰略的厲害。這時,追趕已經來不及了。奧巴馬的成功連任,分析家都說,大數據功不可沒。
大數據的預測和決策精度可以達到85%以上。換言之,它使得成功的預測不再是隨機、難以把握的任務,而是建立在科學方法和巨量數據基礎上,具有極高的連貫性和可預期性。大數據成了信息時代的預測權威。
人類受自身生理器官和認知能力的局限,隻能收集處理極其有限的信息。幾千年來,人類一直致力於信息工具的改進與革新,如印刷術、圖書館、檔案館等,不斷突破自身和材料、技術條件的限製,拓展信息知識的利用。但這些進步並沒有改變預測決策的常態:信息缺失,寓意模糊,分析工具的處理能力不高。預測往往不甚可靠,每每失誤、喪失機會而渾然不知。直到數碼互聯網技術的發明,天地才豁然開朗。
大數據時代的一個特點,便是人們不願意再容忍信息短缺,或是靠個人的經驗智慧來預測、做決斷。決策者不僅要求數據說話,而且期待由巨量的動態中的數據來說話。這將成為決策的基本要求。難怪有分析家大膽宣布:大數據預示著“理論”的終結。
但大數據也並非那麼完美。正如哥倫比亞大學媒體創新研究所的漢森(Mark Hansen)所長指出:數據承襲了人類的所有缺陷。使用大數據如稍不當心,那些缺陷便會帶來失誤。大數據的職責是預測和決策支持,是處理未來跟未知。當未來與往昔情形相似時,大數據一般能有效發揮作用。但如果不盡相似或迥異,大數據就未必比人高明了;很可能比人錯得更厲害,因為它大,會成倍地放大人的缺陷。不幸的是,未來常常不同於往昔,充滿了偶然與突變。大數據就沒法當靈丹妙藥了;過度的信賴,有可能被誤導。
大數據將在全球範圍內催生服務產業鏈
以往大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,而現在提及“大數據”,通常是指解決問題的一種方法,即通過收集、整理生活中方方麵麵的數據,並對其進行分析挖掘,進而從中獲得有價值信息,最終衍化出一種新的商業模式。
很多人對數據的理解依然停留在“數字”的概念上,其實,數據的範圍已經擴大。人們發的每一條微博、電腦上聽到的聲音文件、監控器收集到的視頻信息都成為數據。不僅有數字,還包括文本、圖片、聲音、影像、地理位置。未來還可能包括利用生物技術收集的生物數據,比如指紋、脈搏、眼球移動記錄等。
以往大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,而現在提及“大數據”,通常是指解決問題的一種方法,即通過收集、整理生活中方方麵麵的數據,並對其進行分析挖掘,進而從中獲得有價值信息,最終衍化出一種新的商業模式。
事實上,大數據的影響並不僅僅限於信息通信產業,而是正在“吞噬”和重構很多傳統行業,廣泛運用數據分析手段管理和優化運營的公司其實質都是一個數據公司。麥當勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數據分析基礎之上的精準選址。而在零售業中,數據分析的技術與手段更是得到廣泛的應用,傳統企業如沃爾瑪通過數據挖掘重塑並優化供應鏈,新崛起的電商如卓越亞馬遜、淘寶等則通過對海量數據的掌握和分析,為用戶提供更加專業化和個性化的服務。
傳統的商務智能已經應用了數據倉庫和數據挖掘的技術,對企業自身的數據進行存儲、清洗、索引和分析,並能夠提供包括客戶價值評價、客戶滿意度評價、服務質量評價、營銷效果評價、市場需求評估等各種基於簡單統計和關聯挖掘的報表——這些統計結果對於企業自身評估和決策起到了重要的作用。在商務智能時代積累起來的和數據打交道的經驗既是大數據新商業模式技術和理念的基礎,又有可能束縛大數據商業革命,因為有經驗的商務智能人士會不自覺地把大數據分析庸俗化,認為隻是傳統商務智能針對更大規模數據集的一種平凡推廣。
未來,可能會形成一些產業的分工,比如哪些是做數據整合的,哪些是做數據服務的,哪些是做數據交換的,哪些是做產品運營和谘詢的等,部門都會逐步的清晰,這樣就會形成一定的市場規模,在不同的行業領域和細分市場裏都會出現比較專業的分工體係。
按照電子科技大學互聯網科學中心教授周濤的觀點,大數據商業模式也可以粗略地分為1.0版本,2.0版本和3.0版本。大數據1.0是指企業自身的產品和服務產生了大量的數據,通過對這些數據進行深入的挖掘分析,改進自身業務,改進後的業務吸引更多用戶或客戶,產生更大量的數據,形成正向的循環。亞馬遜是一個典型的例子,他們利用以“基於商品的協同過濾”為主要代表的一係列推薦算法,幫助用戶找到他們可能喜歡的商品。這種精準的個性化服務的背後,是非常複雜的算法和實時大數據處理能力。亞馬遜的算法大大提高了用戶的黏度和企業的銷售額,從而產生了更多有價值的數據,這些數據又幫助亞馬遜做得更好。
大數據2.0是指企業用自身業務產生的數據,去解決主營業務以外的其他問題,獲得重大的價值;或者引入非企業自身業務的外部數據,來解決企業自己遇到的問題。大數據2.0強調的是數據的外部性。Google曾利用網頁搜索詞的記錄,來預測流感爆發後隨時間變化的新增病例數。顯然,預測流感趨勢這一需求並不包含在記錄網頁搜索詞的初衷中。Zest Finance有一個口號,就是一切數據都是信用數據。實際上,他們大量采集用戶在社會媒體上留下的數據,從這些數據中對用戶的信用進行判斷,預測用戶拖延還貸的概率。Zest Finance通過這種分析,能夠在低於行業平均拖延還貸率的條件下,進行更快更低成本的貸款發放。顯然,用戶在社交媒體上產生的數據,並不是Zest Finance自身業務產生的,但是一樣可以服務於它的業務。
大數據3.0是一個尚在探索中的商業形態。它首先要求政府和行業,對數據質量、價值、權益、隱私、安全等產生充分認識,出台量化與保障措施。在此基礎上,數據運營商出現,形成了以加工粗數據和已有數據產品,產生新的數據產品的“數據客”(Dacker)。個人、團隊和企業通過數據API接口或其他方式付費使用數據產品,數據客、運營商和被加工原料所有者共同分享數據產品的利益。數據市場也可能應運而生,數據和數據產品有可能像今天淘寶集市上的商品被售賣交換。於是,一種新的以數據/數據產品為輸入,數據/數據產品為輸出的新商業模式誕生,這種模式不同於2B(to business)和2C(to customer)的模式——譬如一款精確位置告知實時空氣質量的API接口,既可能被企業和政府使用,也可能被個人使用。為了區分,我們稱這種模式為2D(to data)的商業模式。新商業模式的直接後果,就是促進學術團體、企業和政府通過大量異質數據和數據產品產生科學、社會、經濟等方麵的新價值。
艾瑞研究院院長曹軍波認為,“從大數據未來發展趨勢來看,圍繞大數據服務的產業鏈會逐步形成與完善。未來,可能會形成一些產業的分工,比如哪些是做數據整合的,哪些是做數據服務的,哪些是做數據交換的,哪些是做產品運營和谘詢的等部門都會逐步的清晰,這樣就會形成一定的市場規模,在不同的行業領域和細分市場裏都會出現比較專業的分工體係。互聯網僅僅是對線下數據的一個傳遞、組織、運營和研究、分析。單純的互聯網數據不能完整的刻畫和描述人類行為的全部數據,也有很多數據是基於傳統意義的線下數據。進入大數據時代,越來越多的這種所謂的線下數據變成了可處理、可運營、比較低成本的進行處理和應用分析的事情。這時,互聯網的數據也包含了很多傳統意義上認為是線下的一些數據,比如說像消費數據,比如說行為類信息,這些數據在互聯網運營服務時代變得可分析、可挖掘。未來線上線下數據融合模式是發展趨勢。”