前言

什麼是大數據

最早提出“大數據”時代來臨的是全球知名的谘詢公司麥肯錫。麥肯錫公司稱:“數據已經滲透到每一個行業和業務領域,成為重要的組成部分之一。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。”

2008年9月,《自然》雜誌推出了封麵專欄—“大數據”,內容講述了數據在生物、物理、工程、數學及社會經濟等多方麵學科所占據的位置和角色的重要性。

如今,“大數據”這個詞彙儼然成了工商界和金融界的新寵。在哈佛大學擔任社會學教授的加裏·金說:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程。無論學術界、商界還是政府,所有領域都將開始這種進程。”

說到這裏,還是有人對“大數據”不明所以:到底什麼是大數據?

“大數據”是從英語“Big Data”一詞翻譯而來的。“大數據”這一概念在近幾年逐漸被人們所熟知,並為全球各大企業所重視。簡單來說,“大數據”是一種巨量資料庫,可以在合理時間內達到擷取、管理、處理並整理為幫助公司、企業經營和決策的資訊信息。

隨著雲時代的悄然到來,“大數據”漸漸得到了越來越多的企業關注。後來,業界將“大數據”概括成四個V,即大量化(Volume)、多樣化(Variety)、快速化(Velocity)和價值化(Value)。

大數據不僅是量大而已

“大數據”的量到底有多大?根據2012年3月的一份調查結果顯示:在短短的一天之內,互聯網產生的資料內容可以刻滿1.68億張DVD;發出的社區帖子高達200萬個,相當於《時代》雜誌770年的文字數量;發出的郵件高達2940億封,相當於美國兩年的紙質信件數量;賣出的手機為37.8萬台,高於全世界每天出生的嬰兒數量37.1萬……

截止到2012年,數據量已經從TB級別躍升到PB、EB乃至ZB級別。(1024GB=1TB,1024TB=1PB,1024PB=1EB,1024EB=1ZB)。國際數據公司(IDC)經過詳細的調查研究,得出一個結論:2008年,全球產生的數據量為0.49ZB;2009年的數據量為0.8ZB;2010年的數據量為1.2ZB;2011年的數據量更是持續增長,竟高達1.82ZB。這個數據量,相當於全世界的每個人產生200GB以上的數據。可見,大數據的信息量有多大。

IBM公司稱,截止到2013年10月,全世界所獲得的數據中,有90%都是過去兩年內產生的。預計到2020年時,全世界所產生的數據規模將達到今天的44倍。

當然了,“大數據”不僅是量大而已,它還具有多樣化、快速化、價值化等優勢。

多樣化:數據的類型繁多。這種特質也讓數據被分為兩部分—結構化數據和非結構化數據。相對於以往那些以文本為主的結構化數據,非結構化數據越來越多,包括日誌、圖片、音頻、視頻、地理位置信息等。

快速化:處理的速度快。這是大數據區分於傳統數據挖掘的最明顯的特征。根據IDC的一份名為“數字宇宙”的報告,預計到2020年,全世界的數據使用量將高達35.2ZB。在如此浩瀚的數據麵前,處理數據的效率快慢決定了企業生命的長短。

價值化:價值密度低。價值密度的高低與數據總量的大小成反比。

我們來舉個例子:一部時長為一小時的視頻,在持續不間斷的監控中,有用的數據僅僅有那麼一兩秒而已。因此,如何通過強大的計算方式迅速地完成數據的價值“精純度”,已成為目前“大數據”背景下需要解決的難題。