大數據的核心在於帶來了分析信息的三大轉變,它導致了人們理解和組建社會方法的改變。
第一個轉變就是大數據時代的到來,讓人們可以更多地分析數據,不再依賴於隨機采樣,而是分析和某現象相關的所有數據。19世紀以來,當有大量數據出現時,人們的處理方法往往都是采樣,這種方法是在缺乏信息和信息流通受到限製的模擬數據條件下產生的。通常很多人會覺得這是理所當然的,可是當高性能的數字技術開始流行的時候,人們才明白這是人為的限製。和小數據範圍相比,大數據的分析能夠帶來更高的精確性,而從中還能挖掘出不少此前無法發現的細節問題。所以說,人們利用大數據看到了更多樣本本身無法揭示出來的細節信息。
第二個改變在於,大數據的研究和分析,讓人們對於精確度的追求不再那麼熱衷。在測量事物能力受限的情況下,人們最為關注的事情莫過於精確的結果。要是購買者不知道牛群裏的牛是80頭還是100頭的話,那顯然交易就很難進行了。一直到今天,人們還是習慣於在精確的基礎上建立數字技術。例如隻要電子數據表格能把數據排好,那麼數據庫的引擎就可以幫助人們檢索出內容完全一致的檢索記錄了。
在“小數據量”的情況下,這種思維方式是可行的,畢竟供分析的數據還不多,那人們就需要盡可能地去精準分析和量化每一項記錄。人們已經在某些方麵意識到差別的存在了,比如晚上打烊時的小商店總是細細地把每分錢都數清楚,可是沒有人會一分錢一分錢地去衡量GDP。隨著數據規模的擴大,人們就不再會那麼癡迷於精確度了。
專業的數據庫是達到精確的基本保障。針對小數據和特定的某件事情,人們能夠去追求精確度,像是某一個人想要確認自己的賬戶上是不是有足夠的餘額去開支票。可是大數據時代到來的時候,精確度的追求已經不可行,甚至不受到歡迎了。一旦有了海量的數據,人們所追求的目標就不再是精確度了。
複雜多樣的大數據,在全球多個服務器上分布。人們在擁有大數據的情況下不用再糾結於一個特定的現象,隻要是大方向掌握了就可以了。當然這不代表精確度就不需要了,隻不過是不希望人們隻是執著於此。微觀層麵上的精確度適當放棄一些,會讓宏觀層麵上的我們有更好的洞察力。
前兩個轉變促成了第三個轉變,那就是因果關係不再是人們熱衷去尋找的了。人類長時間都習慣於尋找因果關係。即便是沒有太多用途的因果關係,人們還是會習慣性地去找到這關係。可是到了大數據時代,因果關係的重要性漸漸被忽略了,取而代之的是事物之間的相互關係,這顯然是一個相當新穎且有價值的觀點。相關關係或許有可能無法告知人們事物發生的原因是什麼,但是能提醒大家有事情正在發生。很多情況下,這種提醒就足夠了。
或許數以百萬計的電子醫療記錄說明特定的組合橙汁和阿司匹林對治療癌症有作用,可是這種治療方法顯然要比找出具體的藥理機製重要得多。相同的,我們隻需要知道買機票的最佳時機是什麼時候,完全沒必要去理解價格瘋狂變動的原因是什麼。大數據能告訴我們“是什麼”而不是“為什麼”。現象背後的原因是什麼不需要人們去理解,隻要數據能夠自我發聲即可。
沒必要用少量的假設來進行分析,如果海量收據還沒有收集全的話。隻要是數據能自我發聲,那很多從前尚未為人們所意識到的聯係就會被人們所認識的。
就好比對衝基金在分析了社交網站Twitter上的數據信息後推測了股市的表現,亞馬遜和奈飛(Netflix)也在自己的網站上依據用戶的類似查詢來推薦商品,還有Twitter,Facebook和LinkedIn則是利用用戶的社交網絡來了解用戶的喜好等等。
幾千年前,人類就開始了數據分析。最初美索不達米亞平原上的記賬人員發明了書寫,隻為有效跟蹤記錄信息。聖經時代開啟後,為了人口普查,政府開始建立大型的國民數據庫。兩百多年來,精算師們也在大量收集數據,隻為了規避風險。
在模擬數據時代,收集和分析數據是一件很困難的事情,一旦有新問題出現,數據分析就不得不重新開始。來到數據化的時代,數據管理效率已經有了大踏步的進步了。數據化的進程將原本模擬數據轉化為了計算機可讀的數據,存儲和處理這些數據就不再那樣困難了,數據管理的效率也逐步提高。曾經要幾年才能完成的數據收集和分析,現在隻消幾天的工夫。不過改變不是唯一的。曾經人們有一種偏見,認為數據庫僅有單一的用途和價值,那是模擬數據時代的技術和方法所導致的。大數據轉變盡管是數字化促成的,但這絕不僅僅是計算機存在所能實現的。