二、大數據的價值在於分析方法——基於不同案例的說明
那麼,大數據的價值在哪裏呢?大數據的價值不僅與信息技術和數據采集設備無關,而且也與數據本身無關。如前所述,數據實際上是信息技術發展的副產品。例如,學校設立新的信息係統是為了方便學生注冊,但該係統在使注冊工作更加方便高效的同時,也收集了大量數據。所以說,數據可能是不經意間產生的。隨著大量高校引入此類信息係統,由於市場競爭,其價格也會不斷下降。於是,即使高校與為其提供相應服務的公司沒有去刻意收集數據,其積累的數據也會與日俱增。由此可見,數據的獲取並非難事,隻要付出一點努力,你的數據收集量就會不斷增長。然而,實現數據的價值有賴於相應的分析方法。隻有我們能夠合理運用分析方法,才能從數據中有所收獲,並知道如何以完全不同的方式利用這些數據。接下來,我將通過我或我的同事在研究中遇到的各種案例,來說明分析方法對大數據應用的重要性。
首先,讓我們了解一下數據分析方法在提升數據運算效率中的顯著作用。眾所周知,根據摩爾定律,計算機的運算速度和性能每18個月便會翻倍。但與數據學家花費一下午的時間通過優化算法所提升的運行速度相比,它也隻能甘拜下風。我有一位同事每過幾天就要收集並處理一些數據,隨著時間的推移,他積累的數據越來越多。終於有一天,他的計算機已經不能處理如此龐大的數據。所以他向學校IT部門谘詢道:“告訴我,要買多大的計算機才能運行我的數據?”他得到的回答是:“需要一台價值兩百萬美元的超級計算機。”盡管他的確可以找人來讚助這筆費用,但是我讓兩名研究生花一小時改進了一下算法,就使之前需要超級計算機才能完成的運算僅需要一台筆記本電腦和20分鍾便可解決。由此可見,通過分析方法提升大數據運算效率的效費比要遠高於硬件設備。隨著分析方法不斷改進,它對大數據的發展將產生更為顯著和深遠的影響。大數據令人興奮,但是如果沒有分析方法,大數據便會毫無價值。
那麼,與傳統社科問題相比,大數據又需要麵對怎樣的新問題呢?我有一位已經退休的哈佛同事,為了研究積極參與者如何影響公共政策。他隨機調查了15000名美國人,向他們詢問諸如“你是否是一名政治積極分子?”“你是否花費時間去影響政策與政治?”之類的問題。然後,他將15000個調查對象縮減到2000人,對他們做了更為詳細的調查,並基於調查結果寫了一本關於政治實踐主義(Political Activism)的學術名作。其主要結論是,建設高效國家的前提,是擁有通過各種方式積極參與公共政策的公民。這本重要的政治學專著對社會科學也存在重要意義,因為它告訴我們想要了解政府和社會如何運轉,就必須去與人們接觸互動。然而當今社交媒體中關於政治觀點和公共政策意見的信息多達兆億。事實上,全球每天都有六億五千萬條社交媒體信息。你要如何去處理這些數據?回到家中寫到卡片紙上然後疊放在你的公寓裏?當數據量從六億五千萬變成七億五千萬的時候,數據會更有用嗎?當然不會,這會變得更棘手。但是,如果我們能弄明白如何分析這些數據的話,其中蘊藏的機遇也是不可限量的。我們根本不需要2000個訪談就能知道整個社交網絡上數以億計的用戶的觀點。如前所述,這其中有巨大的潛力,當然難度也是空前的。相比之下,分析2000個結構化的訪談信息可比分析這六億五千萬條內容多樣,語言也不盡相同的留言容易多了。但挑戰越多,潛力越大。更多數據並不能讓事情簡化,而需要文本分析方法從旁協助。以鍛煉為例,如果公共衛生人員通過詢問來測量人們的運動量,例如他們上周運動的次數,但作為調查對象的我們真能如實回答這個問題嗎?也許你回答的是自己的跑步次數而不是運動的次數,也許你認為自己是一個隻喜歡看電視的人,所以你的回答可能不真實。那我們又如何能使用這些信息呢?所幸現在我們有諸如手機和應用軟件等現代數據收集設備,可用於記錄我們的位置和運動量。即使如此,如何正確地處理這些數據中的內在聯係仍然是一項挑戰。同樣以上文中的運動問題為例,身處高速行駛的列車上,即使我靜止不動,手機中的應用也會持續記錄運動裏程。想厘清此類關聯並不容易,但這正是我們能發揮作用的部分。下麵,我會通過自己的一係列研究來向大家進一步說明這個問題。
二、大數據的價值在於分析方法——基於不同案例的說明
那麼,大數據的價值在哪裏呢?大數據的價值不僅與信息技術和數據采集設備無關,而且也與數據本身無關。如前所述,數據實際上是信息技術發展的副產品。例如,學校設立新的信息係統是為了方便學生注冊,但該係統在使注冊工作更加方便高效的同時,也收集了大量數據。所以說,數據可能是不經意間產生的。隨著大量高校引入此類信息係統,由於市場競爭,其價格也會不斷下降。於是,即使高校與為其提供相應服務的公司沒有去刻意收集數據,其積累的數據也會與日俱增。由此可見,數據的獲取並非難事,隻要付出一點努力,你的數據收集量就會不斷增長。然而,實現數據的價值有賴於相應的分析方法。隻有我們能夠合理運用分析方法,才能從數據中有所收獲,並知道如何以完全不同的方式利用這些數據。接下來,我將通過我或我的同事在研究中遇到的各種案例,來說明分析方法對大數據應用的重要性。
首先,讓我們了解一下數據分析方法在提升數據運算效率中的顯著作用。眾所周知,根據摩爾定律,計算機的運算速度和性能每18個月便會翻倍。但與數據學家花費一下午的時間通過優化算法所提升的運行速度相比,它也隻能甘拜下風。我有一位同事每過幾天就要收集並處理一些數據,隨著時間的推移,他積累的數據越來越多。終於有一天,他的計算機已經不能處理如此龐大的數據。所以他向學校IT部門谘詢道:“告訴我,要買多大的計算機才能運行我的數據?”他得到的回答是:“需要一台價值兩百萬美元的超級計算機。”盡管他的確可以找人來讚助這筆費用,但是我讓兩名研究生花一小時改進了一下算法,就使之前需要超級計算機才能完成的運算僅需要一台筆記本電腦和20分鍾便可解決。由此可見,通過分析方法提升大數據運算效率的效費比要遠高於硬件設備。隨著分析方法不斷改進,它對大數據的發展將產生更為顯著和深遠的影響。大數據令人興奮,但是如果沒有分析方法,大數據便會毫無價值。