數據學概要
總編簽字
哪門新興學科將深刻影響人類未來?數據學或者數據科學肯定是其中之一。2002年數據學已被國際科學委員會確立為不同於計算機科學的獨立學科。近年,作為科學的數據學體係越來越清晰、完整,在實用中越來越重要。
一些人士和組織認識到數據對未來的重要性,在數據學認知缺位的情況下,或自已臆想,或引用別人並不正確說法,濫用數據學的概念和理論。在這種情況下,知識界需要對作為科學的數據學較有嚴肅的認知。
進入信息社會以後,數據以自然方式增長,其產生不以人的意誌為轉移。數據學最重要的基礎在於定義了數據自然(data nature)。數據自然是所有存入信息係統的數據總集合,包括數字、字符、音視頻以及計算機程序等。與大自然一樣,數據自然也有未知、複雜、多樣等屬性。
在數據自然的視角下,人、社會、大自然及其曆史,都將轉變成數據自然,人類同時生活在大自然和數據自然之中。人類將通過探索數據自然來了解大自然,了解社會和人類行為。在數據自然的視角下,數據學被定義為研究探索數據自然奧秘的理論、方法和技術,通過研究數據自然,揭示大自然和人類行為的規律。
在數據學的體係中,要在數據自然中獲得收益,與在大自然中獲得收益類似,需要采用一係列技術方法。
首先要對數據自然進行數據勘探,探查數據集的總體特征和數據集的結構,判斷數據集的價值,為下一步開發利用該數據集提供依據。數據抽樣和數據分析是數據勘探的基本方法。
完成數據勘探,與采礦、洗礦類似,可將相關數據集從數據自然中提取出來並加以清洗,稱之為數據獲取。數據再通過整合,使之在邏輯上相關聯並使之便於訪問,就可存入數據倉庫。接著,可采用數據挖掘技術對數據倉庫進行處理,尋找數據的內在規律並以可視化的形態展示。數據獲取、數據整合、數據倉庫和數據挖掘均經過多年發展,比較成熟,現在都可以歸入數據學的範疇。
麵對大自然,人類可以用科學實驗的方法,通過有控製的幹預,發現對象的新特點、新規律,從而加以利用,獲得收益。例如在實驗室中可以合成新的化合物,培養新的物種,再將其量產。
按數據學理論,麵對數據自然,也可以采用數據實驗的方法,通過幹預和控製數據,發現數據自然、人類社會和大自然的新規律,新特點,並設計出將其轉化為生產性活動模式。
數據實驗可以模擬企業運行、政府運作、社會現象。比如,可以模擬新產品投產上市後的運行,模擬不同氣候條件下流感的傳播等。在數據實驗中,可以輸入不同參數,對數據模型調優。數據實驗還可以模擬自然現象,比如極端氣候,用來評估災害。
數據實驗是數據學最主要的研究方法,用來模擬大自然和人文社會,用來驗證假說和規律。它比用於發現數據相關性的數據勘探和數據挖掘,在探索數據自然的深度上又前進了一大步。
近年,一些先進的企業設立了首席數據官(CDO),招聘數據科學家,成立與IT部門並立的數據部,試圖在企業運營中運用數據學的方法。未來,我們可以期待數據學將像從前的IT一樣,對企業和人類社會產生極為深遠的影響。