序言一 大數據:為華文世界提出一個重要話題(1 / 2)

許倬雲

塗子沛先生的新著《大數據》,已經完成,是一部300多頁的大作。最近他將這本書的打樣稿送來給我看,並且要求我作序文。可惜的是,我將要遠行,而他索序甚急,我隻能在瀏覽一遍之後,發抒自己一些感想。至於細細咀嚼和消化這本有趣作品的內容,必須要在一兩個月以後,也就趕不上塗先生大作的出版時間。我事先聲明,這些隻是我瀏覽他大作以後的一些感想,非常立即的直覺,也一時談不上深刻的見解。

這本書的內容,強調今天是一個大量數據公開於大眾的時代。自從資訊革命以來,資訊工具、硬件、軟件,平行發展、與時俱進。數據在我們生活之中,日常接觸,已是處處可見的現象。收集數據,當然是靠電腦的快速分類和記錄,然而更重要的是搜索引擎的進步,與網絡之間網際的交流。到今天,一個一個網,不但可以串連在一起,互相溝通,而且“雲端”(雲計算)的設計,可以將每一個地區個別數據,儲成一個大的數據庫,有助於我們更迅速廣泛地搜索。

這些現象,20世紀最後四分之一以來,已經呈現加速度發展的新事物,在21世紀進展速度之快,更是鋪天蓋地、無所不在。塗先生在這本書裏強調:不僅數據經過管理而大量地存在,而且,在現代的國家,尤其是民主社會,開放的社會與政府之間,經由數據,彼此一目了然、無所隱瞞。一個自由的社會,掌握公權力的政府,跟任何其他政府一樣,有壓倒社會的龐大力量,因為他們手上掌握了人生需要的許多數據。不過,這些數據,在自由的社會,公民也可以一樣取得,使政府所作所為,可以攤開在天地之間,讓我們檢驗。過去封建專製和集權各種政體,其執政者能壓迫老百姓,而老百姓沒有辦法回製公權力的壓迫。塗先生特別標榜,美國奧巴馬接任以後,盡力將數據開放於大眾,固然奧巴馬是一個有開放心胸的政治人物,如此將政府掌握的數據,大量地開放於群眾,也是拜時代之賜,有如此的機緣,才能將數據公開。

塗先生引用胡適之先生與黃仁宇先生的話。胡先生說中國人習慣於“差不多先生”,凡事馬馬虎虎、不求精確。黃仁宇先生認為,中國不懂得用數字來管理國家。塗先生引用這兩位先生的名言,當然是要彰顯傳統中國和今天美國之間的巨大差異。不過我必須有所說明:胡先生和黃先生的話語,都是“愛之深而責之切”的心態,他們身經當時中國的混亂,激憤而出此感言。

從曆史上看看,不論中國和西方,任何國家發展到可以有一個複雜文官係統管理以後,沒有不依照數據來治國的。人口、資源、土地、財產種種的統計數字,在中國曆史上,自從戰國時代形成列國的國家體製以後,沒有一個朝代不具有一定的數據庫;隻是以今天的標準來講,粗糙和細密之間,古今有很多的差別而已。以漢代為例,漢簡所顯示的家戶統計,每一戶中的人口,男女老小,以及擁有的資產數目字,都詳細統計,而且不論是居延邊塞,或是荊州內郡,格式一致。漢簡各種家戶統計,與唐代西域州府的記錄對比,其內容格式也是相當一致。這種基本的數據,在列朝的會典中,都見到其大概。當然,各個朝代的數據,有做得好的,也有做得差的。大致講起來,外族侵犯中國建立的朝代,以武裝力量強製建立政權,也往往依靠暴力的掠奪,取得他們所需要的資源。一個上軌道的朝代,其數據還是相當完整。