挑戰IT的12個難題(1 / 3)

挑戰IT的12個難題

吉姆·格雷,伯克利大學博士,德國斯圖加特大學博士,美國國家工程院院士。1998年度圖靈獎獲得者,著名的數據庫專家,數據庫和交換處理係統領域的領頭人,當今世界上最大的網絡數據庫項目——微軟公司TerraServeres計劃的籌劃人。

在亞特蘭大舉行的ACM會議上,吉姆·格雷接受了圖靈獎並發表了題為“WhatNext?——AdozenremainingITProblems”的圖靈獎演說,縱論了信息技術今後應解決的12個方向性研究課題。

這12個研究目標並非完全是格雷的個人看法,它們代表了眾多計算機科學家和信息學家的意見,有很廣泛的代表性,非常值得我們重視。

過去的幾十年中,信息產業一直以指數方式增長:摩爾預言半導體每18個月翻一番;1995年,格裏特(GeorgeGlider)預言網絡帶寬將以每年3倍的速度增長,這個預言看來保守了,帶寬的拓展速度比他預言的還要快。

當然,指數式增長不會沒有盡頭,總會出現某種情況限製這種增長,但對信息產業而言,由於不斷有新的發明克服接踵而至的障礙,所以始終保持著加速發展的勢頭。信息產業這種加速發展的情況,意味著它在不斷地重新定義自身:10年以前完全不可能做到的事,現在變得十分容易了,10年以後又將與目前大不相同。

1.可伸縮性

設計一個軟件和硬件體係結構,能將規模擴大到106倍。這意味著,一個應用係統的存儲和處理能力可以自動增加100萬倍,即通過增加資源能更快地工作,或在同樣的時間裏完成規模大106倍的工作。

我的大部分工作是受約翰·科克(JohnCocke,1987年圖靈獎獲得者,RISC概念的首創者)所描述的可伸縮性目標所激發起來的。這個目標就是設計一個軟件和硬件體係結構,使它能無限製地提高性能。但是,係統總會受資金、功率或空間的限製,因此較為現實的目標就是要實現由一個到成百萬個節點的係統,為同樣的問題工作。

實現可伸縮性導致了對大型計算機係統的所有方麵的研究。通過增加模塊使係統升級,由每個模塊去完成整個工作中的一小部分。隨著係統的升級,數據和計算不過是調度到新的模塊中去。當一個模塊失效時,由另外的模塊加以屏蔽並繼續提供服務。這種自動管理、容錯及分布負載仍然是目前具有挑戰性的問題。

幾年來,可伸縮性的研究進展驚人,目前已有很多這樣的係統,其中大部分來自互聯網。

互聯網是世界級規模的計算機係統,具有1億個節點,並且每年還在規模上加倍。人們擔心無法控製網絡和服務器的增長,我認為應當對協議和網絡工程進行更多的研究。另一方麵,巨型服務器迅速發展,一些公司已經推出了每天能處理10億個事務的係統。如何管理這些巨大的簇是一個相當嚴峻的問題。這種可伸縮係統的自動化目前僅僅實現了一部分。實際上,幾乎所有的大型機都需要一個專門的管理係統。

在下一個十年裏,解決可伸縮性問題將變得更為迫切。新型計算機的體係結構將會實現在單個芯片上有多重處理流,因此每塊處理器芯片將是一個對稱的多處理機(SMP)。另外一個趨勢是在微電子機械係統(MEMS)中引入處理器。這種價格僅為10美元的MEMS將具有傳感器、反應裝置,並且可在板上進行處理,在數目多達100萬個的MEMS係統上進行編程是極具挑戰性的。

2.圖靈測試

構造一個計算機係統使它至少能有30%的時間贏得模仿遊戲。

圖靈測試基於一種3個人玩的模仿遊戲。圖靈關於這個測試的原文很值得仔細研讀一下,他寫道:“我相信大約有50年的時間就可能實現這種計算機,它的存儲能力是現有計算機的109倍,使得它能在玩模仿遊戲時能夠讓一個訊問者在5分鍾內作出正確判斷的機會平均不到70%。最初的問題,‘機器能思考嗎?’,我認為太無意義了,不值得討論。但我相信在本世紀結束時,由於各種情況的改變,人們在談論機器智能時就不會遭到反駁了。”

在過去的50年裏,計算機在圖靈測試方麵已經取得巨大的進步,計算機已初步具有簡單的大腦存儲和計算能力。現在,機器智能成為很多科學家共同奮鬥的目標,計算機幾乎已經可以幫助人們進行所有的設計,如概念提取、模擬仿真、生產製造、測試和評估。但其中,計算機還隻是充當工具和合作者而非智能機器。這類計算機並沒有產生新的概念,它們隻是執行靜態程序,很少具有適應性或學習能力。即使在最好的事例中,也要預先建立好結構,使參數能自動地按照環境形成優化設置。這是適應,但不是學習新事物。所以,目前的超級計算機軟件和數據庫在下一個十年裏也不會通過圖靈測試。這裏需要一些與現在完全不同的想法。

我們還遇到了一個難題:基因染色體和大腦是如何工作的。對此,我們沒有一絲線索,找到有關答案將是一個極好的長期研究目標。

3.語音到文本

能像一個本地人那樣去聽。

4.文本到語音

能像一個本地人那樣講話。

5.像人一樣看

能識別物體和動作。

在圖靈測試中還隱含著兩個困難而富有挑戰性的問題:

(1)像人一樣讀和理解;

(2)像人一樣思考和寫。

這兩個問題和圖靈測試本身一樣困難。

目前,我們已經在另外三個稍容易一些的問題方麵取得了很大進展,它們是:計算機聽和理解自然語言、音樂和其他聲響。現在,將語音轉化為文本的係統已經達到了實用的程度,當然這得益於更快並且更便宜的計算機,也得益於對語言的深入理解方麵有了更好的算法、字典、詞法分析器和語義網絡。這個領域正在穩步發展,錯誤率每年下降10%,在不限定詞彙、經過一定訓練的說話者連續講話時能夠達到95%的單詞識別率。目前,計算機比大多數人能更好地理解英語,許多盲人、聽力不好和喪失聽力的人也開始使用語音到文本的轉化係統進行閱讀、聽和打字。

今天,已經有了簡單的語言翻譯係統。要使係統用英語通過圖靈測試,很可能要有更多的內部表示。如果一個人教這個係統第二種語言,那麼計算機就應有該種語言信息的類似的內部表示。這會開辟語言之間忠實互譯的可能性。也許有更直接的方法,但是到目前為止還不甚明了。

第三個領域就是視覺識別係統:構造一個能識別對象並且是動態對象(奔跑的馬,微笑的人,形體姿勢,……)的係統。在視覺表示方麵,計算機已經具有傑出的表現,但是還不如人。這也是一種人機共生的係統,但Lucasfilm和Pixar公司推出的係統所具有的特技效果令人驚歎。當然,要使孩子們和成年人都能實時地創作出這樣的圖像以進行娛樂或交流的想法仍然是一件富有挑戰性的任務。