1 引言

如今,IT行業進入到了一個關鍵的變革階段,這場變革正在改變人們對於IT資源的使用習慣和方式,改變人們對於信息的獲取、分享和交流方式,雲計算正是驅動這一全新浪潮的最大動力源泉。雲計算是一種基於互聯網的計算方式,是分布式計算(Distributed puting)、並行計算(Parallel puting)和網格計算(Grid puting)不斷發展的結果,它提供了一種全新的計算模式與商業實現[1]sup>。

隨著整個社會信息化程度的不斷提高,特別是在物聯網和移動互聯網的大力推動下,各行業的應用信息處理和數據服務的規模越來越大,各類數據密集型應用層出不窮,企業的信息係統、搜索引擎、各類互聯網服務、航天、新能源、核能模擬、地球物理、氣候預測以及生物信息、太空探索等科學計算類應用所產生的數據總量呈現幾何級數增長,IDC的研究報告指出,2010年全球產生了1.2ZB(1ZB=1萬億GB)數據[2]sup>,數字化信息規模的爆炸式增長推動了人們對信息存儲的巨大需求。圖靈獎獲得者 Jim Gray提出了一個存儲界的新摩爾定律,即每18個月新增的存儲量等於有史以來存儲量之和,UC Berkley研究顯示,未來3年內所產生的數據將超過過去4萬年中產生數據的總和,且93%新生成的信息將以數字形式存在。龐大的數據量在為人們提供更加智能和便捷服務的同時,也極大地增加了人們發現有用知識的難度。

雲計算環境下,海量的數據存儲在雲中,雲的數據存儲能力和計算能力以資源服務的方式呈現給用戶,而雲中的存儲和計算資源則是由大量不可信節點動態組合構建而來,雲中海量數據的存儲最終分布式地落在各個不可信節點上,這就對部署在不可信節點上的分布式存儲模型提出了新的挑戰。如何高效地對雲存儲係統中的海量數據進行存儲和管理,最終以資源服務的方式呈現給用戶,已經成為雲計算時代麵臨的新考驗,也成為當前熱點研究領域之一。基於上述分析,本課題提出“麵向雲計算的數據存儲關鍵技術研究”,對雲計算環境下數據存儲的關鍵技術問題進行研究。

本課題以國家自然科學基金項目“網絡環境下的服務管理的基礎理論研究”(No.60873192)、“動態網絡環境下的服務組合、重建與優化的研究”(No.61070182)、“麵向下一代互聯網的網絡服務建模基礎理論研究”(No.61170209)和“可編程網絡環境下多粒度服務與服務組合的機製研究”(No.61272508)為依托,是立足於雲計算環境下對數據存儲關鍵技術問題的研究。課題在對雲計算環境下數據存儲關鍵技術分析的基礎上,針對小文件存儲機製、副本放置策略、數據去重方法和係統能耗優化等關鍵技術進行了重點研究,對雲計算環境下數據存儲的關鍵問題建立了數學模型,提出了相應的優化策略、機製和算法,設計搭建北京科技大學校園雲存儲原型係統並對本書所提出的模型、機製及算法進行驗證。本課題對於進一步開展雲計算環境下數據存儲的理論研究和深入開發雲計算數據存儲實用技術具有深遠的意義和重要價值。