2、利用消重技術提高空間利用率
圖書館數據在存儲過程中往往有大量的備份數據,數據經過多次備份後,產生較多的數據重複,重複數據刪除技術在備份過程中能夠較好地消除重複數據,進而節約空間。對於重複數據備份,可以分為時間數據消重和空間數據消重。對於電子書籍等產生的數據一般屬於自然數據,其主要特點是,數據的變化率較低、完備的數據備份、數據長期保存、數據內容可以感知等,因此,適合采用時間數據消重。因此,就本校圖書館的數據整理,大約每三個月進行一次。
圖書館數據量龐大,僅僅一所5000人規模學校的中型圖書館,其電子圖書數據量就可達到15TB以上。因此,不能簡單采用與中小備份類似的解決方案,由於存在大量的圖形文件及影像文件等,其海量數據備份是一個非常耗時的過程,在熱備份情況下,可能需要花費近一個月時間。最佳實踐做法是,采用備份設施來拷貝數據並同時保證應用程序仍然可以讓客戶端使用。重要數據的備份可以使用有冗餘級別配置的主機或硬盤RAID。兩個獨立硬件控製的RAID陣列的軟件鏡像可以用來備份其關鍵數據。這種技術可以保證當某個磁盤或陣列發生故障時整個係統仍然可以使用,任何網絡組件的故障,如網卡、視頻設備、IDE控製器、電源等可以容易地替換而不影響運行。最經濟且非常有效的數據備份方案可以采取冗餘技術RAID4,即若幹個數據盤帶一個冗餘盤,在這些盤中的相應塊內,存儲的相應位的1的個數必須是偶數個。當某一個數據盤發生故障而更換了新盤後,隻要按照偶數個1的原則就可以將損壞了的數據恢複到新盤中。
在實際操作中,可以有多種備份方案,通常采用停機備份:正常關閉待操作數據,進行數據的冷備份。備份所有數據文件、控製文件、日誌文件和參數文件,把冷備份拷貝到新存儲設備上,然後新建一個同名實例,最後再把備份數據文件重新打開即可。
3、提高存儲空間的利用率
對於某項應用,傳統空間分配方案采用完全供給,以確保該應用擁有足夠的增長空間,這勢必造成大量的存儲空間閑置,在空間浪費的同時也造成了能源損失。采用自動精簡配置是一種較新的存儲空間管理技術。利用自動精簡配置技術,能夠幫助用戶在不降低性能的情況下,大幅度提高存儲空間利用效率,能使用戶實現接近100%的存儲空間利用率,因為數據需要多少空間係統則按需要進行分配,基本不產生多餘的空間。自動精簡配置技術的一個明顯的優勢在於可自動擴展分配卷,無須手動擴展,而且當需求變化時,無需更改存儲容量設置;通過虛擬化技術集成存儲,減少超量配置,降低總功耗。這也是解決機房耗能問題的很有效的方法。
三、總結
總的來說,對於數字圖書館大數據的存儲和管理都十分關鍵,有效地存儲和管理大數據是現代圖書館信息化管理的必要基礎,良好的數據管理技術能夠為圖書館管理工作的順利開展提供保障。所以,加強大數據存儲工作的管理,是未來數字圖書館發展的重要保證。