正文 基於關聯數據的語義數字檔案館框架設計研究(3 / 3)

5.2從固定的數據到可混搭的數據。關聯數據間可以隨意混搭,甚至可以和其他關聯數據的不同片段進行混搭。通過自下而上發布數據的方法,關聯數據技術為檔案部門提供了改善著錄現狀的機會。過去描述檔案數據,一條記錄作為一個獨立的整體,不能產生高粒度的信息。有了關聯數據技術,同一資源可以以分散的方式由不同的責任者提供不同的著錄數據,而這些數據可以整合在一起。文件生成部門提供某文件的原始數據,如題名、責任者等;檔案室添加文件歸檔時的信息,如歸檔時間、保管期限、室編件號等;檔案館添加館藏信息,如檔案館、館編件號等,查檔用戶可添加附加信息,如在維基百科的鏈接等。檔案館人員為所有這些與本文件相關的信息生成頁麵和鏈接,作為關聯數據發布到萬維網上。無數據冗餘,每個流程隻創建自己的部分數據;無需下載到本地,所有數據都“聯邦”鏈接;責任明確:哪個流程的元數據出問題,不會影響其他;無需統一工作平台:以數據為中心,流到哪個平台就在哪個平台加工。係統各組成部分鬆散耦合,互相聯係卻互不幹擾,整個係統成為一個不斷增長的有機體。

關聯數據技術可以幫助機構提高內部數據的整合過程,另一優勢是數據發布者可以將發布的數據的部分信息開放。即使機構內部的數據沒有完全開放,關聯數據技術也可以提高機構內部數據的發布過程。

5.3從低質量的數據到高質量的數據。關聯數據,能夠有效維護各單位不同類型數據的一致與完整性,為查詢者從大量的信息資源中獲取所需要的信息和問題提供解決方案。如,同一責任者“鄭州市人民政府”在不同單位可能簡稱不一,應該統一為同一名稱,但這樣做費時費力。如果將“鄭州市人民政府”賦予唯一的URI,各單位都引用這個URI,就可以保障數據的一致性,並減少數據冗餘。檔案部門的資源可以跨領域得到廣泛的參引。互聯網的域名係統保證了URI的穩定性、可信性和可持續性,這和檔案部門的長期保存信息資源的使命是一致的。

5.4擺脫數據格式和軟件商的限製。所有的技術都是有壽命的,每一階段代表性技術都不例外。關聯數據描述的數據(包含語義),不受限於數據格式(語法或者格式),因此,保證了關聯數據不會被格式的變化所淘汰。通過一般開源軟件就可以滿足開發需要。

6關聯數據技術在應用中可能遇到的問題

6.1技術難題:要實現基於關聯數據的語義數字檔案館,需要運用一些語義網的技術,例如SPARQL和OWL等,需要工具和技術支持。

6.2各相關係統封閉問題:關聯數據最大的阻礙就是封閉,如果其他數字檔案館、數字檔案室、OA係統都不開放,關聯數據也就無計可施。需要鼓勵更多的數據提供者參與進來,並且保證用戶能夠規範使用這些數據。

6.3關聯數據的監管問題:如果某一數據源的數據被修改或刪除,數據源之間的關聯很可能發生斷鏈現象,從而使得基於關聯數據的應用程序發生錯誤。需建立起有效的監測和修正機製以維護關聯數據的參照完整性和數據更新的同步性。

盡管基於關聯數據的語義數字檔案館目前隻是一個框架,也有可能遇到各種問題,但關聯數據是在語義網時代,提供對任何網上資源和數字對象進行著錄和規範控製的基礎技術。關聯數據技術為檔案行業帶來了千載難遇的新機遇,若能利用好這個機遇,檔案行業將成功實現向數字化、網絡化、開放化的華麗轉身,在網絡時代創造新的輝煌。

參考文獻:

[1]塗子沛.大數據[M].桂林:廣西師範大學出版社,2013:284.

[2]劉煒,胡小菁,錢國富,張春景,夏翠娟.RDA與關聯數據[J].中國圖書館學報,2011(197):35~42.

(作者單位:河南省鄭州市檔案局科技教育處來稿日期:2015-04-20)