基於關聯數據的語義數字檔案館框架設計研究
理論探討
作者:石華
摘要:本文介紹了關聯數據概念,提出了基於關聯數據的語義數字檔案館概念,並設計了語義數字檔案館的框架,該框架具有四個層次:數據發布層、數據網、數據存取整合保存層和應用層。其核心是用RDF三元組替換檔案數據庫,將傳統的檔案數據發布為關聯檔案數據,實現檔案數據的共享、擴展和重用。
關鍵詞:語義數字檔案館;關聯數據;元數據;RDF
Abstract:Thispaperpointedouttheconceptsoflinkeddata,proposedaconceptionofSemanticDigitalArchivesonbasedonlinkeddata,anddesignedtheframeworkoftheSemanticDigitalArchives,whichincludesfourlayers-publicationlayer,webofdata,dataaccessintegrationandstoragelayerandapplicationlayer.ThecoreoftheframeworkismigratingtraditionalarchivedatatoLinkedArchiveDatawhichissharable,extensible,andeasilyre-usable.
Keywords:SemanticdigitalArchives;Linkeddata;Metadata;RDF
1前言
關聯,或者說“互相聯係”的概念對於檔案行業並不陌生,比如檔案整理就要求保持文件之間的有機聯係,還有“參引”的概念等。檔案人員花費大量的人力物力來著錄檔案數據,其目的之一就是揭示檔案和檔案責任者或其他背景之間的聯係,但其中的許多內在聯係,並不能為計算機所理解和使用。檔案數據被局限於各個不同的軟件係統和數據庫中,沒有和網絡資源整合在一起。檔案數據基本上沒有成為一種廣為人知的網絡存在,能夠被方便地查找、標識、選擇、獲取、利用及為第三方開發新的應用。近年來,關聯數據LD(LinkedData)技術的興起,第一次為上述目標的實現提供了一種可能。
2語義網及關聯數據概述
2.1語義網與關聯數據概念。萬維網的發明人蒂姆·博納斯-李將下一代互聯網稱為“語義網”,並解釋說“語義網就是數據網”。所謂“語義”,是指遵循一個統一的標準,給每一片信息賦予一個計算機都能理解的“意義”,也就是“元數據”。在當前使用的萬維網上,網頁是信息資源的基本組織單位,每個網頁都有一個網址,即“統一資源標識”(URI),它們通過開發者定義的鏈接連接起來,用戶可以從一個網頁跳躍切換到另一個網頁,即網上衝浪。
在語義網上,數據將像網頁一樣,成為組織資源的單位。一個數據,可以像萬維網上的網頁一樣獲得一個網址(即統一資源標識URI),同時,還有統一的語義對它進行描述。這樣,語義網上的數據,就不再是一個死的數字,而是一個活的“細胞”,它可以被定位,還擁有和其他數據語義一致的標簽,這意味著它可以和其他數據相聯。之所以稱之為相“聯”,而不是相“連”,是因為,它們並不是像網頁一樣通過一個鏈接簡單連在一起,而是通過數據之間內在的關係掛起鉤來,“聯”在一起。這種關係,不是隨便定義的,而是基於數據的含義和屬性產生的。這種相聯,就像兩個數據庫通過“主鍵”(Primarykey)相聯起來一樣,不同的是,這裏的“主鍵”,是一個數據的元數據。
“語義網,從某種程度上來說,就像一個全球性的數據庫。……語義網不僅僅是把數據放上網,它還要在數據之間創建聯接,數據一旦聯接,計算機和人都可以對數據進行探索:通過一個數據發現另外一些相關的數據。”[1]這將是一次劃時代的革命。而關聯數據是一種推薦的最佳實踐,用來在語義網中使用URI(統一資源標識符,即網址)和RDF(資源描述框架)發表、分享、連接各類數據、信息和知識(引自維基百科)。蒂姆·博納斯-李概括出在網上發布關聯數據的四原則:
1.使用URI(統一資源標識符)作為任何事物的標識名稱。
2.使用HTTPURI,任何人可以定位到具體的對象。
3.當有人訪問名稱時,提供有用的信息。