正文 基於關聯數據的語義數字檔案館框架設計研究(2 / 3)

4.盡可能提供相關的URI,以使人們可以發現更多的信息。[2]

三元組的客體部分也可以變為主體,能產生新的三段式。比如上海,還可以有自己的屬性和值。謂詞、客體允許其他人使用自己的數據。三段式的任何一部分都可以回答檢索問題,三段式的任何一部分都可以集中很多信息。比如來自某小學的姚明的畢業證書,可以與某網站上姚明的照片自動關聯,隻要兩者生成的RDF三元組中“姚明”使用的是同一個URI。信息從而不僅僅是信息,已經轉化為相互聯接的知識。這種聯接是格式化數據的相聯,不是文本的相聯,是機器可理解和可處理的數據,是對現有數據的再利用,可產生新的資源,其又被利用、再利用,可無限擴展下去。

這種自動關聯,稱之為RDF鏈接。RDF鏈接是關聯數據技術應用最大的價值,它不僅可以對實體的內部資源進行鏈接,還能夠實現實體與實體之間的鏈接,從而將各自獨立分布的實體織成數據網絡,使得用戶能跟隨RDF鏈接從一個實體遍曆到另一個實體,獲取更多更加標準化和規範化的數據資源。

3語義數字檔案館概念及基本框架

本文提出了語義數字檔案館概念,主要利用關聯數據發布數字檔案館資源、擴展資源發現服務、實現數據整合與語義檢索服務、實現異構關聯數據的開放與複用。

從目前檔案部門數據來看,大部分是格式化的數據,如excel或dbf,也有非格式化的數據如PDF等,均不具備語義表達功能,要對這些分布、異構的數據進行共享和操作是很困難的,改變檔案數據著錄和發布標準,按照關聯數據標準對現有檔案數據進行改造、發布,顯得尤為重要。

本文設計了一個基於關聯數據的語義數字檔案館基本架構,其功能層有三層:數據發布層,數據存取、整合和保存層,數據應用層。

數據發布層主要由數據發布者構成,是核心部分數據網的數據提供者。各機構以關聯數據的形式發布本機構的信息資源。根據關聯數據的發布原則,首先確立每一個獨立存在的實體對象(例如單位、人員、事件、文檔),賦予其唯一的URI作為標識,將傳統數據轉成RDF三元組數據集。數字檔案館可將元數據集、機構、名人、事件等作為規範文檔發布為關聯數據。部分允許開放的檔案目錄數據也可以發布為關聯數據。

數據應用層由關聯數據消費者即查詢者構成,它們主要是應用數據網中的數據,來滿足自身的數據需求,其消費方式包括瀏覽、發現、抓取、檢索、混搭、推理、展現。

數據存取、整合和保存層,處於中間一層,由關聯數據的第三方參與者構成。它提供了一係列基礎服務,如本體詞彙的維護、不同本體詞彙間的相互映射、數據標識的規範控製等。這一層其實是關聯數據網的基礎設施,構建了數據發布者和消費者間的橋梁。

檔案部門可以存在於這三個功能層中,它可以作為數據的發布者而成為發布層的主要組成部分;它又可以成為關聯數據的消費者。更重要的是,檔案部門以其天然的權威性,可成為數據存取、整合和保存層的主力軍。其工作包括:製定域名策略,以保證URIs的一致性、穩定性,提高效率和質量;創建和維護URIs,保證URIs的持久性;保存元數據和屬性值詞彙;長期保存和維護數據集;實現不同本體詞彙之間的相互映射。

語義數字檔案館用RDF三元組替換檔案數據庫,用統一資源標識符(URIs)標識每一份檔案(無論是電子還是實物檔案)。

將檔案數據根據其性能分為三類:數據集、元數據集和取值詞彙。取值詞彙作為客體,有些值是常數,如2013,而有些則是可以識別的實體,如“鄭州市檔案局”。

生成的RDF三元組如下:

5基於關聯數據的語義數字檔案館應用前景

“關聯數據”自2006年提出至今,受到各界的廣泛關注,研究的深度和廣度都得到不斷拓展,應用領域也有長足的進步。然而問題和困難還是存在的,關聯數據的發展還有很長的路要走。但是其資源數量的龐大性、人機互動的靈活性以及信息發布的高效性,都決定了它未來發展的必然性。麵對大環境,檔案部門作為信息的采集者、儲存者和提供者,將關聯數據這一前端技術應用到工作中已是大勢所趨。

基於關聯數據的語義數字檔案館,不僅大大提高檔案資源的利用率,而且在更大程度上滿足社會公眾的文化需求,其優勢如下:

5.1從封閉的數據到開放的數據。目前檔案數據存儲在各自的數據庫中,沒有與網絡上其他數據資源整合。其實檔案數據和網絡上其他類型的資源,可以在日期、機構、人物、全宗、事件等方麵實現互連。檔案數據覆蓋眾多部門、機構、團體,經常需要數據交換與轉換,也就是需要數據開放。關聯數據技術本身並不要求將數據開放,但是該技術隨時可以將數據發布為關聯的開放的數據。不僅可以在本單位內使用、外部各種的應用也可以獲取並使用,數據成為網上的資源,不僅是人可讀的資源,還可以被電腦所使用,可在更大範圍內被任意鏈接和重用,發揮數據的最大價值,消除信息孤島。