一、為什麼元數據是數字圖書館資源描述的著錄格式自印刷術發明以來,書籍可以說是知識記載和流通的主要形式。直到近代各種專業組織和學會的興起,才有會議或是期刊論文的大量出現,與書籍分庭抗禮,形成二大文獻主流。由於書籍是淵遠流傳的主要知識流通形式,自然成為圖書館最主要的館藏文獻。為了能有效管理館藏書籍和提供有效率的服務,製作目錄一直是圖書館技術服務的核心工作,也是圖書館讀者服務的主要基礎。自從實現圖書館自動化管理後,為了要利用計算機來處理書目資料,使用的書目記載格式變為機讀編目格式,我們國家用CNMARC格式。
我國近二十年來,由於信息傳媒發展迅速,加之各種專業組織和學會的興起,刺激了學術研究的盛行。為了加快知識的流傳速度,最新的研究成果並不以書籍形式呈現,因為厚達數百頁的書籍,不但製作耗時,因此時效性較差,且發行成本昂貴。因此一般的最新研究成果是采用會議論文集或是期刊論文方式流傳。而最近五六年來,我國相當一部分期刊的內容都已數字化和商品化。期刊題錄索引,全文數據庫幾乎把最新的學術信息通過光盤和網絡及時地呈送到讀者麵前。
由於期刊或是會議論文的彙集和整理,是以數據庫的形式用光盤或從網絡上發行,並且掌握在少數機構和數字化公司手上,而公司這些機構往往是以謀求利潤以維持企業繼續生存為主,因此其數據庫具有付費和封閉性質。同時為謀求利潤的最大化,以避免單純的價格競爭,他們必須強調產品的差異性。因此其處理模式,本質上是差異化取向。由此觀之,不難體會到為何每家數據庫公司的數據呈現格式均不一樣。使得各種數據庫產品的使用方式、字段與接口多,因此圖書館常常花費很多的金錢用在購買數據庫上。
其次,全球信息網(Web)透過兼容性強的多媒體使用接口、易寫作的超文件標示語言(HTML)格式和使用超鏈接來串接多個不同文件,在短時間內形成一股風潮席卷全球,不但使互聯網走入一般人的日常生活,也無形中改變人們搜尋資料的習慣和期望。其中最主要的就是利用搜尋引擎(Search Engine),透過自動抓取程序在互聯網絡上抓取網頁,然後使用全文檢索的技術,以自動拆字(或詞)做索引的方式來建立其數據庫。這種運作方式固然可滿足部分的檢索需求,但是無法有效地篩選和過濾冗餘資料,這是其最大的弊病。
打個比方:我們寫信給某人,信寫完了應該寄出去,如在信封上隻寫:北京路77號,某某收。當收寄局收到這樣的信時,不知道應該往那兒發。因為,在全國大中城市中北京路實在太多了,南京有一條、上海有一條……所以這封信是根本發不出去的。在這個例子中,“北京路77號”就相當於用戶要檢索的目標,而郵政收寄分發樞紐就相當於搜索引擎,當用戶發出檢索指令後,它就按照用戶要求檢索出所要的結果,往往會讓人大吃一驚,因為它把成千上萬的信息都羅列在用戶麵前。又比如,我們想從網上搜尋2002年人民教育出版社高一語文(試驗修訂本)中魯迅《拿來主義》一文的多媒體課件。如果所有的課件均未著錄。那麼用搜索引擎的“高一語文”或“拿來主義”去搜索。就會出現成千上萬條的題名是“高一語文”“拿來主義”和內容中含有“高一語文”和“拿來主義”詞語的訊息,叫你無所適從。這樣一來,用戶隻能從這些“垃圾”數據占95%的信息中再大海撈針般地檢取和分離出自己所要的信息數據。
由於這些原因,使研究者意識到,為了資料檢索和管理的需要,對資料的適當描述仍是必須的。雖然如今計算機的運算速度驚人,但是檢索的有效率仍是亟待解決的問題。也就是說,用一種凡使用和輸出數字信息的用戶和提供者都能掌握的基本方式,對光盤和網絡上各種媒體形式的數據加以著錄。因此從不同角度描述信息特征的新型著錄格式元數據也就應運而生。
二、元數據的成因和特點
元數據最常見的英文定義是“data about data”,可直譯為描述數據的數據,主要是描述資料屬性的信息,用來支持如指示存儲位置、資源尋找、文件記錄、評價、過濾等的功能。從圖書館的角度來看,就其本義和功能而言,元數據可說是電子式目錄,因為編製目錄的目的,即在描述收藏資料的內容或特色,進而達成協助資料檢索並提高檢索效率的目的。
在眾多的元數據種類中,基於XML的都柏林核心集是近年來在國際間相當受矚目的一種。都柏林核心集(Dublin Core)是1995年3月由國際圖書館計算機中心(OCLC)等所聯合讚助的機構在美國俄亥俄州哥倫布市的都柏林鎮召開的研討會推出的研究成果。根據研討會的報告,都柏林核心集處理的對象,將限於“類文件對象”,意思是可用類似描述傳統印刷文字媒體方式,加以描述的電子檔案。我國台灣地區的中文元數據MICI-DC也采用DC架構,既在能處理的資料類型包括古文地圖,圖像/照片資料以及故宮的書畫,器物與文獻。DC元數據引進中國後,我國一些大型圖書館的專家們又結合中文文獻的特點研製出與DC元數據基本相近的中文元數據。一般圖書館的館藏,絕大部分都屬於我們以DC元數據為例,其著錄內容由15個基本元素構成,由DC修飾詞對這15個基本元素的語義進行限定和修飾。這15個基本的元素是:①題名、②創作者、③主題、④說明、⑤出版者、⑥其他責任者、⑦日期、⑧類型、⑨格式、⑨標識符、來源、語種、關聯、覆蓋範圍、權限。具體每個元素的定義和修飾詞在這就不再詳述了。那麼,元數據是以什麼方式來進行著錄和管理的呢?