正文 收集原生電子檔案應“圖文並存”(1 / 2)

收集原生電子檔案應“圖文並存”

業務研究

作者:程媛媛

檔案局2012年以令的形式發布了《電子檔案移交與接收辦法》,根據媒體報道和筆者調研掌握的情況,各地電子檔案收集的格式主要以圖片格式為主,文本格式為輔。眾所周知,圖片格式的電子文件較文本格式雖更具有不可更改性,但因受自身格式的限製,隻能通過題名進行檢索,不能實現全文查詢,這樣就會影響電子檔案的查全率和查準率,也與檔案數字化的初衷大相徑庭。而文本格式的電子文件雖然可以實現較為全麵的全文檢索,但其易於更改的屬性又與電子檔案管理保持原貌、保證安全的要求相違背。因此,多數檔案部門往往從“確保原生電子公文的真實性、有效性、安全性”的角度出發,而“棄文從圖”,要求“將原生電子公文以統一的數據格式(PDF格式)進行數據轉換,實行集中管理”。筆者認為,做好原生電子檔案的移交接收工作,必須注重規範其格式,應結合二者的優點,將收集到的“文”和“圖”,形成雙層PDF格式文件,使得兩種單一的電子文件轉化成“圖文並茂”的形式,達到既能實現全文檢索又能維持檔案原貌的效果。

實踐發現,如未同時收集文本電子文件而僅收集圖片電子文件,製作雙層PDF的方法雖然簡單,但實際操作卻較為繁瑣。下麵,我們介紹一種製作雙層PDF格式電子文件的具體步驟:

1.掃描一頁文檔,命名為1.tif。

OCR識別軟件,從圖片中讀取文件1.tif。

3.點擊左上方菜單欄中的“識別”選項。

4.得到識別後的結果。左側紅色方框為掃描圖片,右側紅色圓框為識別後文本。對文本進行校對、

修改後,點擊左上方菜單欄中的“WORD”選項。得到WORD格式的文本文件,保存並命名為2.doc。5.使用WORD2007軟件,打開2.doc。點擊“插入”,選擇“圖片”選項,將1.tif插入2.doc。

6.選擇“格式”,點擊“位置”、“其他布局”選項。選擇“襯於文字下方”,確定。即得到初始的雙層文件。此時文本與圖片未一一對應,因此能看到兩層。

7.將圖片調整至標準頁麵大小,進行文字排版,使其與圖片內容排版一致。注意:此項是製作的關鍵,調整應選擇微調,確保“圖”“文”上下一一對應。

8.選擇“文件”中的“另存為”選項,再點擊“PDF或XPS”格式。即得到雙層PDF格式文件。

以上操作方法雖然步驟簡便,但真正做起來卻較為繁瑣,尤其是第7項的“‘圖’‘文’上下一一對應”。通過實踐,筆者用一台

已使用5年的AvisionAW6300掃描A4幅麵1頁dpi為200點的文件,僅需要6秒,但後期進行OCR轉換、校對、圖文對應排版等步驟卻用了近3個小時,其工作量之大可見一斑。(當然,現在市場上有很多專業的雙層PDF文件加工係統,使用起來會相對便捷。)

因此,筆者認為在接收電子檔案時如果能夠同時接收其“圖”“文”兩種格式,會給檔案館日後的工作帶來巨大的便捷,接收電子文件格式的優先等級應為:“圖”+“文”>“文”>“圖”。