一、“圖文並收”的注意事項
圖文並收”即同時收集電子文件的“圖”格式和“文”格式。需要注意的是,“文”格式應為定稿的文本格式,“圖”格式應為其對外公布文件的圖片格式,且兩種格式的電子文件排版格式必須一一對應,可上下重疊,便於雙層PDF的直接應用。
二、收集“文”格式的注意事項
收集“文”格式電子文件必須注意其易於更改的特點。下麵,我們以WORD2007為例,介紹接收中便於保持電子文件原貌的具體步驟:
1.打開一個WORD文檔1.doc。選擇“審閱”、“保護文檔”選項,再選擇“限製格式和編輯”。
2.選擇“僅允許在文檔中進行此類編輯”和“不允許任何更改(隻讀)”後,點擊“是,啟動強製保護”。
3.輸入密碼,確定,存盤。
此時,文檔已改為隻讀模式,可以避免誤更改等現象發生。
三、收集“圖”格式的注意事項
收集“圖”格式電子文件的目的,一是直接用於利用,二是將“圖”通過OCR轉化成“文”後,通過“圖文並存”,達到“圖文並用”。但無論是哪一種用途,它都會受到掃描分辨率——DPI(每英寸的像素數)的影響。因此,在收集“圖”格式時我們必須注意——OCR轉換的正確率不以高分辨率做基礎。
國家檔案局在《紙質檔案數字化技術規範》中指出“需要進行OCR漢字識別的檔案,掃描分辨率建議選擇≥200dpi”。部分檔案部門在掃描電子檔案時,往往要求掃描數據的高分辨率,個別有甚者竟然要求達到600dpi。這樣做一是占用了過大的空間,二是掃描的“圖”轉化為“文”時,其識別率和正確率反而不是最佳。因此,筆者建議接收“圖”文件時,必須根據具體情況對其DPI值進行規範,不求“最高”,隻求“最佳”。
以下統計數據,是以ColorTake7730掃描儀為例,對同一段文本以不同的分辨率進行掃描,然後用蒙恬識別王1.60版本的OCR軟件進行漢字識別所得到的。
通過上表,我們可以清楚看出,分辨率在50dpi~200dpi時,OCR的識別錯誤率呈遞減趨勢,但文件長度卻翻倍擴大;分辨率≥200dpi後,識別錯誤率不穩定上升,但文件長度卻以更高速度翻倍增長。“理想的OCR識別率和文件長度較小的掃描分辨率”是我們應該追求的目標。通過上述實驗我們可以看出200dpi是這台機器的最佳分辨率。當然以上僅為個例,掃描分辨率還會受掃描儀新舊、功能設置、掃描對象情況等一係列具體因素影響。但可以明確的是,電子文件進行OCR轉換時可以通過測試選擇其最佳掃描分辨率,為“增量檔案電子化”把好關口。
(作者單位:河南省焦作市檔案局來稿日期:2015-04-17)