3 全文檢索。全文檢索是計算機程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置。當用戶查詢時根據建立的索引查找,類似於通過字典的檢索字表查字的過程。全文檢索係統是按照全文檢索理論建立起來的用於提供全文檢索服務的軟件係統。在功能上,全文檢索係統需要具有建立索引、處理查詢返回結果集、增加索引、優化索引結構等功能。結構上,全文檢索係統具有索引引擎、查詢引擎、文本分析引擎和對外接口等。全文檢索彌補了文件級檢索存在的不足之處,因為有的文件標題擬寫不準確,或綜合性的文件很難用標題完全表達,造成了計算機誤檢或漏檢現象時有發生。全文檢索係統是自然語言處理技術與海量內容管理技術的完美結合,它對網頁、文本、電子文檔和圖像等非結構化的信息提供強大的管理功能,能有效地解決以上問題。
4 多媒體檔案文獻檢索。所謂多媒體檔案,是集聲、光、電多種媒體於一體的檔案。這種檔案可以更真實地記錄人們的社會活動,實現高密度存儲和遠距離傳輸,得到最為理想的利用效果。多媒體檔案文獻檢索有案卷級檢索和文件級檢索,案卷級檢索可檢字段有案卷題名、立檔單位、主題詞、起始年代、起始月份、起始日期。文件級檔案目錄的檢索一二級分類與檔案相同,可檢字段有文件題名、責任者、主題詞、文件年代、文件月份、文件日期、文件代字、文件年號、文件編號。
三、檔案信息計算機檢索策略
運用計算機進行檔案信息檢索,用戶對檔案信息的需求是精細的,其感興趣的是某一檔案的具體內容,即根據用戶的查詢表達式,如通過電子檔案著錄項(電子文檔號、題名與責任者、密級與保管期限、時間項等)在信息源中檢索出相關類型的電子檔案。檔案檢索策略是人們進行檔案檢索的方案和計劃,編製檔案檢索策略包括選擇檢索途徑和檢索詞(檔案著項),及確定檢索詞(檔案著項)之間邏輯關係。檢索策略的編製是根據用戶檢索檔案常用的邏輯思維式而製定表達方式,在計算機檔案信息檢索模塊最常用的有以下3種邏輯表達式。
一是通過計算機設置邏輯與關係(AND的表達式,限定檔案內容之間的關係,兩個檢索詞之間一般用符號“★”表示,用戶輸入計算機的檢索詞必須滿足兩個檢索條件。例如,檢索有關員工績效考核方麵的檔案信息,在檢索入口輸入“員工★績效考核”,用來表示兩個內容之間的重合關係,對於專題與文件內容較為明確的情況下,使用邏輯與關係有利於提高查準率。
二是采用邏輯或關係(OR)表示兩個檢索詞之間的任選關係,為檔案信息利用人員提供模糊檢索功能。檢索檔案信息一般在文件題名、文件編號和檔號檢索窗口使用“+”連接多個查詢關鍵字,滿足檔案信息利用者輸入的關鍵字其中之一,即可查詢到相關的檔案資料。例如:“檔案+專業技術職務”表示檢索有關檔案人員評聘專業技術職務方麵的檔案資料。檔案館(室)日常的查詢檔案資料工作中,在文件題名檢索入口最經常使用的是邏輯或關係檢索檔案信息內容,這種關係在檢索入口使用越多,那麼計算機選擇用戶需求的檔案資料範圍就越大,一般情況下使用邏輯或關係有助於提高查全率。
三是采用表示否定關係的邏輯非關係(NOT),用排除法控製檢索結果,有利於提高查準率。例如:“教師——副教授”表示檢索有關教師非副教授的檔案資料。
以上三種不同邏輯的計算機檢索法,軟件人員在設計檔案檢索程序時,已經嵌入到檔案管理軟件的檢索係統。檔案利用人員檢索檔案信息時,在檢索入口靈活使用檢索邏輯,有助於提高檔案信息的查準率和查全率。