(三)數據統計
數據統計是對數據進行初步研究,以便更好地理解它的特殊性質,一般包括彙總統計、可視和聯機分析處理(OLAP)。彙總統計(如值集合的均值和標準差)和可視化技術(如直方圖和散布圖)是廣泛用於數據探索的標準方法,OLAP是一種新近開發的包含一係列考察多維數組數據的技術。這三種技術中,彙總統計是檔案數據管理中最常見的統計形式,它用單個數或數的小集合捕獲可能很大的值集的各種特征。比如,根據每年的招生信息,如考生來源地,考生高考成績,報考專業等信息,可以根據需要統計出每個地區的錄取比例,各分數段的情況,各地區報考專業的分布情況等等,還可以結合幾年的信息進行縱向和橫向統計。這些統計情況表可以是數據表格也可以製作成圖表,反饋給黨校辦或招生部門,可以對此後的招生計劃起到一定的指導作用。
(四)數據挖掘
基於人工智能的數據挖掘技術是一種能夠從海量的數據中提取有價值知識和信息的技術,它通過對查詢內容進行模式的總結和內在規律的搜索,幫助決策者分析曆史數據及當前數據,並從中發現隱藏的關係和模式,進而預測未來可能發生的行為,從而為決策行為提供有利的支持。其功能主要有:1.關聯分析。它主要用於發現隱藏在大型數據集中的令人感興趣的聯係。2.聚類。它將數據分成有意義或有用的組(簇),能增強人們對客觀現實的認識。3.自動預測趨勢和行為。它自動在大型數據中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。
在檔案管理係統中應用數據挖掘技術有著較大意義:1.輔助編研選題。利用檔案管理係統中的用戶日誌對借閱數據進行分析統計,了解到檔案利用者的興趣愛好,研究方向,預測用戶需求,從而確定檔案編研的選題;2.預測用戶需求。通過對近幾年某段時期內檔案利用數量與檔案利用者人數數據進行挖掘後發現,某個時期某種檔案利用率相當高,可以較準確地預測用戶的利用需求;3.節約數字化成本。通過對某類檔案進行數據挖掘,發現某些檔案幾乎隻有幾種類型的文件經常利用,針對結果可以在安排檔案掃描數字化工作時,要求掃描人員隻掃描每一卷中的這幾份檔案而不是將全卷檔案都掃描,這樣大大減少了掃描人員的工作量,而且也使單位節省了掃描儀、計算機等設備的開銷,降低檔案數字化成本。此外,還可以在檔案安全性、檔案館藏結構等諸多方麵進行數據的挖掘和統計分析,對檔案的鑒定、保護等有一定的指導作用。通過數據挖掘技術的運用,可以發掘檔案所蘊藏的信息資源,進而為領導決策和各部門的工作提供信息支持。
對於高校檔案工作來說,應當以利用工作為重點,為學校的各項決策和建設提供支持,這要求檔案機構做好各項基礎工作,尤其是檔案收集工作。麵對高校檔案收集難的現狀,筆者認為,從利用的角度,以信息反饋促進檔案收集值得檔案工作者去嚐試。
參考文獻
1.黃靜。關於高校檔案收集與歸檔工作的探討[J]。黑龍江史誌,2009(9)
2.秦慧,陳研希。注意挖掘檔案用戶的潛在需求[J]。蘭台世界,2009(3上半月)
3.王立萍。利用數據挖掘技術做好檔案編研選題[J]。北京檔案,2008(11)
4.宇然。數據挖掘技術與檔案管理[J]。蘭台世界,2002(8)
5.(美)Pang—Ning Tan,(美)Michael Steinbach,(美)Vipin Kumar著。範明,範宏建等譯。數據挖掘導論(Introduction to Data Mining)[M]。北京人民郵電出版社,2006.
6.仇壯麗,李雪蓮。知識挖掘在檔案管理中的應用[J]。蘭台世界,2005(7)