1.1.2從數據到知識
早在20世紀80年代,人們在“物競天擇,適者生存”的大原則下,就認識到“誰最先從外部世界獲得有用信息並加以利用,誰就可能成為贏家”。而今置身市場經濟且麵向全球性激烈競爭的環境下,任何商家的優勢不單純地取決於如產品、服務、地區等方麵因素,而在於創新。用知識作為創新的原動力,就能使商家長期持續地保持競爭優勢。因此要能及時迅速地從日積月累龐大的數據庫中,以及互聯網上獲取與經營決策相關的知識,自然而然就成為滿足易變的客戶需求以及因市場快速變化而引起激烈競爭局麵的唯一武器。因此,如何對數據與信息快速有效地進行分析加工提煉以獲取所需知識,就成為計算機及信息技術領域的重要研究課題。
事實上,計算機及信息技術發展的曆史也是數據和信息加工手段不斷更新和改善的曆史。早年受技術條件限製,一般用人工方法進行統計分析和用批處理程序進行彙總和提出報告。在當時市場情況下,月度和季度報告已能滿足決策所需信息要求。隨著數據量的增長,多數據源所帶來的各種數據格式不相容性,為了便於獲得決策所需信息,就有必要將整個機構內的數據以統一形式集成存儲在一起,這就形成了數據倉庫(data warehou,DW)。數據倉庫不同於管理日常工作數據的數據庫,它是為了便於分析針對特定主題的集成化的、提供存貯5~10年或更長時間的數據,這些數據一旦存入就不再發生變化。
數據倉庫的出現,為更深入對數據進行分析提供了條件。針對市場變化的加速,人們提出了能進行實時分析和產生相應報表的在線分析工具OLAP(On Line Analytical Processing)。OLAP能允許用戶以交互方式瀏覽數據倉庫內容,並對其中數據進行多維分析。例如OLAP能對不同時期、不同地域的商業數據中變化趨勢進行對比分析。
OLAP是數據分析手段的一大進步,以往的分析工具所得到的報告結果隻能回答“什麼”,而OLAP的分析結果能回答“為什麼”。但OLAP分析過程是建立在用戶對深藏在數據中的某種知識有預感和假設的前提下,是在用戶指導下的信息分析與知識發現過程。由於數據倉庫(通常數據貯藏量以TB計)內容來源於多個數據源,因此其中埋藏著豐富的不為用戶所知的有用信息和知識,而要使企業能及時準確地做出科學的經營決策,以適應變化迅速的市場環境,就需要有基於計算機與信息技術的智能化自動工具,來幫助挖掘隱藏在數據中的各類知識。這類工具不應再基於用戶假設,而應能自身生成多種假設,再用數據倉庫(或大型數據庫)中的數據進行檢驗或驗證,然後返回用戶最有價值的檢驗結果。此外,這類工具還應能適應現實世界中數據的多種特性(即量大、含噪聲、不完整、動態、稀疏性、異質、非線性等)。要達到上述要求,隻借助於一般數學分析方法是無法達到的。多年來,數理統計技術方法以及人工智能和知識工程等領域的研究成果,諸如推理、機器學習、知識獲取、模糊理論、神經網絡、進化計算、模式識別、粗糙集理論等等諸多研究分支,給開發滿足這類要求的數據深度分析工具提供了堅實而豐富的理論和技術基礎,這是從數據到知識演化過程中的一個重要裏程碑。
1.1.2從數據到知識
早在20世紀80年代,人們在“物競天擇,適者生存”的大原則下,就認識到“誰最先從外部世界獲得有用信息並加以利用,誰就可能成為贏家”。而今置身市場經濟且麵向全球性激烈競爭的環境下,任何商家的優勢不單純地取決於如產品、服務、地區等方麵因素,而在於創新。用知識作為創新的原動力,就能使商家長期持續地保持競爭優勢。因此要能及時迅速地從日積月累龐大的數據庫中,以及互聯網上獲取與經營決策相關的知識,自然而然就成為滿足易變的客戶需求以及因市場快速變化而引起激烈競爭局麵的唯一武器。因此,如何對數據與信息快速有效地進行分析加工提煉以獲取所需知識,就成為計算機及信息技術領域的重要研究課題。