正文 如何建設數據倉庫(1 / 3)

如何建設數據倉庫

業務係統

作者:張中淋 李亮 陳濤

經過多年的信息化建設,中石油四川成品油銷售公司(下稱四川銷售公司)信息係統建設涵蓋了公司經營管理各個層麵,為數據倉庫的建設提供了大量的數據源。

2008年,四川銷售公司完成了ERP係統在全公司的全麵推廣,不僅實現了銷售“一體化”管控,而且實現了財務業務無縫集成及物流、資金流、信息流的三流合一。2009年加油站管理係統在四川銷售公司1400餘座加油站部署實施,對加油站的采購、銷售、結算、庫存、客戶、加油卡等進行全麵的專業性管理,控製了零售業務的每一個環節,優化業務流程,提高運行效率和管理水平。2011年二次配送係統和油庫係統在全公司推廣運用,實現對油品品種、運輸路徑、運輸車輛、油站庫存、配送時間的統籌安排和優化,並對配送過程進行跟蹤與監控,提高了配送效率和管理水平。2012年以ERP為核心的五大信息係統全麵集成,油庫、加油站、二次配送和ERP係統實現了信息數據自動流轉,減少人為幹預,提高了數據的準確性。2013年,銷售應用集成係統將在四川銷售公司試點運用,實現與各銷售信息係統管理者視圖的集成。

四川銷售公司的各個信息係統幾乎覆蓋了公司的各項經營和管理的方方麵麵,這些業務操作型信息係統的上馬和推廣運用,不僅實現公司各個層麵的管控信息化,而且為數據倉庫建設提供了大量的曆史數據源。

建設省級數據倉庫的意義

四川銷售公司建設省級公司的數據倉庫是對中石油總部數據倉庫數據支持功能的補充和完善,有利於提高信息係統數據利用效率,彌補總部數據倉庫無法滿足四川銷售公司對精細化管理等方麵信息數據挖掘利用需求的缺陷。

總部數據倉庫“髒數據”過多。由於總部數據倉庫涉及麵廣,涵蓋了整個中國石油的勘探與生產、天然氣與管道、煉油與銷售、化工與銷售和其他部分,因而數據非常龐大。假設僅僅以全國32家銷售公司的數據在一起建立一個數據倉庫,那麼對於四川銷售公司來說,不僅其他板塊的數據甚至其他銷售公司的大量數據基本上為“髒數據”(按32家來計算,96.8%的數據為髒數據)。大量的“髒數據”不僅犧牲了分析的效率,而且降低了分析質量。

總部數據倉庫的數據粒度級過粗,無法滿足四川銷售公司個性化分析需求。全國中石油旗下加油站每日產生的可以作為客戶分析價值高的卡交易記錄,每日總共可達13億條,平均每月記錄過億,所以在總部級數據上無法提供卡客戶低粒度級的分析。在交易明細記錄上,每年的記錄數預計高達53億條以上,在上億條記錄的數據庫中做任何統計計算幾乎都是要命的事,所以要總部數據倉庫提供“購物籃分析”之類細粒度級的數據挖掘功能是不可行的。

總部級的數據倉庫的主要服務對象不是銷售公司一般管理者(特別是二級公司級以下的管理者)。總部級數據倉庫對四川銷售公司來說,還達不到提升管理和精細化管理的要求。2013年中石油總部推廣運用的銷售應用集成係統主要運用對象是銷售公司、地區公司和地市公司的領導,提供日常辦公、業務數據查詢分析、業務決策、輿情監控和應急指揮等功能;而對於需要大量數據進行分析、挖掘的一般管理人員缺乏分析工具和支持。

數據倉庫設計思路

建立四川銷售公司的數據倉庫不僅是總部數據倉庫數據支持功能的補充和完善,而且是四川銷售公司整合自行開發各類輔助管理信息係統,新增數據挖據分析、商務智能等需求的核心和基石。近年來,四川銷售公司為了滿足自身管理提升需要,陸續開發了加油站輔助管理係統、油庫輔助管理係統、商品管理輔助管理係統、非油輔助管理係統等諸多管理係統。然而這些係統都相互孤立,信息數據沒有集成共享,大部分數據靠人工幹預,不僅大大增加了工作量,而且各類信息數據的完整性、正確性和及時性大打折扣,信息數據共享和挖掘功能無法真正發揮。“頂層設計”的總部數據倉庫的數據主要來源於五大係統,雖然確保了不同銷售企業執行同一管理標準,為係統順利集成、統一應用、科學評價奠定了基礎,但是無法滿足因地區和管理差異而新增的個性需求。特別是涉及到與四川本地相關的數據上,總部數據倉庫幾乎是空白。例如分析四川銷售公司及其各個二級的銷售總量、增幅與四川省及其對應地市GDP的總量、增速、能耗的關係時,總部級數據倉庫是無法提供的。如果四川銷售公司有自己的數據倉庫,就可以把四川省及其對應地市GDP的相關數據作為外部數據源進行采集分析。再如需要分析路網建設、競爭對手網點布局對公司自身銷售的影響時,必須要有獨立的數據倉庫,才能快速地得到量化的、科學的分析結果。有了數據倉庫,商務智能才成為可能。沒有數據倉庫,商務智能隻能是一個理論。