FusionInsight:讓數據“慧”說話
封麵報道
作者:趙豔秋
“大數據過熱了”是華為FusionInsight大數據平台總經理朱照生在訪談中的第一句話,這有些令人出乎意料。朱照生2000年進入華為做研發,就開始與通信主機係統中實時、海量的數據處理打交道,那時,還沒有“大數據”這個詞。
“任何人都必須用數據來說話”——朱照生非常認可世界質量管理大師愛德華·戴明的這一金句。但數據本身不會說話,如何讓數據會說話,並且具備智慧呢?朱照生談起了他心中的大數據哲學:數據是一個個的比特位。本質上,大數據就是現實物理世界在數字空間的一個映射。數據要說話,前提是要有可以說話的平台,通過平台把各類數據有效組織起來,來表現出它在物理世界的屬性。自然而然的,利用的數據維度越多,就越發能精準地反映出物理世界,這就是智慧的基礎。
大數據可以利用各種維度的數據,分析的維度可以是數十萬、百萬維,甚至是全量的分析,而不僅依賴於少量的抽樣。這就像黑白照相、彩色照相一直到數千萬像素的高清照相一樣,而大數據平台就如同照相機中的鏡頭和CCD,大數據平台可處理的維度越多、越精細,你所擁有的數據就越會說話了,應該是“慧”說話了。
大數據是一種觀念轉變
從事了10多年數據工作的朱照生觀察到,現在大家對大數據的反應有些過熱——似乎一夜之間,每個人都需要大數據。但從他個人接觸的行業狀況看,數據的積累量、采集量還遠遠沒有達到生產巨大價值的量級。他估計,現在企業或者行業采集來的數據,隻有20%到30%會被用來分析,而采集的數據又遠遠小於企業或行業實際產生的數據。以發動機為例,一個發動機每天產生的數據在20TB以上,但這些數據大部分被扔掉了。“如果沒有從源頭拉動數據的采集、沒有把采集的各類數據加以分析,大數據將是一個童話。要避免在概念上‘橫看成嶺側成峰’,現在大數據應用還處於早期”。
那麼,華為為什麼會投入大數據?這與華為多年聚焦的通信業務相關。通信業一直是個海量數據行業,華為也就自然而然地介入進來。
實際上,大數據也是一種文化觀念的轉變。大數據的重要意義在於,它不是用來堆積的,而是用來分析和服務現實世界。
以華為大數據業務近兩年服務的銀行業為例,金融行業正在積極發掘大數據的兩類價值:一是通過把各類數據整合在一起,去發現以前被忽略的機會,另一類則是降低曾被忽略掉的風險。就拿信用卡盜刷現象為例,如果銀行能結合用戶行為信息,像位置信息,發現客戶已回國,信用卡卻在海外被刷,就可以在授權之前攔住這筆交易,而不是亡羊補牢。
無論電信和金融,很多業務背後都越來越需要一個大數據平台支撐。朱照生說,華為就是要形成這樣一個平台,能夠讓“數據慧說話”,能夠讓數據幫助人們智慧地洞察,所以這個平台最終取名Fusionlnsight。
不隻是Hadoop發行版
從2006年到現在,華為大數據業務一直處於投入期。除了數百人的產品團隊,華為各類基礎實驗室也開展算法、機器語言、自然語言處理等基礎研究。
華為的大數據業務定位與業界其他一些企業有所不同。它不像一些StartUp公司,做一段時間就賣掉;也沒有曆史包袱,因此可以采用新架構、新技術。華為希望通過這個數據平台,能夠改善客戶的業務,幫助客戶更好地利用數據,這是一個長期戰略。
雖然采用了Hadoop開源技術,但從模塊占比來看,Hadoop僅是Fusionlnsight中的一個分布式引擎,Fusionlnsight包含Hadoop,但不僅僅是Hadoop的發行版。
在Fusionlnsight平台中,有兩大創新之處。一是提供完全開放的API接口,如SQL、NoSQL等,能讓現有的應用廠商和ISV基於開放接口做應用,也能實現現有應用的無縫遷移,以快速培育大數據生態;另一個是全量數據分析平台。傳統的商業智能基於抽樣數據,而大數據則基於全量數據。全量數據有數百萬個、數千萬個維度,這導致原來的數據分析模型失效。全球頂級互聯網公司現在可實現1000萬維度甚至1億個維度的數據分析,這在傳統數據分析行業是不可想象的。為此,華為團隊有很多數據科學家,構築全量數據模型能力。Fusionlnsight最終是讓傳統行業也能享受到互聯網行業所擁有的數據洞察力。