正文 機器大數據也離不開Hadoop(1 / 1)

機器大數據也離不開Hadoop

大數據

作者:郭濤

根據數據來源劃分,大數據主要包括三類:商業運作產生的數據、人類行為產生的數據和機器數據。目前,人們談論最多的是前兩類數據的處理和分析。創立於2004年的Splunk公司獨樹一幟,從公司成立之初就一直專注於機器數據的處理和分析。Splunk公司產品營銷副總裁Sanjay Mehta在接受本報記者采訪時表示,機器大數據未來具有非常廣闊的發展前景。

機器大數據有可為

何為機器數據?人們的每項活動都會在機器數據中留下痕跡,這些數據包含客戶行為、使用事務處理、應用程序行為、服務水平等的明確記錄,像人們非常熟悉的日誌文件、傳感器數據等都是機器數據。Sanjay Mehta表示:“機器生成的數據是發展最快、最複雜同時也是最寶貴的那部分大數據。但是現有的數據分析、管理和監控解決方案很少有為這類數據設計的。”

機器數據處理的難點在於以下三方麵:機器數據來自於不同來源,而將這些不同來源關聯起來十分複雜;機器數據主要是非結構化的,很難用預先定義的架構來處理;機器數據對實時處理的要求非常高。Splunk的產品被外界稱為機器數據的引擎,它能夠有效應對機器數據的種種挑戰,收集非結構化的時間序列機器數據,並編製索引加以利用。Sanjay Mehta表示,Splunk可以讀取人們能夠想到的任何來源的數據,比如網絡流量、Web服務器、自定義應用程序、應用程序服務器、虛擬機管理程序、GSP係統甚至股市源、社交媒體和結構化數據庫的數據,並通過它們實時掌握業務狀況,深入分析在整個IT係統和基礎設施中發生了什麼,從而做出正確決策。

增強Hadoop的易用性

“我們的某些客戶告訴我們,他們要使用Hadoop,希望以更低成本來存儲數據。但問題是,如果想部署Hadoop並基於它獲得更多價值並不是一件容易的事。部署Hadoop所花費的人力和服務可能是部署普通軟件的20倍。如果想充分發揮Hadoop的作用,至少要將13個項目與Hadoop進行集成。另外很多客戶反映,Hadoop平台上的數據量太大而無法隨意遷移。”Sanjay Mehta表示,“2012年10月,我們推出了Splunk Hadoop Connect,讓用戶可以簡單、方便地在Splunk Enterprise和Hadoop之間轉移數據。”

Splunk Hadoop Connect打通了Hadoop與Splunk產品平台之間的傳輸通道,用戶可以將Splunk平台上的數據傳輸到Hadoop平台上進行長期存儲。Hadoop上的數據也可以實時地傳輸到Splunk上進行分析和可視化。

對於很多客戶來說,最棘手的問題是Hadoop上的數據量太大,無法隨意移動。

2013年6月22日,Splunk 發布了Hunk測試版——Splunk Analytics for Hadoop,它提供了針對Hadoop平台的互動數據探索分析和可視化功能,這為用戶使用Hadoop平台提供了更多便利。

Splunk Analytics for Hadoop是一個全功能的集成的產品,針對Hadoop上的數據在同一個平台上提供了互動的數據探索、分析和可視化三種必要的功能。“Splunk Analytics for Hadoop為用戶提供了一個簡單、易用的界麵,不僅專業人員可以使用,即使普通的管理人員也能使用它對數據進行訪問和分析。以前可能要花幾個月時間來了解和分析數據,現在使用Splunk Analytics for Hadoop,可能隻要一小時甚至幾分鍾。”Sanjay Mehta表示。

Splunk Analytics for Hadoop是首個采用Splunk虛擬索引技術(正在申請專利)的產品。用戶通過它可以無縫使用Splunk的所有技術,包括Splunk搜索處理語言(SPL)等。它可以實現互動地探索、分析和可視化存儲在任何地方的數據,就像這些數據存儲在Splunk Index中一樣。Sanjay Mehta介紹說:“未來,我們會把更多技術創新反饋給Hadoop社區。目前,我們正在邀請特定的用戶參與Hunk的測試。”