信息科技
作者:宋寶貴 田寶彩
摘要 本文介紹了垂直搜索引擎的相關知識和主要技術,通過了解垂直搜索引擎,能夠讓軟件開發人員更好地掌握應用該技術,以滿足用戶對信息搜索的要求。
關鍵詞 垂直搜索引擎;垂直搜索引擎技術;準則
中圖分類號TP39 文獻標識碼A 文章編號 1674-6708(2011)49-0206-01
0引言
近幾年來,隨著信息技術的迅速發展,互聯網上數據量也在急劇增長。在這樣的海量數據麵前,如何讓用戶快速準確地找到所需要的信息.已成為研究的熱點問題。垂直搜索引擎正是用於解決這類問題的。
1 垂直搜索與垂直搜索引擎
垂直搜索的本質是對垂直門戶信息提供方式的一次簡化性的整合。垂直搜索的本質是對垂直門戶信息提供方式的一次簡化性的整合。它服務於某項功能的。而垂直搜索引擎是為垂直搜索服務,對網頁中某類信息進行一次簡化性的整合,通過關鍵詞抽取出有用的數據進行處理,然後再返回給用戶。垂直搜索引擎的工作原理:垂直搜索通過網絡蜘蛛將網頁的非結構化數據抽取成特定的結構化信息數據,進而獲得元數據,然後將這些數據存儲到數據庫,進行進一步的分析處理,最後分成各個關鍵詞,根據關鍵詞的權重,來列出網頁的重要度,存入數據庫。整個過程中,數據由非結構化數據抽取成結構化數據,經過深度加工處理後以非結構化的方式和結構化的方式返回給用戶。
2 垂直搜索引擎的現況
垂直搜索引擎是搜索引擎行業保持高增長的重要力量。據調查,目前中國互聯網中的垂直搜索引擎日益發展壯大,不斷有麵向新行業的垂直搜索引擎網站出現,例如,有麵向房子的搜房網,有麵向求職的職業搜索,有麵向學術的學術搜索等。
目前垂直搜索引擎的主要盈利模式是基於競價排名的廣告模式,具體廣告主在購買垂直搜索引擎服務後,通過注冊一定數量的關鍵詞,付費最高者排名靠前,購買了同一關鍵詞的網站按不同的順序進行排名,出現最終的搜索結果。
3 垂直搜索引擎主要特點技術
1)網頁信息采集技術網頁信息采集技術通過網絡蜘蛛實現。網絡蜘蛛可定向性的采集和垂直搜索範圍相關的網頁,通過網頁的鏈接地址來尋找網頁,讀取網頁內容並索引到其他網頁,網絡蜘蛛再訪問這些web頁麵,通過無休止的重複以上過程,直到把這個網站所有的網頁都抓取完為止;
2)從非結構化信息抽取到web結構化信息抽取,垂直搜索引擎和普通搜索引擎的區別就是對Web頁麵信息進行深度的分析和處理,從而提供專業的搜索服務。可以將HTML元素分為以下幾類:(1)簡單對象:不包含其他HTML元素的元素;(2)容器對象:有至少一個簡單對象和其他容器對象組成的HTML元素;(3)分組對象:該方法分析了簡單對象的視覺特征,然後從裏到外以此分析分組對象或容器對象;
3)索引技術垂直搜索能夠支持全文索引,並提供多種結果排序方式。Web頁麵被網絡蜘蛛儲存在頁麵存儲器中,通過分析索引軟件對采集的信息進行分析和處理,建立可供查詢的、可靠的索引數據庫。有的建立WWW頁麵內容的全文索引,有的隻對頁麵中按分類或特征對信息進行抽取。