二、建構輿情輔助決策支持係統
北大方正技術研究院結合內容管理技術、知識管理技術,互聯網相關技術,適時推出網絡輿情互聯網信息監控分析係統——方正智思。該係統著重強調加強互聯網、手機短信等新型傳媒的信息搜集和分析,以計算機智能處理技術輔助輿情信息彙集整理和分析,對新出現的社會輿論熱點、焦點去偽存真,為確保我國互聯網絡大眾媒體的輿論導向的正確性起到一定的輔助作用。
“方正智思”整合了互聯網搜索技術、信息智能處理技術和知識管理方法,通過對互聯網海量信息自動抓取、自動分類聚類、主題檢測、專題聚焦,實現用戶的網絡輿情監測和新聞專題追蹤等信息需求,形成簡報、報告、圖表等分析結果,為客戶全麵掌握群眾思想動態,做出正確輿論引導,提供分析依據。係統包括如下基本環節:
信息采集互聯網信息(新聞、論壇等)的實時監測、采集、內容提取及排重;
信息處理對抓取的內容進行自動分類聚類、主題檢測、專題聚焦等;
信息服務將采集並分析整理後的信息直接為用戶或為用戶輔助編輯提供信息服務,如自動形成輿情信息簡報、追蹤已發現的輿論焦點等。
“方正智思”的網絡輿情分析技術是該係統的核心應用技術,是一組管理、提煉、應用、共享所有的顯性知識和隱性知識及信息資源的方法。
1.自然語言處理技術
自動分詞技術自動分詞技術是中文信息處理與分析的基礎。本係統中以詞典和規則為基礎,綜合利用了基於概率分析的語言模型方法,使分詞的準確性達到99%,並可根據不同的應用進行適合特定要求的分詞。
自動關鍵詞與自動摘要技術本係統在篇章語義分析的基礎上,綜合考慮詞頻、詞性、位置信息,實現準確的自動關鍵詞與自動摘要。同時利用指代消解等技術使得摘要更具可讀性。
2.信息檢索技術
全文檢索技術本係統的全文引擎將傳統的全文檢索技術與最新的WEB搜索技術相結合,大大提高檢索引擎的性能指標。同時融合了多種相關技術,提供豐富的檢索手段以及同義詞等智能檢索方式。
基於圖片內容檢索傳統的圖片檢索主要是通過圖片的描述信息進行檢索,本係統的圖片檢索引擎不僅提供基於圖片描述的檢索,還提供對圖片內容的檢索,以及結合描述與內容的綜合檢索,並提供對圖片進行縮微預覽功能。
3.數據挖掘技術
自動分類與自動聚類分類是通過對訓練集的學習,得出每一分類的屬性特征的模型,然後使用這一模型對未知分類情況的數據進行分類。聚類是將數據集合中的數據劃分為具有一定意義的子集,使得不同子集中的數據差別(距離)盡可能大,而同一子集中的數據差別(距離)盡可能小。
相似搜索與消重相似搜索是指在對象集合中找到與指定的查詢對象相似的對象實例或對象子集。
主題檢測與追蹤主題追蹤是指在各種信息來源中追蹤那些討論目標主題的相關信息片段。主題檢測任務是自動檢測信息片斷集合中的各個未知主題,並能在線檢測出新主題。
關聯分析與趨勢分析關聯分析是從海量數據中挖掘關聯規則。同時,利用趨勢分析技術,分析網絡輿論等隨時間的發展趨勢情況,以便實現對輿論環境的監測與對不良傾向的預警。
網絡、手機等新媒體不僅具有虛擬性、隱蔽性、發散性、滲透性和隨意性等特點,而且它們正加速成為社會輿論發布的新陣地,必須有效地建立起先進的網絡輿情監測引導係統,形成一個全方位、多層次、廣覆蓋的具有生命特征的往複循環的輿情控製、研判、引導的生態係統,成為構建社會主義和諧社會的輿論“防火牆”。