圖書在版編目(犆犐犘)數據學術Web主題結構挖掘研究/楊波著.—南京:南京大學出版社,2018.11ISBN9787305198267Ⅰ.①學…Ⅱ.①楊…Ⅲ.①學術研究網絡信息資源主題分析Ⅳ.①C795②N795中國版本圖書館CIP數據核字(2017)第330056號出版發行南京大學出版社社址南京市漢口路22號郵編210093出版人金鑫榮書名學術犠犲犫主題結構挖掘研究著者楊波責任編輯陳佳編輯熱線02583686308照排南京紫藤製版印務中心印刷江蘇鳳凰數碼印務有限公司開本787×9601/16印張13.5字數214千版次2018年11月第1版2018年11月第1次印刷ISBN9787305198267定價45.00元網址http://www.njupco.com官方微博http://weibo.com/njupco官方微信njupress銷售熱線02583594756版權所有,侵權必究凡購買南大版圖書,如有印裝質量問題,請與所購圖書銷售部門聯係調換目錄目錄第一章引言………………………………………………………………0011.1研究背景…………………………………………………………0011.1.1基於文本的主題聚類…………………………………0021.1.2基於鏈接分析的主題聚類……………………………0031.1.3基於複合網頁特征的主題聚類………………………0041.1.4基於宏觀網絡拓撲結構的Web主題社區發現………0051.1.5基於Web訪問日誌的用戶社區發現…………………0061.1.6基於Web主題圖的信息瀏覽和檢索可視化…………0071.2研究意義…………………………………………………………0081.3Web主題結構分析研究現狀…………………………………0091.3.1Web顯著性指標研究…………………………………0091.3.2基於學術Web的機構主題聚類研究…………………0111.3.3非學術Web空間的行業主題顯著性研究……………0121.3.4學術Web社區的地域影響因素研究…………………0131.4研究內容…………………………………………………………013第二章犠犲犫主題結構挖掘相關算法……………………………………0182.1概述………………………………………………………………0182.2Web搜索中的主題分析算法…………………………………0192.2.1主題敏感的PageRank…………………………………0192.2.2HITS……………………………………………………022001學術Web主題結構挖掘研究2.3基於圖的社區發現算法…………………………………………0242.3.1Trawling………………………………………………0242.3.2最大流算法……………………………………………0252.4基於局部網絡關係的社區發現算法……………………………0282.4.1基於共鏈的社區發現…………………………………0282.4.2基於SNA的社區發現…………………………………0312.5基於複雜網絡的社區發現算法…………………………………0332.5.1GN及其衍生算法………………………………………0342.5.2基於模塊度優化的算法………………………………0362.5.3派係過濾算法(CPM)…………………………………0382.5.4LPA算法………………………………………………0392.5.5COPRA算法……………………………………………0412.5.6SLPA算法………………………………………………0432.5.7算法對比………………………………………………0442.6小結………………………………………………………………046第三章犠犲犫主題結構挖掘中的數據采集技術研究……………………0473.1相關研究…………………………………………………………0473.1.1概述……………………………………………………0473.1.2搜索引擎………………………………………………0483.1.3通用Web信息采集工具………………………………0513.1.4自主開發的專用采集工具……………………………0523.2數據采集模型與策略……………………………………………0553.2.1數據采集模型…………………………………………0553.2.2鏈接解析………………………………………………0573.2.3鏈接統計規則…………………………………………0583.2.4頁麵選擇與鏈接分類…………………………………0593.2.5鏈接預測………………………………………………0613.3Web數據采集係統的設計……………………………………065002目錄3.3.1總體架構………………………………………………0653.3.2功能介紹………………………………………………0673.3.3參數配置………………………………………………0693.3.4任務監控………………………………………………0713.4小結………………………………………………………………072第四章學術犠犲犫宏觀主題結構挖掘研究………………………………0744.1概述………………………………………………………………0744.2大學網站的鏈接特征……………………………………………0764.2.1鏈接動機………………………………………………0764.2.2鏈接集中規律…………………………………………0774.3封閉樣本的數據采集和結構分析技術研究……………………0794.3.1數據采集策略…………………………………………0794.3.2基於k核的鏈接結構分析研究………………………0814.3.3基於複雜網絡的鏈接結構挖掘研究…………………0834.4實驗………………………………………………………………0844.4.1樣本選擇………………………………………………0844.4.2數據有效性分析………………………………………0854.4.3基於k核的社區發現結果分析………………………0884.4.4基於力導向的社區發現結果分析……………………0894.4.5基於複雜網絡的社區發現結果分析和評測…………0904.4.6結果對比………………………………………………0924.5小結………………………………………………………………094第五章多層次網絡中的犠犲犫主題結構挖掘研究………………………0965.1概述………………………………………………………………0965.2研究對象選擇與數據預處理……………………………………0975.2.1樣本選取………………………………………………0985.2.2主題標注………………………………………………100003學術Web主題結構挖掘研究5.2.3網站域名識別…………………………………………1025.3基於學院層麵的主題顯著度研究………………………………1075.3.1基本數據特征…………………………………………1075.3.2社區主題顯著性評價指標……………………………1105.3.3社區主題結構分析算法性能比較……………………1115.3.4社區主題結構分析結果………………………………1165.4基於大學層麵的主題顯著度研究………………………………1175.4.1基本網絡特征…………………………………………1175.4.2主題特征優化策略……………………………………1185.4.3不同閾值下的主題顯著度分析………………………1205.5小結………………………………………………………………121第六章多維度機構網絡主題一致性比較研究…………………………1236.1相關研究…………………………………………………………1236.2數據采集與預處理………………………………………………1256.3單一機構網絡分析………………………………………………1266.3.1引用網絡分析…………………………………………1266.3.2合著網絡分析…………………………………………1286.4機構網絡主題一致性比較………………………………………1306.5小結………………………………………………………………131第七章開放犠犲犫空間的主題結構挖掘研究……………………………1337.1社區擴展相關算法………………………………………………1347.1.1HITS……………………………………………………1347.1.2Companion和Companion……………………………1367.1.3基於網頁的社區發現研究的不足……………………1387.2基於網站的社區擴展算法研究…………………………………1397.2.1算法設計………………………………………………1397.2.2基於鏈接強度的樣本選擇規則………………………142004目錄7.2.3基於域名結構的樣本選擇規則………………………1437.2.4基於鏈接耦合的向下擴展……………………………1457.2.5基於鏈接評估的向上擴展……………………………1477.3基於開放集合的Web主題圖實現框架和相關度評價………1487.3.1實現框架………………………………………………1487.3.2社區成員相關度評價…………………………………1517.4實驗………………………………………………………………1527.4.1樣本選擇………………………………………………1527.4.2數據采集與處理………………………………………1547.4.3基於核心擴展的Web主題圖…………………………1577.4.4基於二次擴展的Web主題圖…………………………1607.4.5多層次擴展的Web主題圖結構對比…………………1627.4.6基於核心擴展的Web主題圖評價……………………1647.4.7基於二次擴展的Web主題圖評價……………………1657.4.8研究結果對比…………………………………………1667.5小結………………………………………………………………167參考文獻……………………………………………………………………169附錄………………………………………………………………………190005學術Web主題結構挖掘研究圖目錄圖11Web社區概念圖………………………………………………014圖21主題敏感的PageRank之單主題衝浪(分別以10%的概率到體育主題或者以10%的概率到健康主題)……………………021圖22主題敏感的PageRank之多主題衝浪(分別以9%的概率到體育主題或者以1%的概率到健康主題)……………………021圖23中心性……………………………………………………………022圖24權威性……………………………………………………………022圖25最大流算法描述…………………………………………………026圖26基於快速聚類算法的Zachary“空手道”網絡聚類圖…………035圖27k派係重疊社區,k=4…………………………………………038圖28標簽傳播過程,狏=2……………………………………………042圖31SocSciBot………………………………………………………053圖32WebometricAnalyst……………………………………………054圖33鏈接數波動模式…………………………………………………064圖34數據采集係統結構圖……………………………………………066圖35LinkDiscovererⅢ主界麵……………………………………068圖36係統設置…………………………………………………………070圖37任務監控…………………………………………………………072圖41出鏈深度分布……………………………………………………080圖42k核原始網絡……………………………………………………082圖43基於鏈接強度的k核網絡………………………………………082圖44MDS數據分布圖………………………………………………087圖45k核結構圖………………………………………………………088006圖目錄圖46基於力導向的可視化效果………………………………………090圖47社區劃分準確率評測……………………………………………092圖48基於入鏈的MDS圖……………………………………………093圖51URL結構圖……………………………………………………103圖52入度分布…………………………………………………………108圖53出度分布…………………………………………………………108圖54不同樣本主題範疇的社區主題一致性…………………………114圖71HITS擴展算法…………………………………………………135圖72Companion………………………………………………………137圖73Companion………………………………………………………137圖74HITSSite………………………………………………………141圖75網絡鏈接關係圖…………………………………………………146圖76Web主題圖構建實現框架……………………………………150圖77基於核心擴展的Web主題圖…………………………………158圖78基於核心擴展的Web主題圖社區結構圖……………………160圖79基於多次擴展的Web主題圖…………………………………161圖710基於入度的相關度(核心擴展)………………………………164圖711基於最短路徑的相關度(核心擴展)…………………………165圖712基於最短路徑的相關度(二次擴展)…………………………166007學術Web主題結構挖掘研究表目錄表41鏈接源網頁類型前十位…………………………………………075表42共鏈關係…………………………………………………………075表43基於邊排斥力導向的社區結構…………………………………089表51主題標引一致性…………………………………………………101表52域名識別結果……………………………………………………106表53學院網站鏈接網絡基本參數……………………………………109表54不同狉取值下學院網絡社區劃分結果(SLAP)………………112表55不同算法下學院網絡社區劃分結果……………………………115表56TOP5主題社區(按社區規模排序)…………………………116表57大學鏈接網絡基本參數…………………………………………118表58TOP狀學科門類下的主題社區評價…………………………121表61引用網絡基本指標………………………………………………127表62引用網絡社區特征………………………………………………127表63合著網絡基本指標………………………………………………128表64合著網絡社區特征………………………………………………128表65不同學術網絡主題與地域影響力對比…………………………130表71初始樣本集合……………………………………………………153表72采集任務列表……………………………………………………155表73基於核心擴展的主題社區………………………………………158表74基於二次擴展的主題社區………………………………………162008第一章引言第一章引言1.1研究背景根據不同的研究目標和技術方案,學術Web結構挖掘的數據粒度可以是宏觀的國家層麵、區域層麵或者網站層麵,也可以是較為微觀的網頁層麵,甚至是概念或關鍵詞。因此最終獲得的Web結構可以是比較寬泛的學科關係(discipline/subject/domain/field),也可以是具體的主題關係(topic/theme)。由於涉及不同層麵的研究對象,在數據粒度上也不盡相同,為了敘述方便,本研究將上述兩種關係統稱為主題關係。

由於頻繁的跨區域科研合作和交流活動的需要,網上學術社區逐漸形成並且壯大。對萬維網上學術社區的主題結構進行有效地揭示,是發現、評價和利用海量在線和離線學術資源的主要途徑之一。社會網絡分析理論認為,社會上人和人之間都是由一定的關係網絡連接起來的,人和人之間的關係就是這個網絡的邊(Edge),人是社會網絡上的結點(Node)。整個社會是個巨大的網絡,在這個網絡中同時存在很多個子網,對子網的劃分是通過社會網絡中結點之間的距離(關係)和局部區域內結點(人)的疏密程度來進行的。每個子網代表了社會上的各個社區,這些社區具有較強的內聚性和較弱的耦合性,即社區內成員之間具有相似的興趣,而不同社區的成員的興趣差異比較大。可以試想,在萬維網上是否也同樣存在類似的社區?在社會網絡中,人和人之間是通過模糊的興趣愛好聯係起來的,而在萬維網上,可以把網頁視為一個個結點,這些結點之間是通過精確清晰的URL聯係在一起的。網頁和網頁之間的聯係則體現為網頁之間主題的相似性,這就給萬001書學術Web主題結構挖掘研究維網上的社區理論提供了最好的理論基礎———我們稱之為Web社區。

Web社區是由多個成員組成的,社區內成員之間的鏈接關係明顯要強於它們和社區外成員之間的鏈接關係。每個社區的主題以及鏈接特征都不同於其他社區,社區之間存在鬆散的鏈接關係,社區內部則具有緊密的鏈接關係。社區內部根據鏈接關係的緊密程度可進一步劃分社區的邊界。

利用Web信息的社會網絡性進行知識發現是對複雜的網絡學術社區中的主題關係進行識別、抽取、評價和再組織的新途徑。對Web主題結構進行分析的本質是對網頁(Page)、網站(Website)、域(Domain)等不同層麵的網絡對象之間的主題關係進行描述、分析和度量。目前對Web文檔主題結構進行挖掘的研究主要從文本分析、鏈接網絡分析、複合特征分析、宏觀網絡拓撲結構分析、用戶聚類和基於Web主題圖的信息檢索可視化這六個方麵展開。

1.1.1基於文本的主題聚類和傳統的文本檢索係統一樣,以文本分析為基礎的Web主題結構挖掘主要依賴的是網頁之間在文本表示上表現出來的相似性。這種方法把網頁的文本相似度近似等同於網頁主題的相似度,從而實現Web資源的分類和聚類。早期著名的分類搜索引擎Yahoo!和Vivísimo等采用的就是這種方法,不同的是Yahoo!以人工來進行網站分類,其他分類搜索引擎大多是用自動分類的方式來構建主題目錄。

Vivísimo是由美國卡耐基梅隆大學三位科學家聯合開發的分類搜索引擎,它的設計目的就是要解決互聯網信息過載問題(Informationoverload)[1]。它與Google最大的不同在於,Vivísimo不是追求文檔庫的龐大,而是注重讓搜索結果更接近用戶的信息需求。Vivísimo對搜索結果進行實時聚類,並且以層級方式將結果顯示給最終用戶。和Vivísimo類似的分類搜索引擎SNAKET是由意大利學者開發的開源係統,可為Web搜索、圖書、新聞和博客等提供等級聚類服務,它同時綜合了常用的16個搜索引擎的檢索結果,可對結果進行實時自動聚類[2]。由北京大學計算機係網絡與分布式係統實驗室開發的中文搜索引擎“天網”也利用中文網頁自動分類002第一章引言技術,開發了用於目錄導航的中文網頁分類目錄[3]。雖然上述係統作為獨立的產品,大多已經退出了曆史舞台,但產業界一直在沿用和優化相關的技術策略。

在Web頁麵特征提取和表示方麵,涉及自然語言處理以及人工智能方麵的諸多技術。尤其是在中文信息處理方麵,中文的語言特點決定了在Web頁麵特征提取和表示中必然遇到不同於西文語言的若幹技術上的難點。在中文分詞過程中,經常需要在漢語分詞的粒度上做出選擇。在自動標引環節是采用主題詞標引還是采用元詞標引?是采用賦詞標引還是抽詞標引?一般認為,在通用主題的中文信息處理中,宜采用元詞標引,而在處理專業Web文檔時,專指的主題詞可能更為合適。在考慮同義詞轉換或者用專業分類法進行分類時,可能需要考慮使用賦詞標引,而在處理混合主題的海量文本信息時一般采用抽詞標引。在文本分類和聚類方麵,設計和訓練一個高性能的分類器(Classifier)是一項很有挑戰的研究,尤其是要適應多主題和交叉主題的Web文本分類器。

用文本分析的方法進行Web主題挖掘具有很多優點,如文本特征提取比較方便,可以在比較小的範圍內實現主題分類,可以借助分類知識庫等經驗知識來幫助文本主題的判斷。但文本分析麵對的是書寫符號,因此在將書寫符號轉換為主題的過程中也存在很多固有的缺陷,如上述的頁麵特征提取、自然語言處理、機器翻譯,以及垃圾信息過濾等問題。

1.1.2基於鏈接分析的主題聚類鏈接分析(LinkAnalysis)類似於文獻之間的引文分析(CitationAnalysis),即利用網頁、網站、機構、地區和國家之間的鏈接(Linking)與被鏈接(Linked)關係,通過定量的方法來評價和發現核心資源。鏈接分析算法以PageRank和HITS最為著名,它們之間的最大不同在於PageRank計算的是基於數據庫中全部Web文檔的穩定的全局值,而HITS是在用戶查詢的基礎上進行動態權威值(Authority)和中心值(Hub)計算的。

利用HITS算法來發現Web主題社區有兩個前提假設:①由網頁設計者所創建的超級鏈接(Hyperlink)隱含了足夠的主題信息,通過這些信息可003學術Web主題結構挖掘研究以計算出該主題下的權威頁麵;②在前提1的基礎上,必然存在以相同寬泛主題為特征的、由多個相互鏈接的Web頁麵組成的主題社區。Gibson和Kleinberg等人利用HITS算法[4],針對“哈佛”“英語文學”“滑雪”等主題進行了主題社區挖掘的研究。實驗結果表明,HITS可以有效地發現隱含於WWW中的主題社區,並且在一定程度上可以反映其中子主題之間的關係,如“德國文學”主題社區和“歐洲文學”主題社區有相當明顯的聯係。

Chakrabarti等人將鏈接的錨點周邊文字信息和URL中包含的字符信息的匹配度作為權重[5],在HITS算法的基礎上提出了ARC算法(AutomaticResourceCompilation),實驗證明該算法生成的資源目錄質量與Yahoo!和Infoseek相當,甚至某些情況下質量要優於手工分類的主題目錄。Dean和Henzinger利用改進的HITS算法———Companion、共鏈算法(Colink)分別做了發現相關網頁的實驗,並且將實驗結果和瀏覽器Netscape提供的“相關網頁”服務做了對比。結果顯示,即便Netscape提供的“相關網頁”服務利用了內容分析、使用模式分析和鏈接分析等多種分析方法,Companion和共鏈算法還是明顯占優[6]。Toyoda和Kitsuregawa對Companion做了進一步改進,形成了新的Companion—算法。利用該算法,他們成功地分析了日本國內和計算機產業有關的Web主題網絡[7]。

1.1.3基於複合網頁特征的主題聚類無論是PageRank還是HITS,都是依靠Web頁麵之間存在的URL來構建關係網絡,這些鏈接分析算法的理論假設借鑒於引文分析,即來源文獻和被引用文獻之間存在主題上的相關性。然而,引文分析也存在非主題相關引用的問題,如假引、誤引等現象。網絡上一個網站鏈接另外一個網站的動機更為複雜,很多商業網站知道搜索引擎的網頁排名算法後,利用交換鏈接等手段來提高自己網站的排名,從而增加被用戶點擊的概率。SEO(搜索引擎優化,SearchEngineOptimization)研究的一個主要內容就是如何通過設置合理的鏈接使企業在搜索引擎排名中獲益。對於互聯網垃圾製造者來說,買賣鏈接的方式讓他們有了很好的機會來通過其他網站的聲譽來操縱搜索引擎排名結果。AlastairGSmith提出了實質網絡影響因子004第一章引言(SubstantiveWebImpactFactors)[8],他認為對網站的評價隻有以指向真正信息資源的Web頁麵為基礎才是有意義的。他把大學網站的鏈接按照鏈接目的分成九個大類,從分類來看,真正指向重要信息資源的、主題相關的鏈接很少。

為了防止主題漂移現象的發生,使某個網域(Domain)內具有相同主題的頁麵能夠被順利發現,從而提高主題社區分析的可靠性,Web頁麵上除了鏈接以外的信息單元也有重要的參考意義,如頁麵結構、元數據、錨文本、標題和正文文本、正文字體特征等。頁麵的文字特征,如字體大小、顏色等雖然和主題沒有直接的相關關係,但在頁麵主題特征的提取和表示方麵有很好的輔助作用,頁麵結構也同樣具有很重要的相似性判斷的功能。

Crescenzi等人通過對網頁內部結構建模的方式實現了對網頁的分類。他們以2002年韓日世界杯的專題網站為樣本,分析了每個網頁的DOM樹後,對每個網頁建立了網頁模板。如果兩個頁麵是可達的(存在鏈接關係),則分析它們模板的相似度,如果相似度達到一定程度,可以認為兩個頁麵的內容是相關的[9]。

1.1.4基於宏觀網絡拓撲結構的犠犲犫主題社區發現利用網絡拓撲結構分析的方法嚴格來說也屬於鏈接分析的研究範疇,但和HITS等不同的是,這種方法把WWW作為一個網絡圖(Webgraph)來分析,網絡中的結點和邊分別代表網頁和鏈接。基於網絡拓撲結構來構建Web主題圖的依據是,整個網絡圖中存在一個或者多個比較稠密的子圖,這些子圖明顯不同於其他部分,每個子圖就是一個Web主題社區。子圖以及它們之間的關聯關係組成了整個Web主題圖。基於Web結構挖掘的鏈接圖分析方法具有很多文本主題分析和日誌挖掘不具備的優勢,主要表現在以下幾個方麵:(1)避開了複雜的文本分析難題。

文本分析需要通過複雜的自然語言處理技術進行主題表示和匹配,而網絡鏈接圖中可以通過有無人工標注語義的網絡鏈接來表示頁麵之間的相關與否。

005學術Web主題結構挖掘研究(2)解決了跨語言Web資源的主題相關性判斷問題[10]。

文本分析技術在遇到跨語言Web資源的主題判斷時,需要進行語料轉換,也就是機器翻譯,而網絡拓撲結構分析具備了網絡鏈接天然的語義相關性特質。

(3)噪音信息過濾效果良好。

雖然網絡鏈接的作假很容易,但主題圖構建過程中所用到的社區發現算法以人工選定的起點出發,經過良好的鏈接評價算法,對垃圾頁麵的過濾效果比單純的文本分析方法更加有效。

(4)便於進行結構化的Web資源的評價、獲取和利用。

基於Web結構挖掘的主題圖構建方法可以實現不同層次的資源聚合,如按照主題進行聚合、按照網頁、網站、域等信息單元進行聚合。

目前基於網絡拓撲分析的主題圖構建研究主要集中在兩個方麵,以資源評價和獲取為目的的資源發現研究和以科學評價為目的的鏈接行為研究。

1.1.5基於犠犲犫訪問日誌的用戶社區發現為了滿足個體用戶或者團體用戶的個性化信息需求,Web日誌挖掘是解決問題的最好辦法之一。Web個性化是通過充分利用用戶瀏覽行為,根據每個用戶的特殊需要而定製網站內容和結構的方法。通過對站點用戶訪問記錄的統計或者模式識別,可以建立用戶社區(UserCommunities),社區內的用戶具有相似的興趣。例如,當用戶在電子商務網站進行一定的瀏覽操作後,會有一些同類用戶感興趣的商品被推薦給當前用戶。通過用戶社區的發現,以及對這些具有相似興趣的用戶所共同關注的主題進行跟蹤和挖掘,可以發現具有相同或者相似興趣和主題的用戶社區和資源社區。

Almeida等人以巴西的網上書店和音樂流媒體網站作為分析案例,使用訪問日誌對兩個網站的用戶進行了聚類分析,分別發現了不同的用戶社區,其中以流媒體網站的用戶社區分析效果最為明顯。他們共發現了10個頂006第一章引言層社區,每個社區代表了不同的音樂風格。即使是在沒有訓練的情況下,仍然發現了用戶對巴西本地音樂具有強烈興趣的規律[11]。以往的用戶社區發現是限定在某個網站上的,而Pierrakos等人利用從ISP的代理服務器上獲取的用戶訪問日誌,分析了多個站點的用戶瀏覽行為。尤其是在沒有涉及網站邊界等有關的鏈接結構信息的情況下,他們通過對用戶訪問過的目標URL和頁麵主題內容進行分析後,采用了一種擴展的分類器CDM(CommunityDirectoryMiner)來構建多層次的Web社區目錄[12]。

1.1.6基於犠犲犫主題圖的信息瀏覽和檢索可視化在用戶利用搜索引擎檢索Web信息時,關鍵詞的選擇會影響結果的相關性。沒有經驗的用戶往往很難將自己的檢索意圖轉化為合適的檢索詞,所以經常很難從搜索引擎獲得比較滿意的檢索結果。Yahoo!和Directory等主題分類目錄部分解決了檢全率的問題。同樣,可以利用Web社區發現技術所獲取的相互關聯的文檔集合來構建單主題或者多主題的Web文檔主題圖(TopicMap)。主題圖上的結點可以是網絡上的一個域(國家、地區、Web主機等),也可以是一個Web頁麵。代表域或者頁麵之間相互關係的邊以鏈接和主題相關度相結合的方式來描述,用戶可以通過擴展或者收縮Web社區的方式來實現Web主題內容的瀏覽,也可以實現對選定社區內資源的輔助檢索。

Chen等人設計的基於語義網的交互性可視化係統ISWIVE將主題圖整合進RDF中,實現了主題信息的微觀和宏觀的顯示[13]。Chakrabarti等人開發的FocusedCrawler係統以目錄樹的方式顯示了各個主題的層次關係[14]。在該係統中,可以通過目錄樹來瀏覽每個主題目錄下的Web文檔,也可以在相鄰文檔顯示區顯示和選定主題相關的文檔。如選定的主題是“自行車”,係統會將包含“緊急救援”的文檔顯示出來。基於TouchGraph的GoogleBrowser給用戶提供了輸入檢索詞的接口,最後對檢索結果進行可視化顯示。每個包含檢索詞的結點圍繞在展示區中心,相關結點之間以線連接[15]。

007學術Web主題結構挖掘研究1.2研究意義利用數據挖掘技術,綜合采用社會網絡分析、複雜網絡算法和網絡計量指標,來揭示存在於學術網絡空間的主題集中規律,對於發現學術網絡空間基於主題的資源評價和組織模式有重要的理論價值和應用價值:(1)提高基於Web社區發現的學術資源采集和評價的效率和可靠性。

雖然本研究的研究對象是網絡學術社區,但由於線下的學術研究活動往往和網絡上的資源創建、發布和共享行為是密不可分的,因此它們在資源的數量、種類、結構和傾向性等方麵可能存在一定的一致性。這種潛在的規律給基於網絡社區分析的方法提供了發現和組織線上Web信息資源和線下軟硬件資源的可能性。

(2)有助於發現學術網絡中隱含的主題關係。

當前各種與科學研究相關的分類體係,比如學科分類和期刊分類,主要是通過專家預先構建分類目錄的方式對機構、學科、期刊進行組織和評價,這種方法可能在局部的子學科分析中存在一定的缺陷。基於Web資源的社區主題分析技術有望通過網絡文獻的自組織屬性突破傳統分類體係的局限性,從而發現網絡學術社區中隱含的主題關係。

(3)實現大規模、多主題的Web社區中宏觀主題結構的自動化抽取和動態演化分析。

基於社區發現的Web顯著性研究成果,可應用於大規模的混合主題的主題結構抽取實踐中,從而實現Web宏觀主題圖的自動構建,並通過長期的監測,和其他傳統文獻資源相互結合,實現科學研究中學科融合現象的動態演化分析。最終為學科發展重心轉移方向的預測和跨學科研究態勢的掌握,以及為相關科技管理政策的製定提供決策支持。

(4)競爭對手和合作夥伴識別。

在商業領域,可以通過Web結構分析方法識別處於同一競爭領域的競爭對手、發現相似領域的潛在競爭對手和合作夥伴;在學術研究領域,可以幫助研究者快速定位領域內的核心研究團隊,從而跟蹤處於領域最前沿的008第一章引言研究成果。

1.3犠犲犫主題結構分析研究現狀無論是對機構或者是對個人、學術社區還是商業領域或者政治團體而言,通過Web結構分析發現機構、組織、個人或者企業之間在網絡上自發形成的局部關係,是了解相關領域或者主題的資源集中規律並加以充分利用的主要途徑之一。

1.3.1犠犲犫顯著性指標研究根據研究對象和計算指標的差異性,不同的學者對Web顯著性的定義有所不同。Kretschmer是較早提出Web顯著度衡量指標的學者,她根據資源類型的不同,提出了兩個顯著性指標[16]:(1)出版物Web顯著性(WVRP,WebVisibilityRateofPublication)。