一直以來科學文獻中的引用關係被認為是對文獻主題關係最好的天然表示,因此引用網絡分析也是科研主題結構挖掘的主要手段之一。Choe等人以有機光伏電池領域的專利作為研究對象,通過對該領域的引用網絡的結構分析,發現該領域的知識流在國家、機構、技術領域這三個層麵都表現出無標度的特性[185]。Jonathan等利用引用網絡識別出燃料電池技術領域的主要技術問題及研究趨勢[186]。Kusumastuti等人將引用網絡分析應用於健康領域,通過對1902年到2015年間1755篇老齡化文獻構建兩個不同的引用網絡[187],分別從老年人自身角度以及研究者的角度解釋了“殘疾”在自身和旁觀者眼中的認識是不同的原因。
Garg和Padhi選取當前激光文摘雜誌中3174篇激光科學與技術領域的文獻為研究樣本以揭示國際間的合著網絡特征,大多數的合作都表現為雙邊的國內和國際合作[188]。王賢文等基於SCI、SSCI和A&HCI三大引文數據庫分析了中國357家主要科研機構的論文合著網絡,結果發現地域相近和學科相似是影響中國機構論文合作模式的兩大因素,其中地域相近的124第六章多維度機構網絡主題一致性比較研究影響尤為明顯[189]。通過對大量社會學領域合著數據的分析,Moody觀察到合著網絡中會逐漸形成一個規模較大、聚集性較強的內核[190]。Barabási等通過數學和神經科學領域內8年期間的相關雜誌電子數據庫的數據分析,提出了合著網絡的演化模型,驗證了科研合著網絡是無標度網絡,並且網絡演化由優先連接機製控製[191]。馮祝斌和趙丹群在整體合著網絡和核心合著網絡兩個層次,以2002—2012年我國圖書情報學核心期刊的文獻作為樣本分析了該領域的機構合著網絡演變趨勢,研究發現我國圖書情報領域的機構合著網絡整體聯係愈加緊密,核心合著網絡主要表現為臨近地域內的機構合作[192]。
為了探索對機構之間研究主題相關性進行挖掘的技術路線和研究策略,本研究將從傳統文獻和Web空間兩種環境,機構合著網絡、鏈接網絡和引用網絡三種角度構建的多重關係網絡的結構分析中,對比不同的機構網絡關係對於機構研究主題一致性的揭示能力。
6.2數據采集與預處理對於鏈接網絡的數據采集和處理,以及數據分析中用到的主題模型等,本文在第三到第五章均有詳細描述,本小節主要對引用網絡和合著網絡構建的相關方法進行介紹。
基於鏈接網絡的機構集合,從WoS(Webofscience)數據庫檢索獲得了342所大學發表於2006—2015年間的SCI、SSCI和A&HCI三大引文數據庫的文獻元數據。在製定機構文獻檢索式時,因作者書寫習慣、機構名翻譯方法的差異、機構合並和更名、隸屬關係不清和數據錄入錯誤等問題,導致機構名的表現形式多樣。為了盡可能保證對機構文獻數據的查全率,課題組采取以“地址”與“機構擴展”相結合,同時參考了經過機構名規範化後獲得的機構別名列表[193],盡可能全麵地收集WoS中相關機構名的不同表達形式,以達到從檢索式的角度避免漏檢的目的。
將所下載的所有文獻信息統一導入數據庫中,並根據文獻的UTWOS標識的唯一性,刪除數據集中的重複記錄,共得到1275545條文獻記錄。
125學術Web主題結構挖掘研究根據地址字段中第一個逗號之前的文字片段作為機構名稱,如某一作者的地址字段為“AnhuiUnivFinance&Econ,SchStat&ApplMath,Bengbu233030,PeoplesRChina”,則機構名為“AnhuiUnivFinance&Econ”,以此方式截取每條記錄中的“地址”字段中的機構名字符串。由於機構名稱多樣,下屬機構情況複雜,為了使檢索過程中的機構名完善化,我們將截取到的機構名稱與檢索過程中用到的所有機構名進行完全匹配,得到1198470條有效記錄。彙總剩餘的77075條記錄的機構名,並通過Google、百度或WoS等工具查詢這些機構名與342個研究樣本的關係,最終又得到130種機構名的其他縮寫形式。將這130種機構名與剩餘的77075條數據重新匹配,得到42329條有效記錄。最終,該342所大學的文獻樣本數據共1240799條。在構建引用網絡的過程中課題組發現,WoS數據庫提供的元數據部分缺失C1、RP或CR等字段,影響了引用網絡的構建。DOI是參考文獻數據統計的重要參考信息。數據采集中獲取的數據集中部分參考文獻的DOI信息缺失,且主要集中於2006年和2007年,信息缺失量達到94%,因此本研究最終將數據集限定於2008—2015年這個時間跨度。經過篩選,C1、RP、CR和DOI信息完整的記錄共956948條,參考文獻861819條。
因構建檢索式的需要,課題組構建了一個機構別名列表。該列表中包含了每所大學名稱在WoS中不同的書寫形式。在構建機構引用網絡和合著網絡時,不同的機構名寫法將會被映射到同一機構編號。
6.3單一機構網絡分析6.3.1引用網絡分析在合著論文中,不同排序作者的貢獻度是不同的。為了充分度量機構之間的主要引證關係,本研究限定以第一作者和通訊作者的所屬機構的論文為統計數據源。由於引用網絡是和鏈接網絡類似的有向圖,因此在利用FUA算法進行社區劃分之前,采用了和鏈接網絡類似的保留弱邊的轉換策略。表61是經過轉換後的基於引用關係的機構網絡基本指標。
126第六章多維度機構網絡主題一致性比較研究表61引用網絡基本指標結點數邊平均度網絡直徑網絡密度平均聚類係數3162391015140.480.41引用網絡的社區劃分是指借助複雜網絡的劃分方法,依靠文獻之間的引用關係對引用網絡的聚類研究,通常同一社區內的引文具有相似的主題[194]。關於引用網絡的主題識別,當前的研究方法主要是通過文獻間的共引和耦合關係實現。本研究中的社區主題識別模型,是為了探索利用引用網絡研究機構之間在宏觀結構上的學科相關性。本章的研究中,采用FUA算法對引用網絡進行社區結構劃分,最終得到4個社區。引用網絡的社區結構分布及每個社區結構的主題特征和地域特征數據如表62所示。
表62引用網絡社區特征社區編號社區主題主要地域社區容量主題一致性地域一致性1工學遼寧980.760.132人文社科類吉林520.720.113醫學上海320.500.134工學北京310.610.12從劃分出來的四個社區的主題一致性評估數據來看,各社區內部成員的主題一致性普遍高於0.5,整體平均一致性為0.65。基於社區內部成員的主題一致性的評估算法,從機構引用網絡中總體上識別出了人文社科類、工學和醫學三種不同的學科門類。從而實現從量化的角度表現引用網絡中同一社區內部的引文的研究主題具有相似性。
機構引用網絡是以機構之間的引用關係而組成的,但參考文獻仍然是最基礎的信息單元。雖然由參考文獻形成的微觀引證關係不可避免地會遇到不同學科領域的知識交叉問題,但隨著科學研究的不斷深入,研究方法和技術路線的逐漸精細化,不同學科領域的界定逐漸分明,學科內部知識流動路徑更加清晰。在微觀主題方向,引用網絡中可能存在比較頻繁的學科交叉現象,但在海量引證關係構成的宏觀學科結構分析中,機構引用網絡也遵循學科內部關係緊密、不同領域間學科聯係比較鬆散的一般規律。本章對127學術Web主題結構挖掘研究於機構引用網絡的主題一致性分析數據顯示,342個樣本在比較大的時間跨度內(2008—2015),在宏觀的學科門類層麵的聚類關係也是存在的。有部分學科門類沒有被識別出來,可能是由於這些學科門類的特征相對比較弱,因此在識別算法上還需要進行更為嚴謹的優選。另外,基於當前便捷的電子數據庫平台,文獻的參考資源更加廣泛,文獻的發表時間、地點、語言對引用行為的影響已經越來越小。在本研究的機構引用網絡中,對於地域一致性(算法和主題一致性類似)的評估數據反映了機構之間的引用行為受到地理位置因素的影響已經非常小。
6.3.2合著網絡分析由於機構之間的合作關係是一種雙向對等關係,因此對機構合著網絡不需要做任何形式上的轉換。表63是機構合著網絡的基本統計指標。
表63合著網絡基本指標結點邊平均度網絡直徑圖密度平均聚類係數32918482112.440.3430.326通過對合著網絡的結構進行分析,從FUA算法共獲得9個非重疊社區。每個社區的主題結構一致性結果如下(表64)。
表64合著網絡社區特征社區編號社區主題社區地域社區成員數量主題一致性地域一致性1工學北京720.540.442工學遼寧520.500.583人文社科類上海450.490.424工學四川320.500.475工學廣東320.440.346工學江蘇280.460.897工學陝西270.590.598工學湖北230.570.789工學山東180.500.67研究主題的相近性或者相關性是科研合作的最主要動機。本研究基於128第六章多維度機構網絡主題一致性比較研究FUA的合著網絡社區結構劃分結果中,各個社區的主題一致性在0.44到0.59之間,整體平均值為0.51。在統計的9個社區中,相當一部分學科門類在網絡中的顯著性水平比較低,表現為七大學科門類中隻能發現工學和人文社科類兩個門類。對本研究采用的大學集合進行分析可以發現,工學和人文社科類為特色的大學數量所占的比例比較大。其中可能的原因之一是這兩個學科門類涉及的學科或者專業種類範圍廣,並且和很多其他學科之間存在密切關係。教育部學科評估目錄的統計數據顯示,工學和人文社科類這兩個門類下的一級學科數量是最多的,分別為36個和17個。
關於科研合作的影響因素也是科研合著網絡的研究熱點,主要分為地域和主題兩大主要影響因素。針對機構合著網絡的社區劃分結果,分析社區內部成員的地域特點後發現,社區成員的地域一致性平均值為0.58,其中社區6的地域一致性極高,說明江蘇地區大學的整體科研水平比較高,區域合作比較頻繁。社區8和社區9也是類似的情況。此外,雖然部分社區以省份劃分的地域一致性並不是很高,但對其地域分布進行分析可以發現,這些樣本也體現出了區域集中的特點,社區2的成員有98%來自東北三省(遼寧、吉林和黑龍江),社區4的成員全部來自西南地區(四川、雲南和重慶),社區3的地域跨度較大,但上海和浙江的大學占76%;社區7是以陝西為核心的地域性社區,並且來自西北四省市(陝西、甘肅、新疆、寧夏)的大學占96%。在研究樣本分布的30個省市中,43%的省份被劃分在單個社區,說明樣本所屬的省份在地域社區中的重疊度不高,即機構合著網絡的區域集中規律非常明顯,甚至超過了主題一致性。總體而言,機構合著網絡社區劃分結果的平均地域一致性明顯高於主題一致性,這些數據說明了科研合著網絡中地域因素比主題因素更為顯著一些。
對機構合著網絡的每個社區進行詳細分析可以看出,在多數情況下地域因素對合作意願的影響更大。劃分得到的9個社區中共有5個社區,即56%的社區地域一致性大於或等於主題一致性。總體而言,合著網絡中的社區屬性中,地域特征要比主題特征更為顯著。隻有44%的社區主題一致性大於地域一致性,並且差距也非常微弱(均不到0.1)。這說明了在機構合著網絡中,主題相似性或者相關性仍然是科研合作的主要動機之一,但地域129學術Web主題結構挖掘研究因素對機構之間合作意願會產生重要影響,甚至在很大程度上可能會大於主題相關因素。
6.4機構網絡主題一致性比較社區結構具有“結構內部成員間關係緊密,不同社區間關係鬆散”的特點。關於網絡中社區結構的形成因素多種多樣,在總結前人研究的基礎後我們發現,各種維度的學術網絡中最主要和最顯著的影響因素是主題因素和地域因素。本章主要的研究目的是探究網絡的主題和地域兩種因素對於社區結構形成的影響力,從而在最大程度上找到挖掘學術網絡中的主題聚集現象的技術路線。表65是三種網絡基於FUA算法劃分的社區結構的主題一致性與地域一致性比較。
表65不同學術網絡主題與地域影響力對比網絡類型主題一致性地域一致性鏈接網絡0.910.36引用網絡0.650.12合著網絡0.510.58根據表65對比分析三種網絡的社區主題一致性和地域一致性兩方麵,可以看出學科一致性方麵,鏈接網絡的學科一致性最高,為0.91,主要是由於鏈接網絡是學術Web空間的表現形式,是基於互聯網的鏈接行為,更加便捷地實現了機構間的關聯,較高的學科一致性則說明我國大學間的網絡鏈接行為的學術性質更為純粹。關於地域一致性,最高的是機構合著網絡,為0.58。基於前人關於機構合著網絡的研究發現,當前我國高校間形成的機構合著網絡主要是以地域為主的關聯[189],可見機構合著網絡的地域色彩更加濃重。各個機構的研究者在選擇合作對象的時候過多受到地域因素的影響,而沒有充分利用更多的科研軟硬件資源,選擇研究方向相關性更高,實力更為雄厚的作者進行合作。可能是學者間的人際交往範圍受到地域的影響,也可能是地域距離影響了學者間的交流,導致各個不同機構的研130第六章多維度機構網絡主題一致性比較研究究者不能實時了解彼此的研究動向。相比之下,地域相近的學者間交流更為便利,更容易了解彼此的最新想法、最新研究動態,更容易產生合作意願。
引用網絡和鏈接網絡具有相似的特性,都是學科主題因素的影響力遠大於地域因素的影響力。引用網絡中關係的形成類似於鏈接網絡,主要是受到主題因素的影響,而地域因素的影響力較小。究其原因,隨著網絡數據庫平台的發展,文獻資源的高度數字化使得資源共享變得更為便利。文獻引用行為不再受到時間、地域、語言等因素的影響,因此,引用網絡是相比於機構合著網絡更加純粹的學術研究行為。即便如此,本章對於引用網絡的主題結構的統計數據顯示,傳統對於利用引用網絡進行主題結構挖掘的研究經驗,並不適合在更為宏觀的學科門類層麵揭示主題相關關係,引用網絡的主題一致性不是很高。
總體而言,我們可以認為鏈接網絡在機構層麵的學科聚類分析中最具優勢,其次是引用網絡,機構合作關係受到學科主題和地域雙重因素的影響。鏈接網絡雖然可能會受到非主題相關等諸多人為因素的幹擾,但本研究采用了一係列的技術策略,從而有效過濾了這些幹擾因素。具體表現為,本研究中構建的鏈接網絡的主題一致性是三種途徑中最高的,並且發現的學科門類也是最多的。說明了采用適當的技術策略,配合科學的數據分析手段,相比於其他常規途徑,從鏈接網絡中挖掘機構之間的宏觀主題聚集關係是比較理想的技術路線之一。
6.5小結基於科學論文的引用網絡和合著網絡是對於機構、個人、學科甚至是國家之間的研究主題相關性、主題探測和區域合作態勢進行研究的傳統手段。
由於Web資源的特殊性,以往的研究更多是從鏈接網絡的角度入手,采用社會網絡分析的方法,定性分析機構直接的主題相關關係或區域合作關係。
為了檢驗本研究前一章提出的基於鏈接網絡的主題顯著度研究中提出的主題分析模型和技術路線的有效性,本研究根據鏈接網絡的樣本集合,分別構建了機構引用網絡和合著網絡。通過對三個網絡的對比發現,在機構131學術Web主題結構挖掘研究主題關係分析中,雖然機構引用網絡能夠在很大程度上規避地域影響因素的幹擾,成功地發現了機構之間因學科相似性而產生的部分聚類,但聚類的效果不是很理想。主要表現在兩個方麵:一是,發現的主題社區較少;二是,在學科門類層麵的主題一致性比較低。從本研究構建的機構合著網絡中,可以比較顯著地體現出地域合作在科研活動中是非常頻繁的。雖然主題相似性或者相關性也是研究者考慮的因素,但總體上地域的限製對於機構之間的科研合作是很大的障礙。表現在社區發現的主題顯著性上,機構之間聚類關係形成的因素中,地域因素和主題因素都很顯著,並且在相當比例的社區中,科研合作關係形成的地域因素要超過主題因素,比如西南地區、西北地區和東北地區。
通過和上述兩種網絡聚類性能的比較可以發現,本研究利用鏈接網絡所發現的宏觀主題結構,在主題顯著性方麵的揭示能力是最好的。社區的平均主題一致性達到了0.91,並且成功發現了七大學科門類中的四個主題社區。
132第七章開放Web空間的主題結構挖掘研究第七章開放犠犲犫空間的主題結構挖掘研究在前幾章的研究中,研究的對象是由事先選定的多個樣本組成的樣本集合,由這些固定的樣本集合構建的鏈接網絡是一個封閉的網絡。由於是已知樣本,因此樣本的學科主題方向、地域分布、綜合影響力等特點也是已知的。對封閉樣本集合的鏈接網絡關係研究的關鍵問題是正確構建樣本集合之間的關係,並發現網絡中的局部主題合作模式。從模式發現的技術來說,就是從已知樣本網絡中尋找局部關係。至於這個關係是否存在,一方麵取決於客觀的因素,即樣本之間的鏈接行為是否表現為顯著的主題合作傾向;另外一方麵取決於數據網絡構建的方法和數據分析方法。因此,從封閉網絡中發現局部主題鏈接關係的結果可能會包含有意義的局部社區,同時存在不少遊離的“碎片”。很大程度上是因為在現實情況下,組成“碎片”的樣本在主題關係上和其他一些樣本雖然有相似性,但在鏈接網絡上這種相似性表現並不是很明顯,從而導致了通過鏈接網絡進行主題關係識別的失敗。封閉樣本集合的研究中並不能發現新的重要樣本,並且在主題範圍的控製方麵也存在一定的不足。
在開放的、啟發式的主題鏈接網絡構建基礎上進行的知識發現研究為主題合作模式的挖掘和萬維網資源的發現提供了不同的視角。和基於封閉樣本集合的研究不同的是,這種方法根據網絡上的信息單元之間的相互鏈接特點組成一個自發的鏈接網絡。這個網絡的最大特點是樣本集的容量和成員是不確定的,成員的選擇完全依賴已有成員網站的特點和成員之間的鏈接關係。由這些成員組成的鏈接網絡最大程度上反映了成員之間的共同興趣,因此在學術網絡上這個相同的興趣很可能表現為研究主題的相似性,133學術Web主題結構挖掘研究開放網絡的主題凝聚度要高於基於封閉樣本集合的鏈接網絡。基於開放樣本集合的主題社區發現的關鍵問題有三個:樣本的啟發式選擇、樣本的主題聚類和樣本重要性度量。本章采用的啟發式樣本選擇的主要思想是通過核心樣本的上遊和下遊鏈接關係來發現新的候選樣本,經過多重篩選後的候選樣本集將被加入核心樣本集合中。
為了探索基於開放集合的社區發現研究中的Web主題結構挖掘的新方法,本章提出了以網站為單位的HITS—Site社區成員擴展算法,並通過Web主題網絡構建的具體實驗來驗證算法的有效性。
7.1社區擴展相關算法7.1.1犎犐犜犛由Kleinberg提出的HITS算法是麵向主題信息采集的主要算法之一,在實現步驟上它主要分為兩步:網頁集合構建和重要性計算。在基於HITS的主題信息采集中,如果犛σ是最後獲取的主題相關的理想網頁集合,應該滿足下麵三個條件[63]:(1)犛σ規模相對比較小。
(2)犛σ中包含較多和查詢主題相關的網頁。
(3)犛σ包含了大多數最權威的網頁。
假定預先給定一個查詢寬泛主題的檢索式σ,將這個查詢提交到以關鍵詞檢索為主要匹配依據的搜索引擎後返回一個網頁集合。HITS將返回的網頁集合中排名最高的前狋個網頁(一般情況狋=200)作為算法的初始種子集合犚σ,犚σ符合了集合規模比較小和主題相關網頁多的要求,但並不能滿足包含大多數最權威網頁的條件。無論是在科技文獻檢索還是搜索引擎的Web信息檢索中,都會遇到第三個條件對檢索結果的評價。在科技文獻檢索係統中,一般會利用同義詞擴展、主題詞擴展和同位類擴展等多種方法進行初始集合的擴展,以幫助對權威資源的發現和排序。而搜索引擎對用戶的檢索請求的處理在絕大部分情況下以關鍵詞檢索為主,犚σ中的網頁基134第七章開放Web空間的主題結構挖掘研究本上都包含了最初輸入的檢索式σ中的關鍵詞。相對於科技文獻,Web信息的用詞更為靈活和複雜,因此用戶對相同或者相似信息的描述可能存在很大差異,由此導致的現象是包含關鍵詞的頁麵可能是主題不相關的,大量主題相關的網頁因為不包含查詢式中的關鍵詞而沒有被發現。因此HITS算法所要解決的核心問題就是以犚σ為核心集合,經過對鏈接到犚σ的網頁和犚σ鏈接的網頁集合的追蹤來發現權威資源(如圖71)。
圖71犎犐犜犛擴展算法[63]對HITS擴展算法的詳細描述如下:子圖狊狌犫犵狉犪狆犺(σ,ξ,狋,犱)σ:查詢式;ξ:搜索引擎;狋,犱:自然數;犚σ表示查詢式σ提交到搜索引擎ξ後返回結果的前狋條記錄。
設犛σ=犚σ對每一個犚σ中的網頁狆Γ+(狆)表示狆指向的網頁集合;Γ-(狆)表示指向狆的網頁集合;使犛σ=犛σ∪Γ+(狆),並且,如果Γ-(狆)≤犱,犛σ=犛σ∪Γ-(狆);否則,選擇Γ-(狆)中的任意犱個網頁加入犛σ。
135學術Web主題結構挖掘研究通過上述算法中兩次對起始種子集合犚σ的擴展,不屬於集合犚σ中的潛在權威網頁因為和集合犚σ中網頁的鏈接關係被引入到犛σ中(犚σ和犛σ分別對應於圖71中的root和base)。被擴展的主題相關集合犛σ為後麵的網頁重要性判斷提供了更為客觀的依據。如果犚σ中的網頁和檢索主題不相關,後續的頁麵重要性計算中會將不相關頁麵等級降低;或者犛σ-犚σ中的頁麵沒有包含檢索式σ中的關鍵詞,但又的確和檢索主題是相關的,在分析中也可以篩選出來。
作為一種以網頁為信息單元的擴展算法,多個社區發現研究中采用了HITS算法作為社區成員的擴展和社區網絡構建的工具[195,196]。
7.1.2犆狅犿狆犪狀犻狅狀和犆狅犿狆犪狀犻狅狀Companion算法是由Dean和Henzinger為Web主題信息采集而設計的算法[6],算法以HITS為基本參考模型。如圖72所示,Companion算法構建的網頁集合包括了種子網頁鏈接的向前網頁集合(Forwardset)、鏈接到向前網頁集合的向前—向後網頁集合共同構成的向前擴展的集合(Forwardbackset)、鏈接到種子網頁的向後網頁集合(Backset)和向後網頁鏈接到的向後向前網頁集合共同構成的向後擴展集合(Backforwardset)。
和HITS不同的是,Companion算法除了進行向前和向後擴展,還進行向前—向後擴展和向後—向前擴展。這樣的擴展方式等於是在HITS的基礎上向兩個方向朝核心的種子集合平行的位置各多擴展了一個層次。在向前—向後擴展中,Companion不是采用HITS的Γ-(狆)中任意犱個網頁的擴展方式,而是選擇向後網頁集合中,指向種子網頁的鏈接前麵犚個和後麵犚個鏈接指向的網頁作為擴展集合(對應於圖72中Backforwardset的陰影部分)。
Toyoda和Kitsuregawa指出,通過網頁狊能獲得相關網頁狋,反之如果從狋也能得到狊,則說明網頁狊和狋互為相關網頁。但如果從網頁狊能得到網頁狋,而反過來不成立,則說明有很多hub網頁指向網頁狋,而網頁狋擁有和網頁狊不同的相關網頁。考慮到這些因素,他們提出的Companion算法舍棄了HITS和Companion中的所有向前擴展部分,而向後擴展的規則和Companion完全相同[7]。
136第七章開放Web空間的主題結構挖掘研究圖72犆狅犿狆犪狀犻狅狀圖73犆狅犿狆犪狀犻狅狀137學術Web主題結構挖掘研究7.1.3基於網頁的社區發現研究的不足網站和網頁是萬維網上不同的信息單元,它們在鏈接行為和主題特征方麵的特點有很多不同。以網頁為基礎的社區發現的假設是不同網站的網頁之間的鏈接行為代表了網頁的主題相似性。雖然這種假設在某些情況下是成立的,但偶然性比較大,而且也沒有很有效的辦法從社區發現的結果中進一步區分主題層次。在Web網頁的單主題聚類方麵,基於網頁的方法有一定的優勢。而Web主題圖需要的構建技術和方法不但能獲取主題相關的集合,而且能進行宏觀主題結構的揭示。以網站為信息結點的社區發現技術有望彌補基於網頁的社區發現技術在Web主題圖構建方麵的不足。
在學術研究領域,相比網頁,網站在主題圖構建方麵的主要優勢表現在以下幾個方麵:(1)鏈接動機的判斷更為穩定。
單個網頁的鏈接方向受到網頁創建者或者信息發布者個人意願的偶然性因素影響比較大,對其他網頁的代表性比較差。而以網站為單位,從總體上判斷網站的鏈接興趣的方法由於受到個別網頁偶然鏈接因素影響比較小,因此更為穩定。
(2)網站的主題性傾向更為明顯。
一般情況下,每個相對獨立的學術機構(比如學院、研究所等)都會有符合自身發展特點和研究興趣的研究方向,通過單個網頁對機構研究方向的判斷往往缺乏足夠的帶有主題傾向的鏈接信息。學術網站的特點是網站之間主題性關係占的比例比較大,而通過學術網站大量網頁的鏈接傾向的綜合判斷,能夠比較容易地確定整體的主題方向,為利用網站之間的鏈接關係進行網站主題聚類提供依據。
(3)知識發現的結果更可靠。
正是因為基於網站的鏈接動機判斷更為穩定,而以網站為信息單元表現出的主題性傾向更為明顯,因此從網站之間的多種關係中識別出以主題相關為主要鏈接動機的關係,比單個網頁要容易。從這種以主題關係為主導的鏈接網絡中發現的主題社區在個體社區內的主題凝聚度更高,而主題138第七章開放Web空間的主題結構挖掘研究社區之間的層次關係更為合理,並有助於新資源的發現。
HITS等算法提出的網頁鏈接數超過犱後選擇任意犱個網頁的擴展方法[63],不能說明任意犱個網頁和本網頁主題相似程度。對Companion和Companion來說,雖然選擇鏈接到種子頁麵的網頁鏈接前後犚個鏈接作為擴展的方法有一定的合理性[6],但不同的網頁風格對大小為±犚鏈接區域選擇的有效性影響很大,很容易包含了不相關網頁或者相關網頁被排除在外,從而引發主題漂移現象。雖然網站之間也存在鏈接關係,但這種鏈接關係在結構上和網頁之間的鏈接關係並不相同。在網頁擴展算法Companion和Companion中,可以通過對鏈接到種子網頁的鏈接前後的位置關係來確定和種子網頁可能相關的網頁集合;而網站上的外部鏈接可能分散在多個目錄或者網頁,處於不同層次的、鏈接到不同外部網站的鏈接之間的關係不同於單個網頁上的多個鏈接之間的關係,因此通過位置信息獲得的網站是主題相關的假設並不可靠。大多數情況下一個網頁上相同的鏈接不會出現兩次,網站之間的關係是通過跨網站的多個網頁的鏈接來實現的,因此,相對網頁來說,網站之間的關係強度可以用相互鏈接的頻率來衡量。
7.2基於網站的社區擴展算法研究本章提出了新的基於網站的社區成員擴展算法HITSSite,該算法以網站之間的鏈接強度為參照進行初始核心網站集合的擴展。鏈接強度的計算以DHDP模型為基礎。
7.2.1算法設計基於網站的主題網絡構建有兩個基本假設:假設1:學術機構的部門網站在鏈接關係上表現出比較強的主題傾向性;假設2:主題網絡構建的參與者對所研究的主題方向總體上有一定的了解。
假設1是利用網站進行網絡主題結構和合作模式挖掘、研究團隊識別139學術Web主題結構挖掘研究和學術資源發現等知識發現研究的基礎。假設2是社區成員擴展算法HITSSite的輸入條件。學術主題圖的構建一般是麵向領域的,因此需要研究者輸入一定數量的種子網站,這些種子網站基本上代表了領域的重要組織、研究團隊或者其他重要的領域學術資源。因此,假設2給擴展算法提供了基本的擴展方向,對於領域專家來說,提供領域內比較重要的幾個學術組織的難度並不是很大。從本研究的結論來看,初始種子集合隻要總體上符合大的主題方向,個別種子的合理與否不會對整個主題圖的結構構成太大的影響。
Companion算法不進行向下擴展的理由是在網絡上上遊的官方網站不會指向下遊的網站,比如一個棒球協會的網站不會指向球迷的頁麵[6]。
在某些情況下,這個假設是成立的,但對學術研究的Web鏈接現象卻不適用。比如一個國際會議的網站會鏈接到它的主辦方的網站(一般情況下是一個學院或者研究所),而承辦該國際會議的學院或者研究所往往也是該領域有影響力的科研力量之一。本文的研究對象是學術科研機構,數據采集以官方權威網頁為主,網站之間是網狀的關係,而不是上下遊關係。因此本研究采用的HITSSite算法中,既進行向前擴展,也進行向後擴展。
圖74是HITSSite算法的擴展結構。和圖72不同的是,圖中以網頁集合組成的網站為基本單元,中間的Seeds為種子站點集合,圖72中每個單元表示一個網站或者網站集合。在向後擴展和向前—向後擴展中,從搜索引擎返回的頁麵是以網站為單位分類的,因此獲得的結果是一個網站集合,每個單元代表由多個網站組成的網站集合。其餘的單元都表示由多個網頁組成的單個網站。圖中的陰影部分表示通過出鏈對外部網站的擴展是選擇性的,隻有部分符合擴展條件的網站才會被加入種子集合,並且每個層次的擴展條件是不同的。
下麵是HITSsite算法的描述:主題圖犵狉犪狆犺[狊,ξ,狊狋狉犲狀犵狋犺(狓,狔),犮(狔),犱(狔)]狊:初始種子網站集合;ξ:搜索引擎,可以是一個或者多個;狊狋狉犲狀犵狋犺(狓,狔):網站狓到網站狔的鏈接強度;140第七章開放Web空間的主題結構挖掘研究圖74犎犐犜犛犛犻狋犲犮(狔):網站狔在指定集合內的鏈接耦合強度;犱(狔):域名結構候選函數,犜表示狔符合候選條件,犉表示不符合。
犚犿表示從編號為犿的樣本擴展中獲得的最初網站集合(集合內網站可重複),狋犺狉犲狊犺狅犾犱犿表示本次擴展的閾值。犿取值如下:犳:向前擴展;犫:向後擴展;犳犫:向前—向後擴展;犫犳:向後—向前擴展。
設犞為當前的樣本集合,犞=狊。
對每一個犚犿中的網站狔,狓表示鏈接到狔的源網站或者狔鏈接到的網站:141學術Web主題結構挖掘研究Γ狊(狔)={狔狘狔∈犚犿∧狊狋狉犲狀犵狋犺(狓,狔)>狋犺狉犲狊犺狅犾犱犿},Γ犱(狔)={狔狘狔∈Γ狊(狔)∧犱(狔)=犜},使犞=犞∪Γ犱(狔)。
在上述的算法執行過程中,可以根據實際的需要選擇擴展的深度和具體的步驟。最後獲得的樣本集合犞就是在初始的種子集合狊的基礎上形成的擴展結果。圖74中的中心結點即種子網站結點和向後擴展後的集合、向前—向後擴展後的集合不同的是,向後集合和向前—向後集合初次獲得的直接是一個候選的網站集合,加入最終集合的網站隻是其中一部分。而對種子網站的擴展是建立在對網站數據采集的基礎上,在數據采集過程中隻利用了網站的部分有效鏈接(以DHDP模型為基礎),擴展也隻是針對部分網站。
算法結構、樣本選擇和評估規則共同構成了HITSSite算法的具體實現。以上隻是對HITSSite算法中實現的擴展模式進行了簡單描述,下麵各個部分將對算法中涉及的各種條件進行詳細說明。
7.2.2基於鏈接強度的樣本選擇規則可以看出HITSSite算法的網站篩選發生在四個階段:(1)向前擴展。
對種子站點整個集合的數據采集結束後,將會通過每個種子網站發現新的外部網站。本研究以鏈接頻率作為種子網站和它所鏈接的網站之間的關係強度,因此為了減少鏈接擴展的偶然性,在向前擴展中隻選擇鏈接強度大於等於狋犺狉犲狊犺狅犾犱犳的網站。由於種子網站由領域專家提供,在集合擴展中可以認為種子網站上的網頁鏈接的外部網站和種子網站的主題相似的可能性比較大,因此一般狋犺狉犲狊犺狅犾犱犳取比較小的值(本研究中狋犺狉犲狊犺狅犾犱犳=3)。
(2)向後擴展。
向後擴展的目的是搜集鏈接到種子集合的網站集合,並且將和這些網站的總體主題方向一致的網站篩選出來。但在實際的操作中,主要以鏈接到種子網站的大多數網站的研究方向和種子網站的主題相似為基本假設。
從搜索引擎返回的記錄中可能包含多個鏈接到種子集合的網站,向後擴展142第七章開放Web空間的主題結構挖掘研究中隻選取返回記錄中網頁頻率大於狋犺狉犲狊犺狅犾犱犫的網站作為擴展候選目標(由於搜索引擎返回的記錄有限,因此研究中取狋犺狉犲狊犺狅犾犱犫=2。狋犺狉犲狊犺狅犾犱犫的確定和搜索引擎返回的記錄數量和域名結構有一定關係)。
(3)向後—向前擴展。
向後—向前擴展是指從向後網站集合(犅犪犮犽狊犲狋)獲得的外部網站集合中選取向前擴展網站的操作。伴隨著擴展層次的深入,必然會麵臨主題相似度衰減或者主題漂移等問題。從種子站點的擴展步驟計算,向後—向前擴展屬於二次擴展,因此需要比向前擴展更為嚴格的篩選條件。這部分的網站選取包括鏈接強度和鏈接耦合強度兩個條件。設向後—向前擴展的鏈接強度閾值為狋犺狉犲狊犺狅犾犱犫犳,要求狋犺狉犲狊犺狅犾犱犫犳>狋犺狉犲狊犺狅犾犱犳(本研究中設狋犺狉犲狊犺狅犾犱犫犳=10)。
(4)向前—向後擴展。
向前—向後擴展是指選取指向向前網站(Forwardset),並且和向前網站關係最為密切的網站作為下一步的擴展目標。和向後擴展一樣,向前—向後擴展中也是從搜索引擎獲得擴展集的候選數據,並且由於這兩次擴展獲得的數據量都是一樣的,因此采用同樣的鏈接強度來進行初次選擇(狋犺狉犲狊犺狅犾犱犳犫>狋犺狉犲狊犺狅犾犱犫)。
從最小的執行單元來分析,HITSSite的擴展算法是根據要擴展的網站和已知集合內的網站的關係密切程度來選擇樣本的。從學術主題圖構建的需要來說,鏈接強度並不能完全說明網站的學術性和主題的相似性,但如果是主題相似的網站,它們之間的鏈接強度一定比較強,因此基於鏈接強度的選擇隻是給出一個最可能存在主題相似網站的候選集合。為了提高主題相似假設的可靠性,還需要進行域名結構的分析以及網站評估。隻有通過域名結構的分析和網站評估的候選樣本才作為最終的擴展集合。
7.2.3基於域名結構的樣本選擇規則根據IANA(TheInternetAssignedNumbersAuthority)的數據顯示[197],截至2010年4月1日,萬維網上頂級域的數量為279個,主要分為三大類:通用行業頂級域gTDL(20個)、國家或者地區頂級域ccTDL(248個)143學術Web主題結構挖掘研究和非英語頂級域IDN(11個)。由於IDN還在測試階段,並未大範圍使用,因此本研究隻考慮gTDL和ccTDL兩種頂級域。
在學術主題圖的構建中,要盡可能地選擇學術性網站作為研究樣本,比如大學的學院、研究所和行業協會等。在20個gTDL中,和科學研究有關的頂級域主要有“.edu”(科研和教育,主要用於美國的大學)、“.org”(行業協會)、“.gov”(政府機構,主要用於美國)。美國之外的國家的教育科研機構和政府機構的域名都是在ccTDL之下,比如中國大陸在CN國家代碼下。用犇犲表示頂級域“.edu”,犇狅表示表示頂級域“.org”,犇犮表示ccTDL頂級域構成的集合。將“.gov”頂級域納入科研類頂級域的原因是有很多科研項目是由政府某些機構來進行主持和推動的。隻有屬於頂級域犇犲、犇狅或者犇犮的網站才會進入下一個篩選流程。
頂級域的判斷相對比較容易,而接下來的二級域的情況要複雜得多。
由於頂級域犇犲已經有明確的用途,因此它們的過濾方法和以犇犮為頂級域的三級域的方法是相同的。進行數據采集之前,需要確定每個候選網站的機構專有域,以判斷其主題專指程度,以及和現有的樣本之間的域名結構關係。頂級域犇犲下的二級域是機構專用的,比如是大學專有的二級域;而犇犮下的二級域卻不一定是專有域,主要分為兩種情況:(1)行業二級域。
比如在中國,CN國家代碼下的“.edu”是用於大學或者學院的二級域,“.ac”是用於科研機構的,“.com”是用於商業的,等;在日本“.ac”和“.co”分別是用於大學和商業的二級域。在此情況下,機構專有域為三級域。
(2)機構二級域。
德國的大學的專有域為國家代碼de下的二級域,同樣的情況在中國則是三級域。凡是不能確定為行業二級域的網站都作為機構二級域來處理。
對機構專有域的識別:一是為了判斷該網站是否屬於已經被擴展的網站的子網站。如果屬於存在於擴展集合的網站的子網站,則不會被加入候選集合;二是為了從域名層次上分析該網站是否屬於大學的網站還是院係的網站。在大學體係中,科學研究以院係為基本組織單位,學科方向也以院係的表現最為明顯,因此本章的研究中以院係的網站作為主要的擴展對象。
144第七章開放Web空間的主題結構挖掘研究識別出機構專有域後,需要對主機進行判斷(為了過濾大學頂層綜合性網站的主機),規則有以下幾條:規則1:基於上層域的判斷。如果機構專有域的上層域是已知的教育科研類的頂級域或者二級域,如“.edu”“.ac”等,直接判斷為大學,然後轉規則2;如果是其他已知的類型,比如“.com”等,直接過濾;如果上層域的行業類型無法判斷,如國家域,則轉規則3。
規則2:對已知類型的主機判斷。如果直接從域名結構判斷該機構為大學(來自規則1),該機構專有域下必然直接存在一個主機名(如abc.domain.edu,domain.edu為機構專有域,abc為主機名)或者存在一個深層主機名(如a.abc.domain.edu),如果沒有直接主機名則默認主機名為“www”,如果直接主機名不屬於“www”“homepage”等關鍵詞範圍,則視為部門網站,而非頂層綜合性網站。最終認定為部門網站後,才可以進入下一步的候選集合。
規則3:處於規則3的網站的機構專有域屬於二級域,如果該網站的主機名是二級域下的深層主機名,則直接進入下一步的候選集合;如果是直接主機名,並且不屬於“www”“homepage”等關鍵詞範圍,直接進入下一步的候選集合;如果屬於關鍵詞集合,則采用機構專有域的關鍵詞進行過濾。機構專有域的關鍵詞是指機構域最前麵的部分(以“.”分隔),如果關鍵詞中含有字符“u”,則該域名在很大概率上屬於大學。也就是說該網站隸屬於大學,並且機構專有域下的直接主機名為大學的頂層主機,因此不作為擴展的候選。
在域名結構分析的基礎上,研究中采用了關鍵詞過濾的方法來過濾一些通用的網站,比如網絡數據庫、圖書館、百科、軟件以及和Web信息發布係統有關的技術信息等。
7.2.4基於鏈接耦合的向下擴展引文分析中文章之間存在共引和引文偶和關係,通過共引或者引文耦合的研究可以發現存在於文獻集合中的學科知識結構。通過網絡鏈接相互連接在一起的網頁、網站或者域之間也同樣存在類似的關係。如圖75,每145學術Web主題結構挖掘研究個字母代表一個獨立的可鏈接對象,可以是網頁、網站或者網絡域,甚至是機構或者國家。C和D同時被A鏈接,因此C和D之間存在共鏈關係(Coinlink);D同時被B和E鏈接,B和E之間存在鏈接耦合關係(Cooutlink)。除了本書在前文中提到的利用網站共鏈規律進行主題結構發現的各種研究外,很多研究也利用了鏈接耦合關係來研圖75網絡鏈接關係圖[200]究網站之間的主題或者地域相關性。
比如Holmberg對芬蘭的政府網站的基於鏈接耦合的地域性特點的研究[53]、GarcíaSantiago等人用鏈接耦合的方法發現西班牙機構網絡中的興趣集團的研究[198]、邱均平等人對網絡博客的研究等[199]。
通過之前多位學者的研究可以發現,鏈接耦合關係的確可以比較有效地發現因地域或者主題等關係而形成的局部稠密的網絡鏈接模式。在本章的HITSSite算法的樣本擴展中,不同層次的樣本網站之間是樹狀關係。
擴展操作每深入一步,樣本的數量就會成倍增加,而新的候選樣本網站和已經存在的網站之間的主題相似度也在衰減。尤其是在向後—向前擴展中,數據采集的結果會產生龐大的候選網站集合,以單個網站對之間的鏈接強度確保候選網站和主題圖構建的核心主題方向相似的可靠性已經降低,而網站域名結構分析的方法隻能確定網站的類型,無法判斷主題相似度。
為了進一步減少樣本擴展中引起的主題漂移,HITSSite算法在向後—向前擴展中采用了鏈接耦合方法來進行候選集合的第三次篩選(前兩次為鏈接強度和域名結構篩選)。不在其他三次擴展中進行鏈接耦合篩選的原因有兩個:①種子網站數量比較少,並且主題存在一定的分散性;②其他兩次擴展的數據來源都是搜索引擎,數據量比較小並且代表性差,隻適合鏈接強度和域名結構篩選。
之前的鏈接耦合定義是建立在兩個網站的基礎上,並且鏈接耦合描述的是鏈接源網站之間的關係。HITSSite算法模型中對網站之間的鏈接耦146第七章開放Web空間的主題結構挖掘研究合強度的定義是:犮(狔)表示上層擴展數據來源網站集合(主要對象是向後—向前擴展中的向後集合)中存在鏈接到網站狔的樣本網站數量。本研究中設犮(狔)=5,即至少被五個以上的向後集合中的網站鏈接的候選網站才是有效的。犮(狔)的定義可以改善向後集合中因個別樣本網站上出現大量偶然性的外部鏈接而引發的樣本擴展中的主題漂移問題。
7.2.5基於鏈接評估的向上擴展為了能夠有效地獲取和學術研究有關的網站集合,構建以主題相關為主要鏈接動機的社區,在樣本擴展中需要在一定程度上保證符合擴展條件的網站是和學術研究密切相關的,比如大學的院係、研究所、專門的科研機構和研究組織等。對此HITSSite算法主要采用域名結構分析的方法進行網站類型的識別。然而,在有些情況下,域名結構分析並不能完全解決問題。
尤其是在向上擴展中,來自搜索引擎的數據量比較小,並且網站類型非常雜亂,不能采用類似向下擴展中的鏈接耦合方法來確定候選集合的有效性。因此在向上擴展中,本章擬采用鏈接評估的方法來進行候選集合的再次過濾。
本章的7.2.3部分提到,頂級域犇犲下的域名可以確定是用於美國的大學和政府,犇犮下的域名的部分二級域屬於行業二級域,也可以確定其域名所屬機構的類型。但是在很多情況下,犇犮下的域名屬於機構專屬二級域,並沒有相應的行業特征,因此無法判斷其網站的真實類型。有很多研究所或者大學在使用此類域名,這是由各國的二級域名結構規則決定的。還有一種比較特殊的情況,頂級域集合犇狅隻有一個成員“.org”,有很多研究組織使用以“.org”為頂級域的域名,也有一些國家在自己的犇犮下設置了“.org”的二級行業域。雖然“.org”是用於組織的頂級域或者二級域,但實質上有相當一部分以“.org”為頂級域或者二級域的組織並不完全是研究型的組織,比如一些非營利的行業協會。因此,需要從以“.org”為頂級域或者二級域的域名中區分出研究型和非研究型組織。對機構專屬二級域的域名機構性質的判斷和以“.org”為頂級域或者二級域的域名性質的判斷是鏈接評估的主要目的,通過鏈接評估可以進一步對之前的鏈接強度和域名結構分析過濾後產生的候選集合進行再次過濾,以剔除候選集合中非研究型的樣本。
147學術Web主題結構挖掘研究在之前的實驗中,對中國的50所大學獲得的外部鏈接的網站分布分析,作者發現,僅指向美國的大學網站就占總數的26%。而在其他的研究中不同程度地顯示美國大學的網絡顯著度是比較高的,因此本章以來自美國的大學頂級域“.edu”的鏈接數量作為網站學術性的評估依據。候選集合中的網站二級域為機構二級域的、頂級域為“.org”或者頂級域為犇犮並且二級域為“.org”的,收到來自“.edu”的鏈接頻率超過一定數量才可以通過評估。
鏈接評估的數據從搜索引擎的數據接口獲得,具體的頻率強度如下:●二級域為機構二級域。取閾值為20,隻有被“.edu”網站鏈接的頻率大於20的域名才符合擴展條件。
●頂級域為“.org”或者頂級域為犇犮且二級域為“.org”。由於以“.org”為域名的網站中大量非學術性網站(如信息技術、公共活動等)被大學網站頻繁鏈接,因此對“.org”學術性的判斷閾值為50。
7.3基於開放集合的犠犲犫主題圖實現框架和相關度評價7.3.1實現框架傳統對網絡主題信息資源的獲取主要是以單個Web網頁為單位,Cothey卻認為Web是由相互鏈接的網站構成的,而不是網頁[84]。
Heimeriks的研究結果表明,以研究團隊的網站作為信息單元的研究方法是Web結構分析的有效方法[144]。Bharat也認為網站是主題抽象比較合適的層次[201]。因此本章將以學術網站為最小主題單元,分析Web上的主題社區結構以及社區內成員和社區之間的關係。在Fry的研究中,Web主題空間的產生途徑被分為三種類型[202]:●直接產生的主題空間。由研究主題所屬領域的多個研究團隊或者組織的網站組成的具有代表性的中心結點集合,以及由這些集合中的網站發現的外部網站組成。
●直接產生的擴展主題空間。由鏈接到中心結點集合的網站,以及通過專家訪談獲得的網站組成。
148第七章開放Web空間的主題結構挖掘研究●Web呈現(WebPresence)產生的潛在主題空間。不是通過超文本鏈接發現擴展網站,而是通過Web頁麵內容發現潛在主題相關網站鏈接。
本章的HITSSite擴展算法不但能實現上文前兩種主題空間的生成,而且還能實現主題空間的進一步擴展。Web呈現涉及自然語言處理的問題,而基於鏈接的主題圖構建就是為了避開語種、文本分類和信息抽取技術的不足,因此本研究中並不涉及以Web呈現的途徑來發現主題社區的方法。
通過社區發現構建主題圖的主要依據:在寬泛主題的網絡信息資源網絡中,往往包含了多個該主題下不同的研究方向,因此組成了不同的主題社區。這些主題社區的內部成員在總體上具有相同或者相似的研究興趣,而社區之間具有鬆散的關係並且同屬一個大的研究方向。在具體的鏈接行為上,表現為主題領域內的鏈接密度要大於主題領域之間的密度。在不同的數據粒度下,這裏提到的主題的概念會有所不同。根據不同的網絡信息單元,不同層麵的主題概念主要分為以下幾種:(1)網頁層麵(PageLevel)。
在基於關鍵詞的網絡信息檢索的網頁層麵,例如搜索引擎的檢索係統中,主題是指單個網頁上的內容是否符合用戶的檢索需求。用戶的檢索需求會隨著用戶的不同、時間的變化或者事件的發生而變化,因此基於網頁的主題概念的專指度在不同的檢索需求和用戶背景下,會有很大的不同。
(2)大學域層麵(UniversityDomainLevel)。
一所大學一般都有很多個學院,在它的網絡域下麵也會存在多個子域(Subdomains)或者主機(Hosts)。每所大學都有自己的強勢學科(總體上綜合性大學在學科方向上表現不如專科類大學明顯),因此在整體的鏈接行為上表現出按照強勢學科進行聚類的網站特點。大學域層麵的主題傾向表現的是大學的整體傾向,因此在主題範圍上更為寬泛,一般隻是體現在一級學科方向,本書第四章的研究和文獻[150,154]的研究結果也反映了這個規律。
因此在大學域層麵的主題概念一般是指以大的學科方向劃分的主題。
(3)部門網站層麵(DepartmentWebsiteLevel)。
麵對學術資源獲取的網絡信息檢索需求,很難通過用戶輸入的幾個關149學術Web主題結構挖掘研究鍵詞來判斷用戶真正的主題需求的專指度,因此檢全率始終很難得到提高。
正因為如此,搜索引擎在網頁層麵的主題聚類效果一般都比較差。在大學域層麵的主題結構分析往往麵臨主題範圍過於寬泛的問題,這種寬泛的主題結構對獲取網絡在線信息資源或者離線研究資源的幫助並不是很大。大學的部門往往關注的是單獨的學科方向,並且一般情況下對該學科方向的研究都有各自的側重點,因此部門網站之間的鏈接模式更好地體現了各個專業研究機構之間直接的主題相關性。這裏的主題範圍更貼近於比較小的研究主題,比如以研究項目和研究小組為單位,共同組成了部門的研究特色。而通過部門網站之間的鏈接關係能更好地確定用戶關注的主題方向的資源社區位置、劃分不同的研究方向,以及篩選出各個方向的重要研究團隊或者組織。
本章將以HITSSite擴展算法為基礎,結合本研究設計的數據采集策略,進行基於開放社區的Web主題圖構建實驗,並對實驗的結果進行定量和定性評價。圖76是本章的Web主題圖構建的實現框架。
圖76犠犲犫主題圖構建實現框架150第七章開放Web空間的主題結構挖掘研究7.3.2社區成員相關度評價為了評價本研究構建的Web主題圖整體上的有效性和在主題結構挖掘上的效果,需要對Web主題圖中的樣本的主題相關性進行判斷,並且需要對樣本在各個主題社區中的顯著性進行評價,以確定每個社區中最重要的樣本。相關度評價一方麵方便了社區主題相關性和主題結構的判斷,另外一方麵也可以為Web主題圖的終端用戶提供參考。
在本研究獲得的Web主題圖的可視化圖中,確定每個結點的位置的力導向算法是以整個鏈接網絡為基礎,體現的是樣本在整個網絡中的位置,並不完全代表樣本在每個類別內部的位置。而代表樣本的結點大小是由整個網絡中和樣本相連的帶權重的邊決定的,因此隻能體現樣本在整個網絡中的顯著性,而不是在社區內部的顯著性。為了對社區成員在社區內的顯著性進行測度,本章的研究中將分別以樣本入度和最短路徑為依據對社區成員的顯著性進行排序。由於是社區內部的關係測度,因此排序中的數據以社區內部的成員之間關係為依托,不考慮跨社區的鏈接關係。為了對本研究提出的數據采集技術、擴展算法,以及對複雜網絡算法應用的效果進行合理評價,下麵提出兩個評價指標:(1)主題相關性。
主題相關性是指整個網絡中的樣本和Web主題圖的整體初始方向是否一致。就本章選定的研究主題而言,主題相關性指的是經過各個層次的樣本擴展後形成的多個社區內部的成員中,和“信息檢索”相關的樣本比例。
(2)社區相關性。
在每個擴展層次中,形成了多個主題社區。在這些社區內的成員中,和大的研究主題相關的那部分成員裏麵有多少和本社區的主題方向相一致。
主題相關性表示的是Web主題圖構建中,發現主題相關樣本的有效性;社區相關性表示的是社區內成員是否被正確劃分到相應的社區,從而判斷Web主題圖的主題結構是否反映了選定主題的主要研究方向。為了方便對每個社區中樣本的主題相關性和社區相關性的判斷,本研究在樣本顯著性排序的結果中選取了每個社區內前10個樣本作為指標統計的數據來151學術Web主題結構挖掘研究源(如果不足10個樣本,則選擇全部)。在社區相關性判斷中,以社區內大多數樣本的主題方向為社區的主題。
在本研究的定性社區劃分中,對各個主題的代表性樣本的選擇主要是依靠樣本在可視化分布圖中的位置和樣本結點的大小來衡量樣本在每個類別中的重要性。一般來說,樣本距離整個類別的中心越近,說明樣本和類的關係越密切。在不同的應用下,類中心的計算方法有所不同。本研究將度數高的結點和到所有路徑最短的結點作為主題社區的類中心,采用結點入度和結點間最短路徑兩種算法來對基於核心擴展的Web主題圖進行評價。
入度(Indegree)代表了一個樣本被其他樣本鏈接的強度總和。在Web主題圖的可視化中采用的是加權的邊來表示樣本之間的關係,而本節以社區內樣本之間的二元關係為基礎。因為在整體網絡可視化或者社區劃分中,不涉及樣本的排序問題,因此權重對單個樣本的影響不是很大。而在樣本排序中,邊權重的偶然性因素可能會導致排序結果的不客觀。對入度相同的樣本,采用隨機排序的方法來處理。
結點之間的最短路徑表示的是網絡中一個結點到達另外一個需要經過的最少的邊的數量。Dijkstra算法中以所有結點對之間的最短路徑來衡量一個結點和其他所有結點的關係[203],該算法為社區鏈接網絡中的成員顯著性度量提供了理論依據。在社區中,兩個結點之間的最短路徑越短,說明兩個結點的關係越密切。如果一個結點到所有結點的路徑之和或者平均數最小,那說明這個結點在這個網絡中是最重要的。在本研究的最短路徑計算中,如果每個社區的局部網絡是不連通的,則選擇網絡中最大的連通子圖進行樣本排序。
7.4實驗7.4.1樣本選擇本文在7.2.1部分對基於網絡空間的主題圖構建提出了兩個基本假設,其中假設2提供了樣本選擇的基本條件,即主題網絡構建的參與者對所研152第七章開放Web空間的主題結構挖掘研究究的主題方向總體上有一定的了解。一般情況下,開放社區的初始樣本的選擇需要依靠領域專家來完成。在本章的研究中,擬選擇“信息檢索”作為Web主題圖構建的主題方向,本研究主題的選擇主要從以下幾個方麵考慮:(1)交叉性。
信息檢索研究涉及多學科的知識並且在不同的資源環境和用戶需求下,有不同的研究需要,因此有多個領域的研究者從不同的角度從事信息檢索研究。不同的研究視角在學術交流中會形成不同的研究社區,對信息檢索研究而言,不同的研究社區反映了不同的研究方向。對各個研究社區的識別以及它們之間關係的發現過程,就是主題圖形成的過程。這些規律是否能通過網絡鏈接模式來發現,是檢驗本研究提出的Web主題圖構建研究的重要目標之一。
(2)代表性。
網站之間相互鏈接的動機比較複雜,尤其是技術因素和真正的主題驅動的鏈接動機相互混合,以信息檢索研究為主題的研究是這方麵的典型代表。信息檢索本身涉及比較多的計算機技術,網站建設過程中建設者可能會根據需要而鏈接一些技術類的網站。能否正確識別網站之間因真正的研究主題相關而形成的鏈接關係,是對本研究提出的技術路線的最好檢驗。相比之下,在非技術性的研究主題的Web主題圖構建中,情況往往要簡單很多。
(3)可讀性。
無論是初始樣本的選擇,還是對Web主題圖構建中產生的各個社區核心主題的判斷,以及社區內樣本的相關性評價和重要性排序,都需要領域專家對效果進行評判。為了研究的方便,本文以“信息檢索”為研究主題。
下文中,表71是本研究選擇的初始樣本。
表71初始樣本集合樣本網站名稱領域信息獲取、組織、存儲、檢http://www.sigir.org/ACM信息檢索專業組索和發布[204]ACM信息與知識管理信息與知識管理、數據或http://www.cikmconference.org/國際會議者知識庫[205]153學術Web主題結構挖掘研究續表樣本網站名稱領域自然語言處理和信息http://www.aclweb.org/國際計算語言學學會檢索[206]大規模的信息檢索研究、http://trec.nist.gov/文本檢索會議信息檢索評價[207]麻省大學智能信息檢http://ciir.cs.umass.edu/索中心信息檢索和信息抽取[208]檢索模型、大規模文本檢http://ir.dcs.gla.ac.uk/格拉斯哥計算科學係索係統、多媒體檢索係統信息檢索研究組的交互式評價等[209]斯坦福大學自然語言文本語義抽取、機器翻譯、http://nlp.stanford.edu/處理研究組多語種自然語言處理等[210]以上七個樣本網站中,前四個是行業協會性質的研究組織,受到各國信息檢索領域的研究者的普遍關注;後麵三個是國際上比較著名的信息檢索相關的研究團隊。它們的研究方向有所不同:作為學術交流的重要紐帶,專業領域的協會或者國際會議為研究者提供了良好的平台,著名的研究團隊因為其優秀的學術成果和研究力量而受到領域內其他團隊的關注。這些重要的結點為Web主題網絡的構建提供了良好的初始網絡。
7.4.2數據采集與處理按照HITSSite的擴展模型以及數據分析的要求,數據采集分兩個步驟進行:第一步是樣本擴展,第二步是外部鏈接數據采集。第一步的樣本擴展共分為兩個層次、四個批次進行(同一個層次的樣本擴展操作順序可以任意進行)。
●向前擴展(Forward)。第一層次。首先用LinkDiscoverer對初始網絡中的樣本網站進行外部鏈接采集,利用獲得的外部鏈接數據進行向前擴展操作,並建立向前擴展集合(Forwardset)。
●向後擴展(Back)。第一層次。利用搜索引擎獲得的鏈接到種子集合的網站集合進行向後擴展,並建立向後擴展集合(Backset)。
154第七章開放Web空間的主題結構挖掘研究●向前—向後擴展(Forwardback)。第二層次。利用搜索引擎獲得的鏈接到向前擴展集合的網站集合進行向前—向後擴展,並建立向前—向後擴展集合(Forwardbackset)。
●向後—向前擴展(Backforward)。第二層次。首先用LinkDiscoverer對向後集合中的網站進行數據采集,利用獲得的數據進行向前向後擴展,並建立向後—向前擴展集合(Backforwardset)。
表72采集任務列表集合名稱集合大小外部鏈接數種子集合74653向前擴展集合62236165向後擴展集合196461620向後—向前擴展集合4444623722向前—向後擴展集合32338310第二步的外部鏈接數據采集共分為五個批次,每個批次的數據采集為一個單獨的任務,並采用相同的數據采集策略。這五個批次對應的樣本集合為:種子集合、向前擴展集合、向後擴展集合、向前—向後擴展集合和向後—向前擴展集合。由於在第一步的樣本擴展中,種子集合、向後擴展集合、向前擴展集合的數據采集已經完成,因此這裏隻需要進行其他兩個樣本集合的數據采集即可。
各個批次的數據采集任務在2009年12月15日到2010年1月15日之間完成,每個批次采集的樣本網站數量(確切說是域的數量)、外部鏈接數等信息如表72所示。
隨著擴展層次的深入,總的樣本集合內的樣本數量逐漸增多。在不同的樣本擴展順序下,樣本總體的增量不同。比如向前—向後擴展集合的集合大小要遠遠少於與其平行的向後—向前擴展集合,這是因為擴展順序的不同,後麵的擴展操作中發現的樣本集合和前麵的集合會有網站重複,或者域重複。所謂網站重複是指發現的域名是相同的,而域重複是指兩個網站的主機屬於不同層次的域,但它們都屬於同一個機構域下麵的子域,比如一155學術Web主題結構挖掘研究個主機是計算機學院的,另外一個是計算機學院下的一個係的。如果是網站重複的情況,在之後的擴展集合中直接刪除;如果是域重複,則將那個域名層次深的網站上卷(RollUp)到上層域,也就是保留淺層域名的主機。在後麵的數據采集中,DHDP模型定義了按照域進行數據采集的規則,深層主機在數據采集過程中會被逐一發現。由於域名合並和上卷的因素,之後進行的擴展操作中發現的新域名可能會大幅減少。對同一個域層次的域名以及上層域是機構域的情況,並不作上卷操作。比如本章,在實驗中發現賓夕法尼亞大學有三個獨立機構進行信息檢索相關的研究,分別是語言學數據社團(LinguisticDataConsortium)、計算機與信息科學學院和語言學學院。
在數據分析階段,這五個批次的數據可以被分成核心層、第一層擴展和第二層擴展三個層次分別進行分析。在樣本和數據合並後的鏈接網絡的構建過程中,刪除了孤立的樣本,因此最後每個數據分析層次建立的鏈接網絡是一個弱連通網絡。
最後需要說明的是鏈接網絡的入鏈和出鏈關係的處理問題。複雜網絡算法一般要求輸入無向圖,因此需要對有向鏈接網絡進行轉換。有向轉無向的過程中必然涉及網絡中樣本之間雙向關係融合的問題。Fisher提出的多重關係融合的方法[211]:犛1=-2∑log犲(犘犻)(7.1)這種方法對強關係的定義比較嚴格,用於揭示多重關係相對可靠,但在數據離散的情況下,往往會使數據扁平化,對鏈接網絡來說,這種方法必須要求雙向鏈接強度都大的樣本的關係才能定義為強關聯。由於鏈接網絡整體上服從PawLaw分布規律,大多數情況下,這種雙向強關係是不存在的。因此本研究在處理網絡轉換的入鏈和出鏈關係問題時采用了突出強關係的方法,即將入鏈和出鏈關係疊加起來作為樣本之間的綜合關聯關係。
上麵提到HITSSite的擴展操作分為三個層次,共四次擴展,從而形成了五個相對獨立的數據集。從核心的種子集合開始,隨著擴展操作的進行,種子集合組成的鏈接網絡逐漸擴大。如果以種子樣本的主題為核心主題方向,那麼在擴展過程中,和種子集合的距離越遠,也就是擴展的層次越深入,156第七章開放Web空間的主題結構挖掘研究是否會出現主題漂移的現象,或者在Web主題圖構建的過程中,新樣本的加入以及新樣本的鏈接數據的更新是否會對主題圖的整體結構形成影響,這些都是對Web主題圖構建技術的有效性和穩定性進行評判的標準之一。
以下將對多個層次的數據集進行合並,並分析最後形成的Web主題圖的主題類別,以及不同層次的數據集形成的Web主題圖的主題結構。
7.4.3基於核心擴展的犠犲犫主題圖在第一個層次的擴展中形成了向前擴展集合和向後擴展集合,它們和種子集合共同構成了核心擴展集。本章以LinLog能量模型作為鏈接網絡的可視化工具[163],結點分類算法和策略與第四章類似。經過對向前擴展集合和向後擴展集合中結點的直接合並、上卷合並和孤立結點移除,最終的核心擴展集合樣本容量為222。鏈接網絡中的結點合並後,將對應結點的數據也進行了合並。圖77是基於核心擴展的Web主題圖的可視化效果圖。
圖77中的每個結點的大小代表了樣本在整個網絡中的顯著性,結點顏色代表類別(為了方便閱讀,作者參考結點分類的結果,對相同顏色的區域進行了大致勾畫。由於結點太多,對結點名稱的顯示會導致整體結構的混亂,因此圖中沒有顯示結點名稱)。
從圖77中可以看出,整個Web主題圖大體上分為八個主要區域,每個區域對應於一個主題社區。對每個社區的主題進行分析可以發現,每個社區的主題基本上都有各自的特點,但整體上各個社區都是和信息檢索密切相關的。每個社區內部的結點基本分布在本社區少數幾個重要結點的周圍,而各社區的中心(以重心為社區中心)處於相對獨立的位置。