楚辭文獻語義知識組織研究

南京大學出版社圖書在版編目(CIP)數據楚辭文獻語義知識組織研究 \/ 錢智勇,徐晨飛著.

—南京: 南京大學出版社, 2020.8

(東亞楚辭整理與研究叢書 \/ 周建忠主編)

ISBN 9787305237140Ⅰ. ①楚…Ⅱ. ①錢… ②徐…Ⅲ. ①楚辭研究

Ⅳ.① I207.223中國版本圖書館CIP數據核字(2020)第154807號

出版發行南京大學出版社

社址南京市漢口路22號郵編 210093

出版人金鑫榮叢書名東亞楚辭整理與研究叢書

主編周建忠

書名楚辭文獻語義知識組織研究

著者錢智勇徐晨飛

責任編輯石旻

助理編輯劉丹照排南京紫藤製版印務中心

印刷南京愛德印刷有限公司

開本718×9601/16印張36.5字數634千

版次2020年8月第1版2020年8月第1次印刷

ISBN9787305237140

定價136.00元網址:http:\/\/www.njupco.com

官方微博:http:\/\/weibo.com\/njupco

官方微信號:njupress

銷售谘詢熱線:02583594756

 版權所有,侵權必究

 凡購買南大版圖書,如有印裝質量問題,請與所購

圖書銷售部門聯係調換楚辭文獻語義知識組織研究東亞楚辭文獻研究的曆史和前景東亞楚辭文獻研究的曆史和前景——國家社科基金重大項目開題報告

周建忠文化是民族的血脈,是人民的精神家園。中國優秀的曆史文化在中國特色社會主義事業和實現中華民族偉大複興的中國夢中,占有十分重要的地位,具有很大作用。以屈原辭賦為傑出代表的楚辭,是中華民族優秀傳統文化中一份極為豐厚、極其珍貴的遺產,對中國社會發展和世界文明進步,產生過巨大影響。屈原是中國的,亦是世界的,其偉大的人格曾在東亞曆史上影響過一大批學者和仁人誌士,成為人類崇高精神的符號。為了深入推進楚辭研究,在更高的學術平台對其全麵探索,同時積極回應國家新時期的文化戰略,充分體現“走出去”與“請進來”的學術思想,提升國際學術交流品質和水準,增強中國學術的國際影響力,我們將受楚辭文化影響較深的整個東亞作為研究的新視域,力求采用新的模式、新的方法,對日本、韓國、朝鮮、越南、蒙古等國的楚辭文獻進行全麵發掘、整理和研究,通過構建新的文獻基礎,進一步挖掘與弘揚中國優秀傳統文化,推進楚辭研究全麵發展。

一、 楚辭文獻研究的學術史梳理

楚辭在古代就流傳到朝鮮、日本和越南等國,在地緣文化相近的東亞國家甚為曆代學人所珍視,因此東亞的楚辭文獻也極其豐富。

《楚辭》最遲在公元703年已經傳入日本,這在奈良時代正倉院文書《寫書雜用帳》中有明確記載。到9世紀末,藤原佐世奉詔編纂《日本國見在書目錄》。這是日本現存最早的一部敕編漢籍目錄,著錄有關《楚辭》的著作共有六種,其中《楚辭集音》注明“新撰”,可見此時的日本學者在接受、傳播楚辭文本的同時,已經開始從事對楚辭的研究工作。據日本學者石川三佐男先生統計,江戶時期與《楚辭》相關的漢籍“重刊本”及“和刻本”達七十多種。

近代以來,日本也出現了為數頗多的譯注和論著。代表性的楚辭譯注有:橋本循《譯注楚辭》(東京岩波書店,1941),目加田誠《楚辭譯注》(東京龍溪書社,1983),牧角悅子、福島吉彥《詩經·楚辭》(東京角川書店,1989)等。相關論著有藤野岩友《巫係文學小考:以楚辭為中心》(1950)、赤塚忠《楚辭研究》(東京研文社,1986)。日本當代著名楚辭學者竹治貞夫不僅撰寫了《憂國詩人屈原》,編了《楚辭索引》,還出版了分量很重的論文集《楚辭研究》,集中闡述了他對楚辭的一係列精辟見解。

高麗王朝時期,騷體文學盛行一時。當時有很多文人模仿楚辭創作辭賦,圃隱鄭夢周《思美人辭》就是一首騷體詩歌。朝鮮王朝時期掀起了一股研讀楚辭的熱潮,當時著名詩人金時習曾模擬《離騷》寫了《擬離騷》、《吊湘累》、《汨羅淵》,以此來諷刺當朝的奸佞之臣。

韓國的代表性楚辭譯本有:宋貞姬《楚辭》(韓國自由教養推進會,1969)、高銀《楚辭》(首爾民音社,1975)等。相關論著有柳晟俊《楚辭選注》(首爾螢雪出版社,1989)、《楚辭與巫術》(首爾新雅社,2001)等。在論文方麵,範善君博士論文《屈原研究》、宣釘奎博士論文《楚辭神話研究》、樸永煥《當代韓國楚辭學研究的現況和展望》、樸承姬《15世紀朝鮮朝文人楚辭接受研究》影響較大。

據初步調查,越南和蒙古亦存有楚辭文獻,有待發掘與研究。

楚辭在東亞的廣泛傳播及興盛研究也引起了國內學者的高度重視。1949年後,越來越多的國內學者開始研究楚辭在東亞的傳播和研究情況。如:聞宥《屈原作品在國外》(《光明日報》,1953年6月13日)、尹錫康、周發祥等主編《楚辭資料海外編》(湖北人民出版社,1986)是對海外楚辭學術史綜合研究的著作。國內學者對日本楚辭學研究的主要成果有:崔富章論文《十世紀以前的楚辭傳播》、《大阪大學藏楚辭類稿本、稀見本經眼錄》、《西村時彥對楚辭學的貢獻》,王海遠論文《論日本古代的楚辭研究》、《日本近代〈楚辭〉研究述評》等。在韓國楚辭學研究方麵,徐毅、劉婧《楚辭在東國的傳播與接受》,鄭日男《楚辭與朝鮮古代文學之關聯研究》,琴知雅《曆代朝鮮士人對楚辭的接受及漢文學的展開》等都是比較有影響的學術論著。

近年來,南通大學楚辭研究中心將研究重點轉向東亞楚辭文獻的挖掘、整理和研究。筆者先後赴日本、韓國訪問調研,搜集到數百種楚辭文獻,並形成論文《大阪大學藏“楚辭百種”考論》、《屈原的人格魅力與中國的端午情結》。中心特聘研究員兼學術委員會副主任徐誌嘯也數次赴日本考察,並於2003年主持國家社科基金項目“日本楚辭研究論綱”,出版著作《日本楚辭研究論綱》(學苑出版社,2004),發表學術論文《中日文化交流背景及日本早期的楚辭研究》、《竹治貞夫對楚辭學的貢獻》、《赤塚忠的楚辭研究》、《星川清孝的楚辭研究》、《中日現代楚辭研究比較》等。中心特聘研究員兼學術委員會副主任樸永煥現任韓國東國大學中文係教授,長期致力於韓國楚辭文獻的搜集整理和研究,取得的代表性成果有:專著《文化韓流與中國、日本》(首爾東國大學出版社,2008)、《宋代楚辭學研究》(北京大學1996年博士學位論文),論文《洪興祖的屈騷觀研究》、《當代韓國楚辭學研究的現況和展望》、《韓國端午的特征與韓中端午申遺後的文化反思》等。中心成員徐毅博士曾任韓國高麗大學訪問學者,千金梅博士先後獲得韓國延世大學文學碩士學位和文學博士學位,賈捷博士由國家留學基金委公派至韓國延世大學攻讀博士學位,他們都曾長期在韓國從事東亞楚辭文獻的搜集和整理工作。中心成員陳亮博士在英國倫敦大學亞非學院攻讀聯合培養博士項目期間,調查了東亞楚辭文獻在歐美傳播的版本情況。

本課題組所調查的東亞楚辭文獻共包括以下五種情況:其一,中國出版,東亞其他國家亦有收藏的楚辭學文獻;其二,中國出版,但在中國已失傳,僅存於東亞其他國家的楚辭學珍本;其三,東亞其他國家的刻本、抄本;其四,東亞其他國家出版的該國學者楚辭研究著作;其五,中國出版的東亞其他國家楚辭學著作。

據初步調查統計,日本現存的楚辭學文獻共有313種,其中中國版本228種(其中僅存於日本者10種)、日本和刻本47種、日本出版本國學者的研究著作38種,期刊論文291篇,學位論文18篇。韓國楚辭學文獻406種,其中中國版本204種、朝鮮版本178種(抄本117種、木刻本23種、木活字本19種、金屬活字本19種)。韓國出版楚辭學著作24種,期刊論文122篇,學位論文26篇。越南楚辭學文獻37種。蒙古楚辭學文獻12種。

總之,楚辭流傳兩千餘年,文獻研究與之相始終。兩千多年的楚辭文獻研究在文本的輯錄、校注、音義、論評、考證、圖繪、紹述等方麵都取得了令人矚目的成就,新時期的多學科綜合研究也有了一定的學術積澱。這都為我們在東亞文化圈內對楚辭文獻進行更深層次的挖掘、整理和研究搭建了一個很好的學術平台,奠定了堅實的學術基礎。就東亞楚辭文獻研究而言,已有的相關研究存在以下不足:(1) 以往的研究往往側重於楚辭文獻的某一個方麵,呈現出零碎、分散、粗淺的狀態,缺乏全麵性和係統性;(2) 對東亞楚辭文獻發掘不夠深入,對一些楚辭文獻的孤本、善本和同一著作的不同版本的發掘亦嫌不足;(3) 除中國外,東亞楚辭文獻整理和研究欠缺,日本、韓國、朝鮮有所涉及,越南、蒙古等國文獻研究幾乎還是空白。由此可見,東亞楚辭文獻有著廣闊的再研究空間,如對東亞楚辭文獻進一步調查、搜集、挖掘、整理,並精選珍本重新點校,對重要批評資料進行彙集和品評,對代表性楚辭著作進行統計、標引、著錄、提要,對楚辭文獻按類別進行學術史梳理,構建東亞楚辭文獻語料庫和注釋知識庫,等等。因此,對整個東亞文化圈內的楚辭文獻進行係統全麵的整理和研究有十分重要的學術史和文化史意義。

二、 東亞楚辭文獻研究的意義

(一) 學術價值

第一,文本價值。本課題發掘、考釋中國散佚的、留存在東亞其他國家的楚辭版本,彙集日、韓、朝、越、蒙等東亞國家的楚辭注本及批評資料等,所收作品不僅有楚辭文本,還有作家的注釋、研究、品評、鑒賞、考證等,所采版本涉及中國刻本、和刻本、朝鮮本、越南本、翻刻本,以及稀見的抄本等。課題預期成果,較之已有的楚辭彙編類學術著作規模更為宏大,搜羅更為廣泛,研究更為深入,具有集大成的價值。

第二,文化傳播學價值。搜集整理東傳楚辭文獻,可借以了解古代東亞文化的交通,探尋文化交流可能的策略,增進相互理解,推進文化互信和繁榮。如1972年中日恢複邦交,日本首相田中角榮訪華,毛澤東主席將《楚辭集注》作為國禮贈送。本選題作為一種全新的楚辭研究方法的嚐試,旨在於整個漢文化圈大背景下對楚辭學進行重新審視與定位,以期客觀探索屈原及楚辭對世界文學的影響。同時,研究成果也為今後將中華文化更有效地推廣到世界提供經驗借鑒。

第三,闡釋學價值。東亞楚辭文獻的詮釋傳統和話語模式可以不斷強化楚辭的經典地位。以文獻來源為架構梳理東亞曆代楚辭學文獻,揭示楚辭研究可能涵蓋的領域,可以幫助我們理解不同曆史階段知識、觀念狀況與經典的互動,理解文獻的構成、話語方式、體製特征,進而準確地描述出經典生成的原理和發展脈絡。

(二) 應用價值

第一,為楚辭研究提供新材料、新思路、新方法,為以後的深入研究提供更高的學術平台。正如傅斯年所言,海外學者“做學問不是去讀書,是動手動腳到處尋找新材料,隨時擴大舊範圍,所以這學問才有四方的發展,向上的增高。……我們很想借幾個不陳的工具,處治些新獲見的材料”。

第二,對楚辭教學亦有重要意義。楚辭研究的視域超越了一鄉一國而擴大到整個漢文化圈,其所得出的結論自然不同凡響,這將有利於厘正以往的偏頗結論,更好地還原楚辭在東亞文化圈中的作用與影響。同時,亦能更好地引導學生采用新鮮的學術方法與學術理念去觀照中國傳統文化。

第三,東亞楚辭資料庫的係統構建。一是基於全麵的資料;二是充分利用現代信息技術的優勢,從而有利於楚辭研究的深入,並極大地促進作為中華文化精華之一的楚辭的普及。

(三) 社會意義

第一,珍視人類文明重要遺產並擴大中華傳統文化的世界影響力。屈原是中國的,亦是世界的,其偉大的人格曾在東亞曆史上影響過一大批學者和仁人誌士,成為人類崇高精神的符號。因而,對於載錄其精神的文本文獻和研究文獻,我們應懷有強烈的曆史使命感去進行搶救性的發掘和整理,從而有利於中華優秀傳統文化的世界流傳,並強有力地呈現屈原對世界文化的貢獻。

第二,激發國人對中華傳統文化的自豪感,增強民族自信。東亞楚辭文獻不隻是中國典籍的域外延伸,不隻是本土文化在域外的局部性呈現,不隻是“吾國之舊籍”的補充增益,它們是漢文化之林的獨特品種,是作為中國文化的對話者、比較者和批判者的“異域之眼”而存在的。本課題以東亞楚辭文獻為側重點,能夠更為客觀、翔實地展現屈原及楚辭在東亞文化中的地位和影響,從而進一步增強我們的民族自豪感,以期為中華民族在傳統文化基礎上實現“中國夢”培育更強有力的民族自信。

第三,增強中華文化的軟實力,掌握跨文化交流中的學術話語權。屈原及楚辭對東亞文化的發展做出過重要貢獻是不爭的事實,本課題作為集合性、綜合性、實證性的研究,以無可置疑、有理有據的成果,建立起與世界對話的平台,從而掌握國際學術交流的主動權、主導權,實實在在推進中國學術的國際化進程。

三、 總體框架

(一) 總體問題、研究對象和主要內容

本課題所說的東亞更傾向於一個文化概念,主要包括日本、韓國、朝鮮、蒙古與越南等古代以中國為中心的漢文化圈。本課題研究的總體方向就是對東亞地區楚辭文獻做綜合性的搜集、整理與研究。研究對象就是東亞各國現有的與楚辭有關的文獻,如曆代楚辭的注本及其不同版本、楚辭圖譜、研究評論與學術劄記等。研究的主要內容包括在調查並摸清東亞各國現藏楚辭文獻的數量、藏地、版本特點的基礎上,對東亞地區的楚辭文獻做係統性的研究,涉及編纂書目、撰寫提要、點校、影印等文獻整理工作;以專題形式對楚辭文獻在東亞的傳播與影響做係統的研究;進行東亞楚辭文獻的資料庫建設等應用性研究。

(二) 總體框架和子課題構成

課題的總體目標是對東亞地區的楚辭文獻做綜合性的整理與研究,子課題按照“文本”、“研究”、“應用”的原則對總課題進行分解:

子課題之一“東亞楚辭文獻總目提要”,將東亞地區各國所藏的楚辭文獻書目編成“東亞楚辭文獻知見書目”,內容包括書名、卷數、撰者、撰作方式、版本、存佚、叢書項等基本信息,爭取將東亞地區目前可見的所有的有關楚辭學的注釋、考證、評點、圖譜與研究等方麵的著作全部收入,以“總書目”的麵貌出現,以“知見書目”為基礎,選取其中有代表性的著作撰寫提要。

子課題之二“東亞楚辭文獻選刊”,主要針對東亞地區各國所藏重要的楚辭文獻的注本、音義、考證、圖譜、劄記等著作,對東亞楚辭文獻進行分類整理。精選東亞地區稀見的楚辭版本予以影印,對目前尚未有點校本的楚辭文獻予以點校,精選外文楚辭研究著作翻譯成中文。影印、點校、譯介形成係列成果。

子課題之三 “東亞楚辭學研究集萃”,擬對東亞漢籍中的楚辭批評資料及東亞楚辭研究論文進行整理研究。一是對東亞各國的楚辭研究資料進行全麵彙編。二是對楚辭研究的學術論文進行全麵收集,編訂目錄索引。精選重要的楚辭研究論文撰寫提要,展現東亞楚辭研究的趨勢和流變。三是甄選有代表性的東亞楚辭研究論文,評騭得失,編訂出版。

子課題之四 “東亞楚辭學研究叢書”,研究楚辭在東亞地區的傳播及其對東亞文化的影響。對楚辭作家中的“專人”(屈原、宋玉、賈誼等)進行評價與研究,對東亞各國學者翻譯、介紹楚辭作品中的“專篇”(如《離騷》、《九歌》、《天問》、《九章》、《九辯》等)進行研究,對東亞各國藏楚辭注本中“專書”(如《楚辭補注》、《楚辭集注》、《楚辭韻讀》等)的收藏、翻刻與流傳等進行研究,對楚辭史上的熱點“專題”(屈原生平、端午風俗與韓國江陵端午祭等)等進行研究。

子課題之五“東亞楚辭文獻資料庫建設及應用研究”,利用現代信息技術手段,將東亞楚辭文獻進行數字化加工處理,既有利於東亞楚辭文獻的永久保存,有利於楚辭文獻的便捷傳播,也有利於學者的深入研究與利用,有利於普通受眾學習楚辭、了解楚辭。開發東亞楚辭文獻係列資料庫、語料庫和注釋知識庫、智能檢索係統,以滿足不同使用者的學習和研究需求。這些研究成果將以東亞楚辭文獻網絡資料庫和智能檢索平台的形式展現。

四、 預期目標

(一) 本課題研究將達到“構建平台,承前啟後”的學術目標。構建一個包括東亞地區楚辭文獻的整理、學術研究、語義化智能檢索在內的研究平台。這個研究平台將發揮承前啟後的作用,既對此前東亞楚辭研究做一個係統的總結,也為後來的楚辭研究者以這個平台為基礎將楚辭研究繼續推向深入提供助力。

(二) 學科建設發展上的預期目標。為楚辭學研究建立一個全新的研究模式,這個模式是包括中國文學、中國曆史、語言學、圖書館情報與文獻學等在內的跨學科的綜合研究模式。這個模式可以為詩經學、唐詩學等文學研究提供借鑒。

(三) 資料文獻發現利用上的預期目標。調查並披露一批楚辭文獻的稀見版本,將結集出版係列點校本,係統推出楚辭各相關領域的研究史,公布東亞楚辭文獻的資料庫和注釋知識庫。這些預期成果都將為中國古代文學與文化的研究提供重要的基礎文本與研究資料。

五、 研究思路、視角和路徑

(一) 總體思路

第一,在對國內楚辭研究充分把握、對國內外楚辭文本全麵比對的基礎上,對流傳在東亞地區的楚辭的珍本、稀見本等進行搶救性發掘和整理,以期更好地保存中華優秀傳統文化。第二,對東亞的楚辭學成果進行全麵調查和研究,探尋楚辭作為中華精華文化在東亞得以流傳的原因等,從而更為客觀地描述中華文化對東亞文明的貢獻,喚起國人更強的民族自豪感,進一步加強國人把優秀文化傳承下去的責任感。第三,對楚辭文獻進行深入的數字化工作,理論研究與社會應用並重。

(二) 研究視角

課題將以古代東亞漢文化圈為背景,賦予楚辭文獻研究一個整體意義。研究視野超越國別、語言、民族的限製,以中國現存的楚辭文本文獻、楚辭學研究為重要基礎和主要參照,以現存的日本、韓國、越南的楚辭文獻為側重點,形成不同於傳統文獻研究的新視野。因為東亞楚辭文獻是一個龐大而豐富的學術資源,它會提出許多新鮮的學術話題,與之相適應,必須用新鮮的學術方法和理念去解決楚辭在東亞流傳的實質原因、楚辭在漢文化圈的作用和影響等重要問題。

(三) 研究路徑

第一,利用多種途徑調查和搜集國內外楚辭文獻。(1) 利用各種書目調查現存於東亞各國的楚辭文獻;(2) 利用現代信息技術進行搜索;(3) 實地考察東亞各國的各大圖書館、著名文庫以及私人藏書樓等,進行發掘和搜集;(4) 利用各種文集、詩話等古代文獻,進行查閱、精選;(5) 對發掘和搜索到的楚辭資料,采用購買、複印、拍照等方法收集。

第二,對收集到的楚辭文獻以編目、影印、點校等形式進行整理。(1) 將搜集到的楚辭文獻編成詳細書目,對現存東亞楚辭文獻進行統計和梳理;(2) 精選東亞地區楚辭文獻的善本、孤本,以及有價值的抄本等予以影印,給學者提供真實的原始參考文獻;(3) 對沒有整理過的典籍甄選並予以點校出版,為今後的楚辭研究提供便利。

第三,對收集整理的楚辭文獻及東亞學者的楚辭研究論著,進行係統的專題研究。如楚辭發生學研究,楚辭經典著作研究,東亞楚辭代表作家作品研究,楚辭在東亞的傳播時間、途徑、方式,以及對東亞文學、文化的影響研究等。

六、 研究方法

(一) 整理與研究同步進行

進行編目、精選、點校等整理工作的同時,進行撰寫提要、發表專題學術論文、撰寫係列研究叢書等工作,形成“邊整理邊研究”的模式。涉及的研究路徑有目錄編製、版本考辨、輯錄散佚、影印點校、專題研究等。

(二) 以文獻為基礎的綜合研究

首先,立足載錄楚辭文獻的大量域外漢籍,有書目、史書、日記、文集、詩話、筆記、序跋、書信等,其中還包括課題組發掘的未曾公之於世的朝鮮文人出使的日記(燕行錄)、文集、詩牘帖等。 其次,重視中國典籍中關於楚辭文獻的記載,並與域外漢籍中的記載進行參證、互證、補證等。既重視域外文獻,也不忽略中國典籍,最大範圍地搜集和整理東亞楚辭文獻,是本課題研究的一個基本原則。最後,在充分調研這些材料的基礎上,對東亞楚辭學的新現象、新問題、新特征等展開分析和研究。綜合采用整理、例證、比較、闡述等多種分析方法以及調查、統計、演繹、歸納等研究方法。

(三) 涉及多學科領域的綜合研究

本課題研究涵蓋的學科領域有中國文學、外國文學、圖書館情報與文獻學、考古學、語言學、世界曆史等。

(四) 以漢文化圈為背景的比較研究

本課題超越傳統的楚辭本體研究,放眼東亞,對楚辭在東亞的傳播、東亞古代學者對楚辭的批評與接受、近現代東亞楚辭學史、楚辭及楚文化對東亞各國文化的影響等進行研究。

七、 重點難點

(一) 資料的調查與獲得

本課題涉及龐大的資料調查工作,各地公私藏書的調查與獲得任務艱巨,尤其是域外楚辭文獻中的善本和稀見本的影印涉及知識產權,其複本的獲取和得到影印授權有較大難度。此外,獲取複本的經濟成本也較高。課題組擬采用各種合理方法努力調查、獲取文獻,與各大藏書機構建立密切合作關係,爭取得到已建立合作關係的海外研究機構和中國政府駐外機構的大力幫助等。同時,加大文獻資料購買的經費投入。

(二) 東亞楚辭文獻的整理與校注

東亞楚辭文獻中的一些抄本、稿本十分珍貴,同時整理與校注有一定難度。首先,有些版本本身的源流係統由於證據缺乏,其版本刊刻、流傳過程等難以考辨。其次,有些版本中的文字為草書,在辨識上有一定困難。再次,一些文本正文為漢字,疏解為韓語或日語等,多語種的文獻亦給整理帶來一定難度。最後,校注域外楚辭版本時,整理者亦需諳熟中國楚辭學、東亞漢文學、訓詁學等。子課題負責人均為一流的古代文學、古典文獻學專家。課題組成員大多受過域外漢籍研究的專業訓練,均為博士或正、副教授,熟悉東亞各國的曆史文化,通曉日語、韓語、英語等,完全有能力協助子課題負責人,共同完成整理與校注工作。

(三) 楚辭研究新模式的構建

以整個漢文化圈為背景,突破傳統楚辭研究的既有模式,利用多學科的研究力量,對東亞楚辭進行首次全麵的調查、整理與研究。楚辭作品中的“專篇”、作家中的“專人”、注家中的“專家”、 楚辭學史中的“專題”研究,以及楚辭的東亞傳播與影響研究,是楚辭研究新模式的重要標誌。本課題擬通過多層麵的學術探索,為楚辭學的發展構建一個更高的學術起點。

(四) 資料庫建設和語義化平台建設

多語種資料庫結構和規範的設計與建立,多語種語義標注和智慧檢索係統的開發是“東亞楚辭文獻語義化”的重點難點問題。目前各種基於本體的語義檢索係統,多停留在理論研究和部分領域實驗階段,對於古漢語,尤其是先秦文學作品的語義檢索,尚無成熟案例。實現字詞的語義半自動切分,設計基於規則的語義標引係統是擬解決的關鍵問題。本課題將利用現有的分詞技術,結合楚辭作品語義語法規則,開發基於楚辭語義標引訓練集的楚辭語料庫,構建楚辭注釋知識庫,建成多語種楚辭文獻係統平台,利用最新技術方法和手段推進楚辭研究領域的信息技術應用。

八、 創新之處

(一) 在問題選擇上,具有東亞文化交流史的視域

首次將楚辭研究置於東亞漢文化圈背景下,以現有的楚辭文本和研究成果為基礎和參照,比較研究東亞其他國家楚辭文本的存在情況及價值,揭示楚辭作為中華傳統文化精華在漢文化圈的作用與影響。

(二) 在文獻收錄上,做到“全”與“新”的突破

對東亞各國所藏楚辭文獻做全麵係統的收集整理,調查足跡遍布東亞各國的大小藏書館所。同時,重視日、韓、越、蒙、朝等國的私人藏書,如韓國的雅丹文庫、日本的藤田文庫等。目前,本課題組已經掌握韓國楚辭文本394種,日本楚辭文本313種,越南、蒙古等國楚辭文本49種。其中不乏一些珍本和稀見本,如韓國國立中央圖書館藏《楚辭》光海君年間木活字本、日本京都大學人文研本館藏《楚辭》慶安四年刊本等。

(三) 在研究方法上,綜合運用多學科交叉的方法

研究方法涵蓋文獻學、考古學、曆史學、統計學、文藝學、美學、文化學、比較文學、圖書情報學、軟件工程學等諸多學科的理論方法。此外,因為本課題的研究理念是實證與研究相結合,在具體操作上,注重將縝密的實證上升到綜合研究,在確定事實的基礎上,發現事實與事實之間,甚至事實以外、事實背後的因果或聯係,做到出土文獻與傳統文獻互證,考據與義理並重,體現出綜合性、係統性與學理性。

(四) 在技術路線上,建立“一體兩翼”的研究模式

以文獻整理為“一體”,以研究與運用為“兩翼”。本課題的研究成果不僅是東亞楚辭文獻的整理彙編,而且是對東亞楚辭研究史進行的分類研究,並開發東亞楚辭文獻資料庫,開創了文獻整理研究的新路徑。特別是東亞楚辭文獻資料庫建設,這是先賢整理和研究楚辭尚未涉及的全新領域,基於語義化的資料庫建設,將為楚辭研究的深入與普及提供一個更便捷的信息平台,亦有利於楚辭文本及研究資料的永久傳承。目錄目錄

序言001

第一章文獻知識組織基本理論與方法概述001

1.1文獻知識組織理論源起與發展001

1.1.1文獻與文獻知識組織的含義001

1.1.2早期的文獻書目組織003

1.1.3中國古代文獻知識組織思想的形成與發展005

1.1.4早期文獻分類與中國古代圖書分類理論007

1.2現代文獻知識組織研究概述011

1.2.1國外文獻知識組織概念的提出與發展011

1.2.2國內文獻知識組織研究概述014

1.3現代文獻知識組織分類方法017

1.3.1體係分類法017

1.3.2組配分類法022

1.3.3國外主要分類法023

1.3.4網絡環境下分類法的發展025

1.4主題法文獻知識組織026

1.4.1標題法026

1.4.2單元詞法029

1.4.3敘詞法029

1.4.4關鍵詞法032

1.4.5分類主題一體化035

1.5元數據知識組織036

1.5.1MARC元數據036

1.5.2DC元數據044

1.6文獻知識組織工具的發展趨勢048

1.6.1傳統知識組織工具的電子化、網絡化048

1.6.2傳統知識組織工具的語義化與可視化050

第二章東亞楚辭文獻數字化建設理論與實踐053

2.1東亞楚辭文獻及其特點053

2.1.1東亞楚辭文獻概述053

2.1.2東亞楚辭文獻的整體特點055

2.2東亞楚辭文獻數字化相關理論057

2.2.1文獻數字化的概念057

2.2.2東亞楚辭文獻數字化的意義060

2.2.3東亞楚辭文獻數字化的原則061

2.2.4東亞楚辭文獻數字化內涵與內容分析063

2.3東亞楚辭文獻數字化技術082

2.3.1東亞楚辭文獻數字化圖像處理技術082

2.3.2東亞楚辭文獻數字化文本識別技術085

2.3.3東亞楚辭文獻數字化相關參考標準與元數據規範088

2.3.4東亞楚辭文獻數字化版權保護091

2.4東亞楚辭文獻數字化建設實踐094

2.4.1楚辭電子書加工係統096

2.4.2東亞楚辭文獻元數據編目組織121

2.4.3東亞楚辭文獻元數據描述規範128

2.5東亞楚辭文獻語義詞表與知識地圖151

第三章東亞楚辭文獻語義知識組織關鍵技術154

3.1東亞楚辭文獻語義知識組織模型154

3.2東亞楚辭文獻語義知識組織關鍵技術158

3.2.1可擴展標記語言160

3.2.2資源描述框架——RDF251

3.2.3RDFS293

3.2.4SPARQL語言及其語義查詢實例315

3.2.5本體語言——OWL332

3.2.6描述邏輯357

3.2.7楚辭文獻語義知識組織實例369

第四章楚辭文獻知識本體構建研究384

4.1本體概念及本體構建理論與方法384

4.1.1什麼是本體384

4.1.2本體構建理論393

4.1.3本體構建方法399

4.1.4本體構建工具407

4.2楚辭文獻書目本體構建研究418

4.2.1研究背景418

4.2.2楚辭書目相關性分析420

4.2.3楚辭書目本體構建過程423

4.2.4創建楚辭書目本體的類426

4.2.5定義楚辭書目本體的對象屬性429

4.2.6確定楚辭書目本體的數據類型屬性432

4.2.7用protégé工具實現楚辭書目本體433

4.2.8楚辭書目本體語義推理檢索實例439

4.2.9本節結論451

4.3楚辭作品知識本體構建452

4.3.1楚辭注釋作品知識特點分析453

4.3.2楚辭注釋知識本體構建454

4.3.3楚辭注釋知識本體語義推理檢索實例472

4.3.4總結與展望477

第五章楚辭文獻中文分詞與語義標注研究479

5.1中文分詞研究概述479

5.1.1機械分詞方法研究480

5.1.2基於統計的分詞方法研究488

5.1.3基於語義的與基於理解的分詞方法研究496

5.2語義標注研究502

5.2.1語義標注方法研究504

5.2.2語義標注工具513

5.3基於HMM的楚辭自動分詞標注研究519

5.3.1相關研究519

5.3.2《楚辭》語料選擇與標注規範521

5.3.3分詞標注方法研究523

5.3.4分詞標注測試結果分析526

5.3.5結論530

5.4基於GATE的楚辭語義知識標注研究531

5.4.1研究背景531

5.4.2相關研究532

5.4.3基於GATE的楚辭語義知識標注533

5.4.4測試實驗540

5.5楚辭文獻聚類分析研究542

5.5.1研究背景542

5.5.2聚類分析技術543

5.5.3楚辭文獻聚類分析543

5.5.4聚類分析(Kmeans法)548

5.5.5存在的不足552

5.6楚辭文獻語義標注原型係統設計與實現553

5.6.1語義標注係統模型553

5.6.2設定楚辭文獻語義標注規則555

5.6.3原型係統實現556

5.6.4研究小結563

序言序言

隨著數字技術與語義技術的快速發展,對典籍文獻進行數字化的相關研究與實踐探索正在不斷增多。其中,內容涉及先秦戰國時代的大型典籍全文數據庫,包括:《中國基本古籍庫》、《漢達文庫》、《甲骨文數位典藏》、《楚簡》、《漢代簡牘數位典藏》、《簡帛金石資料庫》、《詩經學要籍》、《敦煌遺珍》、《文淵閣四庫全書》、《二十五史檢索係統》等。典籍文獻語義化知識組織相關的研究包括:《左傳》分詞與半自動語義標注、《漢書引得》語料庫文本分析、家譜知識本體構建與語義化標注、《甲骨文》語義標注與文本挖掘、《藝文類聚》與《太平禦覽》類文比對分析、敦煌壁畫圖像的語義標注等。在這樣的背景下,“東亞楚辭文獻資料庫建設及應用研究”作為中國國家社科基金重大項目“東亞楚辭文獻的發掘、整理與研究”的子課題,目標是通過對東亞楚辭文獻的數字化構建東亞楚辭全文數據庫,進一步結合不同版本的東亞楚辭文獻的特點,對楚辭注釋文獻進行語義標注,構建東亞楚辭注釋知識語料庫。目的是利用計算機數字技術和語義技術揭示楚辭文獻知識,包含不同版本、不同語言的東亞楚辭文獻所含語義的顯性知識以及隱含在文獻中有待挖掘與揭示的隱性知識,並通過關聯數據模型建立楚辭文獻知識關聯,構建楚辭知識本體,實現楚辭文獻知識的關聯檢索、可視化呈現與具有統計與推理功能的半自動隱性知識發現,為用戶檢索楚辭知識,為學者深入研究楚辭文獻提供語義標注、版本校勘與文本分析比對等的研究工具和方法。這對挖掘保護和利用東亞楚辭文獻,利用互聯網對東亞楚辭文獻進行傳播具有重要的理論意義與社會現實意義。

本書主要內容是根據“東亞楚辭文獻資料庫建設及應用研究”項目近五年的理論研究與實踐探索的成果,結合目前國際和國內典籍文獻數字化與語義知識組織的相關研究內容,分別從文獻知識組織基本理論與方法概述、東亞楚辭文獻數字化的理論與實踐、東亞楚辭文獻語義知識組織關鍵技術、楚辭文獻知識本體構建研究與實踐、楚辭文獻語義知識標注的理論與實踐等五個方麵進行詳細闡述。

第一章是文獻知識組織理論與方法概述。楚辭文獻語義知識組織以傳統文獻知識組織的理論和方法為基礎。傳統文獻知識組織基本理論來源於以書目組織為基礎的古代文獻知識組織的基本理論與方法。首先梳理了中國古代書目文獻組織的基本思想,闡述了我國古代文獻知識組織是以知識傳承、辨章學術、考鏡源流和知識整理為目標,通過分類、互注、別出、編目、立製、建章等方法,實現補充知識、發掘知識、校正錯誤、去偽存真等具體目的。同時詳細闡述了六分法、四部分類法等中國古代文獻分類方法。第一章的後半部分闡述了源自西方的現代文獻知識組織的理論體係和思想方法,尤其對近30年來文獻知識組織的基本理論和技術方法研究進行了係統綜述,結合楚辭文獻實例,具體闡述了現代文獻知識組織分類法、主題法、分類主題一體化方法以及MARC元數據、DC元數據等知識組織方法,最後分析了電子化、網絡化、語義化和可視化是文獻知識組織的發展趨勢,以及文獻語義知識組織的基本思想。

第二章詳細論述了東亞楚辭文獻數字化理論與實踐,東亞楚辭文獻語義知識組織的對象是數字化楚辭文獻。第二章的前半部分首先分析並介紹東亞楚辭文獻的特點,然後係統闡述了東亞楚辭文獻數字化的基本理論,包括東亞楚辭文獻數字化基本概念、意義、原則,並結合東亞楚辭文獻的具體例子,重點闡述了東亞楚辭文獻數字化內涵和數字化內容分析。其次概述了東亞楚辭文獻數字化的主要技術方法,包括圖像處理技術、文本識別技術、元數據規範技術、版權保護技術等。第二章後半部分論述了東亞楚辭文獻數字化實踐過程,結合東亞楚辭文獻數據庫建設的具體實踐,介紹數據庫框架結構,並結合實例詳細闡述了東亞楚辭文獻電子書加工、元數據編目以及東亞楚辭文獻元數據標注的具體規範,最後介紹東亞楚辭文獻數據庫檢索語義詞表和知識地圖的功能呈現。

第三章概述了東亞楚辭文獻語義知識組織的主要技術。本章首先闡述了楚辭文獻語義知識模型的構建,結合楚辭文獻數據庫的語義研究,我們提出了一種以本體知識庫建設為核心,由本體開發係統、語義標注係統、資源管理係統、知識服務係統四層架構組成的楚辭文獻語義知識組織的模型結構,這種層次分明而又相輔相成的獨特結構布局,對於楚辭文獻關聯檢索的展示和麵向個性化使用的突破,起到了至關重要的作用。第三章的第二部分結合楚辭文獻語義化實例,詳細闡述了東亞楚辭文獻語義知識組織技術,具體包括可擴展標記語言XML、資源描述框架RDF、SPARQL語義查詢語言、本體語言OWL、描述邏輯語言等語法規則與具體描述案例。最後介紹利用XML、RDF、OWL等語義技術描述楚辭注釋的具體實現代碼。

第四章內容闡述楚辭文獻知識本體構建理論和具體操作技術方法。楚辭文獻知識本體的構建是楚辭文獻語義知識組織的核心,本體構建的理論與方法是建立在計算語言學、文獻學、圖書館學、信息科學等學科理論和語義知識組織關鍵技術包括擴展標記語言、資源描述框架、語義查詢語言、OWL本體語言、描述邏輯語言等技術的基礎之上。第四章首先詳細論述本體概念、類型與作用,然後係統介紹本體構建的基本理論、方法與工具。在此基礎上結合對楚辭書目的分析,研究楚辭書目本體的構建理論與方法,實現了楚辭書目概念類、屬性、關係的本體構建,以《楚辭書目五種》為素材添加個體實例並實現了楚辭書目關聯查詢與推理查詢。結合對楚辭作品知識的特點分析,研究楚辭注釋知識本體的構建技術與方法,實現了楚辭注釋知識內容的關聯檢索與可視化呈現,利用描述邏輯基礎進一步研究楚辭注釋知識的智能推理檢索與存儲。

第五章內容主要闡述楚辭文獻中文分詞和語義標注研究。對文檔進行中文分詞與語義標注是楚辭文獻語義化信息處理的重要基礎和關鍵。中文分詞就是利用計算機在中文文獻中的詞與詞之間加標記,對中文句子進行切分詞。中文文獻的語義標注是利用語義技術根據中文文獻中的詞義以及語句上下文的語義對文獻中的字、詞單元做標記,使數字化的文獻知識單元具有語義信息,不僅人能閱讀理解,電腦也能夠理解文獻中字、詞、句子的語義信息,實現基於知識的文獻語義化組織和文獻知識檢索。第五章首先概述近30年來中文分詞與語義標注研究的主要內容,包括中文分詞的主要方法與技術、語義標注的研究內容、主要方法與工具;然後結合楚辭文獻語義知識組織的研究實踐,探索楚辭文獻自動分詞與語義標引研究,包括基於HMM楚辭文獻自動分詞的方法與測試實驗,基於GATE的楚辭文獻語義標注的探索實踐與項目組自主開發的楚辭文獻語義標注係統功能及其進一步研究構思。

本書以數字化楚辭文獻和語義化知識組織為研究對象,係統論述了東亞楚辭文獻語義知識組織的理論基礎和主要實現技術,結合東亞楚辭文獻數據庫建設與應用研究實踐,詳細討論了東亞楚辭文獻數字化實踐、語義知識組織模型及標注實驗、楚辭文獻書目本體和注釋知識本體的構建過程、楚辭文獻中文分詞和語義標注的探索實踐。本書主要麵向文獻知識組織領域相關研究生和相關學者,也可作為大專院校文獻組織、數字人文研究的教學參考書。錢智勇老師負責全書的規劃與第一、二、三、五章內容的撰寫,並負責全書的統稿與初校,徐晨飛老師完成第四章內容撰寫及全書的校對工作。

本書能夠順利完成並出版,首先要感謝南通大學楚辭研究中心“東亞楚辭文獻的發掘、整理與研究”重大項目團隊的老師們,感謝項目首席專家周建忠教授對“東亞楚辭文獻資料庫建設及應用研究”子課題的大力支持和悉心指導,錢榮貴教授對課題研究過程的嚴格規範管理和要求,陳亮老師、千金梅老師、何繼恒老師、賈捷老師、施忠貞老師等提供的楚辭文獻資料以及楚辭注釋知識標注方麵的內容支持。其次也要感謝多名參與楚辭文本數字化、文字識別、校對、標注等工作的學生。還要特別感謝南京大學信息管理學院蘇新寧教授及其團隊在語義技術方麵對本課題的悉心指導和認真參與。同時還要感謝南京大學出版社的編輯對本書出版的鼓勵和細致要求,使得本書能夠順利出版。最後要感謝本書中引用的參考文獻作者和公開語料庫、開源軟件的開發者,尤其是W3C語義網聯盟的技術資料參考,這些技術方法和資料是本書順利完成的技術保證。

本書在研究過程中獲得國家社會科學基金重大項目“東亞楚辭文獻的發掘、整理與研究”(項目編號:13&ZD112),以及江蘇省社會科學基金項目“大數據環境下典籍多語語義詞典構建與知識發現實證研究”(項目編號:19TQB003)資助,在此表示感謝。

由於語義技術的不斷進步,以及作者對技術主觀理解的局限性,本書對語義知識組織技術的闡述與案例研究難免存有不足之處,懇請專家和讀者批評指正。