1980年代至今的翻譯:1980年至現在(458.7萬字,367萬詞,英漢雙語)

漢語原創可比文本分庫(370萬詞):

現代白話文之前的漢語原創文本:1911年前(122.9萬詞,漢語)

現代白話文走向成熟時期的原創文本:1918—1930(123.6萬詞,漢語)

新中國建立初期的漢語原創文本:1950—1966(40萬詞,漢語)

1980年代至今的漢語原創文本:1980年至現在(83.4萬詞,漢語)

1.曆時翻譯庫的庫容

在實際建庫過程中,我們考慮到樣本過小,不易發現一些微觀語言使用問題,因此大幅擴展了庫容(2 000餘萬詞),英漢翻譯曆時平行語料分庫庫容擴展了10餘倍,漢語原創可比文本分庫也比原計劃大5倍。采樣比原計劃更多、庫容更大、時間分布更趨合理。在此基礎上實施的統計分析也更可信、可靠。

2.曆時翻譯庫的抽樣框架

按照原先的設計,鑒於早期文本收集困難,需要分時段選取樣本;同時,考慮語言之外的社會政治因素,將曆時語料的抽樣分成三個時段:時段一,以“五四”前後為分水嶺,之前的仿舊白話翻譯(黎錦熙,2000)和漢語原創白話作品作為參考庫;時段二,自“五四”之後至1930年現代白話文經曆巨變而走向成熟的時期(張中行,2007);時段三,從1950年代到1966年,時段四,自1980年到現在。但在實際建庫時,我們根據研究需要並充分考慮了語料分段采集可能引發的問題,調整了原來的計劃。即不再按時段選取樣本,而是根據樣本出版的年份不間隔時段來收錄樣本。這樣可以避免人為幹預樣本的選取,研究時根據需要任意確定時間段來抽取樣本,這樣應更有利於揭示翻譯和漢語本身的互動曆程。

在建設語料庫過程中,由於新聞類文本不易找到英語源語文本,故原來設想的新聞文體所占比例無法實現,但哲社類文本達到35%以上。

3.語料處理

語料庫力求科學建置(Sinclair, 2004)。在合理抽取樣本的基礎上,雙語語料使用Aligner軟件實施句對齊,使用CLAWS和ICTCLAS對英漢語語料進行POS標注和分詞,並對部分語言和翻譯現象進行人工標注。除使用常用的語料檢索工具(cordancer、Paraith 5, MLCT等)外,還要充分利用文本類型、文體、時間等標頭元信息,開發出針對性強的曆時語料檢索工具,該工具已經開放了在線檢索。

4.研究步驟

本課題按照預先計劃的先描述後分析的思路著手研究。首先,將類比庫中四個平行階段在詞彙(語素)、組合、構句以及組篇上的異同和變化趨勢描述出來。其次,對描述和對比分析的結果進行分析。

1980年代至今的翻譯:1980年至現在(458.7萬字,367萬詞,英漢雙語)

漢語原創可比文本分庫(370萬詞):

現代白話文之前的漢語原創文本:1911年前(122.9萬詞,漢語)

現代白話文走向成熟時期的原創文本:1918—1930(123.6萬詞,漢語)

新中國建立初期的漢語原創文本:1950—1966(40萬詞,漢語)

1980年代至今的漢語原創文本:1980年至現在(83.4萬詞,漢語)

1.曆時翻譯庫的庫容

在實際建庫過程中,我們考慮到樣本過小,不易發現一些微觀語言使用問題,因此大幅擴展了庫容(2 000餘萬詞),英漢翻譯曆時平行語料分庫庫容擴展了10餘倍,漢語原創可比文本分庫也比原計劃大5倍。采樣比原計劃更多、庫容更大、時間分布更趨合理。在此基礎上實施的統計分析也更可信、可靠。

2.曆時翻譯庫的抽樣框架

按照原先的設計,鑒於早期文本收集困難,需要分時段選取樣本;同時,考慮語言之外的社會政治因素,將曆時語料的抽樣分成三個時段:時段一,以“五四”前後為分水嶺,之前的仿舊白話翻譯(黎錦熙,2000)和漢語原創白話作品作為參考庫;時段二,自“五四”之後至1930年現代白話文經曆巨變而走向成熟的時期(張中行,2007);時段三,從1950年代到1966年,時段四,自1980年到現在。但在實際建庫時,我們根據研究需要並充分考慮了語料分段采集可能引發的問題,調整了原來的計劃。即不再按時段選取樣本,而是根據樣本出版的年份不間隔時段來收錄樣本。這樣可以避免人為幹預樣本的選取,研究時根據需要任意確定時間段來抽取樣本,這樣應更有利於揭示翻譯和漢語本身的互動曆程。