從五十年代起,我開始研究比較文字學。我感到,研究比較文字學必須重視其中的文字分類法。在比較了各不相同的外國和中國學者的文字分類法之後,我提出“文字三相分類法”,希望以客觀的條件統一各家的分類法。我認為文字有三個側麵:符形側麵、語段側麵和表達法側麵;三者合稱文字的“三相”。一、符形相:從圖符到字符到字母。二、語段相:從長語段(篇章、章節、語句)到短語段(語詞、音節、音素)。三、表達相:從表形到表意到表音。把“三相”畫成一個立體的“三棱形”,可以包括一切文字的類型,其中有單純的類型、有兼職的類型。單從表達相來看,實際存在五種主要類型:一、形意文字;二、意音文字;三、音節文字;四、輔音文字;五、音素文字。
任何文字都可以在“三相分類法”中找到自己的位置。例如:現代中文屬於“字符·語詞和音節·表意和表音”的意音文字類型。現代日文屬於“字符和字母·語詞和音節·表意和表音”的意音文字類型。朝鮮文在南方屬於“字符和字母·語詞和音節(音素疊合)·表意和表音”的意音文字類型;在北方屬於“字母·音節(音素疊合)·表音”的音節文字類型。一九九七年我發表論文《文字類型學初探:文字三相說》。後來我寫成一本書稿《比較文字學初探》。
五十年代以來,中國大陸對少數民族的語言進行大規模的調查研究,成績斐然。同時得到許多種少數民族的民間文字資料。依靠專家們的幫助,我起初收集到漢字型的文字二十多種,後來又擴充到三十多種。我寫成論文《漢字型文字的綜合觀察》。這許多種文字組成一個“漢字型文字”的大家庭,實在是一件非同小可的大收獲。應當把它們作為一個文字係統來進行綜合研究,建立一個文字學分支,叫作“廣義漢字學”。
漢字從黃河流域的“中原”傳播到長江流域和珠江流域,再傳播到國內邊區的許多少數民族,包括古代的北方民族和現代的西南民族,再傳播到四周鄰國,包括越南、朝鮮和日本。綜觀兩千年的傳播,可以分為四個階段:一、學習階段,大家學習漢語漢字;二、借用階段,借用漢字書寫當地語言;三、仿造階段,模仿漢字造成非漢語的民族新漢字,包括孳乳仿造和變異仿造;四、創造階段,簡化漢字或其筆畫,成為音節字母或音素字母。在這個傳播過程中,可以找尋微觀的和宏觀的漢字發展規律。漢字在人類文字史上的地位,需要從文字史和文字學的研究中得到客觀的認識。
研究信息化時代的中國語文問題
麵對信息化時代,漢語和漢字的研究又增添了一係列新的課題。在電腦上如何輸入漢字文本,是日本和中國共同遇到的“瓶頸”問題。
輸入漢字的技術經曆了三個發展階段:一、整字輸入法;二、拆字編碼輸入法;三、拚音變換輸入法。整字輸入法需要特製鍵盤,最早在日本曾熱鬧一時;還沒有來得及大量傳入中國,日本已經放棄這種方法了。編碼輸入法在日本隻嚐試了一個短時期,很快就進入無編碼的假名變換輸入法,現在日本青年已經不知道什麼是編碼了。在日本,一九六七年東芝開始研究無編碼的“假名變換法”,一九七七年推出假名自動變換的第一台日文電子打字機。一九七八年夏普、一九七九年富士通、一九八○年有六家推出同性質的日文電子打字機。從此日文電腦進入無編碼時期,此後的發展是改進人工智能的自動化軟件。
中國在開始設計出筆畫和部件的編碼輸入法時候,許多人欣喜若狂,為漢字慶賀!從此有越來越多的人研究編碼輸入法,很快達到四百種、七百五十種、超過一千種,形成“萬碼奔騰”的局麵,至今不衰。
我在五十年代設計了一種“拚音加部首”的音形編碼,後來發表在《電報拚音化》一書中。可是不久我就感覺到這不是一條康莊大道。我轉向研究無編碼的“拚音—漢字”自動變換法,發表了幾篇論文,其中一篇是《漢語的內在規律和漢字的內在規律:中文輸入法的兩種基本原則》(一九九六)。
我認為漢語的內在規律可以用來改進中文的輸入法。一、語詞規律:漢語是以詞為表意單位的,大多數的詞是雙音節和多音節,還有詞組、成語、語段、固定名稱等,可以作為輸入單位,盡量避免以單個漢字作為輸入單位,實行“以詞定字”。二、頻度規律:按照語詞的出現頻度,實行“高頻先見”。如果這不是當時的需要,可以選擇出需要的詞或字,使電腦記好,實行“用過提前”。隻要選擇一次,不要選擇第二次。三、語境規律:常用而又易混的單音節虛詞,例如量詞,可以利用上下文的“語境”原理,設計智能化的軟件,自動調整。四、聲韻規律:利用聲韻兩分法及其搭配關係,可以把全部聲母和韻母安排在五十六個字母鍵盤上,實行音節雙打(雙打全拚),提高效率。諸如此類的漢語內在規律是中文電腦智能化的依據。在今天,這些認識已經成為許多人知道的常識。在拚音變換的中文電腦上,輸入規範化的白話文,隻有大約百分之三需要進行同音選擇。