漢字拚形字母係統的建成(1 / 3)

漢字拚形字母係統的建成

7.1部件清單之證明

康馬傑說:“正確的思想就是我們能夠吸收、證明、確定和證實的思想。而錯誤的思想就是我們不能夠吸收、證明、確定和證實的思想。”“集中精力提出一種思想和理想,作為認識和糾正具體社會弊端的方法,而不是提出什麼天國或遙遙無期而無法實現的目標。”(1)

當前我們極其需要的是部件清單,而這個清單是由部件的“個體”組成的。這些“個體”能否通過證明,證實它存在的合法性和合理性是問題的關鍵。

一、部件合理性證明的依據

我們已在第五章裏遵照字形結構原理分析出部件的基本屬性。部件既然有基本屬性,那麼它就不是“因人而異”的、任何人可以隨意“優選”的。部件作為構建漢字編碼設計學基礎,不僅應該定性,而且應該定量。它的客觀存在應該通過證明而得到。每一個部件,必需符合部件定義中所規定的本質屬性。我們的部件清單裏,還有個別部件不能獲得證明,建議大家一起討論,達成共識,不要因為個別的部件,否定整張清單。

運用部件定義的屬性,證明部件產生的合理性、合法性,可以克服編碼設計中部件產生的隨意性。算不算部件,不應由設計人決定,隻能由部件的屬性來確定。表形碼也存在著同樣的缺陷,其中也有隨意確定的部件。例如它表中的“”,是從“既”的右邊拆出來,還把上麵的一個橫筆拆開。我們審查過所有漢字,如“既、暨、簪、譖、僭……”等,都沒有發現“”可以“相對獨立”存在。它與頂上的橫筆,都是一起出現組字的,因此,把“”作為部件,學習者心理上就不容易接受。應該把頂上的橫筆恢複,使“旡”成為一個部件。有人卻認為“無”可以拆為“一、尢”,那麼“旡”也可以拆。我們認為“無”字下麵的“尢”,在“尤、優……”等字中隨時可以見到,把頂上的橫筆拆出,心理上是可以接受的。而“旡”卻不存在這種情況。再如表形碼的第一個版本隻有三個組合部件“魚、、钅”,到第二個版本,就有了八個組合部件了(如為輸入方便,應在取碼時解決)。這種隨意確定部件,就無法進行證明。

按部件的兩種屬性,一個一個地證明部件的合理性,可以更好地完善部件清單,不使部件的產生和存在有個人成分,以有利學習和記憶。

二、部件清單證明的邏輯步驟

根據上述思想,證明工作分為三步:

第一步,把成字部件和新華字典中的部首(指兩個筆畫以上的“塊”)先行“過濾”。根據筆者研究,這些成字部件除最後七個沒有拚字能力的之外,在拚字時都是有多顯性間隙的,在拆分時最符合認知心理。這些部件隻要一張清單就可以。

成字部件125個,括弧中為字例:

一(旦)、乙(億)、二(仁)、八(扒)、三(參)、川(順)、小(尖)、火(炎)、心(芯)、六(冥)、立(位)、北(背)、兆(逃)、非(排)、主(住)、十(什)、力(加)、九(仇)、廿(庶)、甘(疳)、世(屜)、卅(帶)、冊(刪)、中(忠)、豐(峰)、韋(偉)、申(伸)、串(患)、聿(津)、西(灑)、酉(酒)、井(講)、弗(佛)、匕(化)、七(柒)、也(他)、屯(噸)、電(奄)、車(陣)、弋(代)、戈(找)、戔(錢)、曳(拽)、子(仔)、孑(孔)、口(唱)、日(暗)、曰(倡)、目(淚)、耳(職)、且(疽)、四(泗)、皿(盆)、母(每)、田(備)、屍(戶)、尹(伊)、又(僅)、及(芨)、女(汝)、瓦(甌)、臼(舅)、門(們)、刀(召)、乃(仍)、山(仙)、巾(帽)、習(翁)、夕(多)、巨(拒)、臣(宦)、月(朋)、丹(彤)、冉(髯)、人(合)、入(汆)、了(丞)、幺(幻)、弓(弘)、片(版)、爿(寐)、豕(家)、廠(仄)、廣(慶)、大(奮)、夫(扶)、夷(姨)、央(英)、丈(仗)、史(駛)、吏(使)、木(休)、末(沫)、未(味)、本(體)、耒(耕)、束(刺)、果(顆)、柬(楝)、兒(兄)、幾(殳)、蟲(蠶)、禺(偶)、丁(叮)、不(杯)、幹(杆)、於(籲)、甲(押)、上(讓)、止(址)、士(仕)、土(肚)、由(宙)、工(攻)、正(征)、王(狂)、五(吾)、裏(狸)、事、乜、曲、孓、凹、凸、毋。

所謂部首都是指有相當數量的拚字能力,同時有明顯的顯性間隙。部首(47個):

丷、冫、刂、彡、氵、巛、、灬、、爫、訁、亠、礻、衤、艸、廾、肀()、扌、覀、罒、囗、卩、阝、夂、攵、厶、凵、匚、冂、冖、宀、、、勹、彐、、、犭、疒、廴、辶、尢、、忄、亻、糸、。

第二步,有許多非字部件,由於拚字量不高,或因構字時位於漢字的中間,沒有被選為部首,但它們也帶有明明的間隙,可一目了然看出,在拆分時也很容易認知。這些部件需要舉出一些例字來證明,例如“”,它與“廣”構成了“庸”。有的部件,如“”,它在“已”中是粘連為一塊的,但在“假”字中,有明顯間隙,因此,把“已”字拆為“、乚”,在心理上可以接受的,何況,“己、已、巳”三個字,都是靠“”在“乚”的豎筆上上下移動而得以區別的。因此,它們的拆分心理上也是可以接受的。

有明顯間隙的部件(147個)

第三步是餘下的一批帶有隱性間隙的部件(50個)。證明這一批部件的方法可以用下麵的表格:存在間隙的理由分為:①在基本結構外的單獨撇筆;②不同的筆畫走勢;③與成字部件或它們變體相接;④兩個不同的筆畫結構;⑤戈字類部件的橫筆左右兩用。

有隱性間隙的部件(50個)

三、部件清單的拓展及難題

我們已經把本部件清單中的368個部件證明完畢。這張清單中的部件,是從國標二級字庫的6763個漢字裏分解出來的。利用漢字的天然間隙從漢字中分解出部件,當然最符合認知心理。今後不管漢字集如何擴大,這種分解方法,照常可使用於任何一個新增漢字,不管它是日本漢字或南韓漢字;不管它是地方漢字或繁體字;不管它是現代簡體字,或古老的死漢字。因為,所有的漢字都是由部件以拚形的方法造出來的。利用“筆畫結構塊”的概念,對新增加的少量的部件,按它們的結構和特征使它們“對號入座”,任何一個新部件,都離不開七個基本筆畫結構類型和本部件表中的48種特征類。筆者曾經試編過含有20902個漢字的字符集,大約要增加60個左右的部件就可以了(見附錄三)。

根據以上分析,368個部件中,隻有“、、、、、”六個無法得到證明,其中三個是單筆部件。“、”無法從任何一個漢字中得到它具有“相對獨立性”的證明。“”僅拚出“丐、鈣”兩個字;“”僅拚出“尺、遲、盡、久、灸”等幾個字,要不要拆出作為部件。如果覺得不妥,也可以把“丐、尺、久”都作為部件,列入部件表中,需要大家認真討論,是增加兩個單筆部件好,還是增加三個筆塊部件好。總之,必須進行科學的、有依據的考慮。“、、、”是一個死結,來自“舞、羌、醜、巴”以及由它們所拚出的如“扭、鈕、爸、笆、把……”等字,怎麼辦?要作人為規定。我們的意見是“”下麵的一橫應該拆掉,因有利於分入相交型,這樣也有利於拆分;“醜”可作為一個部件,或者拆為“、十”兩個部件;“巴”應該拆為“、乚”兩個部件,因有利於拉長碼位。拉長碼位,使漢字形成線性形式。漢字內部的部件排列,實際已含有線性,隻不過不象拚音文字那麼明顯而已。隻要我們按每個拆出部件的第一個筆畫的先後,順序排列這些部件,它的線性就昭然了。

7.2部件類和部件的排序

一、排序的意義

研製漢字編碼是為了使無序的漢字,帶上一套有序的符號,使漢字序性化。這就是說,序,是研製漢字編碼的目的。然而,因研製編碼,拆分漢字而產生了部件清單。清單中的部件,也都是雜亂無序的,也應該給它們排序。給部件類和部件排序,能夠使幾百個雜亂的部件構成一個嚴密的係統。

上麵部件清單中的部件類,在其結構型中的每個類和每個類中的部件,都已經排好了序位。讀者一看就會明白。這種排序方法是我們最新研究的成果。將國標二級字庫6763個漢字拆分為368個(表形碼為386個)部件,分為七個型,四十八個類。少數類別的部件數目不多,大多數類的部件,都在五個以上,最多達二十五個。因此,想把368個部件統統記住,還是比較困難。有的部件使用頻度和組字頻度都不高,更容易忘記。如果能利用係統記憶的方法,先記住分類係統的七個型,再記每個型的特征類和部件數,就比較容易了。

部件以其特征歸類,特征一致,隻是字形稍有變異,或因筆形、方位的變化,或因筆畫的增減。由於采用形象對應配置部件類的代碼,記住部件類也就等於記住了代碼。因此,記住部件的分類係統之後,接著就必須記每個類的部件。如果能夠給每個部件類的部件排序,使其有一定的序位,前後有一定的關聯,就可以減少記憶量。記住每個部件類的部件和特征,看到任何一個字,就可以很快編出它們的代碼,不會再存在拆分與編代碼時的二義性了。

二、排序的方法

排序的方法,可以由少到多,由多到少;由小至大,由大至小,使其左右部件構成相互聯係,從而帶來聯想。

部件類以字形特征得以集合,部件以字形變化得以區別,因此,利用這種變化關係來排序的方法稱為形變序。

產生形變的原因有以下幾種:

1.筆畫數:如“大、夫、”,“大”字上的內橫筆數遞增。

2.方向:如“丷、、冫、”上、下、左、右的方向發生了變化。