漢字編碼設計(二)-漢字拚形字母係統的建成

漢字拚形字母係統的建成

7.1部件清單之證明

康馬傑說：“正確的思想就是我們能夠吸收、證明、確定和證實的思想。而錯誤的思想就是我們不能夠吸收、證明、確定和證實的思想。”“集中精力提出一種思想和理想，作為認識和糾正具體社會弊端的方法，而不是提出什麼天國或遙遙無期而無法實現的目標。”（1）

當前我們極其需要的是部件清單，而這個清單是由部件的“個體”組成的。這些“個體”能否通過證明，證實它存在的合法性和合理性是問題的關鍵。

一、部件合理性證明的依據

我們已在第五章裏遵照字形結構原理分析出部件的基本屬性。部件既然有基本屬性，那麼它就不是“因人而異”的、任何人可以隨意“優選”的。部件作為構建漢字編碼設計學基礎，不僅應該定性，而且應該定量。它的客觀存在應該通過證明而得到。每一個部件，必需符合部件定義中所規定的本質屬性。我們的部件清單裏，還有個別部件不能獲得證明，建議大家一起討論，達成共識，不要因為個別的部件，否定整張清單。

運用部件定義的屬性，證明部件產生的合理性、合法性，可以克服編碼設計中部件產生的隨意性。算不算部件，不應由設計人決定，隻能由部件的屬性來確定。表形碼也存在著同樣的缺陷，其中也有隨意確定的部件。例如它表中的“”，是從“既”的右邊拆出來，還把上麵的一個橫筆拆開。我們審查過所有漢字，如“既、暨、簪、譖、僭……”等，都沒有發現“”可以“相對獨立”存在。它與頂上的橫筆，都是一起出現組字的，因此，把“”作為部件，學習者心理上就不容易接受。應該把頂上的橫筆恢複，使“旡”成為一個部件。有人卻認為“無”可以拆為“一、尢”，那麼“旡”也可以拆。我們認為“無”字下麵的“尢”，在“尤、優……”等字中隨時可以見到，把頂上的橫筆拆出，心理上是可以接受的。而“旡”卻不存在這種情況。再如表形碼的第一個版本隻有三個組合部件“魚、、钅”，到第二個版本，就有了八個組合部件了（如為輸入方便，應在取碼時解決）。這種隨意確定部件，就無法進行證明。

按部件的兩種屬性，一個一個地證明部件的合理性，可以更好地完善部件清單，不使部件的產生和存在有個人成分，以有利學習和記憶。

二、部件清單證明的邏輯步驟

根據上述思想，證明工作分為三步：

第一步，把成字部件和新華字典中的部首（指兩個筆畫以上的“塊”）先行“過濾”。根據筆者研究，這些成字部件除最後七個沒有拚字能力的之外，在拚字時都是有多顯性間隙的，在拆分時最符合認知心理。這些部件隻要一張清單就可以。

成字部件125個，括弧中為字例：

一（旦）、乙（億）、二（仁）、八（扒）、三（參）、川（順）、小（尖）、火（炎）、心（芯）、六（冥）、立（位）、北（背）、兆（逃）、非（排）、主（住）、十（什）、力（加）、九（仇）、廿（庶）、甘（疳）、世（屜）、卅（帶）、冊（刪）、中（忠）、豐（峰）、韋（偉）、申（伸）、串（患）、聿（津）、西（灑）、酉（酒）、井（講）、弗（佛）、匕（化）、七（柒）、也（他）、屯（噸）、電（奄）、車（陣）、弋（代）、戈（找）、戔（錢）、曳（拽）、子（仔）、孑（孔）、口（唱）、日（暗）、曰（倡）、目（淚）、耳（職）、且（疽）、四（泗）、皿（盆）、母（每）、田（備）、屍（戶）、尹（伊）、又（僅）、及（芨）、女（汝）、瓦（甌）、臼（舅）、門（們）、刀（召）、乃（仍）、山（仙）、巾（帽）、習（翁）、夕（多）、巨（拒）、臣（宦）、月（朋）、丹（彤）、冉（髯）、人（合）、入（汆）、了（丞）、幺（幻）、弓（弘）、片（版）、爿（寐）、豕（家）、廠（仄）、廣（慶）、大（奮）、夫（扶）、夷（姨）、央（英）、丈（仗）、史（駛）、吏（使）、木（休）、末（沫）、未（味）、本（體）、耒（耕）、束（刺）、果（顆）、柬（楝）、兒（兄）、幾（殳）、蟲（蠶）、禺（偶）、丁（叮）、不（杯）、幹（杆）、於（籲）、甲（押）、上（讓）、止（址）、士（仕）、土（肚）、由（宙）、工（攻）、正（征）、王（狂）、五（吾）、裏（狸）、事、乜、曲、孓、凹、凸、毋。

所謂部首都是指有相當數量的拚字能力，同時有明顯的顯性間隙。部首（47個）：

丷、冫、刂、彡、氵、巛、、灬、、爫、訁、亠、礻、衤、艸、廾、肀（）、扌、覀、罒、囗、卩、阝、夂、攵、厶、凵、匚、冂、冖、宀、、、勹、彐、、、犭、疒、廴、辶、尢、、忄、亻、糸、。

第二步，有許多非字部件，由於拚字量不高，或因構字時位於漢字的中間，沒有被選為部首，但它們也帶有明明的間隙，可一目了然看出，在拆分時也很容易認知。這些部件需要舉出一些例字來證明，例如“”，它與“廣”構成了“庸”。有的部件，如“”，它在“已”中是粘連為一塊的，但在“假”字中，有明顯間隙，因此，把“已”字拆為“、乚”，在心理上可以接受的，何況，“己、已、巳”三個字，都是靠“”在“乚”的豎筆上上下移動而得以區別的。因此，它們的拆分心理上也是可以接受的。

有明顯間隙的部件（147個）

第三步是餘下的一批帶有隱性間隙的部件（50個）。證明這一批部件的方法可以用下麵的表格：存在間隙的理由分為：①在基本結構外的單獨撇筆；②不同的筆畫走勢；③與成字部件或它們變體相接；④兩個不同的筆畫結構；⑤戈字類部件的橫筆左右兩用。

有隱性間隙的部件（50個）

三、部件清單的拓展及難題

我們已經把本部件清單中的368個部件證明完畢。這張清單中的部件，是從國標二級字庫的6763個漢字裏分解出來的。利用漢字的天然間隙從漢字中分解出部件，當然最符合認知心理。今後不管漢字集如何擴大，這種分解方法，照常可使用於任何一個新增漢字，不管它是日本漢字或南韓漢字；不管它是地方漢字或繁體字；不管它是現代簡體字，或古老的死漢字。因為，所有的漢字都是由部件以拚形的方法造出來的。利用“筆畫結構塊”的概念，對新增加的少量的部件，按它們的結構和特征使它們“對號入座”，任何一個新部件，都離不開七個基本筆畫結構類型和本部件表中的48種特征類。筆者曾經試編過含有20902個漢字的字符集，大約要增加60個左右的部件就可以了（見附錄三）。

根據以上分析，368個部件中，隻有“、、、、、”六個無法得到證明，其中三個是單筆部件。“、”無法從任何一個漢字中得到它具有“相對獨立性”的證明。“”僅拚出“丐、鈣”兩個字；“”僅拚出“尺、遲、盡、久、灸”等幾個字，要不要拆出作為部件。如果覺得不妥，也可以把“丐、尺、久”都作為部件，列入部件表中，需要大家認真討論，是增加兩個單筆部件好，還是增加三個筆塊部件好。總之，必須進行科學的、有依據的考慮。“、、、”是一個死結，來自“舞、羌、醜、巴”以及由它們所拚出的如“扭、鈕、爸、笆、把……”等字，怎麼辦？要作人為規定。我們的意見是“”下麵的一橫應該拆掉，因有利於分入相交型，這樣也有利於拆分；“醜”可作為一個部件，或者拆為“、十”兩個部件；“巴”應該拆為“、乚”兩個部件，因有利於拉長碼位。拉長碼位，使漢字形成線性形式。漢字內部的部件排列，實際已含有線性，隻不過不象拚音文字那麼明顯而已。隻要我們按每個拆出部件的第一個筆畫的先後，順序排列這些部件，它的線性就昭然了。

7.2部件類和部件的排序

一、排序的意義

研製漢字編碼是為了使無序的漢字，帶上一套有序的符號，使漢字序性化。這就是說，序，是研製漢字編碼的目的。然而，因研製編碼，拆分漢字而產生了部件清單。清單中的部件，也都是雜亂無序的，也應該給它們排序。給部件類和部件排序，能夠使幾百個雜亂的部件構成一個嚴密的係統。

上麵部件清單中的部件類，在其結構型中的每個類和每個類中的部件，都已經排好了序位。讀者一看就會明白。這種排序方法是我們最新研究的成果。將國標二級字庫6763個漢字拆分為368個（表形碼為386個）部件，分為七個型，四十八個類。少數類別的部件數目不多，大多數類的部件，都在五個以上，最多達二十五個。因此，想把368個部件統統記住，還是比較困難。有的部件使用頻度和組字頻度都不高，更容易忘記。如果能利用係統記憶的方法，先記住分類係統的七個型，再記每個型的特征類和部件數，就比較容易了。

部件以其特征歸類，特征一致，隻是字形稍有變異，或因筆形、方位的變化，或因筆畫的增減。由於采用形象對應配置部件類的代碼，記住部件類也就等於記住了代碼。因此，記住部件的分類係統之後，接著就必須記每個類的部件。如果能夠給每個部件類的部件排序，使其有一定的序位，前後有一定的關聯，就可以減少記憶量。記住每個部件類的部件和特征，看到任何一個字，就可以很快編出它們的代碼，不會再存在拆分與編代碼時的二義性了。

二、排序的方法

排序的方法，可以由少到多，由多到少；由小至大，由大至小，使其左右部件構成相互聯係，從而帶來聯想。

部件類以字形特征得以集合，部件以字形變化得以區別，因此，利用這種變化關係來排序的方法稱為形變序。

產生形變的原因有以下幾種：

1.筆畫數：如“大、夫、”，“大”字上的內橫筆數遞增。

2.方向：如“丷、、冫、”上、下、左、右的方向發生了變化。