正文 第四章 IBMpc漢字信息處理簡介(一)(1 / 3)

第一節 IBMpc漢字信息處理係統的構成

一、概述

眾所周知,漢字字種之多,在世界各國文字中占首位,屬大字符集語種。根據對我國漢字使用頻度的研究,可把漢字分為高頻字(約100個),常用字(約3000個),次常用字(約4000個),罕見字(約8000個)和死字(約45000個)。也就是說,正在使用的漢字字種達15000餘個。根據我國1981年公布的《信息交換用漢字編碼字符集一基本集》GB2312—80方案,把高頻字、常用字和次常用字歸結為漢字基本字符集(共6763個字),再按出現的頻度分為一級漢字3755個(按拚音排序)和二級漢字3008個(按部首排序),加上西文字母、數字、圈形符號等700多個,如果再加上用戶自行定義的專用漢字和符號等,那末一個適用的漢字係統應具有能處理多達8000餘個漢字字符的能力。

代碼表分成94個區,每區94位,區編號為第一個字節,位編號為第二個字節。因此漢字必須由兩個字節來表示,而西文字母隻需一個字節來表示。為了保證中、西文的兼容性,一字節的西文代碼應能與漢字字符相互有所區別,這就帶來了漢字代碼在計算機內表示的複雜性,所以漢字操作係統要具有很強的兼容性。

此外,漢字字形遠比西文字母的字形複雜,它的筆畫繁簡不一,少至一筆一個字,多至三十畫一個字,筆畫方向及形狀變化也多用計算機顯示漢字時,通常是把早漢字禽散成網點,每點以一個二進位表示,這就組成了漢字的點陣式字模。依據信息交換用漢字點陣字模的國家標準起草工作組的建議,三種規格的漢字點陣。

顯然,為了實現近8000個漢字在12從公司個人計算機上的顯示和打印,就必須為它配備一個龐大的漢字點陣字模庫。

漢字係統的構成。圖中漢字字模庫、漢字打印機、漢字整字鍵盤等硬件,以及漢字處理軟件(包括漢字輸入、顯示、打印模塊)等均為處理漢字信息所必須的擴充部分。下麵分別簡要介紹在見的…機上實現漢字輸入、顯示和打印的方法。

二、漢字輸入技術

為了能使用西文鍵盤進行漢字輸入,就必須為漢字設計相應的編碼,即用字母數字串來代替漢字。下麵介紹常見的幾種方法,並注意它們的體等卷和寧,學令。

1.國標碼和國標區位碼

國標碼就是中華人民共和國國家標準信息交換用漢字編碼所規定的機器內部編碼。每個漢字對應用4個十六進製數字表示,在鍵盤上鍵入4次即可輸入一個漢字,其優點是無重碼,但難以記憶。

國標區位媽是國標碼的一種變形。它把崮標漢字分為94區,其中1-15區是字每、符號I16-87區為一、二級漢字、每區分94位,這樣每個漢字就可用二-十進製區碼和位碼來表示,輸入一個漢字,這種做法雖然便於查找,但同樣難以記憶。

2.拚音碼

這是以文字改革委員會公布的漢字拚音方案為基礎的輸入編碼,隻要掌握漢語拚音,便可以輸入漢字,不需要記憶是其最重要的特點,因此人們樂於使用。但由於漢字同音字為數眾多,拚音字母鍵入後還必須進行同音字選擇,故輸入速度。

3.首尾碼

這是對漢字字形(部首)進行簡化後規定的編碼,編碼的記憶量少,使用較方便。

將漢字的左上部筆畫約定為字首碼,右下部筆畫約定為字尾碼。分首尾的原則是先左右,後高低,不分筆畫順序;對於內外形漢字,取外形為字首,內形為字尾。例如:

琉:字首碼為“王”,字尾碼為“兒”

田:字首碼為“口”,字尾碼為“+”

因此,隻要按兩次鍵,即可輸入一個漢字。然而用以上方法表示的漢字仍然有重碼,還要通過選擇的方法確定所需輸入的是哪一個漢字。此外,也可在首尾碼後再添加一個“首音”碼,即該漢字拚音的第1個字母,如“琉”為。“田”為叭這樣就可以使重碼率大大減少,提高了輸入效率。

此方法較複雜,不易記憶,一般應用時,在字母數字鍵上刻上相應筆形,組成便於首尾碼輸入的鍵盤。

4.聲韻部形碼

這是根據漢語拚音和字形結構兩個因素所規定的漢字編碼。編碼規則雖然較複雜,需要記憶,但是無重碼。常用字隻需1-2鍵即可完成輸入,一般漢字也隻要輸入4鍵,總的輸入效率釹高,適合於專業操作人員棱用。

在聲韻部形碼編碼法中,每個漢字按聲母、韻母、部首分類碼、起筆碼四個細芬各一個字母組成,對應的碼可由聲韻碼表、部首分類表以及起筆對照表來確定。

為提高輸入效率,聲韻部形碼對常用字的編碼作了簡化。如“我”的編碼為界,“的”的編碼為0等等。因此敲一個鍵即可完成某些常用漢字的輸入。

5.電報碼

這是把郵電係統已廣為使用的電報明碼直接作為漢字輸入的方式,每個漢字用4位數字表示,這對於郵電部門專業人員是極為適宜的。

6.漢字整字鍵盤輸入

以上漢字編碼輸入方法是直接使用微機的字母、數字鍵盤進行輸入操作的。但由於編碼法大多需要記憶,難以為一般用戶所接受。為此,有時還加配一個專門用於漢字輸入的整字鍵盤(俗稱“漢字大鍵盤”),作為漢字的輔助輸入設備。漢字整字鍵盤是一種專用的外部設備。按鍵麵漢字字數可分為鍵盤(兩千字左右)和鍵盤(四千字左右)兩種。