三百零八節 卡片標準(2 / 2)

“穿孔卡的每一列可用來記錄一個字符,包括從0到9的數字和26個英文字母,以及若幹種符號,如等號,百分號等。每列記錄一個字符,整個卡片共可以記錄80個字符。”

“字符通過打孔實現,某列如果要表達一個數字,直接在第0行到第9行的對應行穿孔。如果某列要表達一個英文字母,則需要高區和數字區同時打孔。通常頂端還會印製該列的取值作為參考,具體方案請大家翻到資料附錄2。”

穿孔卡片的每一列都能夠存儲1個英文字母,其方案為:12-1A11-1J0-1/12-2B11-2K0-2S12-3C11-3L0-3T12-4D11-4M0-4U12-5E11-5N0-5V12-6F11-6O0-6W12-7G11-7P0-7X12-8H11-8Q0-8Y12-9I11-9R0-9Z

“三行區上打孔,搭配1-9數字行打孔,共有3x9=27中方案,除去0-1位置表示特殊符號‘斜線’,剛好能表示26個字母。有意思的是,之所以用0-1表示斜線,則是因為整個方案中,就隻有這個編碼兩個孔的距離最近,技術實現難度較大。此外,其他的特殊符號則可以用每列穿3個孔的若幹方案解決。霍勒裏思代碼裏僅用了8號孔作為搭配的孔,但這同時也揭示了,3孔編碼在技術上是可能的。”

“之所以提到3孔編碼,是考慮到中文編碼的問題。”

這時會場出現了不少竊竊私語的聲音。中文的編碼是元老院應用穿孔卡的一大問題。當年穿孔卡計算機沒有在國內自行生產,用途也不廣泛,實際並無標準的中文編碼方法。

穿孔卡比起元老們熟知的數據存儲載體,容量實在小得可憐,每張18.7x8.3的卡片隻能存80個字符,還隻是英文字母。如果要是政府或者商務的業務處理也就罷了,大不了多用標準編號,比如幾年前司凱德和洪璜楠力推的國家標準代碼體係,終於有了用武之地。

僅就眼下人口普查的需求來說,性別、籍貫、出生地、出生時間、現居所、文化水平、家庭成分等問題其實都可以很容易地通過編碼解決,過去18位身份證上麵僅用了6位就表示了全國每個人的出生地。原因很簡單,命中每一個編碼的人都很多,編製編碼表是合適的。學過數據庫的人畫個ER圖就很容易發現本來就應該這麼做。但是唯有一個字段,就是姓名,永遠也繞不過中文編碼的問題。人口普查表各字段的具體設計工作可以丟給民生省的人,可是這中文編碼必須現在解決。

“其實中文編碼問題不難解決,問題是占用空間太大。”

“1980年頒布的《信息交換用漢字編碼字符集》,通稱GB2312編碼,不僅僅規定了漢字在計算機上的表示方法,其實也定義了一套使用4位十進製數字表示漢字的方法,就是區位碼。區位碼收錄了一級漢字3755個,二級漢字3008個,符號682個,基本滿足當前需求。所以最簡單的中文編碼方法就是每4列編碼一個漢字,大家以前高考的時候都塗過自己的姓名,當時用的就是區位碼。”

“目前郵電部在全島的電報係統已經基本鋪設完成,電報員也培訓了好幾批。我看是不是直接用我們的標準中文電碼更方便?人手也可以通用。”這時一直沒怎麼發言的紹宗開口了。

“區位碼在每級漢字內部排序是按照拚音順序,不怎麼用培訓吧。反而是標準電碼是按部首排序的,實際上比掌握區位碼難得多。”

“標準電碼從19世紀末就有雛形,直接從清朝那時就編製了,是現階段漢字編碼的自然之選。”

“說話容易還是寫字容易?標準電碼從字形入手那是因為開始用電報的都是讀書人階層。我們的國民普及教育從拚音入手實際已經顛覆了過去的體係,普通人當然是用區位碼更方便。”

“美國護照當年用的可一直是標準電碼。”

------------------------------------

下次更新:第七卷:大陸-兩廣攻略篇第35節

-------------------------------

臨高啟明實體書珍藏版第一卷正在預售中,有意者就關注臨高啟明公眾號。

公眾號臨高啟明——

臨高啟明書迷根據地

吹牛者的消息版;

介紹梳理重要人物、事件信息;

展示臨高社區風采,優秀同人和資料作品巡展;

不定期組織元老們線上或線下的聚會;

Inaword,SenatusPopulusqueMagnus

。您提供大神吹牛者的臨高啟明結局