2007年7月18日 星期三

繁體中文字碼發展史

國內中文字碼之發展

http://www.math.ncu.edu.tw/~shann/Chinese/bbs97.html

這是 rux@cis_nctu (亦驢) 在 交大資科_BBS (Wed May 28 20:55:57 1997) 張貼的文告,抄錄於此,以免遺失。原文是純文字檔案,我將它稍事編輯,成為網頁。

我國最早之中文字碼為民國六十九年提出之「中文資訊交換碼」 (Chinese Character Code for Information Interchange, CCCII)。訂定此碼的原動力是美國急需使用電腦處理東亞語文資料,因此派遣負責人赴東亞考察。當時只有日本訂定資訊碼標準 JIS C 6226 。在「只此一家,別無分號」的情況下,美方初步決定採用此標準。我華裔美國亞東圖書館代表與我國代表極力反對,說明日本漢字無法代表中國文字的理由,並允諾四個月之後提出我方之標準。

我方代表返國之後,上書政務委員李國鼎及國科會、中美會等單位,集合國內一批文字學家、圖書館學家、以及電腦學者,組成臨時性質之任務編組:國字整理小組。經過謹慎考察、研究,一套涵蓋中日韓各國語文、以及繁體、簡體、異體等等之「中文資訊交換碼」出爐了。此碼終為美方接受為處理中日韓資料之正規標準。至今仍有許多圖書館系統採用,因為只有此碼才能擔當這個重任。

CCCII 在國外受到歡迎,在國內卻遭受排擠。有心人士或是想在歷史留名;或是自認官大學問大。用盡各種方法打擊 CCCII,並玩起編碼遊戲。這個遊戲,為咱們中文字碼的悲劇「萬碼奔騰」揭開了序幕。我想這個編碼遊戲,至少讓國內的資訊工業停滯五年。

下列兩本書,詳細記載了這一段歷史,以及 CCCII 的技術資料。在本文之後,我從第二本書抄錄一個章節,供無法借到這兩本書的網友參考。打這篇文章的目的,一方面是前一陣子有許多網友詢問到 CCCII;另一方面,讓網友瞭解現在我們使用的中文內碼的訂定過程是如何草率。

一、書名:中文字碼:萬碼奔騰,一碼當先作者:黃大一出版:永麒科技

二、書名:國字整理小組十年作者:謝清俊、黃克東出版:資訊應用國字整理小組

以下文章摘錄自「國字整理小組十年」p15-p18

四、國內外局勢之發展

(一)國內中文字碼之發展

國內有識之士早在民國六十六年起,就多次提起制訂中文字碼的事情。可惜當時由於國內沒有標準字形而受阻。此事在六十七年、六十八年之國建會及近代工程討論會中,亦曾討論,甚至有決議作成。然而終究因字形整理的問題而拖延著。至六十八年,教育部公佈了 4808 個常用字的標準字形後,編字碼的是才有一線希望。

中文資訊交換碼之所以能在六十九年三月發表,實拜教育部公佈標準常用字形之賜。然而,在當時,除上述之標準字形外,餘無標準字形。於是國字小組只得負擔起後續的工作,以期能在七十年將 CCCII 擴充到可實用的字數,並能符合國際上日益迫切之需求,來維護我們的傳統文字。

當民國六十九年三月中文資訊交換碼發表之事傳到國內以後,並未受到應有的重視和獎勵,反而引起了杯葛、謾罵、和各種侮辱的情形,此誠始料未及。

引起這種情況的主要原因是:在六十八年國建會的建議中,曾建議我國編中文字碼,而行政院將此案交主計處電子處理資料中心研究。因此,該單位獲知 CCCII 發表後,赫然震怒。認為國字小組破壞政府體制,此事應該由他們做才是。於是在民國六十九年五月,召開會議決定要另做一碼。當時國字小組有人出席該次會議,曾即席說明編制 CCCII 之原委,並說明 CCCII 發表時沒有作者,這純是為了國家,為了維護文字和文化先鋒。同時表示願和主計處電子處理資料中心合作或甚至交給他們繼續未完之工作,大家戮力一致對外。非常可惜的是此建議並未為主計處電子處理資料中心接受,反而一意孤行,非另做一碼不可。

為協調此爭執,有該年九月間在溪頭開的會議。在溪頭開的會議中,國字小組代表對編碼的作業有詳細的報告。在當時,國內翠於 ISO 資訊交換的相關標準之了解實在貧乏的可憐,與會人員不明白 ISO-646 及 ISO-2022 是做什麼的,因此對 CCCII 之編碼技術無法體認。當然也就不明白 CCCII 的長處了。國字小組之成員雖然全力說明,然而在主事人以政治手段解決技術問題的作法之下,以為再編一碼亦非難事,而且還可以平息爭端,斷然宣佈要再設計一碼作為解決之道,由此開啟了中文字碼十年混亂之情,迄今仍然遺禍社會無法解決。

經溪頭會議後,主計處電子處理資料中心邀王金土根據決議所編之碼為「中文資訊標準碼」,並於民國七十年發表 (記錄上是二月,而事實上到六月才完稿)。此碼完全不理會 ISO 之相關標準,獨斷專行,在碼的結構上主觀幼稚,在文字上則由個人任意挑選。當然,這種碼是不能用的,然而主事者並不相信,反而行文各單位要求採用。經過日本 NEC 及 FACOM 之技術人員在警政署強烈抗議之下,才明白此碼真不可用,只得偃旗息鼓自行收回。然而其耗費之公帑,即以印刷而言,上千本二吋厚之巨著就此報廢,更遑論其人力、物力,和時間之投入,合法之浪費莫以此為甚。

事實上,由此事件之教訓,主事者應該明白溪頭會議之錯誤,以及編碼是涉及計算機技術與我固有文字學之事,不是無知之輩想得那麼簡單。若是就此收兵,也就罷了。可嘆的是,在此過程中,主辦單位應用各報章媒體,造成許多打擊國字小組,對 CCCII 之技術成就惡意曲解,似是而非的謬論,一意認定他們自己是對的。當發現所編的王金土碼不能時,竟惱羞成怒,執意非再做一個碼不可。至此情形,已非理性之爭,而是以一己之私,一念之差,置國家社會利益不顧地孤行到底了。

於是主事者另起一灶,又行設計第二套碼,在民國七十一年七月發表,這碼名為「中文資訊標準交換碼」。然而,此碼並未完全做完,同年九月又補充附冊。這些碼雖然號稱採用 ISO-646 及 ISO-2022 標準,然而,又不真正認真執行,所以徒具虛名,且七月發表和九月補充的字碼均不同, (詳情請表一) 。當然此碼依然不能用!

雖然又失敗了,可是主事者巧言隱瞞事實,暗地裡再整旗鼓,又做一碼: 「通用漢字標準交換碼」並於民國七十二年十月發表。經過以前這許多失敗之經驗,又從 CCCII 學到不少技術,這一次充滿信心竟以國家標準為支柱,以行政命令強行推銷此碼,此舉已干犯到國家標準不是強制性質的原則了。

雖然此碼修正了許多過去之缺失,也越來越神似 CCCII,可是主事者所堅持的: 以一萬三千字為限的錯誤決定,仍然使得此碼窒礙難行。許多廠商為應付採購程序上非要用國家標準的箝制,在電腦中安置了此碼,然而實際上又不用。形成了可笑亦復可悲的瞞天過海的情形。這種情形不知造成了多少電腦資源上的浪費,對政府形象之傷害更是無以言喻!

之後,由於大家心裡明白此碼不可不用又不得不用的情況下,只好再造一碼,即「五大專案碼」之誕生。爾後,至民國七十五年「通用漢字標準交換碼」又更新一次版本,字碼又換一次,從民國七十年至七十五年之五年中,六次變易,世界上找不出這樣子做的「國家標準」。不僅這個過程無法統一字碼,為工業界造福,反而造成天下大亂,國內中文碼之亂,此實為罪魁禍首。

到今天,這個碼除了在個人電腦中可用以外,稍微大一些的系統都不夠用,它仍然是採購上必要而又無用的一個設備罷了。無論在台電,自來水、瓦斯、電信局、警政署、海關、外貿會、出版社、報社、財稅... 此碼的字均不夠用,更不必談到國家級的系統,像戶政、地政、財稅、圖書館等等系統了。

這麼多年來,主持通用中文標準交換碼的人員對中文資訊交換碼之攻擊和打擊不遺餘力,凡有中文資訊交換碼之廠商竟不敢明言,以免遭排擠。對通用中文標準碼以行政命令強制推行,若任何中文系統無此碼者則禁止公家機構採購。在標準法中明白說明國家標準無強制性,然而有關單位竟一意孤行。

在這麼惡劣的環境下,通用碼無法取得使用上之優勢,實在是該碼設計上缺陷累累 (見經建會民國七十七年九月製版之 "中共電腦業之發展及其對我之影響 P.173),否則以國家政令之力,豈有中文資訊交換碼活命之空間?

表一 中文標準碼自民國 70 年至 75 年歷年變遷簡表

名稱 中文資訊標準碼 中文資訊 標準交換碼 中文資訊 標準交換碼 (附冊) 通用漢字 標準交換碼 五大專案碼 通用漢字 標準交換碼
發表時間 70年二月 71年七月 71年九月 72年十月 73年三月 75年三月
發表單位 主計處 國科會 教育部 標準局 主計處 同左 同左 資策會 工業局 國科會 教育部 標準局 主計處
主持人 李克昌 何宜慈 何宜慈 何宜慈 果芸 何宜慈
承辦單位 行政院 主計處 電子資料 處理中心 同左 同左 同左 不詳 (十三家業者) 行政院 主計處 電子資料 處理中心
結構 2 8-bit bytes 二元碼 同左 同左 同左 同左 同左
字位 32,768 (奇數碼) 35,344 35,344 35,344 35,344 35,344
字構 16,000 字, 王金土 【辭海】中 任意選出 4,808 (常用字) 4,808 (常用字) 5,401 (4421-7D4B) 13,053 (30A1-FBE2) 5,401 常用字 7,652 次常用字 5,401 (4421-7D4B) 7,650 (2121-7244)
字序 1.總筆劃 2.部首 同左 1.部首 2.總筆劃 1.總筆劃 2.部首 同左 同左
ISO 完全不合 合 ISO-646 部份合 ISO-2022 同左 同左 同左 同左
獨一性 不合常用字一
涵蓋性 不合: 僅 32768 字位 不合: 總字4,808 同左 不合: 總字 13,053 同左 同左
擴充性 不合: 無法擴充 不合: 總字數35,344 同左 不合: 無法擴充 不合: 總字數35,344
試用 不能使用 主計處 自行收回 無人試用 業者字數 超過 8,000 同左 無業者採用 75年三月 宣佈放棄 多家採用 外來程式 有問題

中 華 民 國

031F 36AB 05C1 2730 4C50 6675 4E4A 5F54 4C26 712B 623B 535E 4463 615E 4661 594F 或 32F6 B1AE 39EF A138 A4A4 B5D8 A5C1 B0EA 4463 615E 4661 594F

亦驢註:想知道主計處編出來的第一套碼有多荒誕,可以看看上表最後一項。

「中華民國」的內碼為 031F 。在 ASCII 標準中 03、1F 都是控制碼。在以 ASCII 為主的電腦世界,這個字碼不是非常荒謬嗎?

亦驢人驢名亦驢(不可再驢下去) 成大電研計算機 rux@eembox.ncku.edu.tw


Created: Oct 4, 2000 Last Revised: Oct 4, 2000

* Mozilla 系列與 Big5 中文字碼 http://www.moztw.org/docs/big5/

* BIG5-2003 http://www.cns11643.gov.tw/web/big5/

* Unicode 補完計画 http://uao.cpatch.org/

* CP950 mapping table http://www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP950.TXT

* UTF8 終端機 http://www.csie.ntu.edu.tw/%7Eb88062/i18n/utf8term.html

「俗體字」參考表 年底會訂出

創造繁體字價值!