《中文數位探索》:現代中文電腦的曲折旅程,以及我的親身經歷

墨磊寧的《中文數位探索:從漢字輸入到電腦中文化的壯闊歷程》是《中文打字機:機械書寫時代的漢字輸入進化史》的續作。延續一貫嚴謹的考據風格,深入探討現代中文輸入法與中文電腦的形成過程。

《中文數位探索》:現代中文電腦的曲折旅程,以及我的親身經歷

不過書中忽略了台灣的發展,也遺漏了一些關鍵的語言與技術現象。我親身經歷了書中第五、第六章所描述的時代。1983 年,我擁有了人生第一台個人電腦。而在上世紀最後十年中文電腦尚未成熟之際,我在美國生活。有些觀察或許可以作為本書的延伸。

1983 年的個人電腦

那年我的電腦是無敵 XT-80,一台 Apple II 相容的個人電腦。接上擴充卡後可以顯示中文,但只能在這台電腦運作。正如書中第五章所說,這些「改裝」經常面臨相容性問題,只能算是愛好者的玩具。

標準的中文內碼、輸出入規格、軟體與周邊裝置的支援,都還需要幾年時間,到 IBM PC 的時期才逐漸到位。

5401 字:中文電腦的魔法數字

中文字佔空間:鉛字佔實體空間,電腦字型佔記憶體,而兩者都寸土寸金。書中提到高仲芹在 1940 年代提出 5400 字已足夠日常使用。

1986 年,倚天中文推出第一代 MS-DOS 中文系統「飛碟一號」,僅一片 360K 磁碟片,內建 5401 個字。這個數字神奇地呼應了數十年前的預言,也是大五碼(Big5)的基礎。

16×16 點陣:壓縮的美學

16×16 點陣是在電腦上顯示一個中文字的最小空間。從倚天中文到早期 Windows 系統都是如此。當年我為了做閱讀心理學實驗,甚至寫過程式讓未裝中文系統的電腦也能顯示這些字型。

時至今日,仍可在公共設施如公共運輸場站與運具上見到它們的身影。如何把複雜的文字塞進這個小小的點陣,同時兼顧美觀、易識?這是中文資訊史中被忽略的環節。這本書也未觸及,有點可惜。

漢字拉丁化的短暫復興

1990 年代初期,電腦與網際網路漸漸普及,但中文系統仍未全面普及。在美國的中國留學生面對沒有中文的電腦,開始大量使用漢語拼音直接拼寫中文(例如「Hànzì Lādīnghuà de duǎnzhàn fùxīng」,通常不帶調),成為一種臨時但實用的替代方案。

這個現象很妙。百年前中國的語文改革者想用這個方式廢漢字,後來當然失敗了。但在新時代技術發展的某個階段,因為某種瓶頸,「漢字拉丁化」就這樣短暫復興了。

詞頻、詞庫與輸入法

書中第六章談智慧型輸入法,但沒提到台灣早期的重要系統:1990 年推出的國音/自然輸入法。該系統是根據中研院平衡語料庫訓練出來的,有學術、技術與實用的歷史定位。

同樣是 1990 年代,當時我自己因研究中文斷詞而苦於找不到開源詞庫與詞頻資料,便自己動手整理,甚至釋出自己寫的斷詞工具。後來還做過歷年大學聯考榜單的中文姓名語料庫。當然很多技術都過時了。卻也的確曾經為中文電腦的推進出了一些力。

按鍵手機時代:所有的語言都必須「輸入」

早期的手機都是輸字鍵盤,連 QWERTY 鍵盤都沒有。這也讓全世界所有語言的輸入都不再是所見即所得,而必須體驗到中文輸入的「檢索」性:「2」按一下是「A」、按兩下是「B」、按三下是「C」……

預測性的輸入法如 T9 便應運而生。我印象中早期跟他們的開發團隊有過一些交流,他們就用到了中文字頻來預測輸入。T9 如今也走入歷史了,但它仍是輸入法史上重要的一章。

延伸閱讀