中文網址的未來

在網際網路上,現有的 DNS 架構只能接受 7 位元 ASCII 字元,非 ASCII 字元網址必須經過編碼。域名的部分,必須轉為 punycode,例如「中文」轉為「xn—fiq228c」。路徑與檔名的部分,則必須轉為 percent encoding,例如「中文」轉為「%E4%B8%AD%E6%96%87」。

即使能直接在網址使用中文,中文網址的易用性仍然不佳。能看得懂 ASCII 字元的人,總是比能看懂中文字的人多。就算看得懂,輸入中文還是比輸入 ASCII 字元麻煩;所有的電腦都可以輸入 ASCII 字元,但不是世界上的每部電腦都有你熟悉的中文輸入法。

這就是為什麼我一直對中文網址的未來不太樂觀。不是因為技術上的困難,而是因為易用性的限制。沒有人希望別人看不懂自己印在名片上的中文網址、或是看得懂但不知如何在瀏覽器的網址列輸入。

要在 ASCII 的網址世界中使用中文,最適當的方案就是使用漢語拼音。以「總統大選」這個詞組為例,對懂漢語拼音的人來說,「zongtong_daxuan」(空白以「_」表示)就比「xn—pss775fqrao79c」和「%E7%B8%BD%E7%B5%B1%E5%A4%A7%E9%81%B8」更容易辨識。不懂漢語拼音的人,至少可以認出字母、音節結構與詞單位,輸入網址也不至於太困難。漢語拼音中的非 ASCII 字元「ü」,可以很簡單地依一般的習慣「u」或「v」替代,而不會影響網址的辨識。

如果你不使用拼音,又想讓網址有意義,大概就只能使用英文了。例如,「總統大選」的網址可以是「presidential_election」。英語是國際語言,英文網址對大部分的使用者來說是熟悉且容易辨識的。但是,別忘了不是每個中文使用者都能流利地使用英文。就算是懂英文的人,每次寫篇文章就要翻譯一次標題,還是有點麻煩,畢竟中文有很多用詞或表達方式不是那麼容易翻譯的。

如果你不想中翻英,也不想用拼音,另一個選擇是直接使用數字,例如文章編號。但數字能傳遞的訊息少很多,閱讀伺服器的記錄檔時也不易從網址中的數字看出是哪篇文章。用漢語拼音的好處是不像翻譯成英文那樣費工,就像寫注音一樣容易。而且閱讀伺服器的記錄檔時,很容易從網址看出是哪篇文章。

我在《Taiwan 2.0》的作法是屬於折衷式的。先說域名,「chtsai」是我的姓名的 Wade-Giles 拼音(C. H. Tsai)的連寫。這是護照上的的譯法,因為已經算是我的名字的正式譯法,我就直接依其決定域名。次域名「taiwan」則是英文,但剛好也是漢語拼音「台灣」的拼法。

至於路徑,例如類別與次類別的名稱,則使用英文單詞。主要的考量是讓讀者夠很容易地看出文章的類別歸屬,而我的評估是,此處使用英文的效果會比拼音來得好。而且類別不多,翻譯不會花太多時間。文章的名稱則使用漢語拼音,依漢語拼音正詞法基本規則以詞單位書寫,空白則以「_」表示。只有極少數的技術性文章,例如「OpenOffice.org 簡報範本」系列(),使用的是英文檔名。

其實,從9 年前《布洛卡區》的前身《流浪到香檳》開始,我就已經使用英文類別名稱結合漢語拼音檔名了。只是當年不習慣網址太長,只取每篇文章的前三個字作為檔名,以音節為單位拼寫。現在則是取大約 10 個字,以詞單位拼寫。如果標題很長,就取前 10 字範圍內的第一個詞組。如果完整標題只比 10 個字多一點,就全部拼出來。

拼音網址在台灣並不普遍,一個原因是絕大多數台灣人都覺得拼音是給外國人用的,自己並不熟悉任何一種拼音。很多人都還在使用容易鬧笑話的「蹩腳英文網址」,也不容易體會拼音網址的好處。「拼音盲」其實不是好事,不僅讓一般人民少了一項極為實用的技能,更讓政府制定了許多不適當的政策。

我不曉得台灣整體的拼音盲還會持續多久。我十分希望台灣人能至少熟悉一種拼音,而且要勤於使用,用到比使用注音還熟練。如果你想學拼音,我的建議是學漢語拼音,比較實用。如果你堅持認定用漢語拼音就是不愛台灣,那就學通用拼音吧。

我自己就對漢語通用注音第二式Wade-Giles 拼音都非常熟悉。熟悉的程度讓我可以用漢語或通用拼音以詞為單位,很快地打出一整篇文章。十多年前中文在網路上還不太通的時候,在 IRC 上也是直接用漢語拼音聊天的。

是的,我了解台灣人對漢字、特別是繁體字的依附,我也了解台灣人對拼音、特別是漢語拼音的疏離。我不預期可以說服每一位台灣的讀者,只是說說我的觀察與想法。不論技術如何進步,我還是認為,因為漢語拼音只需 ASCII 即可實踐的極簡風格與易寫易讀的特性,加上它已經是國際標準(ISO 7098:1991),中文網址、特別是域名的未來,不在漢字網址,而會繼續朝向漢語拼音網址的形式發展。

延伸閱讀:網際網路與漢字拉丁化我的拼音與簡體字經驗Google 的「拼音漢字轉換」功能