我一直覺得華語世界欠缺以使用者為中心的現代化的辭典。「以使用者為中心」指的是辭典要讓使用者有足夠的資訊判斷某詞在某語境的意義,以及是否適合以某種方式在某語境使用某詞。「現代化」指的是類似 COBUILD 的作法,以現代的真實語料為基礎,產生包括詞條、詞類、解釋、以及大量例句等核心內容。
很多人逛書店應該都跟我有一樣的印象:書店架上陳列的華語辭典多半像是給小學生用的,少部分則像是給古人用的。現代台灣的成年人不用語文工具書,就算想用也買不到合適的。難怪很多人的語文能力只有小學生水平,甚至連小學水平都不到。
從認知與語言心理學的角度來看,語言的使用是人們適應環境的關鍵能力之一。從語言學的角度來看,好的辭典不僅是好的工具,更是一個語言的詞彙庫(lexicon)的代表性樣本。然而傳統的華語辭典內容不論是在詞類或語意上都未能精準反映語言實際使用的情況,使得不論學者或大眾都難以建立對華語詞彙庫的全貌觀。
台灣有足夠的基礎來編這樣一套辭典。中研院詞庫小組早在二十年前就有一個八萬目詞的詞庫以及足夠規模的華文語料庫。而且是分詞語料庫,每一個詞都有詞類標記。這個語料庫主要用於語言學的研究。我自己就曾以電腦程式完整分析過 1998 年的平衡語料庫 3.0 版,並以該語料庫做過閱讀時的眼動與認詞歷程的電腦模擬。
Bank of English,Collins COBUILD 的語料庫,目前的規模是四億五千萬詞。然而這個語料庫在 1987 年第一本 COBUILD 辭典出版時只有兩千萬詞,當年的技術當然也很原始。兩相對照,一千萬詞規模的中研院平衡語料庫 4.0 版應該還是堪用的。即使要擴充語料,以今日的技術水平也不是太困難的事。
這當然是個浩大的工程,必須考量最後產出的商業價值。從使用者經驗的角度,人們在學習、理解與使用語言時獲得協助的需求必定是有的,不買或不用辭典只表示目前的工具並無法有效滿足需求。如果我們在台灣做這件事獲得初步的成果,也可以再往外延伸到全球的華語語料。對出版業來說,這也代表更多出版的機會。這也是為什麼當初 John Sinclair 教授主持的 COBUILD 計畫是由出版社出資的。
我對這樣一套以使用者為中心的現代化華語辭典有如此高的期待,和個人背景也有點關係。我是認知心理學家,專長是教育、語言與閱讀心理學。在這些基礎之上,我還有一些語言學、計算語言學、資訊科學與人因工程的經驗。這些經驗讓我看到的不只是一本辭典,而是跨領域產學合作累積基礎知識與開發實用工具的機會。
個人近年雖然將關注的重心放在以使用者經驗設計為主的應用場域,但對其他專長的興趣還是持續的。只是畢竟時間有限,未必追得上語言學與計算語言學的最新文獻。如果是我孤陋寡聞,我說的這些已經有人在嘗試或已完成,那當然再好不過。如果還沒有人做過,現在是開始的好時機。如果有需要,我願意幫一些忙。